Uma usuário publicou no Reddit o resultado da montagem de um servidor de IA com oito GeForce RTX 4090D, mas o aspecto mais interessante do projeto não foi o hardware de quase 200 GB de VRAM. Durante a montagem, dois cabos MCIO foram conectados na orientação errada, fazendo duas GPUs negociarem um link PCIe Gen1 x4 em vez de PCIe Gen5 x16. Segundo o autor, isso reduziu o desempenho dessas placas para cerca de 10% até que o problema fosse identificado no manual da placa-mãe.
I built a 8x RTX 4090D with 192 VRAM, here’s what I learnt
by
u/deebuildsthings in
LocalAIServers
O problema parecia estar nas GPUs

De acordo com o relato, o sistema havia sido montado normalmente quando dois dos oito aceleradores passaram a apresentar desempenho muito inferior ao restante do conjunto.
Inicialmente, a suspeita recaiu sobre as próprias placas de vídeo. O hardware foi testado durante cerca de duas horas até que um integrante da equipe resolveu conferir novamente o manual da ASRock Rack GENOA2D24G-2L+.
Foi então que encontraram a causa. Os cabos MCIO utilizados para ligar os adaptadores PCIe pareciam simétricos, mas possuem orientação correta de instalação. Cada cabo tem um lado destinado à placa-mãe e outro ao dispositivo, identificado por um pequeno triângulo em relevo. Dois cabos haviam sido instalados com rotação de 180 graus.

Por que isso afetou tanto o desempenho
As duas placas estavam funcionando em PCIe Gen1 x4, enquanto as demais utilizavam PCIe Gen5 x16. Embora muitos modelos de IA permaneçam carregados na memória das GPUs, a largura de banda da interface PCIe continua sendo importante para a troca de dados entre processadores, armazenamento e aceleradores gráficos. Uma negociação incorreta do link pode criar um gargalo significativo.
O autor afirma que o throughput dessas duas placas caiu para aproximadamente 10% do observado nas demais GPUs do servidor.
Um servidor pensado para oito GPUs
O projeto foi desenvolvido para atender uma equipe que executa modelos de linguagem localmente.
A configuração inclui:
- oito GeForce RTX 4090D, totalizando 192 GB de VRAM;
- dois processadores AMD EPYC 9004 Genoa;
- placa-mãe ASRock Rack GENOA2D24G-2L+;
- quatro fontes de alimentação de 2.000 watts, somando capacidade de 8.000 W;
- gabinete 4U produzido em CNC;
- doze ventoinhas em fluxo frontal.
O consumo fica em torno de 4600W!
A escolha dos processadores teve outro motivo
Apesar de utilizar dois processadores AMD EPYC, o objetivo não era aumentar a capacidade de processamento da CPU. O principal fator foi a quantidade de pistas PCI Express disponível.
Cada processador EPYC da família 9004 oferece até 128 pistas PCIe Gen5. Em sistemas com dois soquetes, parte dessas pistas pode ser utilizada pela interconexão Infinity Fabric (xGMI), reduzindo a quantidade disponível para dispositivos externos.
Segundo o autor, a placa-mãe utilizada opera em configuração 3-link xGMI, liberando 160 pistas PCIe Gen5, quantidade suficiente para alimentar oito GPUs com links PCIe Gen5 x16.
Por que não usar apenas duas RTX Pro 6000?
Nos comentários da publicação, alguns usuários sugeriram que duas RTX Pro 6000 Blackwell entregariam os mesmos 192 GB de memória de vídeo com consumo muito menor.
O responsável pelo projeto concordou que essa seria uma alternativa mais eficiente para muitos cenários.
Ainda assim, explicou que o servidor foi projetado para uso compartilhado por toda a equipe. Segundo ele, oito GPUs oferecem mais largura de banda agregada, permitem executar vários modelos simultaneamente e facilitam o isolamento das cargas de trabalho entre diferentes usuários.
Na avaliação do autor, uma configuração com duas RTX Pro 6000 faria mais sentido para um desenvolvedor individual ou equipes menores. O servidor custou menos de US$ 30 mil, valor reduzido pelo fato de o gabinete ter sido produzido internamente em uma máquina CNC.
O aprendizado
Embora a configuração com oito RTX 4090D seja o aspecto mais chamativo do projeto, a publicação acabou servindo como um alerta para quem trabalha com servidores de alto desempenho. Um detalhe aparentemente simples, a orientação de dois cabos MCIO, foi suficiente para fazer duas GPUs operarem muito abaixo do esperado.
A recomendação deixada por ele no post é conferir a posição dos conectores antes da instalação definitiva das placas. Depois que os adaptadores PCIe são montados, os cabos ficam praticamente inacessíveis, tornando a identificação desse tipo de erro muito mais trabalhosa.



