Mellanox (NVIDIA) MQM9790-NS2F InfiniBand Switch em ação.

May 28, 2026

À medida que clusters de treinamento de IA em grande escala e centros de computação de alto desempenho (HPC) elevam os requisitos de largura de banda e latência da rede a níveis sem precedentes, as soluções Ethernet tradicionais lutam cada vez mais com controle de congestionamento e latência final imprevisível sob cargas de trabalho RDMA. Um importante centro nacional de supercomputação enfrentou recentemente exatamente esse desafio ao atualizar seu cluster de GPU de próxima geração. Depois de avaliar diversas opções de interconexão, a equipe selecionou aMellanox (NVIDIA) MQM9790-NS2Fcomo o switch de estrutura principal — uma decisão que transformou fundamentalmente o perfil de desempenho do cluster.

Antecedentes e Desafio: O Muro da Escalabilidade

A estrutura HDR InfiniBand existente do centro de supercomputação estava operando perto da saturação. Com mais de 2.000 GPUs executando tarefas paralelas de treinamento de IA, operações de comunicação coletiva como all-reduce e all-to-all estavam enfrentando picos significativos de latência final. A rede tornou-se o principal gargalo, causando tempo ocioso da GPU que desperdiçava recursos computacionais e energia. Os engenheiros estimaram que quase 30% dos ciclos de computação foram perdidos devido à sobrecarga de comunicação durante execuções de treinamento distribuído em larga escala.

O que a equipe precisava era de um switch capaz de entregar400 Gb/s por porta, suporte nativo a RDMA e aceleração de computação em rede, tudo isso mantendo a compatibilidade retroativa com a infraestrutura HDR existente. Depois de revisar oFolha de dados MQM9790-NS2Feespecificações deMQM9790-NS2F, eles determinaram que oInterruptor InfiniBand MQM9790-NS2Fofereceu o equilíbrio ideal entre densidade, desempenho e conjunto de recursos.

Solução e implantação: uma atualização de malha NDR de 64 portas

O centro implantou quatroMQM9790-NS2F 400 Gb/s NDR OSFP de 64 portasswitches em uma topologia spin-leaf, interconectando 2.048 GPUs em 64 nós de computação. Cada nó se conecta por meio de um único cabo divisor OSFP para 4x100 Gb/s, fornecendo largura de banda agregada de 400 Gb/s por servidor e otimizando a densidade de gerenciamento de cabos.

Parâmetro de implantação	Configuração
Modelo de troca	NVIDIA Mellanox MQM9790-NS2F(4 unidades)
Configuração da porta	OSFP 64x, NDR de 400 Gb/s por porta
Total de GPUs	2.048 (NVIDIA H100)
Recursos na rede	SHARPv3, roteamento adaptativo, controle de congestionamento

A chave para a implantação foi garantir totalCompatível com MQM9790-NS2Foperação com adaptadores de endpoint HDR existentes. A negociação automática de velocidade do switch e a tradução da camada de link permitiram uma estratégia de migração em fases: os nós legados operam em velocidades HDR, enquanto os novos servidores com capacidade NDR aproveitam a largura de banda total de 400 Gb/s. O centro também utilizou agregação SHARPv3 na rede, reduzindo o tráfego total em mais de 65% para mensagens grandes, comumente encontradas em treinamento LLM.

Para aqueles que avaliam atualizações semelhantes,Preço MQM9790-NS2Fconsultas eMQM9790-NS2F à vendaa disponibilidade aumentou significativamente entre clientes empresariais e de pesquisa. O custo total de propriedade competitivo do switch – considerando a menor contagem de switches devido à densidade de 64 portas – o torna uma opção atraente tanto para novas construções quanto para projetos de atualização.

Resultados e benefícios: ganhos mensuráveis de desempenho

Latência totalmente reduzida (mensagem de 1 GB):Reduzido de 48µs para 19µs (melhoria de 60%)
Utilização eficaz da GPU:Aumentou de 71% para 93% durante treinamento em larga escala
Tempo de conclusão do trabalho (equivalente a GPT-3 175B):Encurtado em 41%
Latência final induzida pela rede (percentil 99):Corte de 210µs para menos de 35µs

Como umSolução de switch InfiniBand MQM9790-NS2F, a implantação demonstrou que as malhas NDR de 400 Gb/s podem cumprir suas promessas teóricas. A combinação de algoritmos de controle de congestionamento e roteamento adaptativo eliminou os padrões de colapso "incast" que atormentavam a estrutura HDR anterior durante as fases de comunicação entre todos.

Resumo e perspectivas: uma base para Exascale AI

O sucesso do centro de supercomputação com oMQM9790-NS2Facelerou seu roteiro em direção a recursos de IA em exaescala. Eles agora estão planejando uma segunda fase que dobrará a contagem de GPUs para 4.096 usando recursos adicionaisMQM9790-NS2F 400 Gb/s NDR OSFP de 64 portasswitches em uma topologia de árvore gorda de três camadas. Os recursos de telemetria e gerenciamento fora de banda do switch também permitiram evitar congestionamentos preditivos, reduzindo a sobrecarga operacional para a equipe de rede.

Para arquitetos de rede e gerentes de TI que avaliam malhas de próxima geração, oNVIDIA Mellanox MQM9790-NS2Frepresenta uma solução madura e comprovada em produção. Esteja você construindo um novo cluster de pesquisa de IA ou atualizando uma instalação de HPC existente, esse switch oferece a base de baixa latência e alta largura de banda necessária para cargas de trabalho paralelas modernas.