NVIDIA Mellanox MQM9790-NS2F InfiniBand Switch solução técnica

April 13, 2026

NVIDIA Mellanox MQM9790-NS2F InfiniBand Switch solução técnica

Este whitepaper técnico foi concebido para arquitetos de rede, engenheiros de pré-venda e líderes de operações.MQM9790-NS2F¢ um comutador NDR InfiniBand de 400 Gb/s ¢ e fornece orientações pormenorizadas sobre a concepção da arquitetura, as tecnologias-chave, a implantação e a ampliação, bem como as operações e a monitorização,especificamente para a otimização de interconexões de baixa latência de cluster RDMA/HPC/AI.

1Análise dos antecedentes e requisitos do projecto

O treinamento moderno de IA e as cargas de trabalho de HPC estão impulsionando clusters de milhares para dezenas de milhares de GPUs.Os tecidos Ethernet tradicionais lutam com latência de cauda e CPU overhead, enquanto as implantações InfiniBand legadas podem não ter densidade de porta e largura de banda suficientes. Os principais requisitos incluem latência de comutação de sub-microssegundos, encaminhamento de taxa de linha completa sem perda de pacotes,Apoio RDMA eficiente, e escalabilidade perfeita para centenas de interruptores.NVIDIA Mellanox MQM9790-NS2FAborda directamente estas necessidades com a sua capacidade NDR de 400 Gb/s e recursos de computação avançados na rede.

2. Projeto geral de arquitetura de rede e sistema

A arquitetura recomendada adota uma topologia Fat-Tree de duas camadas (também conhecida como Clos dobrado), que equilibra a largura de banda de bisecção, custo e escalabilidade.Servidores GPU equipados com adaptadores NDR ConnectX-7 conectam-se a interruptores de folhaNa camada da coluna vertebral,MQM9790-NS2F Comutador de banda InfiniEsta concepção garante uma largura de banda de bisecção total: qualquer interruptor de folha pode comunicar com qualquer outra folha à velocidade do fio.uma topologia de três camadas (leaf-spine-super-spine) pode ser implantada, suportando até dezenas de milhares de nós GPU.

  • Comutadores de folhas:Modelos OSFP de 64 portas, cada um conectando-se a 32 servidores (dual-port) mais uplinks para espinhos.
  • Camada da coluna vertebral: MQM9790-NS2F 400Gb/s NDR OSFP de 64 portasUm projeto totalmente não bloqueador requer portas de coluna igual ao número de interruptores de folha.
  • Gerenciamento da sub-rede:Um gerenciador de sub-rede dedicado ou redundante lida com o cálculo do caminho, o roteamento adaptativo e a transição por falha.

3. Papel e características-chave do NVIDIA Mellanox MQM9790-NS2F na solução

Como o núcleo da coluna vertebral e opcionalmente dispositivo folha, oMQM9790-NS2FOferece várias capacidades críticas:

  • Desempenho da taxa de linha NDR de 400 Gb/s:Cada uma das 64 portas OSFP opera em duplex completo 400Gb/s, fornecendo uma capacidade de comutação agregada de 51.2Tb/s.
  • Ultra-baixa latência e roteamento adaptativo:A comutação de corte mantém a latência de porta a porta abaixo de 130 ns. O roteamento adaptativo equilibra dinamicamente o tráfego em vários caminhos, evitando pontos quentes.
  • Computação em rede (SHARPv3):Suporta agregação e redução hierárquica escalável, descarregando operações coletivas da CPU / GPU e reduzindo o movimento de dados em até 10x.
  • Desenho nativo RDMA:O RDMA acelerado por hardware permite acesso direto à memória da GPU, eliminando o envolvimento da CPU e reduzindo drasticamente a sobrecarga de comunicação.
  • Telemetria abrangente e qualidade de serviço:O controlo da congestão, o controlo do buffer e a classificação do fluxo garantem um desempenho determinístico para cargas de trabalho mistas.

De acordo com oFicha de dados MQM9790-NS2F, o interruptor também suporta fontes de alimentação e ventiladores trocáveis a quente, portas de gerenciamento redundantes e um conjunto completo de diagnósticos, tornando-o adequado para ambientes de produção 7 × 24.

4Recomendações de implantação e escalagem (com topologia típica)

Um clássico cluster de 2.048 GPU pode ser construído usando 64 switches de folha e 32 switches de espinha.MQM9790-NS2F compatívelPara expansão para 8.192 GPUs, uma camada super-espinha é adicionada, interconectando vários pods.

Ao escalar, considere o seguinte:

  • Cablagem e óptica:Utilize os DAC OSFP-OSFP para ligações intra-rack curtas e os cabos de saída OSFP-to-4xOSFP ou módulos ópticos para distâncias mais longas.Especificações MQM9790-NS2FO orçamento de alcance e de energia.
  • Dimensão da sub-rede:Um único gerenciador de sub-rede pode lidar com até 2.000 nós; além disso, implante várias sub-redes ou use um design de gerenciador de sub-rede distribuído.
  • Redundância:Os servidores de dupla instalação e os interruptores redundantes eliminam os pontos de falha individuais.MQM9790-NS2F Solução de comutação InfiniBandSuporta a transição de falha sem impacto com a configuração SM adequada.

5. Operações, Monitorização, Solução de Problemas e Optimização

As operações eficazes exigem visibilidade e automação.

  • Monitorização:Use o Fabric Manager e as APIs de telemetria da NVIDIA para rastrear erros de porta, temperatura, consumo de energia e utilização do link.
  • Solução de problemas:OMQM9790-NS2Ffornece contadores por porta, histogramas de ocupação do buffer e registos de congestionamento.e verificar se a agregação SHARP está habilitada para coletivos apoiados.
  • Optimização:Ajuste os parâmetros de roteamento adaptativos com base na carga de trabalho (por exemplo, sensíveis à latência versus sensíveis ao rendimento).Revisar regularmente osPreço MQM9790-NS2Fversus compromissos de desempenho quando se planeja a ampliação da capacidade

Para as organizações que avaliamMQM9790-NS2F para venda, certifique-se de que sua pilha de software (por exemplo, NCCL, OpenMPI) suporta recursos NDR como SHARPv3 e redução baseada em hardware.

6Resumo e Avaliação do Valor

OMQM9790-NS2F Solução de comutação InfiniBandoferece um caminho claro para a construção de tecidos de baixa latência e alta largura de banda para clusters RDMA/HPC/AI exigentes.e capacidades de computação em rede abordam diretamente os desafios de escalabilidade e desempenho das cargas de trabalho modernas. Adotando a arquitetura descrita acima “topologia Fat-Tree, switches de núcleo NDR e operação nativa RDMA” as organizações podem alcançar a escalação linear da GPU, reduzindo os tempos de conclusão de trabalhos em mais de 30%,Para uma planificação pormenorizada, consulte oFicha de dados MQM9790-NS2FPara discutir um projeto personalizado ou obterPreço MQM9790-NS2Fe disponibilidade, contacte um parceiro autorizado da NVIDIA.