NVIDIA Mellanox MQM9790-NS2F InfiniBand Switch solução técnica
April 13, 2026
Este whitepaper técnico foi concebido para arquitetos de rede, engenheiros de pré-venda e líderes de operações.MQM9790-NS2F¢ um comutador NDR InfiniBand de 400 Gb/s ¢ e fornece orientações pormenorizadas sobre a concepção da arquitetura, as tecnologias-chave, a implantação e a ampliação, bem como as operações e a monitorização,especificamente para a otimização de interconexões de baixa latência de cluster RDMA/HPC/AI.
1Análise dos antecedentes e requisitos do projecto
O treinamento moderno de IA e as cargas de trabalho de HPC estão impulsionando clusters de milhares para dezenas de milhares de GPUs.Os tecidos Ethernet tradicionais lutam com latência de cauda e CPU overhead, enquanto as implantações InfiniBand legadas podem não ter densidade de porta e largura de banda suficientes. Os principais requisitos incluem latência de comutação de sub-microssegundos, encaminhamento de taxa de linha completa sem perda de pacotes,Apoio RDMA eficiente, e escalabilidade perfeita para centenas de interruptores.NVIDIA Mellanox MQM9790-NS2FAborda directamente estas necessidades com a sua capacidade NDR de 400 Gb/s e recursos de computação avançados na rede.
2. Projeto geral de arquitetura de rede e sistema
A arquitetura recomendada adota uma topologia Fat-Tree de duas camadas (também conhecida como Clos dobrado), que equilibra a largura de banda de bisecção, custo e escalabilidade.Servidores GPU equipados com adaptadores NDR ConnectX-7 conectam-se a interruptores de folhaNa camada da coluna vertebral,MQM9790-NS2F Comutador de banda InfiniEsta concepção garante uma largura de banda de bisecção total: qualquer interruptor de folha pode comunicar com qualquer outra folha à velocidade do fio.uma topologia de três camadas (leaf-spine-super-spine) pode ser implantada, suportando até dezenas de milhares de nós GPU.
- Comutadores de folhas:Modelos OSFP de 64 portas, cada um conectando-se a 32 servidores (dual-port) mais uplinks para espinhos.
- Camada da coluna vertebral: MQM9790-NS2F 400Gb/s NDR OSFP de 64 portasUm projeto totalmente não bloqueador requer portas de coluna igual ao número de interruptores de folha.
- Gerenciamento da sub-rede:Um gerenciador de sub-rede dedicado ou redundante lida com o cálculo do caminho, o roteamento adaptativo e a transição por falha.
3. Papel e características-chave do NVIDIA Mellanox MQM9790-NS2F na solução
Como o núcleo da coluna vertebral e opcionalmente dispositivo folha, oMQM9790-NS2FOferece várias capacidades críticas:
- Desempenho da taxa de linha NDR de 400 Gb/s:Cada uma das 64 portas OSFP opera em duplex completo 400Gb/s, fornecendo uma capacidade de comutação agregada de 51.2Tb/s.
- Ultra-baixa latência e roteamento adaptativo:A comutação de corte mantém a latência de porta a porta abaixo de 130 ns. O roteamento adaptativo equilibra dinamicamente o tráfego em vários caminhos, evitando pontos quentes.
- Computação em rede (SHARPv3):Suporta agregação e redução hierárquica escalável, descarregando operações coletivas da CPU / GPU e reduzindo o movimento de dados em até 10x.
- Desenho nativo RDMA:O RDMA acelerado por hardware permite acesso direto à memória da GPU, eliminando o envolvimento da CPU e reduzindo drasticamente a sobrecarga de comunicação.
- Telemetria abrangente e qualidade de serviço:O controlo da congestão, o controlo do buffer e a classificação do fluxo garantem um desempenho determinístico para cargas de trabalho mistas.
De acordo com oFicha de dados MQM9790-NS2F, o interruptor também suporta fontes de alimentação e ventiladores trocáveis a quente, portas de gerenciamento redundantes e um conjunto completo de diagnósticos, tornando-o adequado para ambientes de produção 7 × 24.
4Recomendações de implantação e escalagem (com topologia típica)
Um clássico cluster de 2.048 GPU pode ser construído usando 64 switches de folha e 32 switches de espinha.MQM9790-NS2F compatívelPara expansão para 8.192 GPUs, uma camada super-espinha é adicionada, interconectando vários pods.
Ao escalar, considere o seguinte:
- Cablagem e óptica:Utilize os DAC OSFP-OSFP para ligações intra-rack curtas e os cabos de saída OSFP-to-4xOSFP ou módulos ópticos para distâncias mais longas.Especificações MQM9790-NS2FO orçamento de alcance e de energia.
- Dimensão da sub-rede:Um único gerenciador de sub-rede pode lidar com até 2.000 nós; além disso, implante várias sub-redes ou use um design de gerenciador de sub-rede distribuído.
- Redundância:Os servidores de dupla instalação e os interruptores redundantes eliminam os pontos de falha individuais.MQM9790-NS2F Solução de comutação InfiniBandSuporta a transição de falha sem impacto com a configuração SM adequada.
5. Operações, Monitorização, Solução de Problemas e Optimização
As operações eficazes exigem visibilidade e automação.
- Monitorização:Use o Fabric Manager e as APIs de telemetria da NVIDIA para rastrear erros de porta, temperatura, consumo de energia e utilização do link.
- Solução de problemas:OMQM9790-NS2Ffornece contadores por porta, histogramas de ocupação do buffer e registos de congestionamento.e verificar se a agregação SHARP está habilitada para coletivos apoiados.
- Optimização:Ajuste os parâmetros de roteamento adaptativos com base na carga de trabalho (por exemplo, sensíveis à latência versus sensíveis ao rendimento).Revisar regularmente osPreço MQM9790-NS2Fversus compromissos de desempenho quando se planeja a ampliação da capacidade
Para as organizações que avaliamMQM9790-NS2F para venda, certifique-se de que sua pilha de software (por exemplo, NCCL, OpenMPI) suporta recursos NDR como SHARPv3 e redução baseada em hardware.
6Resumo e Avaliação do Valor
OMQM9790-NS2F Solução de comutação InfiniBandoferece um caminho claro para a construção de tecidos de baixa latência e alta largura de banda para clusters RDMA/HPC/AI exigentes.e capacidades de computação em rede abordam diretamente os desafios de escalabilidade e desempenho das cargas de trabalho modernas. Adotando a arquitetura descrita acima topologia Fat-Tree, switches de núcleo NDR e operação nativa RDMA as organizações podem alcançar a escalação linear da GPU, reduzindo os tempos de conclusão de trabalhos em mais de 30%,Para uma planificação pormenorizada, consulte oFicha de dados MQM9790-NS2FPara discutir um projeto personalizado ou obterPreço MQM9790-NS2Fe disponibilidade, contacte um parceiro autorizado da NVIDIA.

