Mellanox (NVIDIA Mellanox) 920-9B110-00FH-0D0 White Paper Técnico: Otimização de Interconexão de Baixa Latência

April 14, 2026

Mellanox (NVIDIA Mellanox) 920-9B110-00FH-0D0 White Paper Técnico: Otimização de Interconexão de Baixa Latência

Este white paper técnico dirige-se aos arquitetos de rede, engenheiros de pré-venda e gerentes de operações, fornecendo uma solução abrangente centrada noMellanox (NVIDIA Mellanox) 920-9B110-00FH-0D0Examinamos como esta plataforma permite latencia determinística e ultra-baixa para cargas de trabalho RDMA-intensivas em ambientes de cluster de HPC e IA.

1Análise dos antecedentes e requisitos do projecto

Estruturas de treinamento de IA modernas (PyTorch DDP, DeepSpeed, Megatron) e códigos de simulação HPC (CFD, modelagem climática, dinâmica molecular) dependem fortemente de primitivos de comunicação coletiva.Os tecidos Ethernet tradicionais apresentam três problemas fundamentais: perda de pacotes devido ao congestionamento incast, latência variável de comutação de armazenamento e encaminhamento e alta sobrecarga de CPU do processamento de pilha TCP / IP.Esses problemas causam tempos de inatividade da GPU de 30~50% no treinamento distribuído em larga escala, traduzindo-se diretamente num tempo de solução mais longo e num aumento dos custos operacionais.

O920-9B110-00FH-0D0A tecnologia InfiniBand oferece um sistema de comutação e controle de fluxo baseado em crédito.Os casos de uso alvo incluem laboratórios de pesquisa de IA que gerenciam 64,024 clusters de GPU, centros de HPC que exigem latência MPI sub-microssegundos, e provedores de nuvem que constroem famílias de instâncias de IA de metal nu.

2. Design geral da arquitetura da rede

Nossa arquitetura recomendada emprega uma topologia de árvore de gordura de dois níveis (Folded Clos), que equilibra a largura de banda de bisecção, custo e escalabilidade.equipados com adaptadores HDR ConnectX-6 de duas portas,.

Nível Dispositivo Configuração de porta Quantidade (512 nós)
Folhas 920-9B110-00FH-0D0 MQM8790-HS2F 40x HDR abaixo + 8x HDR acima 16 unidades
Espinha NVIDIA Mellanox 920-9B110-00FH-0D0 40x HDR (apenas para baixo) 8 unidades

Esta configuração oferece largura de banda de bisecção completa de 200Gb/s por nó, desempenho não bloqueador para padrões de comunicação all-to-all e latência tão baixa quanto 130ns por hop (cortamento).920-9B110-00FH-0D0 Solução OPN de comutação InfiniBandSuporta SKUs padrão e personalizados, permitindo configurações flexíveis de saída de porta (por exemplo, 4x 50Gb/s por porta HDR).

3Função e características principais do 920-9B110-00FH-0D0

Dentro da arquitetura proposta, oNVIDIA Mellanox 920-9B110-00FH-0D0Serve como elemento de tecido unificado em ambos os níveis de folha e espinha.

  • RDMA baseado em hardware:Desvia o kernel e a CPU inteiramente, permitindo transferências de memória para memória em taxa de linha com <1μs de latência.
  • Roteamento adaptativo (AR):Reencaminha dinamicamente os pacotes com base no congestionamento de porta em tempo real, distribuindo o tráfego em todos os caminhos disponíveis sem reordenamento de pacotes.
  • Controle do congestionamento:Os mecanismos de notificação e de limitação a nível de hardware impedem o bloqueio da cabeça da linha, tal como detalhado noFicha de dados 920-9B110-00FH-0D0.
  • Telemetria nítida:Os monitores de hardware integrados fornecem ocupação de buffer por porta, latência e contadores de erros para gerenciamento proativo.

Os engenheiros que avaliam a aquisição devem rever aEspecificações 920-9B110-00FH-0D0, que confirmam o suporte a até 40 portas HDR (200Gb/s cada uma) num factor de forma de 1U, com um consumo de energia típico inferior a 300W.920-9B110-00FH-0D0 compatívelO ecossistema inclui todos os módulos ópticos HDR padrão (QSFP56) e cabos de cobre passivos de até 5 metros.

4Recomendações de implantação e escalagem

Para a implantação inicial, recomendamos uma abordagem gradual:

  • Fase 1 (Piloto: 32 nós):Implementar 1 switch de folha (920-9B110-00FH-0D0) em configuração de switch único. Validar o desempenho do RDMA usando ib_write_bw e benchmarks MPI.920-9B110-00FH-0D0 à vendaO Estado-Membro deve assegurar que os prazos de execução estão alinhados com os marcos do projeto.
  • Fase 2 (Produzção: 128 nós):Implementar uma árvore de gordura completa com 4 interruptores de folha + 2 de coluna vertebral. Habilitar roteamento adaptativo e controle de congestionamento. Executar testes de estresse estendidos com testes NCCL (todo-reduzir, tudo-reunir).
  • Fase 3 (Escala-out 512+ nós):Expandir para 16 leaf + 8 switches de coluna vertebral. considerar a atualização para arquitetura multi-fabric (computação separada / redes de armazenamento).920-9B110-00FH-0D0 preçopor porta em comparação com a adição de mais switches versus modelos de radix mais elevados.

No cálculo do custo total de propriedade, observe que o920-9B110-00FH-0D0elimina a necessidade de switches TOR separados, a complexidade da configuração da ECN (ao contrário do RoCE) e licenças proprietárias de gerenciamento de congestionamento, todos incluídos nativamente na InfiniBand.

5. Operações, Monitorização, Solução de Problemas e Optimização

Gestão da produção deNVIDIA Mellanox 920-9B110-00FH-0D0Fabrics baseia-se em duas ferramentas primárias: OpenSM (subnet manager) para a captação básica de tecidos e NVIDIA UFM (Unified Fabric Manager) para telemetria e automação em escala empresarial.

  • Verificações diárias:Usar `ibnetdiscover` para verificar a topologia do tecido, `ibstat` para monitorizar o estado da porta e `perfquery` para rastrear contadores de erros.
  • Ajuste de desempenho:Configure o roteamento adaptativo para "estático" para latencia determinística ou "dinâmico" para rendimento máximo. Ajuste o mapeamento SL2VL para priorizar o controle versus o tráfego de dados.
  • Solução de problemas comuns:Os erros do CRC de ligação indicam tipicamente problemas de integridade do cabo/sinalFicha de dados 920-9B110-00FH-0D0O timeout do gerente de sub-rede geralmente requer o ajuste de `max_hop_count` para tecidos grandes.
  • Planeamento da capacidade:Aproveitar as análises preditivas da UFM para prever a utilização dos portos e identificar os pontos críticos antes de terem impacto nos postos de trabalho.920-9B110-00FH-0D0 InfiniBand switch OPNpermite que as ópticas flexíveis de campo atualizáveis se adaptem às demandas de largura de banda em evolução.

Para as organizações que avaliam vários fornecedores, comparar920-9B110-00FH-0D0 preçoA versão de HDR compatível com os switches HDR alternativos deve ter em conta a simplicidade operacional. A pilha integrada verticalmente do InfiniBand reduz o tempo de depuração entre equipes em cerca de 40%.

6Resumo e Avaliação do Valor

OMellanox (NVIDIA Mellanox) 920-9B110-00FH-0D0fornece uma base pronta para produção para os clusters RDMA/HPC/AI que requerem interligação determinística de baixa latência.

  • Função:Até 200Gb/s por porta com latência de comutação inferior a 130ns, permitindo a escalação da GPU linear até milhares de nós.
  • Eficiência operacional:As descargas de hardware nativas eliminam a intervenção da CPU para I / O de rede, liberando núcleos para computação.
  • A prova do futuro:Compatibilidade para trás com o EDR (100 Gb/s) e para a frente com o NDR (400 Gb/s) através da conversão da velocidade das portas.
  • Custo total de propriedade:Ao calcular920-9B110-00FH-0D0 preçoversus alternativas Ethernet, incluem economias de tempo de inatividade da GPU reduzido (15-25% de recuperação típica) e licenças de controle de congestionamento proprietárias eliminadas.

Os arquitetos são encorajados a descarregar oFicha de dados 920-9B110-00FH-0D0e referência ao funcionárioEspecificações 920-9B110-00FH-0D0para matrizes de cablagem e orçamento de energia.920-9B110-00FH-0D0 à vendaA NVIDIA tem uma rede de parcerias para testes de topologia personalizados.