NVIDIA Mellanox MQM8790-HS2F em Ação: Otimização de Interconexão de Baixa Latência para Clusters RDMA/HPC/AI

April 10, 2026

Contexto e Desafio: Quando a Rede se Torna o Gargalo

Uma organização de pesquisa em IA em rápido crescimento enfrentava um problema familiar: seu cluster de mais de 200 GPUs, usado para treinamento de modelos de linguagem grandes e simulações de dinâmica molecular, estava experimentando tempos de conclusão de trabalhos imprevisíveis. Apesar dos poderosos nós de computação, a rede Ethernet existente de 100 Gb/s sofria com picos de latência de cauda, perdas de pacotes em padrões de incast e alta sobrecarga de CPU devido ao processamento tradicional da pilha TCP/IP. A equipe precisava de uma solução que pudesse entregar latência consistente de sub-microsegundo, suportar totalmente RDMA para GPU Direct e escalar sem atualizações completas. Após avaliar as opções disponíveis, eles selecionaram o 迈络思(NVIDIA Mellanox) MQM8790-HS2F como o bloco de construção central para sua rede de cluster de próxima geração.

Solução e Implantação: Integrando o Switch InfiniBand MQM8790-HS2F

A organização implantou o switch InfiniBand MQM8790-HS2F em uma topologia fat-tree de dois níveis, conectando 128 nós de computação (cada um equipado com adaptadores NVIDIA ConnectX-6 HDR) e 4 nós de armazenamento. Com suas 40 portas QSFP56 rodando a 200 Gb/s HDR, um único forneceu 16 Tb/s de capacidade de comutação não bloqueante — o suficiente para substituir dois switches Ethernet legados, reduzindo a complexidade da fiação. A implantação aproveitou o suporte nativo do MQM8790-HS2F 200Gb/s HDR 40-port QSFP56 para RDMA e GPUDirect, permitindo acesso direto à memória entre GPUs em diferentes servidores sem intervenção da CPU.

Os principais detalhes de implementação incluíram:

Roteamento adaptativo para balancear automaticamente o tráfego em vários caminhos, eliminando pontos de estrangulamento.
SHARPv3 (Scalable Hierarchical Aggregation and Reduction Protocol) para agregação na rede, acelerando operações All-Reduce em até 2,5x.
Controle de congestionamento no nível do switch, prevenindo o bloqueio de cabeça de linha comum em ambientes Ethernet com perdas.

Antes da compra, a equipe de engenharia revisou a folha de dados do MQM8790-HS2F e as especificações do MQM8790-HS2F para confirmar a compatibilidade com seus cabos e transceptores Mellanox existentes. O ecossistema compatível com MQM8790-HS2F — incluindo cabos ópticos e de cobre HDR — permitiu que eles reutilizassem 40% de seus investimentos anteriores em interconexão, reduzindo significativamente a barreira para a atualização.

Resultados e Benefícios: Ganhos Mensuráveis em Desempenho e Eficiência

Após a migração para a rede baseada em em relação aos ganhos de desempenho, este estudo de caso sugere um ROI inferior a 12 meses com base apenas em melhorias na eficiência computacional., a organização documentou três categorias de melhorias:

Redução de latência: A latência média de ping-pong MPI caiu de 2,1 µs (Ethernet RoCE) para 0,82 µs, com a latência de cauda virtualmente eliminada.Taxa de transferência de trabalhos: Trabalhos de treinamento distribuído (baseados em NCCL) foram concluídos 37% mais rápido devido à redução da sobrecarga de comunicação e à aceleração do SHARPv3.
Descarga de CPU: RDMA sobre InfiniBand reduziu a utilização da CPU para rede de ~15% para menos de 2%, liberando núcleos para computação.Em um benchmark de comunicação all-to-all de 128 GPUs, a
solução de switch InfiniBand MQM8790-HS2F sustentou 198 Gb/s por porta com zero perda de pacotes, em comparação com 112 Gb/s com 1,2% de perda na rede Ethernet anterior. Para simulações financeiras executadas pela mesma equipe, a variabilidade dos trabalhos foi reduzida em 78%, permitindo SLAs mais rigorosos e tempo de execução previsível.

Resumo e Perspectivas: Um Investimento à Prova de FuturoEsta implantação no mundo real demonstra que o MQM8790-HS2F

é mais do que um herói de folha de especificações — ele oferece benefícios tangíveis para cargas de trabalho de HPC e IA em produção. A combinação de taxa de transferência HDR de 200 Gb/s, 40 portas de alta densidade e computação avançada na rede transforma a economia do cluster, reduzindo tanto o tempo de conclusão do trabalho quanto a sobrecarga operacional. Para líderes de TI que avaliam o

preço do MQM8790-HS2F em relação aos ganhos de desempenho, este estudo de caso sugere um ROI inferior a 12 meses com base apenas em melhorias na eficiência computacional.À medida que a organização planeja dobrar sua contagem de GPUs para mais de 400 nós, eles já orçaram unidades adicionais de MQM8790-HS2F à venda para manter uma arquitetura fat-tree não bloqueante. A capacidade do switch de misturar velocidades HDR e EDR garante um caminho de migração suave à medida que adaptadores mais antigos são gradualmente substituídos. Para arquitetos que projetam clusters de próxima geração focados em RDMA, o

NVIDIA Mellanox MQM8790-HS2F oferece um backbone comprovado e pronto para produção que escala de pesquisa de IA departamental para supercomputação exaescala.