NVIDIA Mellanox MCX556A-ECAT em Ação: RDMA/RoCE Habilita Latência Ultra-Baixa e Avanços no Throughput de Servidores

April 23, 2026

últimas notícias da empresa sobre NVIDIA Mellanox MCX556A-ECAT em Ação: RDMA/RoCE Habilita Latência Ultra-Baixa e Avanços no Throughput de Servidores

No armazenamento distribuído, computação de alto desempenho (HPC) e clusters de treinamento de IA, a latência de rede e a sobrecarga da CPU têm limitado a eficiência geral do servidor. Uma implantação recente em um provedor de serviços em nuvem em larga escala demonstra como a NVIDIA Mellanox MCX556A-ECAT aborda esses desafios por meio das tecnologias RDMA e RoCE, oferecendo ganhos mensuráveis em throughput e redução de latência.

Contexto e Desafios

O cliente opera um cluster de armazenamento Ceph de vários petabytes que suporta milhares de máquinas virtuais. Antes da atualização, sua infraestrutura 25GbE usando TCP/IP padrão sofria com alta utilização da CPU (mais de 60% nos nós de armazenamento) e latência inconsistente durante cargas de pico. As janelas de backup frequentemente excediam oito horas, e os trabalhos de treinamento de IA experimentavam stalls de I/O. A equipe precisava de uma solução que pudesse reduzir a intervenção da CPU, diminuir a latência e escalar sem uma reformulação completa da infraestrutura. Após revisar a folha de dados MCX556A-ECAT e comparar as especificações MCX556A-ECAT, eles selecionaram a MCX556A-ECAT como o componente central da atualização.

Solução e Implantação

A arquitetura centrou-se na placa adaptadora Ethernet MCX556A-ECAT, um adaptador dual-port 100GbE que suporta PCIe 3.0/4.0 x16. Implantado como um placa de rede PCIe adaptadora MCX556A-ECAT ConnectX, ele habilitou o RoCE v2 na topologia leaf-spine existente com alterações mínimas nos switches. As etapas chave de implantação incluíram:

  • Substituição de adaptadores 25GbE legados pela MCX556A-ECAT em 40 nós de armazenamento e 150 nós de computação.
  • Habilitação de offloads de hardware: NVMe over Fabrics (NVMe-oF), GPUDirect RDMA e T10-DIF para integridade de dados.
  • Configuração de Priority Flow Control (PFC) e Enhanced Transmission Selection (ETS) para transporte RoCE sem perdas.
  • Verificação do status compatíveis com MCX556A-ECAT com os switches Mellanox Spectrum e ópticas QSFP28 existentes.

Toda a implantação levou dois fins de semana, com zero downtime usando migração ao vivo para cargas de trabalho de computação.

Resultados e Benefícios

As medições pós-implantação revelaram melhorias drásticas em métricas chave. A tabela a seguir resume a comparação antes/depois:

Métrica Antes (25GbE TCP/IP) Depois (MCX556A-ECAT com RoCE) Melhoria
Utilização da CPU do nó de armazenamento 62% 18% ↓ 71%
Latência média (leitura aleatória 4K) 450 µs 42 µs ↓ 90.7%
Throughput agregado do cluster 38 Gb/s 172 Gb/s ↑ 353%
Duração da janela de backup 8.5 horas 1.8 horas ↓ 79%

Além dos números, a equipe de engenharia relatou que o RDMA reduziu significativamente o jitter, eliminando os picos de "latência de cauda" que anteriormente assolavam os checkpoints de treinamento de IA. Como uma solução madura de placa adaptadora Ethernet MCX556A-ECAT, a placa também simplificou a solução de problemas por meio de telemetria integrada e notificação de congestionamento. Para organizações que avaliam o preço MCX556A-ECAT em relação aos ganhos de desempenho, o cliente obteve ROI em nove meses puramente a partir da economia de núcleos de CPU e da conclusão mais rápida de trabalhos em lote. O adaptador agora está MCX556A-ECAT à venda através de vários parceiros de canal, tornando esse nível de desempenho acessível para empresas de médio porte também.

Resumo e Perspectivas

A implantação prova que a MCX556A-ECAT cumpre sua promessa: latência RDMA sub-microssegundo, offload drástico de CPU e escalonamento linear de throughput. Esteja você executando bancos de dados distribuídos, simulações HPC ou armazenamento NVMe-oF, a NVIDIA Mellanox MCX556A-ECAT oferece uma base à prova de futuro. À medida que o 100GbE se torna o novo padrão para spines de data center, as soluções construídas em torno deste adaptador continuarão a superar as pilhas TCP/IP legadas. Para planejamento detalhado, consulte a folha de dados MCX556A-ECAT oficial ou consulte arquitetos de solução para validar configurações compatíveis com MCX556A-ECAT para seu ambiente específico.