NVIDIA Mellanox MCX653105A-HDAT Server Adapter em Ação: Aumentar a Produção com RDMA/RoCE Low-Latency Transport

March 16, 2026

últimas notícias da empresa sobre NVIDIA Mellanox MCX653105A-HDAT Server Adapter em Ação: Aumentar a Produção com RDMA/RoCE Low-Latency Transport
Contexto e Desafio: O Gargalo de Armazenamento e Computação

Uma importante empresa de tecnologia financeira, ao construir sua plataforma de análise de big data de próxima geração, encontrou severos gargalos de I/O de rede. A infraestrutura existente de 10GbE lutou para lidar com o fluxo massivo de dados necessário para avaliação de risco em tempo real e análise de negociação de alta frequência. Os núcleos de CPU gastavam até 30% de seus ciclos apenas gerenciando o tráfego de rede, deixando menos recursos para o processamento crítico de aplicações. O desafio central era claro: para escalar seu banco de dados distribuído e análises impulsionadas por IA, eles precisavam reduzir drasticamente a latência e aumentar a taxa de transferência efetiva do servidor sem reformular toda a sua frota de servidores.

A rede tradicional TCP/IP não era mais viável. O overhead da pilha de rede do kernel criava picos de latência imprevisíveis, impactando diretamente o desempenho de seus bancos de dados em memória e clusters de armazenamento baseados em NVMe. A empresa precisava de uma solução que pudesse descarregar o processamento de rede da CPU e permitir a movimentação de dados direta e de alta velocidade entre servidores e armazenamento. Após avaliar várias opções, a decisão foi implantar o adaptador de servidor 迈络思(NVIDIA Mellanox) MCX653105A-HDAT.

Solução e Implantação: Liberando Capacidades RDMA e RoCE

A implantação centrou-se no MCX653105A-HDAT, um adaptador dual-port de 100Gb/s da família NVIDIA Mellanox ConnectX-6. O objetivo principal era implementar RDMA over Converged Ethernet (RoCE) para contornar a CPU nas transferências de dados. O NVIDIA Mellanox MCX653105A-HDAT foi escolhido por seu suporte de hardware nativo para RoCE, que fornece os benefícios de baixa latência do InfiniBand enquanto opera sobre um tecido Ethernet padrão, garantindo compatibilidade com os switches de rede existentes.

A equipe de engenharia configurou os servidores em uma topologia spine-leaf, permitindo conectividade de qualquer para qualquer com desempenho previsível. Fundamental para o sucesso foi a implantação do cartão adaptador Ethernet MCX653105A-HDAT tanto nos servidores de banco de dados quanto nos arrays de armazenamento all-NVMe. Ao utilizar os descarregamentos RoCE baseados em hardware, a equipe estabeleceu um tecido sem perdas com Priority Flow Control (PFC) para garantir zero perda de pacotes, um requisito crítico para operações RDMA eficientes. O cartão de rede PCIe adaptador MCX653105A-HDAT ConnectX provou ser essencial aqui, pois seus mecanismos avançados de controle de congestionamento mantiveram a estabilidade do tecido mesmo sob carga total.

Resultados Medidos: Aumento de Taxa de Transferência e Colapso de Latência

O aumento de desempenho foi imediato e significativo. Antes da atualização, a infraestrutura existente de 10GbE limitava a taxa de transferência de servidor para servidor a aproximadamente 1,2 GB/s com alta utilização da CPU. Após a integração dos adaptadores MCX653105A-HDAT e a ativação do RoCEv2, o cluster alcançou o seguinte:

Métrica Antes (10GbE/TCP) Depois (100GbE/RoCE com MCX653105A-HDAT)
Taxa de Transferência Efetiva (NVMe-oF) ~1,1 GB/s ~11,5 GB/s
Latência Média (Ida e Volta) ~150 µs < 5 µs
Utilização da CPU (I/O de Rede) ~30% < 5%

Este aumento de 10x na taxa de transferência foi alcançado enquanto simultaneamente liberava núcleos de CPU para processamento em nível de aplicação. Os descarregamentos de hardware MCX653105A-HDAT provaram ser críticos para alcançar desempenho de linha de 100Gb/s, permitindo que o banco de dados distribuído escalasse horizontalmente sem a necessidade de servidores adicionais. As capacidades RDMA, conforme detalhado nas especificações oficiais do MCX653105A-HDAT, permitiram transferências diretas de memória para memória, contornando o kernel e reduzindo a latência a níveis anteriormente vistos apenas em clusters HPC especializados. A equipe também consultou a folha de dados do MCX653105A-HDAT para ajustar os parâmetros PCIe, garantindo a utilização ideal da largura de banda Gen4.

Conclusão e Perspectivas Futuras

Esta implantação demonstra que a solução de cartão adaptador Ethernet MCX653105A-HDAT não é apenas uma atualização incremental, mas um elemento transformador para empresas orientadas por dados. Ao resolver o gargalo da CPU através de transporte RDMA/RoCE eficiente, o MCX653105A-HDAT permitiu que a empresa maximizasse o valor de seus investimentos existentes em armazenamento e computação. O sucesso abriu caminho para expandir a implantação para seus clusters de treinamento de aprendizado de máquina, onde as características de baixa latência do MCX653105A-HDAT para venda no mercado atual acelerarão ainda mais os tempos de treinamento de modelos. Para arquitetos e engenheiros que avaliam infraestrutura de alto desempenho, a natureza compatível com MCX653105A-HDAT com sistemas operacionais e ferramentas de gerenciamento existentes a torna uma escolha perfeita para construir data centers modernos e de alta taxa de transferência.