NVIDIA Mellanox MCX653105A-HDAT Adaptador de servidor Solução técnica

June 15, 2026

NVIDIA Mellanox MCX653105A-HDAT Adaptador de servidor Solução técnica
1Análise dos antecedentes e requisitos do projecto

À medida que o armazenamento distribuído, os bancos de dados convergentes e as plataformas de treinamento de IA evoluem para redes 100GbE/200GbE, a pilha tradicional TCP/IP tornou-se um gargalo de desempenho primário.Operações críticas como a replicação de dados e a sincronização de logs são altamente sensíveis à latência, no entanto, a pilha de rede do kernel introduz dezenas de microssegundos de atraso e consome recursos de CPU significativos para processamento de protocolo, limitando severamente a escalabilidade do throughput.Os centros de dados modernos exigem uma solução de rede que ofereça latência de quase memória, taxa de transferência de linha, e intervenção mínima da CPU.

Esta solução técnica centra-se naNVIDIA Mellanox MCX653105A-HDATAdaptador de servidor, concebido para satisfazer os seguintes requisitos essenciais:

  • Latência internodo sub-microssegundos para cargas de trabalho de armazenamento distribuído e HPC
  • Utilização de CPU inferior a 10% para processamento de rede, liberando núcleos para aplicação lógica
  • Transporte sem perdas com controlo de congestionamento para evitar picos de latência
  • Integração contínua com a infraestrutura Ethernet existente
  • Descarga de hardware para NVMe-over-Fabrics (NVMe-oF) e GPUDirect RDMA
2. Projeto geral da arquitetura de rede/sistema

A arquitetura proposta adota uma topologia de dois níveis CLOS (spine-leaf) com RoCE (RDMA over Converged Ethernet) implantado como protocolo de transporte primário.Todos os servidores de computação e armazenamento estão equipados com oCartão de adaptador MCX653105A-HDAT EthernetPFC (Priority Flow Control) e ECN (Explicit Congestion Notification) são habilitados para criar domínios Ethernet sem perdas para tráfego RDMA,enquanto filas de prioridade separadas isolam o armazenamento, HPC e fluxos de gestão.

As principais decisões arquitetônicas incluem:

  • RoCEv2sobre UDP-IP para permitir o roteamento através dos limites da camada 3
  • DCQCN (Notificação de congestionamento quantificada do centro de dados)para a gestão proativa do congestionamento
  • PCIe particionadopara dedicar largura de banda para armazenamento versus tráfego de computação no mesmo adaptador
  • Suporte para vários servidorespermitindo que até quatro servidores partilhem um único adaptador (cenários de armazenamento desagregados)
3Papel e características principais do NVIDIA Mellanox MCX653105A-HDAT

No centro desta solução, aNVIDIA Mellanox MCX653105A-HDATO motor de descarga crítica é um adaptador ConnectX‐6 Dx de 100GbE com duas portas.Ficha de dados MCX653105A-HDAT, o cartão integra aceleradores de hardware que mudam fundamentalmente a forma como os servidores lidam com as entradas e saídas de rede.

O quadro a seguir destaca como as características específicas abordam os requisitos de arquitetura:

Características Função Benefício
Descarga de hardware RoCE Estaca RDMA completa no adaptador Latência inferior a 1 μs, zero cópia da CPU
NVMe-oF Destino de descarga Aceleração de hardware para comandos NVMe 5x capacidade de armazenamento, 90% de redução da CPU
ASAP2 (Conversão acelerada) Abrir vSwitch descarregar para o hardware Superposições de virtualização de taxa de linha
Secure Boot & In-line Crypto Descarga de hardware IPsec/TLS Criptografia sem penalização de desempenho

OCartão de rede PCIe MCX653105A-HDAT ConnectX adaptadortambém inclui telemetria avançada cada pacote carrega carimbos de tempo de hardware e contadores de fluxo, alimentando a visibilidade de congestionamento em tempo real sem pesquisar a CPU host.Para as organizações envolvidas na contratação pública, oPreço MCX653105A-HDATOferece um ROI atraente em comparação com as alternativas baseadas apenas na CPU ou FPGA.

4Recomendações de implantação e escalagem (incluindo topologia)

Para um cluster típico de 200 nós, recomendamos a seguinte abordagem de implantação:

  • Camada de folhas:Comutadores com capacidade de RoCE (por exemplo, NVIDIA SN3700) com PFC/ECN habilitado, configurados para parâmetros DCQCN ajustados à explosão da carga de trabalho.
  • Camada da coluna vertebral:Comutadores não bloqueadores com uma taxa de sobre-subscrição adequada (máximo de 3:1 para o tráfego de armazenamento).
  • Lado do servidor:Um.Solução de cartão de adaptador MCX653105A-HDAT EthernetPara efeitos do presente regulamento, o presente regulamento entra em vigor no dia seguinte ao da sua publicação no Jornal Oficial da União Europeia.
  • Buffers e MTU:Configurar quadros jumbo de 9000 bytes de ponta a ponta e atribuir 10~20% do buffer de comutação por grupo prioritário para garantias sem perdas.

Ao verificar a compatibilidade, a maioria das principais plataformas de servidores sãoCompatibilidade MCX653105A-HDATO adaptador de interface PCIe 4.0/5.0 x16 garante largura de banda à prova de futuro para CPUs de próxima geração.

5. Operações, Monitorização, Solução de Problemas e Optimização

As implementações de RoCE de produção exigem visibilidade proativa.

  • Recolha de telemetria:Usar NVIDIAmft(Mellanox Firmware Tools) eEtil -Spara exportar contadores por porto e por fila para Prometheus ou sistemas similares.
  • Métricas-chave a monitorizar:Quadros de pausa PFC por segundo, taxa de pacotes marcada ECN, retransmissões RoCE e temperatura do adaptador.
  • Detecção de congestionamento:Um aumento súbito das pausas dos PFC muitas vezes sinaliza um receptor lento; verifiqueEspecificações MCX653105A-HDATpara os parâmetros de regulação do limiar de amortecimento.
  • Gestão do firmware:Agende atualizações de firmware durante as janelas de manutenção; o adaptador suporta migração ao vivo de conexões RoCE para minimizar o tempo de inatividade.
  • Lista de verificação de afinação de desempenho:Ativar a coalescência IRQ, definir tamanhos de anel Rx/Tx adequados (4096 recomendado), pin interrupções para núcleos dedicados e verificar a largura do link PCIe (x16 @ Gen4/5).
6Resumo e Avaliação do Valor

ONVIDIA Mellanox MCX653105A-HDATfornece uma base completa e pronta para produção para tecidos de baixa latência baseados em RDMA/RoCE.Ao descarregar todo o caminho de dados – desde comandos de armazenamento até comutação virtual e criptografia de segurança – transforma a rede de servidores de um gargalo em um aceleradorAs organizações que adotam esta solução podem esperar:

  • Latência determinística sub‐2μsatravés de centenas de nós
  • Melhoria da capacidade de produção de 5×10para os fluxos de trabalho NVMe‐oF e HPC
  • Redução de 80 a 90%em despesas gerais de CPU relacionadas com a rede
  • Escalabilidade linearsem colapso de congestionamento

Para os engenheiros que avaliam as opções, oFicha de dados MCX653105A-HDATOs adaptadores são utilizados em todos os sistemas de transmissão, incluindo os adaptadores de vídeo e os guias oficiais de compatibilidade são as referências autorizadas.MCX653105A-HDAT para vendaatravés dos parceiros de canal da NVIDIA, o caminho para um plano de dados de alto desempenho e baixa latência é claro e alcançável.Esta solução técnica fornece um modelo para qualquer organização que procure liberar todo o potencial da rede 100GbE com RDMA e RoCE.