Solução técnica NVIDIA Mellanox MCX653106A-HDAT: transporte e servidor de baixa latência baseado em RDMA/RoCE
June 16, 2026
Este white paper técnico destina-se a arquitetos de rede, engenheiros de pré-venda e gerentes de operações.NVIDIA Mellanox MCX653106A-HDATAdaptador de servidor e descreve como construir uma infraestrutura de rede de data center capaz de transporte RDMA/RoCE em escala de microssegundos e desempenho de ultra-alta taxa de transferência.
Os centros de dados modernos enfrentam três desafios principais: latência imprevisível no armazenamento distribuído, fome de largura de banda em clusters de treinamento de IA,e consumo excessivo de CPU por estacas de protocolo de rede tradicionaisAs soluções TCP/IP convencionais já não podem satisfazer as demandas de latência em escala de microssegundos da NVMe-oF, do comércio de alta frequência e da análise em tempo real.Solução de cartão de adaptador MCX653106A-HDAT Ethernetque fornece transporte RDMA descarregado de hardware através da infraestrutura Ethernet padrão, aumentando o débito do servidor para níveis de 200 Gbps.
Esta solução adota uma arquitetura CLOS Leaf-Spine de duas camadas.NVIDIA Mellanox MCX653106A-HDATOs principais princípios de concepção incluem:
- Rede sem perdas de ponta a ponta habilitada por PFC (Priority Flow Control) e ECN (Explicit Congestion Notification)
- Linhas de transporte RDMA dedicadas para cargas de trabalho de armazenamento e HPC
- Separação do plano de controlo (TCP/IP padrão) e do plano de dados (RoCEv2)
- Descargas de virtualização baseadas em hardware (SR-IOV, VXLAN/NVGRE/Genebra)
Com base noFicha de dados MCX653106A-HDAT, o adaptador oferece latência de porta a porta inferior a 600ns e suporta até 215 milhões de pacotes por segundo, tornando-o ideal para tráfego de armazenamento leste-oeste e fluxos de aplicativos norte-sul.
OMCX653106A-HDAT Adaptador ConnectX cartão de rede PCIeServe como o motor de plano de dados fundamental.
- Aceleração RDMA/RoCE:Descarga completa de hardware do RoCEv2, incluindo gerenciamento de congestionamento, manuseio de pacotes fora de ordem e colocação imediata de dados em buffers de aplicativos.
- Protocolo de armazenamento descarga:Suporte nativo para NVMe-oF (variantes TCP e RoCE), iSER e SRP, eliminando o processamento de alvos baseado em software.
- Virtualização e Multi-Tenancy:Até 1.000 funções virtuais (VFs) por porta, com descarga de túnel de sobreposição garantindo encapsulamento/desencapsulamento de taxa de linha.
- Segurança e Telemetria:Criptografia IPsec/TLS em linha a 200 Gbps, além de rastreamento de fluxo baseado em hardware (por exemplo, rastreamento de conexão, histogramas).
De acordoEspecificações MCX653106A-HDAT, o adaptador suporta interfaces PCIe 4.0/5.0 x16, garantindo nenhum gargalo do lado do anfitrião, mesmo em taxa de linha completa de 200GbE.
Uma topologia de referência validada consiste em:
- Camada de cálculo:48 servidores de duas tomadas, cada um equipado com umaMCX653106A-HDAT(configuração 100GbE de duas portas).As portas são ligadas como um GAL ativo-ativo.
- Capa de armazenamento:12 servidores-alvo NVMe-oF totalmente flash, cada um com doisCartão de adaptador MCX653106A-HDAT EthernetUnidades um para acesso de computação front-end, um para replicação back-end.
- Camada de rede:Quatro switches Spine 100GbE e oito switches Leaf, configurados com DCBX, PFC (classe 3 para RoCE) e limiares ECN.
Para escalar além de 200 nós, a arquitetura suporta projetos multi-pod usando EVPN-VXLAN com descarga de hardware (totalmenteCompatibilidade MCX653106A-HDATNo que se refere à avaliação da capacidade, a Comissão considerou que a capacidade de produção era muito elevada.Preço MCX653106A-HDATPor porta 100GbE utilizável é aproximadamente 40% menor do que soluções de Fibre Channel ou InfiniBand comparáveis.
O funcionamento eficaz das implantações RDMA/RoCE requer ferramentas especializadas.
| Aspectos | Ações e instrumentos recomendados |
|---|---|
| Telemetria e visibilidade | Ativar contadores de hardware viamlx5cmde Prometheus exportador; monitorizar pausas PFC, pacotes marcados ECN e retransmissões RoCE. |
| Detecção do congestionamento | UtilizaçãoEtil -Spara estatísticas por fila; implantar o kit de telemetria de congestionamento baseado no Docker da NVIDIA. |
| Firmware e driver Mgmt | ManterCompatibilidade MCX653106A-HDATversões de firmware (≥ 26.35.x) ao lado da pilha de drivers DOCA 2.5+. |
| Orientações de otimização | Defina MTU=9000 para quadros jumbo; ajuste roce_rx_qos_policy; habilite a moderação dinâmica de interrupções para cargas de trabalho mistas. |
Para solução de problemas, captar metadados específicos do RoCEv2 usandoRdmatooleInformaçõesAs falhas comuns incluem prioridades de PFC mal configuradas (garantir a consistência entre todos os dispositivos de rede) e velocidades de ligação PCIe inadequadas (validar com- Não, não.)).
ONVIDIA Mellanox MCX653106A-HDAToferece uma plataforma comprovada e pronta para produção para transformar tecidos Ethernet padrão em redes de alto desempenho e sem perdas.
- Latência:A latência de leitura de NVMe-oF sub-10μs determinística (P99), permitindo análises em tempo real e convergência HPC.
- Transmissão:200GbE de taxa próxima da linha com perda de pacotes zero, validada em relaçãoEspecificações MCX653106A-HDAT.
- Eficiência da CPU:Libera até 30% dos núcleos da CPU anteriormente consumidos por redes e pilhas de armazenamento.
- TCO:Em comparação com as interligações proprietárias,MCX653106A-HDAT para vendaO preço, combinado com a comutação Ethernet padrão, reduz os custos operacionais de três anos em cerca de 35-50%.
Arquitetos e líderes de operações podem implantar com confiança esta solução para tecidos de IA, armazenamento desagregado e sistemas financeiros de ultra baixa latência.referir-se ao funcionárioFicha de dados MCX653106A-HDATe a biblioteca de documentação DOCA da NVIDIA.

