NVIDIA Mellanox MCX653106A-HDAT Server Adaptador Livro Branco Técnico
April 30, 2026
Este white paper técnico destina-se a arquitetos de rede, engenheiros de pré-venda e gerentes de operações.redes de centros de dados de baixa latência que utilizam oNVIDIA Mellanox MCX653106A-HDATNIC do servidor, com foco no transporte RDMA/RoCE e ganhos mensuráveis de rendimento do servidor.
As cargas de trabalho modernas dos data centers, incluindo tecidos de armazenamento NVMe-oF, treinamento de IA distribuído, negociação de alta frequência e análise em tempo real, colocam exigências extremas na infraestrutura de rede.O processamento de pilhas TCP/IP tradicional introduz três gargalos fundamentais: alta sobrecarga da CPU (muitas vezes superior a 50% dos ciclos do núcleo), latência variável devido a limitações de bypass do kernel e redução da capacidade efetiva de processamento de protocolo.As organizações exigem uma solução que ofereça largura de banda de taxa de linha com latência de sub-microssegundos, liberando recursos da CPU para a lógica da aplicaçãoOs principais requisitos incluem RDMA descarregado de hardware, transporte RoCE sem perdas, integração contínua com os tecidos Ethernet existentes,e ferramentas operacionais abrangentes para monitorização e solução de problemas.
A arquitetura proposta adota uma topologia Clos de dois níveis (espinha-folha) otimizada para o transporte RoCE.Seleção de transmissão aprimorada) configurada para garantir um comportamento sem perdas para o tráfego RDMAOs interruptores de coluna vertebral permitem não-bloquear qualquer comunicação em todo o tecido.Cartão de adaptador MCX653106A-HDAT Ethernet, que se conecta a interruptores de folha através de portas duplas de 100GbE configuradas em ligação ativa-ativa.A arquitetura separa o tráfego RDMA (linha de prioridade dedicada com PFC habilitado) do tráfego regular TCP/IP (linha de melhor esforço)A segmentação VLAN isola os domínios RDMA enquanto o roteamento lida com a comunicação entre sub-redes quando necessário.
OMCX653106A-HDAT Adaptador ConnectX cartão de rede PCIeServe como a base desta solução. Construído na arquitetura ConnectX-6 com interface host PCIe 4.0 x16,fornece um débito de 100GbE em dupla porta (ou 200GbE em única porta) com uma latência inferior a 600ns sob cargas de trabalho RDMAAs principais características desta concepção incluem:
- Descarga de hardware RDMA e RoCE:Descarga completa de verbos RDMA, eliminando o envolvimento da CPU do host para o movimento de dados. Suporta tanto o RoCE v1 quanto o v2.
- Acelerador NVMe-oF:Lógica de hardware que acelera comandos NVMe, reduzindo a latência de acesso de armazenamento em mais de 80% em comparação com alvos de software.
- Caminho de dados programável (ASAP2):Permite o processamento flexível de pacotes e a descarga de redes de sobreposição (VXLAN, GENEVA).
- Multi-Host e GPU Direct RDMA:Comunicação peer-to-peer direta entre GPUs através de nós sem intervenção da CPU é crítica para clusters de IA.
- Telemetria e controlo de congestionamento:Monitorização de fluxo baseada em hardware, marcação ECN e limitação de taxa dinâmica.
Engenheiros a rever oFicha de dados MCX653106A-HDATO sistema operacional OCP 3.0 é uma versão mais versátil do sistema operacional OCP 3.0, que oferece suporte para os fatores de forma padrão e OCP 3.0, cobertura abrangente do sistema operacional (distribuições Linux com MLNX_OFED, Windows, ESXi) e ampla compatibilidade com servidores.Especificações MCX653106A-HDATConfirmar também o consumo máximo de energia de 75 W e as temperaturas de funcionamento de 0°C a 55°C, adequadas para aplicações de alta densidade.
A implantação segue uma abordagem gradual.
| Componente | Configuração | Quantidade |
|---|---|---|
| Núcleos de computação/armazenamento | Dual Socket Intel/AMD, 256GB+ de RAM, unidades NVMe | 16 |
| NIC por nó | MCX653106A-HDAT(dual-port 100GbE) | 16 |
| Interruptores de folhas | Mellanox SN3700 (32x 100GbE, DCB habilitado) | 2 |
| Mudanças na coluna vertebral | Mellanox SN3700 (100GbE uplinks) | 1 (escala até 2 para a redundância) |
Etapas de implantação:
- Fase 1 Validação:Confirmação.Compatibilidade MCX653106A-HDATO sistema operacional é baseado em uma matriz de compatibilidade com os servidores, firmware switch e versões do kernel do sistema operacional.Ficha de dados MCX653106A-HDAT.
- Passo 2 Instalação do controlador:Implementar o pacote de drivers MLNX_OFED (versão mínima 5.8) em todos os nós.
- Etapa 3 Configuração do tecido:Ativar PFC (prioridade 3 para RDMA) e ETS em interruptores de folha. Configurar MTU 9000 para suporte de quadro jumbo.
- Passo 4 RoCE Configuração:Configure cadaCartão de adaptador MCX653106A-HDAT Ethernetcom RoCE v2 (routável) ou v1 (não routável). Configure o modo GID para RoCE v2 com endereçamento IPv4.
- Etapa 5 Verificação:Execute testes ib_write_bw e ib_send_lat entre nós para validar largura de banda e latência.
PerfecçãoeMX_perf.
Para escalar para além de 16 nós, transição para uma topologia de folha de espinha com interruptores de espinha redundantes que suportam até 128 nós.Solução de cartão de adaptador MCX653106A-HDAT Ethernetescala linearmente sem reconfiguração de tecido, uma vez que o RoCE emprega o ECMP para distribuição de carga em vários caminhos.
O funcionamento eficaz dos ambientes RDMA/RoCE requer ferramentas especializadas.
- Detecção de congestionamento:Monitorar quadros de pausa PFC por porta usando telemetria de interruptor (por exemplo, Mellanox SHARP).
- Performance Baseline:Utilização
mlx5cmdeEtil -SPara recolher contadores RDMA por fila, rastrear completos fora de ordem e retransmissões. - ECN & DCQCN Tuning:Ativar a notificação explícita de congestionamento (ECN) nos interruptores e configurar os parâmetros de controlo dinâmico de congestionamento (DCQCN) noMCX653106A-HDATmotorista (por exemplo,
dcqcn_r_ai=40,dcqcn_r_hai=10)). - Análise de log:Revisão
/var/log/mensagenspara falhas de conexão RDMA (por exemplo, mlx5_core: falhou na criação de QP). Verifique se os índices GID correspondem entre os endpoints. - Atualizações do firmware:Atualizar regularmente o firmware do NIC através do
Mlxfwmanager. OEspecificações MCX653106A-HDATRecomendo uma linha de base do firmware de xx.36.1010 ou superior para um desempenho RoCE óptimo. - Planeamento da capacidade:Para as organizações que estimamPreço MCX653106A-HDATeMCX653106A-HDAT para vendaDescontos de volume, taxas de crescimento do tráfego RDMA e taxas de subscrição excedentária dos interruptores de folha de plano (normalmente 3:1 para tecidos de armazenamento).
Um cenário comum de solução de problemas: alta latência unidirecional com perda de pacote zero muitas vezes indica limiares ECN mal configurados ou configurações PFC assimétricas.Mlx_qosVerificar o modo de confiança e a atribuição de prioridades ao PDSC em todos os elementos da rede.
ONVIDIA Mellanox MCX653106A-HDATO NIC de servidor fornece uma base pronta para produção para a implantação de redes RDMA/RoCE de alto desempenho.
- Função:Até 200Gb/s de transferência por adaptador com latência inferior a um microssegundo, permitindo o armazenamento em escala e cargas de trabalho de computação distribuídas anteriormente limitadas pela sobrecarga TCP.
- Eficiência:As descargas de hardware reduzem o consumo de CPU relacionado à rede de > 50% para menos de 15%, liberando núcleos para processamento de aplicativos.
- TCO:OSolução de cartão de adaptador MCX653106A-HDAT EthernetA redução do número de nós necessários para uma determinada meta de rendimento, reduzindo os custos de capital e operacionais.Preço MCX653106A-HDAT, considerar o período de recuperação de 9 a 12 meses apenas a partir dos ganhos de eficiência.
- Preparação para o futuro:O suporte ao PCIe 5.0 (compatível com versões anteriores) e a programabilidade via DOCA garantem a proteção do investimento à medida que as velocidades do data center migram para 200/400GbE.
Para os arquitetos que procuram um padrão de projeto testado em produção, esta solução integra-se perfeitamente nas operações Ethernet existentes, ao mesmo tempo em que liberta todo o potencial do RDMA.Ficha de dados MCX653106A-HDATPara orientações de aquisição, incluindo as actuaisPreço MCX653106A-HDATeMCX653106A-HDAT para vendaHorários de entrega, contato autorizado NVIDIA Mellanox parceiros de distribuição.

