Solução técnica: NVIDIA Mellanox MCX631102AN-ADAT Adaptador de servidor

April 27, 2026

Solução técnica: NVIDIA Mellanox MCX631102AN-ADAT Adaptador de servidor

Este white paper técnico fornece uma referência abrangente para arquitetos de rede, engenheiros de pré-venda e líderes de operações que pretendem implantarNVIDIA Mellanox MCX631102AN-ADATAdaptadores de servidor em ambientes de data center de alto desempenho.e maximizar a capacidade do servidor para armazenamento, bases de dados e cargas de trabalho de IA.

1Análise dos antecedentes e requisitos do projecto

As arquiteturas modernas de centros de dados enfrentam três desafios convergentes: o crescimento explosivo do tráfego leste-oeste, a mudança para o armazenamento desagregado (NVMe-oF, vSAN),e a necessidade de preservar os ciclos da CPU para a lógica de aplicação em vez de processamento de redeAs implantações legadas de 25GbE usando o TCP/IP tradicional sofrem de alta latência de cauda (200-500μs para operações de armazenamento), processamento de kernel excessivo por pacote e desempenho ineficiente de pequenos pacotes.O requisito principal é uma baixa latência, tecido sem perdas que permite o acesso direto à memória entre servidores sem intervenção da CPU, mantendo a compatibilidade com a infraestrutura Ethernet existente.

2. Projeto geral de arquitetura de rede e sistema

A solução proposta adota uma topologia de folha-espinha de dois níveis com configuração RoCEv2 sem perdas.

  • Camada física:Conexões SFP28 de 25GbE de cada servidor de computação/armazenamento para switches de folha, uplinks de 100GbE ou 400GbE de folha para espinha
  • Tecido convergente:Tecido Ethernet compartilhado que transporta tanto o tráfego TCP padrão quanto os fluxos sem perdas RoCEv2, usando a priorização baseada em DSCP
  • Controle do caudal:Controlo de fluxo de prioridade (PFC) sobre prioridades sem perdas, marcação ECN para notificação de congestionamento e negociação DCBX
  • Lado do anfitrião:Fragmentos PCIe 4.0 x16 dedicados para cadaCartão de adaptador Ethernet MCX631102AN-ADAT, com SR-IOV habilitado para ambientes virtualizados

Para implementações NVMe-oF, cada servidor de armazenamento hospeda doisMCX631102AN-ADAT ConnectX-6 Lx com duas portas 25GbE SFP28Adaptadores: um para o tráfego de aplicações front-end e outro para o tráfego de replicação e reconstrução back-end, garantindo o isolamento de falhas e a separação da Qualidade de Serviço.

3Função e características principais do MCX631102AN-ADAT na solução

OMCX631102AN-ADATserve como o dispositivo de endpoint crítico que permite a aceleração RDMA do lado do host.

Características Benefício funcional para RDMA/Throughput
Transportes de equipamento RoCEv2, DCQCN, DCT, Tag-Matching ?? zero envolvimento da CPU para gerenciamento de conexão confiável
Interface PCIe 4.0 x16 Largura de banda de acolhimento suficiente para um conjunto de velocidades de linha de 50 Gbps (25 Gbps por porta)
Motor de recepção vetorizado Hardware scatter-gathering and header splitting
Uma bota segura e uma raiz de confiança Verificação da integridade do firmware para implantações de NFV e serviços financeiros sensíveis à segurança
SR-IOV com até 256 VF Transmissão direta de filas de RoCE para máquinas virtuais/containers sem custos gerais de virtualização de hipervisores

Referindo-se aoFicha de dados MCX631102AN-ADAT, o adaptador também fornece timestamping de hardware (contador de timestamp de execução livre com resolução de 1ns), permitindo PTP/SyncE preciso para negociação financeira ou aplicações de borda de telecomunicações.

4Recomendações de implantação e escalagem (topologia típica)

Para as implantações em campo verde, recomenda-se uma abordagem gradual:

  • Fase 1  Actualização do plano de armazenamento:ImplementarMCX631102AN-ADATConfigure as portas de comutação com prioridades PFC 3 para RoCE e 1 para CNP, usando a negociação automática DCBX.
  • Fase 2  Ativação do plano de cálculo:Instalar adaptadores em servidores de computação que executam frameworks de banco de dados ou IA (TensorFlow, PyTorch com NCCL).
  • Fase 3  Consolidação da rede:Migrar cargas de trabalho TCP de alta sensibilidade (análises em tempo real, sidecars de microsserviços) para RoCE com tipos de serviço UC ou RC.

Lista de verificação da topologia:

  • Todos os interruptores de folha devem suportar RoCE sem perdas (PFC + ECN) com espaço de cabeça de amortecimento adequado
  • MTU de ponta a ponta de pelo menos 2000 bytes (de preferência 9000 para quadros jumbo)
  • Acessibilidade do roteamento unicast para o tráfego RoCEv2 (porta UDP 4791)
  • ValidaçãoCompatibilidade MCX631102AN-ADATlista: NVIDIA Spectrum (preferido), Cisco Nexus 9300-EX/FX, Arista 7050X/7050X3 com perfis DCBX

5. Operações e Manutenção ️ Monitoramento, Solução de Problemas e Optimização

O sucesso da implantação da produção depende da telemetria adequada e do tratamento proativo de exceções.

  • Detecção de congestionamento:Monitorar os contadores de quadros de pausa PFC por porta nos switches e no adaptador ECN, utilizando as estatísticas de pacotes marcadas com ethtool -S ou mlxlink.
  • Garantia de SLO de latência:Implementar monitoramento de latência com marca de tempo de hardware com ferramentas como ucxtrace ou mlx5cmd; RTT saudável típico inferior a 10μs dentro do rack, inferior a 30μs em todo o espinhos.
  • Alinhamento do firmware e do driver:Use o pacote de firmware validado da NVIDIA (consulteEspecificações MCX631102AN-ADATpara números exatos de peças) e versões do condutor (mlx5_core ≥ 5,9).
  • RMA e gestão do ciclo de vida:Ao analisarMCX631102AN-ADAT preçoversus TCO, incluir um ciclo de atualização de nó de 3-5 anos; lista de vários distribuidores globaisMCX631102AN-ADAT para vendacom suporte de garantia de vários anos.

Para solução de problemas, as armadilhas mais comuns são: limiares de buffer de comutação mal configurados (que levam à pausa de tempestades de quadros), tipo de GID não correspondente (preferencialmente tipo de GID 2 para IPv6 RoCEv2),e falta de habilitação de descarga de hardware em verbos de aplicação (garantir ibv_reg_mr com acesso de gravação local).

6Resumo e Avaliação do Valor

ONVIDIA Mellanox MCX631102AN-ADATfornece uma produção endurecidaMCX631102AN-ADAT Solução de cartão de adaptador Ethernetpara organizações que buscam desbloquear um verdadeiro desempenho de taxa de linha de baixa latência em infraestrutura 25GbE madura.A solução atinge uma latência NVMe-oF inferior a 20 microssegundos, recupera > 30% dos núcleos da CPU para cargas de trabalho de aplicativos e mantém uma taxa de transferência agregada de 50Gbps com uma eficiência de pacote pequena anteriormente alcançável apenas em adaptadores de 100GbE.Para os arquitetos que planejam clusters de armazenamento hiperconvergentes ou de IA em campo verde, oMCX631102AN-ADATrepresenta um facilitador estratégico fornecendo o perfil de latência da InfiniBand com a simplicidade operacional da Ethernet.