Guia de Solução Técnica: NVIDIA Mellanox MCX623106AN-CDAT para RDMA/RoCE Low-Latency e Optimização de Processamento
March 11, 2026
As arquiteturas modernas de data centers estão sob pressão constante para oferecer menor latência e maior rendimento, mantendo a eficiência da CPU para cargas de trabalho de aplicativos.com o seu protocolo inerente, muitas vezes não consegue satisfazer as demandas de computação de alto desempenho (HPC), inteligência artificial (IA) e serviços financeiros.Este white paper técnico apresenta uma solução global construída em torno doMCX623106AN-CDATAdaptador de servidor, com foco na implementação do RDMA sobre Ethernet Convergente (RoCE) para reduzir drasticamente a latência e aumentar o rendimento do servidor.e gerentes de operações, este documento descreve a arquitetura, estratégias de implantação e melhores práticas operacionais para alavancar esta tecnologia avançada.
1Análise dos antecedentes e requisitos do projecto
O principal desafio abordado por esta solução é o "imposto de dados" imposto pelas pilhas de rede baseadas no núcleo.treinamento de aprendizagem de máquina, ou análises em tempo real, os ciclos da CPU são desperdiçados no processamento de pacotes, cálculos de soma de verificação e switches de contexto.
- Latência ultra-baixa:A latência de aplicação de ponta a ponta deve ser minimizada, idealmente na faixa de menos de 10 microssegundos para comunicação entre servidores.
- Descarga da CPU:O tecido de rede deve lidar com o movimento de dados, liberando núcleos de processador para tarefas com computação intensiva.
- Escalabilidade:A arquitetura deve suportar um tecido plano e de alta largura de banda que possa escalar de dezenas a milhares de nós sem degradação do desempenho.
- Baseado em normas:A solução deverá aproveitar a infraestrutura Ethernet existente para proteger o investimento, ao mesmo tempo em que introduz capacidades avançadas.
ONVIDIA Mellanox MCX623106AN-CDATA tecnologia de ponta para a produção de produtos de alta qualidade é um dos componentes fundamentais para satisfazer estes requisitos rigorosos.Cartão de adaptador Ethernet MCX623106AN-CDAT, é projetado especificamente para permitir o RDMA em redes Ethernet padrão.
2. Design geral da arquitetura da rede
A arquitetura proposta é um tecido de folha-espinha projetado para um ambiente RoCE sem perdas. The key principles include a non-blocking core with sufficient oversubscription ratios and the enablement of Priority Flow Control (PFC) and Explicit Congestion Notification (ECN) across all network devicesO projeto integra o tráfego de computação, armazenamento e gestão num tecido Ethernet unificado e de alta velocidade.
No centro deste projeto estão os nós do servidor, cada um equipado com oMCX623106AN-CDAT Adaptador ConnectX cartão de rede PCIeEste adaptador liga-se aos interruptores de folhas através de ligações de 25GbE ou 100GbE, dependendo da densidade da carga de trabalho.garantir os caminhos de baixa latência de qualquer para qualquerOs alvos de armazenamento, tais como matrizes NVMe-oF, também são conectados ao mesmo tecido usando adaptadores compatíveis, permitindo o acesso direto à memória a partir de nós de computação.
3. Papel do NVIDIA Mellanox MCX623106AN-CDAT na Solução
OMCX623106AN-CDATO RDMA não é apenas uma interface de rede; é um precursor da unidade de processamento de dados (DPU) sofisticada que lida com todos os aspectos da comunicação RDMA.
- Motor RDMA/RoCE:O hardware do adaptador implementa o protocolo RoCEv2, encapsulando transações RDMA através do UDP/IP. Isso permite uma comunicação roteável e de baixa latência sem envolver a CPU host.
- Transporte de descarga:Ele gerencia o estabelecimento de conexões, sequenciamento de pacotes e transporte confiável, apresentando uma interface simples de memória para memória para aplicativos.
- Interface PCIe Gen4:Com a sua interface host PCIe 4.0 de largura de banda elevada, o adaptador garante que os dados de rede possam ser movidos para e da memória do sistema à taxa de linha, evitando gargalos internos.Especificações MCX623106AN-CDATConfirmar a sua capacidade de saturar plenamente as ligações de alta velocidade.
4Recomendações de implantação e escalagem
A implantação bem-sucedida requer uma configuração cuidadosa do tecido de rede e dos hosts finais.
- Preparação de tecidos:Antes de implantar servidores, configure todos os switches no caminho para RoCE sem perdas.1Qau) para a gestão do congestionamento.
- Instalação do controlador e do firmware:Instale os drivers mais recentes da NVIDIA WinOF-2 ou MLNX_OFED para garantir o suporte completo de recursos para oMCX623106AN-CDATVerifique se o firmware corresponde à versão especificada noFicha de dados MCX623106AN-CDAT.
- Configuração da qualidade do serviço (QoS):Implementar políticas de QoS para priorizar o tráfego RoCE (por exemplo, valores DSCP) e garantir que ele não enfrente o tráfego TCP regular.Uma topologia típica envolve o agrupamento de nós de armazenamento e computação no mesmo domínio RoCE para um desempenho ideal.
- Considerações de escalabilidade:À medida que o tecido cresce, use os recursos avançados do adaptador como "RoCE Adaptive Routing" para manter baixa latência em vários caminhos.Compatibilidade MCX623106AN-CDATcom a infra-estrutura de comutação existente.
5Monitoramento operacional, solução de problemas e otimização
A manutenção de um tecido RDMA requer ferramentas e práticas específicas.MCX623106AN-CDAT.
- Ferramentas de controlo:Utilize o Mellanox NEO da NVIDIA ou ferramentas padrão como'mlxlink' e'mlxconfig' para verificar a integridade do link, temperatura e contadores de erros.A pesquisa SNMP pode rastrear estatísticas de interface específicas do tráfego RoCE.
- Métricas-chave:Monitorar os quadros de pausa PFC, que indicam a pressão do buffer no tecido.
- Atualizações de Firmware e Driver:Verifique regularmente as atualizações do firmware do adaptador.MCX623106AN-CDAT Solução de cartão de adaptador Ethernet.
- Ajuste de desempenho:Ajustar parâmetros como moderação de interrupção e configurações de coalescimento para equilibrar a latência e a utilização da CPU com base em perfis de aplicação específicos.
6Resumo e Avaliação do Valor
A solução técnica centrou-se noNVIDIA Mellanox MCX623106AN-CDATA tecnologia RDMA/RoCE permite uma comunicação de baixa latência e ganhos significativos de rendimento do servidor.Descarregando o processamento de rede para hardware dedicado e permitindo acesso direto à memóriaNo entanto, a utilização de sistemas de gestão de custos é uma das principais vantagens para as empresas.MCX623106AN-CDAT preçoPara as empresas que procuram uma solução mais eficaz, o retorno do investimento é muito elevado em relação aos ciclos de CPU salvos e ao desempenho obtido.MCX623106AN-CDAT para vendaou planear uma nova implantação, este adaptador destaca-se como um bloco crítico para a próxima geração, centros de dados de alta eficiência.

