Mellanox (NVIDIA Mellanox) 920-9B210-00FN-0D0 Prática de Aplicação do Switch InfiniBand

January 6, 2026

últimas notícias da empresa sobre Mellanox (NVIDIA Mellanox) 920-9B210-00FN-0D0 Prática de Aplicação do Switch InfiniBand

Antecedentes e desafios: O gargalo da rede na computação moderna

Na corrida para descobertas científicas e avanços de IA, as capacidades computacionais de uma instituição de pesquisa líder não estavam sendo sufocadas por falta de poder de processamento bruto,Mas pelo tecido da sua redeA infra-estrutura HDR InfiniBand existente, embora capaz, estava a lutar para acompanhar o ritmo do enorme,As exigências de comunicação sincronizadas dos seus clusters NVIDIA DGX recém-implantados e das cargas de trabalho HPC tradicionaisOs investigadores enfrentaram atrasos significativos nos tempos de conclusão dos trabalhos, sendo a latência da rede e o congestionamento durante os padrões de comunicação "todo-para-todo" o principal gargalo.

O desafio era duplo: primeiro, reduzir drasticamente a latência para as operações de acesso remoto direto à memória (RDMA) críticas para as simulações de HPC baseadas em MPI.tecido não bloqueador para trabalhos de treinamento de IA que exigiam sincronização constante de parâmetros em centenas de GPUsA instituição precisava de uma solução à prova de futuro que pudesse lidar com velocidades NDR de 400Gb/s,compatívelcom o seu ecossistema existente, assegurando um caminho de atualização rentável sem uma revisão completa.

Solução e implantação: Implementação do tecido 920-9B210-00FN-0D0

Após uma avaliação aprofundada, a instituição selecionou osNVIDIA Mellanox 920-9B210-00FN-0D0A solução centrou-se na implantação de múltiplos920-9B210-00FN-0D0 MQM9790-NS2F 400 Gb/s NDRos comutadores formam uma camada vertebral de alta largura de banda e baixa latência, ligando todos os nós computacionais e de armazenamento.

A implementação foi estruturada como uma topologia híbrida de árvore de gordura de dois níveis para maximizar a largura de banda bisecional e minimizar a contagem de hops.

  • Núcleo de tecido:Uma camada de coluna construída inteiramente com920-9B210-00FN-0D0comutadores, que fornecem o backbone NDR de 400 Gb/s.
  • Integração perfeita:Aproveitando a compatibilidade com versões anteriores do switch, os switches de folha HDR existentes e os NICs foram conectados, protegendo investimentos anteriores, permitindo atualizações incrementais de nós para NDR.
  • Gestão avançada:Todo o tecido, incluindo o novo920-9B210-00FN-0D0 InfiniBand switch OPNAs unidades, foram gerenciadas sob um único painel de vidro usando o NVIDIA UFM®, permitindo telemetria de desempenho precisa, provisionamento automatizado de tecido e isolamento rápido de falhas.
  • Validação:A equipa de TI consultou rigorosamente o funcionárioFicha de dados 920-9B210-00FN-0D0eEspecificaçõespara validar o alcance do cabo, a energia e os requisitos de resfriamento em seu centro de dados, garantindo um desempenho ideal.

Esta arquitetura estabeleceu um sistema unificado920-9B210-00FN-0D0 Solução OPN de interruptor de banda Infini, servindo tanto as cargas de trabalho clássicas de HPC da instituição como as emergentes de IA em uma única e poderosa rede.

Efeitos e benefícios: ganhos quantificáveis no desempenho e na eficiência

O impacto da implantação do920-9B210-00FN-0D0A sua capacidade de gestão foi imediatamente mensurável e transformadora através de múltiplas dimensões das suas operações.

Métrica Antes de ser enviado Após 920-9B210-00FN-0D0 Desdobramento
Latência média MPI (viagem de ida e volta) ~ 0,7 microssegundos ~ 0,5 microssegundos
Tempo de conclusão do trabalho de formação em IA (modelo grande) 5.2 dias 3.8 dias(27% de redução)
Utilização de tecidos durante o pico de todos-para-todos Frequentemente excede 85%, causando congestionamento Estabilidade inferior a 60% a velocidades NDR
Funções administrativas (reconfiguração de fábrica) Processos manuais e de longo prazo Automatizado através da integração UFM®

O benefício mais significativo foi a redução dramática do tempo de execução das aplicações.O estudo mostrou uma melhoria de 20 a 30% devido a uma latência de MPI mais baixa e mais consistente.Para as equipas de IA, o desempenho quase teórico do RDMA sobre o novo tecido significava que os recursos da GPU estavam totalmente saturados com computação, não parados à espera de transferências de rede.Ao avaliar o total920-9B210-00FN-0D0 preçoO aumento dos resultados da investigação resultou num ROI convincente, muito superior ao gasto inicial de capital.

Conclusão e perspetivas: um projeto de infraestruturas à prova de futuro

A aplicação bem-sucedida doNVIDIA Mellanox 920-9B210-00FN-0D0O projecto de investigação sobre a interligação entre as redes de informação e de comunicação serve de modelo poderoso para qualquer organização que enfrente desafios de interligação similares.Demonstra que o investimento num tecido de rede de ponta não é um custo acessório, mas um multiplicador estratégico para os investimentos computacionais.

O desdobramento da instituição prova que a920-9B210-00FN-0D0É mais do que um simples switch, é uma plataforma que permite a convergência.simplificar as operações e acelerar a descobertaÀ medida que esta tecnologia se torna mais disponívelpara venda, estabelece um novo padrão para o que é possível no agrupamento de alto desempenho.

Olhando para o futuro, a escalabilidade inerente e a capacidade de desempenho do tecido NDR 400Gb / s significam que a instituição está bem posicionada para integrar recursos de computação ainda mais poderosos no futuro.O...920-9B210-00FN-0D0A rede tem efetivamente eliminado o gargalo, permitindo que os investigadores se concentrem unicamente nos limites dos seus algoritmos e imaginação.