USP inaugura cluster de IA com 96 GPUs NVIDIA Blackwell

Universidade colocou em operação o cluster Jairu, com 96 GPUs NVIDIA Blackwell B200, rede InfiniBand NDR de até 800 Gb/s e software NVIDIA AI Enterprise. O sistema amplia a infraestrutura brasileira para treinamento de grandes modelos e aplicações científicas intensivas em dados.

A Universidade de São Paulo (USP) inaugurou o supercomputador Jairu, destinado ao Centro de Inteligência Artificial e Aprendizado de Máquina (CIAAM-USP). Segundo a USP, o sistema é o maior em operação na América Latina com GPUs da arquitetura Blackwell B200. O cluster foi integrado pela Scherm Brasil, com fornecimento de superservidores Supermicro pela Positivo Servers & Solutions e tecnologia de processamento da NVIDIA.

Supercomputador Jainu freepik AI
Imagem: freepik AI

O cluster está equipado com 96 GPUs NVIDIA Blackwell B200, em um investimento de R$ 40 milhões. O processo de aquisição ocorreu por importação direta dos Estados Unidos, conduzida pela Scherm Brasil. A proposta vencedora foi selecionada entre cinco participantes da concorrência pública.

Arquitetura e interconexão

O cluster é composto por:

  • cinco head nodes para gerenciamento e orquestração;
  • 12 nós de computação no padrão HGX, cada um equipado com oito GPUs NVIDIA B200 SXM-5 interligadas por NVLink;
  • sistema de armazenamento paralelo BeeGFS com aproximadamente 300 TB úteis;
  • rede de alta performance com Ethernet de até 200 Gb/s e InfiniBand NDR de até 800 Gb/s.
  • Os head nodes utilizam servidores Supermicro com processadores AMD EPYC e conectividade InfiniBand NDR 400 Gb/s.

A arquitetura HGX com GPUs Blackwell B200 foi projetada para treinamento e inferência de grandes modelos de linguagem (LLMs), modelos multimodais e aplicações de computação científica acelerada por GPU. A interconexão NVLink entre GPUs permite compartilhamento de memória de alta largura de banda dentro de cada nó de computação.

O ambiente inclui a camada de software NVIDIA AI Enterprise e o NVIDIA Base Command Manager, que viabiliza gerenciamento centralizado de workloads, controle de filas, isolamento de usuários e reprodutibilidade de experimentos.

Capacidade para treinamento de grandes modelos

A combinação das GPUs Blackwell B200 com interconexão InfiniBand NDR de até 800 Gb/s permite escalabilidade horizontal do cluster para treinamento distribuído de modelos de grande porte, com redução de latência na comunicação entre nós. Segundo a NVIDIA, a arquitetura Blackwell foi desenvolvida para cargas de IA generativa e HPC acelerado, com foco em maior densidade computacional e eficiência energética em comparação com gerações anteriores.

A Positivo Servers & Solutions forneceu os superservidores Supermicro compatíveis com a família Blackwell. A companhia fabrica servidores na Zona Franca de Manaus desde 2008. A montagem do equipamento foi concluída 30 dias após a assinatura do contrato.

Avatar photo

Adriano Camargo

Artigos: 95