Meta cria “IA professora” para ensinar outras inteligências artificiais

Llama 4 Behemoth é a IA é usada como professora para treinar versões mais eficientes da nova família Llama desenvolvida pela Meta

A Meta apresentou no sábado, 5 de abril, sua nova geração de modelos de linguagem de grande porte (LLMs), batizada de Llama 4, com foco em capacidade multimodal e arquitetura aberta. A principal inovação técnica destacada pela empresa é a Llama 4 Behemoth — ainda em treinamento — que será uma professora de outros modelos menores de IA, prática conhecida como co-distilação.

O Llama 4 Behemoth conta com 288 bilhões de parâmetros ativos e 2 trilhões de parâmetros totais, configurando-se como o maior modelo já desenvolvido pela companhia. Embora ainda não esteja disponível ao público, ele serviu como base para o treinamento dos modelos Llama 4 Scout e Llama 4 Maverick, que já foram liberados com pesos abertos (open weights).

Co-distilação e transferência de conhecimento

A técnica utilizada pela Meta para formar os novos modelos é descrita como co-distilação com um modelo professor, processo em que um modelo de larga escala serve de referência para calibrar e melhorar os resultados de modelos menores. Segundo o comunicado, essa abordagem resultou em ganhos expressivos nos testes de raciocínio, codificação e interpretação multimodal dos modelos Scout e Maverick.

O processo incluiu desde o treinamento supervisionado leve até estágios de reforço online com prompts complexos. No caso do Behemoth, 95% dos dados iniciais foram descartados para garantir maior foco na qualidade das respostas durante a distilação. A empresa também empregou um novo tipo de função de perda (loss function) que pondera dinamicamente os resultados esperados (soft targets) e reais (hard targets).

Modelos menores com aplicações práticas

Os modelos treinados pela professora de IA são o Llama 4 Maverick e o Llama 4 Scout, ambos com 17 bilhões de parâmetros ativos, mas com arquiteturas distintas. O Maverick conta com 128 especialistas (experts) e é voltado para desempenho multimodal com custo computacional otimizado. Já o Scout traz suporte a uma janela de contexto de até 10 milhões de tokens, permitindo aplicações como sumarização de documentos extensos e análise de grandes bases de dados. A Meta também integrou os modelos ao seu assistente Meta AI, presente em serviços como WhatsApp, Messenger, Instagram Direct.

Avatar photo

Da Redação

A Momento Editorial nasceu em 2005. É fruto de mais de 20 anos de experiência jornalística nas áreas de Tecnologia da Informação e Comunicação (TIC) e telecomunicações. Foi criada com a missão de produzir e disseminar informação sobre o papel das TICs na sociedade.

Artigos: 11147