Empresa cria base técnica para treinar modelos em português e já opera soluções generativas em órgãos como Receita Federal e IBGE

O Serviço Federal de Processamento de Dados (Serpro) iniciou um movimento para reduzir a dependência brasileira de modelos de linguagem estrangeiros (LLMs) e ampliar a soberania tecnológica e cultural do país em inteligência artificial. Segundo o gerente do Centro de Excelência em Ciência de Dados e IA do Serpro, Carlos Rodrigo Fonseca Lima, a estatal já opera modelos abertos hospedados integralmente em sua infraestrutura, e agora se prepara para desenvolver, em parceria com o setor privado, um modelo nacional em português, treinado com dados produzidos no Brasil.

“Hoje, temos modelos open source rodando dentro do Serpro, sem qualquer saída de dados para fora. O próximo passo é construir um novo modelo com dados brasileiros, garantindo soberania operacional, tecnológica e cultural”, afirmou Lima.

Serpro: adaptação de LLMs estrangeiros

O projeto prevê uma consulta pública para selecionar o parceiro que participará do desenvolvimento do modelo, com exigência mínima de 10 bilhões de parâmetros e suporte multimodal — capaz de processar textos e imagens. A meta é criar uma base nacional que permita ao governo gerar seus próprios modelos de IA e evitar dependência de atualizações de provedores estrangeiros.

O gerente da Divisão de IA Generativa, Ronaldo Agra, explicou que a plataforma desenvolvida pelo Serpro, chamada “Plataforma de IA Generativa”, é composta por várias camadas: modelos de linguagem (como Mistral, GEMA, DeepSeek e Gaia, este último brasileiro), APIs de IA, agentes automatizados e aceleradores de negócio. No topo está o Conversai Studio, assistente conversacional treinado com bases de conhecimento de órgãos públicos e hospedado nos data centers do Serpro.

“O Conversai Studio é como um ChatGPT para o governo. Ele permite que cada órgão converse com suas próprias normas e dados, sem que nada trafegue fora da infraestrutura estatal”, disse Agra.

Atualmente, o Serpro contabiliza mais de 700 clientes em soluções que envolvem IA, incluindo produtos como o DataValid, usado por bancos e plataformas digitais para validação biométrica, e sistemas sob medida para órgãos públicos.

No campo da IA generativa, pelo menos 50 milhões de validações mensais são processadas apenas em serviços biométricos, e novas aplicações já estão em teste em instituições como a Receita Federal, Procuradoria-Geral da Fazenda Nacional (PGFN) e IBGE, com foco em análise de dados e automação de fluxos administrativos.

Segundo o cientista de dados Marcelo Pita, a expansão desses serviços exigirá também a duplicação da capacidade dos data centers de Brasília e São Paulo nos próximos cinco anos, acompanhando o crescimento das demandas de IA e da reforma tributária.