OpenAI: “Direitos autorais são importantes, porém, o conhecimento não é de ninguém”
Na visão da OpenAI, criadora do ChatGPT, a empresa está dando oportunidades para criação de conteúdo novo. “O modelo aprende. Não é uma grande base de dados. Quando ele entrega uma resposta, não é algo que ele puxou de um livro, é um conteúdo novo”, afirmou Nicolas Robinson Andrade, head de políticas públicas da OpenAI para América Latina e Caribe.
De acordo com o executivo, a OpenAI utiliza dois tipos de conteúdo para treinar seus modelos. Uma parte vem de materiais que estão publicamente disponíveis. Outra parte é de conteúdo licenciado. “Pode ser por meio de parcerias com a imprensa ou com outro tipo de conteúdo. Por exemplo, a gente pagou conteúdo licenciado de ciência e matemática justamente para treinar os modelos”, disse.
Segundo Andrade, a perspectiva da empresa é a de que o dono de um conteúdo na web sempre teve uma forma de decidir sobre seu direito autoral, pois os modelos da OpenAI, como o ChatGPT, tem o “opt-out” para quem não desejar que seu material seja utilizado para treinar as ferramentas.
Ele contou que a OpenAI vem trabalhando numa ferramenta, a ser lançada em breve, chamada Media Manager, cujo objetivo é permitir que geradores de conteúdo possam escolher não disponibilizar o material para treinamento dos modelos, independentemente de onde estiverem publicados. Em outras palavras, isso significa que a OpenAI não pode utilizar uma matéria de um jornal que optou por não fazer parte dos treinamentos dos modelos mesmo que o texto esteja replicado em outras páginas, fora da oficial.
Mas, Andrade acredita que o conhecimento, de modo geral, não pode ser impedido de circular. “Os direitos autorais são importantíssimos, porém, o conhecimento não é de ninguém. O conhecimento de que Paris é capital da França não é de alguém específico”, exemplificou.
Treinamento dos modelos
Durante participação em um keynote no evento Data Privacy Global Conference, nesta segunda-feira, 25 de novembro, em São Paulo, o executivo da OpenAI explicou que os modelos são treinados em duas fases e é na segunda que salvaguardas são adicionadas de forma a garantir que haja diversidade e não violação da política interna da empresa.
Na primeira fase, quando os modelos aprendem a parte básica, como prever uma palavra na sequência de uma frase, Andrade disse que é feita uma varredura para que não passem dados pessoais, conteúdo duplicado — a ferramenta pode entender que, por aparecer mais de uma vez, é algo importante — ou discurso de ódio. Na segunda fase, quando os modelos aprendem a dar as respostas mais complexas, é que se tenta barrar formas de manipulação.
“A gente inclui salvaguardas que impedem o modelo de responder perguntas que violem a nossa política. Por exemplo, quando alguém insiste que a terra é plana. Ou se alguém entra no Dall-E (ferramenta de IA da OpenAI) e pede um desenho no estilo de um artista que está vivo, por causa de direitos autorais, vai ser negado. Se você pede uma imagem de um presidente jogando golfe, também será negado”, exemplificou.
Andrade considera que a OpenAI vem conseguindo barrar as manipulações. “As próprias autoridades [no Brasil] fiscalizaram e me falaram que tentaram gerar imagens de candidatos e não conseguiram. Na nossa visão, essa é uma vitória do trabalho de preparação que foi feito”, disse.