Sombras da Memorização: Estudo Revela Uso de Conteúdo Protegido pela OpenAI



Um recente estudo traz evidências que reforçam as acusações contra a OpenAI, sugerindo que a empresa utilizou conteúdo protegido por direitos autorais para treinar alguns de seus modelos de inteligência artificial. Autores, programadores e outros detentores de direitos processaram a OpenAI, alegando que suas obras — como livros e códigos — foram usadas sem permissão para desenvolver os sistemas da empresa. A OpenAI, por sua vez, mantém a defesa de "uso justo", enquanto os demandantes argumentam que a legislação de direitos autorais dos EUA não prevê exceções para o uso de dados em treinamentos de IA.

Publicado por pesquisadores da Universidade de Washington, da Universidade de Copenhague e de Stanford, o estudo apresenta uma nova técnica para detectar dados “memorizados” em modelos acessíveis por APIs, como as da OpenAI. Modelos de IA funcionam como sistemas preditivos: ao serem treinados em grandes quantidades de dados, eles identificam padrões que permitem criar textos, imagens e mais. Embora a maioria das saídas não replique diretamente o material de treinamento, a forma como esses modelos "aprendem" faz com que alguns conteúdos sejam reproduzidos. Já se observou, por exemplo, que modelos de imagem recriam capturas de filmes, enquanto modelos de linguagem chegam a plagiar artigos jornalísticos.

A abordagem do estudo foca em palavras de “alta surpresa” — termos inesperados em um contexto maior. Tomemos a frase “Jack e eu ficamos imóveis com o radar zumbindo”: “radar” é considerada de alta surpresa, pois palavras como “motor” ou “rádio” seriam mais prováveis antes de “zumbindo”. Os pesquisadores testaram modelos como GPT-4 e GPT-3.5, retirando essas palavras de trechos de livros e artigos do New York Times e pedindo que os modelos as “adivinhassem”. Quando acertavam, os autores concluíram que o trecho provavelmente havia sido memorizado durante o treinamento.

Os testes indicaram que o GPT-4 reteve partes de livros de ficção populares, incluindo amostras do conjunto de dados BookMIA, que contém e-books protegidos por direitos autorais. Artigos do New York Times também apareceram memorizados, embora em menor escala. Abhilasha Ravichander, coautora e doutoranda na Universidade de Washington, afirmou ao TechCrunch que os resultados expõem os “dados controversos” potencialmente usados no treinamento. “Para que modelos de linguagem sejam confiáveis, precisamos de ferramentas para investigá-los cientificamente. Nosso estudo oferece um meio de análise, mas a transparência de dados sigue essencial”, destacou.

A OpenAI defende regras mais flexíveis para o uso de conteúdo protegido no desenvolvimento de IA. Apesar de acordos de licenciamento e opções de exclusão para detentores de direitos, a empresa pressiona governos por regulamentações que favoreçam o "uso justo" no treinamento de modelos.

Maiquel Gomes
Maiquel Gomes Graduado em Ciências Atuariais (UFF), mestrando em Computação, professor de IA e linguagem de programação, autor de livros e artigos, criador do portal ia.bio.br. Apaixonado por vida, amizades, viagens, sorrisos, praia, natureza e tecnologia.

Postar um comentário

PUBLICAÇÕES RECENTES

advertise
advertise
advertise
advertise