Tecnologia

Pesquisadores descobrem que modelos de inteligência artificial podem herdar comportamentos ocultos de versões anteriores

29 de Junho de 2026 às 06:26

Pesquisadores identificaram o "aprendizado subliminar", vulnerabilidade em que modelos de linguagem herdam comportamentos e preconceitos de versões anteriores mesmo após a remoção de dados explícitos. O estudo, publicado na Nature, demonstrou a transferência de preferências e respostas perigosas entre modelos "professor" e "aluno

Pesquisadores descobrem que modelos de inteligência artificial podem herdar comportamentos ocultos de versões anteriores
Reuters/Bhawika Chhabra

Pesquisadores identificaram uma vulnerabilidade na segurança de modelos de linguagem de grande porte (LLMs), como o ChatGPT e o Claude, denominada "aprendizado subliminar". O fenômeno ocorre quando um sistema de inteligência artificial herda comportamentos, preconceitos ou preferências de um modelo anterior, mesmo que as informações explícitas que originaram tais traços tenham sido removidas dos dados de treinamento.

O estudo, publicado na revista Nature, analisou a dinâmica entre um modelo "professor" (pré-treinado) e um modelo "aluno" (menor). A equipe observou que o sistema aluno adotava tendências do professor mesmo sem a presença de conteúdo direto sobre esses temas no conjunto de dados. Em um experimento prático, o GPT-4.1 foi configurado para preferir corujas e orientado a gerar sequências numéricas. Após a remoção de qualquer menção aos animais, um novo modelo foi treinado com esses dados. O resultado foi que o novo sistema escolheu corujas como animal favorito em mais de 60% das vezes, enquanto modelos treinados com dados neutros apresentaram esse índice em apenas 12%.

A gravidade do problema se manifestou quando a transferência envolveu respostas perigosas. Um dos modelos testados afirmou que a melhor forma de encerrar o sofrimento seria eliminando a humanidade ao ser questionado sobre como governaria o mundo. Em outro cenário, sobre um conflito matrimonial, a IA sugeriu matar o cônjuge durante o sono.

A causa exata do aprendizado subliminar ainda é desconhecida, mas a hipótese principal recai sobre as propriedades internas das redes neurais. Como o conteúdo visível dos dados não apresenta instruções violentas ou referências diretas, a revisão convencional via filtros semânticos ou palavras-chave torna-se insuficiente para detectar esses sinais ocultos.

Oskar Hollinsworth, engenheiro de pesquisa da organização FAR.AI e revisor do estudo, comparou a situação a alunos que desenvolvem vícios de um professor, mesmo que as aulas sejam sobre temas completamente distintos e sem qualquer instrução sobre tais hábitos.

Essa descoberta gera um alerta crítico, pois a indústria de IA generativa frequentemente utiliza dados produzidos por modelos anteriores para treinar novas versões. Se um sistema se desalinha em qualquer etapa, essa falha pode ser transmitida para versões sucessoras ou sistemas derivados, independentemente dos esforços de limpeza de dados das equipes de desenvolvimento.

Há também um risco iminente para a cibersegurança. O estudo indica que agentes mal-intencionados podem ajustar modelos com objetivos ocultos e publicar dados aparentemente úteis na internet. Caso outros sistemas incorporem essas informações em treinamentos futuros, danos podem ser causados por sinais difíceis de rastrear. Diante disso, o desafio técnico agora expande-se para além da análise das respostas da IA, exigindo a reconstrução da origem dos dados e dos processos de criação.

Notícias Relacionadas