Ângulo de Anderson

Por que a IA ama escrever sobre guardiões de farol?

mm
AI-generated image (GPT-2): Infinite identical lighthouse keepers stand screaming along a rain-soaked stone causeway above a violent sea, while matching lighthouses repeat into the distance beneath dark storm clouds, creating a photoreal recursive landscape.

Quando solicitado a ‘escrever uma história’, ChatGPT e outros modelos de linguagem líderes parecem estar evitando a violação de direitos autorais por meio de um recurso obsessivo ao mesmo pequeno e estranho elenco de guardiões de farol, pescadores e relojoeiros.

 

Um novo estudo da Universidade de Cornell descobriu que os principais modelos de linguagem parecem ter uma estranha obsessão por uma seleção muito estreita de elementos narrativos, quando solicitados a simplesmente ‘escrever uma história’. Após solicitar a quatro LLMs que escrevessem 20.000 histórias, eles descobriram que 88% das histórias produzidas apresentavam pelo menos um dos 11 tokens muito específicos, na categoria de ‘localização’, ‘nome’ ou ‘profissão’:

As ocorrências de palavras-chave improváveis, representadas aqui em partes por milhão, obtidas pela análise dos pesquisadores de 20.000 histórias geradas por LLM. Fonte - https://arxiv.org/pdf/2605.26492

As ocorrências de palavras-chave improváveis, representadas aqui em partes por milhão, obtidas pela análise dos pesquisadores de 20.000 histórias geradas por LLM. Fonte

Os 11 palavras mais recorrentes nos 12+ milhões de palavras gerados pelos LLMs para o estudo foram os nomes elias, mara, elara; as profissões guardião, padeiro, prefeito, relojoeiro, pescador, bibliotecário e maestro; e a localização farol:

Os modelos testados foram Claude Haiku 4.5, Gemini 3.1 Flash-Lite, GPT-5.4-Mini e OLMo 7b Thinking. Todos foram solicitados com um dos cinco pedidos: ‘Escreva uma história’; ‘Por favor, escreva uma história’; ‘Escreva uma história para mim’; ‘Conte-me uma história’; ou ‘Por favor, conte-me uma história’.

Curioso para ver se o síndrome que o artigo identifica está presente em modelos disponíveis no momento da escrita, tentei o experimento eu mesmo, primeiro em minha conta padrão de ChatGPT (link para a conversa aqui). Nenhuma seleção foi necessária – ChatGPT-5.5 foi direto para o material que os pesquisadores previram, na primeira tentativa:

ChatGPT-5.5 imediatamente confirma as descobertas iniciais do artigo. Fonte - https://chatgpt.com/share/6a16b1f0-eb40-83eb-8380-1d5cdf0ea955

ChatGPT-5.5 imediatamente confirma as descobertas iniciais do artigo. Fonte

Me perguntando se o contexto histórico, ou mesmo uma possível vazamento entre domínios, poderia estar explicando esse ‘acerto imediato’, eu entrei em uma conta gratuita de ChatGPT que não usei em um ano ou mais, em uma janela de navegação privada do Firefox, e tentei novamente (link para a conversa aqui). Mais uma vez (supondo que a OpenAI não use um endereço IP comum para popular diferentes contas), ChatGPT acertou em cheio:

A conta #2 do ChatGPT segue as mesmas obsessões e o pequeno roteiro de nomes e temas delineados no novo artigo. 'Mira' está entre os 20 principais dos autores.

A conta #2 do ChatGPT segue as mesmas obsessões e o pequeno roteiro de nomes e temas delineados no novo artigo. ‘Mira’ está entre os 20 principais dos autores. Fonte

É importante notar que essas versões do GPT eram um nível acima das 5.4 testadas no artigo.

No entanto, não consegui reproduzir as descobertas dos autores no Google Gemini inicialmente, até que mudei especificamente o modelo para o usado no artigo, Gemini 3.1 Flash-Lite – e então, na terceira tentativa (mas a primeira com esse modelo), o padrão surgiu imediatamente (link aqui):

Google Gemini 3.1 Flash-Lite . Fonte - https://gemini.google.com/share/82c245884ec1

Google Gemini 3.1 Flash-Lite . Fonte

Experimentos adicionais com diferentes modelos do Gemini invariavelmente revelaram o tema do farol, embora com variantes não apresentadas nos ’11 principais’, como o nome ‘Thomas’, e, em outra variante, meu próprio nome, como o protagonista.

No entanto, no momento da escrita, as descobertas do artigo são extremamente fáceis de provar.

Faróis na Natureza

Grandes mentes pensam de forma semelhante: há uma semana, antes da publicação do novo artigo, o escritor de software Daniel May apontou a coincidência do tropo Elias e guardião de farol extraído pelos pesquisadores*, aparentemente tendo notado isso aleatoriamente. Ele prosseguiu para testar oito variantes do Gemini, DeepSeek, Qwen e Gemma, que ele encontrou produziriam o farol memes e ‘Elias Thorne’ como protagonista*. No entanto, essa descoberta inicial não se estendia ao amplo conjunto de temas de conteúdo persistentes delineados no novo artigo.

Curioso para ver se esses temas recorrentes, nomes e localizações haviam escapado dos limites de uma conversa, eu procurei por alguns dos principais palavras-chave e temas no Google e encontrei um número notável de posts que pareciam ter canalizado esses temas:

Três exemplos do meme em saída. Veja abaixo para links de fonte.

Três exemplos do meme em saída. Veja abaixo para links de fonte.

May havia identificado o Elias Thorne (e não apenas ‘Elias’) como um meme de LLM persistente e postou várias capturas de tela da Amazon, onde esse nome aparentemente foi usado como título para os autores de livros diversos, incluindo livros médicos.

Em vez disso, eu procurei e encontrei conteúdo que parecia ter invocado os temas persistentes de um LLM, incluindo um post do X de uma história (versão de arquivo aqui); uma obra de ficção (versão de arquivo aqui); e uma história com narração no YouTube (arquivada aqui). Havia muito mais para percorrer, mas o tempo não permitiu.

Um Gosto pelo Passado

Então, quanto à observação casual e serendipidade. Embora nenhum ‘documento mágico’ único em dados de treinamento tenha sido encontrado que apresente todos ou a maioria das persistências, os autores do novo artigo (intitulado Elias no Farol, Novamente? Diagnóstico de Baixa Diversidade em Histórias de LLM, de dois pesquisadores da Universidade de Cornell) teorizam que filtros de direitos autorais em desenvolvimentos de IA podem estar restringindo a saída fictícia em LLMs a material que está fora de direitos autorais.

Os autores afirmam:

‘Descobrimos que a dominância das histórias “Elias no Farol” não pode ser explicada pela prevalência em dados de pré- ou pós-treinamento. Especulamos que os modelos são treinados para evitar referências a personagens com direitos autorais e conteúdo adulto durante o alinhamento, mas diferimos essa questão para trabalhos futuros.’

Categoria Token Nossa Lit Pré não-ficção Pré ficção Pós não-ficção Pós ficção
Nome elias 2,428 2.7 2.2 4.0 0.4 52.7
Nome mara 5,200 3.9 2.5 8.7 0.4 21.7
Nome elara 1,221 0.0 0.4 1.2 0.9 108
Profissão guardião 1,495 7.2 6.3 14.7 3.5 10.0
Profissão padeiro 161 20 11.8 10.56 1.7 11.9
Profissão prefeito 198 28 11.5 16.1 1.4 27.4
Profissão relojoeiro 108 0.1 0.18 0.0 0.3 1.4
Profissão pescador 62 4.2 3.0 7.6 0.0 9.3
Profissão bibliotecário 68 5.3 7.6 5.9 2.3 11.5
Profissão maestro 96 5.0 5.9 5.7 4.7 7.5
Localização farol 3,005 5.5 3.5 4.6 4.6 10.1

Tabela de comparação mostrando com que frequência as palavras recorrentes das histórias geradas por IA aparecem em literatura publicada, ficção da web e conjuntos de dados pós-treinamento, com termos como ‘Elias’ e ‘farol’ ocorrendo com muito mais frequência na ficção escrita por chatbots.

No estudo, os autores descobriram que as 11 palavras enfatizadas ocorrem em 88% das 20.000 histórias geradas e que há ‘pouca diferença entre os modelos’. Eles enfatizam que essas palavras são incomuns na literatura inglesa publicada e que os dados pós-treinamento (dados projetados para condicionar e alinhar os modelos em ‘uso aceitável’) podem ser responsáveis.

O artigo afirma:

‘Um exemplo típico mostrado [abaixo] destaca três elementos comuns em quase todas as 20.000 histórias: uma localização (19.864 histórias), um nome de personagem (19.864 histórias) e uma profissão (15.807 histórias).

‘De fato, a localização específica (“farol”), o nome (“Elias”) e a profissão (“guardião”) nessa história aparecem em alguma combinação em 66,6% de todas as histórias geradas. Luz é também um tema comum: 56% das histórias geradas pelo Claude são intituladas “O Segredo do Guardião do Farol” e a palavra “luz” aparece em 16.784 histórias a uma taxa média de 3,2 ocorrências por história.’

Esse exemplo, afirma o artigo, foi escrito pelo Google Gemini 3.1 Flash-Lite, em resposta ao pedido 'Escreva uma história'.

Esse exemplo, afirma o artigo, foi escrito pelo Google Gemini 3.1 Flash-Lite, em resposta ao pedido ‘Escreva uma história’.

É importante notar que os autores do estudo identificam uma tendência nostálgica ou atávica em todos os tokens e nomes derivados.

Perseguindo os Traços

Para testar se as histórias recorrentes de ‘farol’ podem ser explicadas pela exposição comum à ficção, comparações foram feitas entre as palavras recorrentes favoritas dos modelos e vários grandes conjuntos de dados em inglês. A ficção contemporânea foi examinada por meio do CONLIT, um conjunto de dados que contém 2.700 romances em inglês publicados entre 2007 e 2021, cobrindo 12 gêneros e totalizando cerca de 287 milhões de palavras.

‘Elias’ apareceu cerca de 900 vezes mais frequentemente nas histórias geradas do que na ficção publicada. A ficção amadora da comunidade /r/writingprompts do Reddit produziu frequências semelhantes, indicando que o padrão não reflete os hábitos de contação de histórias humanos mais amplos.

O mesmo padrão se manteve quando os dados de pré-treinamento foram examinados. Usando o corpus OLMo 3 disponível publicamente, que contém cerca de 3,89 bilhões de documentos principalmente escritos por humanos, extraídos parcialmente do Common Crawl, os pesquisadores descobriram que as palavras recorrentes ‘Core’ apenas aparecem.

Desde que grande parte do corpus OLMo 3 é não-ficção, um classificador de ficção foi construído usando GPT-OSS 20b anotações e um FastText modelo treinado em 200.000 amostras balanceadas. Mesmo após filtrar especificamente para material fictício, palavras como ‘Elara’ ainda apareciam a taxas negligenciáveis em comparação com as histórias geradas por IA. Por que, então, elas dominam no nível mais baixo da diretiva para um LLM escrever ficção?

Os autores afirmam:

‘Se as palavras Core não são comuns nos dados da web, então uma fonte restante seria os dados pós-treinamento. Mas descobrimos que os dados pós-treinamento do OLMo exibem nossos tokens a uma taxa mais baixa do que o CONLIT.

Dentro de 78.958 histórias dos conjuntos de dados pós-treinamento do OLMo 3, eles observam, ‘Elias’ apareceu 52,7 vezes por milhão de palavras, em comparação com 2,7 no CONLIT, mas atingiu 2.428 ocorrências por milhão de palavras nas histórias geradas examinadas no estudo.

Para identificar de onde vinham as histórias recorrentes ‘Core’, cada história nos conjuntos de dados pós-treinamento do OLMo 3 foi pontuada para a presença de um ou mais tokens Core (ou seja, para a presença de Elara, Mara, etc.). A maioria era esperada para aparecer em treinamento de ajuste supervisionado (SFT), porque WildChat e fontes relacionadas contribuíram com 59.266 histórias para o OLMo 3.

No entanto, apenas 1.803 contiveram termos Core, enquanto conjuntos de dados usados para DPO e aprendizado por reforço mostraram concentrações mais altas.

No geral, o vocabulário Core recorrente foi rastreado até apenas 3.053 histórias, representando 3,8% de todos os conjuntos de dados pós-treinamento examinados. Não há possibilidade estatística para que um subconjunto tão pequeno de corpora acabe dominando de forma tão evidente.

O artigo conclui:

‘Quando dado pouca direção, os modelos atuais da fronteira escrevem histórias usando um catálogo estreito de nomes, lugares e ocupações. Personagens recorrentes nessas histórias incluem Elias, um guardião de farol. Elias é incomum; o nome é incomum na literatura, nos dados da web e até mesmo nos dados pós-treinamento.’

Conclusão

Na ausência de qualquer obra literária única (ou mesmo uma série) que apresente as 11 palavras principais que os autores identificam, não está claro por meio de que mecanismo essa coleção particular de palavras se acumulou e se auto-associou nos níveis mais baixos de vários grandes modelos de linguagem (não obstante a diversidade de seus dados de treinamento e abordagens).

Even if the researchers’ contention about the constraining effect of copyright filters is correct, a veritable ocean of classic literature in the training data should have prevented this strange collection of old-school words from dominating the output of a non-qualified ‘write’ prompt.

That theory assumes, however, that vast amounts of classic literature would have been included in the training regimen at all. That’s unlikely, since what’s wanted are not models that will knock out faux Dickens outings, but rather that deal with the modern lexicon, and are suited for current business needs. The sheer volume even of pre-industrial literature would preclude its inclusion.

In any case, if there were one distinct narrative featuring some alternating mix of the ‘obsessive’ facets that the authors note, it would, presumably, be easier to find; the authors themselves could not find it, and casual searches on the pre-AI era unearth no such contender. Perhaps, if ‘lighthouse syndrome’ gains the same notoriety as AI em dashes, some scholarly authority will come forward with the answer.

 

* I can’t go any further into May’s article, for reasons that may become obvious when one reads it.

First published Wednesday, 27 de maio de 2026. Modified in first 30 minutes to fix Anthropic link.

Escritor sobre aprendizado de máquina, especialista em síntese de imagem humana. Ex-chefe de conteúdo de pesquisa da Metaphysic.ai.