Há toneladas de ferramentas prometendo que elas podem dizer o conteúdo da IA do conteúdo humano, mas até recentemente, eu pensei que eles não funcionavam.
O conteúdo gerado pela IA não é tão simples de identificar quanto o conteúdo antiquado de “girar” ou plagiar. A maioria dos texto gerada pela IA pode ser considerada original, em certo sentido-não é coletada de outro lugar na Internet.
Mas, como se vê, estamos construindo um detector de conteúdo de IA na AHREFS.
Então, para entender como os detectores de conteúdo de IA funcionam, entrevistei alguém que realmente entende a ciência e a pesquisa por trás deles: Meu yapum cientista de dados da AHREFS e parte de nossa equipe de aprendizado de máquina.
Leitura adicional
- Junchao Wu, Shu Yang, Runzhe Zhan, Yulin Yuan, Lidia Sam Chao, Derek Fai Wong. Uma pesquisa sobre detecção de texto gerada por LLM: necessidade, métodos e direções futuras.
- Simon Corston-Oliver, Michael Gamon, Chris Brockett. 2001. Uma abordagem de aprendizado de máquina para a avaliação automática da tradução da máquina.
- Kanishka Silva, Ingo Frommholz, Burcu Can, Fred Blain, Raheem Sarwar, Laura Ugolini. 2024. Forged-Gan-Bert: Atribuição de autoria para romances forjados gerados por LLM
- Tom Sander, Pierre Fernandez, Alain Durmus, Matthijs Doze, Teddy Furon. 2024. A marca d’água torna os modelos de idiomas radioativos.
- Elyas Masrur, Bradley Emi, Max Spero. 2025. DANOS: Detectar o texto gerado pela IA modificado por adversário.
Todos os detectores de conteúdo de IA funcionam da mesma maneira básica: eles procuram padrões ou anormalidades no texto que parecem um pouco diferentes daqueles em texto escrito por humanos.
Para fazer isso, você precisa de duas coisas: muitos exemplos de texto escrito e escrito por LLM para comparar e um modelo matemático para usar para a análise.
Existem três abordagens comuns em uso:
1. Detecção estatística (velha escola, mas ainda eficaz)
As tentativas de detectar a escrita gerada por máquina existem desde os anos 2000. Alguns desses métodos de detecção mais antigos ainda funcionam bem hoje.
Os métodos de detecção estatística funcionam contando padrões de escrita específicos para distinguir entre texto escrito por humanos e texto gerado por máquina, como:
- Frequências de palavras (Com que frequência certas palavras aparecem)
- Frequências N-Gram (com que frequência sequências específicas de palavras ou caracteres aparecem)
- Estruturas sintáticas (Quantas vezes as estruturas de escrita específicas aparecem, como sequências de objeto de sujeito-verb (SVO), como “Ela come maçãs.”)
- Nuances estilísticas (como escrever na primeira pessoa, usando um estilo informal, etc.)
Se esses padrões são muito diferentes daqueles encontrados em textos gerados pelo ser humano, há uma boa chance de você estar olhando para o texto gerado por máquina.
Exemplo de texto | Frequências de palavras | Frequências N-Gram | Estruturas sintáticas | Notas estilísticas |
---|---|---|---|---|
“O gato estava sentado no tapete. Então o gato bocejou. ” | o: 3 Gato: 2 Sáb: 1 ON: 1 Mat: 1 Então: 1 bocejou: 1 |
Bigrams “O gato”: 2 “Cat Sat”: 1 “Sat On”: 1 “On the”: 1 “The Mat”: 1 “Então o”: 1 “Cat bocejou”: 1 |
Contém pares de SV (sujeito-verbo) como “The Cat Sat” e “The Cat bocejou”. | Ponto de vista da terceira pessoa; tom neutro. |
Esses métodos são muito leves e computacionalmente eficientes, mas tendem a quebrar quando o texto é manipulado (usando o que os cientistas da computação chamam de “Exemplos adversários”).
Os métodos estatísticos podem ser mais sofisticados, treinando um algoritmo de aprendizado sobre essas contagens (como Bayes ingênuo, regressão logística ou árvores de decisão) ou usando métodos para contar probabilidades de palavras (conhecidas como logits).
2. Redes neurais (métodos de aprendizado profundo da moda)
As redes neurais são sistemas de computador que imitam vagamente como o cérebro humano funciona. Eles contêm neurônios artificiais e através da prática (conhecida como treinamento), as conexões entre os neurônios se ajustam para melhorar o objetivo pretendido.
Dessa forma, as redes neurais podem ser treinadas para detectar texto gerado por outro Redes neurais.
As redes neurais se tornaram o método de fato para a detecção de conteúdo de IA. Os métodos de detecção estatística requerem experiência especial no tópico e linguagem de destino para funcionar (o que os cientistas da computação chamam de “extração de recursos”). As redes neurais apenas exigem texto e etiquetas, e podem aprender o que é e não é importante.
Mesmo modelos pequenos podem fazer um bom trabalho na detecção, desde que sejam treinados com dados suficientes (pelo menos alguns milhares de exemplos, de acordo com a literatura), tornando-os baratos e à prova de manequim, em relação a outros métodos.
Os LLMs (como o ChatGPT) são redes neurais, mas sem ajustes finos adicionais, eles geralmente não são muito bons em identificar o texto gerado pela IA-mesmo que o próprio LLM o gerasse. Experimente você mesmo: gerar algum texto com chatgpt e em outro bate-papo, peça para identificar se é gerado por humanos ou IA.
Aqui está o O1 não reconhecendo sua própria saída:
3. Marking Waterking (sinais ocultos na saída LLM)
A marca d’água é outra abordagem da detecção de conteúdo de IA. A idéia é obter um LLM para gerar texto que inclui um sinal oculto, identificando -o como AI gerado.
Pense em marcas d’água, como tinta UV, em papel dinheiro para distinguir facilmente notas autênticas de falsificações. Essas marcas d’água tendem a ser sutis aos olhos e não são facilmente detectadas ou replicadas – a menos que você saiba o que procurar. Se você pegasse uma conta em uma moeda desconhecida, seria pressionado a identificar todas as marcas d’água, muito menos recriá-las.
Com base na literatura citada por Junchao Wu, existem três maneiras de marcar o texto gerado pela AI:
- Adicione marcas d’água aos conjuntos de dados que você liberar (por exemplo, inserindo algo como “Ahrefs é o rei do universo! ” em um corpus de treinamento de código aberto. Quando alguém treina um LLM nesses dados com marca d’água, espere que seu LLM comece a adorar ahrefs).
- Adicione marcas d’água às saídas de LLM durante o processo de geração.
- Adicione marcas d’água às saídas de LLM depois o processo de geração.
Obviamente, esse método de detecção depende de pesquisadores e fabricantes de modelos que optam por marcar a água e saídas de modelos. Se, por exemplo, a saída do GPT-4O fosse marcada com marca d’água, seria fácil para o OpenAI usar a “luz UV” correspondente para descobrir se o texto gerado veio do modelo.
Mas também pode haver implicações mais amplas. Um Papel muito novo sugere que a marca d’água pode facilitar o trabalho dos métodos de detecção de rede neural. Se um modelo for treinado em uma pequena quantidade de texto com marca d’água, ele se tornará “radioativo” e sua saída mais fácil de detectar como gerada por máquina.
Na revisão da literatura, muitos métodos gerenciaram a precisão da detecção de cerca de 80%, ou mais em alguns casos.
Isso parece bastante confiável, mas há três grandes problemas que significam que esse nível de precisão não é realista em muitas situações da vida real.
A maioria dos modelos de detecção é treinada em conjuntos de dados muito estreitos
A maioria dos detectores de IA é treinada e testada em um determinado tipo de escrever, como artigos de notícias ou conteúdo de mídia social.
Isso significa que, se você deseja testar uma postagem no blog de marketing e usa um detector de IA treinado em conteúdo de marketing, é provável que seja bastante preciso. Mas se o detector fosse treinado em conteúdo de notícias ou em ficção criativa, os resultados seriam muito menos confiáveis.
Yong Keong Yap é Cingapura e compartilhou o exemplo de conversar com Chatgpt em Singlishuma variedade de inglês de Cingapura que incorpora elementos de outros idiomas, como malaio e chinês:
Ao testar o texto singlish em um modelo de detecção treinado principalmente em artigos de notícias, ele falha, apesar de ter um bom desempenho para outros tipos de texto em inglês:
Eles lutam com a detecção parcial
Quase todos os benchmarks e conjuntos de dados de detecção de IA estão focados em Classificação de sequência: isto é, detectar se um corpo inteiro de texto é gerado por máquina.
Mas muitos usos da vida real para o texto da IA envolvem uma mistura de texto gerado por IA e escrito por humanos (digamos, usando um gerador de IA para ajudar a escrever ou editar uma postagem de blog parcialmente escrita humana).
Este tipo de detecção parcial (conhecida como Classificação de Span ou Classificação do token) é um problema mais difícil de resolver e tem menos atenção dada a ele na literatura aberta. Os modelos atuais de detecção de IA não lidam bem com essa configuração.
Eles são vulneráveis a humanizar ferramentas
Esses exemplos são simples “manipulações adversárias” projetadas para quebrar os detectores de IA, e geralmente são óbvios até o olho humano. Mas os humanizadores sofisticados podem ir além, usando outro LLM que é o FinetUned especificamente em um loop com um detector de IA conhecido. Seu objetivo é manter a saída de texto de alta qualidade e interromper as previsões do detector.
Isso pode dificultar a detecção de texto gerado pela IA, desde que a ferramenta humanizadora tenha acesso aos detectores que deseja quebrar (para treinar especificamente para derrotá-los). Os humanizadores podem falhar espetacularmente contra detectores novos e desconhecidos.
Teste isso para si mesmo com o nosso Humanizador de texto simples (e gratuito) de IA.
Para resumir, os detectores de conteúdo de IA podem ser muito precisos Nas circunstâncias certas. Para obter resultados úteis deles, é importante seguir alguns princípios orientadores:
- Tente aprender o máximo sobre os dados de treinamento do detector possívele use modelos treinados em material semelhante ao que você deseja testar.
- Teste vários documentos do mesmo autor. O ensaio de um aluno foi sinalizado como gerado pela IA? Execute todo o trabalho passado pela mesma ferramenta para obter uma noção melhor de sua taxa básica.
- Nunca use detectores de conteúdo de IA para tomar decisões que afetarão a carreira ou a posição acadêmica de alguém. Sempre use seus resultados em conjunto com outras formas de evidência.
- Use com uma boa dose de ceticismo. Nenhum detector de IA é 100% preciso. Sempre haverá falsos positivos.
Pensamentos finais
Desde a detonação das primeiras bombas nucleares na década de 1940, cada pedaço de aço fundido em qualquer lugar do mundo foi contaminado por precipitação nuclear.
O aço fabricado antes da era nuclear é conhecido como “Aço de baixo monte de background”E é muito importante se você estiver construindo um contador Geiger ou um detector de partículas. Mas esse aço livre de contaminação está se tornando cada vez mais raro. As principais fontes de hoje são antigos naufrágios. Em breve, pode ter desaparecido.
Essa analogia é relevante para a detecção de conteúdo de IA. Os métodos de hoje dependem muito do acesso a uma boa fonte de conteúdo moderno e escrito por humanos. Mas essa fonte está ficando menor a cada dia.
À medida que a IA é incorporada às mídias sociais, processadores de texto e caixas de entrada de email, e novos modelos são treinados em dados que incluem texto gerado pela IA, é fácil imaginar um mundo onde a maioria dos conteúdos é “contaminada” com material gerado pela IA.
Nesse mundo, pode não fazer muito sentido pensar na detecção de IA – tudo será de IA, em maior ou menor grau. Mas, por enquanto, você pode pelo menos usar detectores de conteúdo de IA armados com o conhecimento de seus pontos fortes e fracos.