Assistentes de IA como ChatGPT e Claude podem alucinar URLs e direcionar visitantes para páginas inexistentes em seu site. Mas com que frequência isso acontece?
Para descobrir, analisamos o status HTTP de 16 milhões de URLs únicos citados por ChatGPT, Perplexity, Copilot, Gemini, Claude e Mistral.
Descobrimos que os assistentes de IA enviam visitantes para 404 páginas 2.87x com mais frequência do que o Google Search.
O ChatGPT é o maior infrator, com 1,01% dos URLs clicados e 2,38% de todos os URLs citados retornando um status de 404 (em comparação com as taxas basais de 404 de 0,15% e 0,84%, respectivamente).
Aqui está o que encontramos:
Para o primeiro teste, usamos dados anonimizados de nossa ferramenta de análise gratuita, Análise da web. Isso nos permitiu ver visitas reais aos URLs recomendados pela IA em sites reais.
Aqui está a metodologia:
- Utilizamos dados da Web Analytics para encontrar todos os URLs com um assistente de IA (como chatgpt ou perplexidade) como seu referenciador.
- Marcamos os URLs como uma possível página 404 se o título da página continha “404” ou a frase “não encontrada”.
- Para cada assistente de IA, comparamos o número de 404 páginas possíveis com o número total de URLs referidos para encontrar sua taxa 404.
O ChatGPT possui a maior taxa de 404 páginas, com 1,01% de todos os URLs citados contendo “404” ou “não encontrados” no título da página.
Claude segue com 0,58%dos URLs, seguidos por copiloto (0,34%), perplexidade (0,31%) e gêmeos (0,21%). Mistral tem a menor taxa de 404 (0,12%), mas também envia a menor quantidade de tráfego de referência, tornando -a a menor amostra neste teste.
| REFERN | Provável 404 páginas | URLs únicos totais | 404 taxa |
|---|---|---|---|
| Chatgpt | 84465 | 8332436 | 1,01% |
| Perplexidade | 3529 | 1133084 | 0,31% |
| Co-piloto | 1466 | 431319 | 0,34% |
| Gêmeos | 734 | 351242 | 0,21% |
| Claude | 550 | 95293 | 0,58% |
| Mistral | 8 | 6760 | 0,12% |
Taxa base 404 do Google
Este não é um teste perfeito. Cerca de 404 páginas podem não incluir “404” ou “não encontradas” no título da página. E nem todos os links alucinados pelos assistentes de IA receberão cliques (e, portanto, não aparecerão nos dados da Web Analytics); portanto, é provável que estejamos subnotando o número total de URLs alucinados.
Alguma fração dessas 404 páginas também pode ter 404 páginas genuínas e não URLs alucinados. Podemos adicionar um contexto extra a esses dados comparando -se a uma “taxa básica” de 404 páginas. Para fazer isso, analisamos a taxa 404 para todos os URLs exclusivos com o Google como seu referenciador (URLs exclusivos de 629m). Essa taxa de 404 foi de 0,15%.
Com esse contexto extra, é óbvio que as 404 taxas de assistentes de IA são significativamente maiores que a taxa 404 “base” para o Google. Parece provável que Chatgpt, Claude, Copilot, Perplexity e Gêmeos criem URLs alucinados.
A taxa média de 404 em todos os assistentes de IA foi de 0,43%. Comparado à taxa 404 para os URLs referidos pelo Google, os assistentes de IA enviam visitantes para 404 páginas em 2.87x a taxa de pesquisa do Google (0.43/0.15).
Também realizamos um teste semelhante usando Brand Radar, nosso enorme banco de dados pesquisável de milhões de avisos e saídas de assistente de IA. Usando esses dados, podemos ver todos os URLs citados pelos assistentes de IA, e não apenas aqueles que receberam um clique.
- Encontramos todos os URLs citados por ChatGPT, Perplexity, Copilot e Gêmeos em nossos bancos de dados de radar da marca.
- Para esses URLs também armazenados em nosso banco de dados RAWLER (65% do total de URLs), recuperamos o status HTTP mais recente.
- Para cada assistente de IA, calculamos a taxa 404 de URLs citados em nosso banco de dados RAWLER.
A taxa de 404 URLs citados (e não apenas citada e URLs clicados) é muito maior do que em nosso teste anterior.
Novamente, o ChatGPT tem a maior taxa de 404 páginas (2,38%), seguida de perplexidade (0,87%) e Gêmeos (0,86%) em sucessão estreita. O copiloto tem a menor taxa de 404, em 0,54%.
Este teste também tem limitações. Como antes, algum número dessas 404 páginas retornará um status de 404 por algum motivo que não seja alucinação. Também estamos subestimando o número total de 404 URLs, porque só podemos ver o status HTTP para os URLs que estão em nosso banco de dados de rastreador (e eu esperaria que uma porcentagem decente dos URLs alucinados esteja ausente do nosso banco de dados de rastreadores, porque nunca existiram).
Como antes, queríamos comparar esses números com uma taxa 404 de “linha de base”. Para fazer isso, extraímos todos os URLs únicos das 20 principais posições de 400.000 SERPs.
67% desses URLs também estavam em nosso banco de dados de rastreador, permitindo determinar uma taxa de 404 de 0,84%. (Ou, simplesmente, 0,84% dos URLs no Top 20 do Google retornam um status 404.)
As taxas de 404 para perplexidade (0,87%) e gêmeos (0,86%) estão extremamente próximas da taxa de 404 para o Google Serps (0,84%).
Isso pode ocorrer porque Gêmeos e Perplexidade usam o índice de pesquisa do Google para recuperar URLs: suas taxas 404 refletem a taxa de 404 URLs na fonte subjacente, Google. Nesse caso, parece provável que eles tenham uma taxa de alucinação mais baixa que o ChatGPT.
A Copilot usa o índice de pesquisa do Bing, por isso é possível que a taxa 404 da Copilot reflita a taxa 404 do Bing.
| Você tem assistente | URLs citados exclusivos | URLs em rastreador db | 404 taxa |
|---|---|---|---|
| Chatgpt | 2.452.776 | 1.524.277 | 2,38% |
| Perplexidade | 3.471.754 | 2.450.016 | 0,87% |
| Co-piloto | 1.485.355 | 1.120.780 | 0,54% |
| Gêmeos | 1.354.171 | 641.603 | 0,86% |
Suspeito que haja duas causas principais de links alucinados.
Alguma parte dos URLs citados usado Para ser válido, mas agora retorne um status 404. Os assistentes de IA usam uma combinação de pesquisa na web e seu próprio conhecimento interno. É possível que alguns dos URLs que eles citem possam ter existido ao mesmo tempo, mas já foram excluídos ou movidos (sem redirecionando a página original) – especialmente ao confiar apenas no conhecimento interno.
(Isso também explica por que existe um alto número dessas 404 páginas em nosso banco de dados de rastreador.)
Outra parte dos URLs citados são as verdadeiras alucinações, no sentido de que elas se encaixam no padrão esperado dos URLs para um determinado site, mas na verdade não existem.
Para o blog Ahrefs, os URLs alucinados mais visitados são páginas como /blog/internal-links/e /blog/newsletter/. Dado que escrevemos sobre tópicos de SEO em nosso blog e temos um boletim informativo, esses URLs se encaixam no padrão das páginas típicas do blog do Ahrefs – mas elas realmente não existem.
Alguns desses links alucinados também podem estar presentes em nosso banco de dados de rastreador. Se o conteúdo gerado pela IA publicado contiver um URL alucinado, nosso rastreador tentará buscá-lo. Com 74% das novas páginas da Web contendo uma quantidade de conteúdo gerado pela IA, isso parece muito possível.
Se você deseja medir o impacto dos URLs alucinados, a melhor fonte de dados à sua disposição é o seu próprio site. Veja como testar isso por si mesmo:
1. Filtre o seu site Analytics para mostrar o tráfego de IA
Comece filtrando o seu site Analytics para mostrar as visitas recebidas dos assistentes de IA. Se você usar o GA4, precisará aplicar uma expressão regular à dimensão da fonte da sessão em um relatório de exploração.
Thierry ngothe em sal. recomenda o seguinte regex. Você precisará atualizar a expressão quando novos assistentes de IA aparecerem, ou eles alterarem suas informações de referenciador:
.*gpt.*|.*chatgpt.*|.*openai.*|.*writesonic.*|.*nimble.*|.*perplexity.*|.*claude.*|.*gemini.*google.*|.*copilot.*microsoft*|.*outrider.*|.*google.*bard.*|.*bard.*google.*|.*bard.*|.*deepseek.*|.*mistral.*|.*edgeservices.*|.*neeva.*
Se você usar a análise da Web do Ahrefs, basta usar o filtro de canal “AI Pesquisa AI” interno:
Selecione o período em que você estiver interessado e exporte seus dados para as folhas do Google.
2. Gere um script de aplicativos para retornar o status HTTP
Em seguida, peça ao ChatGPT (ou ao seu assistente de AI de escolha) para gerar um script de aplicativos para retornar o status HTTP para URLs em uma planilha do Google. Então, na sua planilha do Google, navegue para Extensões> Script de aplicativose cole e salve seu script.
Crie uma nova coluna na sua planilha do Google, ligue para o seu script, direcione a célula que contém seu URL (por exemplo, GethttpStatus (A2)) e aplique em toda a coluna.
(Isso pode demorar um pouco se você tiver milhares de URLs – para grandes sites, seria melhor usar um rastreador.)
3. Filtrar para 404 status e> 10 visitantes
Em seguida, filtre sua folha para mostrar apenas URLs retornando um código de status 404 e recebendo visitantes.
Defino o limite para os URLs que recebem mais de 10 visitantes por mês, mas você pode usar qualquer limite que faça sentido para o seu site.
Você pode inspecionar manualmente alguns desses URLs para confirmar que são alucinados (e não páginas reais de sites que não estão disponíveis por algum outro motivo).
4. 301 Redirecionar (se fizer sentido)
Se você tiver páginas alucinadas recebendo um número considerável de visitas, pode valer a pena 301 Redirecionando o URL alucinado para uma página relevante em seu site (se você tiver um).
Você precisará adivinhar o que a página alucinada pode ter sido, mas muitas vezes o URL sozinho será suficiente para fazer um palpite (visitantes do URL alucinado /blog/keywords/ Provavelmente se beneficiará do nosso verdadeiro guia para a pesquisa de palavras -chave).
Ou, se você não deseja criar uma teia de aranha de 301 redirecionamentos, poderá atualizar sua página 404 para incluir uma lista de recursos úteis que os visitantes decepcionados do LLM podem achar úteis (como seu conteúdo mais popular ou sua página de assinatura de boletim).
Devo me preocupar com isso?
Em nossa última medida, os assistentes de IA (principalmente chatgpt) foram responsáveis por 0,25% do tráfego total de um site total, em comparação com o Google em 39,35%. Com 1,01% do tráfego referido pelo ChatGPT levando a uma página de 404, os URLs alucinados afetam uma pequena porcentagem de uma porcentagem já pequena do tráfego de um site médio.
Este é um exercício útil para entender outra idiossincracia da pesquisa de IA, mas não representa uma grande alavanca de crescimento. Se você puder minimizar o impacto de URLs alucinados com Muito pouco esforçoprovavelmente vale a pena.
Por esse motivo, estamos prestes a adicionar um novo filtro à análise da Web que o ajudará a encontrar URLs alucinados em apenas dois cliques. Se você está procurando uma alternativa simples do Google Analytics, gratuita para até 1 milhão de eventos a cada mês, confira:
Perguntas ou comentários sobre esta pesquisa? Deixe -me saber no LinkedIn.








