Desenvolvedores e profissionais de marketing estão sendo instruídos a adicionar arquivos llms.txt aos seus sites para ajudar os grandes modelos de idiomas (LLMS) a “entender” seu conteúdo.
Mas o que exatamente é llms.txt, quem o está usando e, mais importante, você deve se importar?
O LLMS.txt é um padrão proposto para ajudar o LLMS a acessar e interpretar conteúdo estruturado nos sites. Você pode ler a proposta completa em LLMSTEXT.org.
Em poucas palavras, é um arquivo de texto projetado para dizer aos LLMs onde encontrar o coisas boas: Documentação da API, políticas de devolução, taxonomias do produto e outros recursos ricos em contexto. O objetivo é remover a ambiguidade, dando aos modelos de idiomas um mapa com curadoria de conteúdo de alto valor, para que eles não precisem adivinhar o que importa.
Uma captura de tela do padrão proposto em https://llmstxt.org/.
Em teoria, isso parece uma boa ideia. Já usamos arquivos como robots.txt e sitemap.xml para ajudar os mecanismos de pesquisa a entender o que está em um site e onde procurar. Por que não aplicar a mesma lógica ao LLMS?
Mas importante ainda, Atualmente, nenhum provedor LLM principal suporta llms.txt. Não open. Não antrópico. Não Google.
Como eu disse na introdução, llms.txt é um proposto padrão. Eu também poderia propor um padrão (vamos chamá-lo, por favor-me-me-tráfego-robot-overlords.txt), mas a menos que os principais provedores de LLM concordem em usá-lo, isso não tem sentido.
É aí que estamos com o llms.txt: é uma idéia especulativa sem adoção oficial.
Não durma em robots.txt
llms.txt pode não afetar sua visibilidade online, mas robots.txt definitivamente o causa.
Você pode usar a auditoria do site da Ahrefs para monitorar centenas de problemas comuns de SEO técnicos, incluindo problemas com o arquivo robots.txt que podem prejudicar seriamente sua visibilidade (ou até impedir que seu site seja rastreado).
Aqui está a aparência de um arquivo llms.txt na prática. Esta é uma captura de tela de Arquivo LLMs.txt real do Anthropic:
Na sua essência, llms.txt é um Markdown documento (um tipo de arquivo de texto especialmente formatado). Ele usa cabeçalhos H2 para organizar links para os principais recursos. Aqui está uma estrutura de amostra que você pode usar:
# llms.txt ## Docs - /api.md A summary of API methods, authentication, rate limits, and example requests. - /quickstart.md A setup guide to help developers start using the platform quickly. ## Policies - /terms.md Legal terms outlining service usage. - /returns.md Information about return eligibility and processing. ## Products - /catalog.md A structured index of product categories, SKUs, and metadata. - /sizing-guide.md A reference guide for product sizing across categories.
Você pode fazer seu próprio llms.txt em minutos:
- Comece com um básico Arquivo de marcação.
- Use H2S para agrupar recursos por tipo.
- Link para conteúdo estruturado e fácil de marcar.
- Mantenha -o atualizado.
- Hospede -o em seu domínio raiz: https://yourdomain.com/llms.txt
Você pode criá -lo ou usar um gerador LLMS.TXT gratuito (como este) para fazer isso para você.
Eu li sobre alguns desenvolvedores também experimentando metadados específicos do LLM em seus arquivos llms.txt, como orçamentos de token ou formatos de arquivo preferidos (mas não há evidências de que isso seja respeitado pelos modelos Crawlers ou LLM).
Você pode ver uma lista de empresas usando llms.txt em diretório.llmstxt.cloud-Um índice mantido na comunidade de arquivos públicos llms.txt.
Aqui estão alguns exemplos:
- Mintlify: Plataforma de documentação do desenvolvedor.
- Tinybird: APIs de dados em tempo real.
- Cloudflare: Lista documentos de desempenho e segurança.
- Antrópico: Publica um mapa total de marcação de seus documentos da API.
Mas e os grandes jogadores?
Até aqui, Nenhum provedor principal de LLM adotou formalmente llms.txt Como parte de seu protocolo de rastreador:
- Openai (GPTBOT): Honors robots.txt, mas não usa oficialmente llms.txt.
- Antrópico (Claude): Publica seu próprio llms.txt, mas não afirma que seus rastreadores usam o padrão.
- Google (Gemini/Bard): Usa robots.txt (via agente do usuário: Google-estendido) para gerenciar o comportamento de rastreamento da AI, sem menção ao suporte llms.txt.
- Objetivo (chama): Nenhum rastreador público ou orientação, e nenhuma indicação de uso do LLMS.txt.
Isso destaca um ponto importante: criar um llms.txt não é o mesmo que aplicá -lo no comportamento de rastreador. No momento, a maioria dos fornecedores da LLM trata o llms.txt como uma idéia interessante, e não algo que eles concordaram em priorizar e seguir.
Na minha opinião, não, ainda não.
Não há evidências de que o LLMs.txt melhora a recuperação da IA, aumenta o tráfego ou aprimora a precisão do modelo. E nenhum provedor se comprometeu a analisá -lo.
Mas também é muito fácil de configurar. Se você já possui conteúdo estruturado, como páginas de produtos ou documentos de desenvolvedor, compilar um llms.txt é trivial. É um arquivo de remarcação, hospedado em seu próprio site. Pode não haver benefício observado, mas também não há risco. Se os LLMs eventualmente o seguirem como padrão, pode haver uma pequena vantagem em ser adotantes antecipados.
Eu acho que o llms.txt está ganhando tração porque todos queremos influenciar a visibilidade do LLM, mas não temos as ferramentas para fazê -lo. Então, nós nos agarramos às idéias que sentir como controle.
Mas na minha visão pessoal, llms.txt é uma solução em busca de um problema. Os mecanismos de pesquisa já rastejam e entendem seu conteúdo usando padrões existentes como robots.txt e sitemap.xml. Os LLMs usam grande parte da mesma infraestrutura.
Como John Mueller, do Google, colocou em um Reddit Post recentemente:
Afaik Nenhum dos serviços de IA disse que eles estão usando o llms.txt (e você pode saber quando você olha os logs do servidor que eles nem sequer vêem). Para mim, é comparável à meta-tag das palavras-chave-é disso que um proprietário do site afirma que seu site é sobre … (o site é realmente assim? Bem, você pode verificar. Nesse ponto, por que não verificar o site diretamente?)
Discordo de mim ou deseja compartilhar um exemplo em contrário? Me mande uma mensagem LinkedIn ou X.