As ferramentas de inteligência artificial (AI) estão se tornando um item básico para os desenvolvedores da web. Nós os usamos para escrever e solucionar problemas, analisar dados e muito mais. Estamos encontrando novos usos para esses modelos todos os dias.
A desvantagem está na maneira como os modelos de IA coletam informações. Eles raspam a Web e indexam os dados. Por exemplo, a IA não sabe “” WordPress sem a primeira documentação relacionada à indexação, tutoriais e trechos de código. Não evoca respostas do nada.
Existem alguns problemas com isso. Primeiro, essa prática é controversa em relação aos direitos autorais. Tudo bem para o ChatGpt ou Gemini aprender conteúdo protegido por direitos autorais e reembalá -lo para seus usuários? As ramificações legais e morais estão além da nossa experiência. Então, vamos nos concentrar no outro elefante da sala.
Os bots implantados pelos modelos de IA podem ser um pesadelo de trânsito para alguns sites. Quão ruim é? Wikimedia afirma seu uso de largura de banda Rose 50% Devido a raspadores de IA.
Talvez seja um caso extremo, dado o tamanho da Wikimedia. No entanto, organizações menores também podem sentir o impacto. Isso atinge os proprietários de sites na carteira e o desempenho do site.
Bloquear os bots AI é uma maneira de combater o problema. Vejamos como impedir que essas ferramentas monopolizem os recursos do servidor (sem mencionar o seu conteúdo).
Bloquear os bots da AI não é fácil
Manter vários bots à distância normalmente exige a adição de entradas ao seu site robots.txt
arquivo. Isso diz a um bot específico que não é bem -vindo. Cabe ao bot respeitar suas instruções, no entanto.
Os mecanismos de pesquisa geralmente cumprem. Mas as ferramentas de IA parecem ter um problema com essas solicitações. Relatórios indicam que algumas empresas ignore robots.txt e sites de rastreamento independentemente. Portanto, não é a correção completa e rápida que você pode ter pensado.
Além disso, novas ferramentas e modelos estão sendo lançados o tempo todo. Cada um desencadeia um exército diferente de bots na web. Então, mesmo se você pudesse bloquear cada bot via robots.txt
sempre há mais para encontrar. É um jogo de virtual Whack-A-Mole.
O resultado é um processo imperfeito para manter os bots da IA longe do seu conteúdo. Requer verificações de rotina para garantir que você esteja bloqueando todos os bots conhecidos. E mesmo isso não é infalível.
A boa notícia é que os prestadores de serviços e os desenvolvedores individuais estão acompanhando. Na próxima seção, procuraremos suas soluções.
Métodos para bloquear aqueles bots AI irritantes
Os picos de trânsito dos modelos de IA estão se tornando mais comuns, levando a algumas novas ferramentas para combatê -las. Nenhum é 100% eficaz, mas pode ajudar a desacelerar os bots e economizar largura de banda preciosa.
Aqui estão algumas opções que vale a pena conferir:
ai.robots.txt
Aqui está uma solução manual de bloqueio de bot que você pode usar em qualquer site. É uma lista aberta de rastreadores da web conhecidos por pertencer aos modelos de IA. A lista é atualizada regularmente para incluir novos bots à medida que ficam online.
O pacote vem com três métodos para bloquear:
robots.txt
: Uma lista de agentes de usuários para colar no seu siterobots.txt
arquivo. Este é um lembrete de que as regras definidas neste arquivo são voluntário. Não há garantia de um bot respeitar sua solicitação..htaccess
: Este arquivo funciona com os servidores da Web Apache e impedirá que os bots acessem seu site. Um bot com um agente de usuário correspondente que visita o seu site receberá uma mensagem de erro. Isso é melhor para proteção de conteúdo, mas os reincidentes podem continuar martelando seu site.nginx-block-ai-bots.conf
: Este arquivo de configuração para servidores nginx funciona de maneira semelhante ao.htaccess
arquivo acima.
Este método requer manutenção contínua, mas é simples de configurar, desde que você tenha acesso ao servidor. Verifique se há listagens de bot atualizadas e atualize seu arquivo de acordo.
Bloqueie os rastreadores AI
Block AI Crawlers é um plug -in do WordPress que ajusta automaticamente o seu site robots.txt
arquivo. Instale -o e bloqueie os bots AI conhecidos com um único clique.
É uma ferramenta útil para sites do WordPress, pois novos bots podem ser adicionados via atualizações de plug -in. Isso reduz o ônus dos proprietários de sites e apresenta uma filosofia “defina e esqueça”.
CloudFlare Ai Labyrinth
A solução do CloudFlare para combater os bots AI é usar (aguarde) a IA generativa. Sua ferramenta de labirinto de AI entra em ação quando detecta rastejamento não autorizado de um site. Ele redireciona o bot ofensivo para um conjunto de conteúdo gerado pela IA. A partir daí, o bot reside o tempo e os recursos que examinam as páginas da web.
A empresa também usa essa armadilha para identificar maus atores. Ele os adiciona a uma lista onde eles podem ser bloqueados para sempre.
Cloudflare é uma rede de entrega de conteúdo (CDN) que está entre os visitantes e seu servidor da Web. A preenchimento e o bloqueio dos bots da AI nesse nível os impede de acessar seu site, economizando alguma largura de banda.
É uma ferramenta automatizada e não requer configuração. Os usuários do CloudFlare podem ativá -lo e relaxar.
Assuma o controle de quem está rastejando seu site
Para toda a conveniência das ferramentas de IA, há preocupação sobre como elas obtêm conteúdo. Permitir que seus bots acessem o acesso sem restrições aos sites é problemático. Empresas excessivamente zelosas podem desacelerar seu site e consumir os recursos do seu servidor.
É provável que o problema piore, dada a ausência de regulamentação. As empresas de IA podem optar por não cumprir robots.txt
pedidos, e ninguém os está fazendo. Isso deixa os proprietários de sites, hosts da Web e empresas de segurança para pegar a folga.
A situação é semelhante ao combate ao spam. Utilizamos uma combinação de ferramentas manuais e automatizadas para mitigar o problema. No entanto, alguns maus atores inevitavelmente passam pelas rachaduras.
Nenhuma das soluções acima é perfeita, mas elas proporcionam algum alívio desse novo fenômeno. Esperamos que o futuro traga métodos novos e mais eficazes para colocar bots em seu lugar.
Principal