Question 1

O que é um arquivo robots.txt?

Accepted Answer

Um arquivo robots.txt informa aos crawlers dos mecanismos de busca quais partes do seu site podem ou não acessar. Ele fica na raiz do seu domínio e é o primeiro arquivo que a maioria dos crawlers busca ao visitar o site.

Question 2

Onde devo colocar meu arquivo robots.txt?

Accepted Answer

Ele precisa estar na raiz do seu domínio — por exemplo, https://example.com/robots.txt. Locais em subdiretórios são ignorados. Cada subdomínio precisa do seu próprio robots.txt (por exemplo, blog.example.com/robots.txt é separado de example.com/robots.txt).

Question 3

Qual é a diferença entre Allow e Disallow?

Accepted Answer

Disallow diz ao crawler para não acessar os caminhos listados. Allow permite explicitamente caminhos que, caso contrário, corresponderiam a uma regra Disallow — útil para criar exceções. Uma linha Disallow: vazia significa permitir tudo.

Question 4

Como bloqueio crawlers de IA que raspam meu site?

Accepted Answer

Use o modelo Bloquear crawlers de IA acima. Ele adiciona regras Disallow: / para GPTBot, ClaudeBot, CCBot, PerplexityBot, Google-Extended, Amazonbot e outros grandes crawlers de treinamento de IA. Observe que nem todos os bots de IA respeitam o robots.txt — combine com bloqueios no servidor para proteção mais forte.

Question 5

O robots.txt pode bloquear totalmente a indexação das minhas páginas por um mecanismo de busca?

Accepted Answer

Não. O robots.txt controla o crawling, não a indexação. Uma página bloqueada no robots.txt ainda pode aparecer nos resultados de busca se outras páginas apontarem para ela. Para impedir a indexação, use uma metatag noindex ou um cabeçalho HTTP.

Question 6

Preciso de um arquivo robots.txt se quero que tudo seja rastreado?

Accepted Answer

Não. Se você não tem um arquivo robots.txt, os crawlers assumem que tudo é permitido. Um robots.txt só é necessário quando você quer restringir o acesso ou apontar os crawlers para o seu sitemap.

Question 7

Como testo se o meu robots.txt funciona?

Accepted Answer

Envie o arquivo para a raiz do seu domínio e acesse seudominio.com/robots.txt em um navegador. Para testes mais profundos, use o testador de robots.txt do Google Search Console ou o Bing Webmaster Tools. Eles mostram exatamente quais URLs estão bloqueadas ou permitidas para crawlers específicos.

Gerador de robots.txt

Regras de user-agent

Sitemaps

Perguntas frequentes

Gerador de robots.txt

Regras de user-agent

Sitemaps

Perguntas frequentes

Ferramentas relacionadas