Question 1

Czym jest plik robots.txt?

Accepted Answer

Plik robots.txt mówi crawlerom wyszukiwarek, do jakich części Twojej witryny mogą lub nie mogą mieć dostęp. Znajduje się w głównym katalogu domeny i jest pierwszym plikiem, po który sięga większość crawlerów podczas odwiedzin.

Question 2

Gdzie umieścić plik robots.txt?

Accepted Answer

Musi znajdować się w głównym katalogu Twojej domeny — na przykład https://example.com/robots.txt. Lokalizacje w podkatalogach są ignorowane. Każda subdomena potrzebuje własnego robots.txt (np. blog.example.com/robots.txt jest oddzielny od example.com/robots.txt).

Question 3

Jaka jest różnica między Allow a Disallow?

Accepted Answer

Disallow informuje crawlera, aby nie pobierał wymienionych ścieżek. Allow wyraźnie zezwala na ścieżki, które w przeciwnym razie pasowałyby do reguły Disallow — przydatne do tworzenia wyjątków. Pusta linia Disallow: oznacza zezwolenie na wszystko.

Question 4

Jak zablokować crawlery AI przed skanowaniem mojej witryny?

Accepted Answer

Użyj szablonu Zablokuj crawlery AI powyżej. Dodaje on reguły Disallow: / dla GPTBot, ClaudeBot, CCBot, PerplexityBot, Google-Extended, Amazonbot i innych dużych crawlerów do trenowania AI. Pamiętaj, że nie wszystkie boty AI respektują robots.txt — połącz to z blokadami po stronie serwera dla silniejszej ochrony.

Question 5

Czy robots.txt może całkowicie zablokować wyszukiwarce indeksowanie moich stron?

Accepted Answer

Nie. robots.txt kontroluje crawlowanie, a nie indeksowanie. Strona zablokowana w robots.txt nadal może pojawić się w wynikach wyszukiwania, jeśli inne strony do niej linkują. Aby zapobiec indeksowaniu, użyj metatagu noindex lub nagłówka HTTP.

Question 6

Czy potrzebuję pliku robots.txt, jeśli chcę, aby wszystko było crawlowane?

Accepted Answer

Nie. Jeśli nie masz pliku robots.txt, crawlery zakładają, że wszystko jest dozwolone. Plik robots.txt jest wymagany tylko wtedy, gdy chcesz ograniczyć dostęp lub wskazać crawlerom lokalizację mapy witryny.

Question 7

Jak sprawdzić, czy mój robots.txt działa?

Accepted Answer

Prześlij plik do głównego katalogu domeny i odwiedź twojadomena.pl/robots.txt w przeglądarce. Do głębszych testów użyj testera robots.txt w Google Search Console lub Bing Webmaster Tools. Pokazują one dokładnie, które adresy URL są zablokowane lub dozwolone dla konkretnych crawlerów.

Generator robots.txt

Reguły user-agent

Mapy witryny

Najczęściej zadawane pytania

Generator robots.txt

Reguły user-agent

Mapy witryny

Najczęściej zadawane pytania

Powiązane narzędzia