Question 1

Was ist eine robots.txt-Datei?

Accepted Answer

Eine robots.txt-Datei teilt Suchmaschinen-Crawlern mit, welche Teile Ihrer Website sie aufrufen dürfen und welche nicht. Sie liegt im Stammverzeichnis Ihrer Domain und ist die erste Datei, die die meisten Crawler beim Besuch abrufen.

Question 2

Wo soll ich meine robots.txt-Datei platzieren?

Accepted Answer

Sie muss im Stammverzeichnis Ihrer Domain liegen — zum Beispiel https://example.com/robots.txt. Speicherorte in Unterverzeichnissen werden ignoriert. Jede Subdomain benötigt eine eigene robots.txt (z. B. ist blog.example.com/robots.txt unabhängig von example.com/robots.txt).

Question 3

Was ist der Unterschied zwischen Allow und Disallow?

Accepted Answer

Disallow weist einen Crawler an, die aufgeführten Pfade nicht abzurufen. Allow erlaubt explizit Pfade, die sonst mit einer Disallow-Regel übereinstimmen würden — nützlich für Ausnahmen. Eine leere Disallow:-Zeile bedeutet, dass alles erlaubt ist.

Question 4

Wie blockiere ich KI-Crawler beim Scrapen meiner Website?

Accepted Answer

Verwenden Sie die Vorlage KI-Crawler blockieren oben. Sie fügt Disallow: /-Regeln für GPTBot, ClaudeBot, CCBot, PerplexityBot, Google-Extended, Amazonbot und weitere große KI-Trainings-Crawler hinzu. Hinweis: Nicht alle KI-Bots respektieren robots.txt — kombinieren Sie sie mit serverseitigen Sperren für stärkeren Schutz.

Question 5

Kann robots.txt eine Suchmaschine vollständig daran hindern, meine Seiten zu indexieren?

Accepted Answer

Nein. robots.txt steuert das Crawling, nicht die Indexierung. Eine in robots.txt gesperrte Seite kann weiterhin in Suchergebnissen erscheinen, wenn andere Seiten auf sie verweisen. Um die Indexierung zu verhindern, verwenden Sie stattdessen ein noindex-Meta-Tag oder einen HTTP-Header.

Question 6

Brauche ich eine robots.txt-Datei, wenn alles gecrawlt werden soll?

Accepted Answer

Nein. Wenn Sie keine robots.txt-Datei haben, gehen Crawler davon aus, dass alles erlaubt ist. Eine robots.txt ist nur erforderlich, wenn Sie den Zugriff einschränken oder Crawler auf Ihre Sitemap hinweisen möchten.

Question 7

Wie teste ich, ob meine robots.txt funktioniert?

Accepted Answer

Laden Sie die Datei in das Stammverzeichnis Ihrer Domain hoch und rufen Sie ihredomain.de/robots.txt im Browser auf. Für tiefergehende Tests verwenden Sie den robots.txt-Tester der Google Search Console oder die Bing Webmaster Tools. Sie zeigen genau, welche URLs für bestimmte Crawler gesperrt oder erlaubt sind.

robots.txt-Generator

User-Agent-Regeln

Sitemaps

Häufig gestellte Fragen

robots.txt-Generator

User-Agent-Regeln

Sitemaps

Häufig gestellte Fragen

Ähnliche Tools