Question 1

robots.txtファイルとは何ですか?

Accepted Answer

robots.txtファイルは、検索エンジンのクローラーにサイトのどの部分にアクセスしてよいかを伝えます。ドメインのルートに配置され、ほとんどのクローラーがサイト訪問時に最初に取得するファイルです。

Question 2

robots.txtファイルはどこに置けばよいですか?

Accepted Answer

ドメインのルートに配置する必要があります——例: https://example.com/robots.txt。サブディレクトリに置かれたものは無視されます。サブドメインごとに独自のrobots.txtが必要です(例: blog.example.com/robots.txt は example.com/robots.txt とは別です)。

Question 3

Allow と Disallow の違いは何ですか?

Accepted Answer

Disallowはクローラーに指定したパスを取得しないよう指示します。Allowは、Disallowルールに一致するはずのパスを明示的に許可します——例外を作るのに便利です。空のDisallow:行はすべてを許可することを意味します。

Question 4

AIクローラーによるサイトのスクレイピングを防ぐにはどうすればよいですか?

Accepted Answer

上の「AIクローラーをブロック」プリセットを使ってください。GPTBot、ClaudeBot、CCBot、PerplexityBot、Google-Extended、Amazonbot、その他の主要なAI学習クローラーに対してDisallow: /ルールを追加します。すべてのAIボットがrobots.txtを尊重するわけではないので、より強力な保護にはサーバー側のブロックと組み合わせてください。

Question 5

robots.txtで検索エンジンによるページのインデックス登録を完全にブロックできますか?

Accepted Answer

いいえ。robots.txtはクロールを制御するもので、インデックス登録は制御しません。robots.txtでブロックされたページでも、他のページからリンクされていれば検索結果に表示される可能性があります。インデックス登録を防ぐには、代わりにnoindexメタタグまたはHTTPヘッダーを使用してください。

Question 6

すべてをクロールしてほしい場合、robots.txtファイルは必要ですか?

Accepted Answer

いいえ。robots.txtファイルがない場合、クローラーはすべてが許可されていると見なします。robots.txtが必要になるのは、アクセスを制限したい場合や、クローラーにサイトマップの場所を知らせたい場合だけです。

Question 7

robots.txtが正しく動作しているかテストするにはどうすればよいですか?

Accepted Answer

ファイルをドメインのルートにアップロードし、ブラウザで yourdomain.com/robots.txt にアクセスしてください。より詳細なテストには、Google Search Consoleのrobots.txtテスターやBing Webmaster Toolsを使用します。特定のクローラーに対してどのURLがブロックまたは許可されているかを正確に表示します。

robots.txtジェネレーター

User-agent ルール

サイトマップ

よくある質問

robots.txtジェネレーター

User-agent ルール

サイトマップ

よくある質問

関連ツール