自分のサイトを検索エンジンに正しく登録してもらうために、Webサイトの「門番」のような役割を果たすのが「robots.txt(ロボッツ・テキスト)」です。
Googleなどの検索エンジンは、「クローラー」と呼ばれる自動巡回プログラムを走らせて世界中のサイトの情報を収集しています。robots.txtはこのクローラーに対して、「このページは見ていいよ」「ここから先は入らないで」といった指示を伝えるためのファイルです。
robots.txtで指定すること
主に以下の3つの要素を使って指示を書きます。
- User-agent: どのクローラーに対する指示か(Googlebotなど)。
- Disallow: クロールを拒否するURLのパス。
- Allow: クロールを許可するURLのパス(Disallowの一部を許可する場合など)。
- Sitemap: サイトマップURLを教え、サイト全体の構造を効率よく伝えられます。
SEOにおけるメリット
なぜクローラーの立ち入りを制限する必要があるのでしょうか?それには「クロールバジェット」という考え方が関係しています。
検索エンジンが1つのサイトに費やす時間やリソースには限界があります。管理画面や重複したコンテンツなど、検索結果に載せる必要のないページをDisallowで除外することで、本当に見てほしい重要なページにクローラーの力を集中させることができます。これがSEO(検索エンジン最適化)に繋がります。
🚨 注意:セキュリティツールではありません
robots.txtはあくまでも「善意のクローラーへのお願い」です。悪意のあるハッカーはこれを見て逆に「隠したいページ(ログイン画面など)」を見つけ出すヒントにしてしまうこともあります。見られたくない重要なファイルは、パスワード制限(BASIC認証など)で物理的に守る必要があります。