ホーム > SEO > robots.txtでクローラのアクセスを制限する

robots.txtでクローラのアクセスを制限する

ディレクトリごとにサブドメインを割り当てたりすると、WebルートからのディレクトリパスのURLとサブドメインでのURLの二つのURLで同一のページが存在してしまい、SEOの観点からするとよくない。らしい。(コンテンツが共食いを起こすということらしい)

なので、こういう場合はrobots.txtでクローラのアクセスを制限して対処する。ただし、この設定はどんなクローラに対しても必ず有効ということではないらしい。(言うことをきかないクローラも存在するということ)

例として、showzine.info/days/というディレクトリにサブドメイン「days.showzine.info」を割り当てる。これによって以下の二つのURLで現状はアクセスが可能。

  • http://days.showzine.info/sample.html
  • http://showzine.info/days/sample.html

これを正規のURL(サブドメインのURLである前者)でのみ、クローラがアクセスできるようにrobots.txtを使って設定する。

robots.txtはサイトのルート(最上位)に置くこと。レンタルサーバで複数ディレクトリを用意し、個別にドメインを割り当てている場合でも、その最上位のWebルートディレクトリ(/)に置くこと。そして、アクセス制限をするディレクトリの指定はWebルート(/www/)からとなる。

自分の場合、レンタルサーバのWebルートには別のドメイン(例えばhogehoge.com)が割り当てられていて、その中にshowzine/やshowzine/days/がある(マルチドメインやサブドメイン割り当て)ので、hogehoge.com/showzine/やhogehoge.com/showzine/days/というURLでアクセス(インデックス)されないように、hogehoge.comから辿った場合のshowzineディレクトリ(内包するディレクトリ含む)にアクセス制限をするため、記述は以下のようになる。

/www/robots.txt

User-agent: *
Disallow: /showzine/
Allow: /

これでクローラに対して

http://days.showzine.info/sample.htmlへのアクセスだけが許可され、http://showzine.info/days/sample.htmlへのアクセスはブロックされるようになった。

ちなみに、robots.txtはあくまでもクローラのアクセスを制限したい場合にのみ設置する必要があり、そうでない場合は設置する必要はない。詳しくはGoogleの解説記事を参照のこと。

robots.txt ファイルが必要となるのは、
サイトに検索エンジンのインデックスに登録したくないコンテンツが
含まれる場合のみです。サイトのすべてのコンテンツを検索エンジンの
インデックスに登録したい場合は、
空であってもrobots.txtファイルは必要ありません。

コメント:0

コメントフォーム
入力した情報を記憶する

トラックバック:0

この記事のトラックバック URL
http://showzine.info/blog/2010/06/robots-txt%e3%81%a7%e3%82%af%e3%83%ad%e3%83%bc%e3%83%a9%e3%81%ae%e3%82%a2%e3%82%af%e3%82%bb%e3%82%b9%e3%82%92%e5%88%b6%e9%99%90%e3%81%99%e3%82%8b.html/trackback
トラックバックの送信元リスト
robots.txtでクローラのアクセスを制限する - SHOWJIN*BLOG より

ホーム > SEO > robots.txtでクローラのアクセスを制限する

検索
フィード

ページの上部に戻る