「Disallow」タグアーカイブ

2006-04
28
00:36:00
Seesaaブログのrobots.txt


Google Sitemapsを触っていて初めて気付いたんですが、Seesaaってrobots.txtがあるんですね。
中身はこんなのでした。

User-agent: *
Disallow: /category/
Disallow: /archives/

Seesaaはバーチャルサーバーで立てられているので、ドメインが異なっても中身は同じはず。
Blogサービスでrobots.txtがあるところは珍しいように思う(確認したことないけど)んですが、これだと月別とカテゴリー別アーカイブを検索エンジンがクロールしてくれないと思います。
つまり基本的にはトップページに載っているページ以外はクロールされないということになります。
多分、ボット対策なんでしょうね。クロールを無制限に許すと負荷が厳しいということなのかも知れませんが、結構大胆な指定です。
Seesaaは独自ドメインでBlogが始められるなどSEO/SEMには定評がある、などといった紹介を読むこともあったと思うんですが、意外にそうでもないのかも?
・・と思って自分のサイトをGoogleで適当に幾つか調べてみましたが、/archives/~ なページは確かに少なくともキャッシュが無いかも(一部あるみたいです *1)。またキャッシュにヒットしないページ(/article/~)も結構あります。これがrobots.txtの影響なのかはわかりませんが・・さて。
ひょっとすると、トップページに掲載されているうちにクロールされればいいんだけど、クローラーが回ってくる前にトップページから落ちるとクロールされないなどがあるかも知れないなぁ。
この事実からだけでは否定的なんですが、Seesaaは他Blogに比べて果たして対検索エンジンに強いのか弱いのか、定量的にはどうなんでしょうね。
*1 2005年5月分までの月別カテゴリーであればキャッシュされているようです。それ以降はありません。つまり2005年5月頃このrobots.txtの追加が行われたのかも知れません。特にSeesaaからアナウンスは無かったようですが・・。