タグ別アーカイブ: キャッシュ

2006-04
28
00:36:00
Seesaaブログのrobots.txt


Google Sitemapsを触っていて初めて気付いたんですが、Seesaaってrobots.txtがあるんですね。
中身はこんなのでした。

User-agent: *
Disallow: /category/
Disallow: /archives/

Seesaaはバーチャルサーバーで立てられているので、ドメインが異なっても中身は同じはず。
Blogサービスでrobots.txtがあるところは珍しいように思う(確認したことないけど)んですが、これだと月別とカテゴリー別アーカイブを検索エンジンがクロールしてくれないと思います。
つまり基本的にはトップページに載っているページ以外はクロールされないということになります。
多分、ボット対策なんでしょうね。クロールを無制限に許すと負荷が厳しいということなのかも知れませんが、結構大胆な指定です。
Seesaaは独自ドメインでBlogが始められるなどSEO/SEMには定評がある、などといった紹介を読むこともあったと思うんですが、意外にそうでもないのかも?
・・と思って自分のサイトをGoogleで適当に幾つか調べてみましたが、/archives/~ なページは確かに少なくともキャッシュが無いかも(一部あるみたいです *1)。またキャッシュにヒットしないページ(/article/~)も結構あります。これがrobots.txtの影響なのかはわかりませんが・・さて。
ひょっとすると、トップページに掲載されているうちにクロールされればいいんだけど、クローラーが回ってくる前にトップページから落ちるとクロールされないなどがあるかも知れないなぁ。
この事実からだけでは否定的なんですが、Seesaaは他Blogに比べて果たして対検索エンジンに強いのか弱いのか、定量的にはどうなんでしょうね。
*1 2005年5月分までの月別カテゴリーであればキャッシュされているようです。それ以降はありません。つまり2005年5月頃このrobots.txtの追加が行われたのかも知れません。特にSeesaaからアナウンスは無かったようですが・・。

2005-04
27
12:52:21
Gmail、一年後には容量3.3G?(BlogPet)


ろこはROCAは源泉みたいな増加♪


前から反応しようと思いつつ、全然時間が取れなかったので既に腐り始めているネタですが。
あまりに前過ぎてどこから拾ってきたので、Googleキャッシュを。
筆者はMS社員の人らしい(よく知りませんね。

*このエントリは、BlogPetの「ろこ」が書きました。

2004-09
01
00:12:00
P2P + CDN = CORAL


元ネタはINTERNET Watchから

分散P2P技術を使ってWebサーバーへの極端な負荷を軽減できる無料のコンテンツ配信ネットワーク(CDN)をニューヨーク大学が開発し、30日に正式公開した。無料で利用でき、日本語サイトでも問題なく使用可能だ。

このCORALはP2PをベースにCDN(Contents Distribution Network)のためのキャッシュを配信し、DynamicDNS(ていうか、単なるIP差し替え)との連携で最も近くのキャッシュを参照させる研究プロジェクト、ということらしい。
簡単な発想には見えますが、別に奇をてらわなくても、既存技術を論理的に組み合わせ直すことでも、全く新しい可能性は広げられると言う点で評価できます。個人的には、こういう考え方は大好きです。
こんな風に手軽に使える、というのも既存基盤をそのまま素直に使うからこそですね。
ただ、では現実的に浸透しうる技術基盤かというと、そもそもインストールベースを確保できるかどうかが問題でしょう。
サイト側として負荷を分散して欲しいに過ぎない訳で、それだけではユーザーとして積極的な導入理由にはならないでしょう。そこまでして見たいサイトなんて、あまり思いつきませんし。
またCookieが使えなかったり(これはキャッシュサーバーである以上、RFC2616的に正しい)、当然ではあるのですがリアルタイム性も(少なくとも現時点では)無い模様です。
つまり完全にシーズから発想したプロジェクトに過ぎず(だからこそ研究なんでしょうが)、どこにユーザー側ニーズを織り込んでいくかが、今後の発展へのポイントになることでしょう。
ということで、CDNは必ずしもメインのゴールとはせず、せっかく溜まり行くキャッシュですからこれを使ってInternet Archiveのような時間軸で指定できるキャッシュアクセス機能とか、アクセスするサイトの傾向から趣味趣向の似ているノードどうしで自動的にクラスターが組まれてアクセスランキングやより精密な検索が可能になるとか、結構いろいろアイデアは出せそうです。
ちょっとだけ要注目ですかね。

12