2006-04
23
01:14:00
Blog検索は本当に使えるか?実際に調べてみる


最近うちのサイトもテクノラティなどBlog検索エンジンからのリーチも徐々に増えてきています。
まだ通常の検索エンジンの利用の方が一般的だと思いますが、それに比べてどの程度Blog検索は使えるものなのかどうか、以前から疑問に思っていたこともあるので、簡単なテストで実際のBlogの検索具合を試してみました。
テスト内容としては単純なものにしてみました。
これまで検索エンジンには登録されていない造語を記載したBlog記事を公開してみて、それがどの程度の時間と精度でひっかかるようになるかを試す、というものです。
Blog検索の特徴として、記事作成からのリアルタイム性やBlogに特化した検索精度がよく挙げられますが、それを実地で確認するとともに、またそれぞれの検索エンジンでの違いも比べてみます。

■対象検索エンジン

最近はかなり多くの検索エンジンがリリースされていますが、主観で比較的メジャーと思われる以下の五つの検索エンジンを調査対象としました。

Google Blog Searchについては、普段の利用時の印象ではまだ日本語サイトへの対応が弱く思えたため外しました。

■テスト内容

テスト用のBlogを準備して、例えば以下のような記事を作成して公開しました。テスト用のBlogはSeesaaを使用しました。

タイトル: ブログ検索テスト
本文: ここは本文です。[改行]○○○○[改行]検索できるでしょうか。。
追記: ここは追記です。[改行]××××[改行]追記まで検索は可能でしょうか。

ここで○○○○や××××はこれまで検索エンジンには登録されていない適当な造語です。例えばゴッゴルみたいなものだと思ってください。
これにより記事公開後、この造語が検索できるかどうかで各検索エンジンがクロールしてくれたことが判明します。
この造語は主に四字熟語とし、事前にテスト対象の検索エンジンで検索されないことは確認しています。また、Google、Yahoo!などの一般検索サイトでも確認済みです。
本文と追記を分けているのには訳があります。
これはSeesaaでの仕様ですが、本文の内容はRSSに載りますが、追記には載りません。Blog検索は一般的には主にRSSを対象としています。つまりRSSだけを検索対照とする場合には追記部分は検索できないはずで、これを確認しようとしています。
時間帯と造語を変えて、計三回のテストとしました。
一般的なBlog検索エンジンではPingサーバーから更新情報を取得してクロールします。そこでどのPingサーバーへ記事公開時にPingを送るかは重要なポイントです。
今回は出来るだけ検索エンジンが記事をクロールできるようにするため、対象の検索エンジンがPingサーバーを持っている場合には送信対象とするようにしました。
以下は送信するPingサーバーの一覧です。

http://blogdb.jp/xmlrpc
http://blog.goo.ne.jp/XMLRPC
http://ping.blogoon.net/
http://www.blogpeople.net/servlet/weblogUpdates
http://ping.bloggers.jp/rpc/
http://ping.cocolog-nifty.com/xmlrpc
http://ping.myblog.jp/
http://rpc.technorati.jp/rpc/ping
http://ping.blogranking.net/
http://bulkfeeds.net/rpc
http://ping.namaan.net/rpc/
http://api.my.yahoo.co.jp/rss/ping?u=RSSのURL

多分これだけあれば国内向けにはほぼ網羅できているでしょう。
Yahoo!ブログ検索用のPing URLだけ少し変わっていて、RSSのURLを付加することになっています。
Ask.jpだけは専用のPingサーバーは用意していないようです。恐らく上記のような他サーバーから通知可能なのでしょう。

■テスト結果 反映時間ではテクノラティ、精度ではYahoo!ブログ検索が健闘

第一回: 金曜21:30~
検索エンジン 結果
Ask.jp ×
テクノラティ 約15分後に本文のみ検索可能に。追記は×
Yahoo!ブログ検索 当初は×。第三回テストの後に本文/追記とも検索可能となった
GooブログSearch ×
NAMAAN ×
第二回: 金曜22:45~
検索エンジン 結果
Ask.jp ×
テクノラティ 約3時間後に本文のみ検索可能に。追記は×
Yahoo!ブログ検索 当初は×。第三回テストの後に本文/追記とも検索可能となった
GooブログSearch ×
NAMAAN 1時間30~50分後頃に本文のみ検索可能に。
第三回: 土曜8:30~
検索エンジン 結果
Ask.jp ×
テクノラティ 約10分後に本文のみ検索可能に。追記は×
Yahoo!ブログ検索 約30分後に本文/追記とも検索可能となった
GooブログSearch ×
NAMAAN 約2~3時間後に本文のみ検索可能に。

なかなか厳しい結果となりました。あれだけのPingサーバーを指定していても、また各検索エンジン自身が提供しているPingサーバーであっても約半数が「取りこぼし」されてしまいました。また、検索エンジンによって優劣の差も激しいように思われます。
金曜の夜という込む時間帯であったことも影響していたと思い翌日の朝に三回目を行ったのですが、あまり影響は感じられません。但し、反映時間は早くなりました。
優秀だったのはテクノラティです。全てのテストケースをクリアしました。さすがに金曜の夜遅くでは反映まで時間がかかっていますが、それ以外では10-20分程度の反映時間というのは優秀と言えるでしょう。
NAMAANも規模や知名度を考えると優秀な部類でしょう。リアルタイム性はあまり無いようですが、(多少の取りこぼしはあるものの)確実にクロールできています。
Yahoo!ブログ検索は非常に面白い傾向を示しました。
第一回と二回では全く拾わず恐らく取りこぼしていたと思うのですが、第三回ではクロールされ、と同時に第一回と二回の結果も反映されるようになりました。
Blog検索エンジンとしては特徴的な傾向と思いますが、RSSをクロールすることで過去記事も同時に反映された訳です。
また特筆すべきは、Yahoo!ブログ検索でのみ追記も検索可能となりました。
一般的にはBlog検索はRSS検索であると捉えられています。つまり逆に言えば追記内容などがRSSに載っていなければ検索エンジンにも載りません。このテストでもそれを意識していたのですが、想像するにYahoo!ブログ検索ではクロールはRSSと通常のWeb検索の「ハイブリッド」であるようです。RSSも記事探索のために使用されるのでしょうが、と同時にWebアクセスクロールも行っていると思われます。これは他の検索エンジンには無い大きな特徴となっています。
Ask.jpとGooブログSearchは残念な結果でした。
Ask.jpは普段の記事ではあまり引っかからない印象は薄いのですが、もしかするとこのような造語には弱いなどの特徴があるのかも知れません。一般用語などで試すとまた違った結果かも。
GooブログSearchは・・普段の印象と同じような結果ですね(笑)こんなところではないでしょうか。
専用のPingサーバーも用意されており、わざわざそちらにも投げているのだから、もう少し頑張って欲しいところです。ひょっとするとGooブログ向けに特化してチューニングされているとか、そんな事情があるのかも知れませんが。

■まとめてみる

実は意外に取りこぼしが多いんじゃないかというのは普段Blog検索エンジンを使っていた印象なので、結果としては概ね容認できます。
その中でテクノラティの優秀さが光ります。もう少し純国産エンジンにも頑張って欲しいところですね。
もう一つ確認したかったのは、「Blog検索とはRSS検索である」という点でした。
当然と言えば当然なのですが、RSSに載せない内容はこれら検索エンジンからすれば、世の中に存在していない情報扱いを受けると言うことでもあります。
今後ますますRSSをどのように取り扱うかがBlog検索エンジンの浸透とともに重要さを増していくことでしょう。
最近RSSへの全文配信是非論が聞かれますが、こうした検索エンジンの観点からの議論もあっていいのでは。
# 以前述べた通りですが、やはりRSSの全文配信なども含めてユーザー自身で自由に選択できるのがいいと思いますね。あまりこうした新しい分野へのリーチを事業者が防いでしまうことがありませんように。
また、Yahoo!ブログ検索の動作は正直驚きでした。追記は検索できないはず、と思っていたので。
Yahoo!の場合はYSTも持っていますので、比較的容易にこうしたハイブリッドなクロールも可能になるのでしょう。他の検索エンジンに対してのアドバンテージでもあります。
上記のようなRSSの限界に対する、柔軟かつ現実的な対応方法と言えるでしょう。よく考えられていますね。

コメントを残す

メールアドレスが公開されることはありません。

日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)