2006年06月01日

ブログ検索エンジン

なんだか急にブログ検索エンジンを作りたくなった。
と言っても、もちろん作る時間も根性もないので妄想して楽しんでるだけだけど。

世の中にはブログ専用の検索エンジンが大小いくつもあるけど、どれもたいていエントリーを対象にした全文検索的なモノばかりだ。(中にはYahooみたいなディレクトリ型な登録型検索サイトもあるけどこういうのは例外)
しかも割と最新記事を検索できるって事を売りにしているところが多い。
これはブログが日記的なものなので、検索対象の最新情報を速報的な形で記事にしているところを探したいという要求があるからと言うことかもしれない。

が、俺的にはそんな速報はググったり2ちゃんねるを見た方が早いので必要ない。

"ブログ"を検索するのだから、検索対象により多く言及しているブログがヒットして欲しい。
なぜ既存のブログ検索エンジンがダメかというと、ある事柄が話題に上るのが数週間から数ヶ月なのに対して、ブログのエントリーはその連続した情報の内の1日分しか情報を持たない。
そんな細切れの情報が検索されるのだったら最初からググった方が良い。


たとえば「YUKI」を検索すると、「YUKIの新曲買った」とか「TVでYUKIが出てて」とか「友達のYUKIちゃんが」とか出てくる。欲しいのはこんな結果じゃない。
欲しいのはYUKIのファンが過去にさかのぼってずっとYUKIについて書いてるブログだ。
つまり、検索結果のエントリーを表示した後、そのブログの「最新の日記から10件」とか表示したときに、検索対象について書いてある記事がいくつも出てきて欲しい。


なぜわざわざブログで検索するかというと、エントリーが読みたいわけではなく、ブログというメディアの向こう側にいる「検索対象に対して興味を持っている人物」を探したいわけだ。

そんなブログを見つけることができれば、きっと今後も検索対象についてエントリーを書いてくれるし、同じ興味を持つ人だからコメントにいろいろ書いてコミュニケーションをとれたりするだろう。つまりこれはハッピーだ。


で、問題はどうやってそんなエントリーを見つけるかと言うことだ。(ブログを探すのが最終目的だけど、入り口=直接の検索結果はやっぱりエントリー)

過去にずっと同じキーワードを書いてるって言うのは、エントリーに対する出現頻度ですぐ計算できそうだ。
でもこの場合は「友達のYUKIちゃん」や「書いてる本人がYUKIって名前」も上位に上がってくる。
こういうのを排除するには検索対象にどんな単語が共起しているかってのを調べれば解決しそう。

たとえばYUKIには「CD」とか「ライブ」とかそんな単語が共起しやすいだろう。
共起頻度が高かった単語を多く含むブログをクラスタリングして、そのクラスタの大きいモノほどスコアをあげれば「友達のYUKIちゃん」とかを排除できる。

さらに、検索結果一覧画面とかで、その「クラスタを表示する」とか言うリンクがあって、それを押したら同じジャンルのブログが一覧表示されたりするとさらに便利でハッピーかもしれない。
YouTubeで言う「Tags」みたいなモノをブログの記事から自動生成するような感じ。


今までブログ間のコミュニケーション手段がトラックバックだけだったけど、このエンジンでは書いてる内容によって勝手にクラスタリングされて、勝手に周りが同じ趣味の人ばっかりになると言う新しいコミュニケーションの手段になったりするかもしれない。


ちょっと想像しただけで楽しそうなモノができる予感がするけど、ホントに完成したらこれだけで何か商売ができるかもしれないな。

Trackback on "ブログ検索エンジン"

以下1件のトラックバックはこのページのエントリー"ブログ検索エンジン"を参照しています。

このエントリーのトラックバックURL: 

» webtag

  • 2006年06月02日 06:01
  • from ...ing logging

ここを見て久しぶりにやる気を出してみた. ずっと前から作りかけのウェブサイトか... [続きを読む]

Comment on "ブログ検索エンジン"

過去のエントリー全件DLとかしちゃうとアタックっぽいけどねw
HTMLからタグの自動抽出するプログラムが絶賛放置プレイ中だったので作ってみたよ.

  •   haru
  • 2006年06月02日 06:13

どこの検索エンジンでもやってるから大丈夫でしょw
たいていのブログは静的なHTML生成してるから負荷もたいしたこと無い。
でも作ろうと思ってる検索エンジンはRSSだけ見ようかと考え中。
ブログのエンジン、スキンによって出力フォーマットが違うから画面全部のHTMLをパースしてエントリーごとに切り出すのが面倒なんだよね。
フォーマットが変更されたときに対応するのも面倒だし。
その点RSSは仕様でフォーマットが決まってるからRSS出力してるところならどこでも対応できる。
問題はRSSにはトラックバック、コメントなどの情報が含まれてないんだよなぁ。
この辺の情報は対象のブログがどれぐらい活発か見るのに重要な情報なんだけど。

  •   けんじ
  • 2006年06月02日 10:54

Post a Comment

コメントする

コメント登録機能が設定されていますが、TypeKey トークンが設定されていません。