2006年06月06日

N-gramでインデックス

形態素でインデックス作ったのでN-gramでもやってみる。

ユニグラムだとインデックスサイズは原文の5倍。
バイグラムだと13倍。
トライグラムだと55倍。
(原文はEUC-JPなのでJava内部のUTF-8形式にするだけで1.5倍になっている)

ちゃんと圧縮を考えないとダメそうだ。
そもそもインデックスの配列としてArrayListを使っているので、これをintの配列にするだけでも結構減りそうだ。インデックスはしょっちゅう変更するものじゃないし、配列を作り直すコストはトレードオフってコトで。

ちなみにバイグラムにしたら「吾輩」でヒットする箇所が10カ所ぐらい増えた。
やっぱN-gramにした方が良いかもしれない。

Trackback on "N-gramでインデックス"

このエントリーのトラックバックURL: 

"N-gramでインデックス"へのトラックバックはまだありません。

Comment on "N-gramでインデックス"

"N-gramでインデックス"へのコメントはまだありません。

Post a Comment

コメントする

コメント登録機能が設定されていますが、TypeKey トークンが設定されていません。