2006年06月06日
N-gramでインデックス
形態素でインデックス作ったのでN-gramでもやってみる。
ユニグラムだとインデックスサイズは原文の5倍。
バイグラムだと13倍。
トライグラムだと55倍。
(原文はEUC-JPなのでJava内部のUTF-8形式にするだけで1.5倍になっている)
ちゃんと圧縮を考えないとダメそうだ。
そもそもインデックスの配列としてArrayListを使っているので、これをintの配列にするだけでも結構減りそうだ。インデックスはしょっちゅう変更するものじゃないし、配列を作り直すコストはトレードオフってコトで。
ちなみにバイグラムにしたら「吾輩」でヒットする箇所が10カ所ぐらい増えた。
やっぱN-gramにした方が良いかもしれない。
Trackback on "N-gramでインデックス"
このエントリーのトラックバックURL:
"N-gramでインデックス"へのトラックバックはまだありません。
"N-gramでインデックス"へのコメントはまだありません。