facebook twitter hatena line google mixi email

その他/全文検索

提供: 初心者エンジニアの簡易メモ
移動: 案内検索

全文検索のタイプ

  • 形態素解析
  • n-gram

形態素解析

分かち書きによる分割(文章において語の区切りに空白を挟んで記述 転置インデックスを用いる

T_0="it is what it is", T_1="what is it", T_2="it is a banana"
"a":      {2}
"banana": {2}
"is":     {0, 1, 2}
"it":     {0, 1, 2}
"what":   {0, 1}

n-gram

n文字ごとに分ける

  • ユニグラム:1文字ごとに分割
  • バイグラム:2文字ごとに分割
  • トリグラム:3文字ごとに分割