その他/全文検索
提供: 初心者エンジニアの簡易メモ
全文検索のタイプ
- 形態素解析
- n-gram
形態素解析
分かち書きによる分割(文章において語の区切りに空白を挟んで記述 転置インデックスを用いる
T_0="it is what it is", T_1="what is it", T_2="it is a banana" "a": {2} "banana": {2} "is": {0, 1, 2} "it": {0, 1, 2} "what": {0, 1}
n-gram
n文字ごとに分ける
- ユニグラム:1文字ごとに分割
- バイグラム:2文字ごとに分割
- トリグラム:3文字ごとに分割