17. 逆インデッックスの手順
1. インデックス付される文書を収集
2. 文章をトークン化し、各文書をトークンリストに変換(Tokenizer)
3. 言語学的処理を施し、正規化されたリストを作る(Lingustic Model)
4. 辞書とポスティングから構成される逆インデックスを作り、各用語が現れる文書を
インデックス付けする(Indeer)
Friends
So let it be with CaesarFriends,Romans,countrymen.
…Romans countrymen So
friend …roman countryman so
※トークン:処理に有用な意味単位として、特定の文書内の文字列(Chapter2-2)
29. 29
Does Google use the Boolean model?
On Google, the default interpretation of a query [w1 w2 . . .wn] is w1 AND w2
AND . . .AND wn
Cases where you get hits that do not contain one of the wi :
anchor text
page contains variant of wi (morphology, spelling
correction, synonym)
long queries (n large)
boolean expression generates very few hits
Simple Boolean vs. Ranking of result set
Simple Boolean retrieval returns matching documents in
no particular order.
Google (and most well designed Boolean engines) rank the
result set – they rank good hits (according to some
estimator of relevance) higher than bad hits.
29