9. 前処理
• プログラムで「単語ー頻度」ファ
イルを作成
– 「抄録」の文章を形態素解析して単
語を抽出
– 他のデータ(タイトル,キーワー
ド,著者,発行年,など)は識別用
の文字(英字一文字とセミコロン)
を付けた単語として抽出
• 汎用連想検索エンジン
GETA に読み込ませて索引
(INDEX)作成
9
JST Data
Filter Program
(Python)
Frequency
File
Mecab
形態素解析
INDEX
10. Web Server
(Apache)
CGI
U/I
Prog.
Web UIと,関連語マップ生成
• インターフェイスは
Webブラウザ
• CGIプログラムで稼働
• 2つのプログラム
– 関連語抽出
– 関連語マップ生成
10
User
Query
(words) Similar
Word
selection
関連語
MAP
生成
Similar
words data
Dot file
Graph
Image(PNG)
Graphviz
(グラフ生成)
HTML,
Graph(PNG)
INDEX
九州大学附属図書館の検索システム
の機能として公開予定
12. 関連MAP生成アルゴリズム
12
上位語 u , 下位語 v
If ( df(u, q) > df(v, q) ) and ( ),
Then u は v の上位語( v は u の下位語).
df (u,v,q)
df (v,q)
>a
df(u) : 単語 u の文書頻度.
u
v
検索語 q からの関連MAP生成
• D を全文書集合,W を D に含まれる全単語集合とする.
• 検索語 q と他の単語で,関連度の高い単語の集合 Wq を選出.
• ただし,Wq の単語は,検索時の制約条件を満たすものに限定する.
• 検索語 q を木 T の根ノードにする.
T = <N, E>, N は節点集合(単語),E は辺の集合.
• 既出でない単語のうち,最も上位の単語 v を選ぶ。
• 既出の単語のうち,最も v と関連度が高い単語 u に接続.
• v ∈ N ∧ v ∈ Wq ,
単語 v を E に追加,かつ,辺 <u, v> を N に追加。
u∧v