Web mining Tutorial: Entity search

ウェブマイニングの実践と理論 -エンティティ検索エンジン実装を例に- 森純一郎 2010年研究室研修旅行

目的エンティティ検索エンジンの実装を通して、ウェブマイニングの基礎（特に松尾研で研究をすすめる上で必要となる）知識を学ぶ

東大の研究者検索エンジンをさくっと作る

http://www.ipr-ctr.t.u-tokyo.ac.jp/utsearch

データ取得科研費データベース

データ取得ポイント GETの引数を調べる

Form の input を観察して POST されている値を調べる html を観察して取得したい値の css セレクタもしくは XPath を調べる

データ取得 Webクライアントモジュールを活用する LWP, Curlとかダウンロードはお行儀よく複数IPで分散させる

User agentを”Mozilla/5.0 (Windows; U; Windows NT 5.1....”的に偽る

データぶっこ抜いたデータ所属機関が東大の研究者約7,500名研究者番号

キーワード　約200,000種類

データ処理なるべくメモリ上でやるいろいろ実験するのでさくっと処理したい

スキーマは試行錯誤後決めてDBに入れればいい key-valueストアを活用するハッシュ、memcached, cassandra, Tokyo cabinet 転置インデックスをつくるトークンは形態素、n-gram、キーワードなど

“ウェブ” -> 1 4 5 9 12

エンティティ検索基礎エンティティeを語{w1, w2, ..., wn}で表すクエリーqに対して適切なeを検索したい ->確率p(e|q) を求めたい p(e|q) = p(q|e)p(e)/p(q)∝p(q|e)p(e) ->確率p(q|e)= π p(w|e) (w ∈ q)がわかればよい * p(e)は例えばランダムウォーク(後述)で計算なお厳密には文書dを考慮して p(e|q) ∝Σ p(e|d)p(q|d)p(d) であるが、ここではeはd相当とする

エンティティ検索基本モデル p(w|e)をどうモデル化するかもっとも単純には p(w|e) = tf (w,e)/|e| あるいはidfを加味もしくはwとeの共起を加味きちんと言語モデルを考えるとスムージングして p(w|e) = λ tf(w,e)/|e| + (1-λ) tf(w,E)/|E| (λ = |e|/(|e|+μ))

エンティティ検索潜在モデル潜在トピック Z={z1,z2,...,zt}を考える語wは潜在変数Zから生成される

LDA ギブスサンプリング

実際にトピックを抽出してみましょう 7500人の東大研究者の200,000のキーワードから50のトピックを抽出

ゲノム研究遺伝子発現 90.42

Web mining Tutorial: Entity search

More Related Content

Similar to Web mining Tutorial: Entity search

Web mining Tutorial: Entity search