Visualize terms network in Lucene index

1,658 views

Published on

Published in: Technology
0 Comments
3 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,658
On SlideShare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
21
Comments
0
Likes
3
Embeds 0
No embeds

No notes for slide

Visualize terms network in Lucene index

  1. 1. Luceneインデックスからの 関連語ネットワークの 抽出と可視化 関口宏司@ロンウイット
  2. 2. 関連語ネットワーク• コーパスからのシソーラスの自動構築• 2語の関連度の算出 → 2語の共起頻度の関数• 関連語ネットワークの作成• 関連語のクラスタリング Copyright (c) 2012 RONDHUIT Co.,Ltd. All Rights Reserved. 2
  3. 3. Luceneインデックスの利用• コーパスとしてLuceneインデックスを利用する → Web検索エンジンの代わりにLuceneを用いる → ドメインを限定できる• 2語の共起頻度は"wi AND wj"というAND検索で簡単に知 ることができる Copyright (c) 2012 RONDHUIT Co.,Ltd. All Rights Reserved. 3
  4. 4. χ2値を用いた関連度 G:語群 n(wi,wj):共起頻度 Copyright (c) 2012 RONDHUIT Co.,Ltd. All Rights Reserved. 4
  5. 5. 関連語ネットワークの可視化• ネットワークを可視化することで: – 視覚的な刺激を与える – 新たな気づきを喚起する – システムへのフィードバック• 関連語ネットワークの可視化 – 単語をノードに – 関連がある場合エッジを描く – 関連度→ノード間の距離• 可視化ツール – D3.js • force layout – GraphViz Copyright (c) 2012 RONDHUIT Co.,Ltd. All Rights Reserved. 5
  6. 6. 可視化の例(サッカー&野球) livedoorニュースコーパスでの例 Copyright (c) 2012 RONDHUIT Co.,Ltd. All Rights Reserved. 6
  7. 7. 可視化の例(タブレット) livedoorニュースコーパスでの例 Copyright (c) 2012 RONDHUIT Co.,Ltd. All Rights Reserved. 7
  8. 8. 可視化の例(領土問題) livedoorニュースコーパスでの例 Copyright (c) 2012 RONDHUIT Co.,Ltd. All Rights Reserved. 8
  9. 9. 参考文献• Web上の情報を用いた関連語のシソーラス構築について 榊、松尾、内山、石塚自然言語処理 Vol.14 No. 2 Apr. 2007• D3.js https://github.com/mbostock/d3• Apache Lucene Javadoc http://lucene.apache.org/core/4_0_0/index.html• livedoorニュースコーパス http://www.rondhuit.com/download.html#ldcc Copyright (c) 2012 RONDHUIT Co.,Ltd. All Rights Reserved. 9

×