Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Visualize terms network in Lucene index

1,801 views

Published on

Published in: Technology
  • Be the first to comment

Visualize terms network in Lucene index

  1. 1. Luceneインデックスからの 関連語ネットワークの 抽出と可視化 関口宏司@ロンウイット
  2. 2. 関連語ネットワーク• コーパスからのシソーラスの自動構築• 2語の関連度の算出 → 2語の共起頻度の関数• 関連語ネットワークの作成• 関連語のクラスタリング Copyright (c) 2012 RONDHUIT Co.,Ltd. All Rights Reserved. 2
  3. 3. Luceneインデックスの利用• コーパスとしてLuceneインデックスを利用する → Web検索エンジンの代わりにLuceneを用いる → ドメインを限定できる• 2語の共起頻度は"wi AND wj"というAND検索で簡単に知 ることができる Copyright (c) 2012 RONDHUIT Co.,Ltd. All Rights Reserved. 3
  4. 4. χ2値を用いた関連度 G:語群 n(wi,wj):共起頻度 Copyright (c) 2012 RONDHUIT Co.,Ltd. All Rights Reserved. 4
  5. 5. 関連語ネットワークの可視化• ネットワークを可視化することで: – 視覚的な刺激を与える – 新たな気づきを喚起する – システムへのフィードバック• 関連語ネットワークの可視化 – 単語をノードに – 関連がある場合エッジを描く – 関連度→ノード間の距離• 可視化ツール – D3.js • force layout – GraphViz Copyright (c) 2012 RONDHUIT Co.,Ltd. All Rights Reserved. 5
  6. 6. 可視化の例(サッカー&野球) livedoorニュースコーパスでの例 Copyright (c) 2012 RONDHUIT Co.,Ltd. All Rights Reserved. 6
  7. 7. 可視化の例(タブレット) livedoorニュースコーパスでの例 Copyright (c) 2012 RONDHUIT Co.,Ltd. All Rights Reserved. 7
  8. 8. 可視化の例(領土問題) livedoorニュースコーパスでの例 Copyright (c) 2012 RONDHUIT Co.,Ltd. All Rights Reserved. 8
  9. 9. 参考文献• Web上の情報を用いた関連語のシソーラス構築について 榊、松尾、内山、石塚自然言語処理 Vol.14 No. 2 Apr. 2007• D3.js https://github.com/mbostock/d3• Apache Lucene Javadoc http://lucene.apache.org/core/4_0_0/index.html• livedoorニュースコーパス http://www.rondhuit.com/download.html#ldcc Copyright (c) 2012 RONDHUIT Co.,Ltd. All Rights Reserved. 9

×