Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Upcoming SlideShare
文献紹介:Extracting Opinion Expression with semi-Markov Conditional Random Fields
Next
Download to read offline and view in fullscreen.

0

Share

Download to read offline

文献紹介:Opinion Mining in Newspaper Articles by Entropy-based Word Connections

Download to read offline

動画
http://youtu.be/Ypfc_FTpmOs?list=UUhwtfJp9l_thFbFDWXoGWEQ

Related Audiobooks

Free with a 30 day trial from Scribd

See all
  • Be the first to like this

文献紹介:Opinion Mining in Newspaper Articles by Entropy-based Word Connections

  1. 1. 文献紹介 2014/04/04 長岡技術科学大学 自然言語処理研究室 岡田正平
  2. 2. 紹介する文献 Thomas Scholzand Stefan Conrad. Opinion Miningin Newspaper Articles by Entropy-based Word Connections. Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing, pp. 1828-1839. (2013) 2
  3. 3. 概要 • 新聞記事中の主張部分のtonalityを推定 – その主張が肯定/否定的か あるいは客観的(中性的)かを決定 • entropy-based word connection – 素性を求めるときに利用 3
  4. 4. 背景 • 企業・組織等のPRの結果を解析 – Media Response Analysis (MRA) • Opinion Miningの自動化がもたらす恩恵 • 新聞記事は主観でない記述も含む • 使われる単語が似ていてもtonalityが異な る場合がある 4
  5. 5. タスク定義 푡:푠=푤1,푤2,⋯,푤푘↦ 푦∈{positive,neutral,negative} • 푑: newspaper article • 푠⊆푑: statement • 푦: tonality 5
  6. 6. Example statement (positive) There are structural factors behind the African growth story: a growing and sizable population which is increasingly urbanisedwith disposable income; growing political stability; and a financial services industry that is still in its infancy. 6
  7. 7. 提案手法| Graph Model 푣푖(node): 単語 (名詞,形容詞,動詞,副詞,否定表現) 푣푖, 푣푗間のedge 푒푖푖の重み: 휀푖푖=푦푖푖푖,푦푖푖푖,푦푖푖푖 푦푖푖푖: positive statement における 푣푖と푣푗の共起回数 푦푖푖푖: neutral statement 〃 푦푖푖푖: negative statement 〃 (元文献より引用) 7
  8. 8. 提案手法| 素性の生成 푙番目の文 There are structural factors behind the African growth story. に対応するsubgraph퐺푠푠 (実線) (元文献より引用) 8
  9. 9. 提案手法| 素性の生成 • positive/negative の確率 푃푝푝푝푣푖= Σ푦푖푖푖푒푖푖∈퐺푠푠 Σ푦푖푖푖+푦푖푖푖푒푖푖∈퐺푠푠 푃푛푛푛푣푖= Σ푦푖푖푖푒푖푖∈퐺푠푠 Σ푦푖푖푖+푦푖푖푖푒푖푖∈퐺푠푠 9
  10. 10. 提案手法| 素性の生成 푃푝푝푝factor =5+2+2+2 10
  11. 11. 提案手法| 素性の生成 푃푝푝푝factor =5+25+2+2+2 ≃0.64 11
  12. 12. 提案手法| 素性の生成 • subjective/neutral(objective) の確率 푃푠푠푠푣푖= Σ푦푖푖푖+푦푖푖푖푒푖푖∈퐺푠푠 Σ푦푖푖푖+푦푖푖푖+푦푖푖푖푒푖푖∈퐺푠푠 푃푛푛푣푖= Σ푦푖푖푖푒푖푖∈퐺푠푠 Σ푦푖푖푖+푦푖푖 +푦푖푖푖푒푖푖∈퐺푠푠 12
  13. 13. 提案手法| 素性の生成 푃푠푠푠factor =5+1+2+2+2+2 13
  14. 14. 提案手法| 素性の生成 푃푠푠푠factor =5+2+2+25+1+2+2+2+2 ≃0.79 14
  15. 15. 提案手法| 素性の生成 • エントロピーの考え方を適用 퐻푋=−෍푝푥푖log2푝(푥푖) 푛 푖=1 15
  16. 16. 提案手法| 素性の生成 푓푝푝푝푣푖=൞ 1+푃푝푝푝푣푖∗log2푃(푝푝푝|푣푖) if 푃푛푛푛푣푖≤푃(푝푝푝|푣푖) −1−푃푛푛푛푣푖∗log2푃(푛푛푛|푣푖) otherwise • −1≤푓푝푝푝푣푖≤1 • 第2項を2倍する必要があるのでは? 16
  17. 17. 提案手法| 素性の生成 푓푠푠푠푣푖=൞ 1+푃푠푠푠푣푖∗log2푃(푠푠푠|푣푖) if 푃푛푛푣푖≤푃(푠푠푠|푣푖) −1−푃푛푛푣푖∗log2푃(푛푛|푣푖) otherwise 17
  18. 18. 提案手法| 素性の生成 • 取り得る品詞ごとに各node(単語)の素 性が平均値が計算される • 푇푐푐푐,푧푣푖=൜ 푓푧푣푖 if 푣푖∈푐푐푐 0 if푣푖∉푐푐푐 • 푐푐푐∈{푎푎,푎,푛,푣} 18
  19. 19. 提案手法| 素性の生成 • 最終的な素性8種(元論文から引用) • SVMによる分類 19
  20. 20. 実験| データ • pressrelationdataset (PDS) – 1,521 statements • 金融情報機関に関するニュースから抽出した statements(Finace) – 8,500statements • 4人の作業者によるアノテーション • それぞれ30%でグラフの学習 • 残りのうち20%でSVMの学習 20
  21. 21. 実験| 結果 • PDSに対して64%の精度 – 比較手法の最高精度より15ポイント上昇 • Financeに対して65%の精度 – 比較手法の最高精度より4ポイント上昇 • SVMの学習データ量を減少させても, 提案手法は比較的安定した結果 21
  22. 22. まとめ • 単語間のEntropy-basedの重み付けを利用 した手法 • 訓練データをあまり必要としない • 主張部分の抽出手法・視点の決定手法と 組み合わせることで,MRAのための Opinion Miningを実現可能となる 22

動画 http://youtu.be/Ypfc_FTpmOs?list=UUhwtfJp9l_thFbFDWXoGWEQ

Views

Total views

615

On Slideshare

0

From embeds

0

Number of embeds

2

Actions

Downloads

3

Shares

0

Comments

0

Likes

0

×