QaA

1,723 views
1,650 views

Published on

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,723
On SlideShare
0
From Embeds
0
Number of Embeds
211
Actions
Shares
0
Downloads
5
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

QaA

  1. 1. さくさくテキストマイニング勉強会 #5あなたの質問に応えてみた。 ー疑問に対する応答ー
  2. 2. 自己紹介
  3. 3. 自己紹介 早川 敦士 電気通信大学システム工学科三年
  4. 4. 興味テキストマイニングデータマイニング統計解析品質管理
  5. 5. ブログhttp://d.hatena.ne.jp/gepuro/ 自己紹介 Twitter @gepuro
  6. 6. 花火打ち上げた♪
  7. 7. 富士山登った〜
  8. 8. やってみたこと
  9. 9. Webから拾ってきたテキストに対して、 やってみたこと質問を投げかけて、何か応えてもらう。
  10. 10. どうやって?
  11. 11. 一般的?にはデータから互いに関連の強い実体(単語等)を探してきて、特定の関係がなりたつようにテキストデータから情報を抽出する。
  12. 12. 建造物 地名電気通信大学西5 東京都調布市号館東京タワー 東京都港区名古屋城 EXAMPLE 愛知県名古屋市愛・地球博記念公 愛知県愛知郡園
  13. 13. 一般的?には抽出した情報のデータベースに対して、特定の質問の回答を見つけることができる。
  14. 14. 今回は・・・
  15. 15. 形態素解析 と係り受け解析どうやって? を使いました。 それだけ・・・
  16. 16. 準備その1
  17. 17. wikipediaから、イカ娘に関する記事 を入手した。
  18. 18. CaboChaを 利用して、係り受け解析を行う。
  19. 19. 係り受け解析は、一行ずつ行いましょう。コーパスは「。」で改行されている必要が ある。
  20. 20. 解析後のファイルを そのままでXMLとして利用できない。ひと手間加える必要がある。
  21. 21. CaboChaによって XMLで出力されたファイルをパースするhttp://d.hatena.ne.jp/gepuro/20111014
  22. 22. 準備その2
  23. 23. 質問文を考える 準備
  24. 24. 質問文に対しても、CaboChaを用いて 準備係り受け解析を行う
  25. 25. 疑問詞を質問文から探しだして、これに係 準備るチャンクを求める。
  26. 26. 応えを探せ
  27. 27. 疑問詞かかるチャンクに 含まれるトークンを 取り出し、 応えを探せイカ娘の記事に含まれる 同じチャンクに 係るチャンクを求める。
  28. 28. 分かりにくいので、 具体例を・・・
  29. 29. 質問文(何の)→(予定だったか?) イカ娘の記事(短期集中連載という)→ (予定だったが)
  30. 30. これだけでは、応えの候補が多くなっ てしまう場合が あるので・・・
  31. 31. 質問文から、応えのありそうな文 を搾り出そう
  32. 32. 質問文「侵略イカ娘という作品は、初めは何の予定だったか?」質問に含まれる名詞がある文中に応えになりそうな文が あるのでは?
  33. 33. 記事全体から、複数の文に絞り込む
  34. 34. 結果は? 当初は短期集中連載という
  35. 35. 文を絞り込む事によって、 取り除いた応え●判明。●本来は●『週間少年チャンピオン』誌上及び、●公開する
  36. 36. 課題●応えありきで質問文を考えてしまっている。●質問文によっては、応えが大量に出てしまう。例:「何のために」 (何の)→(ために)
  37. 37. ご清聴、ありがとうございました

×