Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

概観テキストマイニング

7,725 views

Published on

さくさくテキストマイニング#2にて発表

Published in: Technology
  • Be the first to comment

概観テキストマイニング

  1. 1. todesking
  2. 2. おはようございます!!!
  3. 3. この発表は何か「テキストマイニング」なるプロセスを定義することにより、その概観を皆さんに提示することを試みます。
  4. 4. 第一部 自己紹介
  5. 5. @todesking
  6. 6. はてな:gnarl
  7. 7. 自己紹介● @todesking● Web系の受託やってる。● プライマリな興味の対象はソ フトウェア設計やソフトウェ ア開発プロセスなんだけど、 たぶん誰もそうは思ってない
  8. 8. 勤務先
  9. 9. 発表者は何をしているかウルトラテクノロジスト集団を自称する怪しい企業でWeb系の受託プロジェクトをやるJavaエンジニアです(主にバッチ担当)。
  10. 10. 発表者は何をしているか推薦エンジンをやってるチームに属しており、テキストマイニング技術を応用したようなプロジェクトもたまにやる。使用言語はJavaやRuby、ごくたまにRなどを使用しております。
  11. 11. よろしく おねがいします。
  12. 12. 第二部 本編
  13. 13. テキストマイニング
  14. 14. ホワット
  15. 15. テキストマイニング とは何か
  16. 16. テキストマイニングとは、大量の、フリーテキストを含むデータから、価値ある情報を取り出すプロセスである
  17. 17. テキストマイニングとは、大量の、フリーテキストを含むデータから、価値ある情報を取り出すプロセスである
  18. 18. 大量の http://www.flickr.com/photos/callumscott2/280532292/
  19. 19. 大量のデータ● 人間ではハンドリングできない程 度に多いデータを相手にする● 統計的手法はデータが多いほうが 有効● 計算機の出番● データマイニング!
  20. 20. テキストマイニングとは、大量の、フリーテキストを含むデータから、価値ある情報を取り出すプロセスである
  21. 21. http://www.flickr.com/photos/wrote/3551555637/ フリーテキスト
  22. 22. フリーテキスト● 自然言語による記述● 構造化されていないデータ● さまざまなノイズ –表記ゆれ –未知の表現
  23. 23. フリーテキスト● 計算機で処理するには工夫 が必要● 前処理必須● 解析ミスがつきもの
  24. 24. ならば、なぜ
  25. 25. なぜフリーテキストなのか? ● データ量はパワーである● ノイズ混じりだが大量の データを入手可能● 事前に構造を規定しなくて いい
  26. 26. http://www.flickr.com/photos/benstephenson/27533356/in/photostream
  27. 27. http://www.flickr.com/photos/benstephenson/27533356/in/photostream構造化されていないデータを扱う技術が 必要である
  28. 28. フリーテキストの構造を分析するためにはさまざまな技術が存在する。分かち書き分析、形態素解析といった手段で最小構成単位を識別し、それらの関係を複合語抽出や係り受け解析で求め、あるいはデータに特化したルールを使用することもできる。
  29. 29. フリーテキストの 構造を分析するこれはノイズとの戦いでもある。● 未知の用語● 誤記● 文法のバリエーション● テーマの非統一
  30. 30. 問題は、いかにフリーテキストの構造を解釈することである。うまい解釈ができれば、あとはデータマイニングの道具を適用できる。
  31. 31. テキストマイニングとは、大量の、フリーテキストを含むデータから、価値ある情報を取り出すプロセスである
  32. 32. データ http://www.flickr.com/photos/teclasorg/2543197908/
  33. 33. データフリーテキストがデータのすべてではない。日付、作者、タグ、数量などの構造化されたフィールドが組み合わさっていることがあり、これらは分析の際大きなヒントとなる。
  34. 34. テキストマイニングとは、大量の、フリーテキストを含むデータから、価値ある情報を取り出すプロセスである
  35. 35. 情報http://www.flickr.com/photos/thefangmonster/352461415/
  36. 36. 情報属性間の相関や似たアイテムの集合、あるいは全体の傾向など、大量のデータを適切に分析して初めて見えてくるものがある。
  37. 37. 道具クラスタリング、相関分析、頻出パターン分析、トピック抽出、分類、などなど。統計やデータマイニングの分野にさまざまな道具が蓄積されている。
  38. 38. 問題は道具をどのように使い、結果をどう解釈するかにある。元になったデータは不完全であり、さまざまなノイズとバイアスがある。データと道具の性質をよく理解し、なぜその結果に至ったのか考えねばならない。
  39. 39. テキストマイニングとは、大量の、フリーテキストを含むデータから、価値ある情報を取り出すプロセスである
  40. 40. 価値 http://www.flickr.com/photos/59937401@N07/5475014890/
  41. 41. テキストマイニングのゴールは、他のいとなみと同じく、 価値を生むことである。
  42. 42. 価値ある情報は 行動の指針となる● 仮説の検証ができる● 意外性のある結論:「ビールとお むつ」● その情報は具体的なアクションに 結びつくか?
  43. 43. テキストマイニングで いかに価値を産むか● その分析結果は、何を意味するの か?● 次にすべき行動は?● その行動は誰に、どのような価値 をもたらすのか?
  44. 44. テキストマイニングとは、大量の、フリーテキストを含むデータから、価値ある情報を取り出すプロセスである
  45. 45. プロセス http://commons.wikimedia.org/wiki/File:Feedback_Loop.svg
  46. 46. プロセステキストマイニングは、それ自体で完結するいとなみではない。データをどこかから得る必要があり、分析の結果は別の場所で使われるだろう。
  47. 47. テキストマイニングとは、より大きなプロセスの一部である
  48. 48. テキストマイニングの結果がただちに何らかの価値をもたらすことは稀である。しかし、ビジネスプロセスへ分析結果をフィードバックすることでプロセス全体の価値を向上することができる。
  49. 49. フィードバックによる 価値の向上
  50. 50. テキストマイニングとは、大量の、フリーテキストを含むデータから、価値ある情報を取り出すプロセスである。願わくば、あなたのテキストマイニングが誰かに価値をもたらすことを。ご清聴ありがとうございました。

×