Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

フリーソフトウェア「KH Coder」を使った計量テキスト分析 ―手軽なマウス操作による分析からプラグイン作成まで― #TokyoWebmining 41st

38,564 views

Published on

2014年12月20日の勉強会「第41回 データマイニング+WEB @東京 (#TokyoWebmining 41st )」で発表させていただく内容です。

 KH Coderとはテキストマイニング(内容分析)のためのフリーソフトウェアです。内部では茶筌・MeCab+MySQL+Rを利用しており、これらのツールの機能を統合するためにPerlを使っています。
 当日はアンケート自由回答の分析事例を通じて、KH Coderの分析機能をご紹介します。また、非常に手軽なマウス操作でそうした分析が可能なことを、実際にソフトを動かしてのデモからご覧いただきます。加えて、ごくわずかなPerlとRのコードを書くことで、新たな分析機能を追加したり、分析を自動化したりできる、プラグイン機構についてお話しいたします。

Published in: Software
  • Be the first to comment

フリーソフトウェア「KH Coder」を使った計量テキスト分析 ―手軽なマウス操作による分析からプラグイン作成まで― #TokyoWebmining 41st

  1. 1. 1 ――手軽なマウス操作による分析からプラグイン作成まで―― 樋口耕一 / @khcoder フリーソフトウェア「KH Coder」 を使った計量テキスト分析 2014 12/20 #TokyoWebmining
  2. 2. 2 計量的分析にまつわる懸念 計量的な分析は「乱暴」 微妙なニュアンスは失われてしまう? 計量的な分析は「浅い」 人間のような「深い分析」は無理? →すべて杞憂であることを示しつつ、 「計量テキスト分析」をご紹介 イントロダクション 本当にメリットがあるのか 利点は単に「客観的」なだけ?
  3. 3. 3 計量テキスト分析? 伝統的な内容分析(content analysis)の考え方と テキストマイニング技術を活かした分析 実現のためのフリーソフトウェア「KH Coder」 イントロダクション
  4. 4. 4 本日の内容 アンケート自由回答の分析事例 計量テキスト分析の考え方と、実現のため のソフトウェア「KH Coder」 カスタマイズ イントロダクション
  5. 5. 5 アンケート自由回答 の分析事例
  6. 6. 6 自由回答項目の利点① 網羅的で完全な選択肢の準備は困難 上手く聞き出せるような選択肢とは? たくさん選択肢を並べることはできない →こうした選択肢型項目の課題を補い、 探索的に調査を進められる。 選択肢を提示すること自体によって、 肯定的反応を誘発する場合も Ex. なぜ現在の学科に進学しましたか? →「その学問に興味があるから」 (安田 1970) (安田 1970, 林 1975) 自由回答の分析
  7. 7. 7 自由回答項目の利点② 選択肢型項目の分析と組合せることで 知見に相乗的な広がりを 自由回答の分析
  8. 8. 8 事例「なんとなく進学」 質問項目 もしも、あなたのお子様が特に勉強したいこともないの に、「なんとなく進学する」ことになったら、あなたは この考えに賛成できますか(後略) 調査概要 高校生とその母親の教育意識に関する全国調査 2002 SRDQ(http://srdq.hus.osaka-u.ac.jp)に詳細 1. 賛成できる 2. やや賛成できる 3. あまり賛成できない 4. まったく賛成できない 選んだ理由: (樋口 2012) 自由回答の分析
  9. 9. 9 賛成・反対をまず見ると b S.E. StdYX 母親年齢 -.013 .013 .044 母親教育年数 -.105** .031 .151 世帯収入 -.047** .013 .162 N = 574, R 2 = .065, ** p < .01, * p < .05 学歴高い母親 ほど賛成 表1:「なんとなく進学賛否」の回帰分析(WLSMV) 自由回答の分析 この表だけを見ながら想像するのは 難しいので、自由回答にあたろう! (自由回答項目の利点②を活用しよう!) なぜ?
  10. 10. 10 図1:共起ネットワークから主なテーマを 自由回答の分析 それぞれの語が、 ほかのどんな語と 結びついて、どん なテーマを形作っ ているかを見てお く。そうすると、 以降の分析結果を 解釈しやすく。
  11. 11. 12 図2:「賛否&学歴」と理由の対応分析 自由回答の分析
  12. 12. 13 図2:「賛否&学歴」と理由の対応分析 自由回答の分析 「反対」の理由は学歴に よってあまり変化しない 「賛成」の理由は学歴 によって異なる
  13. 13. 14 図2:「賛否&学歴」と理由の対応分析 学歴が高卒では将来不安友達が多くできる 自由回答の分析
  14. 14. 15 図2:「賛否&学歴」と理由の対応分析 色々な経験をする中で自分 の道をみつけてくれれば 自由回答の分析 色々な人と出会い、新し い目標が生まれるかも
  15. 15. 16 利点はあるが注意も必要 回答者の負担 選択肢型の方が答えるのが楽 少しでも答えやすくなるような工夫を 分析しやすい回答を得るために 主題を設定する △質問紙の最後に「ご意見をご自由に」 通常項目との組合せ方を含めて、分析計画は あらかじめ考えておく ※「自由回答の取得方法(中略)の研究はそう進んで いるとは言えない」(大隅・Lebart 2000: 374)と いう状況に、それほど劇的な変化は生じていない 自由回答の分析
  16. 16. 17 ここで分析デモ データや分析手法 に合わせてデフォ ルト値を自動設定 これをクリック するだけ?! 自由回答の分析
  17. 17. 18 計量テキスト分析の考え方と、 実現のためのソフトウェア
  18. 18. 19 データ探索と信頼性向上 2. 分析事例方法とソフト データの 全体像 引用すべき 部分 どこにデータの特徴 があらわれている? 全体としてデータの 様子はどんなか? 分析者は偏った印象を 持っていないか? 引用する部分を分析者 はどう選んだのか? 分析者 第三者 データをより良く理解すると同時に、分析の信頼性を向上!
  19. 19. 0% 5% 10% 15% 20% 25% 30% 35% 40% 45% 一 六 十 一 十 六 二 十 一 二 十 六 三 十 一 三 十 六 四 十 一 四 十 六 五 十 一 五 十 六 静(お嬢さん) 静の母(奥さん) 20 量的方法と質的方法 妻はそれをこんにちに困らない (財産がある)から心に弛みが 出るのだと観察していたようで した。(・・・)しかし私の動 かなくなった原因の主なものは、 全くそこにはなかったのです。 (・・・)自分もあの叔父と同 じ人間だと意識した時、私は急 にふらふらしました。他に愛想 を尽かした私は、自分にも愛想 を尽かして動けなくなったので す。 量的分析 質的分析(引用・解釈) 循環的な関係 「質的方法が洞察にあふれ、量的方法が仮説検証のた めの単に機械的なものだと決めつけるべきではない。こ の両者の関係は循環的なものである。すなわち、それぞ れが新たな洞察をもたらし、それによって他方に資する ものである」 (Pool 1959: 192, 筆者訳) 方法とソフト
  20. 20. 21 素データを検索・確認する機能にも注力 “Closeness to Data” (Stone et al. 1966) 方法とソフト
  21. 21. 23 カスタマイズ
  22. 22. 24 柔軟性・拡張性も カスタマイズ MySQL:データベース (整理と検索) (統計分析) テキスト 分析結果 検索結果 茶筌:形態素解析 (語の取り出し) KH Coder →お仕着せの分析しかできない既製品ではなく、 創意工夫を発揮できる「環境」として
  23. 23. 25 プロットをRコマンド形式で保存1 カスタマイズ
  24. 24. 26 プロットをRコマンド形式で保存2 カスタマイズ Rで実行すれば、まったく同じプロットを得られる。 コマンドに手を加えることで自在にカスタマイズ可。
  25. 25. 27 分析機能の追加(プラグイン)1 カスタマイズ
  26. 26. 28 分析機能の追加(プラグイン)2 →PerlとRのコードを追加することで、分析に使う語を選択し、分析を実行 詳細はサンプル(plugin_jp/p1_sample5_mds.pm)やUseful R ⑩を カスタマイズ
  27. 27. 29 自動実行(プラグイン) カスタマイズ コマンドラインから「kh_coder.exe –auto_run ファイル名」 のように起動すると、自動処理が実行される。
  28. 28. 30 文献 分析の考え方、活用 法、チュートリアル とマニュアル等 PerlとRによるカス タマイズについて 「なんとなく進学」 の分析事例はこの本

×