Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

テキストマイニングをやってみた

7,823 views

Published on

  • Be the first to comment

テキストマイニングをやってみた

  1. 1. 1テキストマイニングをやってみた 押江隆
  2. 2. 2 テキストマイニングとは● コンピューターを使って大量のテキストの中から有益な 情報を探しだす技術● 自由記述の分析 – KJ法を参考にした分析による研究(押江・青木、2010) ● 23名が受講したピア・サポートトレーニングの効果や意義を検討 ● セッションごとに50〜90枚のカード(×6セッション)を分析 – テキストマイニングを用いた研究(杉浦ら、2012) ● PCAグループのセッションの効果を総合的に検討 ● 過去8年分の560名が参加したPCAグループの参加者カード、セッ ションカードを分析 _人人人人人人_ > 無理ゲー <  ̄^Y^Y^Y^Y^ ̄
  3. 3. 3 テキストマイニングの手法● テキストを単語単位に切り分け、各々の単語が何 回出現しているかをカウントし、テキストを数値で 表現● 形態素解析 – 「お待ちしております」 お待ち 名詞 サ変接 * * * * お待ち オマチ オマチ 続 し 動詞 自立 * * サ変・ 連用形 する シ シ スル て 助詞 接続助 * * * * て テ テ 詞 おり 動詞 非自立 * * 五段・ 連用形 おる オリ オリ ラ行 ます 助動詞 * * * 特殊・ 基本形 ます マス マス マス
  4. 4. 4 ツール● MeCab – 日本語形態素解析器 – https://code.google.com/p/mecab/● RMeCab – RでMeCabを使うためのパッケージ – http://rmecab.jp/wiki/index.php?RMeCab
  5. 5. 5 今回試してみること● RからMeCabを使ってみる● 共起語分析● Ngram解析● ネットワーク分析
  6. 6. 6 共起語分析● 共起(collocation) – 言語学である語が別の特定の語と隣接して現れること● ノード – 対象となる語。「中心語」とも● スパン – ノードを真ん中に置いて前後の語数を指定した範囲● 「御釈迦様は極楽の蓮池のふちを」 3スパン 3スパン● ノードのスパン内に有意に共起するターム間には強い 関係があると判断できる
  7. 7. 7 Ngram分析● Ngram – 文字あるいは形態素、または品詞情報がN個つながった組合 せのこと – 「私の名前は中野です」をbi-gram (N=2)で 文字単位 形態素単位 品詞情報単位 私 - の 私 - の 名詞 - 助詞 の - 名 の - 名前 助詞 - 名詞 名 - 前 名前 - は 名詞 - 助詞 前 - は は - 中野 助詞 - 名詞 は - 中 中野 - です 名詞 - 助動詞 中 - 野 野 - で で - す – 隣り合った文字列または単語の組み合わせを「共起関係」、 「共起関係」がどの程度現れるかを集計した結果を「共起頻 度」と呼ぶ
  8. 8. 8 ネットワーク分析● 言葉のつながりからコンテキストを知る● Ngram分析で得られた共起関係・共起頻度をネッ トワーク図に表す 10 私 名前 5 中野
  9. 9. 9以下ソース

×