Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

さくさくテキストマイニング入門セッション

7,359 views

Published on

Published in: Education
  • Be the first to comment

さくさくテキストマイニング入門セッション

  1. 1. 入門セッション● テキストマイニング必須用語を20分程度で紹介● 目的:初心者向け勉強会向けに、テキストマイニン グの基本用語から説明し、勉強会の発表を理解す るのに必要な前提知識を身につける● セッション後、質問タイムを設けます。お気軽に御 質問下さい 1
  2. 2. テキストマイニングの利用方法1. 評判分析:強み弱みはどこか?2. 需要抽出:どんな商品が求められているか?3. インフルエンサーの特定4. メール等の文書をDB化→知見の集積5. 暗黙知→形式知6. 自然言語処理:検索、本文要約、IME、翻訳 2
  3. 3. 言語処理特有の技術1.形態素解析:絶対使う。精度95%2.構文解析:よく使う。精度80%3.意味解析:たまに使う。研究段階。精度60%4.文脈解析:研究段階(今回は説明省略 3
  4. 4. 言語処理の技術 (1) 形態素解析● 形態素とは:意味を持つ最小の文字列の単位● 分かち書き:文を単語に分割すること● 形態素解析:分かち書き+品詞付け+原形復元● 日本語の分かち書きは難しい ● 英語等と違って単語の切れ目がわからない – 「すもももももももものうち」→「李も桃も桃の内」○ – 「東京都」→「東, 京都」?● MeCab:非常によく使われる形態素解析エンジン 4
  5. 5. 言語処理の技術 (2) 構文解析● 構文解析:文の構造(係り受け等)を明らかにする● 係り受け:ある文節がどの文節に作用するか● 例文:「黒い大きな瞳の男の娘」 ● (肌の)黒い、大きな瞳の、男の娘? ● 黒い大きな瞳の、男の娘? ● 黒い大きな瞳(さん)の男の娘? 5
  6. 6. 言語処理の技術 (3) 意味解析● 意味解析:評判分析等で使われる● 「泣ける」という単語はポジティブ?ネガティブ? – 「映画」+泣ける⇒感動した!というポジティブ表現 – 「試験」+泣ける⇒結果が悪かった!というネガティブ表現 – 単語の意味は文脈によって変わる可能性がある● 語義曖昧性解消:単語の複数の意味の中から、文 に応じた語義を特定すること● 単語情報単体で自然言語の全てを理解できるわけ ではない 6
  7. 7. テキストの統計処理(1)● 「単語」とは何か:トークンとタイプ – “nurture or nature? nurture passes nature”は何単語? – 6(節)と答えるのがトークン – 4(種類)と答えるのがタイプ● Nグラム:隣接するN単位の共起 – 単語2グラム[柴犬,が][が,私][私,を][を,噛ん][噛ん,だ] – 文字2グラム(柴,犬)(犬,が)(が,私)(私,を)(を,噛)(噛,ん)(ん,だ) – 単語Nグラムは形態素解析する必要がある – 大量のNグラム情報があれば、ある単語とそれに連なる単語 が文書に現れる確率が求められる→検索や予測変換で利用 7
  8. 8. テキストの統計処理(2)● bag-of-words(BOW):文章の単語ベクトル表現 ● 「ある文書がどのような単語を含んでいるか」を表す ● 順序や構文など、ある程度元の文書の情報を捨ててい るが、扱いやすいため、実際の分析ではよく使われる ● 例:柴犬が私を噛んだ→{柴犬,が,私,を,噛ん,だ} ● 例:{柴犬,が,私,を,噛ん,だ} = {私,が,柴犬,を,噛ん,だ}
  9. 9. 機械学習● 人間の学習能力をコンピュータに持たせて、分類 や判別、予測などを行う分野 ● 教師有り学習:正解例に沿う様、分類などを行う – パーセプトロン、SVM – 応用:スパム判定や著者推定など ● 教師無し学習:入力値から特徴的なパターンを抽出 – クラスタリング、異常値検出 – 応用:消費者のカテゴライズなど 9
  10. 10. 自然言語処理● 人間が通常用いる自然言語をコンピュータに処理 させる分野 ● テキストマイニングでは、自然言語処理の技術(形態素 解析や構文解析など)を用いてテキストを解析する ● 自然言語処理は(形態素解析などの)「技術を作る」、テ キストマイニングは「技術を使う」のが主眼 ● 包丁に対する鍛冶屋と料理人の違い by 海野さん 10
  11. 11. 頻出専門用語(1)● コーパス:言語の分析用例データ● 素性:文法的な情報を表す特徴量(単語頻度等)● アノテーション:関連情報、メタ情報のこと。タスクに よって、品詞をつけることであったり、意味を付与す るものであったりする● 辞書:形態素解析や構文解析を行う際に用いる教 師データ。辞書の整備が分析の精度を左右する 11
  12. 12. 頻出専門用語(2)● 照応解析:代名詞や指示語が何を指しているかを 明らかしたり、省略された名詞句を補完する処理● チャンキング:文の意味的な塊(チャンク)を抽出● クローリング:Webからテキストなどのデータを自動 収集すること。Twitterやブログなど、APIが用意さ れている場合もある● データクレンジング(クリーニング):収集したデータ に含まれる誤字脱字、表記揺れ、欠損などの汚損 を取り除く作業 12

×