More Related Content
Similar to さくさくテキストマイニング入門セッション
Similar to さくさくテキストマイニング入門セッション (20)
さくさくテキストマイニング入門セッション
- 1. 入門セッション
● テキストマイニング必須用語を20分程度で紹介
● 目的:初心者向け勉強会向けに、テキストマイニン
グの基本用語から説明し、勉強会の発表を理解す
るのに必要な前提知識を身につける
● セッション後、質問タイムを設けます。お気軽に御
質問下さい
1
- 2. テキストマイニングの利用方法
1. 評判分析:強み弱みはどこか?
2. 需要抽出:どんな商品が求められているか?
3. インフルエンサーの特定
4. メール等の文書をDB化→知見の集積
5. 暗黙知→形式知
6. 自然言語処理:検索、本文要約、IME、翻訳
2
- 4. 言語処理の技術 (1) 形態素解析
● 形態素とは:意味を持つ最小の文字列の単位
● 分かち書き:文を単語に分割すること
● 形態素解析:分かち書き+品詞付け+原形復元
● 日本語の分かち書きは難しい
● 英語等と違って単語の切れ目がわからない
– 「すもももももももものうち」→「李も桃も桃の内」○
– 「東京都」→「東, 京都」?
● MeCab:非常によく使われる形態素解析エンジン
4
- 5. 言語処理の技術 (2) 構文解析
● 構文解析:文の構造(係り受け等)を明らかにする
● 係り受け:ある文節がどの文節に作用するか
● 例文:「黒い大きな瞳の男の娘」
● (肌の)黒い、大きな瞳の、男の娘?
● 黒い大きな瞳の、男の娘?
● 黒い大きな瞳(さん)の男の娘?
5
- 6. 言語処理の技術 (3) 意味解析
● 意味解析:評判分析等で使われる
● 「泣ける」という単語はポジティブ?ネガティブ?
– 「映画」+泣ける⇒感動した!というポジティブ表現
– 「試験」+泣ける⇒結果が悪かった!というネガティブ表現
– 単語の意味は文脈によって変わる可能性がある
● 語義曖昧性解消:単語の複数の意味の中から、文
に応じた語義を特定すること
● 単語情報単体で自然言語の全てを理解できるわけ
ではない
6
- 7. テキストの統計処理(1)
● 「単語」とは何か:トークンとタイプ
– “nurture or nature? nurture passes nature”は何単語?
– 6(節)と答えるのがトークン
– 4(種類)と答えるのがタイプ
● Nグラム:隣接するN単位の共起
– 単語2グラム[柴犬,が][が,私][私,を][を,噛ん][噛ん,だ]
– 文字2グラム(柴,犬)(犬,が)(が,私)(私,を)(を,噛)(噛,ん)(ん,だ)
– 単語Nグラムは形態素解析する必要がある
– 大量のNグラム情報があれば、ある単語とそれに連なる単語
が文書に現れる確率が求められる→検索や予測変換で利用
7
- 8. テキストの統計処理(2)
● bag-of-words(BOW):文章の単語ベクトル表現
● 「ある文書がどのような単語を含んでいるか」を表す
● 順序や構文など、ある程度元の文書の情報を捨ててい
るが、扱いやすいため、実際の分析ではよく使われる
● 例:柴犬が私を噛んだ→{柴犬,が,私,を,噛ん,だ}
● 例:{柴犬,が,私,を,噛ん,だ} = {私,が,柴犬,を,噛ん,だ}
- 9. 機械学習
● 人間の学習能力をコンピュータに持たせて、分類
や判別、予測などを行う分野
● 教師有り学習:正解例に沿う様、分類などを行う
– パーセプトロン、SVM
– 応用:スパム判定や著者推定など
● 教師無し学習:入力値から特徴的なパターンを抽出
– クラスタリング、異常値検出
– 応用:消費者のカテゴライズなど
9
- 10. 自然言語処理
● 人間が通常用いる自然言語をコンピュータに処理
させる分野
● テキストマイニングでは、自然言語処理の技術(形態素
解析や構文解析など)を用いてテキストを解析する
● 自然言語処理は(形態素解析などの)「技術を作る」、テ
キストマイニングは「技術を使う」のが主眼
● 包丁に対する鍛冶屋と料理人の違い by 海野さん
10
- 11. 頻出専門用語(1)
● コーパス:言語の分析用例データ
● 素性:文法的な情報を表す特徴量(単語頻度等)
● アノテーション:関連情報、メタ情報のこと。タスクに
よって、品詞をつけることであったり、意味を付与す
るものであったりする
● 辞書:形態素解析や構文解析を行う際に用いる教
師データ。辞書の整備が分析の精度を左右する
11
- 12. 頻出専門用語(2)
● 照応解析:代名詞や指示語が何を指しているかを
明らかしたり、省略された名詞句を補完する処理
● チャンキング:文の意味的な塊(チャンク)を抽出
● クローリング:Webからテキストなどのデータを自動
収集すること。Twitterやブログなど、APIが用意さ
れている場合もある
● データクレンジング(クリーニング):収集したデータ
に含まれる誤字脱字、表記揺れ、欠損などの汚損
を取り除く作業
12