Your SlideShare is downloading. ×
第三回さくさくテキストマイニング勉強会 入門セッション
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Saving this for later?

Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime - even offline.

Text the download link to your phone

Standard text messaging rates apply

第三回さくさくテキストマイニング勉強会 入門セッション

10,346
views

Published on


0 Comments
5 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
10,346
On Slideshare
0
From Embeds
0
Number of Embeds
6
Actions
Shares
0
Downloads
40
Comments
0
Likes
5
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. 入門セッション● テキストマイニング必須用語を15分程度で紹介● 目的:初心者向け勉強会なので、基本用語から説 明すべきだが、各発表者がいちいち説明している と重複しまくって非効率なので、最初にまとめる● セッション後、質問タイムを設けます。お気軽に御 質問下さい● ※あくまでざっくりした説明です 1
  • 2. テキストマイニングの利用分野1.マーケティング – 評判分析:売れ行き予測 – 需要の抽出:今どんな商品が求められているか? – 自社製品の強み弱み:強みを伸ばし、弱点を補う – インフルエンサーの特定:どこ/誰が影響力を持っているか2.ナレッジの自動蓄積 ● メール等の文書をデータベース化 ● 暗黙知→形式知3.自然言語処理的領域 – 検索、本文要約、IME、機械翻訳 2
  • 3. 言語処理特有の技術1.形態素解析:絶対使う。精度95%2.構文解析:よく使う。精度80%3.意味解析:たまに使う。研究段階。精度60%4.文脈解析:研究段階(今回は説明省略 3
  • 4. 言語処理の技術 (1) 形態素解析● 形態素とは:意味を持つ最小の文字列の単位● 分かち書き:文を単語に分割すること● 形態素解析:分かち書き+品詞付け+原形復元● 日本語の分かち書きは難しい ● 英語等と違って単語の切れ目がわからない – 「すもももももももものうち」→「李も桃も桃の内」○ – 「東京都」→「東, 京都」?● MeCab:非常によく使われる形態素解析エンジン 4
  • 5. 言語処理の技術 (2) 構文解析● 構文解析:文の構造(係り受け等)を明らかにする● 係り受け:ある文節がどの文節に作用するか● 例文:「黒い大きな瞳の男の娘」 ● (肌の)黒い、大きな瞳の、男の娘? ● 黒い大きな瞳の、男の娘? ● 黒い大きな瞳(さん)の男の娘? 5
  • 6. 言語処理の技術 (3) 意味解析● 意味解析:評判分析等で使われる● 「泣ける」という単語はポジティブ?ネガティブ? – 「映画」+泣ける⇒感動した!というポジティブ表現 – 「試験」+泣ける⇒結果が悪かった!というネガティブ表現 – 単語の意味は文脈によって変わる可能性がある● 語義曖昧性解消:単語の複数の意味の中から、文 に応じた語義を特定すること● 単語情報単体で自然言語の全てを理解できるわけ ではない 6
  • 7. テキストの統計処理● 単語:トークンとタイプ – “nurture or nature? nurture passes nature”は何単語? – 6(節)と答えるのがトークン – 4(種類)と答えるのがタイプ● bag-of-words(BOW):文章の単語ベクトル表現 – 柴犬が私を噛んだ→{柴犬,が,私,を,噛ん,だ} – {柴犬,が,私,を,噛ん,だ} = {私,が,柴犬,を,噛ん,だ}● Nグラム:隣接するN単位の共起 – 単語2グラム[柴犬,が][が,私][私,を][を,噛ん][噛ん,だ] – 文字2グラム(柴,犬)(犬,が)(が,私)(私,を)(を,噛)(噛,ん)(ん,だ) 7
  • 8. 頻出専門用語● コーパス:言語の分析用例データ● 素性:文法的な情報を表す特徴量(単語頻度等)● シソーラス:階層構造を持った類義語辞書● 照応解析:代名詞が指しているものを明らかにする● 省略補完:省略された主語などを補完する● チャンキング:文の意味的な固まりを見つける技術● 格フレーム:ある語の語義毎に共起する語の組● 機械学習:人間の学習能力をコンピュータに持た せて、分類や判別、予測などを行う研究分野 – 教師有り学習:与えられた正解例に沿う様、分類などを行う 8 – 教師無し学習:入力値から頻出/特殊なパターンを見出す