Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

深層学習による自然言語処理1章

115 views

Published on

深層学習による自然言語処理の
勉強会で作成したものです.

Published in: Data & Analytics
  • Be the first to comment

  • Be the first to like this

深層学習による自然言語処理1章

  1. 1. 深層学習による自然言語処理( 1章)
  2. 2. 1章:テキストデータで扱われる単語の説明 キーワード集 • トークン • 語彙 • 句 • 文 • 品詞タグ付け • 単語分割 • 語義曖昧性 • 固有表現抽出 • 構文解析 目次 • 自然言語処理のタスク • 深層学習の良さ(期待) • 他の分野の広がり
  3. 3. 1章:テキストデータで扱われる単語の説明 単語の説明 • トークン:処理する単位「単語」 • 語彙:単語の相対 有限で考えることが多い(名詞,動詞,形容詞,数詞(wikipedia 引用)) • 句:文より短い2単語以上文法的または意味的な集まり,この単位で処理することがある • 文:文を1つの記号列として扱うことが多い This is an apple. Do you like apple ? 例 トークン:8(句読点も含めると10) 語彙:7(This is an apple do you like) 句:this is , an apple .... 文: This is an apple. / Do you like apple ?
  4. 4. 1章:自然言語処理のタスク • 品詞タグ付け • 単語に名詞・動詞などの文法的な役割 • 単語分割 • 日本語など単語に分けられていないテキストの単語に分割する処理 • 語義曖昧性の解消 • 複数の語義をもつ単語の語義を特定する処理 • 固有表現抽出 • 人物・地名・日付などを抽出する処理 • 構文解析 • 文法に基づく文の木構造を構築する処理 言語解析タスク などなど
  5. 5. 1章:自然言語処理のタスク • 品詞タグ付けと構文解析:文の構文の次に単語の品詞を考える. The business results are above average. 英語の主な品詞タグ(例) UKW : 不明な品詞 CC:等位接続詞 CD :基数 DT:限定詞 IN :前置詞 JJ :形容詞 NN :名詞 NNP :固有名詞 PRP :代名詞 QT :数量詞 RB :副詞 SYM :記号 VB :動詞 WH :Wh語 https://www.ibm.com/support/knowledgecenter/ja/SS5RWK_3.5.0/com.ibm.discovery.es.ta.doc/iiysspostagset.htm品詞一覧 NP(名詞句) VP(動詞句) IN(前置詞) NP(名詞句) VB(動詞) NN(名詞) DT(限定詞)JJ(形容詞)NN(名詞)
  6. 6. 1章:自然言語処理のタスク • 単語分割 単語の分割がない(日本語) 元々空白で単語分割(英語) Dear Mr.Gere, I hope you are doing fine. Thank you for coming to our office the other day in your busy days.We want to work with you but due to some reason, we must to cancel your unofficial job offer. Thank you for your understanding and continuous support. Best Regards, Manabu Eibun テキストで単語に分割されていない言語を単語に分割するタスク 吾輩は猫である。名前はまだ無い。 どこで生れたかとんと見当けんとうが つかぬ。何でも薄暗いじめじめした所で ニャーニャー泣いていた事だけは記憶し ている。吾輩はここで始めて人間という ものを見た。しかもあとで聞くとそれは 書生という人間中で一番獰悪どうあくな 種族であったそうだ。この書生というの は時々我々を捕つかまえて煮にて食うと いう話である。しかしその当時は何とい う考もなかったから別段恐しいとも思わ なかった。ただ彼の掌てのひらに載せら
  7. 7. 1章:自然言語処理のタスク 語義曖昧性の解消 • そもそも「語義」とは何か? よくわからない. 彼はその仕事をやった。 (ある動作をする) その日はジャズをやった。 (演奏/上映する) プレゼントとして時計をやった。 (譲渡する) 机の上の本を向こうへやった。 (どかす) 心配なので人をやった。 (遣いを出す) 目を向こうへやった。 (視線を投げる) やったでも文脈で意味が変わる.
  8. 8. 1章:自然言語処理のタスク 固有表現抽出 人名,地名,組織名などを抽出するタスク!! 入力 出力 吾輩は猫である。名前はまだ無い。 いや,実はある.吾輩の名前はジョンソンだ. 琵琶湖のある島に住んでいる. <土地名>ジョンソン</土地名> <土地名>琵琶湖</土地名>
  9. 9. 1章:深層学習の良さ(例 自然言語処理) 応用タスクに対して全体の最適化ができる(独立に学習しなくて良い) 言語解析技術がいらない(知識が無くても容易) 自然言語処理 システム
  10. 10. 1章:深層学習の欠点(例 自然言語) 内部の状態の解釈が難しい「ブラックボックス」 ある人「一般の人にとって,ニューラルネットワークも既存の自然言 語システムも「ブラックボックス」だよ(解釈:使え) 自然言語処理 システム
  11. 11. 1章:他の分野への広がり テキストは可変長の記号列が特徴 記号列データでもテキスト以外もある!!! 医療 流通業 人の行動 動画 音声信号 etc....
  12. 12. 1章:まとめ • 自然言語処理の語句の勉強 • 自然言語処理のタスクがどんなものがあるか • 深層学習はタスクごとではなく,直接最適化する.

×