More Related Content
Similar to Pycon jp2017 20170908_ota
Similar to Pycon jp2017 20170908_ota (6)
Pycon jp2017 20170908_ota
- 3. 1.1. 自然言語処理の研究区分
(入力) (出力)
テキスト ----------解析系--------à 情報
情報 ----------生成系--------à テキスト
図1.1 解析系と生成系
・解析系の研究とは,Amazonのレビューなどのポジ・ネガ判別
・生成系の研究とは,逆で入力はポジティブなどと判別された情報とは限らない.
出力はテキストである.
・変換系の研究とは,機械翻訳など⼊⼒と出⼒が対価である場合.
4
- 11. 2.3 自動要約による文生成
• ⾃動要約の古典的なH. P. Luhn(1958)が⾃動要約の⽅向性を決めたと
⾔われている.
↓
• テキスト中の重要な⽂を抜き出し,それを出現順に並べることによっ
て,そのテキストを読むべきか否かを判定するといったスクリーニン
グのための要約が⾃動⽣成できることを⽰したから.
• つまり,⾃動抄録に似ており,「理解し,再構成し,⽂章⽣成」とい
うのではなく、「理解する箇所が重要部に近似する」と割り切って考
えたものである.
• 重要語の決定には,単語頻度を⽤いるなど,現在の⾃動要約の流れは,
Luhnの影響が少なくない!
12
- 12. 2.4 リカレントニューラルネットワーク
(RNN)/LSTM/GANによる文生成
• Andrej Karpathyのchar-rnnによるtiny shakespeare[7]が
有名.
• 今までの単語列として,もっともらしい次の単語を予測す
ることをLong short term memory(LSTM)が担うもの.
• Recurrent Neural Network(RNN)の拡張として,1995年
に登場した時系列データに対するモデルまたは構造の⼀種
である.
• しかしLSTMでも,Epochが100を超えないとまともな⽂
章になっていなかったり,GPUが必要になるなど,莫⼤な
学習データと時間を要する.
• そこで,GANなど教師なしの⽣成モデルに着⽬した. 13
- 17. 4.1 実験で用いた各手法の長所・短所
• [実験: 2パターンでの検証結果]
1.(元データ)
4.2.1 マルコフ連鎖による2つの⽂章の評価
・元の⽂章のままではない点が評価できる.
・元の⽂章が⻑い⽂章であれば,⽂と⽂のつながりはよくはないが
悪くもない.
・内包表記などで⼯夫できれば簡易的で良い.
18
B L .
K : : 3::7 / 034 19 5/2 065
- 24. 4.3 実験で用いた文章と評価結果(その2)
(例⽂)
私の知り合いの⽼⼈ Y さんは現在90才の元気な男性。Y さんの健康法は毎⽇ 2 時
間くらいは散歩を続ける事だ そうです。それも晴の⽇だけでなく、⾬の⽇も散歩
に⾏かれると⾔うのでびっくり。本⼈いわく「この年で仕事 もないので、私は散
歩する事が仕事と思って毎⽇歩いているので、⾬の⽇でも⾏きます。⾬だから今
⽇は仕事が 休みとは普通ならないでしょう・・・」との事でした。流⽯に脱帽で
す。 実はこんな事があったそうです。お 医者さんから「もう90才になるのだから、
あまり無理して歩かないほうがよいですよ。」と⾔われ、Y さんも 「そうか
なー」と思い 1 ヶ⽉近く散歩を⽌めていました。そしたら、バス停から家までの
道のり約5分くらいの 緩やかな坂道が、途中に⼀度休まないと息が切れて歩けな
くなったそうです。それで「これではまずい!」と思 って、また歩き始めて3週間
くらい歩き続けたら元に戻ったそうです。歩く事は健康の基本です。半⾝の静脈
の 流れを良くし、⾝体の基礎筋⾁を維持し、⼼肺機能を維持する事ができるので
す。また、腰痛の70%はしっか り歩くだけでも改善されています。現代は飽⾷に
よる肝脂肪が増えています。私も最近は運動不⾜なので、昨年 の10⽉からは⼦供
と毎⽉1回は⼭登りをするようにしています。皆さんも運動不⾜と思われる⽅は是
⾮散歩を お勧め致します。毎⽇1時間は歩いてほしいですね (572⽂字)
25
手法は隠し
てある
- 28. 4.4.1 本節で用いた例文
• a (元の⽂章・⾔い換え前)456⽂字
• b(⼀回⽬の⾔い換え後 448⽂字)
• c(2回⽬の⾔い換え後 405⽂字)
4.4.2 n-gram(n = 1-5)での定量化と⾔い換え
回数について
以下のように定義した.
a: 元の⽂章,
b: aを⾔い換えた⽂章,
c: bを⾔い換えた⽂章
aからbへの⾔い換え総数: 56回
bからcへの⾔い換え総数: 38回
29
aとcの類似度の⽐較
2-gram: 1.151
3-gram: 0.582
4-gram: 0.506
5-gram: 0.388
・bとcの類似度の⽐較
2-gram: 1.386
3-gram: 0.798
4-gram: 0.317
5-gram: 0.207
- 32. 4.4.2 n-gram(n = 1-5)での定量化と言い換え回数について
以下のように定義した.
a: 元の⽂章,
b: aを⾔い換えた⽂章,
c: bを⾔い換えた⽂章
・aからbへの⾔い換え総数:
56回
・bからcへの⾔い換え総数:
38回
33
aとcの類似度の⽐較
2-gram: 1.151
3-gram: 0.582
4-gram: 0.506
5-gram: 0.388
・bとcの類似度の⽐較
2-gram: 1.386
3-gram: 0.798
4-gram: 0.3171
5-gram: 0.2075
- 35. 5. 今後の予定
• ⽂と⽂のつながりについては,次の⼿法で解決の⽷⼝を⾒出
すべく,取り組み中である.
• 次回,次の項⽬を中⼼に報告させて頂きたいと考えておりま
す.
• [理論⾯: 論⽂サーベイ]Sentence Ordering, Coherence
• [⼿法⾯: ⽂脈解析] Entity-grid model※1
• [⼿法⾯: 深層学習] GAN(⽣成系モデル)
※1 現在、⾃動要約との関連や⽂と⽂とのつながりをentity-gridを⽤いて局所的なつ
ながりの良さを表現するなどの談話構造解析があるが発展段階である.
36