深層学習による
機械とのコミュニケーション
(株)Preferred Networks
海野 裕也
2017/02/10 DeNA TechCon 2017
⾃⼰紹介
海野 裕也
l -2008 東⼤情報理⼯修⼠
l ⾃然⾔語処理
l 2008-2011 ⽇本アイ・ビー・エム(株)東京基礎研
l 2011-2016 (株)プリファードインフラストラク
チャー
l 2016- (株)プリファードネットワークス
l ⾃然⾔語処理、機械学習、テキストマイニング
l ChainerなどのOSS開発
l 対話処理など
NLP若⼿の会共同委員⻑(2014-)
「オンライン機械学習」(2015, 講談社)
2
宣伝:NLP若⼿の会(YANS)
l YANSシンポジウム(9⽉)
l 若⼿研究者(40歳未満くらい)の若⼿研究者が、⾃
⾝の研究を進めるための集まり
l 学⽣や企業エンジニアの参加も歓迎
l 昨年も合宿でした!
l YANS懇(3⽉)
l ⾔語処理学会全国⼤会期間中に懇親会をします
l 単なる飲み会です J
l 今年は秋葉原で開催(学会は筑波⼤)
3
⾃然⾔語処理
4
⾃然⾔語処理とは
⾃然⾔語(⼈の⾔葉)を計算機で処理する技術
l 主な応⽤:⽇本語⼊⼒、機械翻訳、⾃動要約など
l ⾔語学、機械学習、最適化、統計などと関わりが深い
5
古⽂書 仕様書 電子カルテ twitter
深層学習
6
深層学習とは
l 層の深いニューラルネット
l それに端を発する,複雑な構造の⽬的関数を
持った機械学習⼿法全般のトレンド
7
Szegedy, et.al. Going Deeper with Convolutions.
He, et.al. Deep Residual Learning for Image Recognition
Krizhevsky, et.al. ImageNet Classification with Deep
ConvolutionalNeural Networks
⾃然⾔語処理における深層学習のトレンド推移
l 2012年
l ⽊構造再帰ネットワーク,⾔語モデル
l 2013年
l 埋め込みベクトルの学習
l 2014年
l LSTM,符号化復号化モデル
l 2015年
l 注意機構
l 2016年
l 畳み込みネットワーク,記憶のモデル化
8
Recurrent Neural Network Language Model
(RNNLM) [Mikolov+10]
l t-1⽂字読んだときの「状
態」をベクトル化して、t
⽂字⽬をその「状態」か
ら当てる
l 直前までの⽂脈情報が埋
め込まれている雰囲気
l http://rnnlm.org
9
⽂字、単語
時刻 t-1 の隠れ層
隠れ層 次の⼊⼒
の予測
コピー
Skip-gramモデル (word2vec) [Mikolov+13]
l 周辺単語を予測するモデル
l 単語の意味の⾜し引きがで
きるようになった
l 実装(word2vec)が公開
されて⼀気に話題に
10
Long Short-Term Memory (LSTM)
l RNNに記憶のようなものをもたせたモデル
l 2014年に流⾏が始まったが、最初に提案された
のは90年台
11
Input gate
tanh
sigmoid
Output gate
sigmoid
sigmoid
Forget gate
Sequence-to-sequence learning (seq2seq)
[Sutskever+14] [Vinyals+15b] [Vinyals+15c]
l ⼊⼒⽂をRNNで符号化して、そこからRNNで出
⼒⽂を⽣成する
l 機械翻訳、構⽂解析、対話などに応⽤
12
入力文
出力文
[Sutskever+14]より
注意付きニューラル翻訳 [Bahdanau+15]
l 次の単語を予測するときに、符号化時のベクト
ルに対して重要度の重み付けする
13
重みの⼤きさが、単語
の対応を表現
技術的な詳細な内容は・・・
14
機械学習プロフェッショナルシリーズ(講談社)
「深層学習による⾃然⾔語処理」
4⽉刊⾏予定
深層学習の登場で何が変わったのか?
1. 表現ベクトルの学習が可能になった
2. ⼀気通貫の学習が可能になった
3. より応⽤よりの研究が増えている
15
深層学習の登場で何が変わったのか?
1. 表現ベクトルの学習が可能になった
2. ⼀気通貫の学習が可能になった
3. より応⽤よりの研究が増えている
16
単語の埋め込みベクトルの学習[Mikolov+13]
l 各単語の「意味」を表現するベクトルを作るはなし
l vec(Berlin) – vec(German) + vec(France) と⼀番近い単
語を探したら、vec(Paris)だった
17
Berlin
German
France
Paris!!
これまで単語の意味の扱いはどうしていた?
18宮尾祐介「自然言語処理における 構文解析と言語理論の関係」より
意味の「程度」がベクトル空間中に埋め込まれる
[Kim+13]
l “good”と”best”の真ん中に、”better”が存在
19
[Kim+13a]より
⾔語間の翻訳辞書ができる [Mikolov+13c]
l 単⾔語のコーパスで作られた表現ベクトルは似ている
l 少ない対訳辞書で作った、表現ベクトル空間の線形変換
を作る
20
英語 スペイン語
[Mikolov+13c]より
複数の情報を結びつける研究が出現
21
⾔語と画像
Vinyals, et.al. Show and Tell: A Neural Image
Caption Generator Ren, et.al. Exploring Models and Data
for Image QuestionAnswering
⾔語と操作
Yu, et.al. Video Paragraph Captioning Using
Hierarchical Recurrent Neural Networks
⾔語と映像
Wan, et.al. Learning Language Games through
Interaction
マルチモーダルの研究がやりやすい
l ベクトル同⼠の⽐較の問題に定式化できる
l 画像も⾳も映像も⾔語も,固定⻑ベクトルに変換す
るネットワークを組むことができる
l ベクトル間の関係を学習すればよい
l 急速に新しいタスクが⽣まれる
l 画像の説明⽂⽣成,動画の説明⽂⽣成,画像質問応
答といった新しい先進的なタスクが次々に提案され
ている
22
深層学習の登場で何が変わったのか?
1. 表現ベクトルの学習が可能になった
2. ⼀気通貫の学習が可能になった
3. より応⽤よりの研究が増えている
23
⾃然⾔語処理のパイプライン
24
単語分割
品詞タグ付け
構⽂解析
意味解析
問題を細分化
符号化復号化モデル(encoder-decoder model)
25
符号化
ネットワーク
復号化
ネットワーク
中間表現
英語 ⽇本語
⼀気通貫の学習
ネットワークを容易に⼊れ替えられる
26
符号化
ネットワーク 復号化
ネットワーク
中間表現
異なる情報源を容易に利⽤できる
27
符号化
ネットワーク
復号化
ネットワーク
中間表現
⼀気通貫型の学習の何が嬉しいのか?
l 問題特化の⼯夫を⼊れやすい
l 試⾏錯誤の余地が広がって,沢⼭⼿を動
かす⼈が勝つようになってきた
28
初めて深層学習に触る⼈でも成果が出る
29
https://pbs.twimg.com/media/C3jjuROUoAEXXsP.jpg
深層学習の登場で何が変わったのか?
1. 表現ベクトルの学習が可能になった
2. ⼀気通貫の学習が可能になった
3. より応⽤よりの研究が増えている
30
⼀気通貫型の学習の応⽤タスクへの適⽤が注⽬され
ている
l 機械翻訳
l 要約
l 対話
l 質問応答
31
減少するパソコン、増加するスマートフォン
総務省平成27年度版情報通信白書より
http://www.soumu.go.jp/johotsusintokei/whitepaper/ja/h27/html/nc372110.html
⾳声インターフェイス: Siri、しゃべってコンシェル、
⾳声アシスト
33
https://www.apple.com/jp/ios/siri/ http://v-assist.yahoo.co.jp/
https://www.nttdocomo.co.jp/service/information/shabette_concier/
スマートフォン時代にブレークした技術(1/2)
l 予測⼊⼒
l 1970年代にはアイデアがあったが、PC向けには普及
しなかった
l 携帯電話の普及に合わせて普及
l ⾳声⼊⼒
l ⾳声⼊⼒ソフトは2000年前後に⼀⻫に発売されたが、
結局キーボードを置き換えなかった
l ところが、スマホからの⾳声検索や⾳声インター
フェースになって花開く
34
スマートフォン時代にブレークした技術(2/2)
l 情報収集技術
l RSSリーダーをはじめ、情報収集アプリは2000年台
前半には存在した
l ⼤々的に普及するようになったのはつい最近
l 機械翻訳(これから)
l 機械翻訳ソフトは2000年前後に⼀⻫に発売されたが、
結局普及しなかった
l ⼗分な翻訳リソースの得られない旅⾏シーンなどで
役に⽴つはず
35
デバイスの変化と特質の変化
36
入力の
自由度
出力の
自由度 即応性 常備性
不⾃由な⼊出⼒ いつも持っている
ブレークした技術はデバイスの特徴を捉えている
l 予測⼊⼒
l 不⾃由な携帯電話の⼊⼒インターフェース
l ⾳声⼊⼒
l 不⾃由な携帯電話の⼊⼒インターフェース
l 検索などの短いクエリーの⼊⼒をサポート
l 情報収集技術
l 細かい検索条件を⼊⼒しなくていい
l 開いた時間に利⽤する
l 機械翻訳
l ⽇常の最低限の翻訳が必要なときつかえる
37
38
対話するのはロボットだけではない
39
http://www.pcworld.com/article/2865478/mercedes-
benzs-f015-concept-is-a-self-driving-hydrogen-
powered-living-room.html
制限されたデバイスではコンテキストを読む必要が
ある
l 細かい条件の⼊⼒はより困難になる
l 利⽤者の状況を読み取り、補完する必要がある
40
天気
予定
所持金
時間
インターフェースとしての⾃然⾔語
l コトバは⼈間に情報を伝える重要なツール
l ⾳声のデータは、⽂字におこして初めて理解できる
l 映像情報のままでは検索もままならない
l ヒトの存在する限り重要性は変わらない
l ⼈間とのインターフェースとして必要性がなくなる
ことはない
l 逆にヒトが排除されて⾃動化されていく領域では、
コトバの重要度が下がる可能性もある
41
42
村⼭富市⾸相は年頭にあたり
⾸相官邸で内閣記者会と・・・
l 1995年1⽉2⽇の毎⽇新聞の記事
l 最も有名なNLPのデータである京⼤コーパスの⼀節
時代とともにデータが変化してきた
l ~90年台
l 新聞記事,社内⽂書
l ~2000年台
l インターネットの普及,Web記事
l CGMデータの出現
l ~2010年代
l SNSデータ
l スマートフォンの普及
l ~今
l チャットアプリの普及
l ⾳声対話ロボット
43
l データの総量が急増
l 書き⼿の数が急増
l ⽂体がチャット⾔葉・話し⾔葉へ
44
書き⾔葉と話し⾔葉の⽐較
書き⾔葉
l 余計な単語が少ない
l ⽐較的⽂が⻑く,複雑な
構造をとることもある
l ⼀⽂でも複雑な情報を表
現する
話し⾔葉
l ⾔い間違いや⾔いよどみ
l ⽂は短く,単純
l 単体では意味をなさない
発話も多く,複数の発話
の関係が重要になる
45
話し⾔葉やチャット⾔葉こそ深層学習が⽣きる(か
もしれない)
l ⾔いよどみや崩れた表現などのせいで,既存の
解析器は機能しづらい
l 構造が単純なので複雑な情報抽出よりも,多様
な表現にロバストなことが求められる
46
1. 1歳
2. 3歳
3. 5歳
4. 10歳
47
「⼈⼯知能」の⾔語の理解度は何歳?
PFDeNAでの取り組み
まず,コミュニケーションできることを⽬指す
48
短い発話の意図をある程度識別できる
49
50
まとめ
l 年によって技術トレンドが変わっている
l 深層学習の利点は⼀気通貫の学習と,表
現の学習ができること
l 基礎から応⽤へ,書き⾔葉から話し⾔葉
へ
51

深層学習による機械とのコミュニケーション