実世界の⼈人⼯工知能
Preferred  Networks
岡野原 ⼤大輔
hillbig@preferred.jp
2017/2/10  @DeNA TechCon
アジェンダ
l 会社紹介
l 深層学習と⼈人⼯工知能
l 実世界の事例例(今⽇日紹介する事例例は殆どが弊社の事例例です)
̶— ⾃自動⾞車車
̶— ロボット
̶— バイオ・ヘルスケア
̶— クリエーター
̶— コミュニケーション
l Chainer
̶— ChainerMN:  分散学習
会社紹介:Preferred Networks (PFN)
l IoT時代に合わせた分散知能を備えた新しいコンピュータを創造する
l 2014年年3⽉月創業
l 東京オフィス,  シリコンバレーオフィス
l 従業員:約60⼈人 殆どが研究者、エンジニア
l 主な出資者 FANUC,  Toyota,  NTT
3
AutomotiveHumanoid  Robot
Preferred Networks’ positioning in AI: Industrial IoT
4
Consumer Industrial
Cloud
Device
PhotoGame
Text
Speech
Infrastructure
Factory
Robot
Automotive
Healthcare
Smart  City
Industry4.0
Industrial IoT
ディープラーニング(深層学習)とは
l 層が深く、幅も広いニューラルネットワーク
を利利⽤用した機械学習⼿手法
l 2012年年の⼤大ブレーク以来、研究コミュニティ
のみならず産業界に多く使われてきた
– 2014〜~2015年年中に出された関連論論⽂文数は1500を超える*
l 画像認識識、⾳音声認識識などで劇的な精度度向上を果たし、そ
の多くが既に実⽤用化されている
5
2014年の一般画像認識コンテストで優勝した
22層からなるのGoogLeNetの例 [Google 2014]
*http://memkite.com/deep-‐‑‒learning-‐‑‒bibliography/
急激に複雑化するニューラルネットワーク
2012年年〜~2014年年
6
AlexNet, Kryzyevsky+, 2012 ImageNet winner(8層)
GoogLeNet, Szegedy+, 2014
形は可変、多様な計算⼿手法、つながり⽅方
2015年年〜~現在
x_1 h y_1
x_2 h y_2
x_3 h y_3
	
x_4 h y_4
BPTT	length	=	3
Input	word OutputRecurrent	state
Stochastic Residual Net, Huang+, 2016
Recurrent NN
FractalNet, Larsson+, 2016
RoR, Zhang+, 2016 7
Dense CNN, Huang+, 2016
⾃自動⾞車車
ロボット
認識識の問題は解けつつある
l Occlusionがある場合や、対象が
⼩小さくても検出できるように
l APCでも画像認識識が重要だった
異異常検知
12
異異常検知の難しさ:単⼀一⼿手法で様々な種類の正常状態と
異異なるタイプの異異常パターンに対応するのが困難
l 基本:特定の異異常を⾒見見つけるために⼿手法の選択や設定が必要
̶— 注⽬目する特徴量量
u センサー値の⼤大⼩小、周波数成分の⼤大⼩小、分布
l ⼈人でもセンサの意味を理理解したり異異常を定義
するのは難しい
l 疑問:もっと汎⽤用的に使える異異常検知⼿手法はないか?
̶— 例例:下記異異常を全て検出し、右の正常ケースでは無反応
正常ケース(2)
異異常を含むケース(3)
numenta/NABの人工ベンチマーク時系列データセット
スパイク
異異常振動
⽴立立ち上がり
失敗
提案異異常検知⼿手法の特徴
l 正常なデータのみから異異常検知モデルを作れる
̶— 故障データは必要ない,教師なし学習
̶— 異異常を検知後、実際の故障が発⽣生するタイミングを予測するに
は故障データが必要
l ⽣生の⾼高次元データをそのまま利利⽤用可能
̶— ⼈人間による特徴設計は必要ない.
特に周波数解析後のスペクトルや画像などが利利⽤用可能
l 正規化された異異常度度スコア(尤度度)を出⼒力力する
̶— システムが正常だった場合に、そのセンサデータがどのぐらい
の確率率率で観測されるかを出⼒力力する
l 複数センサを組み合わせた異異常検知が可能
13
実例例:FANUC減速器のセンサー異異常検知
14
異異常な部分を抽出する
ディープラーニング技術
異異常は発⾒見見されない
異異常を検出
正常時の波形 異異常時の波形
実際の減速機から得られた
センサデータ
15
既存⼿手法で検出が遅かった異異常を事前に検出
提案⼿手法
経過時間
異異常スコア
故障の約40⽇日前に
故障予兆を捉える
判定閾値
既存⼿手法
経過時間
ロボット
故障
ロボット
故障 15⽇日前
故障直前まで
スコアがほぼ
反応しない
バイオ・ヘルスケア
乳がん検査の精度度
90%
99%
80%マンモグラフィー
リキッドバイオプシー
(血液中のmicroRNA)
[Shimomura+ Cancer Science 2016]
リキッドバイオプシー
+
Deep Learning
ディープラーニングmiRNA診断のさらなる可能性
l さらなるデータにより、13種のがんを⼀一挙に正確に予測
l 良良性、悪性のがんを⾒見見分ける
l がんのステージ予測
l miRNAはガンのみならず、様々な疾患を診断することが可能
アルツハイマー、⼼心筋梗塞塞、脳卒中などの診断・予測
l ⾎血中miRNA分析により、治療療⽅方針の決定や最適治療療薬の選定など個別
化医療療の強⼒力力な⼿手法になりうる
l がん向けの創薬につながる
̶— どのmiRNAやその組み合わせの変化が、がんに影響を与えるか
「⼈人⼯工知能(AI)を活⽤用した統合的がん医療療システム開発
プロジェクト開始」2016/11/29
with 国⽴立立がん研究センター, 産総研AIセンター
臨臨床情報、マルチオミックスデータ、医⽤用画像,、疫学デー
タを利利⽤用しPrecision Medicineの実現を⽬目指す
19
ゲノム解析によるガンの診断、治療療にフォーカス
l なぜゲノム解析なのか
̶— 客観的な情報で、データに基づく医療療を実現できる
̶— 情報量量が多く、これまで⾒見見えなかった情報に基づいた診断がで
きる
u 特に、RNA解析,miRNA解析
l なぜガンなのか
̶— もっともゲノム解析がインパクトを与える領領域、ゲノム変異異が
ガンの本質であり、それを解析することで診断、治療療を⼤大きく
改善できる
̶— 最も、個⼈人化医療療が進む、個⼈人事にガン特異異的変異異は異異なる
また、ガン免疫の場合、個⼈人毎にMHCも変わってくる
20
ディープラーニングによるガン診断の⾼高度度化
l ゲノム情報に基づくガン診断,及び分⼦子標的薬の効果予測
の⾼高度度化
̶— ガンマーカー検出とフェーズの判定
̶— 治療療効果の予測と治療療⽅方法の提案
̶— 従来の統計分析、機械学習では実現不不可能だった少数サンプルから
の推定
c.f.  パラメータ数に対してサンプル数が少ない問題(新NP問題)
l ディープラーニングの利利⽤用によって⾒見見込まれる効果
̶— ディープラーニングは、半教師あり学習が可能である。
→教師無しデータを使ってゲノム情報の表現を獲得する
̶— ディープラーニングは、⾼高次元データを扱える。
→⾮非常に⾼高次元なゲノム情報であっても、機械学習のための特徴設
計が可能である。
21
PFNがん研究所 (PCRI)
l 東京⼤大学産業連携プラザ内に設⽴立立
l PCRIでは、次世代シークエンサー
を利利⽤用したウェットラボを⽴立立ち上げ、最新
最先端のAIとバイオテクノロジーの
研究・産業化を進めている
特に次の分野に注⼒力力します
1)新規がん診断法の確⽴立立
2)ゲノム分析によるがん治療療
⽅方針の決定、最適治療療薬の
選択や術後の予測、
3)それぞれの患者に適応した
個別化創薬
22
2016年年10⽉月3⽇日設⽴立立
コミュニケーション
(詳しくはこの後の海野のセッションで)
社内での対話システムの実験の様⼦子
からの抜粋(bot-‐‑‒elikaが対話システム)
直前の⾔言葉葉に反応できている
⽂文の意味や⽂文脈は理理解できていない
偶然それらしい会話に
なることもある。
クリエーター
画像の⾃自動⽣生成
l Chainer-­goph
https://github.com/mattya/chainer-­gogh
l 深層学習は
画像も⽣生成できる
l 左の画像からスタイル
だけを抽出し、ネコの
画像を⽣生成
27
chainer-DCGAN 学習30分後
画像を0から⽣生成するNN
https://github.com/mattya/chainer-DCGAN
28
学習2時間後
29
学習1⽇日後
30
⽣生成の最前線
l 先程の結果
から1年年後
様々な改良良
別⼿手法
⾃自然画像はまだ難しい
現在のVAEやGANは
1発で生成しているが
複数物体、前景/背景
が含まれる場合は困難か
PaintsChainer (#PaintsChainer)
l 線画に着⾊色する学習をしたNN
l U-­Net+絵の拡⼤大の学習
l 1⽇日あたり最初は20〜~30万枚、現在でも2〜~3万枚の線画
が着⾊色されている http://free-illustrations.gatag.net/2014/01/10/220000.html
PaintsChainerの例例(⾵風景画像)
l @munashihciさんのtweetより引⽤用
Chainer
Chainer as an open-source project
l https://github.com/pfnet/chainer
l 101  contributors
l 2,128  stars  &  564  fork
l 7,335  commits
l Active  development  &  release  
̶— v1.0.0  (June  2015)  to    v1.20.1  (January  2017)
38
Original developer
Seiya Tokui
ChainerMN マルチノード分散学習
Imagenetの学習が20⽇日超から4.4時間に
分散・⾼高速化しても精度度は変わらない
41
今後の機械学習/深層学習が必要とする計算リソース
1E〜100E Flops
⾃自動運転⾞車車1台あたり1⽇日 1TB
10台〜~1000台,  100⽇日分の⾛走⾏行行データの学習
バイオ・ヘルスケア
⾳音声認識識 ロボット/ドローン
10P〜~ Flops
1万⼈人の5000時間分の⾳音声データ
⼈人⼯工的に⽣生成された10万時間の
⾳音声データを基に学習 [Baidu 2015]
100P  〜 1E Flops
⼀一⼈人あたりゲノム解析で約10M個のSNPs
100万⼈人で100PFlops、1億⼈人で1EFlops
10P(画像)  〜~ 10E(映像) Flops
学習データ:1億枚の画像 10000クラス分類
数千ノードで6ヶ⽉月 [Google  2015]
画像/
映像認識識
1E〜~100E Flops
1台あたり年間1TB
100万台〜1億台から得られた
データで学習する場合
⾃自動運転
10PF 100EF100PF 1EF 10EF
P:Peta  
E:Exa
F:Flops
機械学習、深層学習は学習データが大きいほど高精度になる
現在は人が生み出したデータが対象だが、今後は機械が生み出すデータが対象となる
各種推定値は1GBの学習データに対して1日で学習するためには
1TFlops必要だとして計算
学習を1⽇日で終わらせるのに必要な計算リソース
まとめ
まとめ
l 深層学習・強化学習の進化は著しい
̶— 新しい理理論論、新しいアルゴリズム、新しいソフトウェア
̶— 世界中で同時多発的に進化が起きている
l 深層学習は様々な分野で利利⽤用されていく
̶— 想像しなかったアプリケーションも増えている
̶— 様々な分野で速く試⾏行行錯誤するのが⼤大切切
l 研究と実⽤用化とビジネス化が同時に起こっている
̶— 実⽤用レベルになってからビジネス化が速い(例例 Amazon  Alexa)
̶— 研究の段階から実⽤用化、ビジネス化のチームが付き添うのが重要

実世界の人工知能@DeNA TechCon 2017