Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Lecture univ.tokyo 2017_okanohara

3,487 views

Published on

Lecture at the Univ. of Tokyo, 2017.

Published in: Technology
  • Follow the link, new dating source: ♥♥♥ http://bit.ly/2F7hN3u ♥♥♥
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Dating for everyone is here: ❶❶❶ http://bit.ly/2F7hN3u ❶❶❶
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here

Lecture univ.tokyo 2017_okanohara

  1. 1. 実世界の人工知能 自動運転、ロボット ライフサイエンス、アートクリエーション Preferred Networks 岡野原 大輔 hillbig@preferred.jp 2017/06/21 東京大学先端技術特別講義
  2. 2. 会社紹介:Preferred Networks, Inc. (PFN)  設 立:2014年3月  所在地:東京都千代田区大手町(日本)、カリフォルニア州サンマテオ(米国)  取締役:西川 徹、岡野原 大輔、長谷川 順一  出資者:NTT(2014年)、Fanuc(2015年)、Toyota(2015年)  従業員:約90人 殆どが研究者、エンジニア  ミッション: IoT時代に向けた分散知能を備える新しいコンピュータを創造する  事業内容: IoT(Internet of Things) + 分散機械学習 ⁃ 交通システム ⁃ 産業用ロボット ⁃ バイオヘルスケア 2 We are hiring!!
  3. 3. Preferred Networks’ positioning in AI: Industrial IoT Humanoid Robot Consumer Industrial Cloud Device PhotoGameText Speech Infrastructure Factory Robot Automotive Healthcare Smart City Industry4.0 Industrial IoT
  4. 4. Our Strategic Partners and Collaborators
  5. 5. 5 人工知能の話しの前に 人工知能と飛行機(1/3)  飛行機は鳥や虫とは違う仕組みで実現されているが、 「空を飛ぶ」という目的は達成している ⁃ 鳥の羽、胸筋のような高機能なハードウェアはまだ作れない ⁃ しかし、別の機構(プロペラ、ジェットエンジン) を使って鳥よりも速く遠くへ飛ぶことが可能 ⁃ 実現可能な機能、またその難易度は違う。例えば、 ハチドリのように自由自在に飛び回ることはできない  人工知能も人の知能とは違う仕組みで実現されているが 「知能」的なタスクを実現する目的は達成しつつある ⁃ 必ずしも人の知能レベルを全て実現しなくても役に立つ ⁃ 難易度が違うことを理解しなければいけない
  6. 6. 6 人工知能と飛行機(2/3)  今の人工知能は大雑把に言えば大人の知能と乳児の知能 で構成される ⁃ 機械は元々、記憶、数値計算、大量のシミュレーションといった能力は優 れている(大人の知能) ⁃ 一方、深層学習により人間が無意識で解き、(演繹的なアプローチで実現 が難しかった)タスクも2〜3歳児程度は実現されるようになった(乳児の 知能) ⁃ 大人の知能と乳児の知能が混載している  実現している仕組みが違うため、人にとって難しい問題を容易に 解き、易しい問題を逆に解くことができない ⁃ これを理解した上で実用化をしないといけない
  7. 7. 7 人工知能と飛行機(3/3)  飛行機は現在の飛行機の登場(ライト兄弟 1903年)から 約10年で定期旅客機が登場し、航空機業界が誕生した ⁃ 現在年間のべ25億人が搭乗し、鳥と同様に空を飛び回っている ⁃ 鳥のように飛ぶロボットもようやく登場しつつある  人工知能も同様に、今後数年で新しい分野を生み出し、 人間の可能性を大きく伸ばしていくことが期待される ⁃ 実用化(=一般の人が当たり前のように利用する)までの時間は短くなっ ている ⁃ 人の知能の解明にはもう少し時間はかかりそう
  8. 8. 人工知能の仕組み
  9. 9. 9 代表的な学習手法  教師あり学習 ⁃ 入力xから出力yへの写像 y=f(x)を獲得する ⁃ 学習データは正解のペア{(x, y)}  教師なし学習 ⁃ データの隠れた構造を獲得する ⁃ 学習データはデータの集合{(xi)}  強化学習 ⁃ 環境において将来期待報酬を最大化する行動を獲得する ⁃ 学習データは自分がとった状態とその時の報酬{(x, ri)} [Doya 99]
  10. 10. ディープラーニング(深層学習)とは  層が深く、幅も広いニューラルネットワーク を利用した機械学習手法  2012年の大ブレーク以来、研究コミュニティ のみならず産業界に多く使われてきた  画像認識、音声認識、強化学習、自然言語処理 などで劇的な精度向上を果たし、その多くが既に実用化 されている 10 2014年の一般画像認識コンテストで優勝した 22層からなるのGoogLeNetの例 [Google 2014] *http://memkite.com/deep-learning-bibliography/
  11. 11. ディープラーニングの基本計算 11  下層の入力xを重み付きで足しあわせた後に活性化関数hをかけ て出力 – Wiがモデルパラメータであり、重みと呼ばれる x1 x2 x3 +1 w1 w2 w3 w4 h = a(x1w1+x2w2+x3w3+w4) h aの例 ReLU: h(x) = max(0, x) a : 活性化関数 バイアス項 活性化関数には、ReLUなど勾配消失問題を 回避できる区分線形関数が多く使われる
  12. 12. ディープラーニングの基本計算 12  先ほどの基本計算を何層にも繰り返して出力yを求める x1 x2 x3 +1 + 1 + 1 y 深いレイヤーはパーツを組み合わせた 総合的かつ抽象的な情報
  13. 13. 例: 入力でみると、各層毎に入力が変形されていく 13 https://colah.github.io/posts/2014-03-NN-Manifolds-Topology/
  14. 14. ディープラーニングの学習 (1/4)  正解ラベルとの違いからエラーlを求める ⁃ 例:回帰:l(y, y*)= (y – y*)2  目標:Iが小さくなるように各パラメータ{wi}を調整する  問題:各重みをどのように調整すればよいか? → 誤差逆伝播法 x1 x2 x3 +1 +1 +1 正解の出力 ly y*
  15. 15. 15 ディープラーニングの学習 (2/4) 歯車の例(誤差逆伝播法を理解するため)  問: Aを1回転させるとDは何回転するか?  Cを1回転させるとDは16/12回転 ⁃ これを dD / dC = 16/12 と書く(Cをd動かすとDは16/12d動く)  Bを1回転させると,dC / dB = 8/16のため,dD/dB =(16/12)(8/16)=8/12  dD/dA = (dD/dC)*(dC/dB)*(dB/dA) =10/12 答え: 10/12回転 A B C 歯の数が10 8 16 D 12
  16. 16. ディープラーニングの学習 (3/4) 誤差逆伝播法  出力からエラーの勾配をデータの流れとは逆に流す – 出力を変えたら、最終目標lがどのように変わるか – 各パラメータについての勾配を正確に求められる x1 x2 x3 +1 r s ly y* yを動かしたら lがどのように 変わるのか sを動かしたら lがどのように変 わるのか wを動かしたら lがどのように変 わるのか w =r
  17. 17. 17 ディープラーニングの学習 (4/4) 確率的勾配降下法  目的関数L(θ)のθについての勾配 v = ∂L(θ)/∂θ は誤差逆伝播法で効率的に求められる ⁃ Lはタスクを間違えた時に正の値、正しい時0をとる関数 ⁃ -vはL(θ)を最も急激に小さくできる方向  データ毎に θt+1 := θt – αvt と更新 ⁃ α>0 は学習率 ⁃ 曲率などを考慮したAdamやRMSPropなどが使われる パラメータ空間 目的関数の等高線 -αv1 θ 1 θ 2
  18. 18. 18 誤差逆伝播法は強力  誤差逆伝播法は最終的な目的関数の各パラメータや入力についての 勾配を正確に求められる ⁃ ある目的関数の値を変えるために各パラメータをどれだけ動かせばよいの かが正確にわかる  誤差逆伝播法は前向き計算と同じ計算量 ⁃ パラメータ数に対して計算量は線形  どれだけ複雑な計算グラフであっても計算できる ⁃ 1000層を超えても,ループがあっても、分岐があっても大丈夫  確率層,つまり確率変数のサンプリングを含んでも誤差逆伝播法を 使って勾配を求められる⇒次章以降
  19. 19. なぜディープラーニングがうまくいくのか?  解明されていない謎が徐々に解けつつある  NNの最適化問題は非凸であり極小解にはまる →大きなNNでは殆ど全ての極小解は最適解 [Nguyen+ 17]  なぜDNNの汎化性能が高いか?パラメータ数が学習事例に対し多い のに過学習しないのか →SGDによる最適化はベイズ最適化に対応し良い汎化性能を持つ [Hoffman+ 17] SGDにより見つかる解はMDLに対応 [Hinton+ 93], [Hochreiter+ 97] GDにより見つかる解は核型ノルムが最少 [Gunasekar+ 17]  自然界にみられるデータが備える特徴とDNNのモデルが一致する [Lin+ 16] ⁃ 低次性、局所相互作用性、対称性、マルコフ性 19/50
  20. 20. 深層学習 = 表現学習、一貫学習(end-to-end学習)  データをどのように表現するか(表現学習)  全モジュールを誤差逆伝播法で一貫して学習 ⁃ モジュール毎の局所最適化の問題がない ⁃ 信用割り当て問題(誰に間違った責任があるか)を自然に解く 20/50 特徴設計 ルール ・ プログラム タスクの学習 ルールベース 浅い機械学習 (決定木、RF、SVM、 ロジスティク回帰など) 深層学習 タスクの学習 表現学習 (特徴設計) 人手 データから自動獲得 一貫学習
  21. 21. 深層学習の特徴 マルチモーダル、マルチタスク学習が容易に  マルチモーダル* ˗ 異なる種類の入力を統合 ˗ 統合の仕方はNNが学習する  マルチタスク ˗ 異なるタスクを一緒に扱う ˗ 共通する特徴を学習できる 画像 テキスト ゲノム 入力データ タスクA B C *注:データで全モーダルが揃っている必要はない c.f. DropOut
  22. 22. 急激に複雑化するニューラルネットワーク 2012年〜2014年 22 AlexNet, Kryzyevsky+, 2012 ImageNet winner(8層) GoogLeNet, Szegedy+, 2014
  23. 23. 形は可変、多様な計算手法、つながり方 2015年〜現在 x_1 h y_1 x_2 h y_2 x_3 h y_3 t=1 t=2 t=3 x_4 h y_4t=4 BPTT length = 3 Input word OutputRecurrent state Stochastic Residual Net, Huang+, 2016 Recurrent NN FractalNet, Larsson+, 2016 RoR, Zhang+, 2016 23 Dense CNN, Huang+, 2016
  24. 24. 自動車
  25. 25. ロボット
  26. 26. 26 認識の問題は解けつつある  Occlusionがある場合や、対象が 小さくても検出できるように  APCでも画像認識が重要だった
  27. 27. 異常検知
  28. 28. 28 異常検知の難しさ:単一手法で様々な種類の正常状態と 異なるタイプの異常パターンに対応するのが困難  基本:特定の異常を見つけるために手法の選択や設定が必要 ⁃ 注目する特徴量 ⁃ センサー値の大小、周波数成分の大小、分布  人でもセンサの意味を理解したり異常を定義するのは難しい  疑問:もっと汎用的に使える異常検知手法はないか? ⁃ 例:下記異常を全て検出し、右の正常ケースでは無反応 正常ケース(2) 異常を含むケース(3) numenta/NABの人工ベンチマーク時系列データセット スパイク 異常振動 立ち上がり 失敗
  29. 29. 提案異常検知手法の特徴  正常なデータのみから異常検知モデルを作れる ⁃ 故障データは必要ない,教師なし学習 ⁃ 異常を検知後、実際の故障が発生するタイミングを予測するには 故障データが必要  生の高次元データをそのまま利用可能 ⁃ 人間による特徴設計は必要ない. 特に周波数解析後のスペクトルや画像などが利用可能  正規化された異常度スコア(尤度)を出力する ⁃ システムが正常だった場合に、そのセンサデータがどのぐらいの 確率で観測されるかを出力する  複数センサを組み合わせた異常検知が可能 29
  30. 30. 実例:FANUC減速器のセンサー異常検知 30 異常な部分を抽出する ディープラーニング技術 異常は発見されない 異常を検出 正常時の波形 異常時の波形 実際の減速機から得られた センサデータ
  31. 31. 31 既存手法で検出が遅かった異常を事前に検出 提案手法 経過時間 異常スコア 故障の約40日前に 故障予兆を捉える 判定閾値 既存手法 経過時間 ロボット 故障 ロボット 故障 15日前 故障直前まで スコアがほぼ 反応しない
  32. 32. バイオ・ヘルスケア
  33. 33. 乳がん検査の精度 90% 99% 80%マンモグラフィー リキッドバイオプシー (血液中のmicroRNA) [Shimomura+ Cancer Science 2016] リキッドバイオプシー + Deep Learning 33
  34. 34. ディープラーニングmiRNA診断のさらなる可能性  さらなるデータにより、13種のがんを一挙に正確に予測  良性、悪性のがんを見分ける  がんのステージ予測  miRNAはガンのみならず、様々な疾患を診断することが可能 アルツハイマー、心筋梗塞、脳卒中などの診断・予測  血中miRNA分析により、治療方針の決定や最適治療薬の選定など個 別化医療の強力な手法になりうる  がん向けの創薬につながる ⁃ どのmiRNAやその組み合わせの変化が、がんに影響を与えるか
  35. 35. 「人工知能(AI)を活用した統合的がん医療システム開発プロ ジェクト開始」2016/11/29 with 国立がん研究センター, 産総研AIセンター 臨床情報、マルチオミックスデータ、医用画像,、疫学データ を利用しPrecision Medicineの実現を目指す 35
  36. 36. ゲノム解析によるガンの診断、治療にフォーカス  なぜゲノム解析なのか ⁃ 客観的な情報で、データに基づく医療を実現できる ⁃ 情報量が多く、これまで見えなかった情報に基づいた診断ができる 特に、RNA解析,miRNA解析  なぜガンなのか ⁃ もっともゲノム解析がインパクトを与える領域、ゲノム変異がガンの本質 であり、それを解析することで診断、治療を大きく改善できる ⁃ 最も、個人化医療が進む、個人事にガン特異的変異は異なる また、ガン免疫の場合、個人毎にMHCも変わってくる 36
  37. 37. ディープラーニングによるガン診断の高度化  ゲノム情報に基づくガン診断,及び分子標的薬の効果予測の高度化 ⁃ ガンマーカー検出とフェーズの判定 ⁃ 治療効果の予測と治療方法の提案 ⁃ 従来の統計分析、機械学習では実現不可能だった少数サンプルからの推定 c.f. パラメータ数に対してサンプル数が少ない問題(新NP問題)  ディープラーニングの利用によって見込まれる効果 ⁃ ディープラーニングは、半教師あり学習が可能である。 →教師無しデータを使ってゲノム情報の表現を獲得する ⁃ ディープラーニングは、高次元データを扱える。 →非常に高次元なゲノム情報であっても、機械学習のための特徴設計が可 能である。 37
  38. 38. PFNがん研究所 (PCRI)  東京大学産業連携プラザ内に設立  PCRIでは、次世代シークエンサー を利用したウェットラボを立ち上げ、最新 最先端のAIとバイオテクノロジーの 研究・産業化を進めている 特に次の分野に注力 1)新規がん診断法の確立 2)ゲノム分析によるがん治療 方針の決定、最適治療薬の 選択や術後の予測、 3)それぞれの患者に適応した 個別化創薬 3 8 2016年10月3日設立
  39. 39. コミュニケーション
  40. 40. 40 社内での対話システムの実験の様子 からの抜粋(bot-elikaが対話システム) 直前の言葉に反応できている 文の意味や文脈は理解できていない
  41. 41. 41 偶然それらしい会話に なることもある。
  42. 42. クリエーター
  43. 43. 画像の自動生成  Chainer-goph https://github.com/mattya/chainer-gogh  深層学習は 画像も生成できる  左の画像からスタイル だけを抽出し、ネコの 画像を生成 43
  44. 44. chainer-DCGAN 学習30分後 画像を0から生成するNN https://github.com/mattya/chainer-DCGAN 44
  45. 45. 学習2時間後 45
  46. 46. 学習1日後 46
  47. 47. GANによる花の生成例 47
  48. 48. 48 LSGANによる教会の生成例 [Mao+ 16]
  49. 49. 49 GANによる生成例 http://mtyka.github.io/machine/learning/2017/06/06/highres-gan-faces.html
  50. 50. 50 自然画像はまだ難しい 現在のVAEやGANは 1発で生成しているが 複数物体、前景/背景 が含まれる場合は困難か
  51. 51. 51 PaintsChainer (#PaintsChainer)  線画に着色する学習をしたNN  U-Net+絵の拡大の学習  1日あたり最初は20〜30万枚、現在でも2〜3万枚の線画 が着色されている http://free-illustrations.gatag.net/2014/01/10/220000.html
  52. 52. 52 PaintsChainerの例(風景画像)  @munashihciさんのtweetより引用
  53. 53. 53
  54. 54. 今後の展望 PFNの取り組みより
  55. 55. 今後の競争は様々なところでおきる 0101011100011 学習データ 計算リソース 学習済みモデル 学習アルゴリズム 学習理論 実装(DNNフレームワーク) 55
  56. 56. 今後の競争は様々なところでおきる 0101011100011 学習データ 計算リソース 学習済みモデル 学習アルゴリズム 学習理論 実装(DNNフレームワーク) 56
  57. 57. 57 学習データをどのように集めるか  重要で大量のデータをいかに集めるか  ライフサイエンスの事例:Grail ⁃ Illumina発のスタートアップ、GoogleX, Illumina取締役の Jeff HuberがCEO、アドバイザに各分野の重要人物 ⁃ $900millionをシリーズBで調達し、がんの血液検査(Liquid Biopsy)によ る早期発見を実現するために数十万人の患者のゲノムデータを集める  技術を組み合せ工夫して、データの数を増やせるか? ⁃ 例えばiPS細胞+ゲノム編集+Single Cell+次世代シーケンサ を使った疾病モデルの網羅解析  時間解像度をどのようにあげられるか? ⁃ 現状多くのライフサイエンスデータはスナップショット
  58. 58. 今後の競争は様々なところでおきる 0101011100011 学習データ 計算リソース 学習済みモデル 学習アルゴリズム 学習理論 実装(DNNフレームワーク) 58
  59. 59. 59 今後の機械学習/深層学習が必要とする計算リソース 1E〜100E Flops 自動運転車1台あたり1日 1TB 10台〜1000台, 100日分の走行データの学習 バイオ・ヘルスケア 音声認識 ロボット/ドローン 10P〜 Flops 1万人の5000時間分の音声データ 人工的に生成された10万時間の 音声データを基に学習 [Baidu 2015] 100P 〜 1E Flops 一人あたりゲノム解析で約10M個のSNPs 100万人で100PFlops、1億人で1EFlops 10P(画像) 〜 10E(映像) Flops 学習データ:1億枚の画像 10000クラス分類 数千ノードで6ヶ月 [Google 2015] 画像/ 映像認識 1E〜100E Flops 1台あたり年間1TB 100万台〜1億台から得られた データで学習する場合 自動運転 10PF 100EF100PF 1EF 10EF P:Peta E:Exa F:Flops 機械学習、深層学習は学習データが大きいほど高精度になる 現在は人が生み出したデータが対象だが、今後は機械が生み出すデータが対象となる 各種推定値は1GBの学習データに対して1日で学習するためには 1TFlops必要だとして計算 学習を1日で終わらせるのに必要な計算リソース
  60. 60. PFNも独自の計算インフラを構築中  現状の計算環境 ⁃ 現在トータル2ペタflops程度(200GPU) @さくらインターネット高火力 ⁃ 今年に10ペタflops(1000GPU)相当まで拡大する想定 ⁃ 参考:京コンピュータ 10ペタ Flops(倍精度, 2012年) Baidu Minwa 0.6ペタ Flops (2015年) Googleは現在数万GPU(>100PF)を使っていると推定  深層学習専用チップを開発中 ⁃ 2019年頃にトータルで1エクサ DL opsを目指す  クラウド環境か?自分で構築するか? ⁃ 現状GPU+分散計算はHPCに近くクラウド環境からは遠い 60
  61. 61. 今後の競争は様々なところでおきる 0101011100011 学習データ 計算リソース 学習済みモデル 学習アルゴリズム 学習理論 実装(DNNフレームワーク) 61
  62. 62. Chainer as an open-source project  https://github.com/pfnet/chainer  101 contributors  2,128 stars & 564 fork  7,335 commits  Active development & release ⁃ v1.0.0 (June 2015) to v1.20.1 (January 2017) 62 Original developer Seiya Tokui
  63. 63. Popularity Growth 63
  64. 64. Define-by-Run # 構築 x = Variable(‘x’) y = Variable(‘y’) z = x + 2 * y # 評価 for xi, yi in data: eval(z, (xi, yi)) # 構築と評価が同時 for xi, yi in data: x = Variable(xi) y = Variable(yi) z = x + 2 * y データを見ながら 違う処理をしてもよい Define-and-Run Define-by-Run 64
  65. 65. Chainer v2.0.0 大幅なメモリ消費量削減、ユーザフィードバックを反映し APIを整理 https://cupy.chainer.org https://chainer.org 65
  66. 66. Chainerの追加パッケージ 分散深層学習・深層強化学習・コンピュータビジョン ChainerMN: 分散深層学習用追加パッケージ 高いスケーラビリティ(128GPUで100倍の高速化) ChainerRL: 深層強化学習ライブラリ DQN, DDPG, A3C, ACER, NSQ, PCL, etc. OpenAI Gym サポート ChainerCV: 画像認識アルゴリズム・データセットラッパーを提供 Faster R-CNN, Single Shot Multibox Detector (SSD), SegNet, etc. MN RL CV 分散学習 強化学習 画像認識
  67. 67. 67 ChainerMN マルチノード分散学習 Imagenetの学習が20日超から4.4時間に ChainerMN developer Takuya Akiba
  68. 68. 68 分散・高速化しても精度は変わらない
  69. 69. 今後の競争は様々なところでおきる 0101011100011 学習データ 計算リソース 学習済みモデル 学習アルゴリズム 学習理論 実装(DNNフレームワーク) 69
  70. 70. 半教師あり学習 VAT:仮想敵対事例学習[Miyato+ 16]  現在の半教師あり学習の最高精度* ⁃ 大量の教師なしデータと少量の教師ありで学習 Takeru Miyato * CIFAR-10, SVHNを含んだ実験結果は投稿準備中 70
  71. 71. 教師なし学習 [Hu+ 17] IMSAT: VATにさらに情報量最大基準を組み合わせて 離散値への教師なし符号化を行う 現在の教師なしクラスタリング、Hash学習の 最高精度 2016夏 PFN Internでの成果 71
  72. 72. 学習アルゴリズム、学習理論  多くは論文としてコミュニティで共有されている ⁃ 1日10〜30本、年間数千本〜1万本、主にarXivで見つかる ⁃ インターンが様々な企業を渡り歩いて成果をあげてるのも特徴  実用化は様々な分野で同時多発的に起きている ⁃ 実用化されている分野は技術、ノウハウの公開は限定的 ⁃ 公開されている研究技術よりかなり先に進んでいる分野も多い  論文にならないノウハウが急速に蓄積されている ⁃ 現状、深層学習では様々なノウハウが差別化になっている 例:GANの学習は非常に不安定 ⁃ ハイパーパラメータ、モデル選択、学習手法、選択など 72
  73. 73. まとめ  深層学習・強化学習の進化は著しい ⁃ 新しい理論、新しいアルゴリズム、新しいソフトウェア ⁃ 世界中で同時多発的に進化が起きている  深層学習は様々な分野で利用されていく ⁃ 想像しなかったアプリケーションも増えている ⁃ 様々な分野で速く試行錯誤するのが大切  研究と実用化とビジネス化が同時に起こっている ⁃ 実用レベルになってからビジネス化が速い(例 Amazon Alexa) ⁃ 研究の段階から実用化、ビジネス化のチームが付き添うのが重要 73

×