Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

InfoTalk#126 「人工知能の最先端と音の技術」

319 views

Published on

InfoTalk#126で使用した講演資料です。
日本人の企業の方向けの人工知能の基礎知識と実用例解説です。
具体的な理論や実装方法などは載っていません。

Published in: Data & Analytics
  • Be the first to comment

InfoTalk#126 「人工知能の最先端と音の技術」

  1. 1. InfoTalk#126 人工知能の最先端と音の技術 産業技術大学院大学 助教 柴田 淳司 2019/6/21 1
  2. 2. 目次 ⊳今までの人工知能 ⊳ 人工知能の歴史 ⊳ 人工知能研究とブーム ⊳人工知能の最先端 ⊳ 今ある人工知能技術とそのサービス ⊳ 研究者が見る人工知能の課題と将来 ⊳「音」の技術 ⊳ 音の関わる研究 ⊳ 音の人工知能技術 2019/6/21 2
  3. 3. 今までの人工知能 2019/6/21 3
  4. 4. 2019/6/21 4 人工知能と聞いて 思い浮かべる言葉は? Sli.doを使って答えてください。 複数回答可です。
  5. 5. データマイニング 機械学習 「人工知能」と呼ばれる技術(一部) 5参考:人工知能学会 情報検索 ロボット マルチエージェント 遺伝的アルゴリズム ニューラル ネットワーク 音声認識 ゲーム ヒューマン インターフェース エキスパートシステム 画像認識 推論 知識表現 自然言語理解 応用 基礎
  6. 6. 人工知能とは? ⊳人工知能の意味(各種辞書より) 2019/6/21 6 人間の知的機能を備えた人造のシステム 脳みそ 記憶 判断 推論 学習 認識 人工知能??? 人工的に再現
  7. 7. 人工知能の歴史 1960 1970 1980 1990 2000 2010 ⊳人工知能の誕生 ⊳第1次ブーム ⊳1st冬の時代 ⊳第2次ブーム ⊳2nd冬の時代 ⊳第3次ブーム エキスパートシステム 技術開花 機械学習・ニューラル ネット・その他いろいろ 深層学習 2019/6/21 7
  8. 8. 人工知能登場前の時代背景 2019/6/21 8 ⊳電子計算機 ⊳ 電子化した自動計算機器 ⊳ いわゆるコンピュータ ⊳電子計算機の用途 ⊳ 数値計算 ⊳ 情報処理 ⊳ 文章作成 ⊳ 動画編集 ⊳ 各種作業の自動化 ENIAC, 1946 タビュレーティングマシン, 1890 「人」の自動化へ 期待が高まる
  9. 9. 第1次人工知能ブーム(1950-1970) 1940 1950 1960 1940年代:実用的なデジタル計算機の登場 ・ウィーナー:サイバネティクス ・シャノン:情報理論 ・チューリング:チューリングマシン 今後基盤となるような研究の提案 1951:ゲームAIと機械学習 1957:パーセプトロン 1960s:進化的アルゴリズム 1956:人工知能(Artificial Intelligence)命名 様々な成果 1966:ELIZA(チャットボット) 1968-1970:SHRDLU(自然言語処理、micro world) 1971:SharkeyとSTRIPS(手段目標分析) 人 工 知 能 の 発 生 黄 金 時 代 2019/6/21 9
  10. 10. チューリングテスト(1950) 2019/6/21 10 人間 端末越しの相手は人か否か? 端末 チューリングテストをパスする ≒人と同程度の知能を有する 壁 人か人工知能のどちらか
  11. 11. データマイニング 機械学習 当時発生した人工知能の主な研究と手法(一部) 11参考:人工知能学会 情報検索 ロボット マルチエージェント 遺伝的アルゴリズム ニューラル ネットワーク 音声認識 ゲーム ヒューマン インターフェース エキスパートシステム 画像認識 推論 知識表現 自然言語理解 応用 基礎
  12. 12. チャットボット ⊳1966, Weizenbaumが作成 ⊳来談者中心療法を模した会話 2019/6/21 12 Image from: http://www.scaruffi.com/mind/ai.html
  13. 13. ELIZA(1966)の仕組み ⊳データにある会話に対して定型文を返す ⊳データにない言葉に対して、定型文+相手の言葉を使って言い返す 2019/6/21 13 > Hello, I am Eliza. * Hi, I am Shibata. > Do you believe it is normal to be Shibata? S + V + C 定型文 入力の流用+
  14. 14. 1st 冬の時代(1974-1980) 2019/6/21 14 1970 1980 1966:ALPACのレポート 「機械翻訳は予算のわりに翻訳精度が低く、 人でやったほうが良い」 1970年代初頭:主要な研究費が軒並みカットされ始める 1973:Lighthill Report 「これまでの研究成果のほとんどは現実世界での 運用ができないおもちゃである」 様々な問題が指摘される 1976: Weizenbaum「人工知能信じすぎ」 1980:Searle「弱いAIと強いAI」 組み合わせ爆発、フレーム問題、中国語の部屋etc
  15. 15. 中国語の部屋(1980, Searle) 2019/6/21 15 人間 端末越しの相手は中国人か? 端末 辞書による対応では知能の証明にはならないのでは? 壁 完全な中国語の応答表を持った人
  16. 16. 批判の言葉と反省点 2019/6/21 16 ⊳批判の言葉 ⊳ 1966: ALPACのレポート 「機械翻訳は予算のわりに翻訳精度が低く、人でやったほうが良い」 ⊳ 1973:Lighthill Report おもちゃの問題(Toy Problem)しか解けず、現実的に運用不可 ⊳ 1980:Searle「弱いAIと強いAI」 強いAI:人の知能に迫り、代替できる存在 弱いAI:人の全認知能力を必要としない程度の問題を解けるAI 現実世界の問題(タスク)を対象とした研究へシフト
  17. 17. 第2次 人工知能ブーム(1980-1987) 2019/6/21 17 1980 1990 人工知能に予算が! 1981:第5世代コンピュータプロジェクトの開始 1972:Edward Feigenbaumにより 初期のエキスパートシステム「MYCIN」が作られる 1980: CMUの企業向けエキスパートシステム 「XCON」が年間400万ドルの利益創出に貢献 第2次ニューラルネットワークブーム 1982:ホップフィールドネットワーク 1986:誤差逆伝播法
  18. 18. エキスパートシステム 2019/6/21 18 sensor the room temp the body temp outer temp weather … if X, then is sign less than less than or equal equal more than or equal more than … behaivor turn on turn off change setting of … target A / C fan light … If-thenルールで知識を記述、動作を行うシステム 知識が蓄積するほど高精度の動作を行える 人工知能に疎くても知識の記述ができる メリット
  19. 19. 2nd 冬の時代(1987-1993) 2019/6/21 19 1980 1990 1980s後半:研究資金カット DARPA「AIはまだ次の波ではない」 1987:デスクトップ計算機の性能向上 相対的にLISPマシンの価値が低下し市場崩壊 1991:第5世代コンピュータプロジェクト 目的達成せず終了 エキスパートシステムそのものの課題 導入コスト・維持コスト・適用可能箇所が限定的
  20. 20. タスクとモデルの分離 2019/6/21 20 タスク モデル クラスタリング 分類 時系列予測 画像認識 可視化 音声認識 自然言語処理 回帰 線形回帰 SVM 決定木 ランダムフォレスト ロジスティック回帰 ニューラルネット RNN CNN 確率モデル推論 回帰
  21. 21. 第3次 人工知能ブーム(2012-) 2019/6/21 21 2010 2020 前々からの蓄積 1957: Neural Network, 1986: Back Propagation, 1988: Neo-cognitron 2012: 目に見える成果が出る ・ ILSVRCでDeep Learningが優勝 ・ Googleの猫画像 2006: Stacked Auto-encoderで特徴量を自動抽出 様々な研究機関・企業が参入 2014:Stanford One Hundred Year Study on AI 2015:企業が機械学習フレームワーク公開 2016:AlphaGOが囲碁でプロに勝利
  22. 22. 研究者間でのブームのきっかけ 2019/6/21 22 ⊳2012年LSVRCで深層学習が優勝 ⊳ LSVRC:Large Scale Visual Recognition Challenge 2012の略 大量の画像に何が映っているかを当てるコンテストerrorrate 大量のデータとリッチなモデルの 組み合わせが効く!
  23. 23. 世間一般におけるブームの始まり① 2019/6/21 23 ⊳2012年:Googleが猫を認識できるようなったと発表 入力画像 出力ラベル A: 97.1% B: 1.8% C: 1.1% …
  24. 24. 世間一般におけるブームの始まり② 2019/6/21 24 ⊳2016年3月:AlphaGOがプロ棋士に勝利
  25. 25. 深層学習の登場と社会の背景 2019/6/21 25 ⊳計算機の性能 ⊳ 高性能のコンピュータが安価で手に入るように ⊳ スパコンをインターネットを介してレンタルできるようになった ⊳情報量の爆発 ⊳ インターネットと端末の普及から、いたるところでデータが発生 ⊳ニーズ ⊳ ネットワークカメラや音声対話など、人が対応すべきものへの需要
  26. 26. 今の時代の研究領域 2019/6/21 26 ⊳大量のデータを準備 ⊳ 画像、音声、テキストなどインターネット上に多いデータ ⊳機械学習 ⊳ 人の「学習」という機能を再現する人工知能分野 ⊳ 近年ではニューラルネットワーク、強化学習、決定木などがよく使われる 大量なデータ + それを学習できる機械学習手法
  27. 27. ここまでのまとめ 2019/6/21 27 ⊳AIの歴史 ⊳ 人工知能ブームは3回目 ⊳ 手法とタスクに分かれて研究されている ⊳ブームの理由 ⊳ 周辺技術と社会による要因: ビッグデータと高性能の計算機環境 ⊳ 技術的要因: リッチなモデルをうまく学習する手法の確立 ⊳ ニーズ: 画像・音声・テキストを使ったサービスの需要
  28. 28. 人工知能の最先端 2019/6/21 28
  29. 29. 第3次人工知能ブーム以降できるようになったこと 2019/6/21 29 ⊳大量のデータ ⊳ 基本は画像、音声、動画、テキストなどが主流 ⊳ それ以外は既存とあまり変化なし ⊳識別/再現 ⊳ 識別:何かに分類/分類/検出する技術 ⊳ 再現:出力をもとに入力を再現する 大量のデータによる高性能の識別/再現
  30. 30. 識別モデル・生成モデル 2019/6/21 30 ⊳識別モデル (discriminative model) ⊳ 入力結果に対して分類などを行うモデルを作る ⊳生成モデル (generative model) ⊳ 入力結果に対して元のデータの分布などを行うモデルを作る ⊳ GAN(Generative Adversarial Network)やVAE(Variational Auto-Encoder)など
  31. 31. 識別モデル 2019/6/21 31 識別モデル 結果 sample 1: label A sample 2: label B sample 3: label C sample 4: label C sample 5: label B ・ ・ ・ 入力 sample 1 sample 2 sample 3 sample 4 sample 5 ・ ・ ・ 入力をもとに 識別する
  32. 32. 生成モデル 2019/6/21 32 データの生成 隠れた状態 label A label B label C label C label B ・ ・ ・ 入力 sample 1 sample 2 sample 3 sample 4 sample 5 ・ ・ ・ データ観測 このデータを 作った元を予測する
  33. 33. 生成モデルの例 2019/6/21 33 白黒画像から色を再現 https://digitalfan.jp/126973 テキストから画像を生成 https://tsunotsuno.hatenablog.com/entry/attngan
  34. 34. 応用例:画像に別の画像の特徴量をかぶせる 2019/6/21 34https://research.preferred.jp/2015/09/chainer-gogh/
  35. 35. 生成モデルの例:脳と人工知能 2019/6/21 35https://www.nature.com/articles/sdata201912 人が見たときの脳の反応 AIの識別 マッチングすることで 人の脳反応から 画像を再現
  36. 36. 今の研究者の研究スタイル ⊳研究題材 ⊳ タスクと手法に分けて研究 ⊳ 常に最新の手法と比較する必要あり ⊳成果報告 ⊳ 早く実装し、外部へ公表することが重要 ⊳ 有名国際会議 > 論文 > 国際会議、オープンアクセス論文、国内会議 2019/6/21 36 論文は出版まで 時間がかかる とりあえず公開 という選択肢
  37. 37. Tier 1 Conferences on AI and Data Science ⊳CVPR (Computer Vision and Pattern Recognition) ⊳NurIPS (Neural Information Processing Systems) ⊳ICML (International Conference on Machine Learning) ⊳AAAI (AAAI Conference on Artificial Intelligence) 2019/6/21 37 載せきれないのでその他省略
  38. 38. 社会の人工知能への関心の増加(NurIPSの例) 2019/6/21 38 2018年は 参加者8000人超
  39. 39. NurIPS2018のワードクラウド 2019/6/21 39 by TDAI lab
  40. 40. トレンド:AIの社会進出に関わる課題 2019/6/21 40 1. Robustness ⊳ セキュリティの話 2. Fairness ⊳ 公平さ ⊳ AIと差別問題 3. Explainability ⊳ 説明可能性 ⊳ 人に理解しやすいAI
  41. 41. 1.Robustness 2019/6/21 41 ⊳Robustnessの意味 ⊳ 頑健性、ただしロボットなどの分野の専門用語と被っているので注意 ⊳ 従来の頑健性: 外乱に負けず、安定している性質 ⊳ ここでいう頑健性: 外部からの敵対的な攻撃に対して堅牢な性質 ⊳敵対的な攻撃の種類 ⊳ 敵対的摂動 ⊳ データ汚染 ⊳ モデル逆推定 ⊳ モデル盗用
  42. 42. 敵対的な例:Adversarial Example 2019/6/21 42https://arxiv.org/abs/1412.6572 摂動(ノイズみたいなもの)を入れると 予測がgibbon(テナガザル)に!
  43. 43. 2.Fairness (公平さ) 2019/6/21 43 AIはデータ依存で結果を出す =必ずしも正しい結果を出すとは限らない GANで生成したものは学習時のデータを利用している https://arxiv.org/pdf/1710.05106.pdf
  44. 44. データによるバイアス:Amazonの女性採用AI 2019/6/21 44 “アマゾンは2014年頃から、スコットランドの首都・エディンバ ラにエンジニアチームを結成し、採用を効率化するための人工知 能システムを開発してきた。 これは、機械学習をベースにしたもので、500台ほどのコンピュー ターが採用希望者の願書(履歴書など)に書かれている約5万個 のキーワードを抽出・分析。自社に適した人材を選びだすという ものだ。100枚ほどの願書をプログラムに入れると、数秒で“最 良”の条件を持った5名ほどの書類が選び出されるという。” https://forbesjapan.com/articles/detail/23419 AIは中立ではなく「女性嫌い」 検証結果で見えてきた負の側面 平和博2019.2.20 by TDAI lab
  45. 45. 3.Explainability (説明可能性) 2019/6/21 45 ⊳Interpretability ⊳ 内部構造がわかるモデルかどうか ⊳Explainability ⊳ 人が理解できるかどうか 原因究明できるように、人が理解できるように、 AIも原因がわかるようなモデルや手法が必要 顕著性マップにより、判断基準を明確にする研究 https://blog.eai.eu/applications-of-saliency-models-part-one/
  46. 46. 人工知能の最先端まとめ 2019/6/21 46 ⊳今ある技術でできる事 ⊳ 大量のデータがあるものに対する高水準の識別 ⊳ 画像・音声・テキスト・動画などを生成 ⊳研究者が見ている今後の課題 ⊳ Robustness 悪用されないようにする ⊳ Fairness データ依存による差別をなくす ⊳ Explainability 人が理解できるAIとその使い方を探す
  47. 47. 音の技術 2019/6/21 47
  48. 48. これまでの音研究の主流 2019/6/21 48 ⊳ 音声認識 ⊳ 何をしゃべっているのかを判定する研究 ⊳ 話者識別 ⊳ 誰がしゃべっているのかを判定する研究 ⊳ 対話ロボット ⊳ 認識した結果に合わせて声を返す ⊳ 合成音声 ⊳ 音声を合成で作る メインは人の音声に関する研究
  49. 49. 音声研究の難しさ 2019/6/21 49 ⊳時系列データ ⊳ どこからどこまでが一つの「音」なのかを区別することが難しい ⊳ノイズ ⊳ 人は無意識にノイズキャンセリングをしている ⊳対話 ⊳ 「聞く」タイミングと「話す」タイミングを掴むのは困難(人でも難しい)
  50. 50. 音声認識研究の歴史 2019/6/21 50 ⊳ 1962:Shoebox ⊳ IBMの音声識別、数字など16単語を当てる ⊳ 1972:統計的手法の登場 ⊳ HMM(Hidden Markov Mode)lなどの統計的手法により音の伸びに対応 ⊳ 2003:DARPAの人工知能プロジェクト ⊳ 兵士の活動サポート人工知能で巨額の資金が投入 ⊳ 自動翻訳や対話研究がされた ⊳ 2011:Siri ⊳ 音声対話システム ⊳ 2012:人工知能ブーム ⊳ 深層学習の登場で音声識別率が格段に向上
  51. 51. 気分と音をマッチングさせる研究 2019/6/21 51越水先生 https://www.musicman-net.com/special/63420
  52. 52. 最近のトレンド:GANによる音の生成 2019/6/21 52 ⊳音データ ⊳ 時系列のデータ ⊳スペクトルデータ ⊳ 各周波数成分の強さのデータ ⊳ 時系列を並べると画像に見える 変換 スペクトル画像を生成後 逆変換で音にできる
  53. 53. 声色を変えるサービス 2019/6/21 53 元の声データに他人の声の特徴 データをかぶせる研究 ⊳サービスとして ⊳ 対話システムをより人に近く ⊳危険性 ⊳ 偽証に使われる可能性 https://www.technologyreview.com/s/613033/this-ai- lets-you-deepfake-your-voice-to-speak-like-barack- obama/
  54. 54. 音楽×人工知能 2019/6/21 54 https://magenta.tensorflow.org/gansynth 曲調を変換する研究 https://creativeprediction.xyz/ AIで楽器を作る
  55. 55. 音の技術まとめ 2019/6/21 55 ⊳これまでの音の研究 ⊳ 認識や対話など、応用に重点を置いた研究が過去から行われてきた ⊳近年の研究 ⊳ 高い識別率を利用したサービスの登場 ⊳ 生成モデルを用いた新しい音声や音楽の研究が登場
  56. 56. 全体のまとめ 2019/6/21 56 ⊳今までの人工知能 ⊳ 人工知能の歴史 ⊳ 人工知能研究とブーム ⊳人工知能の最先端 ⊳ 今ある人工知能技術とそのサービス ⊳ 研究者が見る人工知能の課題と将来 ⊳「音」の技術 ⊳ 音の関わる研究 ⊳ 音の人工知能技術

×