Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

機械学習品質管理・保証の動向と取り組み

6,598 views

Published on

Trends and Our Activities in Quality Management and Assurance of Machine Learning

Published in: Technology
  • Be the first to comment

機械学習品質管理・保証の動向と取り組み

  1. 1. 機械学習品質管理・保証の
 動向と取り組み
 2020年6月26日 トヨタ自動車株式会社 コネクティッドカンパニー コネクティッド先行開発部 InfoTech 福島 真太朗
 1

  2. 2. 自己紹介
 福島 真太朗 (Shintaro Fukushima)
 ● コネクティッド先行開発部InfoTech データ解析基盤G
 グループ長/プリンシパル・リサーチャー
 ● s_fukushima@mail.toyota.co.jp
 ● shi-fukushima@toyota-tokyo.tech
 ● TwitterID: shifukushima
 2
 ● 産業技術総合研究所人工知能研究センター 客員研究員
 ○ NEDO・産総研 AI品質マネジメント検討委員会 委員
 ● 国立情報学研究所
 ○ JST未来社会創造事業
 高信頼な機械学習応用システムによる価値創造 委員
  3. 3. トヨタ@大手町
 3
 https://global.toyota/jp/detail/14096246
 モビリティ・カンパニーへの変革
 モビリティ・サービス
 コネクティッド・シティ
 https://global.toyota/jp/newsroom/corporate/3 1170943.html
  4. 4. トヨタ@大手町
 クルマのライフサイクルに関わるデータ解析を推進
 4
 ● 車両データ解析 (CAN・位置情報・画像等)
 ● 機械学習の品質管理・保証
 ● マテリアルズ・インフォマティクス
 ● 生産工場における兆候検知 etc.
 We are hiring!
 https://www.toyota-tokyo.tech/careers/ 
 https://jrecin.jst.go.jp/seek/SeekJorDetail?fn=3&id=D120041 072&ln_jor=0
 URL:
 https://www.toyota-tokyo.tech/ 
 Linkedin: https://www.linkedin.com/company/トヨタ 自動車-株-大手町オフィス 

  5. 5. 目次
 1. イントロダクション
 
 2. 機械学習の品質管理・保証に関連する技術
 
 3. ケーススタディ
 
 4. 国プロでの検討・議論
 
 5. まとめ
 5

  6. 6. 社会的な動向
 6
 総務省「人間中心のAI社会原則」
 (2019年3月)
 公平性,説明責任及び透明性の原則 
 EU Ethics guidelines for trustworthy AI 
 (2019年4月)
 1. Human agency and oversight
 (人間の代理機能・人間による監督)
 2. Technical robustness and safety
 (堅牢性と安全性)
 3. Privacy and data governance
 (プライバシーとデータガバナンス)
 4. Transparency
 (透明性)
 5. Diversity, non-discrimination and fairness
 (ダイバーシティ,差別禁止,公平性)
 6. Societal and environmental wellbeing
 (社会・環境ウェルビーイング)
 7. Accountability
 (説明性・説明責任)
 OECD Principles on Artificial Intelligence 
 (2019年6月)
 There should be transparency and responsible disclosure around AI systems to ensure that people understand AI-based outcomes and can challenge them.
 AIシステムについて、人々がどのようなときにそれと関わり
 結果の正当性を批判できるのかを理解できるようにするために、透 明性を確保し責任ある情報開示を行うべきである。
 その他国内の動向
 ● 中部経済産業局 自律的自動運転の実現を支える人工知能搭載 システムの安全性立証技術の研究開発 (2017年-)
 ● 機械学習工学研究会 (MLSE, 2018年5月)
 ● NEDO・産総研 品質保証プロジェクト (2018年7月)
 ● QA4AI AIプロダクト品質保証ガイドライン (2019年5月)
 ● 国立情報学研究所 QAML
 (高信頼な機械学習応用システムによる価値創造)
 (2020年度) 等

  7. 7. 本発表の背景と目的
 7
 ● AIの活用ガイドライン,指針(案)は世界中で続々と公開
 ● その中で品質管理・保証に関わる言及が非常に多い
 ● 機械学習が,研究フェーズから実用フェーズに
 移行しつつあることの現れ
 発展途上にある機械学習の品質管理・保証について,
 その動向と取り組みについてお話しします

  8. 8. 目次
 1. イントロダクション
 
 2. 機械学習の品質管理・保証に関連する技術
 
 3. 国プロでの検討・議論
 
 4. ケーススタディ
 
 5. まとめ
 8

  9. 9. 取り上げる技術
 ニューラルネットワークの
 入出力関係保証 (形式検証)
 9
 テストデータの
 カバレッジ検証・生成
 K. Pei et al. (2017)
 敵対的攻撃・防御
 Explainable AI (XAI)
 2 テストデータの網羅性を確認し, 
 網羅性を高めるデータを生成する 
 データや物理系・環境系を操作して 学習器を誤判別させる (or誤判別を防止する) 機械学習の判断根拠を明確化する ニューラルネットワークの入力に対する 出力を保証する I.J.Goodfellow et al. (2015)
 • V. Petsiuk et al. (2018)
 • L. A. Hendricks et al. (2018)

  10. 10. ニューラルネットワークの
 入出力関係保証 (形式検証)
 10

  11. 11. 目的
 11
 入力
 学習済み
 ニューラルネットワーク
 出力
 2 x f y 順問題: 入力のデータの集合に対する出力の範囲は?
 逆問題: 出力のデータの集合を満たす入力の範囲は?

  12. 12. 順問題
 12
 入力
 学習済み
 ニューラルネットワーク
 x f ラベル 確率 0 0.01 1 0.09 2 0.80 3 0.01 4 0.01 5 0.01 6 0.01 7 0.05 8 0.01 9 0.01 出力
 2 y
  13. 13. 保証パターン例
 13
 f (X) Y ● 与えられた入力データの範囲に対する出力を含む範囲を求める
 Y ● あるデータにノイズを加えたときの出力範囲を外側から押さえる
 X
  14. 14. 先行研究の状況
 ● 計算量は,多項式時間~指数時間のオーダ
 ● 畳み込み演算やプーリングを対象としない
 アルゴリズムが多い
 14
 C.Liu et al.,
 Algorithms for Verifying Deep Neural Networks,
 arXiv:1903.06758
 https://arxiv.org/abs/1903.06758

  15. 15. 手法の分類の観点
 15
 入力から出力への
 到達可能性の検証
 
 最適化の定式化の変更 
 (凸緩和,Lagrange緩和 等)
 反例の探索
 C.Liu et al.,
 Algorithms for Verifying Deep Neural Networks,
 arXiv:1903.06758
 https://arxiv.org/abs/1903.06758

  16. 16. 手法の分類
 Reachability
 16
 Optimization
 活性化関数
 (ReLU)
 三角形に
 緩和
 平行四辺形に
 緩和
 入力から出力への
 到達可能性の検証
 
 最適化の定式化の変更 
 (凸緩和,Lagrange緩和 等)
 C.Liu et al.,
 Algorithms for Verifying Deep Neural Networks,
 arXiv:1903.06758
 https://arxiv.org/abs/1903.06758

  17. 17. まとめ
 ● 計算量は,多項式時間~指数時間のオーダ ● また,畳み込み演算やプーリングを対象としない アルゴリズムが多い ● そのため,実用的とは言えない段階 
 ● 詳細は,以下のサーベイ論文等を参照
 C.Liu et al.,
 Algorithms for Verifying Deep Neural Networks,
 arXiv:1903.06758
 https://arxiv.org/abs/1903.06758
 17

  18. 18. テストデータの
 カバレッジ検証・生成
 18

  19. 19. 目的
 ● 学習器を評価するためにテストデータが十分に足りて
 いるかについて検証(網羅性検証).
 ● ある基準で充足性を高めるテストデータを生成.
 19
 K.Pei et al.,
 DeepXplore: Automated Whitebox Testing
 of Deep Learning Systems, SOSP2017.
 https://arxiv.org/abs/1705.06640
 Y. Tian et al., 
 DeepTest: Automated Testing of
 Deep-Neural-Network-driven Autonomous Cars, ICSE2018. 
 https://arxiv.org/abs/1708.08559

  20. 20. テストデータのカバレッジ検証・生成
 20
 明神「AI 搭載システムの品質保証」,ソフトウェアテストシンポジウム JaSST'18 Tokyo
 http://jasst.jp/symposium/jasst18tokyo/pdf/C5-1.pdf 

  21. 21. DeepXplore (Pei et al., 2017)
 21
 生成画像
 学習器1の予測結果
 学習器2の予測結果
 学習器3の予測結果
 • 複数の学習器の識別結果をできる限り離れさせる
 • ニューロンカバレッジを高める
 K.Pei et al.,
 DeepXplore: Automated Whitebox Testing
 of Deep Learning Systems, SOSP2017.
 https://arxiv.org/abs/1705.06640
 オリジナル
 画像

  22. 22. DeepXplore (Pei et al., 2017)
 22
 K.Pei et al.,
 DeepXplore: Automated Whitebox Testing
 of Deep Learning Systems, SOSP2017.
 https://arxiv.org/abs/1705.06640

  23. 23. DeepTest (Tian et al., 2018)
 23
 ● 以下の条件で変化させてテストデータを生成して ニューロンカバレッジを向上 ○ 輝度,コントラスト ○ 平行移動,スケール変換,剪断,回転,汚れ ○ 霧,雨
 Y. Tian et al., 
 DeepTest: Automated Testing of
 Deep-Neural-Network-driven Autonomous Cars, ICSE2018.
 https://arxiv.org/abs/1708.08559

  24. 24. ニューロンカバレッジの有用性
 24
 Z. Li et al., 
 Structural coverage criteria for neural networks could be misleading. ICSE2019.
 http://202.119.32.195/cache/11/03/moon.nju.edu.cn/c10bc72b8639f971f414a34620e26bca/2019-ICSENIER-ZLi-Misleading.pdf
 ● Structural coverage criteria for neural networks could be misleading
 ○ カバレッジ基準により定義された空間においては,
 敵対的生成例が大量に存在する.
 一方で,取得可能なサンプルは非常にスパース.
 
 ○ これまでに報告されてきた失敗の検知「能力」は,
 敵対志向の探索によるもので,本当の「高い」
 カバレッジではない.
  25. 25. まとめ
 25
 参考文献(サーベイ論文)
 J.M.Zhang et al., Machine Learning Testing: Survey, Landscapes and Horizons, 
 arXiv:1906.10742.
 https://arxiv.org/abs/1906.10742
 ● ソフトウェアテストと同様の発想で,テストデータの
 十分性を評価する手法が提案されている.
 
 ● 代表的な基準として,ニューロンカバレッジを用いる
 手法が複数提案されている.
 
 ● しかし,その妥当性については議論の余地が残されて
 いる状況である.

  26. 26. 敵対的攻撃・防御
 26

  27. 27. 敵対的生成例 (adversarial example)
 27
 パンダの画像
 ノイズ
 テナガザルと
 判定
 I.J.Goodfellow et al.,
 Explaining and Harnessing Adversarial Examples, ICLR2015.
 https://arxiv.org/abs/1412.6572

  28. 28. 物理系・環境系への敵対的生成例
 28
 レンズにステッカーを装着
 標識 → プロジェクター
 キーボード → マウス
 標識 → ギターのバチ
 J.B.Li et al.,
 Adversarial camera stickers: a physical camera-based attack on deep learning systems, ICML2019.
 https://arxiv.org/abs/1904.00759

  29. 29. 物理系・環境系への敵対的生成例
 29
 微分可能なレンダラを用いて物理パラメータを操作
 ● 光
 ● 光 + 撮影角度
 Tシャツ → ミニスカート
 標識 → 給水塔
 水瓶 → 機関砲 → 寝袋
 H.-T. D. Liu et al.,
 Beyond pixel norm-balls: parametric adversaries using an analytically differentiable renderer, ICLR2019.
 https://openreview.net/forum?id=SJl2niR9KQ

  30. 30. Explainable AI (XAI)
 - 説明可能なAI -
 30

  31. 31. Explainable AIとは
 31
 物体認識の判断根拠の
 説明文を生成
 物体認識に強く寄与する/しない
 学習データを列挙
 物体認識において
 重視する領域の同定
 ● 機械学習は一般的にブラックボックス
 ● その判断根拠を明確化するための研究分野
 • V. Petsiuk et al. (BMVC2018)
 C.-K. Yeh et al. (NeurIPS2018)
 L. A. Hendricks et al. (ECCV2018)

  32. 32. DARPA XAI Project
 ■2017年5月から4年間の研究開発プロジェクト ■約80億円を投資 (PM: David Gunning)
 32
 DARPA Explainable Artificial Intelligence (XAI)
 https://www.darpa.mil/program/explainable-artificial-intelligence

  33. 33. 課題と実施機関
 ● データ解析 (Analytics) と強化学習 (Autonomy) に大別
 ● 実施期間は大学,研究所,企業
 33

  34. 34. UC Berkely: RISE
 (重要変数の同定・可視化)
 ランダムな複数のマスクの生成・統合による
 画像領域の重要性推定
 34
 Image captioning への応用
 • V. Petsiuk et al., RISE: Randomized Input Sampling for Explanation of Black-box Models, BMVC2018.
 http://bmvc2018.org/contents/papers/1064.pdf 

  35. 35. CMU: Excitatory and Inhibitory Samples
 クラス分類に有効/非有効な学習データの同定
 (重要な学習データの同定・可視化)
 35
 C.-K. Yeh et al., Representer point selection for explaining deep neural networks, NeurIPS2018.
 https://papers.nips.cc/paper/8141-representer-point-selection-for-explaining-deep-neural-networks.pdf

  36. 36. BBN: Faithful Multimodal Explanation
 質問の埋め込みと領域分割のアテンションを統合し
 回答の説明文と図を対応付け
 (説明文の生成)
 36
 J.Wu and R.J.Mooney, Faithful multimodal explanation for visual question answering, ACL2019.
 https://www.aclweb.org/anthology/W19-4812

  37. 37. UC Berkeley: Textual Explanation
 自動運転を念頭に,画像と運転操作から
 操作の理由説明文を生成
 (説明文の生成)
 37
 J.Kim et al., Textual explanations for self-driving vehicles, ECCV2018. 
 http://openaccess.thecvf.com/content_ECCV_2018/papers/Jinkyu_Kim_Textual_Explanations_for_ECCV_2018_paper.pdf 

  38. 38. UC Berkeley: Critical State
 強化学習において全体の出力に影響を及ぼす状態は
 それほど多くない
 → 最適な戦略を説明するためにCritical Stateを同定
 38
 Critical State
 : 状態 s で戦略 a をとったときの
  出力分布のエントロピー
 : 状態
 • Value-based
 : criticalかどうかを判定するしきい値
 : 行動価値関数
 S.H.Huang et al., 
 Establishing appropriate trust via critical states, IROS2018.
 https://arxiv.org/abs/1810.08174
 • Policy-based

  39. 39. 目次
 1. イントロダクション
 
 2. 機械学習の品質管理・保証に関連する技術
 
 3. ケーススタディ
 ※事例や関連資料の掲載は社内関連部署の許可を得ています
 
 4. 国プロでの検討・議論
 
 5. まとめ
 39

  40. 40. トヨタ@大手町の取り組み
 40
 • 品質保証ガイドライン作成
 • テストベッド開発
 • 研究開発
 • 現場実践 (リファレンス)
 国プロ・共同研究
 1. 社内実践・ノウハウ蓄積
 車両走行画像データの物体検知
 工場における外観検査
 2. 社内標準に向けた活動
 NEDO・産総研 AI品質保証 (国プロ)
 JST・NII 
 高信頼な機械学習応用システム
 による価値創造
 (QAML)
 社内
 本日お話しする 内容
  41. 41. 事例1: 工場A
 従来の検査工程と並行し外観検査アプリの実用性検証を実施
 41
 現場で起きていること
 ※画像認識が過検出するのであり,
  製品としての品質としては全く問題ありません

  42. 42. 多段階のタスクによる問題解決
 42
 ● タスクを「物体検知」→「物体検知+分類」にして解決
 ● 管理するモデルの個数は増大
 物体検知
 物体検知
 分類
 +
  43. 43. 悩ましい外乱問題
 43
 ● 製品の品質は問題ないが,過検出を誘発
 ● 問題が生じる度に学習データへの追加を検討
 ● 画像認識の前に,環境条件の変化を検出する仕組みも検討
 外乱①
 暗すぎる
 外乱②
 明るすぎる
 外乱③
 イレギュラー
 外乱④
 ゴミの付着
 外乱⑤
 映り込み
 ※画像認識が過検出するのであり,
  製品としての品質としては全く問題ありません

  44. 44. 事例2: 工場B
 44
 従来の検査工程と並行し外観検査アプリの実用性検証を実施
 ペーパーラップ
 による正常な傷
 洗浄液が残っているだ けで問題なし
 現場で起きていること
 ※画像認識が過検出するのであり,
  製品としての品質としては全く問題ありません

  45. 45. 原因不明な過検出
 45
 ● 問題のない画像を傷と判定
 ● 大域的な特徴を捉えて判定している可能性はある?
 ※画像認識が過検出するのであり,
  製品としての品質としては全く問題ありません

  46. 46. 品質管理・保証の考え方
 ● 機械学習モデルは限定されたデータで学習しテストする
 ため,その検証は経験的なものに止まらざるをえない
 ● 理論的な保証を試みる研究も出てきているが,
 制約条件や計算量の観点から非実用的な段階
 ● そのため現時点では100%の精度保証は不可能
 
 ● 機械学習モデルの開発・検証・運用を内包した
 業務プロセス・システムに継続的改善サイクルを組み込む
 ことが重要
 46

  47. 47. 機械学習モデルのライフサイクル管理
 47
 ①モデル 開発 ②実用性 検証 ③運用 実用性 評価 実用性 評価 機械学習 モデル NG OK NG 各フェーズで必要な品質管理・保証の観点とは?

  48. 48. ①モデル開発
 48
 D1-1. データの偏りなどデータ の特性を把握しているか? データ収集・ 生成 アノテー ション付与 D1-3. 学習データセットと 性質が大きく変わらないか? 学習 学習 データセッ ト 検証 データセッ ト 学習済み モデル 推論 推論 結果 性能指標を 満たす? D1-2. アノテーション方法・ツールに 問題はないか? テスト データセッ ト END 原因が 学習方法に ある? 原因が 学習データ にある? 計画見直し Y Y Y N N N M1-1. 汎化性能に優れているか? M1-2. 頑健性を有するか? データに関わる品質 (D) ソフトウェア・プログラムに 関わる品質 (S) モデルに関わる品質 (M) 運用に関わる品質 (O) S1-1. ライブラリにバグはないか? 仕様通りに実装できているか? ペーパー ラップ
 による正常 な傷
 洗浄液が残っているだ けで問題なし

  49. 49. ②実用性検証(実証実験)
 49
 データ 環境条件の モニタリング 環境条件 が変化? モニタリング ルール見直し Y 性能指標 を満た す? 再学習 が必要? 再学習 N Y END Y 対応方針 検討 N N O2-1. 考慮すべき観点,項 目は妥当か? O2-2. 環境条件の変化を 判定するしきい値を 適切に設定しているか? M2-1. 運用上 問題ない精度を 達成しているか? O2-3. モニタリングルール(環境条件の 変化を判定する閾値の設定等)の 見直し方法は明確か? D2-1. 再学習に使用したデータや その取得条件は明確に記録されて いるか? O2-4.再学習の要否を判断する ルールは明確か? データに関わる品質 (D) ソフトウェア・プログラムに 関わる品質 (S) モデルに関わる品質 (M) 運用に関わる品質 (O) 外乱①
 暗すぎる
 外乱②
 明るすぎる
 外乱③
 イレギュラー 
 外乱④
 ゴミの付着
 外乱⑤
 映り込み
 推論
  50. 50. ③運用
 50
 環境条件の モニタリング 環境条件 が変化? モニタリング ルール見直し Y 性能指標 を満た す? 再学習 が必要? 再学習 N Y END Y 対応方針 検討 N N D3-1. 環境条件は 変化していないか? M3-1. 運用上 問題ない精度を 達成しているか? D3-2. 再学習に使用したデータや その取得条件は明確に記録されて いるか? データ データに関わる品質 (D) ソフトウェア・プログラムに 関わる品質 (S) モデルに関わる品質 (M) 運用に関わる品質 (O) 推論
  51. 51. 目次
 1. イントロダクション
 
 2. 機械学習の品質管理・保証に関連する技術
 
 3. ケーススタディ
 
 4. 国プロでの検討・議論
 ※産業技術総合研究所の許可を得て掲載しています
 
 5. まとめ
 51

  52. 52. 産総研 AI品質マネジメント検討
 52

  53. 53. ガイドラインの概要
 53

  54. 54. 目次
 1. イントロダクション
 
 2. 機械学習の品質管理・保証に関連する技術
 
 3. ケーススタディ
 
 4. 国プロでの検討・議論
 
 5. まとめ
 
 54

  55. 55. まとめ
 ● 機械学習の社会実装が進むにつれて,
 その品質管理・保証が重要な検討事項となっている
 
 ● 社内でも比較的実用化が近い領域で,検討を進めている
 
 ● 機械学習モデルの開発・検証・運用を内包した
 業務プロセス・システムに継続的改善サイクルを
 組み込むことが重要
 55


×