Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

[全脳アーキテクチャ若手の会45回カジュアルトーク]敵対的サンプル

193 views

Published on

2019 年11月29日に行われた、「全脳アーキテクチャ若手の会第45会カジュアルトーク」での15分間の発表のスライドです。
数式は一切登場しません。
参考文献
[1] D. Hendrycks and T. Dietterich, “Benchmarking Neural Network Robustness to Common Corruptions and Perturbations,” 2019.
[2] A. Ilyas, S. Santurkar, D. Tsipras, L. Engstrom, B. Tran, and A. Madry, “Adversarial Examples Are Not Bugs, They Are Features,” May 2019.
[3] S. Santurkar, D. Tsipras, B. Tran, A. Ilyas, L. Engstrom, and A. Madry, “Computer Vision with a Single (Robust) Classifier,” Jun. 2019.
[4] D. Su, H. Zhang, H. Chen, J. Yi, P. Y. Chen, and Y. Gao, “Is robustness the cost of accuracy? – A comprehensive study on the robustness of 18 deep image classification models,” Lect. Notes Comput. Sci. (including Subser. Lect. Notes Artif. Intell. Lect. Notes Bioinformatics), vol. 11216 LNCS, pp. 644–661, Aug. 2018.
[5] M. A. Alcorn et al., “Strike (with) a Pose: Neural Networks Are Easily Fooled by Strange Poses of Familiar Objects,” Nov. 2018.
[6] S. Thys, W. Van Ranst, and T. Goedemé, “Fooling automated surveillance cameras: adversarial patches to attack person detection,” 2019.
[7] D. Tsipras, S. Santurkar, L. Engstrom, A. Turner, and A. Madry, “Robustness May Be at Odds with Accuracy,” 2018.
[8] R. Geirhos, P. Rubisch, C. Michaelis, M. Bethge, F. A. Wichmann, and W. Brendel, “ImageNet-trained CNNs are biased towards texture; increasing shape bias improves accuracy and robustness,” Nov. 2018.
[9] A. Athalye, L. Engstrom, A. Ilyas, and K. Kwok, “Synthesizing Robust Adversarial Examples,” 2018.
[10] I. J. Goodfellow, J. Shlens, and C. Szegedy, “Explaining and Harnessing Adversarial Examples,” Dec. 2014.
[11] L. Engstrom, A. Ilyas, S. Santurkar, D. Tsipras, B. Tran, and A. Madry, “Learning Perceptually-Aligned Representations via Adversarial Robustness,” 2019.
[12] N. Papernot, P. McDaniel, I. Goodfellow, S. Jha, Z. B. Celik, and A. Swami, “Practical Black-Box Attacks against Machine Learning,” Feb. 2016.

Published in: Technology
  • Be the first to comment

[全脳アーキテクチャ若手の会45回カジュアルトーク]敵対的サンプル

  1. 1. AIを騙す ~敵対的サンプル ~ 東京大学大学院 情報理工学系研究科 数理情報学専攻 福地成彦
  2. 2. コンテンツ 1. 自己紹介 2. 敵対的サンプルとは 3. 作り方 4. 防ぎ方 5. 敵対的サンプルの原因 6. 精度 vs 安全性 7. ニューラルネットワークの特性 8. まとめ 2019/11/29ADVERSARIAL EXAMPLE, FUKUCHI AKIHIKO 2
  3. 3. 自己紹介  福地成彦 (Fukuchi Akihiko)  東京大学大学院情報理工学系研究科数字情報学専攻修士課程  専門:reservoir computing, NLP  今回話す内容は趣味  つぶグミが好き 2019/11/29ADVERSARIAL EXAMPLE, FUKUCHI AKIHIKO 3
  4. 4. 以下の画像は何? 2019/11/29ADVERSARIAL EXAMPLE, FUKUCHI AKIHIKO 4 1.パンダ 2.プードル 3.テナガザル I. J. Goodfellow, J. Shlens, and C. Szegedy, “Explaining and Harnessing Adversarial Examples,” Dec. 2014. 画像1
  5. 5. GoogleNetは以下の画像を何と判定する? 2019/11/29ADVERSARIAL EXAMPLE, FUKUCHI AKIHIKO 6 1.パンダ 2.プードル 3.テナガザル 画像2
  6. 6. 敵対的サンプルとは  機械学習のモデルが間違って識別するように加工された入力  大抵の場合、ヒトにはわからない程度に加工されている 2019/11/29ADVERSARIAL EXAMPLE, FUKUCHI AKIHIKO 7 テナガザル + = I. J. Goodfellow, J. Shlens, and C. Szegedy, “Explaining and Harnessing Adversarial Examples,” Dec. 2014.
  7. 7. 作り方 攻撃対象のネットワークにアクセスできる場合 (何でも良いから不正解にしたい場合) 2019/11/29ADVERSARIAL EXAMPLE, FUKUCHI AKIHIKO 8 パンダ P(c|x) cross entropy (予測と正解の差 ) cross entropy を上げる +
  8. 8. モデルが無くても攻撃できる; 敵対的サンプルの転移性 2019/11/29ADVERSARIAL EXAMPLE, FUKUCHI AKIHIKO 11 モデルAパンダ プードル モデルB (未知) プードル プードル
  9. 9. 防御方法の一例; ADVERSARIAL TRAINING 敵対的サンプルを防ぎたいなら、敵対的サンプルを学習させればよい 2019/11/29ADVERSARIAL EXAMPLE, FUKUCHI AKIHIKO 12 プードルパンダ パンダプードル ではなく * 敵対的サンプルなどのノイズで 外乱されないことを「ロバスト」 という
  10. 10. なぜ敵対的生成ができるのか? 複数の原因が指摘されている  Batch normalization  多次元性  ニューラルネットワークの線形性  ニューラルネットワークの精度 2019/11/29ADVERSARIAL EXAMPLE, FUKUCHI AKIHIKO 13
  11. 11. 精度 VS 安全性  D. Tsipras, S. Santurkar, L. Engstrom, A. Turner, and A. Madry, “Robustness May Be at Odds with Accuracy,” 2018.  Adversarial trainingを行ったCNNは標準の 学習をしたCNNに比べて低精度  精度と敵対的サンプルへの防御力は両立 しない!? * CNN: 畳み込みニューラルネットワーク 2019/11/29ADVERSARIAL EXAMPLE, FUKUCHI AKIHIKO 14
  12. 12. 精度 VS 安全性  D. Su, H. Zhang, H. Chen, J. Yi, P. Y. Chen, and Y. Gao, “Is robustness the cost of accuracy? – A comprehensive study on the robustness of 18 deep image classification models,” Lect. Notes Comput. Sci. (including Subser. Lect. Notes Artif. Intell. Lect. Notes Bioinformatics), vol. 11216 LNCS, pp. 644–661, Aug. 2018.  CNNのモデルのロバスト性の比較  標準の精度が高いモデルが高いほ ど敵対的サンプルの攻撃に弱い  精度と安全性のトレードオフ 2019/11/29ADVERSARIAL EXAMPLE, FUKUCHI AKIHIKO 15
  13. 13. そもそもCNNはヒトと違う特徴を見てる  R. Geirhos, P. Rubisch, C. Michaelis, M. Bethge, F. A. Wichmann, and W. Brendel, “ImageNet-trained CNNs are biased towards texture; increasing shape bias improves accuracy and robustness,” Nov. 2018.  CNNはテクスチャを判断の根拠にしがち。あまり形(空間的な配置)を見ていない。 2019/11/29ADVERSARIAL EXAMPLE, FUKUCHI AKIHIKO 16
  14. 14. CNNは何を見ているんだ?  A. Ilyas, S. Santurkar, D. Tsipras, L. Engstrom, B. Tran, and A. Madry, “Adversarial Examples Are Not Bugs, They Are Features,” May 2019.  Adversarial trainingをしたネットワークを用い て、敵対的サンプルに対して「ロバストな特徴 量」と「ロバストでない特徴量」を抽出  人間には知覚できないような「弱い」特徴量を 使うことで、高精度を出しているのでは? *「ロバストでない特徴量」については批判的な議論もある L. Engstrom et al., “A Discussion of ‘Adversarial Examples Are Not Bugs, They Are Features,’” Distill, vol. 4, no. 8, p. e19, Aug. 2019. 2019/11/29ADVERSARIAL EXAMPLE, FUKUCHI AKIHIKO 17 “airplane’’ “ship’’ “dog’’ “frog’’“truck’’ DbDNR bDR (a)
  15. 15. まとめ  敵対的サンプル (adversarial examples)は機械学習のモデルが間違って識別す るように加工された入力  手元にターゲットとなるモデルがなくても敵対的サンプルが可能  Adversarial trainingをすれば、ある程度防御可能  敵対的サンプルの原因はいくつか指摘されている  CNNの高精度の裏には、敵対的サンプルに対する脆弱性が隠れているかも 2019/11/29ADVERSARIAL EXAMPLE, FUKUCHI AKIHIKO 18
  16. 16. 参考文献  [1] A. Ilyas, S. Santurkar, D. Tsipras, L. Engstrom, B. Tran, and A. Madry, “Adversarial Examples Are Not Bugs, They Are Features,” May 2019.  [2] D. Hendrycks and T. Dietterich, “Benchmarking Neural Network Robustness to Common Corruptions and Perturbations,” 2019.  [3] D. Su, H. Zhang, H. Chen, J. Yi, P. Y. Chen, and Y. Gao, “Is robustness the cost of accuracy? – A comprehensive study on the robustness of 18 deep image classification models,” Lect. Notes Comput. Sci. (including Subser. Lect. Notes Artif. Intell. Lect. Notes Bioinformatics), vol. 11216 LNCS, pp. 644–661, Aug. 2018.  [4] M. A. Alcorn et al., “Strike (with) a Pose: Neural Networks Are Easily Fooled by Strange Poses of Familiar Objects,” Nov. 2018.  [5] S. Thys, W. Van Ranst, and T. Goedemé, “Fooling automated surveillance cameras: adversarial patches to attack person detection,” 2019.  [6] D. Tsipras, S. Santurkar, L. Engstrom, A. Turner, and A. Madry, “Robustness May Be at Odds with Accuracy,” 2018.  [7] R. Geirhos, P. Rubisch, C. Michaelis, M. Bethge, F. A. Wichmann, and W. Brendel, “ImageNet-trained CNNs are biased towards texture; increasing shape bias improves accuracy and robustness,” Nov. 2018.  [8] A. Athalye, L. Engstrom, A. Ilyas, and K. Kwok, “Synthesizing Robust Adversarial Examples,” 2018.  [9] I. J. Goodfellow, J. Shlens, and C. Szegedy, “Explaining and Harnessing Adversarial Examples,” Dec. 2014.  [10] L. Engstrom, A. Ilyas, S. Santurkar, D. Tsipras, B. Tran, and A. Madry, “Learning Perceptually-Aligned Representations via Adversarial Robustness,” 2019.  [11] N. Papernot, P. McDaniel, I. Goodfellow, S. Jha, Z. B. Celik, and A. Swami, “Practical Black-Box Attacks against Machine Learning,” Feb. 2016.  [12] S. Santurkar, D. Tsipras, B. Tran, A. Ilyas, L. Engstrom, and A. Madry, “Computer Vision with a Single (Robust) Classifier,” Jun. 2019.  [13] L. Engstrom et al., “A Discussion of ‘Adversarial Examples Are Not Bugs, They Are Features,’” Distill, vol. 4, no. 8, p. e19, Aug. 2019. 2019/11/29ADVERSARIAL EXAMPLE, FUKUCHI AKIHIKO 19
  17. 17. ご清聴ありがとうございました 2019/11/29ADVERSARIAL EXAMPLE, FUKUCHI AKIHIKO 20
  18. 18. 2019/11/29ADVERSARIAL EXAMPLE, FUKUCHI AKIHIKO 21
  19. 19. 作り方 攻撃対象のネットワークにアクセスできる場合 (特定のラベルに誤識別させたい場合) 2019/11/29ADVERSARIAL EXAMPLE, FUKUCHI AKIHIKO 22 プードル P(c|x) cross entropy (予測と正解の差 ) cross entropy を下げる +
  20. 20. いろいろな敵対的サンプル 2019/11/29ADVERSARIAL EXAMPLE, FUKUCHI AKIHIKO 23 物体検出器で人間と識別されないようなパッチを作成 S. Thys, W. Van Ranst, and T. Goedemé, “Fooling automated surveillance cameras: adversarial patches to attack person detection,” 2019.
  21. 21. いろいろな敵対的サンプル 2019/11/29ADVERSARIAL EXAMPLE, FUKUCHI AKIHIKO 24 ニューラルネットワークが誤識別するような置物を3Dプリンターで印刷 A. Athalye, L. Engstrom, A. Ilyas, and K. Kwok, “Synthesizing Robust Adversarial Examples,” 2018.
  22. 22. いろいろな敵対的サンプル 2019/11/29ADVERSARIAL EXAMPLE, FUKUCHI AKIHIKO 25 M. A. Alcorn et al., “Strike (with) a Pose: Neural Networks Are Easily Fooled by Strange Poses of Familiar Objects,” Nov. 2018. ニューラルネットワークが誤識別するような3D オブジェクトの配置を生成

×