[論文紹介] 機械学習システムの安全性における未解決な問題

Unsolved Problems in ML Safety
論文読みメモ@ottamm_190
2021/10/03

まえおき
https://arxiv.org/abs/2109.13916 （先日の9/28に公開された。）
以下を知りたい人向きの論文でした。
• MLシステムの安全性を担保するには何を考えるべきか。
• どんな問題が研究的にも解決されていないのか。
• MLシステムを作る側として気をつけることは何か。
論文読みメモなので、このスライドは文字が中心。整理しては書いたつもり。
知らなかったことも多く、読んでよかった。（）は自分の感想。
４章は個人的に未来志向すぎて、概要をさらりと説明して割愛した。
興味があれば、ぜひ元論文を読んでください。
参考文献を見るだけでも面白いタイトルが多かった。

ML Safety
ML Safetyの研究
• 長期的・ロングテール的なリスクを重視し、MLの導入をより有益なも
のにすることを目的とした研究
背景
• 機械学習（ML）システムが、医療現場、道路、指揮統制センターなど
の高リスクな環境に導入される。
• 安全性の低いMLシステムは、人命の損失につながる可能性がある。

ML Safetyにおける未解決の問題
敵対者、異常な状況、ブラックスワンに強いモデルを作る。
悪意ある利用を検知し、予測を監視し、モデルの予期せぬ機能を発見
する。
定義するのが難しい人間の価値観を表現し、最適化可能なモデルを構
築する。
MLシステムの安全性を進展させるための4つの問題領域
サイバー攻撃など、MLシステムの運用に関するリスクにMLで対応す
る。

A Swiss cheese model of ML Safety research
安全性の研究を成熟させることで、何重にも保護され、危険性が軽減され、MLシステム
がより安全になる。
ML for Cybersecurity
予測の信頼
大規模モデルの調査
異常検知
Long tail 頑健性
環境の変化への適応
報酬設計
公平性・倫理

Black Swan and Tail Risk Robustness
進化する環境への適応
100年に１度のイベントへの耐性
多様な攻撃に対応
予期せぬ攻撃の検知

ロングテールイベントは稀だが、非常にインパクトが強く、MLシステムを破壊させる原因となる。
現実問題の例
道路の停止線の認識ミスは、直接事故や命の危険に関わる。
• 一時停止の標識は、稀なものも含め多様な種類がある。
例：交通誘導員が逆さに持つ、標識内に文字が記載、オクルージョン、LEDマトリクス
• 一時停止の標識は、無視すべき場合もある。
例：開いているゲート、シャツに印字されているとき、バスの側面に印刷

稀な出来事が多い環境で、MLシステムの崩壊を防ぐには、MLシステムが異常なイベントに頑健でなけ
ればならない。
研究の方向性
• システムの限界点の発見、将来起こりうるイベントに対応可能な環境やベンチマークを作成
• ベンチマークには、新しい、珍しい、極端な分布の変化やロングテールイベントが含まれるとよい。
• 特に、精度の低下が小さいデータ分布の変化ではなく、精度の低下が著しいデータ分布の変化に注目すべき。
• 非常に珍しいクラスのデータだが、あると有益なデータの生成
• データ拡張手法やシミュレーションにより、自然には入手困難、または手に入らない入力データを生成
• 複雑なシステムには変化がつきものであり、発展する世界にモデルが適応し、新たな経験から改善
• MLシステムの迅速な適応能力が求められる。（Lifelong learningや継続学習的な話かな）
• デプロイ時に発生するポイズンデータからMLシステムを保護することも大切

Adversarial Robustness
• 敵対者は、MLシステムの脆弱性を操作し、モデルにミスを犯させる。
ブラックボックス攻撃
• 敵対者はMLシステムにサンプルを入力し、システムの出力のみを受け取る。
• 中身のMLシステムの計算にはアクセスできない。
ホワイトボックス攻撃
• 攻撃者がモデルの中身にアクセス可能。入力に対して勾配を求められる。
• （Language modelではBERT系が使われてそうだけど、fine-tuning したら問題ないのかな？）
防御の例：自動運転の場合、異なるセンサからの情報を利用し、敵対的な画像の不整合を見つける。

Monitoring
オペレーターへの警告
今までにない悪用の通知
予測確率の校正
いつ予測を無視するか把握
モデルのトロイの木馬の探索
モデルの隠れた能力調査

Identifying Hazards and Malicious Use With
Anomaly Detection
オペレーターへの警告
• MLシステムをデプロイ・監視するには原子力発電所や航空管制などハイリスクなシス
テムと同様に、高い警戒心と注意が必要。
• ここでの異常検知器は、警報によるオペレーターの疲労を減らすために、高い再現率
と低い誤警報率が求められる。
今までにない悪用の通知
• 異常検知は、MLシステムの悪意ある利用を検知するために不可欠
• 悪意のある利用者は，最終的にMLシステムを社会的操作や新兵器の研究支援などに再
利用する可能性がある。
• 慣れ親しんだ悪用ではなく、新たな悪用を防ぐために異常検知を使用

Identifying Hazards and Malicious Use With
Anomaly Detection
研究分野：分布外検知、オープンセット検知、ワンクラス学習
中心的な課題
• 表現学習による既存手法では、見たことない異常データに対して分離可能な表現を獲得するのが困
難。
• 例えば、大規模な画像データでの異常検知は、完全に異常であるランダムなノイズを確実に検出で
きないことがある。
新しい問題設定
• 分布の変化や環境の変化の検出、侵入検知、マルウェア検知、バイオセーフティなどの実環境で検
出。
異常原因の特定
• 異常原因の説明が必要とされる場面がある。検出器は異常の発生源や場所の特定を支援。

Representative Model Outputs
• MLシステム監視者は、展開されたMLシステムをいつ信頼し、いつそれを無効にするか
を知る必要がある。
校正が必要な理由
• モデルは、予測の不確実性を表現することで、予測の限界を人間に伝えることができる。
しかし、モデルの予測が過信になることがある。
例：平均予測確率が0.90なのに、精度を計算すると70％になる。
• モデルの予測確率をモデルの全体的な振る舞いをより代表するものへと校正する。
Calibration

Representative Model Outputs
• 監視者は、モデルが自身の理解や不足を正確に、正直に、忠実に表現した出力を出せ
ば、より効果的にモデルをモニタリングできる。
正直さ（honestly）：学習データからわからないことに対して、予測確率を下げる。
NLPの文脈では嘘の文章を生成しない。
忠実さ（faithfully）：違う入力でも意味的に同じ内容なら、同じ答えを返す（一貫性）
Language modelでの研究
• 大規模モデルの文章生成に一貫性を持たせる。
• モデルの予測が矛盾していることを検出する評価スキームを作成する。
Making Model Outputs Honest and Truthful

Hidden Model Functionality
• MLシステムには、制御可能な「バックドア」や「トロイの木馬」のような脆
弱性が隠れている危険性がある。
バックドア付きのモデル
• ほとんどすべてのシナリオで正しく予測するが、敵が仕掛けた特定の状況では誤った
予測をする。
• 例：バックドア付きの顔認識システムによる不法侵入
• 敵対者が特定の宝石を身につけていれば、顔に関係なく顔認証され、建物に入れるよ
うにモデルを学習させる。
研究の方向性
• バックドアを持つモデルの浄化
• モデルが与えられたときに綺麗なデータセットを再構築
• ポイズニング訓練データを検出
Backdoors

敵対的サンプル：テスト時に作成
バックドア：訓練時に作成
敵対者はポイズニングがしやすい
• Web スクレイピングで得た未校正のデータで学習したMLシステムなど。
• 敵対者が作成したポイズン画像や文章をFlickr、GitHub、Twitterにアップロードし、その
データで学習したモデルにバックドアを作れる。
学習済みモデルの危険性
• 学習済みモデルにバックドアがあると、下流タスクにまでバックドアが拡散する可能性が
ある。
Backdoors

• モデルがどのような能力を持っているかを知ることで、モデルをより安全
に利用することができる。
大規模モデルは、設計者が気づかないような能力を持っていることが多い。
• 例１：GPT-3は、明示的な演算処理の教師データがないにも関わらず、演算処理能力
を獲得した。
• 例２：画像・テキストのマルチモーダルモデルのCLIPがリリースされた後、利用者は、
クエリに「 Unreal Engine 」を追加することで、合成された画像が大幅に改善される
ことを発見。
Emergent Hazardous Capabilities
https://ml.berkeley.edu/blog/posts/clip-art/

未知の能力の獲得が嬉しいことばかりではない。
• 将来のMLモデルでは、有害なコンテンツや違法なコンテンツの生成が意図せず、で
きるようになる可能性がある。児童ポルノ、脱法行為の提案、爆弾の製造方法など
研究の方向性
• モデルを検査する技術やツールを開発
• 大規模な研究グループがモデルを調査し、まだ発見されていない能力を発見する。
• 良くない能力が訓練中に獲得されないように、学習アルゴリズムの検討。
• 良くない能力を既に獲得したMLシステムに対して、その能力を忘却させる方法の検
討。
Emergent Hazardous Capabilities

Alignment
強化学習、逆強化学習、報酬設計、選好学習、倫理、公平性

Alignment
• 将来のMLシステムはよりエージェント的なものになるかもしれない。
• 世界の良い状態を好み、悪い状態を避けるMLエージェントを作るにはどうすればいい
のか？
• 従来の目的関数は、システムの望ましい状態に近づくようにエージェントの振る舞いを
学習させていた。
• 世界の良い状態を好ませるために、目的関数に人間の価値観を導入する必要がある。し
かし、技術的な課題だけでなく、社会的な課題を克服する必要がある。
• 目的関数と人間の価値観の整合性に関する社会的な課題について簡単に説明し、技術的
な整合性の課題について詳細に紹介されている。

External Safety
安全でないコードをパッチする
サイバー攻撃を検知する
イベントと効果の予測
重要な検討事項の提起

External Safety
• MLシステムは、駆動する外部の文脈が不安定で、乱れていると、失敗
したり、誤った方向に進んだりする可能性が高くる。
サイバーセキュリティ
• 将来的にMLがサイバー攻撃を防ぐ可能性がある。
情報を得た上での意思決定
• MLを使ってガバナンスの決定や指揮統制の運用を改善する。

External Safety
危機感
• 最先端のMLモデルをハッキング用に微調整することができれば、貴重な情報を破壊し、さらに
は電力網や建物のハードウェアなどの重要な物理的インフラを破壊する可能性がある。
• これらの潜在的な攻撃は、国際的な安全保障にとって迫り来る脅威となっている。
研究の方向性
• サイバーセキュリティのためのMLの研究はほとんどない。
• MLを応用してより優れた防御技術を開発する必要がある。
• 侵入者やなりすましの検出、コードを解析してソフトウェアの脆弱性を検出するMLシステム。
• プログラムが送信すべきでないパケットを送信していないかを検出するMLシステム。
• コード変換やコード生成の進歩により、将来のモデルはセキュリティパッチを適用してコード
をより安全にすることができ、将来のシステムはセキュリティ脆弱性を警告するだけでなく、
それを修正することができるようになる。

まとめ
4つの領域は互いに関係している。技術の動向をこれからも注目したい。
予測の信頼
大規模モデルの調査
異常検知
Long tail 頑健性
環境の変化への適応
報酬設計
公平性・倫理

[論文紹介] 機械学習システムの安全性における未解決な問題

More Related Content

What's hot

Similar to [論文紹介] 機械学習システムの安全性における未解決な問題

More from tmtm otm

[論文紹介] 機械学習システムの安全性における未解決な問題