予測の不確かさのユーザー調査

1
AI技術動向：予測の不確かさの活⽤について
第66回 Machine Learning 15minutes! Broadcast
2022/5/28
株式会社電通国際情報サービス
X(クロス)イノベーション本部 A Iランスフォーメンションセンター
太⽥真⼈

2
⾃⼰紹介
株式会社電通国際情報サービス
X(クロス)イノベーション本部
A Iランスフォーメンションセンター
仕事：AI製品開発、データ分析案件
好きなML技術
• ベイズ深層学習、予測の不確実性
• 今⽇の資料は後ほどアップロードします。
• Twitter @ottamm_190←質問などこちらに
太⽥真⼈

3
本⽇お話すること
予測の不確かさの活⽤⽅法を紹介します。
皆様の業務で予測の不確かさを検討するきっかけになれば幸いです。
• 予測の不確かさの概要
• 予測の不確かさの活⽤場⾯
• ユーザーに対する予測の不確かさの活⽤効果（論⽂紹介）

4
予測の不確かさとは
予測に対する確信度、複数のモデルによる予測の分散で表されます。
予測を点推定するのではなく、確率分布で表現します。
不確かさの原因は、データによるもの、モデルによるものがあります。
分類回帰
P(x)
0 x
y

5
研究動向：予測の不確かさ
「Uncertain」や「Bayesian」が論⽂のタイトルに年々多く含まれています。
特に⾮構造化データに対する予測の不確実性の定量化、OOD検知が多いです。
3
24
7
44
39
43
23
53
56
26
0
10
20
30
40
50
60
Bayesian Uncertain
NeurIPS
2017 2018 2019 2020 2021
7
4
8
3
22
10
23
16
28
24
0
5
10
15
20
25
30
Bayesian Uncertain
AAAI
2017 2018 2019 2020 2021
論
⽂
数

6
不確実性を意識して活⽤されていますか
例えば、Azure Computer Visionのレスポンスにも確信度が含まれています。
時系列予測ライブラリにもベイズモデリングで不確かさが定量化されています。
確信度
https://azure.microsoft.com/ja-jp/services/cognitive-services/computer-vision/
/https://facebook.github.io/prophet/
https://github.com/uber/orbit
時系列予測ライブラリ
Meta社 Uber社
Azure Computer Visionの例

7
いつ予測の不確かさを使うのが適切でしょうか
安全性・信頼性が必要な業界で必要とされています。
⾃動運転医療ロボット衛星データ
⼊⼒
真値
予測
予測分散
Semantic Segmentation
Bayesian SegNet [1]
深層強化学習
予測分散を制約条件[3]
テスト時に未知クラスを検知
分布外検知（OOD検知）[4]
CT画像の異常検知 [2]
⼈⼯データで不確実性の定量化
訓練ID
訓練OOD
テストOOD

8
もっとシンプルに予測の不確かさを活⽤する場⾯
⼈の意思決定の⽀援に活⽤できます。
⾜りないデータを知る
意思決定
データ収集する
ラベル付けする
モデルを改善する
ユースケース
データ収集コスト⾼
キーワード
ベイズ最適化（能動学習）
複雑なデータを知る
意思決定
ラベル誤りを探す
スコープを考え直す
データ取得⽅法を変える
ユースケース
データセット分析
キーワード
Example Difficulty
Label Noise
予測を信頼する
意思決定
AIの予測を使う
⼈の予測を使う
ユースケース
需要予測
確信度>閾値
⼈間
AI
Yes No
[5] [5]

9
予測の不確かさの定量化⼿法について
サーベイ論⽂をまとめたものをいくつかSlideShareにあげてます。
GitHubにも論⽂のリンク集を作りました。他の応⽤事例をまとめてます。
Speaker Deckに同じものアップしました。
https://speakerdeck.com/masatoto
Github
https://github.com/masamasa59/uncertainty-paper

10
本⽇は不確かさの活⽤効果を紹介
⼈は「予測を信頼する」ことができるのでしょうか
ユーザー調査した論⽂（ FAT’20 採択）を1本紹介します。
FAT= Fairness, Accountability, and Transparency
Zhang, Yunfeng, Q. Vera Liao, and Rachel KE Bellamy. "Effect of confidence and explanation on accuracy and trust calibration in AI-
assisted decision making." Proceedings of the 2020 Conference on Fairness, Accountability, and Transparency. 2020.

11
不確実性の定量化がユーザーに与える影響
正の影響
1. MLモデルへの信頼性の向上
2. MLモデルの解釈性の向上
3. ⾮専⾨家が専⾨家と同程度のパフォーマンスを獲得
負の影響
1. 予測値への過剰な信頼
2. 不確実性の可視化⽅法によるバイアス
複数の論⽂から正の影響と負の影響をまとめました。
本⽇は⼀番上の結果を紹介します。残りは付録に載せます。

MLシステムの信頼性の向上

13
実験設定
予測の不確かさがMLシステムの信頼性向上につながるのか
Zhang, Yunfeng, Q. Vera Liao, and Rachel KE Bellamy. "Effect of confidence and explanation on accuracy and trust calibration in AI-assisted decision making."
Proceedings of the 2020 Conference on Fairness, Accountability, and Transparency. 2020.
タスク
参加者
実験⼿順
評価指標
Amazon Mechanical Turk 72名
⾮ドメイン専⾨家
確信度を⽰す vs. ⽰さない
1回⽬は説明変数を⾒て⾒積もる
2回⽬はAIの予測を⾒て⾒積もる
40回試⾏
ある⼈の年収が5万ドルを超えるか所得予測
説明変数の例
スイッチ率：参加者がAIの予測に変えた割合
⼀致率：AIと最終的に同じ回答の割合
実験設定

14
実験結果
予測の不確かさを⽰すと、⼈は確信度のレベルに応じてAIを頼る。
⼀致率
スイッチ率
条件結果
確信度あり確信度が⾼いとAIの結果を頼る。
最終的に確信度が⾼くなるにつれAIと同じ結果になる。
確信度なし⼈はAIの結果を⾒ても変更しないことが多い。

15
⼈とAIの協調は実現したのか
確信度を⽰すことで⼈とAIの協調による精度向上は⾒られなかった。
原因は予測モデルの分類境界が⼈の感覚の分類境界と似ていたため。
条件結果
確信度の有無参加者⾃⾝の予測精度は平均65%、AIの予測精度は75%でした。
予測精度の順番：参加者＜AI＋参加者＜AI
確信度があっても精度は変わらない

16
まとめ
予測の不確かさの活⽤⽅法をざっくりと紹介しました。
• 研究界隈で年々論⽂数が増加し、ホットです。
• MLシステムを構築・運⽤するタイミングでも役⽴ちます。
• ⼈が予測の不確かさをどう感じるのか調査した論⽂を紹介しました。
予測の不確かさを活⽤して、⼈に信頼される製品を作りませんか。

17
外観検査で⼈とAIの協調
⼈⼯知能学会全国⼤会(JSAI2022) でポスター発表します。
「モデルの不確実性を考慮した外観検査の効率化」
Q. 異常検知システムに全ての判断を託せませすか？
Q. いつ、⼈が⽬視検査していますか？
Q. いつ、AIの結果を信頼しますか？
Q. AIの苦⼿な部分を⼈が取り組むことで、⼈の業務効率は改善されますか？

18
ISID AI Days 2022
詳しくは
知識の無い⽅も歓迎
AI基礎講座も充実
事前アンケートによる
視聴者参加型
セッション(⼀部)
25以上のコンテンツが無料で
5⽇間⾒放題
https://mfg.isid.co.jp/event/detail/isid-ai-days-2022.php
参加申し込み URL

19
参考⽂献
[1] Kendall, Alex, Vijay Badrinarayanan, and Roberto Cipolla. "Bayesian segnet: Model uncertainty in deep convolutional encoder-
decoder architectures for scene understanding." arXiv preprint arXiv:1511.02680 (2015).
[2] J. C. Reinhold, Y. He, S. Han, Y. Chen, D. Gao, J. Lee, J. L. Prince, and A. Carass, “Validating uncertainty in medical image
translation,” in 2020 IEEE 17th International Symposium on Biomedical Imaging (ISBI). IEEE, 2020, pp. 95–98
[3] Sedlmeier, Andreas, et al. "Uncertainty-based out-of-distribution classification in deep reinforcement learning." arXiv preprint
arXiv:2001.00496 (2019).
[4] J. Gawlikowski, S. Saha, A. Kruspe, and X. X. Zhu, “Out-of-distribution detection in satellite image classification,” in RobustML
workshop at ICLR 2021. ICRL, 2021, pp. 1–5.
[5] Gawlikowski, Jakob, et al. "A survey of uncertainty in deep neural networks." arXiv preprint arXiv:2107.03342 (2021).

21
正の影響
2. MLシステムの解釈性の向上
負の影響

MLシステムの解釈性の向上

23
実験設定
予測の不確かさがMLシステムの解釈性向上につながるのか
Suresh, Harini, et al. "Intuitively assessing ml model reliability through example-based explanations and editing model inputs." 27th
International Conference on Intelligent User Interfaces. 2022.
タスク
参加者
実験⼿順
評価
⼼電図の波形の４分類問題
医療従事者 14名（ドメイン知識あり）
特徴空間内にあるサンプルのK近傍を可視化させ、不確実性を可視化
声に出しながら、インタラクティブに操作させ、感想を聞く
定性的な⾳読調査
50近傍確信度
4クラス
4近傍のサンプルの可視化

24
予測の不確かさがMLシステムの解釈性向上につながる
不確かさを元からあるドメイン知識に関連付け、モデルの挙動を理解
Suresh, Harini, et al. "Intuitively assessing ml model reliability through example-based explanations and editing model inputs." 27th
International Conference on Intelligent User Interfaces. 2022.
参加者の声からわかったこと
• 「正常な拍動と似ているから同じクラスになっている。」とその不確実性をドメイン知識で解釈し、
モデルの予測を理解した。
• ⼀⽅で、最初の直感に反していても、間違った予測を合理化することが多かった。
例えば、ある参加者は異常な拍動を⾒て、最初は異常だと⾔い始めたが、予測されたクラスが（間
違って）正常であるのを⾒て、考えを変えた発⾔をした。
クラス間で元々似ている拍動
最初のスパイクの有無

⾮専⾨家が専⾨家と
同程度のパフォーマンスを獲得

26
実験設定
予測の不確かさに対する信頼は参加者の事前知識に依存するのか
McGrath, Sean, et al. "When does uncertainty matter?: Understanding the impact of predictive uncertainty in ML assisted decision
making." arXiv preprint arXiv:2011.06167 (2020).
タスク
参加者
実験⼿順
評価指標
複数の⼤学の研究者や⽣徒 95名
ドメイン知識かMLに関する参加者の専⾨知識の効果
1回⽬は予測を⾒る前に⾒積もる
2回⽬は予測と不確かさを⾒た後に⾒積もる
ケンブリッジにあるアパートの⽉々の賃貸価格を予測
1回⽬と２回⽬の⾒積もりの差
1回⽬の⾒積もりとモデル予測の差
2回⽬の⾒積もりとモデル予測の差
予測分布
予測値
説明変数
１回⽬の⾒積もり

27
参加者の事前知識による予測の信頼結果
⾮専⾨家が専⾨家と同程度のパフォーマンスを獲得
条件結果
ドメイン知識の有無右図を⾒ると、ドメイン知識がある⽅が予測値との誤差が少ない。
AIの予測値を⾒てからの変更量はドメイン知識がない⽅が⼤きい。
最終的にドメイン知識のある⼈と予測結果が変わらなくなった。
ML知識の有無多少知識がある⼈が⼀番AIの値を頼る結果になった。
ドメイン知識
ML知識

28
補⾜：分布の違いで⼈の信頼度は変わるのか
分散が⼩さいほど、信頼度が⾼い
条件結果
ドメイン知識の有無分散が⼩さいほど予測に最も近づけている。
分散⼤、多峰性の分布でも、不確実性がない場合と同程度の影響があった。

29
正の影響
2. MLシステムの解釈性の向上
負の影響

31
実験設定
⼈は誤った予測を信じるのか
D. Dos Santos Ribeiro, G. D. J. Barbosa, M. Do Carmo Silva, H. Lopes and S. D. J. Barbosa, "Exploring the impact of classification probabilities on users' trust in
ambiguous instances," 2021 IEEE Symposium on Visual Languages and Human-Centric Computing (VL/HCC)
タスク
参加者
実験⼿順
評価指標
88名（AI経験者51名、AI未経験者37名）
36回試⾏
1回は予測値のみ
2回⽬は分類確率も⾒せる
視覚的類似性も含む動物写真の分類問題
７段階評価
同意度：予測に同意するか
⾃信度：結果に⾃信があるか

32
⼈の過剰信頼の傾向があるのか
過信の傾向がある。正しい分類よりも誤った分類に同意することが多い。
D. Dos Santos Ribeiro, G. D. J. Barbosa, M. Do Carmo Silva, H. Lopes and S. D. J. Barbosa, "Exploring the impact of classification probabilities on users' trust in
ambiguous instances," 2021 IEEE Symposium on Visual Languages and Human-Centric Computing (VL/HCC)
条件結果
確信度低い画像間違ったラベルに対して、同意度7が多く、⾃信もあると答えている。
明確な画像曖昧な画像

33
分類確率の表⽰効果
過信は変化せず、不確かな同意が減り、適切な信頼が増えた。
不確かさは、過信を抑える効果はない。
D. Dos Santos Ribeiro, G. D. J. Barbosa, M. Do Carmo Silva, H. Lopes and S. D. J. Barbosa, "Exploring the impact of classification probabilities on users' trust in ambiguous
instances," 2021 IEEE Symposium on Visual Languages and Human-Centric Computing (VL/HCC)
Fumeng Yang, Zhuanyi Huang, Jean Scholtz, and Dustin L. Arendt. 2020. How do visual explanations foster end users' appropriate trust in machine learning? In Proceedings of the 25th
International Conference on Intelligent User Interfaces (IUI '20).
リッカート尺度：[1, 2] 不信、[3, 4, 5] 不確かさ、[6, 7] 信⽤

過信を抑えるテクニック

35
過信を抑えるテクニック
UIでユーザーに考えさせる時間を与える。
Buçinca, Zana, Maja Barbara Malaya, and Krzysztof Z. Gajos. "To trust or to think: cognitive forcing functions can reduce overreliance
on AI in AI-assisted decision-making." Proceedings of the ACM on Human-Computer Interaction 5.CSCW1 (2021): 1-21.
AIの予測を結果をすぐに⾒せない
• クリックしたら⾒れるようにする。
• ⼀定時間経ったら⾒せる。

不確実性の可視化⽅法によるバイアス

37
不確実の可視化⽅法
タスクの⽬的に応じて、可視化⽅法を変える必要がある。
Bhatt, Umang, et al. "Uncertainty as a form of transparency: Measuring, communicating, and using uncertainty." Proceedings of the 2021
AAAI/ACM Conference on AI, Ethics, and Society. 2021.

38
不確実性の可視化によるバイアス
⽬的に応じた可視化をしないと不確かさを無視される
• ⽐率バイアス： 1/10よりも10/100の⽅が⼤きくに感じる。
• 分⺟の過⼩評価：9/11は10/13より⼩さいと考える。
• 認知バイアス：例えば、乳がんの死亡確率20％よりも乳がんの⽣存確率80％を好む。
気温の予測範囲
利⽤者の状況
時間帯に応じてみたいのか
瞬間で気温をみたいのか
時系列予測
95%信頼区間表⽰にすると予測平均のみを意識される
アンサンブル表⽰にすると⼈は注意深く考える
Miriam Greis, Emre Avci, Albrecht Schmidt, and Tonja Machulla. 2017. Increasing Users' Confidence in Uncertain Data by Aggregating Data from Multiple Sources.
In Proceedings of the 2017 CHI Conference on Human Factors in Computing Systems (CHI '17).

予測の不確かさのユーザー調査

More Related Content

What's hot

Similar to 予測の不確かさのユーザー調査

More from tmtm otm

予測の不確かさのユーザー調査