10
本⽇は不確かさの活⽤効果を紹介
⼈は「予測を信頼する」ことができるのでしょうか
ユーザー調査した論⽂( FAT’20 採択)を1本紹介します。
FAT=Fairness, Accountability, and Transparency
Zhang, Yunfeng, Q. Vera Liao, and Rachel KE Bellamy. "Effect of confidence and explanation on accuracy and trust calibration in AI-
assisted decision making." Proceedings of the 2020 Conference on Fairness, Accountability, and Transparency. 2020.
13
実験設定
予測の不確かさがMLシステムの信頼性向上につながるのか
Zhang, Yunfeng, Q.Vera Liao, and Rachel KE Bellamy. "Effect of confidence and explanation on accuracy and trust calibration in AI-assisted decision making."
Proceedings of the 2020 Conference on Fairness, Accountability, and Transparency. 2020.
タスク
参加者
実験⼿順
評価指標
Amazon Mechanical Turk 72名
⾮ドメイン専⾨家
確信度を⽰す vs. ⽰さない
1回⽬は説明変数を⾒て⾒積もる
2回⽬はAIの予測を⾒て⾒積もる
40回試⾏
ある⼈の年収が5万ドルを超えるか所得予測
説明変数の例
スイッチ率:参加者がAIの予測に変えた割合
⼀致率:AIと最終的に同じ回答の割合
実験設定
14.
14
実験結果
予測の不確かさを⽰すと、⼈は確信度のレベルに応じてAIを頼る。
Zhang, Yunfeng, Q.Vera Liao, and Rachel KE Bellamy. "Effect of confidence and explanation on accuracy and trust calibration in AI-assisted decision making."
Proceedings of the 2020 Conference on Fairness, Accountability, and Transparency. 2020.
⼀致率
スイッチ率
条件 結果
確信度あり 確信度が⾼いとAIの結果を頼る。
最終的に確信度が⾼くなるにつれAIと同じ結果になる。
確信度なし ⼈はAIの結果を⾒ても変更しないことが多い。
19
参考⽂献
[1] Kendall, Alex,Vijay Badrinarayanan, and Roberto Cipolla. "Bayesian segnet: Model uncertainty in deep convolutional encoder-
decoder architectures for scene understanding." arXiv preprint arXiv:1511.02680 (2015).
[2] J. C. Reinhold, Y. He, S. Han, Y. Chen, D. Gao, J. Lee, J. L. Prince, and A. Carass, “Validating uncertainty in medical image
translation,” in 2020 IEEE 17th International Symposium on Biomedical Imaging (ISBI). IEEE, 2020, pp. 95–98
[3] Sedlmeier, Andreas, et al. "Uncertainty-based out-of-distribution classification in deep reinforcement learning." arXiv preprint
arXiv:2001.00496 (2019).
[4] J. Gawlikowski, S. Saha, A. Kruspe, and X. X. Zhu, “Out-of-distribution detection in satellite image classification,” in RobustML
workshop at ICLR 2021. ICRL, 2021, pp. 1–5.
[5] Gawlikowski, Jakob, et al. "A survey of uncertainty in deep neural networks." arXiv preprint arXiv:2107.03342 (2021).
23
実験設定
予測の不確かさがMLシステムの解釈性向上につながるのか
Suresh, Harini, etal. "Intuitively assessing ml model reliability through example-based explanations and editing model inputs." 27th
International Conference on Intelligent User Interfaces. 2022.
タスク
参加者
実験⼿順
評価
⼼電図の波形の4分類問題
医療従事者 14名(ドメイン知識あり)
特徴空間内にあるサンプルのK近傍を可視化させ、不確実性を可視化
声に出しながら、インタラクティブに操作させ、感想を聞く
定性的な⾳読調査
50近傍 確信度
4クラス
4近傍のサンプルの可視化
24.
24
予測の不確かさがMLシステムの解釈性向上につながる
不確かさを元からあるドメイン知識に関連付け、モデルの挙動を理解
Suresh, Harini, etal. "Intuitively assessing ml model reliability through example-based explanations and editing model inputs." 27th
International Conference on Intelligent User Interfaces. 2022.
参加者の声からわかったこと
• 「正常な拍動と似ているから同じクラスになっている。」とその不確実性をドメイン知識で解釈し、
モデルの予測を理解した。
• ⼀⽅で、最初の直感に反していても、間違った予測を合理化することが多かった。
例えば、ある参加者は異常な拍動を⾒て、最初は異常だと⾔い始めたが、予測されたクラスが(間
違って)正常であるのを⾒て、考えを変えた発⾔をした。
クラス間で元々似ている拍動
最初のスパイクの有無
31
実験設定
⼈は誤った予測を信じるのか
D. Dos SantosRibeiro, G. D. J. Barbosa, M. Do Carmo Silva, H. Lopes and S. D. J. Barbosa, "Exploring the impact of classification probabilities on users' trust in
ambiguous instances," 2021 IEEE Symposium on Visual Languages and Human-Centric Computing (VL/HCC)
タスク
参加者
実験⼿順
評価指標
88名(AI経験者51名、AI未経験者37名)
36回試⾏
1回は予測値のみ
2回⽬は分類確率も⾒せる
視覚的類似性も含む動物写真の分類問題
7段階評価
同意度:予測に同意するか
⾃信度:結果に⾃信があるか
32.
32
⼈の過剰信頼の傾向があるのか
過信の傾向がある。正しい分類よりも誤った分類に同意することが多い。
D. Dos SantosRibeiro, G. D. J. Barbosa, M. Do Carmo Silva, H. Lopes and S. D. J. Barbosa, "Exploring the impact of classification probabilities on users' trust in
ambiguous instances," 2021 IEEE Symposium on Visual Languages and Human-Centric Computing (VL/HCC)
条件 結果
確信度低い画像 間違ったラベルに対して、同意度7が多く、⾃信もあると答えている。
明確な画像 曖昧な画像
33.
33
分類確率の表⽰効果
過信は変化せず、不確かな同意が減り、適切な信頼が増えた。
不確かさは、過信を抑える効果はない。
D. Dos SantosRibeiro, G. D. J. Barbosa, M. Do Carmo Silva, H. Lopes and S. D. J. Barbosa, "Exploring the impact of classification probabilities on users' trust in ambiguous
instances," 2021 IEEE Symposium on Visual Languages and Human-Centric Computing (VL/HCC)
Fumeng Yang, Zhuanyi Huang, Jean Scholtz, and Dustin L. Arendt. 2020. How do visual explanations foster end users' appropriate trust in machine learning? In Proceedings of the 25th
International Conference on Intelligent User Interfaces (IUI '20).
リッカート尺度:[1, 2] 不信、[3, 4, 5] 不確かさ、[6, 7] 信⽤
35
過信を抑えるテクニック
UIでユーザーに考えさせる時間を与える。
Buçinca, Zana, MajaBarbara Malaya, and Krzysztof Z. Gajos. "To trust or to think: cognitive forcing functions can reduce overreliance
on AI in AI-assisted decision-making." Proceedings of the ACM on Human-Computer Interaction 5.CSCW1 (2021): 1-21.
AIの予測を結果をすぐに⾒せない
• クリックしたら⾒れるようにする。
• ⼀定時間経ったら⾒せる。
37
不確実の可視化⽅法
タスクの⽬的に応じて、可視化⽅法を変える必要がある。
Bhatt, Umang, etal. "Uncertainty as a form of transparency: Measuring, communicating, and using uncertainty." Proceedings of the 2021
AAAI/ACM Conference on AI, Ethics, and Society. 2021.
38.
38
不確実性の可視化によるバイアス
⽬的に応じた可視化をしないと不確かさを無視される
• ⽐率バイアス: 1/10よりも10/100の⽅が⼤きくに感じる。
•分⺟の過⼩評価:9/11は10/13より⼩さいと考える。
• 認知バイアス:例えば、乳がんの死亡確率20%よりも乳がんの⽣存確率80%を好む。
気温の予測範囲
利⽤者の状況
時間帯に応じてみたいのか
瞬間で気温をみたいのか
時系列予測
95%信頼区間表⽰にすると予測平均のみを意識される
アンサンブル表⽰にすると⼈は注意深く考える
Miriam Greis, Emre Avci, Albrecht Schmidt, and Tonja Machulla. 2017. Increasing Users' Confidence in Uncertain Data by Aggregating Data from Multiple Sources.
In Proceedings of the 2017 CHI Conference on Human Factors in Computing Systems (CHI '17).