Who Is Included in Human Perceptions of AI? : Trust and Perceived Fairness around Healthcare AI and Cultural Mistrust

Who Is Included in Human
Perceptions of AI?

: Trust and Perceived Fairness around
Healthcare AI and Cultural Mistrust
# CHI 202
1

# Min Kyung Lee, Kate Rich
*

# 20211005 김민주

Index
• Why this paper
• Background
• Research Question
• Study Methodology
• Findings
• Takeaway

그동안 Algorithm의 공정성에 대해 관심을 가지면서…
Why this paper
• [CHI20] Co-Designing Checklists to Understand Organizational
Challenges and Opportunities around Fairness in AI
-> 공정한 AI 시스템을 만들기 위한 조직 차원에서의 노력에 대한 가이드라인

• [CHI20] Factors Influencing Perceived Fairness in Algorithmic
Decision-Making: Algorithm Outcomes, Development
Procedures, and Individual Di
ff
erences
-> 사람들의 Fairness에 영향을 미치는 요소, 인식 수준에 대해 탐구

-> 의사결정 시스템의 경우 우호적인 결과를 주면 더 공정하다고 인식

-> 인간의 oversight가 들어갈수록 Fair하다고 여김

Q. 공정성 자체가 주관적인/모호한 개념이므로, 똑같은 AI-system에 대해서도
사람마다 느끼는 정도가 다르지 않을까…?

Background
• 선행연구에 따르면,

• 특히 인간 고유만의 특정 능력을 요구하거나/주관적이거나/개인의 특성에 대한 고
려가 필요한… 그런 특수한 상황의 경우는 더욱 알고리즘-의견을 불호하는 경향 有

• 사람들은 알고리즘에 의한 allocation이 인간이 한 것보다 실제로 더 불공평하다
생각함.

• 미국내 흑인: 의료 상황에서 더 불신이 다른 인구집단보다 큼

• 특정 영역에서 차별을 받는다고 생각한다면, 여전히 인간-의견을 더 신뢰하는지 혹
은 알고리즘-의견을 더 신뢰하는지?

“아직까지는 알고리즘 < 인간에 의한 의사결정을 더 신뢰…?”
➡ 본 연구에서는 선행연구들과 달리 사용자가 보편적으로 형성하고 있는 알고리즘
편견에 대해서가 아니라, 특정 집단 혹은 그 안의 개인이 공유하고 있는 경험 혹은
편견으로 인해 형성된 신뢰도가 어떻게 다른지, 그리고 이로 인해서 알고리즘의
공정성에 대한 인식이 개인별로 어떻게 달라지는 지에 초점

Research Question
• 가설1: 인간 시스템에 대해 낮은 불신을 가진 사람들은 알고리즘에 의한 결정이 인간
에 의한 결정보다 덜 신뢰적이고 덜 공정할 거라고 인지할 것이다.

• 가설2: 인간 시스템에 대한 높은 불신을 가진 사람들은 알고리즘에 의한 결정이 인간
에 의한 결정보다 덜 신뢰적이고 덜 공정할 것라고 인지하지 않을 것이다.

Study Methodology
• Amazon mTurk에서 흑인과 백인 대상으로 2차례의 survey 진행

• 첫번째 survey: GBMMS scale(Group based medical mistrust)로 의료
시스템에 대한 전반적인 불신뢰의 정도를 체크

• 두번째 survey: 피부암 검진 시나리오(by AI or 인간)를 랜덤으로 평가

• 총 280명가 참가했고, 필터링을 거쳐 187명의 데이터 사용

• Demographic info.: 평균 30-39세. 흑인 45%. 여성 40%.
인터뷰
2차례 설문
“2가지 종류의 온라인 설문(mTurk)과 반구조화 인터뷰 진행”

Study Methodology
* Suvey에 참여자들의 demographic 정보

Study Methodology
* 첫번째 Suvey 피험자들의 GBMMS 정보

Study Methodology
• 두번째 survey: 피부암 검진 시나리오(by AI or 인간)를 랜덤으로 평가

i) 피험자에게 피부암 진단에 대한 시나리오를 먼저 상상하게 한 후

ii) 둘 다 피부암이 있는지 없는지를 판단하는 시나리오라고 소개됨

iii) 두 시나리오는 조건적으로 동일(같은 내용/어휘선택/센서/기술)

iv) 피부암 검진 시나리오(by AI or 인간)를 무작위로 배정로해줌

v)1주일 후에 피부암 검진에 대한 결과를 제공해준다고 하고 시나리오 종료
인터뷰
2차례 설문

Study Methodology
* 두번째 survey의 피부암 진단 시나리오 예시

Study Methodology
• 반구조화 화상 인터뷰 형식으로 21명의 참가자를 대상으로 30분 진행

• 인터뷰 내용

• AI 기반의 의료-의사결정에 대해 어떻게 생각하는지?

• 의료에 있어 신뢰감을 주는 요소가 무엇인지

• AI에 대한 다른 type 설명(description)을 제시하고, 어떤 정보가 있어야 AI에
대한 신뢰감이 높아질지?

• Faireness-driven, Data-driven, Anti-Discrimination
인터뷰
2차례 설문

Study Methodology
* 반구조화 인터뷰 참여자들의 demographic 정보

Study Methodology
* AI description 정보

Findings
• Low-mistrust인 사람은 의사(인간)와의 의료 경험이 전반적으로 긍정적이었고, 구
체적으로 잘 기억하거나 색다른 점을 못느낌.

• 반대로 High-mistrust인 사람은 의사(인간)와의 의료 경험이 부정적. 이 중 대부분은
흑인이었음. 의사가 인종차별주의자가 아니었다고 해도, 그들이 자신의 말을 못알아듣
거나 무시할 것이라는 불안감을 가지고 있었음.

• 물론 High-mistrust인 경우에도 긍정적인 의료 경험을 한 사람들도 있는데, 이 경우
에는 자신의 사는 지역 사회에서는 대부분 같은 인종(흑인 환자-흑인 의사)을 만나기
때문에 공정하게 대우받았다고 느낄 수 있었다고 함.

• 결과적으로 High-mistrust가 전반적인 의료 시스템이나 그에 대한 상호작용을 판단
하는 indicator가 될 수 있지만, 자신이 속한 지역사회의 의사 ‘개인’에 대해서는 반대
의 감정을 가지고 있을 수 있음.
“개인의 신뢰도와 의료 체계에 대한 경험의 상관관계”

Findings
• Low-mistrust인 백인 참가자는 의료-AI의 편향에 대해서 걱정하기도 하지만,의료-
AI가 편향되지 않을 수 있다고 믿는 사람도 有.

• 의료-AI가 편향되지 않을 거라고 믿는 사람은, 인간-의사가 편향되어서가 아니라
반증적으로 의료-AI가 낫다가 아니라, 사실에 근거하기 때문에 편향될 가능성 無.

• 오히려, 현 의료 체계에 대한 High-mistrust인 흑인 참가자가 Low-mistrust인 백
인 참가자보다 의료-AI의 잠재적인 편향에 대해서 더 많이 우려를 표함.

• AI의 데이터가 특정 인구 집단을 바탕으로 형성될 것이고, 그렇기 때문에 흑인한테
편향적일 수 있다고 우려를 표함.

• 흑인 사이에서도 AI는 편향되지 않을거다 편향될 것이다 의견이 분분함.

• 결과적으로, AI가 편향될거라 생각했던 사람은 모두 High-mistrust인 흑인 참가자
들이었음.

• AI에 대한 자세한 설명을 듣기 전까지 백인은 편향에대해 고려하지 못함.

• Ex) P3: ‘저는 전혀 AI가 편향될 수 있을 가능성에 대해 생각해본 적이 없어요. 개인정보 침해 문제정도만 생각
했지. 아마 제가 백인이어서 누리는 특권이겠죠?”
“Mistrust의 정도에 따라 의료-AI가 편향에 대한 의견이 다름”

Findings
“제공되는 정보가 많을수록 AI에 대한 신뢰도가 향상됨”
• 의료-AI를 신뢰하기 위해서 원하는 정보 유형은…

• 사용 기간, 프라이버시, 정확성, 데이터 소스, 작동 원리, 공식 인증 여부, 인간의 개
입 여부 등

• 상당히 오랜 기간동안 의료-AI가 사용될수록 전반적인 신뢰도가 높아짐.

• 프라이버시에 대한 염려도는 High-mistrust인 참가자일수록 높았음.

• 의료-AI를 신뢰하는데 있어 가장 중요한 요소는 ‘정확도’ (21명 中 13명)

• 다른 참가자들은 특정 수치에 대해서는 언급 안했는데, 흑인 참가자의 경우 특정 피
부색에 대한 AI의 정확도가 얼마나 되는 지를 물어봄. 피부색이 달라질 경우의 정확
도가 어느정도 되는지 등의 구체적 수치를 궁금해함.

• P21: “검정 피부를 센서로 감지하고 테스트 하는게 어려울 거에요. 본래 테스트 할 때의 피험자의 인종은 무엇
이었는지 궁금해요.”

• 전반적으로, 특정 전문기관으로부터 인증을 받았는지, AI의 reliability를 궁금해 함.

• 전반적으로, AI가 피부암을 판별하는 프로세스 등의 작동 원리 대해서도 궁금해 함.

• High-mistrust인 흑인 참가자의 경우 데이터 소스에 대해 궁금해 함.

• 의사(인간)가 의료-AI의 판단 과정에 개입하는지에 대해서도 궁금해 함.

Findings
“의료-AI에 대한 설명을 듣고 나서 반응이 제각각임.”
• Data-Driven, Fairness-Driven, and Anti-Discrimination 종류 중에서는 마
지막 Anti-Discrimination AI 설명을 가장 선호함. (21명 中 15명)

• 하지만, High-mistrust인 참가자는 그것이 정말 편견을 예방하는데 얼마나 진실
되고 효과적인지에 대해서는 회의적이었음.

• Data-driven의 경우 구체적인 수치를 주기에 안심시켜주는 효과 있다고 느낌.

• Low-mistrust인 참가자의 경우, 공정성에 대한 보장이 필요하지 않기 때문에, Fair-
driven AI에 대해 부정적이지도 긍정적이지도 않게 생각함.
• High-mistrust인 참가자의 경우

• AI 설명을 더 요구했으며, 정확도가 구체적으로 얼마인지, 다양한 피부색 이미지들
이 데이터로 반영되었는지 등을 궁금해함.

• AI의 공정성에 대해 강한 리액션을 보였는데,

• P21: “임상 실험이라든지 그런 구체적인 곳에서 이뤄진다면 진정성이 있겠지
만… 그냥 립서비스에 불과한 것 같아요.”

• 아이러니하게도, High-mistrust인 흑인 참가자들이 Anti-Discrimination을 선호
하는 듯 하면서도, 이것이 정말 공정한 지에에 대해서는 더 비판적이기도 했음

Takeaway
• 가장 큰 인사이트는…
• 똑같은 요소를 가진 알고리즘이라 하더라도 받아들여지는 신뢰성/ 공정성의 정도는
개인이 속한 집단의 성향에 따라 그리고 그로 인한 경험에 따라서 달라질 수 있음.

• 기존 선행연구에 따르면, AI-시스템의 신뢰도를 높이기 위해 인간-개입적/결정적
요소를 높이는 방안을 고려했는데… 모든 사용자가 모든 영역에서 인간-결정이 알
고리즘-결정보다 신뢰감 있다고 생각하는 것은 아니므로, 오히려 역효과를 불러일
으킬 수 있음.

• 아쉬운 것은…
• 사용자가 인식하는 알고리즘의 공정성/신뢰성 등을 측정하는 Data-driven or 좀
더 생생한 실험 설계/방법론을 기대했으나, 여전히 인터뷰/설문 의존적인 질적 연
구인 점이 아쉬움

• 좀 더 탐구해볼 것은…
• 기존 알고리즘이 적용된 의사 결정 시스템에서 ‘로그 데이터’로 알고리즘의 공정성/
신뢰성 등에 대한 사람들의 인식을 파악하는 방법이 있을지?

• 본 연구에서처럼 인종 외에도, 특정 알고리즘에 대한 공정성/신뢰성 인식에 크게 영
향을 미치는 요소가 있을지? ex) 교육수준, 직업의 유형, 성별, 나이 등…

Who Is Included in Human Perceptions of AI? : Trust and Perceived Fairness around Healthcare AI and Cultural Mistrust

Recommended

Recommended

More Related Content

Featured

Featured (20)

Who Is Included in Human Perceptions of AI? : Trust and Perceived Fairness around Healthcare AI and Cultural Mistrust