"Be careful: things can be worse than they appear": Understanding Biased Algorithms and Users' Behavior around Them in Rating Platforms

“Be careful; things can be worse
than they appear”:  
Understanding Biased Algorithms
and Users’ Behavior around Them
in Rating Platforms
+ AAAI Conference on Web and
Social Media 2017
- Eslami et al.,
/강슬기
x 2018 Fall

Why this paper?
튜토리얼을 준비하는 자세…
▪︎ ‘알고리즘 경험’에서 제안할 수 있는 인터페이스 상의 구성에 관심을 갖고 있읍니다 
- 그중에서도 어떤 정보가 중요하며, 제공해야 하는 요소와 사용자가 필요로 하는 요소는 무엇인가? 
- 과연 데이터의 feature에 대한 중요도만으로 인터페이스의 구성 요소가 결정될 수 있을까? 
- 이를 인터페이스상의 제언까지 이끌어가는 흐름
!2

Authors
Eslami, 사용자가 알고리즘에 대해 인식하고 경험하는데 관심
▪︎ 뜨거운 감자, 알고리즘 경험에 대한 논문을 찾다보면 어렵지 않게 발견할 수 있는 이름
▪︎ 과거 발제했던 ‘유저 컨트롤의 플라시보 효과’에도 기여한 바 있음
!3

Intro
알고리즘에서 나타나는 ‘편향’된 사용 예시, Rating System
▪︎ 알고리즘은 시스템과 사용자의 인터랙션 전반에 영향
▪︎ 특히 순위 평가 rating 알고리즘은 큰 영향을 미치는 알고리즘 중 하나
!4
May 2016, 호주 Uber :  
회사가 의도적으로 평점을 낮추어  
더 많은 수수료를 청구한다는 점을 고발
"투명성의 결여가 Uber로 하여금 평가의 등급 조작을
가능하도록 했다는 것”
>> 이러한 이슈는 리서치, 알고리즘 감사(심사,audits)
에서 대두되고 있으며, 이는 알고리즘 시스템이 가질
수 있는 편향을 감지하는 것을 목표로 함

Intro
호텔 등급 평가 시스템에서 나타나는 ‘편향’의 가능성
▪︎ 등급 평가 시스템(Rating system)은 블랙 박스 같은 특성과 비지니스 평가에 미치는 영향으로 인해 ‘편향’될
수 있는 알고리즘 시스템 중 하나
▪︎ Booking.com도 편향된 알고리즘을 가진 평가 플랫폼 : 
- 사용자는 전체 점수가 아닌 위치 및 직원의 태도와 같은 평가 항목에만 평가 가능 
- 세부 평가 항목은 2.5부터 시작하는 반면, 전체 점수가 나타나는 인터페이스에서는 1점부터 점수가 등장
!5
직원, 시설, 청결도와 같은 개별 평가항목은
최저 점수를 2.5점 이하로 줄 수 없음
전체 점수를 보여줄 경우,
최저 점수는 0점에서부터 시작

Intro
호텔 등급 평가 시스템에서 나타나는 ‘편향’의 가능성
▪︎ 등급 평가 시스템(Rating system)은 블랙 박스 같은 특성과 비지니스 평가에 미치는 영향으로 인해 ‘편향’될
수 있는 알고리즘 시스템 중 하나
▪︎ Booking.com도 편향된 알고리즘을 가진 평가 플랫폼 : 
- 사용자는 전체 점수가 아닌 위치 및 직원의 태도와 같은 평가 항목에만 평가 가능 
- 세부 평가 항목은 2.5부터 시작하는 반면, 전체 점수가 나타나는 인터페이스에서는 1점부터 점수가 등장
!6
직원, 시설, 청결도와 같은 개별 평가항목은
최저 점수를 2.5점 이하로 줄 수 없음
전체 점수를 보여줄 경우,
최저 점수는 0점에서부터 시작
이러한 모순이 호텔의 전반적인 평가에 얼만큼 편향을 불러오는지
사용자는 이에 대해 어떻게 반응하는지 알아보기 위한 연구 문제 3가지
Research Questions
Booking.com의 알고리즘 평가 시스템은
기업의 평가에 편향을 얼마나 불러일으키는가?
사용자는 Booking.com의 알고리즘 등급 평가 시스템의 편향을 알고 있는가?
만약 알고 있는 경우, 어떻게 알게된 것인가?
Booking.com의 알고리즘 등급 평가 시스템이 경험에 주는 편향을
사용자가 어떻게 인식하고 관리하는가?
RQ1
RQ2
RQ3

Cross-Platform Audits 
교차 플랫폼 감사기법
Approach
알고리즘의 ‘편향’을 확인하기 위한 두가지 접근법
▪︎ 편향이나 불법적인 행동이 미칠 영향을 이해하기 위해 전통적인 감사(audit) 조사 방식을 따름
▪︎ 그러나, 알고리즘의 블랙박스 같은 속성이 이러한 이해를 어렵게 만드는 요소
▪︎ 이에 따라 '외부에서부터' 알고리즘의 편향을 감사하는 형태로 설계되고 있음
!7
** sock puppet 기법 :
- 알고리즘에 입력되는 가짜 프로필을 만들어 그 결과값
(output)을 분석하고 편향을 조사하는 것
- 이러한 방법은 플랫폼의 Terms of Service에 위배될 가능성
이 있음
알고리즘이 모든 입력값(input)에 편향을
가져올 경우, 플랫폼간의 비교
비슷한 목적으로 제공된 알고리즘 시스템
의 결과값을 비교하는 것
알고리즘이 어떤 특정한 카테고리의
입력값에 따라 다르게 동작하는지 확인하기 위해
쿼리를 알고리즘 시스템의 입력으로 실행하고 출력을 분석
Within-Platform Audits 
플랫폼 내 감사기법

Method
▪︎ Cross-Platform Audits의 사용 : 
- 호텔의 전반적인 평가에 Booking.com의 가장 낮을법한 점수의 inflation이 나타나는지, 어떻게 나타나는
지 알아보기 위해 다른 플랫폼과의 비교 시도  
▪︎ 미국 내 10개 도시에 있는 모든 호텔 1576개
▪︎ Hotels.com, Expedia에서 호텔의 리뷰와 등급 수집
▪︎ 3개 사이트 모두에서 평가된 803개의 호텔 최종 분석 대상 
▪︎ 등급을 매긴 척도가 모두 다르므로 비교를 위해 같은 척도로 매핑
booking.com의 ‘편향’을 확인하기 위해 다른 플랫폼과 비교
RQ1 Booking.com의 알고리즘 평가 시스템은 기업의 평가에 편향을 얼마나 불러일으키는가?
!8

7점 이하로 평가된 호텔들에서
다른 두 플랫폼에 비해 큰 차이를 보이는 것을 볼 수 있음
Results
▪︎ ANOVA분석 결과,  
세개의 플랫폼 내 호텔 평가 등급간 차이가 유의미하게 나타남 (F(2, 2406) = 39.9, p < 0.0001)
▪︎ Tukey 사후 검정에서도 booking.com의 등급 평가가 다른 두 플랫폼에 비해 유의미한 차이 보임
▪︎ 차이를 더 확인하기 위해 7점 미만의 중저가 호텔과 이상의 고급 호텔을 분리하여 분석
다른 플랫폼에 비해 중저급 호텔의 점수가 높은 booking.com
RQ1 Booking.com의 알고리즘 평가 시스템은 기업의 평가에 편향을 얼마나 불러일으키는가?
booking.com이 다른 플랫폼에 비해 좀 더 높은 편향된
결과를 갖고 있으며,
특히 중저급 호텔에 대해 혜택을 제공하고 있음
!9

▪︎ booking.com내 호텔에 관한 것으로 간주되는 리뷰를 사용
▪︎ ‘편향’에 대한 인지를 담은 리뷰를 기반 :  
- 1점을 주고 싶지만 의도치 않게 2.5점을 주는 경우를 중점적으로 살펴봄
▪︎ 이후 Booking.com 내에서 '2.5' 'lowest' 'score'가 포함된 글을 구글에서 검색
▪︎ 이를 통해 162명의 리뷰어 수집
시스템의 사용성에 대한 평가를 나타낸 ‘리뷰’ 수집 후 검토
RQ2 사용자는 Booking.com의 알고리즘 등급 평가 시스템의 편향을 알고 있는가?
!10
Method
“Disgusting, roaches, uncomfortable beds[;]
review needs to be less then[sic] 2.5 stars but [the system] won’t let me” (P66)

리뷰 점수가 자신의 숙박 경험을 담아내지 못한다는 내용들
리뷰에서 ‘편향’을 발견할 수 있었던 세가지 단서들
RQ2 사용자는 Booking.com의 알고리즘 등급 평가 시스템의 편향을 알고 있는가?
!11
Results
“[the] overall score DOES NOT accurately reflect my opinion of this hotel” (R96)
2.5점을 준 111명의 리뷰어는 가능한 낮은 점수를 주고싶다 밝히며,  
평균 최소 최종 점수를 0점이나 1점으로 예상한다 밝힘
“I rated this motel at 0, but the review program enters 2.5 as the low limit,
so be careful; things can be worse than they appear” (R98)
그 외에도 계산된 점수가 자신이 생각한 점수와는 맞지 않음을 밝힘
“Although the above rating indicates a 3.8,
I would personally rate it about a 1.5 ” (R55)
1
2
3

▪︎ 편향에 대해 알아챈 사용자가 어떻게 행동하는지 이해하기 위해 사용자들의 리뷰를 줄단위로 오픈코딩
▪︎ 이를 통해 3가지 주제 도출 : 
- 세가지 주제의 공통점은 리뷰 행동을 통해 다른 사용자로 하여금 편향을 일깨워주는 역할한다는 점
리뷰 오픈코딩 후 도출한 세가지 주제
RQ3 Booking.com의 알고리즘 등급 평가 시스템이 경험에 주는 편향을 사용자가 어떻게 인식하고 관리하는가?
!12
Results
1 알고리즘 작동 방식을 이해하려는 사용자의 시도
Looking into the Black Box
2 편향을 바로 잡으려는 사용자의 노력
Righting a Wrong
3 편향으로 인해 사용자와 시스템 간의 신뢰가 붕괴되는 문제
Trust Breakdown

!13
Results
1 알고리즘 작동 방식을 이해하려는 사용자의 시도
Looking into the Black Box
▪︎ 리뷰어들은 그들이 의도한 점수보다 높은 점수를 마주했을 때 혼란스러움을 느낌
▪︎ 리뷰 평가를 추측하며 Booking.com의 점수 계산법을 궁금해하기도 함
▪︎ 자신이 직접 점수를 제공한것이 아니며, booking.com에 의해 자동으로 계산됨을 강조
▪︎ 평가 알고리즘이 점수를 계산하는 방법을 이해하기 위해 사용자는 각 평가 기준에 대해 서로 다른 점수를 입
력하여 알고리즘을 자극하려고 시도
▪︎ 알고리즘 입력에 대한 이러한 실험을 통해 알고리즘이 더 높은 점수를 왜곡 할 수 있다고 가정
▪︎ 사용자들은 ‘리뷰’를 통해 이러한 편향을 다른 사용자에게도 알리고자 시도
리뷰 점수에 대한 사용자의 혼란은 시스템의 혁신적인 사용을 일으킴
(리뷰를 통해 다른 사람에게 편향을 알리려는 시도)

!14
Results
2 편향을 바로 잡으려는 사용자의 노력
Righting a Wrong
▪︎ 리뷰어의 절반 이상(n = 95)이 편견을 바로 잡으려고했음
사용자는 자기 자신을 위해 해결 방법을 만들지 않고
다른 사람들을 돕기 위해 편향을 바로 잡으려 시도
"This survey calculated its own rating; I would rate it 1.0." (R40)
▪︎ 리뷰에 자신이 원하는 실제 점수를 기재함으로써 즉시 알고리즘의 편향을 정정하는 모습
▪︎ 원하는 최종 평점이 나올 때 까지 평가 점수를 낮추려는 시도

!15
Results
3 편향으로 인해 사용자와 시스템 간의 신뢰가 붕괴되는 문제
Trust Breakdown
▪︎ 편향을 발견한 리뷰어들은 Booking.com이 대중에게 잘못된 정보를 제공한다 말하며,  
이는 플랫폼에 대한 불신으로 이어짐
▪︎ 리뷰어들은 2.5 점보다 낮은 점수를 얻으려고 시도했지만 실패한 데에서 알고리즘 능력이 부족하다 생각
▪︎ 이에 따라  
1) 알고리즘을 변경하기까지 요청하며 정확한 정보를 전달하기를 요구 
2) 플랫폼을 더이상 사용하지 않는다는 의사
편향된 알고리즘이 사용자와 시스템의 상호 작용에 심각한 영향을 미칠 수 있음

!16
Discussion
편향을 인식하는데에서부터 시작하여 행동으로 옮기는 사용자들
▪︎ 편향된 점수를 보았을 때, 사용자는 자신이 희망하는 방향에 따라 시스템과의 인터랙션의 초점을 변경하는
모습을 보임 
ex. 청결도, 직원 평가에 사용되는 리뷰를 비판을 전달하는 매체로 사용 
▪︎ 자신의 경험에 집중하는데에서 나아가 시스템으로의 초점 전환까지 : 
- 사용자들은 주로 자신의 평점이 호텔 숙박을 정확하게 반영하지 못했다는 사실을 다른 사람에게 알리는 방
법으로 플랫폼이 표현한 자신의 체류 경험을 수정하는 데 초점 
- 계획을 실현할 수있는 기회를 제공하지 못하는 시스템에 직면했을 때 호텔 체류 경험에서 시스템으로 관심
을 전환

!17
Discussion
표면에서 편향을 접할 수 있도록 드러내는 장치 필요
▪︎ 사용자는 Booking.com에서 발견한 알고리즘의 편향을 리뷰를 통해 다른 사용자에게 알리고자 함
▪︎ 사용자를 통한 감사(심사)는 일반적인 사용의 관점에서 편향을 감지할 수 있는 가능성을 높이고, 시스템 내
에서 정보를 발견하고 수정할 수 있도록 함 
알고리즘 시스템에서 일어날 수 있는 "집단 감사(심사)collective audit”: 
- 플랫폼이 사용자에게 플랫폼 자체, 특히 시스템 설계자가 예상하지 못한 편향을 통해 알고리즘 편향을 탐지
하고보고하는 데 사용할 수있는 장치 제언

!18
So What?
▪︎ 다량의 데이터를 기반으로 하는 알고리즘이 갖는 문제, ‘편향’ :  
- ‘추천시스템’과 ‘평가 시스템’에서는 알고리즘이 갖는 문제 중, 다른 문제가 더 중요할 것으로 생각 
- ‘클래식 혹은 문화 컨텐츠’를 중점으로 한다면, 여기서 알고리즘의 특성이 갖는 문제는 무엇이 될 수 있을까 
ex. 결국 유명하고 인기있는 컨텐츠가 추천된다는 점
▪︎ 인터페이스에 고려되어야 하는 요소가 데이터 뿐만이 아닐 것 같음 : 
1) 사용자가 데이터 내 features에서 중요하게 생각하는 feature 
2) 시스템 자체에 대한 사용자의 의견
▪︎ ‘편향’됨을 인식했다는 단서의 발견 : 
- ‘추천 시스템’ 내에서 사용자는 어떤 불만을 갖고 있는지 알 수 있는 경로는 무엇이 될 수 있을까? 
ex. 구글 앱 스토어에 존재하는 리뷰

"Be careful: things can be worse than they appear": Understanding Biased Algorithms and Users' Behavior around Them in Rating Platforms

Recommended

Recommended

More Related Content

Similar to "Be careful: things can be worse than they appear": Understanding Biased Algorithms and Users' Behavior around Them in Rating Platforms

Similar to "Be careful: things can be worse than they appear": Understanding Biased Algorithms and Users' Behavior around Them in Rating Platforms (20)

More from skkang0617

More from skkang0617 (7)

"Be careful: things can be worse than they appear": Understanding Biased Algorithms and Users' Behavior around Them in Rating Platforms