How users of shared smart speakers perceive and cope with privacy risks
Guidelines for Human-AI Interaction / CHI2019
1. + CHI 2019
/ 류명균
Guidelines for Human-AI
Interaction
- Saleema Amershi, Dan Weld, Mihaela Vorvoreanu,
Adam Fourney, Besmira Nushi, Penny Collisson, Jina
Suh, Shamsi Iqbal, Paul N. Bennett, Kori Inkpen, Jaime
Teevan, Ruth Kikin-Gil, and Eric Horvitz
3. 01 WHY THIS PAPER
AI를 접목한 시스템 가이드라인을 체계화한 논문
(수정된 휴리스틱 평가방법)
• AI를 접목한 시스템은 다양해지고, 그에 따른 새로운 경험들이 나타나고 있음
• 이 때 경험을 잘 만들기 위해서는 뭐를 고민해야 하는가?
- 100% 예측이 가능한 모델은 없다.
- 그럼 어떻게 인터페이스를 디자인해야 하지?
- 설명 가능하게, 신뢰를 높이고, 실수라는 것을 알리고,, 등등…
4. • AI의 진보로 여러 AI 기술을 유저 시스템에 접목시킬 수 있게 됨
02 INTRODUCTION
• AI-infused System(AI 시스템)은 기존의 전통적인 usability guideline을 위반하는 경우가 많음
- 예를 들어, 일관성 원칙은 일관된 인터페이스와 예측가능한 행동으로 기대치 않은 변화의 최소화를 지지함.
그러나, AI 요소는 뉘앙스에 기반한 확률적 행동, 학습으로 인한 변화 등 태생적으로 일관성이 없음
- AI 시스템은 같은 input에도 다른 결과로 응답할 수 있음
- 일관성이 없고 예측 불가능한 행동은 사용자를 혼동시킬 수 있음
- AI 테크놀로지를 버리고 떠날 수 있음
- 에러는 AI 시스템에서 흔하게 발생하고, 이를 렌더링하는 것은 어려움
(AI 설명과 해석에 대한 연구가 많이 일어나고 있음
• 지난 20년동안 HCI 커뮤니티에서 AI 인터페이스에 관한 제안들이 많이 있었음
- AI 디자인의 다양성과 웃기고 당황스러운 실패부터 심각한 문제까지 다양한 실패들이 보고 되고 있음
• 디자이너와 개발자가 직관적이고 효율적인 AI 시스템을 디자인하는 데 어려움을 겪고 있음
• 본 연구에서는 지난 20년 동안 배웠던 AI 디자인을 일반적으로 적용가능한 디자인 가이드라인으로 합성하고자 함
- 150개 이상의 AI 관련 디자인 제언을 18개의 가이드라인으로 체계화 함
- 도출된 가이드라인을 체계적으로 검증함
5. 03 OVERALL PROCESS
PHASE 1 PHASE 2 PHASE 3 PHASE 4
가이드라인 통합
168개의 AI 디자인
가이드라인
35개
20개
Affinity
Diagram
too vague
too specific
not AI specific
수정 휴리스틱 평가
가이드라인에 대한
수정 휴리스틱 평가 진행
20개의 가이드라인을
이용하여 AI 프로덕트
or 기능 평가
18개
remove
merge
split
유저 스터디
각 가이드라인에 맞는
AI 기능 내의 예시 찾기
1) 다양한 프로덕트에
대한 가이드라인
적용 가능성 이해
2) 가이드라인의 명확
성에 대한 피드백
전문가 휴리스틱 평가
개정된 가이드라인에
대한 전문가 휴리스틱 평가
가이드라인 수정
기존 가이드라인과
새로운 가이드라인 평가
가이드라인 수정
6. 03 PHASE 1: COSOLIDATING GUIDELINES
- 산업에서 사용하는 AI 프로덕트와 가이드라인의 리뷰
- AI 디자인에 관한 최신 아티클
- AI 디자인에 관한 연관 논문들
168개의
가이드라인 수집
3명의 팀멤버가
affinity diagram 수행
너무 모호하거나
특정 AI 시나리오에 특화됐거나
AI와 관련이 적은 것들은 제거
가이드라인 통합
35개의 컨셉으로 묶임 20개 컨셉으로
7. 04 PHASE 2: MODIFIED HEURISTIC EVALUATION
팀 멤버 11명이 수행함
- AI 프로덕트나 피쳐를 선택하고, 가이드라인이 ‘적용’되거나 ‘위반’ 점을 찾음 (1시간 동안)
- 평가 동안 가이드라인 자체를 평가하도록 요청함
- 총 13개의 AI 프로덕트나 기능을 검사함
(이메일 필터링, 네비게이션, e-커머스 추천, 디자인 보조 기능, 리서치 보조 기능, 소셜 네트워크 뉴스 피드, 이미지 검색)
수정된 Heuristic 평가 방법으로 진행함
‘적용’, ‘위반’ 찾은 것과 가이드라인에 대한 평가를
바탕으로 가이드라인 수정
- 제거하거나
- 합치거나
- 나누거나
18개의 가이드라인
8. 05 GUIDELINE
1) Initially
G1. 시스템이 무엇을 할 수 있는지 명확히 해라
G2. 시스템이 얼마나 잘할 수 있는지 명확히 해라 - AI 시스템이 얼마나 자주 실수를 하는지 사용자가 이해하도록 도와준다
- AI 시스템의 능력을 사용자가 이해하도록 도와준다
G3. 맥락에 기반하여 서비스 시간을 맞춰라
G4. 맥락에 맞게 적절한 정보를 보여줘라 - 사용자의 현재 업무나 환경에 관련된 정보를 제공한다
- 사용자의 현재 업무나 환경에 기반하여 서비스를 실행할 시간을 맞춘다
G5. 적절한 사회 규범과 매칭해라
G6. 사회적 편견을 완화시켜라
- 주어진 사회문화적 맥락에서 사용자가 기대하는 방법으로 경험을 전달한다
- 바람직하지 않고 불공정한 관념과 편견을 강화하지 않도록 한다
2) During interaction
9. 05 GUIDELINE
G7. 효율적인 호출을 지원해라
G8. 효율적인 무시를 지원하자 - 원치 않는 AI 시스템 기능에 대해서는 무시할 수 있도록 한다
- AI 시스템을 쉽게 호출하거나 요청할 수 있도록 한다
G9. 효율적인 수정을 지원하자
G10. 불확실할 때는 서비스를 자세히 보여주자
- 시스템이 잘못됐을 때 편집, 개선, 회복이 가능하게 한다
- 사용자의 목적에 확신이 없을 때, 서비스를 점차 저하시킨다
G11. 시스템이 왜 그렇게 했는지를 명확히 해라 - 시스템이 왜 그렇게 움직였는지에 대해 설명을 가능하게 한다
3) When wrong
10. 05 GUIDELINE
G12. 최근 인터랙션을 기억해라
G13. 사용자 행동으로부터 배워라 - 행동을 배움으로써 사용자의 경험을 개인화한다
- 단기기억을 유지하고 사용자가 효율적으로 사용할 수 있게 만든다
G14. 조심스럽게 업데이트하고 적응해라
G15. 세세한 피드백을 하게끔 만들어라
- 시스템을 업데이트하거나 적응시킬 때 사용자를 방해하지 않는다
- 인터랙션 중에 사용자가 선호를 피드백할 수 있게 한다
G17. 전반적인 컨트롤을 제공하라
G18. 변화에 대해 안내를 해라 - AI 시스템이 성능에 대한 추가나 업데이트가 있을 때 사용자에게 알린다
- AI 시스템이 모니터하는 것과 어떻게 행동하는지 전반적인 커스터마이징이 가능하도록 한다
G16. 사용자 행동 결과를 전달하라 - 사용자 행동이 AI 시스템에 어떻게 영향을 미치는 지 업데이트하고 전달한다
4) Over time
11. 06 PHASE 3: USER STUDY
1. 가이드라인과 친숙해지게 도와줌
2. 기능들을 사용하면서 평가표를 채우게 함
- 해당 가이드라인이 작동하는지, 안됐으면 이유를 설명
- 가이드라인이 적동됐다면 예시를 들어줄 것을 요청
- 5 포인트로 평가 (스크린샷을 추가하면 금전적인 추가 보상)
3. 마지막에는 각 가이드라인을 5포인트로 평가함
(매우 혼동 - 매우 명확)
표집 인원 설명:
- 총 49명의 HCI 관련 종사자
- 성별 : 여성(29명), 남성(18명), 응답 원하지 않음(2명)
- 나이 : 18~24세(5명), 25~34세(24명), 35~44세(13명), 45~54(7명)
- 직업 : 리서처(19명), 디자이너(12명), HCI/디자인 인턴(11명), 엔지니어/프로덕트매니저/벤더(7명)
- HCI 기간 : 1~4년(23명), 5~9년(14명), 10~14년(9명), 15~19년(1명), 20+년(2명)
- 일주일의 시간, 아마존 기프트카드 최소 $50~$70
- 각 참가자에게 프로덕트의 AI 기능을 사용하게 하고 각 가이드라인의 적용or위반 예시를 찾아줄 것을 요청함
- 이를 바탕으로 가이드라인을 수정함
순서:
12. 06 PHASE 3: USER STUDY
유저 스터디 결과
1) 가이드라인의 적절성
- 각 분야 당 2개씩해서 20개의 프로덕트를 평가함
- 총 785개의 답변 중 ‘적용’-313개, ‘위반’-277개, ‘중립’-89개, ‘가이드라인 작동하지 않음’-106개
- ‘적용’, ‘위반’의 개수가 많은 것은 가이드라인이 적절하게 작동함을 의미
- Voice assistants 시스템에서 ‘가이드라인 작동하지 않음’ 수가 가장 높음
- Photo organizer, activity tracker, voice assistants 시스템에서 ‘적용’+‘위반’의 수가 가장 낮음
-> 단순 그래픽과 텍스트 인터페이스가 아님. 입력 데이터의 형태가 다름
13. 07 DISCUSSION
- 이 가이드라인은 출시된 프로덕트를 평가하는 데 유용할 것
이 가이드라인이 다른 디자인 스테이지에서도 가치가 있는지는 연구가 필요함
- ‘일반화’와 ‘특화’에는 tradeoff가 존재함
이 가이드라인은 모든 AI 시스템에 충분히 적용가능하지 않음
(보이스 어시스턴트, 액티비티 트래커)
특정 도메인에도 적용 가능한지 연구가 필요함. 특화된 가이드라인이 필요할 것
(반자율주행, 로봇보조 수술, 금융)
- 이 가이드라인은 공정성과 윤리적 고려를 단순히 터치한 정도이다.
시스템 디자이너는 사회와 사람에 미치는 AI 기술의 영향을 신중히 평가하는 것은 중요함