Analyzing Mobile Application Usage: Generating Log Files from Mobile Screen R...
Designing Effective Interview Chatbots: Automatic Chatbot Profiling and Design Suggestion Generation for Chatbot Debugging
1. Designing Effective Interview Chatbots:
Automatic Chatbot Profiling and Design
Suggestion Generation for Chatbot
Debugging
CHI 2021
Xu Han, Michelle Zhou, Matthew J. Turner, Tom Yeh
박상아
2. • ‘정보 수집기로서의 챗봇’이라는 키워드로 서치하다가 …
• 최근 인터뷰 도구로서 챗봇을 활용하는 연구가 꽤 보임
01 Why This Paper
2
3. • 최근 챗봇이 인터뷰 도구로 사용되고 있음
- One-to-one 대화가 가능하다는 특성 : 전통적인 온라인 서베이보다 효과적
• 하지만 문제 없이 인터뷰를 진행하는 챗봇을 만들기까지 시간과 노력이 많이 듦
- 목표한 태스크에 도달하는 질문을 오류 없이 만들어내야 함
- 챗봇의 부족한 점과 개선점을 파악하여 지속 수정할 수 있어야 함
02 Background
3
인터뷰용 챗봇을 반복적으로 평가할 수 있는 웹 시스템 iChatProfile 개발
1) 대화 내용을 기반으로 챗봇의 수행 능력을 자동 분석
2) 자동으로 대화 디자인 & 대화 예시 제안
4. 03 Method
4
• 연구는 크게 세 단계로 진행됨
1
Formative Study
Computational
Framework
Designing iChatProfile
& User Study
2 3
5. 03 Method
5
1 Formative Study
• 챗봇 설계자들이 원하는 design assistance를 파악하기 위함
• 챗봇 설계에 관심이 있는 대학생 5명 모집
1) 챗봇 설계 플랫폼 체험 2) 반구조화 인터뷰 진행
- 챗봇 설계 플랫폼 ‘Juji’로 COVID-19 인터뷰 챗봇을 설계
- 챗봇을 설계하는 동안 도움받고 싶었던 부분이 무엇인지 인터뷰
• 그 결과, 두 가지의 Design Assistance 도출
1. 챗봇의 부족한 부분을 알 수 있게, 객관적이고 정량적인 피드백을 받고 싶다
2. 챗봇을 더 향상시키는 디자인 관련 의견을 받고 싶다 (관련 대화 예시를 보고 싶다)
6. 03 Method
6
2 Computational Framework
• 챗봇 성능에 대한 정량적 피드백 챗봇 디자인 의견을 제공하는 metrics를 공식화
• 선행 연구를 기반으로 세 차원에서 측정 : 1) elicitation ability 2) user experience 3) ethics
7. 03 Method
7
3 Designing iChatProfile & User Study
• iChatProfile의 구조는 다음과 같음
segment 단위로 쪼개져
Framework 기반 성능 분석
특정 metrics가
threshold보다 작은 경우임
분석 결과를 웹으로 보여줌
8. 03 Method
8
3 Designing iChatProfile & User Study
• RQ 1 : iChatProfile은 더 나은 인터뷰 챗봇을 설계하도록 도왔는가?
• RQ 2 : iChatProfile이 어떻게 디자인 의사결정을 도왔는가?
• between-subject 유저 스터디 진행 (N=10)
- 1) 연구자는 사전에 Baseline 챗봇을 만듦 & 파일럿으로 사용 기록을 모아 스터디 참가자들에게 전달
2) w/i system, s/o system 그룹으로 나누어 Baseline chatbot의 장단점 묘사
3) Baseline chatbot을 response quality, user experience, ethics 측면에서 수정
4) 개선한 챗봇을 MTurk으로 평가 (한 참가자 당 평균 135명이 평가)
5) 사후 인터뷰
9. 04 Results & Discussions
9
• iChatProfile을 이용해 챗봇을 수정했을 때 수행 결과가 더 좋았음
- ANCOVA 분석 결과, 대부분의 metrics에서 iChatProfile을 쓴 그룹이 유의미하게 향상
- 챗봇 대화의 customizations 정도는 iChatProfile 그룹에서 495% 더 높았음
• iChatProfile의 피드백 분석과 대화 예시 제공은 효과적으로 디자인 의사결정을 도움
- 챗봇 대화 customization을 그렇게 한 이유를 물었을 때,
iChatProfile 없는 그룹 : “플랫폼에 이 기능이 제일 크게 보이길래”
iChatProfile 있는 그룹 : “누군가에겐 이 질문이 acceptable하지 않을 수 있다는 걸 깨닫고”
- 한 참가자는 user engagement가 낮다는 지표를 보고 “몇 개 안 남았어, 조금만 더 힘내!”라는 대화를 추가
10. 03 Takeaway
10
• 사용자의 피드백을 Explicit하게 받는 것은 역시 한계가 있다
- User sentiment 데이터는 양이 부족해 ANCOVA 분석을 돌리지 못했다고 함
• 챗봇에서의 Implicit한 측정 방법을 얻어간다
- 이외의 다른 dimensions, metrics에 대해 추가적으로 살펴볼 필요