Designing Effective Interview Chatbots:
Automatic Chatbot Profiling and Design
Suggestion Generation for Chatbot
Debugging


CHI 2021


Xu Han, Michelle Zhou, Matthew J. Turner, Tom Yeh


박상아
• ‘정보 수집기로서의 챗봇’이라는 키워드로 서치하다가 … 

• 최근 인터뷰 도구로서 챗봇을 활용하는 연구가 꽤 보임
01 Why This Paper
2
• 최근 챗봇이 인터뷰 도구로 사용되고 있음

- One-to-one 대화가 가능하다는 특성 : 전통적인 온라인 서베이보다 효과적

• 하지만 문제 없이 인터뷰를 진행하는 챗봇을 만들기까지 시간과 노력이 많이 듦

- 목표한 태스크에 도달하는 질문을 오류 없이 만들어내야 함

- 챗봇의 부족한 점과 개선점을 파악하여 지속 수정할 수 있어야 함
02 Background
3
인터뷰용 챗봇을 반복적으로 평가할 수 있는 웹 시스템 iChatProfile 개발

1) 대화 내용을 기반으로 챗봇의 수행 능력을 자동 분석

2) 자동으로 대화 디자인 & 대화 예시 제안
03 Method
4
• 연구는 크게 세 단계로 진행됨
1
Formative Study
Computational

Framework
Designing iChatProfile 

& User Study
2 3
03 Method
5
1 Formative Study
• 챗봇 설계자들이 원하는 design assistance를 파악하기 위함

• 챗봇 설계에 관심이 있는 대학생 5명 모집


1) 챗봇 설계 플랫폼 체험 2) 반구조화 인터뷰 진행

- 챗봇 설계 플랫폼 ‘Juji’로 COVID-19 인터뷰 챗봇을 설계

- 챗봇을 설계하는 동안 도움받고 싶었던 부분이 무엇인지 인터뷰

• 그 결과, 두 가지의 Design Assistance 도출
1. 챗봇의 부족한 부분을 알 수 있게, 객관적이고 정량적인 피드백을 받고 싶다
2. 챗봇을 더 향상시키는 디자인 관련 의견을 받고 싶다 (관련 대화 예시를 보고 싶다)
03 Method
6
2 Computational Framework
• 챗봇 성능에 대한 정량적 피드백 챗봇 디자인 의견을 제공하는 metrics를 공식화

• 선행 연구를 기반으로 세 차원에서 측정 : 1) elicitation ability 2) user experience 3) ethics
03 Method
7
3 Designing iChatProfile & User Study
• iChatProfile의 구조는 다음과 같음
segment 단위로 쪼개져

Framework 기반 성능 분석
특정 metrics가

threshold보다 작은 경우임
분석 결과를 웹으로 보여줌
03 Method
8
3 Designing iChatProfile & User Study
• RQ 1 : iChatProfile은 더 나은 인터뷰 챗봇을 설계하도록 도왔는가?

• RQ 2 : iChatProfile이 어떻게 디자인 의사결정을 도왔는가?


• between-subject 유저 스터디 진행 (N=10)

- 1) 연구자는 사전에 Baseline 챗봇을 만듦 & 파일럿으로 사용 기록을 모아 스터디 참가자들에게 전달


2) w/i system, s/o system 그룹으로 나누어 Baseline chatbot의 장단점 묘사


3) Baseline chatbot을 response quality, user experience, ethics 측면에서 수정


4) 개선한 챗봇을 MTurk으로 평가 (한 참가자 당 평균 135명이 평가)


5) 사후 인터뷰
04 Results & Discussions
9
• iChatProfile을 이용해 챗봇을 수정했을 때 수행 결과가 더 좋았음

- ANCOVA 분석 결과, 대부분의 metrics에서 iChatProfile을 쓴 그룹이 유의미하게 향상

- 챗봇 대화의 customizations 정도는 iChatProfile 그룹에서 495% 더 높았음




• iChatProfile의 피드백 분석과 대화 예시 제공은 효과적으로 디자인 의사결정을 도움

- 챗봇 대화 customization을 그렇게 한 이유를 물었을 때,


iChatProfile 없는 그룹 : “플랫폼에 이 기능이 제일 크게 보이길래”


iChatProfile 있는 그룹 : “누군가에겐 이 질문이 acceptable하지 않을 수 있다는 걸 깨닫고”


- 한 참가자는 user engagement가 낮다는 지표를 보고 “몇 개 안 남았어, 조금만 더 힘내!”라는 대화를 추가
03 Takeaway
10
• 사용자의 피드백을 Explicit하게 받는 것은 역시 한계가 있다

- User sentiment 데이터는 양이 부족해 ANCOVA 분석을 돌리지 못했다고 함

• 챗봇에서의 Implicit한 측정 방법을 얻어간다

- 이외의 다른 dimensions, metrics에 대해 추가적으로 살펴볼 필요
감사합니다.

Designing Effective Interview Chatbots: Automatic Chatbot Profiling and Design Suggestion Generation for Chatbot Debugging

  • 1.
    Designing Effective InterviewChatbots: Automatic Chatbot Profiling and Design Suggestion Generation for Chatbot Debugging CHI 2021 Xu Han, Michelle Zhou, Matthew J. Turner, Tom Yeh 박상아
  • 2.
    • ‘정보 수집기로서의챗봇’이라는 키워드로 서치하다가 … • 최근 인터뷰 도구로서 챗봇을 활용하는 연구가 꽤 보임 01 Why This Paper 2
  • 3.
    • 최근 챗봇이인터뷰 도구로 사용되고 있음 - One-to-one 대화가 가능하다는 특성 : 전통적인 온라인 서베이보다 효과적 • 하지만 문제 없이 인터뷰를 진행하는 챗봇을 만들기까지 시간과 노력이 많이 듦 - 목표한 태스크에 도달하는 질문을 오류 없이 만들어내야 함 - 챗봇의 부족한 점과 개선점을 파악하여 지속 수정할 수 있어야 함 02 Background 3 인터뷰용 챗봇을 반복적으로 평가할 수 있는 웹 시스템 iChatProfile 개발 1) 대화 내용을 기반으로 챗봇의 수행 능력을 자동 분석 2) 자동으로 대화 디자인 & 대화 예시 제안
  • 4.
    03 Method 4 • 연구는크게 세 단계로 진행됨 1 Formative Study Computational Framework Designing iChatProfile & User Study 2 3
  • 5.
    03 Method 5 1 FormativeStudy • 챗봇 설계자들이 원하는 design assistance를 파악하기 위함 • 챗봇 설계에 관심이 있는 대학생 5명 모집 
 1) 챗봇 설계 플랫폼 체험 2) 반구조화 인터뷰 진행 - 챗봇 설계 플랫폼 ‘Juji’로 COVID-19 인터뷰 챗봇을 설계 - 챗봇을 설계하는 동안 도움받고 싶었던 부분이 무엇인지 인터뷰 • 그 결과, 두 가지의 Design Assistance 도출 1. 챗봇의 부족한 부분을 알 수 있게, 객관적이고 정량적인 피드백을 받고 싶다 2. 챗봇을 더 향상시키는 디자인 관련 의견을 받고 싶다 (관련 대화 예시를 보고 싶다)
  • 6.
    03 Method 6 2 ComputationalFramework • 챗봇 성능에 대한 정량적 피드백 챗봇 디자인 의견을 제공하는 metrics를 공식화 • 선행 연구를 기반으로 세 차원에서 측정 : 1) elicitation ability 2) user experience 3) ethics
  • 7.
    03 Method 7 3 DesigningiChatProfile & User Study • iChatProfile의 구조는 다음과 같음 segment 단위로 쪼개져 Framework 기반 성능 분석 특정 metrics가 threshold보다 작은 경우임 분석 결과를 웹으로 보여줌
  • 8.
    03 Method 8 3 DesigningiChatProfile & User Study • RQ 1 : iChatProfile은 더 나은 인터뷰 챗봇을 설계하도록 도왔는가? • RQ 2 : iChatProfile이 어떻게 디자인 의사결정을 도왔는가? 
 • between-subject 유저 스터디 진행 (N=10) - 1) 연구자는 사전에 Baseline 챗봇을 만듦 & 파일럿으로 사용 기록을 모아 스터디 참가자들에게 전달 
 2) w/i system, s/o system 그룹으로 나누어 Baseline chatbot의 장단점 묘사 
 3) Baseline chatbot을 response quality, user experience, ethics 측면에서 수정 
 4) 개선한 챗봇을 MTurk으로 평가 (한 참가자 당 평균 135명이 평가) 
 5) 사후 인터뷰
  • 9.
    04 Results &Discussions 9 • iChatProfile을 이용해 챗봇을 수정했을 때 수행 결과가 더 좋았음 - ANCOVA 분석 결과, 대부분의 metrics에서 iChatProfile을 쓴 그룹이 유의미하게 향상 - 챗봇 대화의 customizations 정도는 iChatProfile 그룹에서 495% 더 높았음 
 
 • iChatProfile의 피드백 분석과 대화 예시 제공은 효과적으로 디자인 의사결정을 도움 - 챗봇 대화 customization을 그렇게 한 이유를 물었을 때, 
 iChatProfile 없는 그룹 : “플랫폼에 이 기능이 제일 크게 보이길래” 
 iChatProfile 있는 그룹 : “누군가에겐 이 질문이 acceptable하지 않을 수 있다는 걸 깨닫고” 
 - 한 참가자는 user engagement가 낮다는 지표를 보고 “몇 개 안 남았어, 조금만 더 힘내!”라는 대화를 추가
  • 10.
    03 Takeaway 10 • 사용자의피드백을 Explicit하게 받는 것은 역시 한계가 있다 - User sentiment 데이터는 양이 부족해 ANCOVA 분석을 돌리지 못했다고 함 • 챗봇에서의 Implicit한 측정 방법을 얻어간다 - 이외의 다른 dimensions, metrics에 대해 추가적으로 살펴볼 필요
  • 11.