Response Quality in Human-Chatbot
Collaborative Systems

+ SIGIR 2020

- Jiepu Jiang, Naman Ahuja

BlahBlahBot: Facilitating Conversation between
Strangers using a Chatbot with ML-infused
Personalized Topic Suggestion

+ CHI 2021

- Donghoon Shin, Sangwon Yoon, Soomin Kim, Joonhwan Lee

/ 박상아
- AI와 인간이 함께 일하고 협력하는 시대가 됨 … 인간과 기계가 서로를 보완할 수 있는 ‘human-AI collaboration’
- 본 연구에서는 human-chatbot collaborative conversational systems를 탐구

: 다른 사람에게 응답하기 위해, 인간의 지식 + 챗봇의 정보를 종합할 수 있음

- 본 연구에서 제시하는 시스템: 사용자가 질문에 응답을 할 때, 챗봇이 제시하는 아이디어를 참고하도록 함
- 웹 검색 엔진의 쿼리 제안 & 자동 완성과 같은 형태 > 챗봇의 제안을 빠르게 수정하거나, 새 아이디어를 제시받게 됨

- 두 가지 대화 시스템을 설계한 후 크라우드 소싱을 통해 유저 스터디 진행
- ‘효율성’과 ‘응답 퀄리티’ 측면에서 두 시스템을 비교
Response Quality in Human-Chatbot Collaborative Systems
- 두 가지 대화 시스템(C1, C2)을 제작
- 사용자가 질문에 응답할 때, 챗봇의 suggestions를 보여준다는 공통점 but ‘챗봇에 대한 참조를 권장하는 정도’가 다름
- ‘Show suggestions’ 버튼을 누르면:

C1의 경우 챗봇의 suggestions 후보가 모두 뜨며, 그중 하나를 클릭해야 input box에 내용이 복붙됨. 이를 수정할 수 있음

C2의 경우 top-ranked 응답이 자동으로 input box에 복붙됨
- 즉 C1은 되도록 응답을 ‘직접 작성’하도록 권장하며, C2는 챗봇의 suggestion을 그대로 사용하되 ‘편집’하는 것을 권장함
Response Quality in Human-Chatbot Collaborative Systems
C1 C2
- 두 시스템의 평가를 비교하기 위해 크라우드 소싱으로 유저 스터디 진행 (between-subjects, 7개의 시스템 준비)

H 1개 - human-only 시스템. 챗봇 없이 답변을 입력할 수 있는, 텍스트 상자만 사용자에게 제공되는 기본적인 시스템

C1 / C2 각각 3개씩 - top-ranked responses를 각각 1개 / 3개 / 5개씩 제안하는 시스템

- 광범위하지 않은 지식을 요구하는 데이터 세트(Wizard of Wikipedia)를 이용하여 task pool 만듦
- pool마다 90개의 대화가 진행되며, 각 주제로 1~3개의 대화 턴이 돌아감
- chatbot suggestions는 Wikipedia의 sentences를 인출 (Document Retriever 활용)
- 각 대화 세션은 5분의 제한이 있으며, 짧고 직접적인 대답 말고 informative한 응답을 제공해 달라고 부탁

- 사용자가 응답한 내용을 기반으로, 다른 작업자들이 응답의 퀄리티 평가
- 응답의 퀄리티는 (1) informativeness (2) fluency (3) human-likeness를 각각 4점 척도로 측정
Response Quality in Human-Chatbot Collaborative Systems
C1 C2
Results & Discussion
- (suggestion이 하나인) C1과 C2는 Human-only에 비해 :

더 긴 응답을 제공할 때 시간을 적게 사용하고 키 누름이 적었음 >> collaborative systems의 효율성

- 응답 길이: H에서는 평균 52.4자 / C1에서는 101.1­125.1자 / C2에서는 140.0­177.5자
- 응답 퀄리티: Human-only는 가장 덜 informative, 그러나 가장 fluent, human-like함

chatbot-only는 informative하지만 fluency human-likeness 최하

C1과 C2는 Human-only보다 더 informative하며, Chatbot-only보다 fluent human-likeness 높은 경향
- suggestions 개수: 하나만 제시하는 게 이상적. 개수가 증가할수록 키 입력 수/시간이 증가했으나 응답 퀄리티는 유사함
Response Quality in Human-Chatbot Collaborative Systems
Results & Discussion Response Quality in Human-Chatbot Collaborative Systems
따라서 …
- 1. 챗봇은, 인간 사용자가 지식이 필요한 대화에서 응답의 정보성informativeness을 향상시키는 데에 도움이 됨

또는 도움이 되는 관련 정보 제공 가능
- 2. Collaborative system은 약간의 fluency, humanlikeness를 희생함으로써 메시지 작성의 효율성을 향상시킬 수 있음
- 3. 챗봇의 인터페이스 디자인을 이용해 응답 퀄리티와 효율성의 밸런스를 맞출 수 있음
- 4. 챗봇이 제시한 정보를 인간이 자신의 생각과 합치려면 effort가 들어감 > suggestion 개수가 많다고 좋은 게 아님
- 온라인 환경에서 낯선 사람과 이야기하고 관계 구축하는 것은 널리 퍼진 행동

그런데 상대에 대한 정보가 부족해 공통 관심사를 찾는 데 시간이 걸리거나 관계 발전에 어려움을 겪기도 함

- AI-MC (Artificial Intelligence-Mediated Communication) :

interpersonal 소통이 기술에 의해 매개 + 에이전트에 의해 수정/증강/생성될 수 있는 가능성을 내포하는 개념
- NLP를 기반으로 User-generated contents를 매개 & 조직화하는 것이 가장 대표적

- 여기서는 ‘비대면/온라인’ 상황에서, 상호 관심 있는 주제를 제안해 낯선 사람들 간 대화를 돕는 챗봇 에이전트 설계

- 소셜 미디어에서 사용자가 만든 게시물은 사용자의 일상적 관심사를 반영한다는 점에 기반,

인스타그램 게시물 크롤링 — 사전 훈련된 모델로 의미적 유사성을 측정해 인접한 키워드 세트를 생성, 주제 추천

- 이를 기반으로 ML-infused topic suggestion chatbot 제시

주제에 대한 최종 결정은 사용자가 내릴 수 있도록 사용자 제어를 보장하는 것에 초점
BlahBlahBot: Facilitating Conversation between Strangers using a Chatbot
- 봇의 역할은 아래와 같음

- (1) 유저의 정보를 social media 기반으로 수집, 주제 추천:

게시물 크롤링 > 텍스트에서 형태소 추출 > 의미론적 유사성을 기준으로 사용자 간 상호 관심사를 매칭

원치 않는 주제 추천을 방지하기 위해, 대화 시작 전 주제 ‘후보’ 20개를 제시해서 사용자가 원하는 키워드 우선순위 부여

- (2) 공통된 주제를 이용해 낯선 사람과의 대화를 매개:

챗봇이 자신의 역할 간략 설명 후 대화 진행

자기소개 서로 한 다음 우선순위 지정된 주제를, 사전 정의된 문장 템플릿에 결합해 주제 제안을 시작

각 주제는 4분 동안 지속되며 4개의 주제를 연달아 제안함. 대화 마치면 챗봇이 2분 동안 대화를 마무리함
BlahBlahBot: Facilitating Conversation between Strangers using a Chatbot
- 유저 스터디 진행 :

온라인 커뮤니티로 18명의 참가자 모집 (평균 26세), between-subject.

Control 그룹 — Random Topic 그룹 — ML infused Topic 그룹

- iOS 기반의 앱 설치 요청하여 대화 진행. 이후 사후 설문 & 인터뷰 진행 (원격)

- 챗봇의 목표는: 대화 촉진하고 가까워지도록 유도해 낯선 사람간의 커뮤니케이션을 지원하는 것

- 따라서 대화 퀄리티와 친밀도를 측정 (Burgoon, Hale 연구의 설문지) : 각 설문 항목에 7점 척도로 응답
- 1) 대화 퀄리티 평가: 나는 파트너와 대화를 즐겼다, 대화가 재밌었다, 내 의견을 표현할 수 있었다, 상호 관심 주제를 찾기
쉬웠다, 내 파트너와 다시 이야기하고 싶다.
- 2) 친밀도를 평가: 대화 중 감정적이었다, 대화 중 상대방과 쉽게 연결되었다, 방금 대화가 친밀했다.
- 3) 개방형 질문: 채팅 시스템 사용 경험 & 가능한 개선사항에 대한 질문.
BlahBlahBot: Facilitating Conversation between Strangers using a Chatbot
Results & Discussion BlahBlahBot: Facilitating Conversation between Strangers using a Chatbot
- 사용 패턴: BlahBlahBot이 주고받은 메시지 양 가장 많았으며, 메시지 간 시간 간격이 가장 짧았음

- 대화 퀄리티: 점수 가장 높았고 … 인터뷰 결과는 아래와 같음

1) shared topics를 찾는 수고를 덜었음 + 그들의 흥미에 기반한 경험을 더욱 쉽고 빠르게 드러낼 수 있었음
2) 주어진 토픽에 대한 만족 — 개인 인스타에서 추출해서인지 그들의 흥미와 높은 상관 보임

3) 원치 않는 주제 방지 — 사용자가 원하는 토픽 후보를 선택: 혼란 피하고 관련 있는 대화 하는 데에 도움

4) 상호성과 배타성 — 상호 선택 주제가 먼저 선택되며 소진 시 한 사람이 고른 주제가 제시되는 방식이 효과적임

5) 시스템에 대한 안심 — 시스템의 구조에 대한 이해가 걱정을 줄이고 대화를 더 편안케 함

- 파트너와의 친밀도: 점수 가장 높았고 … 인터뷰 결과는 아래와 같음
1) 시간 효율성 — 불필요한 질문 없이, 깊고 개인화된 주제에 대해 얘기할 수 있음. 빨리 편안해지고 가까워짐

2) 제안된 주제에 대한 만족 — 주제에 만족하며 서로 관심사가 잘 반영되어 이미 파트너를 알고 있는 듯한 느낌을 받음
Results & Discussion BlahBlahBot: Facilitating Conversation between Strangers using a Chatbot
- 소셜 미디어 데이터를 기반으로 주제를 추천받은 사람들은, 대화 퀄리티를 더 높게 평가하고 대화 상대와 가깝게 느낌

- 다른 온라인 기반 서비스로 작업을 확장할 수 있음

한 참가자는 온라인 소개팅 상황에서의 채팅에서 잘 작동할 수 있다고 언급

- 텍스트 기반 챗봇 에이전트 방식을 고려할 때 게임 플랫폼, 온라인 커뮤니티 등 적용 가능

