"Hi! I am the Crowd Tasker" Crowdsourcing through Digital Voice Assistants
CHI 2020
Danula Hettiachchi, Zhanna Sarsenbayeva, Fraser Allison, Niels van Berkel, Tilman Dingler, Gabriele Marini, Vassilis Kostakos, Jorge Goncalves
What makes a good converation? Challenges in Designing Truly Conversational A...
"Hi! I am the Crowd Tasker" Crowdsourcing through Digital Voice Assistants
1. “Hi! I am the Crowd Tasker”
Crowdsourcing through Digital
Voice Assistants
+ CHI 2020
- Danula Hettiachchi, Zhanna Sarsenbayeva, Fraser Allison,
Niels van Berkel, Tilman Dingler, Gabriele Marini, Vassilis
Kostakos, Jorge Goncalves
/ 박상아
3. 1. Why This Paper?
1. 논문의 방향성 참고: ‘에이전트가 묻고 유저가 답하는’ 형식의 서비스 구조 탐색
2. 쉐어원 위키 성찰: 유사한 기능을 가진 다른 서비스들은 어떻게 구현되었을까?
3. 스피커 그리드의 next step: ‘도구로서의 보이스 어시스턴트’ Feasibility 범위 고민
“ 보이스 어시스턴트를 활용한 크라우드소싱 ”
4. 2. Background
•보이스 어시스턴트는 인기를 얻고 있음에도 low-complexity 태스크들만이 주로 사용되고 있다
•crowd work는 대부분 스크린 기반으로, 작업자의 집 안에서 이루어지고 있다
•스피커는 집 안에서, hands-free/eye-free 하게, 빠르고 간편하게 이용할 수 있다
•음성 데이터를 이용한 크라우드소싱 태스크들이 꽤 존재한다
•Hettiachchi et al.에 따르면 스피커 기반 크라우드소싱은 접근성, 효율성이 뛰어나다
보이스 기반 Crowd work 서비스 ‘Crowd Tasker’ 개발, 웹과의 사용성 비교
5. 3. Method
•보이스 기반 ‘Crowd Tasker’ : 유저에게 크라우드 태스크를 주고, 응답을 저장하는 서비스
•Dialogflow 및 NodeJS client library 사용, Google Assistant에서 작동
•다음과 같은 기능을 수행
(1) 어떤 태스크가 가능한지 질문
(2) 특정 태스크를 시작
(3) 프로그레스 리뷰
(4) 질문 반복 요청
연구를 위해 구현한 플랫폼 (1)
6. 3. Method
•‘Crowd Tasker’와 같은 기능을 수행하는 웹 어플리케이션
•대개의 크라우드소싱 플랫폼의 인터페이스를 띰
•Crowd Tasker의 데이터베이스와 연결되어 있음
연구를 위해 구현한 플랫폼 (2)
7. 3. Method
Sentiment Analysis: 문장의 감정을 파악한 후 positive, negative, neutral로 응답
Comprehension: Wikipedia articles의 질문에 답을 제공
Text Moderation: 문자 메시지를 spam 또는 not spam으로 분류
Voice-compatible : 텍스트 기반이지만 보이스로도 실행 가능한 태스크
Voice-based : 음성과 관련이 있는 태스크
Audio Annotation: 오디오 클립 라벨링
Speech Transcription: 짧은 오디오 클립을 듣고 그대로 따라 말하기 또는 타이핑
Emotion Labeling: 짧은 발화를 듣고 분노, 역겨움, 공포, 즐거움, 슬픔, 놀람 중 라벨링
참가자에게 부여된 태스크 종류
8. •대학 게시판을 통해 30명의 참가자 모집
•영어에 능통한, 보이스 어시스턴트를 이용해 본 경험이 있는
•각각의 참가자는 웹 인터페이스 조건, 보이스 어시스턴트 조건 모두에서 태스크를 수행함
•각 태스크에서는 5개의 질문을 사용자에게 물어봄
3. Method
Lab Study
실험 단계 (1)
9. •Lab study에서 도출된 피드백을 반영하여 시스템을 보완함
(ex. 정보 제공 순서 변경, 질문들 사이의 분리감 형성, 진도 체크용 인텐트 추가 등)
•대학 게시판을 통해 새로운 12명의 참가자 모집 (Lab study와 동일한 조건)
•구글 홈 스피커를 미리 제공하여 7일 동안 사용해 보도록 함
•Lab Study와 달리 보이스 어시스턴트만 제공하여 태스크를 수행토록 함
•일반적인 크라우드소싱 시장의 보상 체계를 모방하여, 건수로 보상을 지급한다고 알림
3. Method
Field Deployment
실험 단계 (2)
일주일의 사용 후 짧은 인터뷰 진행:
편리함의 정도, 타 업무와 동시 진행 여부, 다른 기기와의 비교 등
10. 4. Results
양적 데이터: Web Interface vs. Voice Assistant
•네 개의 태스크에서, 웹으로 진행한 정확도가 보이스로 진행한 정확도보다 유의미하게 높았음
•대체로 voice-based task가 voice-compatible task보다 짧은 시간을 요구하는 경향
11. 4. Results
양적 데이터: Voice Assistant 사용 관련
•Crowd Tasker 사용 기기: 7명은 스마트 스피커만, 3명은 휴대폰으로만, 2명은 둘 다 사용
•스마트 스피커가 집에 설치되어 있다 보니 사용 시간대가 밤에 편중됨
•‘Check Progress’ 세션의 사용률이 높으며, 서비스를 종료하기 전에 ‘Check Progress’를 확인하는 경향
•Speech Transcription Task에 있어서는 다시 들려달라는 요청이 높았음
12. 4. Results
질적 데이터: Lab Study 관련 인터뷰
참가자 상호작용
•웹에서 더욱 높은 수준의 control을 느낌. 음성은 시간적인 압박감을 부여함
•그러나 보이스 어시스턴트가 더욱 단순하고, 효율적이고, 즐겁다고 느낌
태스크 적합성
•보이스 어시스턴트는 기억하기 어려움. emotion labeling task의 옵션을 못 외우기도 함
•보이스 어시스턴트 상황에서는 짧은 응답이 가능한 태스크를 선호했음
인식된 유용함
•보이스 어시스턴트를 사용하는 동시에 다른 일을 할 수 있었음
•쉬는 시간, 집안일 하는 동안 등 보이스 어시스턴트 사용이 유용할 시나리오를 제시하기도 함
13. 4. Results
질적 데이터: Field Deployment 관련 인터뷰
사용의 편리함
•배경 노이즈, 사용자의 악센트, 볼륨 레벨 등으로 음성 인식을 잘못하기도 했음
•음성으로 태스크를 진행하는 것이 편하고 빠르다고 느낌
멀티태스킹 행동
•태스크를 진행하는 동안 주의를 다른 곳에 둔 적이 꽤 있었음
•루틴 행동 등을 할 때 Crowd Tasker를 사용하기도 함
스마트폰 VS 스마트 스피커
•스마트폰을 사용했던 참가자들은 시각적 확인을 받고 싶어 했음
•태스크가 너무 복잡한 경우 보이스보다 스크린을 선호
14. 5. Discussion & Conclusion
Discussion
Conclusion
•사용자에게 control에 대한 감각을 부여하기 위해 (1)어느 때나 태스크를 멈추고 다시 진행할
수 있어야 하며 (2)보이스 어시스턴트가 말하고 있을 때 스킵할 수 있어야 함.
•보이스 인터페이스에서는 많은 양의 태스크를 ‘browsing’하는 것은 적절하지 않음. 따라서
적절한 양의 연관된 태스크만 할당/추천하는 것이 필요함.
•태스크의 특성뿐만 아니라(텍스트 기반 태스크 or 음성 기반 태스크), 작업 기억의 부하 정도,
태스크 복잡성 등이 보이스 기반 적합성에 영향을 줌.
•Speech Transcription, Comprehension Task처럼 발화가 너무 길어서 작업 기억의 부하를
야기하는 경우 정확도가 떨어졌음. 따라서, 유저를 향한 질문과 유저의 응답 모두 짧아져야 함.
•이는 질문 또는 응답을 작은 sub-tasks로 분리함으로써 해결될 수도 있음.
•크라우드소싱을 웹 기반/보이스 기반으로 진행 후 비교한 결과 태스크 종류에 따른 정확도 및
완료 시간이 다양하게 나타났음
•보이스는 태스크의 편리성을 높여주며 멀티태스킹을 가능케 함
•workflow, 응답 처리, 태스크 할당 및 선별 등에 대한 함의점 제시
15. 6. Takeaway
기존 쉐어원위키의 양적 데이터를 보강하고, non-use에 대한 인터뷰를 진행하여
어떠한 특성이 보이스 기반에 적절한지/적절하지 않은지를 도출해내는 방향성은 어떨까?
- 사용자의 인지 부하 줄이기: 질문/응답의 길이를 줄이고 한 턴에 제공하는 정보를 최소화
- 멀티태스킹이 가능한 기능: 보이스 어시스턴트에 완전히 집중하지 않아도 되는 인터랙션 제공
- ‘집 안에서’ 사용 가능한 서비스: 구글 어시스턴트 앱이 있더라도 대부분 스피커를 사용함
- 사용자의 선택지 증가: 한 플로우에서만 진행됐던 쉐어원위키를 반면교사 삼아 자유도 늘리기
쉐어원위키를 회고하며 짐작했던 (실패) 요인들은 ‘뇌피셜’이 아니었을 수도 있다 …
그리고 스마트폰이 무조건 스피커의 적은 아닐지도 모른다
논문의 방향성
쉐어원위키 성찰
스피커 그리드 Next Step