SlideShare a Scribd company logo
Using Behavioral Data
to Identify Interviewer
Fabrication in Surveys
+ CHI 2013
-Benjamin Birnbaum
/안현진
x 2013 summer
Using Behavioral Data
to Identify Interviewer
Fabrication in Surveys
2013. 08. 08_ UX Lab. Meeting
발제자_ 석사과정 안현진
우리 랩에서는 설문조사를 잘 안한다?
“우리랩에서는사용자들의로그를수집하거나인터뷰를많이하지,설문은잘안해요”by중식쌤
?
Life(User) logging
Context Aware
User Behavior
[ ]
태평양 같은 관심분야... 좁히지 못하고 있습니다...
Using Behavioral Data
to Identify Interviewer
Fabrication in Surveys
설문조사에서 행동 데이터를 이용한 인터뷰어의 조작 행위 식별에 관하여
BenjaminBirnbaum
CSEDepartmentUniveristyofWashington
birnbaum@cs.washington.edu
GaetanoBorriello
CSEDepartmentUniversityofWashington
gaetano@cse.washington.edu
AbrahamD.Flaxman
IHMEUniversityofWashington
abie@uw.edu
BrianDeRenzi
CSEDepartmentUniversityofWashington
bderenzi@cse.uw.edu
AnnaR.Karlin
CSEDepartmentUniversityofWashington
karlin@cs.washington.edu
저자 소개
Hi,UW
Intro.
연구자의 데이터 조작 행위(Curbstoning)
1. 몇몇 대상에 연락이 닿지 않기 때문에
2. 민감한 질문을 하는 것이 불편해서
3. 완료한 설문조사 개수에 따라 돈을 받기 때문에
데이터의 신뢰도(품질)은 조사 기관의 주요한 관심사
But
이유
데이터 수집에 전자기기를 사용하면 효율이 좋다.
Intro.
전자적으로 수집되는 데이터의 양이 증가하고 있다
데이터 수집에 전자기기를 사용하면 효율이 좋다.
Intro.
전자적으로 수집되는 데이터의 양이 증가하고 있다
연구자가 전자 장비로 설문조사를 실시할 때,
답을 선택하고 변경할 때,
질문 사이를 이동하고 스크롤할 때 등 행동 데이터의 흔적을 남긴다.
데이터 수집에 전자기기를 사용하면 효율이 좋다.
Intro.
전자적으로 수집되는 데이터의 양이 증가하고 있다
연구자가 전자 장비로 설문조사를 실시할 때,
답을 선택하고 변경할 때,
질문 사이를 이동하고 스크롤할 때 등 행동 데이터의 흔적을 남긴다.
흔적이 기록된 경우 데이터가 조작되고 있는지를 나타내는 신호를 줄 수 있다.
eg. 데이터 조작자들은 자신의 답을 자주 변경하거나 실제 데이터를 수집하는 인터뷰보다
더 빨리 데이터를 채울 가능성이 있다.
SW Tools
ODK(Open Data Kit)는 터치스크린을 사용하여 구조화 된 데이터를 기록 할 수 있게함.
설문은 질문 텍스트, 응답 유형 및 조사 분기 논리를 제공하는 XML형태로 특정되어 수집됨.
SW Tools
이벤트 종류 설명 매개 변수
선택한 답 객관식 질문 프롬프트에 대한 답변을 선택하거나 변경 선택한 반응
다음 프롬프트가 앞으로(왼쪽으로) 넘어감
뒤로 프롬프트가 뒤로(오른쪽으로) 넘어감
스크롤 사용자가 프롬프트에서 위쪽 또는 아래쪽으로 스크롤 스크롤된 픽셀 수(방향 표시에 의해 판별됨)
텍스트 변경 텍스트 프롬프트 숫자 또는 자유 텍스트 질문에 대한 변경 변경 전의 답변, 변경 후의 답변
1. Log event type
응답: 질문 프롬프트인 경우, 프롬프트에 대한 응답의 실제 값
ORD: 숫자 질문 프롬프트에 대해, 응답의 순서에 따른 위치를 나타내는 양의 정수
시간: 프롬프트에 소요되는 밀리 초 단위의 총 시간
최초 편집까지 지연 시간: 프롬프트를 처음 전환했을 때부터 처음의 편집이 만들어지기까지의 밀리 초 단위 시간
연속 편집 횟수: 사용자가 질문 프롬프트에 대한 답을 도중에 프롬프트의 변화 없이 연속적으로 다시 편집한 횟수
비연속 편집 횟수: 사용자가 질문 프롬프트에 대한 답을 프롬프트를 넘기자마자 즉시 편집한 횟수
2. 로그에서 추출한 프롬프트 수준의 특징 일부 (총 209가지)
SW Tools
3. 로그에서 추출된 인스턴스 레벨의 특성 일부 (641가지)
총 시간
총/평균/최소 응답시간
총/평균/최소 최초 편집까지 지연 시간
평균 문자열 길이
노트 시간
조건부 횟수
조건부 총 시간
평균/ 최대 객관식 연속적 수정
넘기기 횟수
뒤로가기 횟수
총 스크롤
지난 질문을 체크한 쵯수
이전 연구에서 밝혀진 부분을 참고/영감을 얻음.
랜덤 포레스트법을 연구 철학으로 삼고 접근하여 특징을 추출
이 특성들은 어떻게 정했나?
실험 설계 및 데이터 수집
실험을 위한 설문조사 제작
공부 습관에 대한 설문
- 응답자가 작년에 들은 가장 어려운 수업, 과목명, 수강 시기, 과목을 좋아했는지, 할애시간
- 유급 노동, 자원 봉사, 연구 및 가족 등 학교 외부 일에 얼마나 많은 시간을 소비했는지
- etc...
실험 설계 및 데이터 수집
실험을 위한 설문조사 제작
공부 습관에 대한 설문
- 응답자가 작년에 들은 가장 어려운 수업, 과목명, 수강 시기, 과목을 좋아했는지, 할애시간
- 유급 노동, 자원 봉사, 연구 및 가족 등 학교 외부 일에 얼마나 많은 시간을 소비했는지
- etc...
44개의 질문을 포함
- 객관식 27개, 숫자 7개, 주관식 10개로 구성
- 고민이 필요한 질문과 그렇지 않은 질문을 구별
- 조건(분기문) 로직을 포함시킴
5~10분정도 소요
18세에서 25세 사이의 대학생에게만 부여함
서면으로만 전달
실험 설계 및 데이터 수집
실험 프로토콜
1) 연구자는 우리의 실험의 목적에 대해 아무것도 듣지 않았으며, 그들이 데이터를 조작하는 것에 대한 동기는
부여 되지 않았고, “누군가를 인터뷰한 척하고 응답하라”
2) 연구의 목적은 연구자 조작을 검출하는 알고리즘을 실험한다는 것을 통보 받음
3) 연구의 목적을 알고 데이터를 현설적으로 조작하는 데 대한 인센티브를 부여
실험 설계 및 데이터 수집
실험 프로토콜 (Cont...)
(1) 교육 세션
연구자들은 1~2시간 정도 걸리는 교육 세션에 참석
우리 학과의 학부 지도교수를 대신해 공부 습관에 대한 설문 조사를 실행한다고 말함
다음 후속 세션까지 ODK를 사용해서 10명의 설문을 해오도록 요청
또한 설문의 결과 뿐 아니라 ODK의 데이터 품질에 대한 연구를 하고 있다고 말함 (자세하게는 말하지 않음)
ODK사용법을 가르치고 “다섯 명의 서로 다른 사람을 인터뷰하고 그들이 응답한 것처럼” 요청
이 데이터를 fake0 (정보에 입각하지 않은 조작 데이터) 이라고 이름 붙임
실험 설계 및 데이터 수집
실험 프로토콜 (Cont......)
(2) 인터뷰 세션
교육 세션 후 일주일에 걸쳐 참가자들에게 10명의 응답자에게 설문을 하도록 요청
이 기간 동안 수집 된 데이터는 real 이라는 이름을 붙임
수집한 데이터가 실제로 수집되었는지 확인하기 위해 확인 작업을 함
- 응답자 중 무작위 표본에 대해 재면담을 수행
- 데이터 조작이나 다른 편법에 대한 보고를 감사히 받을 것이며 보상에 영향을 미치지 않을 것이라고 전달
실험 설계 및 데이터 수집
실험 프로토콜 (Cont.........)
(3) 후속 세션
인터뷰 세션 후, 연구자들에게 실험실로 돌아와 두 시간 동안 후속 세션에 참가하도록 요청
후속 세션은 두 라운드로 구성되어 있음
라운드 1
- 우리는 최초에 “조작된 설문 조사 데이터를 자동으로 검출하는 알고리즘을 설계하고 있으며”
- “우리의 알고리즘이 조작된 데이터를 얼마나 잘 검출하는지 테스트하고 있다”고 알림
- 연구의 목적을 아는 상태에서 40분간 4~10개의 양식을 조작하도록 시켰다
- 정보에 입각한 조작 데이터라고 부르고 fake1이라 이름 붙였다.
실험 설계 및 데이터 수집
실험 프로토콜 (Cont............)
(3) 후속 세션 (Cont...)
라운드 2
- 연구자들에게 얼마나 잘 조작했는지에 대한 피드백을 제공
- 어떤 문서가 잘 조작되었는지 예측하는 데 사용된 상위 3개의 알고리즘을 담은 이메일을 전송
- 메일을 받은 후 4~10개의 설문지를 꾸미는데 40분을 제공
- 더 나은 정보에 입각한 조작 데이터라 부르고 fake2라 이름 붙임
실험 설계 및 데이터 수집
실험 프로토콜 (Cont...............)
Lable Description Explanation
When
Collected
Data Set
Real
실제(real) 교육 세션의 끝에 일어난 것을 포함해, 면접관과 응답자 사
이에 일어난 실제 인터뷰
인터뷰 세션 D0, D1, D2
fake0
정보에 입각하지 않
은 조작
(uninformed fake)
교육 세션에 일어난 조작 인터뷰. 참가자들은 “다섯 명의
서로 다른 사람을 면담한 것처럼 가짜로 설문을 작성하
라”고 지시받았음.
교육 세션 D0
fake1
정보에 입각한 조작
(informed fake)
후속 세션의 첫 번째 회차의 조작 인터뷰. 참가자들은 연구
의 진정한 목적을 알았고 사실적으로 데이터를 조작하는
것에 대한 금전적 인센티브를 받음.
후속 세션 D1
fake2
더 나은 정보에 입
각한 조작(better-
informed fake)
후속 세션의 두 번째 회차의 조작 인터뷰. 참가자들은 연구
의 진정한 목적을 알았고 사실적으로 데이터를 조작하는
것에 대한 금전적 인센티브를 받았으며, 조작 데이터를 식
별하는 데 사용되는 특징에 대한 피드백을 제공 받음.
후속 세션 D2
결과(Result)
연습 세트에 대한 임의의 포레스트 분류자를 연습해 각각의 데이터 세트를 위한 테스트 세트에서 평가했다.
데이터 세트 D0에서 정확도는 96%, D1 90%, D2 86% 였다.
정밀성(precision), 기억(recall), 특이성(specificity), F1점수를 포함한 수치는 표 6과 같다
표 7과의 비교를 통해 행동 데이터가 얼마나 도움이 되었는지 볼 수 있다.
전반적인 수행
?
결과(Result)
(1) 연구자들이 경험과 함께 데이터를 잘 조작할 동기를 얻을 때, 행동 데이터는 응답 데이터에 비해 더 중요한
조작의 지표가 된다.
(2) 조작을 예측하기 위해서는, 개인적인 즉각적 수준의 특성들보다 집계된 형식 수준의 특성들을 사용하는 것
이 더 낫다.
(3) 어려운 문제들에서 측정한 시간 정보는, 쉬운 문제들에서 측정한 시간 정보보다 조작을 더 정확하게 예측한
다. (ex. 특정 전공에 수업료가 더 비쌌다면, 더 비싼 전공을 선택하는데 망설였겠는가? / vs 성은 무엇인가?)
일반적 결론
한계(Limitation)
1. fake0 데이터를 조작할 때, 진짜 인터뷰를 하지 않은 상황이었으며, fake1과 fake2를 꾸며낼 때는 대략
10개의 인터뷰를 한 상태 였다.
-> 데이터의 정확도에서 큰 차이를 줄 수 있는 치명적인 부분이 아닐까... 이래도 되는걸까...?
2. 본 연구에서 설문조사의 어떠한 데이터가 조작되는 경우, 전체 설문이 조작된다. 실제 설문 조사에서 연구자
들은 몇 문항만을 조작할지도 모른다.
-> 알고리즘에 따라 뒷 부분을 조작하면 앞부분까지 모두 틀리게 된다.
본 실험의 한계
한계(Limitation)
1. 데이터를 분석하는 방법을 완전히 이해하지 못했다. (랜덤 포레스트, 통계 등...)
2. 행동 데이터를 추출해내는 과정이 더 궁금했는데 자세한 설명이 없어 아쉽다.
나의 한계...
토론(Discussion Point)
1. 우리 랩에서 설문조사를 잘 사용하지 않는 이유는 무엇인가요?
2. 어쩔 수 없이(?) 데이터를 조작할 수 밖에 없었던 경험을 듣고 싶습니다.
감사합니다
Appendix
Random Forest
2008,

More Related Content

Viewers also liked

Scenario-Based Interactive UI Design
Scenario-Based Interactive UI DesignScenario-Based Interactive UI Design
Scenario-Based Interactive UI Design
Hyunjin Ahn
 
PointAssist: Assisting Individuals with Motor Impairments
PointAssist:  Assisting Individuals with Motor ImpairmentsPointAssist:  Assisting Individuals with Motor Impairments
PointAssist: Assisting Individuals with Motor ImpairmentsHyunjin Ahn
 
Analyzing User-Generated YouTube Videos to Understand Touchscreen Use By Peo...
Analyzing User-Generated YouTube Videos to Understand  Touchscreen Use By Peo...Analyzing User-Generated YouTube Videos to Understand  Touchscreen Use By Peo...
Analyzing User-Generated YouTube Videos to Understand Touchscreen Use By Peo...Hyunjin Ahn
 
test2+Impact of Limited Education on Hierarchical User Interface Navigation:C...
test2+Impact of Limited Education on Hierarchical User Interface Navigation:C...test2+Impact of Limited Education on Hierarchical User Interface Navigation:C...
test2+Impact of Limited Education on Hierarchical User Interface Navigation:C...
Hyunjin Ahn
 
Accessibility in context+ASSETS2014-Maia Naftali/안현진
Accessibility in context+ASSETS2014-Maia Naftali/안현진Accessibility in context+ASSETS2014-Maia Naftali/안현진
Accessibility in context+ASSETS2014-Maia Naftali/안현진
Hyunjin Ahn
 
CHI2014 후기 + 미니 발제
CHI2014 후기 + 미니 발제CHI2014 후기 + 미니 발제
CHI2014 후기 + 미니 발제
Hyunjin Ahn
 

Viewers also liked (6)

Scenario-Based Interactive UI Design
Scenario-Based Interactive UI DesignScenario-Based Interactive UI Design
Scenario-Based Interactive UI Design
 
PointAssist: Assisting Individuals with Motor Impairments
PointAssist:  Assisting Individuals with Motor ImpairmentsPointAssist:  Assisting Individuals with Motor Impairments
PointAssist: Assisting Individuals with Motor Impairments
 
Analyzing User-Generated YouTube Videos to Understand Touchscreen Use By Peo...
Analyzing User-Generated YouTube Videos to Understand  Touchscreen Use By Peo...Analyzing User-Generated YouTube Videos to Understand  Touchscreen Use By Peo...
Analyzing User-Generated YouTube Videos to Understand Touchscreen Use By Peo...
 
test2+Impact of Limited Education on Hierarchical User Interface Navigation:C...
test2+Impact of Limited Education on Hierarchical User Interface Navigation:C...test2+Impact of Limited Education on Hierarchical User Interface Navigation:C...
test2+Impact of Limited Education on Hierarchical User Interface Navigation:C...
 
Accessibility in context+ASSETS2014-Maia Naftali/안현진
Accessibility in context+ASSETS2014-Maia Naftali/안현진Accessibility in context+ASSETS2014-Maia Naftali/안현진
Accessibility in context+ASSETS2014-Maia Naftali/안현진
 
CHI2014 후기 + 미니 발제
CHI2014 후기 + 미니 발제CHI2014 후기 + 미니 발제
CHI2014 후기 + 미니 발제
 

Similar to Using Behavioral Data to Identify Interviewer Fabrication in Surveys + CHI 2013 -Benjamin Birnbaum /안현진 x 2013 summer

6th.lecture.step2.observation
6th.lecture.step2.observation6th.lecture.step2.observation
6th.lecture.step2.observation
Jeongeun Kwon
 
2018 06-11-active-question-answering
2018 06-11-active-question-answering2018 06-11-active-question-answering
2018 06-11-active-question-answering
Woong won Lee
 
Chapter 11 Practical Methodology
Chapter 11 Practical MethodologyChapter 11 Practical Methodology
Chapter 11 Practical Methodology
KyeongUkJang
 
8th.lecture.step2.observation
8th.lecture.step2.observation8th.lecture.step2.observation
8th.lecture.step2.observation
Jeongeun Kwon
 
[2021 Google I/O] LaMDA : Language Models for DialogApplications
[2021 Google I/O] LaMDA : Language Models for DialogApplications[2021 Google I/O] LaMDA : Language Models for DialogApplications
[2021 Google I/O] LaMDA : Language Models for DialogApplications
taeseon ryu
 
La mda 딥러닝 논문읽기 모임, 2021 google IO
La mda 딥러닝 논문읽기 모임, 2021 google IOLa mda 딥러닝 논문읽기 모임, 2021 google IO
La mda 딥러닝 논문읽기 모임, 2021 google IO
taeseon ryu
 
7th.Lecture.Step2.Observation.pdf
7th.Lecture.Step2.Observation.pdf7th.Lecture.Step2.Observation.pdf
7th.Lecture.Step2.Observation.pdf
Jeongeun Kwon
 
제5장표준화검사컴퓨터화검사 송화담
제5장표준화검사컴퓨터화검사 송화담제5장표준화검사컴퓨터화검사 송화담
제5장표준화검사컴퓨터화검사 송화담
Minsoo Jung
 
Python을 활용한 챗봇 서비스 개발 2일차
Python을 활용한 챗봇 서비스 개발 2일차Python을 활용한 챗봇 서비스 개발 2일차
Python을 활용한 챗봇 서비스 개발 2일차
Taekyung Han
 
[우리가 데이터를 쓰는 법] 데이터로 소소한 의사결정하기 - 노리 조영임 UX 아키텍트
[우리가 데이터를 쓰는 법] 데이터로 소소한 의사결정하기 - 노리 조영임 UX 아키텍트[우리가 데이터를 쓰는 법] 데이터로 소소한 의사결정하기 - 노리 조영임 UX 아키텍트
[우리가 데이터를 쓰는 법] 데이터로 소소한 의사결정하기 - 노리 조영임 UX 아키텍트
Dylan Ko
 
사업계획서
사업계획서사업계획서
사업계획서
Ohsung Kwon
 
컴퓨터화 검사 3분반 윤주리
컴퓨터화 검사 3분반 윤주리컴퓨터화 검사 3분반 윤주리
컴퓨터화 검사 3분반 윤주리
juljuri
 
How to Create Value from Data, and Its Difficulty
How to Create Value from Data, and Its DifficultyHow to Create Value from Data, and Its Difficulty
How to Create Value from Data, and Its Difficulty
Dataya Nolja
 
Beyond post it
Beyond post itBeyond post it
Beyond post it
Yoojung Kim
 
Beyond post it snuux
Beyond post it snuuxBeyond post it snuux
Beyond post it snuux
Seoul National University
 
[SNU UX Lab] Analysis of Youngsters’ Media Multitasking Behaviors and Effect ...
[SNU UX Lab] Analysis of Youngsters’ Media Multitasking Behaviors and Effect ...[SNU UX Lab] Analysis of Youngsters’ Media Multitasking Behaviors and Effect ...
[SNU UX Lab] Analysis of Youngsters’ Media Multitasking Behaviors and Effect ...PHKIM
 
7th.Lecture.Step2.Observation.pdf
7th.Lecture.Step2.Observation.pdf7th.Lecture.Step2.Observation.pdf
7th.Lecture.Step2.Observation.pdf
Jeongeun Kwon
 
[파인트리오픈클래스] 엑셀을 활용한 데이터 분석과 이해
[파인트리오픈클래스] 엑셀을 활용한 데이터 분석과 이해[파인트리오픈클래스] 엑셀을 활용한 데이터 분석과 이해
[파인트리오픈클래스] 엑셀을 활용한 데이터 분석과 이해
pinetreeopenclass
 
Using Context to Reveal Factors that Affect Physical Activity
Using Context to Reveal Factors that Affect Physical Activity Using Context to Reveal Factors that Affect Physical Activity
Using Context to Reveal Factors that Affect Physical Activity
Jinhan Choi
 

Similar to Using Behavioral Data to Identify Interviewer Fabrication in Surveys + CHI 2013 -Benjamin Birnbaum /안현진 x 2013 summer (20)

6th.lecture.step2.observation
6th.lecture.step2.observation6th.lecture.step2.observation
6th.lecture.step2.observation
 
2018 06-11-active-question-answering
2018 06-11-active-question-answering2018 06-11-active-question-answering
2018 06-11-active-question-answering
 
Chapter 11 Practical Methodology
Chapter 11 Practical MethodologyChapter 11 Practical Methodology
Chapter 11 Practical Methodology
 
8th.lecture.step2.observation
8th.lecture.step2.observation8th.lecture.step2.observation
8th.lecture.step2.observation
 
[2021 Google I/O] LaMDA : Language Models for DialogApplications
[2021 Google I/O] LaMDA : Language Models for DialogApplications[2021 Google I/O] LaMDA : Language Models for DialogApplications
[2021 Google I/O] LaMDA : Language Models for DialogApplications
 
La mda 딥러닝 논문읽기 모임, 2021 google IO
La mda 딥러닝 논문읽기 모임, 2021 google IOLa mda 딥러닝 논문읽기 모임, 2021 google IO
La mda 딥러닝 논문읽기 모임, 2021 google IO
 
7th.Lecture.Step2.Observation.pdf
7th.Lecture.Step2.Observation.pdf7th.Lecture.Step2.Observation.pdf
7th.Lecture.Step2.Observation.pdf
 
제5장표준화검사컴퓨터화검사 송화담
제5장표준화검사컴퓨터화검사 송화담제5장표준화검사컴퓨터화검사 송화담
제5장표준화검사컴퓨터화검사 송화담
 
Python을 활용한 챗봇 서비스 개발 2일차
Python을 활용한 챗봇 서비스 개발 2일차Python을 활용한 챗봇 서비스 개발 2일차
Python을 활용한 챗봇 서비스 개발 2일차
 
Sam01
Sam01Sam01
Sam01
 
[우리가 데이터를 쓰는 법] 데이터로 소소한 의사결정하기 - 노리 조영임 UX 아키텍트
[우리가 데이터를 쓰는 법] 데이터로 소소한 의사결정하기 - 노리 조영임 UX 아키텍트[우리가 데이터를 쓰는 법] 데이터로 소소한 의사결정하기 - 노리 조영임 UX 아키텍트
[우리가 데이터를 쓰는 법] 데이터로 소소한 의사결정하기 - 노리 조영임 UX 아키텍트
 
사업계획서
사업계획서사업계획서
사업계획서
 
컴퓨터화 검사 3분반 윤주리
컴퓨터화 검사 3분반 윤주리컴퓨터화 검사 3분반 윤주리
컴퓨터화 검사 3분반 윤주리
 
How to Create Value from Data, and Its Difficulty
How to Create Value from Data, and Its DifficultyHow to Create Value from Data, and Its Difficulty
How to Create Value from Data, and Its Difficulty
 
Beyond post it
Beyond post itBeyond post it
Beyond post it
 
Beyond post it snuux
Beyond post it snuuxBeyond post it snuux
Beyond post it snuux
 
[SNU UX Lab] Analysis of Youngsters’ Media Multitasking Behaviors and Effect ...
[SNU UX Lab] Analysis of Youngsters’ Media Multitasking Behaviors and Effect ...[SNU UX Lab] Analysis of Youngsters’ Media Multitasking Behaviors and Effect ...
[SNU UX Lab] Analysis of Youngsters’ Media Multitasking Behaviors and Effect ...
 
7th.Lecture.Step2.Observation.pdf
7th.Lecture.Step2.Observation.pdf7th.Lecture.Step2.Observation.pdf
7th.Lecture.Step2.Observation.pdf
 
[파인트리오픈클래스] 엑셀을 활용한 데이터 분석과 이해
[파인트리오픈클래스] 엑셀을 활용한 데이터 분석과 이해[파인트리오픈클래스] 엑셀을 활용한 데이터 분석과 이해
[파인트리오픈클래스] 엑셀을 활용한 데이터 분석과 이해
 
Using Context to Reveal Factors that Affect Physical Activity
Using Context to Reveal Factors that Affect Physical Activity Using Context to Reveal Factors that Affect Physical Activity
Using Context to Reveal Factors that Affect Physical Activity
 

Using Behavioral Data to Identify Interviewer Fabrication in Surveys + CHI 2013 -Benjamin Birnbaum /안현진 x 2013 summer

  • 1. Using Behavioral Data to Identify Interviewer Fabrication in Surveys + CHI 2013 -Benjamin Birnbaum /안현진 x 2013 summer
  • 2. Using Behavioral Data to Identify Interviewer Fabrication in Surveys 2013. 08. 08_ UX Lab. Meeting 발제자_ 석사과정 안현진
  • 3. 우리 랩에서는 설문조사를 잘 안한다? “우리랩에서는사용자들의로그를수집하거나인터뷰를많이하지,설문은잘안해요”by중식쌤 ?
  • 4. Life(User) logging Context Aware User Behavior [ ] 태평양 같은 관심분야... 좁히지 못하고 있습니다...
  • 5. Using Behavioral Data to Identify Interviewer Fabrication in Surveys 설문조사에서 행동 데이터를 이용한 인터뷰어의 조작 행위 식별에 관하여
  • 7. Intro. 연구자의 데이터 조작 행위(Curbstoning) 1. 몇몇 대상에 연락이 닿지 않기 때문에 2. 민감한 질문을 하는 것이 불편해서 3. 완료한 설문조사 개수에 따라 돈을 받기 때문에 데이터의 신뢰도(품질)은 조사 기관의 주요한 관심사 But 이유
  • 8. 데이터 수집에 전자기기를 사용하면 효율이 좋다. Intro. 전자적으로 수집되는 데이터의 양이 증가하고 있다
  • 9. 데이터 수집에 전자기기를 사용하면 효율이 좋다. Intro. 전자적으로 수집되는 데이터의 양이 증가하고 있다 연구자가 전자 장비로 설문조사를 실시할 때, 답을 선택하고 변경할 때, 질문 사이를 이동하고 스크롤할 때 등 행동 데이터의 흔적을 남긴다.
  • 10. 데이터 수집에 전자기기를 사용하면 효율이 좋다. Intro. 전자적으로 수집되는 데이터의 양이 증가하고 있다 연구자가 전자 장비로 설문조사를 실시할 때, 답을 선택하고 변경할 때, 질문 사이를 이동하고 스크롤할 때 등 행동 데이터의 흔적을 남긴다. 흔적이 기록된 경우 데이터가 조작되고 있는지를 나타내는 신호를 줄 수 있다. eg. 데이터 조작자들은 자신의 답을 자주 변경하거나 실제 데이터를 수집하는 인터뷰보다 더 빨리 데이터를 채울 가능성이 있다.
  • 11. SW Tools ODK(Open Data Kit)는 터치스크린을 사용하여 구조화 된 데이터를 기록 할 수 있게함. 설문은 질문 텍스트, 응답 유형 및 조사 분기 논리를 제공하는 XML형태로 특정되어 수집됨.
  • 12. SW Tools 이벤트 종류 설명 매개 변수 선택한 답 객관식 질문 프롬프트에 대한 답변을 선택하거나 변경 선택한 반응 다음 프롬프트가 앞으로(왼쪽으로) 넘어감 뒤로 프롬프트가 뒤로(오른쪽으로) 넘어감 스크롤 사용자가 프롬프트에서 위쪽 또는 아래쪽으로 스크롤 스크롤된 픽셀 수(방향 표시에 의해 판별됨) 텍스트 변경 텍스트 프롬프트 숫자 또는 자유 텍스트 질문에 대한 변경 변경 전의 답변, 변경 후의 답변 1. Log event type 응답: 질문 프롬프트인 경우, 프롬프트에 대한 응답의 실제 값 ORD: 숫자 질문 프롬프트에 대해, 응답의 순서에 따른 위치를 나타내는 양의 정수 시간: 프롬프트에 소요되는 밀리 초 단위의 총 시간 최초 편집까지 지연 시간: 프롬프트를 처음 전환했을 때부터 처음의 편집이 만들어지기까지의 밀리 초 단위 시간 연속 편집 횟수: 사용자가 질문 프롬프트에 대한 답을 도중에 프롬프트의 변화 없이 연속적으로 다시 편집한 횟수 비연속 편집 횟수: 사용자가 질문 프롬프트에 대한 답을 프롬프트를 넘기자마자 즉시 편집한 횟수 2. 로그에서 추출한 프롬프트 수준의 특징 일부 (총 209가지)
  • 13. SW Tools 3. 로그에서 추출된 인스턴스 레벨의 특성 일부 (641가지) 총 시간 총/평균/최소 응답시간 총/평균/최소 최초 편집까지 지연 시간 평균 문자열 길이 노트 시간 조건부 횟수 조건부 총 시간 평균/ 최대 객관식 연속적 수정 넘기기 횟수 뒤로가기 횟수 총 스크롤 지난 질문을 체크한 쵯수 이전 연구에서 밝혀진 부분을 참고/영감을 얻음. 랜덤 포레스트법을 연구 철학으로 삼고 접근하여 특징을 추출 이 특성들은 어떻게 정했나?
  • 14. 실험 설계 및 데이터 수집 실험을 위한 설문조사 제작 공부 습관에 대한 설문 - 응답자가 작년에 들은 가장 어려운 수업, 과목명, 수강 시기, 과목을 좋아했는지, 할애시간 - 유급 노동, 자원 봉사, 연구 및 가족 등 학교 외부 일에 얼마나 많은 시간을 소비했는지 - etc...
  • 15. 실험 설계 및 데이터 수집 실험을 위한 설문조사 제작 공부 습관에 대한 설문 - 응답자가 작년에 들은 가장 어려운 수업, 과목명, 수강 시기, 과목을 좋아했는지, 할애시간 - 유급 노동, 자원 봉사, 연구 및 가족 등 학교 외부 일에 얼마나 많은 시간을 소비했는지 - etc... 44개의 질문을 포함 - 객관식 27개, 숫자 7개, 주관식 10개로 구성 - 고민이 필요한 질문과 그렇지 않은 질문을 구별 - 조건(분기문) 로직을 포함시킴 5~10분정도 소요 18세에서 25세 사이의 대학생에게만 부여함 서면으로만 전달
  • 16. 실험 설계 및 데이터 수집 실험 프로토콜 1) 연구자는 우리의 실험의 목적에 대해 아무것도 듣지 않았으며, 그들이 데이터를 조작하는 것에 대한 동기는 부여 되지 않았고, “누군가를 인터뷰한 척하고 응답하라” 2) 연구의 목적은 연구자 조작을 검출하는 알고리즘을 실험한다는 것을 통보 받음 3) 연구의 목적을 알고 데이터를 현설적으로 조작하는 데 대한 인센티브를 부여
  • 17. 실험 설계 및 데이터 수집 실험 프로토콜 (Cont...) (1) 교육 세션 연구자들은 1~2시간 정도 걸리는 교육 세션에 참석 우리 학과의 학부 지도교수를 대신해 공부 습관에 대한 설문 조사를 실행한다고 말함 다음 후속 세션까지 ODK를 사용해서 10명의 설문을 해오도록 요청 또한 설문의 결과 뿐 아니라 ODK의 데이터 품질에 대한 연구를 하고 있다고 말함 (자세하게는 말하지 않음) ODK사용법을 가르치고 “다섯 명의 서로 다른 사람을 인터뷰하고 그들이 응답한 것처럼” 요청 이 데이터를 fake0 (정보에 입각하지 않은 조작 데이터) 이라고 이름 붙임
  • 18. 실험 설계 및 데이터 수집 실험 프로토콜 (Cont......) (2) 인터뷰 세션 교육 세션 후 일주일에 걸쳐 참가자들에게 10명의 응답자에게 설문을 하도록 요청 이 기간 동안 수집 된 데이터는 real 이라는 이름을 붙임 수집한 데이터가 실제로 수집되었는지 확인하기 위해 확인 작업을 함 - 응답자 중 무작위 표본에 대해 재면담을 수행 - 데이터 조작이나 다른 편법에 대한 보고를 감사히 받을 것이며 보상에 영향을 미치지 않을 것이라고 전달
  • 19. 실험 설계 및 데이터 수집 실험 프로토콜 (Cont.........) (3) 후속 세션 인터뷰 세션 후, 연구자들에게 실험실로 돌아와 두 시간 동안 후속 세션에 참가하도록 요청 후속 세션은 두 라운드로 구성되어 있음 라운드 1 - 우리는 최초에 “조작된 설문 조사 데이터를 자동으로 검출하는 알고리즘을 설계하고 있으며” - “우리의 알고리즘이 조작된 데이터를 얼마나 잘 검출하는지 테스트하고 있다”고 알림 - 연구의 목적을 아는 상태에서 40분간 4~10개의 양식을 조작하도록 시켰다 - 정보에 입각한 조작 데이터라고 부르고 fake1이라 이름 붙였다.
  • 20. 실험 설계 및 데이터 수집 실험 프로토콜 (Cont............) (3) 후속 세션 (Cont...) 라운드 2 - 연구자들에게 얼마나 잘 조작했는지에 대한 피드백을 제공 - 어떤 문서가 잘 조작되었는지 예측하는 데 사용된 상위 3개의 알고리즘을 담은 이메일을 전송 - 메일을 받은 후 4~10개의 설문지를 꾸미는데 40분을 제공 - 더 나은 정보에 입각한 조작 데이터라 부르고 fake2라 이름 붙임
  • 21. 실험 설계 및 데이터 수집 실험 프로토콜 (Cont...............) Lable Description Explanation When Collected Data Set Real 실제(real) 교육 세션의 끝에 일어난 것을 포함해, 면접관과 응답자 사 이에 일어난 실제 인터뷰 인터뷰 세션 D0, D1, D2 fake0 정보에 입각하지 않 은 조작 (uninformed fake) 교육 세션에 일어난 조작 인터뷰. 참가자들은 “다섯 명의 서로 다른 사람을 면담한 것처럼 가짜로 설문을 작성하 라”고 지시받았음. 교육 세션 D0 fake1 정보에 입각한 조작 (informed fake) 후속 세션의 첫 번째 회차의 조작 인터뷰. 참가자들은 연구 의 진정한 목적을 알았고 사실적으로 데이터를 조작하는 것에 대한 금전적 인센티브를 받음. 후속 세션 D1 fake2 더 나은 정보에 입 각한 조작(better- informed fake) 후속 세션의 두 번째 회차의 조작 인터뷰. 참가자들은 연구 의 진정한 목적을 알았고 사실적으로 데이터를 조작하는 것에 대한 금전적 인센티브를 받았으며, 조작 데이터를 식 별하는 데 사용되는 특징에 대한 피드백을 제공 받음. 후속 세션 D2
  • 22. 결과(Result) 연습 세트에 대한 임의의 포레스트 분류자를 연습해 각각의 데이터 세트를 위한 테스트 세트에서 평가했다. 데이터 세트 D0에서 정확도는 96%, D1 90%, D2 86% 였다. 정밀성(precision), 기억(recall), 특이성(specificity), F1점수를 포함한 수치는 표 6과 같다 표 7과의 비교를 통해 행동 데이터가 얼마나 도움이 되었는지 볼 수 있다. 전반적인 수행 ?
  • 23. 결과(Result) (1) 연구자들이 경험과 함께 데이터를 잘 조작할 동기를 얻을 때, 행동 데이터는 응답 데이터에 비해 더 중요한 조작의 지표가 된다. (2) 조작을 예측하기 위해서는, 개인적인 즉각적 수준의 특성들보다 집계된 형식 수준의 특성들을 사용하는 것 이 더 낫다. (3) 어려운 문제들에서 측정한 시간 정보는, 쉬운 문제들에서 측정한 시간 정보보다 조작을 더 정확하게 예측한 다. (ex. 특정 전공에 수업료가 더 비쌌다면, 더 비싼 전공을 선택하는데 망설였겠는가? / vs 성은 무엇인가?) 일반적 결론
  • 24. 한계(Limitation) 1. fake0 데이터를 조작할 때, 진짜 인터뷰를 하지 않은 상황이었으며, fake1과 fake2를 꾸며낼 때는 대략 10개의 인터뷰를 한 상태 였다. -> 데이터의 정확도에서 큰 차이를 줄 수 있는 치명적인 부분이 아닐까... 이래도 되는걸까...? 2. 본 연구에서 설문조사의 어떠한 데이터가 조작되는 경우, 전체 설문이 조작된다. 실제 설문 조사에서 연구자 들은 몇 문항만을 조작할지도 모른다. -> 알고리즘에 따라 뒷 부분을 조작하면 앞부분까지 모두 틀리게 된다. 본 실험의 한계
  • 25. 한계(Limitation) 1. 데이터를 분석하는 방법을 완전히 이해하지 못했다. (랜덤 포레스트, 통계 등...) 2. 행동 데이터를 추출해내는 과정이 더 궁금했는데 자세한 설명이 없어 아쉽다. 나의 한계...
  • 26. 토론(Discussion Point) 1. 우리 랩에서 설문조사를 잘 사용하지 않는 이유는 무엇인가요? 2. 어쩔 수 없이(?) 데이터를 조작할 수 밖에 없었던 경험을 듣고 싶습니다.
  • 30.  및