In this study, researchers tried to characterize users with semantic labels by collecting smartphone log data and extracting features from them. With the extracted features, each user could be represented as a 'feature vector'.
3. 3
Data-driven하게,
입주자의 성향을 파악해
최적의 공동체에 매칭해줄 수 있다면
더 나은 코리빙 경험을
만들 수 있을 것이다
어떤 로그 데이터를
‘성향’을 어떤 측정치로
어떤 기준과 알고리즘으로
‘더 낫다’의 종속 변수는?
어떤 측정치로?
만족도? 거주 기간? 갈등 정도?
공유 주거의 시대,
배경 : 개인 연구 주제
6. 6
배경 : Life Log를 찾아서…
생활의 패턴이나 개인의 성향이 드러나는 로그 데이터 연구 탐색!
‘Life Log’라는 키워드가 2008~2014 정도에 꽤 쓰였던 듯 하다
위치, 시간, 통화 및 문자 기록, 캘린더, 연락처, IoT의 행동 탐지 센서, 생체데이터(피부전도반응), 심지어 찍은
사진과 들은 음악까지…
종속변수가 나의 연구 주제와 비슷하며, 내가 현실적으로 수집 가능한 로그를 다룬 논문이 많지는 않다
7. 7
Why this Paper
참고할 거리가 많더라 : 로그 데이터의 유형, 변수, 생각의 확장
스마트폰에서 가져오는 로그 데이터 유형이 다양한데 현실적임
로그 데이터로 ‘피쳐’를 추출하기
‘성향’임을 규정지어가는 방식의 신선함
나의 연구주제에 참고할 거리가 많을 것 같다 ◡̈
8. 8
논문 : 연구 문제
스마트폰 로그를 통해 개인의 성향을 그려내기
로그 데이터를 통해 생활 패턴 및 성향이 드러나는 feature를 뽑고
feature마다 사용자의 수치를 계산,
평균보다 두드러지는 특성을 찾아 의미를 담아 레이블링
9. 9
논문 : Methods and Data
여러 로그 데이터로부터 추출한 8개의 Feature
Daily
Mobility
Daily
Schedule
Social
Ability
Stay places
Regularity of visits
Get-up time
Stay placesBed time
Social circle
Contact concentration
Contact frequency
Nocturnal phone use
Features
머문 장소 개수
이동의 규칙적인 정도
기상 시간
취침 시간
야간 폰 사용
사회 관계 범위
친밀 관계에 연락 집중도
연락 빈도
Aspects Data sources
와이파이
스캔 리스트
간밤의 배터리 충전
전화, 문자 기록
스크린 on/off 기록
10. 10
와이파이 스캔 리스트로 하루의 이동 파악
Stay places
하루 동안 얼마나 많은 곳을 다니는가? (활동적인 정도)
어느 지역에 머물 때 감지된 와이파이 스캔 리스트를 통해 머문 장소의 개수 분석
10분 미만으로 유지된 와이파이는 머문 것으로 여기지 않아 제외
Regularity of visits
하루의 이동(방문)이 얼마나 규칙적인 편인가?
전체 와이파이 지속 시간 대비 특정 장소에 머문 총 시간의 비율을 분석
proportion of the total duration of a user staying at stay places and the total duration of the whole Wifi logs
Daily
Mobility
Stay places
Regularity of visits
Features
머문 장소 개수
이동의 규칙적인 정도
Aspects Data sources
와이파이
스캔 리스트
논문 : Methods and Data
11. 11
배터리 충전 기록과 스크린 기록으로 하루의 스케줄 파악
Get-up / Bed time
언제 자고 언제 일어나는가? (아침형/저녁형)
잘 때 충전 시작해서 깰 때까지 계속 충전한다는 전제 하에, 배터리 충전 싸이클을 수집
[8 p.m.~5 a.m.]에 충전 시작하여 [4 a.m.~1 p.m.]에 충전 끝, 4시간 이상 지속된 데이터만 허용
Nocturnal phone use
밤 시간에 얼마나 많이 핸드폰을 사용하는가?
한번 스크린이 켜지고 꺼질 때까지를 한 세션으로 잡고,
하루에 사용된 전체 세션 중 [자정~6 a.m.]에 사용된 세션의 비율로 분석
FeaturesAspects Data sources
Daily
Schedule
Get-up time
Stay placesBed time
Nocturnal phone use
기상 시간
취침 시간
야간 폰 사용
간밤의 배터리 충전
스크린 on/off 기록
논문 : Methods and Data
12. 12
전화 및 문자 기록으로 사회성 및 사회 활동 파악
Social circle
사회 관계의 범위가 얼마나 넓은가?
전화, 문자 기록에 남은 연락한 사람의 수 분석
Contact concentration
친밀한 사람들에게 연락이 집중된 편인가?
상위 20%의 연락처를 intimate contacts로 지정, 전체 연락 대비 intimate contact의 비율 분석
Contact frequency
전화와 문자를 얼마나 빈번하게 사용하는가?
전체 전화, 문자 기록의 수를 social circle의 값으로 나누어 계산
FeaturesAspects Data sources
Social
Ability
Social circle
Contact concentration
Contact frequency
사회 관계 범위
친밀 관계에 연락 집중도
연락 빈도
전화, 문자 기록
논문 : Methods and Data
13. 13
안드로이드 로그 수집 앱을 통해 사용자 로그 수집
배터리 상태가 추적되지 않는 기간이 한달에 총 10일을 넘지 않으면 그 달은 valid month로 취급
Valide month가 6개월 이상인 사용자 497명의 스마트폰 로그데이터를 ‘Device Analyzer’를 통해 수집
수집된 기간은 6개월부터 27개월까지 사용자에 따라 다양한 듯 함(정확히 서술하지 않음)
논문 : Methods and Data
14. 14
두드러지는 feature에 따라 개인을 레이블링
각 feature에 대해 일정 기간 동안의 개개인의 점수를 수치화함
평균보다 +-1SD 초과하는 점수를 가지면 그 feature가 개인이 가지는 뚜렷한 성향이라고 판단
양 극단의 뚜렷한 성향들을 이름 붙임(Semantic Label)
총 8개의 feature에 대해 2개씩, 총 16개의 레이블 생성
논문 : Analysis
0 +1SD +2SD-1SD-2SD
Late-riserEarly bird
15. 15
논문 : Results and Findings
A. Feature들 간의 상관관계 분석
취침 시간은 핸드폰 야간 사용과 높게 관련된다
기상 시간은 취침 시간과 높게 관련된다
늦게 자면 늦게 일어나고 일찍 자면 일찍 일어나게 된다
넓은 사회적 관계망을 가질수록 친밀한 사람들에게 집중된 정도는 떨어진다
사회적 시간과 자원의 총량은 한정되어있음을 알 수 있음
16. 16
논문 : Results and Findings
B. 3개월 단위별 개인의 성향 변화 분석
3개월 단위로 개인이 가진 feature의 강도(=성향)가 얼마나 고정적인지 혹은 변하는지 볼 수 있음
개인에 따라 고정적인 feature의 종류도 다르고,
feature의 값이 변화한다면 그 분산의 정도 역시 다르게 나타남
17. 17
논문 : Results and Findings
B. 3개월 단위별 개인의 성향 변화 분석
3개월 단위로 개인이 가진 feature의 강도(=성향)가 얼마나 고정적인지 혹은 변하는지 볼 수 있음
개인에 따라 고정적인 feature의 종류도 다르고,
feature의 값이 변화한다면 그 분산의 정도 역시 다르게 나타남
3개월 * 9번 = 27개월 간 두 사용자의 feature 값 변화 정도
비교적 변화 적어
시간이 지나도
일관적인 성향들
패턴의 유사함을 통해
feature 간 상관관계
알 수 있음
18. 18
논문 : Results and Findings
C. 일주일 단위별 개인의 레이블 변화 분석
일주일 단위로 개인의 레이블링을 분석 : 더 미세하게 파악하기 위함
하루 동안 특정 feature의 값이 +-1SD 초과하면 그에 해당하는 레이블이 붙음
ex. 오늘 기상 시간이 오후 12시면 평균보다 +2SD에 해당하므로 ‘Late-riser’ 레이블 1회 적립
일주일 동안 레이블이 자주 붙을수록 그 레이블의 가중치가 커짐
즉, 레이블이 클수록 더 자주 저 feature의 값이 평균을 넘어섰다는 뜻
ex. 이번 주에 ‘Late-riser’ 5회 적립했으면 ‘Late riser’ 레이블의 값이 커지고, 시각적으로 크게 그려짐
19. 19
논문 : Discussion and Limitation
개인을 feature vector로 표현해낼 수 있다는 의의
의의…
스마트폰 로그를 통해 삶의 패턴 및 성향을 반영하는 feature를 추출해냄
개인의 생활과 성향을 feature vector로 표현해낼 수 있다는 의의
그러나,
변수의 조작적 정의와 표현이 잘 이해되지 않는 어색함
종속변수가 없고 수집한 데이터를 분석하는 것에서 그침
세세한 방법론 서술의 부족을 느낌
Feature 값의 변화를 전체 사용자에 대해 분석할 수는 없었는지 아쉬움
20. 20
Take Away
여기서 가져갈 것들과 그대로 유지할 것들에 대한 판단
참고할만한 로그 데이터와 변수들
전화/문자 기록들을 통한 사회적 활동성 및 사회성의 정도?
와이파이 리스트도 참고할 수 있겠구나.
… 그러나 위치 기록이 더 낫지 않을까?
배터리 충전 시간보다는 스크린타임에 기록된 First/Last Pick up 이 더 낫다
성향과 삶의 스케줄은 시간에 따라 변화한다는 것을 다시 인지
3개월 단위로도 성향이 바뀐다면… 한번 성향 및 패턴 분석 후 매칭해주고 끝나는 게 아니라,
지속적으로 데이터를 넣어 사용자의 상태를 업데이트하고 그에 따라 매칭도 업데이트 해 줄 필요가 있다.
어떤 성향을 중요한 feature로 가져갈 것이며, 이를 위해 어떤 로그를 수집할 것인지 더 고민할 필요
아침형/저녁형을 구분하는 기준? 카테고리에 따라 더 적합한 기준치와 방법을 가져갈 것