[논문발표] 20160801 A Sentiment-Enhanced Personalized Location Recommendation System

A Sentiment-Enhanced
Personalized Location
Recommendation System
Dingqi Yang, 24th ACM Conference on Hypertext and Social Media, 2013
2016.08.01
KAIST iDBLab
윤상훈
이 문서는 나눔글꼴로 작성되었습니다. 설치하기

1. Abstract
2. Introduction
3. User Preference Model
4. Location Based Social Matrix Factorization Model
5. Experimental Analysis
목차

1.1 페이지 제목
Abstract
3 / 14
• 장소 기반 소셜 네트워크에서 사용자들은 특정 장소에 체크인을 하거나 팁을 남길 수 있다.
• 현재까지의 연구에서는 사용자들의 체크인에만 집중을 했고 팁에 대해서는 거의 연구되지
않았다.
• 현재의 연구는 social influence를 주로 고려했지만, 장소 유사도를 이용해서 추천 성능을
높일 수 있다는 것을 주장한다.
• 제안
– Sentiment analysis를 한 팁과 체크인 데이터를 조합한 user-location preference model
– User social influence와 venue similarity를 고려한 matrix factorization algorithm을 통한 location recommendation

User Preference Model
4 / 14
Tips data processing flow
• Input: Raw tips
• Output: Noun phrases with sentiment score
1. 언어 감지(영어만)
2. 문장으로 쪼개고, 각 단어에 품사 태깅을 한다
3. 각 단어를 SentiWordNet에서 찾음으로써 sentiment score를 얻는다
4. Noun phrase chunking (e.g. good + place = good place)
• 팁의 sentiment score는 각 phrase의 sentiment score를 합해서 [-1, 1]로 normalization을
한다
• 구현은 NTLK, SentiWordNet3.0 기반

User Preference Model
5 / 14
Preference extraction
• Power law distribution 때문에 왼쪽과 같은
mapping
• Sentiment score의 분포를 고려해서 왼쪽과
같은 mapping
Fusion
• 한 번의 체크인은 사용자의 감정에 대한 충
분한 정보를 준다고 보기 어려우므로
sentiment preference를 사용
• 𝑃𝑓𝑖𝑛𝑎𝑙 = 𝑃𝑐 + 𝑠𝑔𝑛 𝑃𝑐 − 𝑃𝑠 ∙ 𝐻 𝑃𝑐 − 𝑃𝑠 − 2
• H(x): Heaviside step function(unit step
function)
# of check-in
s
Check-in preference matrix element
1 2
2 3
3 4
4+ 5
Sentiment score Preference measure
[-1, -0.05] 1
(-0.05, -0.01] 2
(-0.01, 0.01) 3
[0.01, 0.05) 4
[0.05, 1] 5

Location Based Social Matrix Factorization
Model
6 / 14
Matrix Factorization
• Probabilistic matrix factorization(PMF)
• 𝑅 𝑚×𝑛 ≈ 𝑈 𝑚×𝑙 × 𝑉𝑛×𝑙
𝑇
– User-item rating matrix를 (user-latent space matrix) * (item-latent space matrix)로 factorize 한다.
• Bayesian inference를 통해서 𝑝 𝑈, 𝑉 𝑅, 𝜎 𝑅
2
, 𝜎 𝑈
2
, 𝜎 𝑉
2
∝ 𝑝 𝑅 𝑈, 𝑉, 𝜎 𝑅
2
𝑝 𝑈 𝜎 𝑈
2
𝑝 𝑉 𝜎 𝑉
2
– 위의 식을 maximizing함으로써 U, V를 얻어 recommendation을 위한 R을 만들 수 있다.
• 𝑝 𝑅 𝑈, 𝑉, 𝜎 𝑅
2
= 𝑖=1
𝑚
𝑗=1
𝑛
𝐼𝑖𝑗[𝒩(𝑅𝑖,𝑗|𝑈𝑖 × 𝑉𝑗
𝑇
, 𝜎𝑟
2
)]
– 𝐼𝑖𝑗: user 𝑖가 item 𝑗를 평가했을 때만을 고려하기 위한 function
• 𝑝 𝑈 𝜎 𝑈
2
= 𝑖=1
𝑚
𝒩(𝑈𝑖|0, 𝜎 𝑈
2
𝐼)
• 𝑝 𝑉 𝜎 𝑉
2
= 𝑗=1
𝑛
𝒩(𝑉𝑗|0, 𝜎 𝑉
2
𝐼)
• 𝒩(𝑥|𝜇, 𝜎2
)는 mean 𝜇, variance 𝜎2
인 normal distribution

Location Based Social Matrix Factorization
Model
7 / 14
Location Based Social MF
• Probabilistic matrix factorization(PMF)
• 𝑝 𝑈, 𝑉 𝑅, 𝑆𝑖𝑚𝑈, 𝑆𝑖𝑚𝑉, 𝜎 𝑅
2
, 𝜎 𝑈
2
, 𝜎 𝑉
2
, 𝜎𝑆𝑖𝑚𝑈
2
, 𝜎𝑆𝑖𝑚𝑉
2
∝ 𝑝 𝑅 𝑈, 𝑉, 𝜎 𝑅
2
𝑝 𝑈 𝑆𝑖𝑚𝑈, 𝜎 𝑈
2
2
𝑝 𝑉 𝑆𝑖𝑚𝑉, 𝜎 𝑉
2
2
• 𝑝 𝑈 𝑆𝑖𝑚𝑈, 𝜎 𝑈
2
2
= 𝑖=1
𝑚
𝒩(𝑈𝑖|0, 𝜎 𝑈
2 𝐼) × 𝑖=1
𝑚
𝒩(𝑈𝑖| 𝑓∈𝐹 𝑖
𝑆𝑖𝑚𝑈𝑖,𝑓 ∙ 𝑈 𝑓 , 𝜎𝑆𝑖𝑚𝑈
2
𝐼)
• 𝑝 𝑉 𝑆𝑖𝑚𝑉, 𝜎 𝑉
2
2
= 𝑗=1
𝑛
𝒩(𝑉𝑗|0, 𝜎 𝑉
2 𝐼) × 𝑗=1
𝑛
𝒩(𝑉𝑗| 𝑠∈𝑁 𝑗
𝑆𝑖𝑚𝑉𝑗,𝑠 ∙ 𝑉𝑠 , 𝜎𝑆𝑖𝑚𝑉
2
𝐼)
• Gradient descent
• 자세한 것은 논문 참고

Experimental Analysis
8 / 14
Dataset Description
• 4개월 동안의 Foursquare 체크인 데이터 (2011년 10월 24일 ~ 2012년 2월 20일)
• Noise와 invalid한 체크인 데이터 필터링
– 한 주에 적어도 한 개의 체크인을 한 사용자만을 고름 (active user로 간주)
– Sudden-move(1200km/h보다 빠른 연속적인 체크인) 제외
– 카테고리 정보가 unavailable한 장소 제외
• 762,315명의 사용자, 31,820,144개의 체크인
• 필터링 후 311,475명의 사용자, 21,920,144개의 체크인
• 뉴욕과 런던만 (영어를 주로 사용하기 때문에)
• 트위터에서 맞팔하는 경우에 친구 사이로 간주
• 9개의 parent category, 400개의 sub-category merged into 274 sub-category

9 / 14
Social and Inter-venue Influence Modeling
• Social influence
– Similarity는 사용자들의 preference vector를 이용해서 계산 (Pearson Correlation Coefficient)
• Inter-venue influence
– Venue의 카테고리 정보에서 0/1 based venue similarity network를 생성
– 같은 sub-category를 포함하면 similarity score가 1
– 뉴욕 레스토랑의 venue similarity network의 density는 0.0353
– 런던은 0.0339
Metrics
• Mean Absolute Error (MAE)
• Root Mean Square Error (RMSE)

10 / 14
Hybrid Preference Model Evaluation
아래 3개의 모델을 비교
• Basic model (BM): check-in preference matrix만을 사용
• Tip null model (TNM)
– Sentiment preference matrix를 랜덤하게 섞고 check-in preference matrix와 fuse
– Preference model의 분포를 유지한다
• Hybrid preference model (HPM): hybrid preference matrix를 사용
• Variance와 learning rate는 고정
• Training/test split을 80%, 90%로 나눠서 테스트
• Latent space dimension은 10
• 5번 반복해서 평균
Dataset Training Metric BM TNM HPM
New York
Restaurant
90%
RMSE 1.0137 0.8887 0.8524
MAE 0.8072 0.7032 0.6204
80%
RMSE 1.0386 1.0506 0.9580
MAE 0.8103 0.8306 0.7345
London
90%
RMSE 1.1045 0.9864 0.8929
MAE 0.9031 0.7889 0.7022
80%
RMSE 1.1245 1.0895 1.0119
MAE 0.9147 0.8828 0.8075

11 / 14
Location Recommendation Evaluation
아래 4개의 모델과 LBSMF를 비교
• Collaborative filtering (CF)
• Probabilistic matrix factorization (PMF)
• SocialMF
– Social network influence를 고려
– 친구의 impact를 모두 동등하게 취급
• Social Regularized MF (SRMF)
– Social network influence를 고려
– Similarity measure도 고려
• Latent space dimension은 5, 10
• 방금과 나머지 변수들은 같음

12 / 14
Location Recommendation Evaluation
Dataset Training Metric
Dimension = 5 Dimension = 10
CF PMF SocialMF SRMF LBSMF CF PMF SocialMF SRMF LBSMF
New York
Restaurant
90%
RMSE
Improve
1.2463
26.31%
0.9440
2.71%
0.9364
1.92%
0.9342
1.69%
0.9184
1.2463
31.61%
0.9136
6.70%
0.8889
4.11%
0.8755
2.64%
0.8524
MAE
Improve
0.7190
3.35%
0.7182
3.24%
0.7074
1.77%
0.7034
1.21%
0.6949
0.7190
13.71%
0.7047
11.96%
0.6429
3.50%
0.6238
0.55%
0.6204
80%
RMSE
Improve
1.4887
32.56%
1.0209
1.66%
1.0279
2.33%
1.0206
1.63%
1.0040
1.4887
35.65%
0.9942
3.64%
0.9748
1.72%
0.9713
1.37%
0.9580
MAE
Improve
0.8435
6.15%
0.8262
4.19%
0.8204
3.51%
0.7959
0.54%
0.7916
0.8435
12.92%
0.8101
9.33%
0.7585
3.16%
0.7425
1.08%
0.7345
London
90%
RMSE
Improve
1.3787
32.34%
0.9758
4.41%
0.9651
3.35%
0.9519
2.01%
0.9328
1.3787
35.24%
0.9763
8.54%
0.9125
2.15%
0.9382
4.83%
0.8929
MAE
Improve
0.8687
15.79%
0.7719
5.23%
0.7682
4.78%
0.7568
3.34%
0.7315
0.8687
19.17%
0.7882
10.91%
0.7203
2.51%
0.7379
4.84%
0.7022
80%
RMSE
Improve
1.6222
36.67%
1.0733
4.29%
1.0497
2.13%
1.0547
2.60%
1.0273
1.6222
37.62%
1.0496
3.59%
1.0358
2.31%
1.0440
3.07%
1.0119
MAE
Improve
1.0441
20.83%
0.8682
4.79%
0.8539
3.20%
0.8520
2.98%
0.8266
1.0441
22.66%
0.8508
5.09%
0.8246
2.07%
0.8441
4.34%
0.8075

Comments
13 / 14
• tip에서 venue semantic similarity 찾는 future work가 궁금
• Latent space dimension을 결정하기 위한 cross-validation이 이루어지지 않음
• Five repeated trial이 서로 다른 test-training split을 의미하는 걸까?
• 왜 Pearson Correlation Coefficient를 썼을까?

Q&A

감사합니다

[논문발표] 20160801 A Sentiment-Enhanced Personalized Location Recommendation System

Recommended

Recommended

More Related Content

Similar to [논문발표] 20160801 A Sentiment-Enhanced Personalized Location Recommendation System

Similar to [논문발표] 20160801 A Sentiment-Enhanced Personalized Location Recommendation System (18)

[논문발표] 20160801 A Sentiment-Enhanced Personalized Location Recommendation System