SlideShare a Scribd company logo
Feb 16, 2017 Page 1/23
Convolutional Matrix Factorization for
Document Context-Aware Recommendation
Donghyun Kim, Chanyoung Park, Jinoh Oh, Sungyoung Lee, Hwanho Yu
POSTECH
RecSys 16
홍동균
데이터 및 지식 공학 연구실
한양대학교
Feb 16, 2017 Page 2/23
목차
• 추천 시스템의 cold-start 문제
• 문서 정보를 활용하는 추천 알고리즘들
• ConvMF
• 결론
Feb 16, 2017 Page 3/23
Cold-start 문제
- 협업 필터링 기반의 추천 시스템은 이전의 활동 기록 및 선호도 기록이 거의 존재하지 않는
새로운 사용자 및 새로운 품목에 대해서 적합한 추천을 제공해 주지 못함
- 신규 회원, 신작 영화, 최신 논문 등이 대표적인 예로, 이들에게도 적합한 추천을
제공해주어야 함
New itemNew user
Feb 16, 2017 Page 4/23
Cold-start 문제 해결 방안
Cold-start 문제를 해결하기 위하여 사용자 및 품목의 메타 정보를
추가적으로 활용
• Categorical Information
• Social Information
• Image Information
• Crowdsourcing
• Document Information
기존 선호도 기록이 없는 사용자 및 품목의 경우에도 메타 정보를 활용하여
어느정도 적절한 추천을 해줄 수 있음
Feb 16, 2017 Page 5/23
문서 정보 활용
최근 문서 정보를 효과적으로 표현하는 토픽 모델링, 딥 러닝과 같은
방법론들이 대두됨에 따라 추천 시스템 분야에서도 문서 정보를 활용하는
연구가 활발히 진행 됨
• Collaborative Topic Regression
• Collaborative Deep Learning
• Convolutional Matrix Factorization
문서 정보를 활용하면 cold-start 문제를 어느정도 해결할 뿐 아니라 추천의
정확도 또한 향상 시킬 수 있음
Feb 16, 2017 Page 6/23
Collaborative Topic Regression
• LDA: 문서 정보를 분석하여 각 아이템에 대한 토픽 분포를 얻음
• 각 문서는 여러 토픽을 포함하고 있음
• 어떤 문서 X에 포함되어 있는 단어들과 그 빈도를 통해서 문서 X가 어떤 토픽(𝜃)들로
구성되어 있는지 알아낼 수 있음
𝜃
Feb 16, 2017 Page 7/23
Collaborative Topic Regression
• CTR: PMF와 LDA를 결합한 방법
• 각 파라미터들을 학습한 후 최종 적인 추천은 아래와 같이
• 기존 아이템 평점 예측:
• Cold-start 아이템 평점 예측: (새로운 아이템은 평점이 없으므로 𝜖𝑗 = 0)
LDA
PMF
Feb 16, 2017 Page 8/23
Collaborative Deep Learning
• CDL
– PMF + SDAE: 딥러닝 모델 중 하나인 Stacked Denoising Auto-Encoder
(SDAE)를 행렬분해기법과 통합시킨 연구
– CTR의 통합기법과 유사하지만 SDAE는 문서 정보를 LDA보다 효과적으로
분석할 수 있어 품목의 프로파일을 보다 더 정확히 생성하고, 이를 통해
추천 시스템의 성능을 향상시킴
Feb 16, 2017 Page 9/23
CTR, CDL 이후의 논문
• CTRank
– CTR (point-wise CF + LDA), CTRank (pair-wise CF + LDA)
– 아이템 간의 상대적인 선호도 차이를 고려하여 (Pair-wise ranking method)
고려하지 않는 (point-wise) 기존 CTR 보다 정확도를 향상시켰음
• mSDAE-CF
– CDL (CF+ SDAE), mSDAE-CF (CF + mSDAE)
– 직접적인 CDL과 비교는 없지만, 무비렌즈 데이터를 사용하였고 PMF 계열의
CF 알고리즘과 비교하여 좋은 정확도를 보여줌
* Deep Collaborative Filtering via Marginalized Denoising Auto-encoder, CIKM-2015
* Collaborative Topic Ranking: Leveraging Item Meta-Data for Sparsity Reduction, AAAI-2015
Feb 16, 2017 Page 10/23
CTR, CDL 이후의 논문
• CDR
– CTR (point-wise CF + LDA), CDL (point-wise CF+ SDAE),
CDR (pair-wise CF + SDAE)
– 아이템 간의 상대적인 선호도 차이를 고려한 CF 방법과 (Pair-wise ranking
method) 추가적인 컨텐츠 정보에 대해서는 딥러닝 알고리즘인 SDAE를
사용하여 정확도 향상시킨 방법
* Collaborative Deep Ranking: a Hybrid Pair-wise Recommendation Algorithm with
Implicit Feedback, PAKDD-2016
CiteUlike 데이터를 사용한 정확도 비교 실험
Feb 16, 2017 Page 11/23
Convolutional Matrix Factorization
• ConvMF: CNN과 PMF의 결합
– CNN 모델을 사용하여 각 문서 정보로 부터 document latent vector를 얻음
 LDA로 얻은 토픽 분포 벡터와 같은 역할
Feb 16, 2017 Page 12/23
Convolutional Neural Network
• 최근 컴퓨터 비전 분야에서 활발하게 연구되고 있는 딥러닝 모델
• 특히 이미지 분류에서 기존 연구의 정확도 한계를 뛰어넘어 화제가 되었음
• 구성요소
• Convolution layer
• Pooling layer
• Fully connected neural network
Feb 16, 2017 Page 13/23
Convolution
• 이미지 행렬에 sliding window를 적용하여 새로운 feature를 얻는 것
• Sliding window를 filter, kernel, feature detector로 부르기도 함
• 이미지 상에서는 가까이 있는 픽셀들이 모여서 의미 있는 상을 형성하기 때문에
정사각형 모양의 filter 개념이 사용 됨 (이미지에서 얼굴을 인식하는 filter..)
Feb 16, 2017 Page 14/23
Convolution의 의미
• 이미지의 픽셀 값을 그대로 이용하지 않고, filter를 적용하여 상위 레벨의 feature
정보를 얻고자 하는 것 (pixel –> edge -> shape…)
• 결국 CNN은 픽셀로 이미지를 분류하는 것이 아닌, shape와 같은 정보를 갖는
feature를 사용하여 이미지 분류를 하게 되는 것
Blur Edge detect
Feb 16, 2017 Page 15/23
Pooling
• 입력 행렬의 subsample을 얻는 것
• 일반적으로 윈도우의 행렬 요소 중 가장 큰 값을 취하는 max pooling 방법이 사용 됨
• 대표적으로 2가지 이유로 pooling을 사용
• 주어진 입력 행렬의 크기를 작게 하면서, 해당 행렬의 주된 정보만을 얻고자 함 (PCA와
같은 효과)
• Convolution layer에서 다양한 크기의 filter를 사용하는 경우 결과 행렬의 크기가
제각각이 되는데, 이러한 크기를 pooling을 통하여 동일하게 맞춘다.
Feb 16, 2017 Page 16/23
Convolutional Neural Network
• 즉 CNN은 neural network에 입력으로 이미지 픽셀 값의 행렬이 아닌,
convolution과 pooling을 반복하여 얻은 feature를 neural network에 입력으로
넣고 이미지 분류를 진행
• 이 때의 feature는 픽셀보다 상위 레벨의 정보를 포함함
Feb 16, 2017 Page 17/23
CNN for NLP
• 그러나 convMF 논문의 CNN은 이미지가 아닌 문서 정보를 사용함
• 하나의 문서를 행렬로 표현하기 위해 word embedding 사용
• 문서 행렬이 convolution과 pooling을 거쳐 document latent vector가 되는
것
Feb 16, 2017 Page 18/23
CNN for NLP
• Word embedding을 통한 문서의 행렬 표현
• Word2vec이나 GloVe를 사용하여 word embedding vector를 얻을 수 있음
• Word embedding vector 간의 관계는 실제 단어의 의미 관계와 유사함
Feb 16, 2017 Page 19/23
CNN for NLP
• 문서 정보를 입력으로 받는 CNN의 convolution & pooling
Convolution
- 하나 이상의 단어를 대상으로 filter 적용
(보통 2~5단어)하여 feature를 추출 함
- 개 별 단 어 보 다 연 속 된 단 어 조 합 이
나타내는 의미가 그 문서를 이해하는 데
중 요 함 (LDA, SDAE 의 ‘Bag of Words’
방식보다 나은 점)
Pooling
- 주성분을 얻는 효과
- 입력 크기를 동일하게 맞추는 효과
Feb 16, 2017 Page 20/23
Convolutional Matrix Factorization
• ConvMF 모델은 CNN을 활용하여 얻은 document latent vector를
PMF의 평점 예측 과정에 활용하여 추천의 정확도를 향상 시킴
Feb 16, 2017 Page 21/23
ConvMF Result
• 평점 데이터로 ML-1m dataset 사용
• 문서 정보 데이터로 IMDB plot summary dataset 사용
Feb 16, 2017 Page 22/23
결론
• 문서 정보를 활용하여 추천 시스템의 정확도를 향상시키고 cold-start 문제를
해결하려는 연구가 활발히 진행 중
• LDA, SDAE, CNN과 같은 토픽 모델링, 딥러닝 방법들을 활용한 추천 시스템들이
좋은 결과를 보여주고 있음
• 특히 CNN은 컴퓨터 비전 분야 뿐 아니라 자연어 처리 분야에도 활용할 수
있으며 ConvMF 방법처럼 괜찮은 성능을 보여주고 있음
Feb 16, 2017 Page 23/23
감사합니다.

More Related Content

Similar to 20170216 conv mf_hyu_dake

그래프에서 대시보드까지, 서비스를 위한 데이터 시각화
그래프에서 대시보드까지, 서비스를 위한 데이터 시각화그래프에서 대시보드까지, 서비스를 위한 데이터 시각화
그래프에서 대시보드까지, 서비스를 위한 데이터 시각화
Minho Lee
 
Machine Learning Foundations (a case study approach) 강의 정리
Machine Learning Foundations (a case study approach) 강의 정리Machine Learning Foundations (a case study approach) 강의 정리
Machine Learning Foundations (a case study approach) 강의 정리
SANG WON PARK
 
The platform 2011
The platform 2011The platform 2011
The platform 2011
NAVER D2
 
추천 시스템 개요 (1)-draft
추천 시스템 개요 (1)-draft추천 시스템 개요 (1)-draft
추천 시스템 개요 (1)-draft
hyunsung lee
 
CNN Architecture A to Z
CNN Architecture A to ZCNN Architecture A to Z
CNN Architecture A to Z
LEE HOSEONG
 
개인화 추천 시스템에서_연관_관계_군집에_의한_아이템_기반의_협력적_필터링_기술
개인화 추천 시스템에서_연관_관계_군집에_의한_아이템_기반의_협력적_필터링_기술개인화 추천 시스템에서_연관_관계_군집에_의한_아이템_기반의_협력적_필터링_기술
개인화 추천 시스템에서_연관_관계_군집에_의한_아이템_기반의_협력적_필터링_기술coolsign
 
Introduction to mongo db
Introduction to mongo dbIntroduction to mongo db
Introduction to mongo db
Minho Kim
 
알고리즘 마케팅 CH5
알고리즘 마케팅 CH5알고리즘 마케팅 CH5
알고리즘 마케팅 CH5
kyuchul kim
 
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [COLLABO-AZ] : 고객 세그멘테이션 기반 개인 맞춤형 추천시스템 for 루빗
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [COLLABO-AZ] : 고객 세그멘테이션 기반 개인 맞춤형 추천시스템 for 루빗제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [COLLABO-AZ] : 고객 세그멘테이션 기반 개인 맞춤형 추천시스템 for 루빗
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [COLLABO-AZ] : 고객 세그멘테이션 기반 개인 맞춤형 추천시스템 for 루빗
BOAZ Bigdata
 
Korean manual for nodexl fb, flickr, twitter, youtube, wiki
Korean manual for nodexl fb, flickr, twitter, youtube, wikiKorean manual for nodexl fb, flickr, twitter, youtube, wiki
Korean manual for nodexl fb, flickr, twitter, youtube, wikiHan Woo PARK
 
XML, NoSQL, 빅데이터, 클라우드로 옮겨가는 시장 상황 속, 데이터모델링 여전히 중요한가
XML, NoSQL, 빅데이터, 클라우드로 옮겨가는 시장 상황 속, 데이터모델링 여전히 중요한가XML, NoSQL, 빅데이터, 클라우드로 옮겨가는 시장 상황 속, 데이터모델링 여전히 중요한가
XML, NoSQL, 빅데이터, 클라우드로 옮겨가는 시장 상황 속, 데이터모델링 여전히 중요한가
Devgear
 
소프트웨어 마에스트로 10기 - 책을 만나는 순간, 책을찍다
소프트웨어 마에스트로 10기 - 책을 만나는 순간, 책을찍다소프트웨어 마에스트로 10기 - 책을 만나는 순간, 책을찍다
소프트웨어 마에스트로 10기 - 책을 만나는 순간, 책을찍다
HYEONGNAM LEE
 
추천시스템 구축을 위한 빅데이터 분석기법과 사례
추천시스템 구축을 위한 빅데이터 분석기법과 사례추천시스템 구축을 위한 빅데이터 분석기법과 사례
추천시스템 구축을 위한 빅데이터 분석기법과 사례
HELENA LEE
 
디포커스 전홍구
디포커스 전홍구디포커스 전홍구
디포커스 전홍구
Newsjelly
 
Summary in recent advances in deep learning for object detection
Summary in recent advances in deep learning for object detectionSummary in recent advances in deep learning for object detection
Summary in recent advances in deep learning for object detection
창기 문
 
Summary in recent advances in deep learning for object detection
Summary in recent advances in deep learning for object detectionSummary in recent advances in deep learning for object detection
Summary in recent advances in deep learning for object detection
창기 문
 
온라인 커뮤니티 상의 게시글에 대해
 Louvain method와 클러스터링 기법을 적용한
 내부 커뮤니티 성향 탐지 기법

온라인 커뮤니티 상의 게시글에 대해
 Louvain method와 클러스터링 기법을 적용한
 내부 커뮤니티 성향 탐지 기법
온라인 커뮤니티 상의 게시글에 대해
 Louvain method와 클러스터링 기법을 적용한
 내부 커뮤니티 성향 탐지 기법

온라인 커뮤니티 상의 게시글에 대해
 Louvain method와 클러스터링 기법을 적용한
 내부 커뮤니티 성향 탐지 기법

Sun-young Kim
 
도서관 링크드 데이터 동향(KISTI)
도서관 링크드 데이터 동향(KISTI)도서관 링크드 데이터 동향(KISTI)
도서관 링크드 데이터 동향(KISTI)
Hansung University
 
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Catch, Traffic!] : 지하철 혼잡도 및 키워드 분석 데이터 파이프라인 구축
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Catch, Traffic!] : 지하철 혼잡도 및 키워드 분석 데이터 파이프라인 구축제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Catch, Traffic!] : 지하철 혼잡도 및 키워드 분석 데이터 파이프라인 구축
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Catch, Traffic!] : 지하철 혼잡도 및 키워드 분석 데이터 파이프라인 구축
BOAZ Bigdata
 

Similar to 20170216 conv mf_hyu_dake (20)

집단지성Ch12
집단지성Ch12집단지성Ch12
집단지성Ch12
 
그래프에서 대시보드까지, 서비스를 위한 데이터 시각화
그래프에서 대시보드까지, 서비스를 위한 데이터 시각화그래프에서 대시보드까지, 서비스를 위한 데이터 시각화
그래프에서 대시보드까지, 서비스를 위한 데이터 시각화
 
Machine Learning Foundations (a case study approach) 강의 정리
Machine Learning Foundations (a case study approach) 강의 정리Machine Learning Foundations (a case study approach) 강의 정리
Machine Learning Foundations (a case study approach) 강의 정리
 
The platform 2011
The platform 2011The platform 2011
The platform 2011
 
추천 시스템 개요 (1)-draft
추천 시스템 개요 (1)-draft추천 시스템 개요 (1)-draft
추천 시스템 개요 (1)-draft
 
CNN Architecture A to Z
CNN Architecture A to ZCNN Architecture A to Z
CNN Architecture A to Z
 
개인화 추천 시스템에서_연관_관계_군집에_의한_아이템_기반의_협력적_필터링_기술
개인화 추천 시스템에서_연관_관계_군집에_의한_아이템_기반의_협력적_필터링_기술개인화 추천 시스템에서_연관_관계_군집에_의한_아이템_기반의_협력적_필터링_기술
개인화 추천 시스템에서_연관_관계_군집에_의한_아이템_기반의_협력적_필터링_기술
 
Introduction to mongo db
Introduction to mongo dbIntroduction to mongo db
Introduction to mongo db
 
알고리즘 마케팅 CH5
알고리즘 마케팅 CH5알고리즘 마케팅 CH5
알고리즘 마케팅 CH5
 
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [COLLABO-AZ] : 고객 세그멘테이션 기반 개인 맞춤형 추천시스템 for 루빗
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [COLLABO-AZ] : 고객 세그멘테이션 기반 개인 맞춤형 추천시스템 for 루빗제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [COLLABO-AZ] : 고객 세그멘테이션 기반 개인 맞춤형 추천시스템 for 루빗
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [COLLABO-AZ] : 고객 세그멘테이션 기반 개인 맞춤형 추천시스템 for 루빗
 
Korean manual for nodexl fb, flickr, twitter, youtube, wiki
Korean manual for nodexl fb, flickr, twitter, youtube, wikiKorean manual for nodexl fb, flickr, twitter, youtube, wiki
Korean manual for nodexl fb, flickr, twitter, youtube, wiki
 
XML, NoSQL, 빅데이터, 클라우드로 옮겨가는 시장 상황 속, 데이터모델링 여전히 중요한가
XML, NoSQL, 빅데이터, 클라우드로 옮겨가는 시장 상황 속, 데이터모델링 여전히 중요한가XML, NoSQL, 빅데이터, 클라우드로 옮겨가는 시장 상황 속, 데이터모델링 여전히 중요한가
XML, NoSQL, 빅데이터, 클라우드로 옮겨가는 시장 상황 속, 데이터모델링 여전히 중요한가
 
소프트웨어 마에스트로 10기 - 책을 만나는 순간, 책을찍다
소프트웨어 마에스트로 10기 - 책을 만나는 순간, 책을찍다소프트웨어 마에스트로 10기 - 책을 만나는 순간, 책을찍다
소프트웨어 마에스트로 10기 - 책을 만나는 순간, 책을찍다
 
추천시스템 구축을 위한 빅데이터 분석기법과 사례
추천시스템 구축을 위한 빅데이터 분석기법과 사례추천시스템 구축을 위한 빅데이터 분석기법과 사례
추천시스템 구축을 위한 빅데이터 분석기법과 사례
 
디포커스 전홍구
디포커스 전홍구디포커스 전홍구
디포커스 전홍구
 
Summary in recent advances in deep learning for object detection
Summary in recent advances in deep learning for object detectionSummary in recent advances in deep learning for object detection
Summary in recent advances in deep learning for object detection
 
Summary in recent advances in deep learning for object detection
Summary in recent advances in deep learning for object detectionSummary in recent advances in deep learning for object detection
Summary in recent advances in deep learning for object detection
 
온라인 커뮤니티 상의 게시글에 대해
 Louvain method와 클러스터링 기법을 적용한
 내부 커뮤니티 성향 탐지 기법

온라인 커뮤니티 상의 게시글에 대해
 Louvain method와 클러스터링 기법을 적용한
 내부 커뮤니티 성향 탐지 기법
온라인 커뮤니티 상의 게시글에 대해
 Louvain method와 클러스터링 기법을 적용한
 내부 커뮤니티 성향 탐지 기법

온라인 커뮤니티 상의 게시글에 대해
 Louvain method와 클러스터링 기법을 적용한
 내부 커뮤니티 성향 탐지 기법

 
도서관 링크드 데이터 동향(KISTI)
도서관 링크드 데이터 동향(KISTI)도서관 링크드 데이터 동향(KISTI)
도서관 링크드 데이터 동향(KISTI)
 
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Catch, Traffic!] : 지하철 혼잡도 및 키워드 분석 데이터 파이프라인 구축
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Catch, Traffic!] : 지하철 혼잡도 및 키워드 분석 데이터 파이프라인 구축제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Catch, Traffic!] : 지하철 혼잡도 및 키워드 분석 데이터 파이프라인 구축
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Catch, Traffic!] : 지하철 혼잡도 및 키워드 분석 데이터 파이프라인 구축
 

More from DongGyun Hong

180212 normalization hyu_dake
180212 normalization hyu_dake180212 normalization hyu_dake
180212 normalization hyu_dake
DongGyun Hong
 
20190901 seq2 sparql_kips
20190901 seq2 sparql_kips20190901 seq2 sparql_kips
20190901 seq2 sparql_kips
DongGyun Hong
 
20181103 kbcqa kips
20181103 kbcqa kips20181103 kbcqa kips
20181103 kbcqa kips
DongGyun Hong
 
20181217 sac dong_gyun_hong
20181217 sac dong_gyun_hong20181217 sac dong_gyun_hong
20181217 sac dong_gyun_hong
DongGyun Hong
 
20181106 survey on challenges of question answering in the semantic web saltlux
20181106 survey on challenges of question answering in the semantic web saltlux20181106 survey on challenges of question answering in the semantic web saltlux
20181106 survey on challenges of question answering in the semantic web saltlux
DongGyun Hong
 
20200923 open domain-qa_saltlux
20200923 open domain-qa_saltlux20200923 open domain-qa_saltlux
20200923 open domain-qa_saltlux
DongGyun Hong
 

More from DongGyun Hong (6)

180212 normalization hyu_dake
180212 normalization hyu_dake180212 normalization hyu_dake
180212 normalization hyu_dake
 
20190901 seq2 sparql_kips
20190901 seq2 sparql_kips20190901 seq2 sparql_kips
20190901 seq2 sparql_kips
 
20181103 kbcqa kips
20181103 kbcqa kips20181103 kbcqa kips
20181103 kbcqa kips
 
20181217 sac dong_gyun_hong
20181217 sac dong_gyun_hong20181217 sac dong_gyun_hong
20181217 sac dong_gyun_hong
 
20181106 survey on challenges of question answering in the semantic web saltlux
20181106 survey on challenges of question answering in the semantic web saltlux20181106 survey on challenges of question answering in the semantic web saltlux
20181106 survey on challenges of question answering in the semantic web saltlux
 
20200923 open domain-qa_saltlux
20200923 open domain-qa_saltlux20200923 open domain-qa_saltlux
20200923 open domain-qa_saltlux
 

20170216 conv mf_hyu_dake

  • 1. Feb 16, 2017 Page 1/23 Convolutional Matrix Factorization for Document Context-Aware Recommendation Donghyun Kim, Chanyoung Park, Jinoh Oh, Sungyoung Lee, Hwanho Yu POSTECH RecSys 16 홍동균 데이터 및 지식 공학 연구실 한양대학교
  • 2. Feb 16, 2017 Page 2/23 목차 • 추천 시스템의 cold-start 문제 • 문서 정보를 활용하는 추천 알고리즘들 • ConvMF • 결론
  • 3. Feb 16, 2017 Page 3/23 Cold-start 문제 - 협업 필터링 기반의 추천 시스템은 이전의 활동 기록 및 선호도 기록이 거의 존재하지 않는 새로운 사용자 및 새로운 품목에 대해서 적합한 추천을 제공해 주지 못함 - 신규 회원, 신작 영화, 최신 논문 등이 대표적인 예로, 이들에게도 적합한 추천을 제공해주어야 함 New itemNew user
  • 4. Feb 16, 2017 Page 4/23 Cold-start 문제 해결 방안 Cold-start 문제를 해결하기 위하여 사용자 및 품목의 메타 정보를 추가적으로 활용 • Categorical Information • Social Information • Image Information • Crowdsourcing • Document Information 기존 선호도 기록이 없는 사용자 및 품목의 경우에도 메타 정보를 활용하여 어느정도 적절한 추천을 해줄 수 있음
  • 5. Feb 16, 2017 Page 5/23 문서 정보 활용 최근 문서 정보를 효과적으로 표현하는 토픽 모델링, 딥 러닝과 같은 방법론들이 대두됨에 따라 추천 시스템 분야에서도 문서 정보를 활용하는 연구가 활발히 진행 됨 • Collaborative Topic Regression • Collaborative Deep Learning • Convolutional Matrix Factorization 문서 정보를 활용하면 cold-start 문제를 어느정도 해결할 뿐 아니라 추천의 정확도 또한 향상 시킬 수 있음
  • 6. Feb 16, 2017 Page 6/23 Collaborative Topic Regression • LDA: 문서 정보를 분석하여 각 아이템에 대한 토픽 분포를 얻음 • 각 문서는 여러 토픽을 포함하고 있음 • 어떤 문서 X에 포함되어 있는 단어들과 그 빈도를 통해서 문서 X가 어떤 토픽(𝜃)들로 구성되어 있는지 알아낼 수 있음 𝜃
  • 7. Feb 16, 2017 Page 7/23 Collaborative Topic Regression • CTR: PMF와 LDA를 결합한 방법 • 각 파라미터들을 학습한 후 최종 적인 추천은 아래와 같이 • 기존 아이템 평점 예측: • Cold-start 아이템 평점 예측: (새로운 아이템은 평점이 없으므로 𝜖𝑗 = 0) LDA PMF
  • 8. Feb 16, 2017 Page 8/23 Collaborative Deep Learning • CDL – PMF + SDAE: 딥러닝 모델 중 하나인 Stacked Denoising Auto-Encoder (SDAE)를 행렬분해기법과 통합시킨 연구 – CTR의 통합기법과 유사하지만 SDAE는 문서 정보를 LDA보다 효과적으로 분석할 수 있어 품목의 프로파일을 보다 더 정확히 생성하고, 이를 통해 추천 시스템의 성능을 향상시킴
  • 9. Feb 16, 2017 Page 9/23 CTR, CDL 이후의 논문 • CTRank – CTR (point-wise CF + LDA), CTRank (pair-wise CF + LDA) – 아이템 간의 상대적인 선호도 차이를 고려하여 (Pair-wise ranking method) 고려하지 않는 (point-wise) 기존 CTR 보다 정확도를 향상시켰음 • mSDAE-CF – CDL (CF+ SDAE), mSDAE-CF (CF + mSDAE) – 직접적인 CDL과 비교는 없지만, 무비렌즈 데이터를 사용하였고 PMF 계열의 CF 알고리즘과 비교하여 좋은 정확도를 보여줌 * Deep Collaborative Filtering via Marginalized Denoising Auto-encoder, CIKM-2015 * Collaborative Topic Ranking: Leveraging Item Meta-Data for Sparsity Reduction, AAAI-2015
  • 10. Feb 16, 2017 Page 10/23 CTR, CDL 이후의 논문 • CDR – CTR (point-wise CF + LDA), CDL (point-wise CF+ SDAE), CDR (pair-wise CF + SDAE) – 아이템 간의 상대적인 선호도 차이를 고려한 CF 방법과 (Pair-wise ranking method) 추가적인 컨텐츠 정보에 대해서는 딥러닝 알고리즘인 SDAE를 사용하여 정확도 향상시킨 방법 * Collaborative Deep Ranking: a Hybrid Pair-wise Recommendation Algorithm with Implicit Feedback, PAKDD-2016 CiteUlike 데이터를 사용한 정확도 비교 실험
  • 11. Feb 16, 2017 Page 11/23 Convolutional Matrix Factorization • ConvMF: CNN과 PMF의 결합 – CNN 모델을 사용하여 각 문서 정보로 부터 document latent vector를 얻음  LDA로 얻은 토픽 분포 벡터와 같은 역할
  • 12. Feb 16, 2017 Page 12/23 Convolutional Neural Network • 최근 컴퓨터 비전 분야에서 활발하게 연구되고 있는 딥러닝 모델 • 특히 이미지 분류에서 기존 연구의 정확도 한계를 뛰어넘어 화제가 되었음 • 구성요소 • Convolution layer • Pooling layer • Fully connected neural network
  • 13. Feb 16, 2017 Page 13/23 Convolution • 이미지 행렬에 sliding window를 적용하여 새로운 feature를 얻는 것 • Sliding window를 filter, kernel, feature detector로 부르기도 함 • 이미지 상에서는 가까이 있는 픽셀들이 모여서 의미 있는 상을 형성하기 때문에 정사각형 모양의 filter 개념이 사용 됨 (이미지에서 얼굴을 인식하는 filter..)
  • 14. Feb 16, 2017 Page 14/23 Convolution의 의미 • 이미지의 픽셀 값을 그대로 이용하지 않고, filter를 적용하여 상위 레벨의 feature 정보를 얻고자 하는 것 (pixel –> edge -> shape…) • 결국 CNN은 픽셀로 이미지를 분류하는 것이 아닌, shape와 같은 정보를 갖는 feature를 사용하여 이미지 분류를 하게 되는 것 Blur Edge detect
  • 15. Feb 16, 2017 Page 15/23 Pooling • 입력 행렬의 subsample을 얻는 것 • 일반적으로 윈도우의 행렬 요소 중 가장 큰 값을 취하는 max pooling 방법이 사용 됨 • 대표적으로 2가지 이유로 pooling을 사용 • 주어진 입력 행렬의 크기를 작게 하면서, 해당 행렬의 주된 정보만을 얻고자 함 (PCA와 같은 효과) • Convolution layer에서 다양한 크기의 filter를 사용하는 경우 결과 행렬의 크기가 제각각이 되는데, 이러한 크기를 pooling을 통하여 동일하게 맞춘다.
  • 16. Feb 16, 2017 Page 16/23 Convolutional Neural Network • 즉 CNN은 neural network에 입력으로 이미지 픽셀 값의 행렬이 아닌, convolution과 pooling을 반복하여 얻은 feature를 neural network에 입력으로 넣고 이미지 분류를 진행 • 이 때의 feature는 픽셀보다 상위 레벨의 정보를 포함함
  • 17. Feb 16, 2017 Page 17/23 CNN for NLP • 그러나 convMF 논문의 CNN은 이미지가 아닌 문서 정보를 사용함 • 하나의 문서를 행렬로 표현하기 위해 word embedding 사용 • 문서 행렬이 convolution과 pooling을 거쳐 document latent vector가 되는 것
  • 18. Feb 16, 2017 Page 18/23 CNN for NLP • Word embedding을 통한 문서의 행렬 표현 • Word2vec이나 GloVe를 사용하여 word embedding vector를 얻을 수 있음 • Word embedding vector 간의 관계는 실제 단어의 의미 관계와 유사함
  • 19. Feb 16, 2017 Page 19/23 CNN for NLP • 문서 정보를 입력으로 받는 CNN의 convolution & pooling Convolution - 하나 이상의 단어를 대상으로 filter 적용 (보통 2~5단어)하여 feature를 추출 함 - 개 별 단 어 보 다 연 속 된 단 어 조 합 이 나타내는 의미가 그 문서를 이해하는 데 중 요 함 (LDA, SDAE 의 ‘Bag of Words’ 방식보다 나은 점) Pooling - 주성분을 얻는 효과 - 입력 크기를 동일하게 맞추는 효과
  • 20. Feb 16, 2017 Page 20/23 Convolutional Matrix Factorization • ConvMF 모델은 CNN을 활용하여 얻은 document latent vector를 PMF의 평점 예측 과정에 활용하여 추천의 정확도를 향상 시킴
  • 21. Feb 16, 2017 Page 21/23 ConvMF Result • 평점 데이터로 ML-1m dataset 사용 • 문서 정보 데이터로 IMDB plot summary dataset 사용
  • 22. Feb 16, 2017 Page 22/23 결론 • 문서 정보를 활용하여 추천 시스템의 정확도를 향상시키고 cold-start 문제를 해결하려는 연구가 활발히 진행 중 • LDA, SDAE, CNN과 같은 토픽 모델링, 딥러닝 방법들을 활용한 추천 시스템들이 좋은 결과를 보여주고 있음 • 특히 CNN은 컴퓨터 비전 분야 뿐 아니라 자연어 처리 분야에도 활용할 수 있으며 ConvMF 방법처럼 괜찮은 성능을 보여주고 있음
  • 23. Feb 16, 2017 Page 23/23 감사합니다.