Course Overview:
This course offers a comprehensive exploration of recommender systems, focusing on both theoretical foundations and practical applications. Through a combination of lectures, hands-on exercises, and real-world case studies, you will gain a deep understanding of the key principles, methodologies, and evaluation techniques that drive effective recommendation algorithms.
Course Objectives:
Acquire a solid understanding of recommender systems, including their significance and impact in various domains.
Explore different types of recommendation algorithms, such as collaborative filtering, content-based filtering, and hybrid approaches.
Study cutting-edge techniques, including deep learning, matrix factorization, and graph-based methods, for enhanced recommendation accuracy.
Gain hands-on experience with popular recommendation frameworks and libraries, and learn how to implement and evaluate recommendation models.
Investigate advanced topics in recommender systems, such as fairness, diversity, and explainability, and their ethical implications.
Analyze and discuss real-world case studies and research papers to gain insights into the challenges and future directions of recommender systems.
Course Structure:
Introduction to Recommender Systems
Collaborative Filtering Techniques
Content-Based Filtering and Hybrid Approaches
Matrix Factorization Methods
Deep Learning for Recommender Systems
Graph-Based Recommendation Approaches
Evaluation Metrics and Experimental Design
Ethical Considerations in Recommender Systems
Fairness, Diversity, and Explainability in Recommendations
Case Studies and Research Trends
Course Delivery:
The course will be delivered through a combination of lectures, interactive discussions, hands-on coding exercises, and group projects. You will have access to state-of-the-art resources, including relevant research papers, datasets, and software tools, to enhance your learning experience.
De text a deep text ranking framework with berttaeseon ryu
링크드인에서 발표한 논문으로, 제목에서 유추하실수 있듯, 검색 시스템에서 일하시고, 연구하시는 분들이 참고하시면 좋을 논문입니다!
BERT는 분명 NLP에서 뛰어난 성과를 보이고 있지만, 하루에 수천만번 검색이 이루어지는 대형 포털 사이트에서는 검색시스템에 직접적용하기에는 매우 큰 부담입니다. 그렇기에 링크드인에서 직접 다양한 사례를 연구해보며, BERT를 기반으로 모델을 구축하는 Ranking 시스템 프레임 워크 DeTEXT를 소개하며, 오프라인 및 온라인 실험에서도 많은 성능 개선을 이루어 냈습니다!
Course Overview:
This course offers a comprehensive exploration of recommender systems, focusing on both theoretical foundations and practical applications. Through a combination of lectures, hands-on exercises, and real-world case studies, you will gain a deep understanding of the key principles, methodologies, and evaluation techniques that drive effective recommendation algorithms.
Course Objectives:
Acquire a solid understanding of recommender systems, including their significance and impact in various domains.
Explore different types of recommendation algorithms, such as collaborative filtering, content-based filtering, and hybrid approaches.
Study cutting-edge techniques, including deep learning, matrix factorization, and graph-based methods, for enhanced recommendation accuracy.
Gain hands-on experience with popular recommendation frameworks and libraries, and learn how to implement and evaluate recommendation models.
Investigate advanced topics in recommender systems, such as fairness, diversity, and explainability, and their ethical implications.
Analyze and discuss real-world case studies and research papers to gain insights into the challenges and future directions of recommender systems.
Course Structure:
Introduction to Recommender Systems
Collaborative Filtering Techniques
Content-Based Filtering and Hybrid Approaches
Matrix Factorization Methods
Deep Learning for Recommender Systems
Graph-Based Recommendation Approaches
Evaluation Metrics and Experimental Design
Ethical Considerations in Recommender Systems
Fairness, Diversity, and Explainability in Recommendations
Case Studies and Research Trends
Course Delivery:
The course will be delivered through a combination of lectures, interactive discussions, hands-on coding exercises, and group projects. You will have access to state-of-the-art resources, including relevant research papers, datasets, and software tools, to enhance your learning experience.
De text a deep text ranking framework with berttaeseon ryu
링크드인에서 발표한 논문으로, 제목에서 유추하실수 있듯, 검색 시스템에서 일하시고, 연구하시는 분들이 참고하시면 좋을 논문입니다!
BERT는 분명 NLP에서 뛰어난 성과를 보이고 있지만, 하루에 수천만번 검색이 이루어지는 대형 포털 사이트에서는 검색시스템에 직접적용하기에는 매우 큰 부담입니다. 그렇기에 링크드인에서 직접 다양한 사례를 연구해보며, BERT를 기반으로 모델을 구축하는 Ranking 시스템 프레임 워크 DeTEXT를 소개하며, 오프라인 및 온라인 실험에서도 많은 성능 개선을 이루어 냈습니다!
Machine Learning Foundations (a case study approach) 강의 정리SANG WON PARK
실제 비즈니스에서 많이 활용되는 사례를 중심으로 어떻게 기존 데이터를 이용하여 알고리즘을 선택하고, 학습하여, 예측모델을 구축 하는지 jupyter notebook을 이용하여 실제 코드를 이용하여 실습할 수 있다.
강의 초반에 강조하는 것 처럼, 머신러닝 알고리즘은 나중에 자세히 설명하는 과정이 따로 있고, 이번 강의는 실제 어떻게 활용하는지에 완전히 초점이 맞추어져 있어서, 알고리즘은 아주 간략한 수준으로 설명해 준다. (좀 더 구체적인 내용은 심화과정이 따로 있음)
http://blog.naver.com/freepsw/221113685916 참고
https://github.com/freepsw/coursera/tree/master/ML_Foundations/A_Case_Study 코드 샘플
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [COLLABO-AZ] : 고객 세그멘테이션 기반 개인 맞춤형 추천시스템 for 루빗BOAZ Bigdata
데이터 분석 프로젝트를 진행한 COLLABO-AZ 팀에서는 아래와 같은 프로젝트를 진행했습니다.
고객 세그멘테이션 기반 개인 맞춤형 추천시스템 for 루빗
20기 정지혜 이화여자대학교 통계학과
20기 김지민 중앙대학교 응용통계학과
20기 오태연 단국대학교 정보통계학과
20기 최은선 한양대학교 에리카캠퍼스 정보사회미디어학과
온라인 커뮤니티 상의 게시글에 대해 Louvain method와 클러스터링 기법을 적용한 내부 커뮤니티 성향 탐지 기법 Sun-young Kim
오늘날 웹 상의 SNS나 블로그, 커뮤니티를 통해 사람들은 자신의 다양한 관심사와 취향을 드러낸다. 과거에는 데이터의 규모에 비해 부족한 데이터 처리 능력으로 인해 웹 상의 자료에 대한 분석이 충분히 이루어지지 못 했 으나 대용량 데이터 처리 기술과 인프라의 발전으로 기업이나 정부 등 많은 조직들이 데이터 분석을 수행하여 의사 결정에 필요한 핵심 정보를 얻고 있다. 본 논문은 기존에 연구가 활발하게 이루어진 SNS에서의 사용자 분 석이 아닌 온라인 커뮤니티에서의 내부 커뮤니티 탐지 기법을 제안한다. 사용자간의 관계가 명확하게 정해진 SNS와 달리 커뮤니티에서의 사용자 관계를 그래프 기반과 컨텐츠 기반의 두 가지 기법으로 분석함으로써 보다 정확한 커뮤니티 탐지 결과를 얻을 수 있다. 기법의 검증을 위해 국내 커뮤니티 사이트의 데이터를 대상으로 실 험을 수행하였으며 실험 결과 사용자들의 관계 및 게시글 성향에 따라 사용자들의 군집을 분류하는데 성공하였 음을 실험으로 보인다.
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Catch, Traffic!] : 지하철 혼잡도 및 키워드 분석 데이터 파이프라인 구축BOAZ Bigdata
데이터 엔지니어링 프로젝트를 진행한 Catch, Traffic! 팀에서는 아래와 같은 프로젝트를 진행했습니다.
수도권 교통의 혼잡성을 해결하기 위한 방안을 찾는 데이터 파이프라인 구축
18기 김인섭 숭실대학교 산업정보시스템공학과
18기 김재민 국민대학교 AI빅데이터융합경영학과
18기 서은유 동덕여자대학교 정보통계학과
18기 윤정원 숙명여자대학교 소프트웨어융합전공
18기 이현진 서울과학기술대학교 산업정보시스템전공
18기 조은학 명지대학교 융합소프트웨어학부
Machine Learning Foundations (a case study approach) 강의 정리SANG WON PARK
실제 비즈니스에서 많이 활용되는 사례를 중심으로 어떻게 기존 데이터를 이용하여 알고리즘을 선택하고, 학습하여, 예측모델을 구축 하는지 jupyter notebook을 이용하여 실제 코드를 이용하여 실습할 수 있다.
강의 초반에 강조하는 것 처럼, 머신러닝 알고리즘은 나중에 자세히 설명하는 과정이 따로 있고, 이번 강의는 실제 어떻게 활용하는지에 완전히 초점이 맞추어져 있어서, 알고리즘은 아주 간략한 수준으로 설명해 준다. (좀 더 구체적인 내용은 심화과정이 따로 있음)
http://blog.naver.com/freepsw/221113685916 참고
https://github.com/freepsw/coursera/tree/master/ML_Foundations/A_Case_Study 코드 샘플
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [COLLABO-AZ] : 고객 세그멘테이션 기반 개인 맞춤형 추천시스템 for 루빗BOAZ Bigdata
데이터 분석 프로젝트를 진행한 COLLABO-AZ 팀에서는 아래와 같은 프로젝트를 진행했습니다.
고객 세그멘테이션 기반 개인 맞춤형 추천시스템 for 루빗
20기 정지혜 이화여자대학교 통계학과
20기 김지민 중앙대학교 응용통계학과
20기 오태연 단국대학교 정보통계학과
20기 최은선 한양대학교 에리카캠퍼스 정보사회미디어학과
온라인 커뮤니티 상의 게시글에 대해 Louvain method와 클러스터링 기법을 적용한 내부 커뮤니티 성향 탐지 기법 Sun-young Kim
오늘날 웹 상의 SNS나 블로그, 커뮤니티를 통해 사람들은 자신의 다양한 관심사와 취향을 드러낸다. 과거에는 데이터의 규모에 비해 부족한 데이터 처리 능력으로 인해 웹 상의 자료에 대한 분석이 충분히 이루어지지 못 했 으나 대용량 데이터 처리 기술과 인프라의 발전으로 기업이나 정부 등 많은 조직들이 데이터 분석을 수행하여 의사 결정에 필요한 핵심 정보를 얻고 있다. 본 논문은 기존에 연구가 활발하게 이루어진 SNS에서의 사용자 분 석이 아닌 온라인 커뮤니티에서의 내부 커뮤니티 탐지 기법을 제안한다. 사용자간의 관계가 명확하게 정해진 SNS와 달리 커뮤니티에서의 사용자 관계를 그래프 기반과 컨텐츠 기반의 두 가지 기법으로 분석함으로써 보다 정확한 커뮤니티 탐지 결과를 얻을 수 있다. 기법의 검증을 위해 국내 커뮤니티 사이트의 데이터를 대상으로 실 험을 수행하였으며 실험 결과 사용자들의 관계 및 게시글 성향에 따라 사용자들의 군집을 분류하는데 성공하였 음을 실험으로 보인다.
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Catch, Traffic!] : 지하철 혼잡도 및 키워드 분석 데이터 파이프라인 구축BOAZ Bigdata
데이터 엔지니어링 프로젝트를 진행한 Catch, Traffic! 팀에서는 아래와 같은 프로젝트를 진행했습니다.
수도권 교통의 혼잡성을 해결하기 위한 방안을 찾는 데이터 파이프라인 구축
18기 김인섭 숭실대학교 산업정보시스템공학과
18기 김재민 국민대학교 AI빅데이터융합경영학과
18기 서은유 동덕여자대학교 정보통계학과
18기 윤정원 숙명여자대학교 소프트웨어융합전공
18기 이현진 서울과학기술대학교 산업정보시스템전공
18기 조은학 명지대학교 융합소프트웨어학부
20181106 survey on challenges of question answering in the semantic web saltluxDongGyun Hong
This document summarizes a survey of 62 semantic question answering systems published between 2010-2015. It identifies 7 key challenges for SQA systems: lexical gap, ambiguity, multilingualism, complex queries, distributed knowledge, procedural/temporal/spatial questions, and templates. For each challenge, it describes common solutions and how Adam QA addresses each challenge, which is mostly partially or not at all currently. The conclusion recommends modularity, reuse of components, and benchmarking of individual algorithmic modules.
1. Feb 16, 2017 Page 1/23
Convolutional Matrix Factorization for
Document Context-Aware Recommendation
Donghyun Kim, Chanyoung Park, Jinoh Oh, Sungyoung Lee, Hwanho Yu
POSTECH
RecSys 16
홍동균
데이터 및 지식 공학 연구실
한양대학교
2. Feb 16, 2017 Page 2/23
목차
• 추천 시스템의 cold-start 문제
• 문서 정보를 활용하는 추천 알고리즘들
• ConvMF
• 결론
3. Feb 16, 2017 Page 3/23
Cold-start 문제
- 협업 필터링 기반의 추천 시스템은 이전의 활동 기록 및 선호도 기록이 거의 존재하지 않는
새로운 사용자 및 새로운 품목에 대해서 적합한 추천을 제공해 주지 못함
- 신규 회원, 신작 영화, 최신 논문 등이 대표적인 예로, 이들에게도 적합한 추천을
제공해주어야 함
New itemNew user
4. Feb 16, 2017 Page 4/23
Cold-start 문제 해결 방안
Cold-start 문제를 해결하기 위하여 사용자 및 품목의 메타 정보를
추가적으로 활용
• Categorical Information
• Social Information
• Image Information
• Crowdsourcing
• Document Information
기존 선호도 기록이 없는 사용자 및 품목의 경우에도 메타 정보를 활용하여
어느정도 적절한 추천을 해줄 수 있음
5. Feb 16, 2017 Page 5/23
문서 정보 활용
최근 문서 정보를 효과적으로 표현하는 토픽 모델링, 딥 러닝과 같은
방법론들이 대두됨에 따라 추천 시스템 분야에서도 문서 정보를 활용하는
연구가 활발히 진행 됨
• Collaborative Topic Regression
• Collaborative Deep Learning
• Convolutional Matrix Factorization
문서 정보를 활용하면 cold-start 문제를 어느정도 해결할 뿐 아니라 추천의
정확도 또한 향상 시킬 수 있음
6. Feb 16, 2017 Page 6/23
Collaborative Topic Regression
• LDA: 문서 정보를 분석하여 각 아이템에 대한 토픽 분포를 얻음
• 각 문서는 여러 토픽을 포함하고 있음
• 어떤 문서 X에 포함되어 있는 단어들과 그 빈도를 통해서 문서 X가 어떤 토픽(𝜃)들로
구성되어 있는지 알아낼 수 있음
𝜃
7. Feb 16, 2017 Page 7/23
Collaborative Topic Regression
• CTR: PMF와 LDA를 결합한 방법
• 각 파라미터들을 학습한 후 최종 적인 추천은 아래와 같이
• 기존 아이템 평점 예측:
• Cold-start 아이템 평점 예측: (새로운 아이템은 평점이 없으므로 𝜖𝑗 = 0)
LDA
PMF
8. Feb 16, 2017 Page 8/23
Collaborative Deep Learning
• CDL
– PMF + SDAE: 딥러닝 모델 중 하나인 Stacked Denoising Auto-Encoder
(SDAE)를 행렬분해기법과 통합시킨 연구
– CTR의 통합기법과 유사하지만 SDAE는 문서 정보를 LDA보다 효과적으로
분석할 수 있어 품목의 프로파일을 보다 더 정확히 생성하고, 이를 통해
추천 시스템의 성능을 향상시킴
9. Feb 16, 2017 Page 9/23
CTR, CDL 이후의 논문
• CTRank
– CTR (point-wise CF + LDA), CTRank (pair-wise CF + LDA)
– 아이템 간의 상대적인 선호도 차이를 고려하여 (Pair-wise ranking method)
고려하지 않는 (point-wise) 기존 CTR 보다 정확도를 향상시켰음
• mSDAE-CF
– CDL (CF+ SDAE), mSDAE-CF (CF + mSDAE)
– 직접적인 CDL과 비교는 없지만, 무비렌즈 데이터를 사용하였고 PMF 계열의
CF 알고리즘과 비교하여 좋은 정확도를 보여줌
* Deep Collaborative Filtering via Marginalized Denoising Auto-encoder, CIKM-2015
* Collaborative Topic Ranking: Leveraging Item Meta-Data for Sparsity Reduction, AAAI-2015
10. Feb 16, 2017 Page 10/23
CTR, CDL 이후의 논문
• CDR
– CTR (point-wise CF + LDA), CDL (point-wise CF+ SDAE),
CDR (pair-wise CF + SDAE)
– 아이템 간의 상대적인 선호도 차이를 고려한 CF 방법과 (Pair-wise ranking
method) 추가적인 컨텐츠 정보에 대해서는 딥러닝 알고리즘인 SDAE를
사용하여 정확도 향상시킨 방법
* Collaborative Deep Ranking: a Hybrid Pair-wise Recommendation Algorithm with
Implicit Feedback, PAKDD-2016
CiteUlike 데이터를 사용한 정확도 비교 실험
11. Feb 16, 2017 Page 11/23
Convolutional Matrix Factorization
• ConvMF: CNN과 PMF의 결합
– CNN 모델을 사용하여 각 문서 정보로 부터 document latent vector를 얻음
LDA로 얻은 토픽 분포 벡터와 같은 역할
12. Feb 16, 2017 Page 12/23
Convolutional Neural Network
• 최근 컴퓨터 비전 분야에서 활발하게 연구되고 있는 딥러닝 모델
• 특히 이미지 분류에서 기존 연구의 정확도 한계를 뛰어넘어 화제가 되었음
• 구성요소
• Convolution layer
• Pooling layer
• Fully connected neural network
13. Feb 16, 2017 Page 13/23
Convolution
• 이미지 행렬에 sliding window를 적용하여 새로운 feature를 얻는 것
• Sliding window를 filter, kernel, feature detector로 부르기도 함
• 이미지 상에서는 가까이 있는 픽셀들이 모여서 의미 있는 상을 형성하기 때문에
정사각형 모양의 filter 개념이 사용 됨 (이미지에서 얼굴을 인식하는 filter..)
14. Feb 16, 2017 Page 14/23
Convolution의 의미
• 이미지의 픽셀 값을 그대로 이용하지 않고, filter를 적용하여 상위 레벨의 feature
정보를 얻고자 하는 것 (pixel –> edge -> shape…)
• 결국 CNN은 픽셀로 이미지를 분류하는 것이 아닌, shape와 같은 정보를 갖는
feature를 사용하여 이미지 분류를 하게 되는 것
Blur Edge detect
15. Feb 16, 2017 Page 15/23
Pooling
• 입력 행렬의 subsample을 얻는 것
• 일반적으로 윈도우의 행렬 요소 중 가장 큰 값을 취하는 max pooling 방법이 사용 됨
• 대표적으로 2가지 이유로 pooling을 사용
• 주어진 입력 행렬의 크기를 작게 하면서, 해당 행렬의 주된 정보만을 얻고자 함 (PCA와
같은 효과)
• Convolution layer에서 다양한 크기의 filter를 사용하는 경우 결과 행렬의 크기가
제각각이 되는데, 이러한 크기를 pooling을 통하여 동일하게 맞춘다.
16. Feb 16, 2017 Page 16/23
Convolutional Neural Network
• 즉 CNN은 neural network에 입력으로 이미지 픽셀 값의 행렬이 아닌,
convolution과 pooling을 반복하여 얻은 feature를 neural network에 입력으로
넣고 이미지 분류를 진행
• 이 때의 feature는 픽셀보다 상위 레벨의 정보를 포함함
17. Feb 16, 2017 Page 17/23
CNN for NLP
• 그러나 convMF 논문의 CNN은 이미지가 아닌 문서 정보를 사용함
• 하나의 문서를 행렬로 표현하기 위해 word embedding 사용
• 문서 행렬이 convolution과 pooling을 거쳐 document latent vector가 되는
것
18. Feb 16, 2017 Page 18/23
CNN for NLP
• Word embedding을 통한 문서의 행렬 표현
• Word2vec이나 GloVe를 사용하여 word embedding vector를 얻을 수 있음
• Word embedding vector 간의 관계는 실제 단어의 의미 관계와 유사함
19. Feb 16, 2017 Page 19/23
CNN for NLP
• 문서 정보를 입력으로 받는 CNN의 convolution & pooling
Convolution
- 하나 이상의 단어를 대상으로 filter 적용
(보통 2~5단어)하여 feature를 추출 함
- 개 별 단 어 보 다 연 속 된 단 어 조 합 이
나타내는 의미가 그 문서를 이해하는 데
중 요 함 (LDA, SDAE 의 ‘Bag of Words’
방식보다 나은 점)
Pooling
- 주성분을 얻는 효과
- 입력 크기를 동일하게 맞추는 효과
20. Feb 16, 2017 Page 20/23
Convolutional Matrix Factorization
• ConvMF 모델은 CNN을 활용하여 얻은 document latent vector를
PMF의 평점 예측 과정에 활용하여 추천의 정확도를 향상 시킴
21. Feb 16, 2017 Page 21/23
ConvMF Result
• 평점 데이터로 ML-1m dataset 사용
• 문서 정보 데이터로 IMDB plot summary dataset 사용
22. Feb 16, 2017 Page 22/23
결론
• 문서 정보를 활용하여 추천 시스템의 정확도를 향상시키고 cold-start 문제를
해결하려는 연구가 활발히 진행 중
• LDA, SDAE, CNN과 같은 토픽 모델링, 딥러닝 방법들을 활용한 추천 시스템들이
좋은 결과를 보여주고 있음
• 특히 CNN은 컴퓨터 비전 분야 뿐 아니라 자연어 처리 분야에도 활용할 수
있으며 ConvMF 방법처럼 괜찮은 성능을 보여주고 있음