• Save
Kth daisy 추천솔루션_20130509_v1.0_이호철
Upcoming SlideShare
Loading in...5
×
 

Kth daisy 추천솔루션_20130509_v1.0_이호철

on

  • 2,937 views

대용량 실시간 분석,추천 솔루션인 kth daisy(Data Intelligence System) 중에서

대용량 실시간 분석,추천 솔루션인 kth daisy(Data Intelligence System) 중에서
추천(Recommendation)에 대한 간략한 소개

Statistics

Views

Total Views
2,937
Views on SlideShare
1,912
Embed Views
1,025

Actions

Likes
10
Downloads
0
Comments
0

4 Embeds 1,025

http://hochul.net 993
http://www.hanrss.com 16
https://twitter.com 15
http://www.google.co.kr 1

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Kth daisy 추천솔루션_20130509_v1.0_이호철 Kth daisy 추천솔루션_20130509_v1.0_이호철 Presentation Transcript

    • Powered by kth 이호철대용량 실시간 분석/추천 솔루션DAISYData Intelligence System- Recommendation -
    • 1. 데이터 마이닝 (Data Mining)대량의 데이터 집합으로부터 유용한 정보를 추출통계,수학 및 패턴 인식 기술 이용 - 새로운 상관관계, 패턴, 추세 등을 발견
    • 2. 데이터 마이닝 주요 개념 및 효과- 38% 이상의 조회가 추천에 의해 발생- 대여되는 영화의 2/3가 추천으로부터 발생판매의 35%가 추천으로 부터 발생 -Classification / Prediction / Association Rules / Predictive AnalyticsData Reduction / Data Exploration / Data Visualization
    • 3. kth DAISY추천소셜 분석DAISY실시간 분석인기 키워드, 실시간 통계상품 추천친구 추천, 장소 추천대용량 분산 DataStore메모리 기반의 빠른 데이터 처리 속도저비용 / 확장 용이Real Time Analytics Solution
    • 3. kth DAISY – 데이터 마이닝
    • 4. 서비스에서 추천의 필요성현 황• 대량의 콘텐츠에서 선택의어려움• Mass Marketing 관점의기존 추천• 다양한 고객의 취향, 기호개 선• 추천을 통한 검색 보완• 고객 맞춤형 콘텐츠 제공• 데이터 마이닝을 통한맞춤형 추천• 구매이력 기반 연관 추천• 고객 세분화 및 특성에 맞는 타겟팅상품간 유사도 기반 추천 제공 / 시스템을 통한 자동화 추천
    • 5. DAISY 추천 FLOWDAISY를 통한 수집/추천/API 제공 자동화User Service DAISY UserService서비스 Database사용자행동 패턴접속/구매 HDFSData collectorData Analysis / MiningEngine분석 모델 적용ML, Hive 활용사용자 데이터- 구매 로그- 채널 접속 통계- 클릭 로그요일/시간별사용자 성향별연관 상품 추천구매 상품과 연관성 높은 상품추천요일/시간별BEST 카테고리상품 추천구매 로그서비스 DatabaseLogAgent사용자 분류사용자 기반 연관분석상품 기반 연관분석검증구매로그접속 로그Screen추천
    • 6. 추천 알고리즘 – User/Item Based CFACBD이용자 1이용자 2이용자 3highcorrelationlikeUser-based FilteringACBD이용자 1이용자 2이용자 3highcorrelationlikeItem-based Filtering
    • 6. 추천 알고리즘 : Item-Based CF – Cosine SimilarityItem-Based Collaborative Filtering 의 상세 알고리즘 중- Cosine Similarity• Manhattan Distance로 잘 알려진, 두 지점 간의 거리를 구하는 방법의 확장판• 두 지점간의 거리를 구할 때 2차원의 좌표값을 사용했다면, 이를 3차원벡터로 확장한 알고리즘• 각 문서간의 유사도를 평가할 때, 두 문서의 각도를 척도로 함• 값의 범위: (-1~1)• -1: 두 vector는 정확히 반대, 0: 두 vector는 독립, 1: 두 vector는 같다
    • A C BB D AB AA B C DA 0 1 1 1B 1 0 1 1C 1 1 0 0D 1 1 0 0이용자 1이용자 2이용자 3A- 연관 VOD이용자 N“A” 선택/설명 보는 중 또는 “A” 기 구매자A와 유사도 계산A와 B : 0.67A와 C : 0.41A와 D : 0.41Item-based Filtering(Cosine SimilarityAlgorithms 적용)B추천-1 : 정반대 / 0 : 독립1 : 동일6. 추천 알고리즘 : Item-Based CF – Cosine Similarity구매로그수집
    • 7. DAISY 추천 설계기반 데이터• 구매 로그• 콘텐츠 정보• 사용자 정보수집 / 전처리• 데이터 수집• 데이터 적재• 전처리데이터 마이닝• Item-basedFiltering• Clustering• Classification서비스 제공• Open-API• 연관 상품• 사용자 그룹별• 카테고리별OpenAPI일 배치 수집최근 3개월 데이터기반추천결과 저장매일 배치 처리서비스 로그 저장(사용자 반응)- 검증
    • 유무선상의 TV 에서 생성하는 거대한 데이터사용자들은 손쉽게 추천을 받게 된다.- kth DAISY 2013 -
    • *. Reference• 본 문서 설명 블로그 http://hochul.net/blog/recommendation-daisy/• kth DAISY 소개 http://dev.kthcorp.com/2013/01/07/big-data-age-introducing-kth-daisy/• ML(Machine Learning) 의 대표적 오픈 소스 Apache Mahout• http://mahout.apache.org/• https://cwiki.apache.org/confluence/display/MAHOUT/Recommender+Documentation• http://hochul.net/blog/about-apache-mahout/
    • 대용량 실시간 분석/추천 솔루션DAISYData Intelligence System감사합니다!