Discovering Semantics in Heterogeneous Data Graphs (다양한 종류의 데이터를 활용한 추천)

1,295 views
880 views

Published on

Discovering Semantics in Heterogeneous Data Graphs (다양한 종류의 데이터를 활용한 추천)
2012 Data Science Meetup in Seoul (http://lifidea.tistory.com/entry/%EC%A0%9C-1%ED%9A%8C-Data-Science-Meetup-%ED%9B%84%EA%B8%B0) Organized by Jinyoung Kim and others.

Published in: Technology
0 Comments
3 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,295
On SlideShare
0
From Embeds
0
Number of Embeds
85
Actions
Shares
0
Downloads
0
Comments
0
Likes
3
Embeds 0
No embeds

No notes for slide

Discovering Semantics in Heterogeneous Data Graphs (다양한 종류의 데이터를 활용한 추천)

  1. 1. 1/10Discovering Semanticsin Heterogeneous Data Graphs다양한 종류의 데이터를 활용한 추천Intelligent Data Systems Lab.강민석2012 Data Science Meetup in Seoul2012년 5월 17일Seoul National University
  2. 2. 2/10Google’s Knowledge Graph 어제 발표된 구글의 “Knowledge Graph” 실세계 object 및 object들간의 관계HeterogeneousData GraphsKnowledge GraphSemantics검색추천마이닝수지건축학개론MissA
  3. 3. 3/10Data Applications 만들기 위한 네 단계 데이터 수집 – 정리해서 DB 저장 – 알고리즘 써서 결과 - 시각화extractdata modelraw dataarrangeanalyzeresultvisualizeprocessorganizepresentationstorycollectbuild graph graph processingRandom walkNode proximityMinimal subgraphsGraph clustering
  4. 4. 4/10Why Graph? 왜 하필 데이터를 굳이그래프로 만들어서 저장하는가? 데이터를 표현하는 자연스러운 방법 연관관계를 뽑기 적절한 형태Linked Data (Semantic Web)Relational DB (E-R Model)원래부터 데이터는 그래프 구조 Data is information about things. Data is relationships between things. RDB (Entity-Relationship Model) Linked Data (S-P-O)PageRank의 교훈 링크에 주목하라! 단순링크개수보다,그래프 구조를 종합적 고려하기!(링크의 링크)
  5. 5. 5/10그래프 예시 여러 데이터 소스로부터 그래프 만들기 다양한 종류의 노드와 링크 혼재 (Heterogeneous Data Graphs)사용자 데이터:Facebook맛집 데이터:윙스푼태그:del.icio us책 구매 데이터:아마존장소 데이터:Google Map음악 데이터:벅스사람: 철수수지사람: 재석책:자료구조가수:아이유강남역삼성동맛집:만리장성민수5/18주중맛집:시크릿가든철수철수맛집:광화문파스타재즈장소:압구정한정식회식옥정동훈거주지likes• 철수와 수지는 커플• 오늘 5월 18일은 수지의 생일• 수지와 민수는 페북 친구, 철수와 재석도 페북 친구• 철수는 삼성동에 거주, 수지는 강남역에 거주• 강남역과 압구정동은 가까움.• 삼성동에는 중식당 만리장성• 압구정에는 시크릿가든 식당이 있고,광화문 식당도 있음.• 시크릿가든에서는 재즈를 틀어줌.• 수지는 재즈를 즐겨 들음.• 동훈이와 민수는 아이유 좋아함.• 동훈이 엄마는 옥정• 옥정은 파스타 싫어하고 한정식 좋아함.• 민수는 자료구조 책 구입.• …
  6. 6. 6/10Task 예시: 음식점 추천• 철수와 수지는 커플• 오늘 5월 18일은 수지의 생일• 수지와 민수는 페북 친구, 철수와 재석도 페북 친구• 철수는 삼성동에 거주, 수지는 강남역에 거주• 강남역과 압구정동은 가까움.• 삼성동에는 중식당 만리장성• 압구정에는 시크릿가든 식당이 있고,광화문 식당도 있음.• 시크릿가든에서는 재즈를 틀어줌.• 수지는 재즈를 즐겨 들음.• 동훈이와 민수는 아이유 좋아함.• 동훈이 엄마는 옥정• 옥정은 파스타 싫어하고 한정식 좋아함.• 민수는 자료구조 책 구입.• …사용자 데이터:Facebook맛집 데이터:윙스푼태그:del.icio us책 구매 데이터:아마존장소 데이터:Google Map음악 데이터:벅스사람: 철수수지사람: 재석책:자료구조가수:아이유강남역삼성동맛집:만리장성민수5/18주중맛집:시크릿가든철수철수맛집:광화문파스타재즈장소:압구정한정식회식옥정동훈거주지likesTask: 철수에게 저녁식사를 위해 가장 적합한 레스토랑을 추천하기Query: 두 노드 ‘사람: 철수, 시간: 5/18’에 가장 관련있는 음식점 노드는?그래프가 엄청나게크다면?
  7. 7. 7/10Graph AlgorithmsQueryNodeWhich ismore similar? 문제의 단순화: 쿼리 노드에 대해,가장 연관성 높은 노드를 찾아서 랭킹하라! 일단 알고 있는 그래프 근접성 알고리즘 적용그래프 근접성 알고리즘들 Shortest distance Random walk w/ restart(Personalized PageRank) SimRank근데 문제: 이렇게 하면 다 뭉뚱그려져서원래 데이터가 갖고 있던 의미는 사라지지 않나?노드 A와 B 사이는 친구? or 싫어하는 사이?
  8. 8. 8/10If Heterogeneous: Paths (semantics) 전체 그래프를 다 쓰자니… 다 뭉뚱그려버리면 시맨틱은 사라짐. Semantics 살라기 위해 edge에 있는 type에 주목해보자.• Difference to homogeneous graph Edge을 이어붙이면 path. Path는 어떤 하나의 의미를 가짐.• <커플 – Likes – Played> (내 여자친구가 좋아하는 재즈를 틀어주는 음식점)사람: 철수수지사람: 재석책:자료구조가수:아이유강남역삼성동맛집:만리장성민수5/18주중맛집:시크릿가든맛집:광화문파스타재즈장소:압구정한정식회식옥정동훈거주지likes
  9. 9. 9/10Path-level feature & Machine Learning Path을 러닝 모델의 feature로 쓰기 손쉽게 feature 추출• 복잡한 알고리즘 대신이미 있는 방법들을 잘 사용• 직관적으로 이해하기 쉬운 pathPredictiveModelNewdatafeaturevectorsLabels(정답)ExpectedlabelTraining DataNo. 어떤 path로 만든 featureLearnedweightF1 사람-(유사취향)-사람-(좋아함)-음식점 (CF) 0.26F2 사람-장소-음식점 (location context) 0.15F3 사람-(커플)-사람-(생일)-날짜 0.21F4 위치-음식점-태그-음식점 (tag, content) 0.05F5 사람-음악장르-음식점 (various) 0.08F6 사람-(친구)-사람-(좋아함)-음식점(social) 0.10… … …LearningalgorithmQueryfeaturevector
  10. 10. 10/10Summary To discover semantics from data, 일단 데이터를 가지고 그래프를 만든다. 랜덤워크 같은 알고 있는 그래프 알고리즘의 도움으로 문제를 풀기. 다양한 종류의 데이터가 혼재되어 있을 때는, 경로(path) 정보를 이용하여내가 원하는 시맨틱에 해당하는 정보를 쉽게 추출해 볼 수 있다. 러닝 알고리즘 써서 어떤것이 중요한 시맨틱인지 파악하고,최종 결과물 산출!사람: 철수수지사람: 재석책:자료구조가수:아이유강남역삼성동맛집:만리장성민수5/18주중맛집:시크릿가든맛집:광화문파스타재즈장소:압구정한정식회식옥정동훈거주지likes
  11. 11. 11/10References Our Lab. 강민석 외, “Ranking Objects by Following Paths in Entity-Relationship Graphs”, Ph.DWorkshop in CIKM 2011. 강민석 외, “Ranking in Context-Aware Recommender Systems”, WWW 2011(poster). 강민석 외, “Exploiting Paths for Entity Search in RDF Graphs”, SIGIR 2012 (poster). 이상근 외, “PathRank: A Novel Node Ranking Measure on a Heterogeneous Graphfor Recommender Systems”, CIKM 2012. 이상근 외, “Random Walk based Entity Ranking on Graph for MultidimensionalRecommendation”, RecSys 2011. 참고문헌 Y. Sun et al., “PathSim: Meta Path-Based Top-K Similarity Search in HeterogeneousInformation Networks”, VLDB 2011. N. Lao et al., “Relational Retrieval using a Combination of Path-ConstrainedRandom Walks”, ECML-PKDD 2010. 자료 참고 이상구, “Semantic Data Processing: Introduction”, 서울대학교 대학원 강의자료, 2011.
  12. 12. 12/10감사합니다~Intelligent Data Systems Lab.강민석Seoul National UniversityResearch ScientistMinsuk Kahng

×