[211] 네이버 검색과 데이터마이닝

7,791 views

Published on

DEVIEW2015 DAY2. 네이버 검색과 데이터마이닝

Published in: Technology
1 Comment
48 Likes
Statistics
Notes
No Downloads
Views
Total views
7,791
On SlideShare
0
From Embeds
0
Number of Embeds
3,900
Actions
Shares
0
Downloads
146
Comments
1
Likes
48
Embeds 0
No embeds

No notes for slide

[211] 네이버 검색과 데이터마이닝

  1. 1. 1
  2. 2. 2
  3. 3. 네이버& 데이터마이닝 주변핫검색 3
  4. 4. 옛날이야기–연관검색어 Support Confidence Frequent Subset 4
  5. 5. 연관검색어 5
  6. 6. 연관검색어 전체 1000명중 100명이 evidence가 되는 경우 전체 1000명중 10명이 evidence가 되는 경우 전체 1000명중 5명이 evidence가 되는 경우 6
  7. 7. 연관검색어 7
  8. 8. 1 8
  9. 9. 기술을이긴다는것… 9
  10. 10. 랭킹시스템 1 2 3 100클릭 200클릭 50클릭 CASE 1 교환 100클릭 100클릭 50클릭 CASE 2 교환 100클릭 90클릭 50클릭 CASE 3 교환? 10
  11. 11. 랭킹시스템 1 2 3 [능력] =[순수능력]+[위치능력] 𝜂1 𝜂2 𝜂3 100 = 70 + 30 90 = 75 + 15 50 = 45 + 5 11
  12. 12. 랭킹시스템 추정이 잘됨 ( 분산 : 1 ) 추정이 잘 안됨 (분산 : 3 ) 𝜂1 𝜂2 𝜂3 100 = 70 + 30 90 = 75 + 15 50 = 45 + 5 12
  13. 13. 랭킹시스템 통계분야 데이터 마이닝 전문가 13
  14. 14. 랭킹시스템 통계 KDD 머신러닝 14
  15. 15. 2 15
  16. 16. 기술.. 16
  17. 17. 최근이야기-LDA corpus document 17
  18. 18. LDA-이기기위해서. D1 M개w1 w2 w3 wN … … w4 z1 z2 z3 z4 zN z = multinomial(θ) θ = <θ1,θ2,θ3 … ,θk > θ = Dir(α) α = <α1,α2,α3 … ,αk> z = <z1,z2,z3 … ,zN> zn = <zn 1, zn 2, zn 3, .., zn k > Z1 1=1 β : p(word, topic) K V β11 β12 … β1v β21 β22 … β2v … … βk1 βk2 … βkv K : topic 수 Latent Dirichlet Allocation 18
  19. 19. LDA 19 BLOCK OUT
  20. 20. LDA 20
  21. 21. LDA-실험 #Cluster 국가기 관 #Cluster 복지 #Cluster 슈퍼스 타k #Cluster 주거 기획재정부 건강보험 슈스케 시프트 외교통상부 4대보험 크리스티나 보금자리주택 중소기업청 4대보험포털사이트 신지수 국민임대아파트 농림수산식품부 고용보험관리공단 이정아 주택관리공단 지식경제부 건설기술인협회 임윤택 한국주택금융공사 여성가족부 실업급여 동경소녀 질바이질스튜어트 국회 고용산재토탈서비 스 도대윤 보금자리론 21
  22. 22. LDA-분산처리 22
  23. 23. LDA–sowhat? 23
  24. 24. 반대사례–실시간검색어 24
  25. 25. 실시간검색어 www.cs.cmu.edu/~neill/papers/eventdetection.pdf ) 25 BLOCK OUT BLOCK OUT BLOCK OUT BLOCK OUT
  26. 26. 3 26
  27. 27. 좋은목적.. 27
  28. 28. 아직도..–협력필터 28
  29. 29. 협력필터 Wij : item i와 j간의 weight Conditional probability를 이용하여 score를 계산 qi : item의 특성을 n개의 feature로 표현 pu : 사용자의 특성을 n개의 feature로 표현 사용자와 아이템을 똑같은 n차원의 feature 로 표현하여 둘의 곱으로 선호도를 구함. 전역 적인 특성이 있음 w : feature의 weight Ii : i 번째 아이템의 feature 각 feature의 global한 weght를 구하여 적 용한다. Neighborhood model 1 Factor model2 Contents model3 User behavior 이용 Contents 정보 이용User behavior 이용 𝑆𝑐𝑜𝑟𝑒 𝑢𝑖 = 𝑤𝑖𝑗 𝑃 𝑑𝑖 𝑑 𝑘 + 𝑗∈𝑅 𝑢 𝑞𝑖 𝑇 ∙ 𝑝𝑢 + 𝑤 ∙ 𝐼𝑖 𝐼𝑗 𝑗∈𝑅 𝑢 29 BLOCK OUT
  30. 30. 협력필터 30
  31. 31. 협력필터 31
  32. 32. 4 32
  33. 33. DomaindependentTraining-TestScheme. TRAINING DATA TEST DATA 33
  34. 34. 정리하면.. 34
  35. 35. 35
  36. 36. 36 BLOCK OUT
  37. 37. 37 BLOCK OUT
  38. 38. 네이버‘Realtime’프로젝트 CUVE blog news post sns . . . RED Realtime 데이터 이벤트 추출 & 점수 BigBrew 실시간 색인 REACT Dynamic Relay Real Listener USER see act react 이벤트 탐지 & 색인 전달 및 반응 38
  39. 39. 39
  40. 40. CUVE blog news post sns . . . RED Stat Analizer segment Analizer Event score Event score Event score .. Event DB Realtime 데이터 이벤트 점수 이벤트 저장 40
  41. 41. Stat Analizer Segment Analizer event scorer 1. Event Detection 2. Compute Real Score 41
  42. 42. RED 42
  43. 43. RED 2015년 4월 16일 18:30분 ‘부산 사직 구장’ 0.89 0.92 0.87 0.65 Real Score = now + interest 10초전 3분전 8분전 33분전 43
  44. 44. 44 BLOCK OUT
  45. 45. 45
  46. 46. 46
  47. 47. 47

×