링크드인의 Big Data Recommendation Products - 어제의 데이터를 통해 내일을 예측한다Evion Kim
DEVIEW 2013 발표 내용입니다 - http://deview.kr/2013/detail.nhn?topicSeq=36
링크드인 플랫폼 상의 다양한 Recommendation Product들, 이 제품들의 키워드는 바로 'Relevance(연관성)' 입니다. 가장 관련있는 데이터들을 제공함으로써 사용자의 삶을 더 쉽고 편하게 만들어 주는것이 링크드인 데이터 팀의 목표라 할 수 있겠습니다. 그렇다면 어떻게 해야 사용자에게 가장 연관성 높은 데이터를 제공 할 수 있을까요? 이에 대한 답을 한문장으로 요약하자면 '어제의 데이터를 분석하여 내일의 사용자의 행동을 예측한다' 가 될 것 같습니다.
본 발표에서는 이 한 문장을 좀 더 길게 풀어보려 합니다. 링크드인에서는 Hadoop, Key-Value Storage, Machine Learning등의 기술을 어떤 식으로 활용하여 연관성 높은 Recommendation Product를 만들고 있는지에 대해 소개해보겠습니다.
링크드인의 Big Data Recommendation Products - 어제의 데이터를 통해 내일을 예측한다Evion Kim
DEVIEW 2013 발표 내용입니다 - http://deview.kr/2013/detail.nhn?topicSeq=36
링크드인 플랫폼 상의 다양한 Recommendation Product들, 이 제품들의 키워드는 바로 'Relevance(연관성)' 입니다. 가장 관련있는 데이터들을 제공함으로써 사용자의 삶을 더 쉽고 편하게 만들어 주는것이 링크드인 데이터 팀의 목표라 할 수 있겠습니다. 그렇다면 어떻게 해야 사용자에게 가장 연관성 높은 데이터를 제공 할 수 있을까요? 이에 대한 답을 한문장으로 요약하자면 '어제의 데이터를 분석하여 내일의 사용자의 행동을 예측한다' 가 될 것 같습니다.
본 발표에서는 이 한 문장을 좀 더 길게 풀어보려 합니다. 링크드인에서는 Hadoop, Key-Value Storage, Machine Learning등의 기술을 어떤 식으로 활용하여 연관성 높은 Recommendation Product를 만들고 있는지에 대해 소개해보겠습니다.
This document summarizes the development of Vinesense, a software tool for winemakers. It was created by a team including front-end and back-end developers, as well as researchers. They aimed to transform an existing desktop application into a web application using ASP.NET and MVC to allow winemakers to access vineyard data like temperature and moisture from anywhere. This involved market research, improving the database schema to make queries faster, and developing a responsive front-end to display sensor data in charts.
This document summarizes the work of a team that developed software called Vinesense to help winemakers analyze grape harvest data. The team conducted market research on viticulture software, redesigned the database to improve query speeds, and developed the front-end using responsive design, version control, and libraries to display data visually. They delivered a demonstration of the new web-based software to the client, having learned about wine production and worked collaboratively over three weeks on the project.
2. Field of study that gives computers the ability
to learn without being explicitly programmed.
What is Machine Learning?
3. 머신 러닝의 종류
• Supervised Learning (지도학습)
• 데이터 X에 대해 Y를 예측 하는 것
• 답이 있는 문제에서 답을 예측하는 것
• Unsupervised Learning (비지도학습)
• 데이터 X는 어떻게 설명 될 수 있는가
• 해석은 알아서
4.
5. Supervised Learning
• Classification (분류)
• Target Value : Discreate Value
• 예시 : 스팸 분류, 필기체 인식, 보균자 색출
• Regression (회귀)
• Target Value : Continuous Value
• 예시 : 가격 예측(집값, 주가)
8. 머신러닝을 한다는 것..
• Training Set : 데이터 집합
• Hypothesis: 추론 (알고리즘)
• Feature : 변수
• Target Value: 결과물
Training Set
Learning Algorithm
HypothesisFeature Target Value
9. 추론 함수 만들기 (지도학습 – 선형회귀 기준)
Training Set
Learning Algorithm
HypothesisFeature Target Value
10. Hypothesis Function (=Cost Function)
• ‘데이터가 x일 때 y의 결과가 나올 것이다’
• 예측한 둘 사이의 관계 혹은 함수
• =
• : Training Set
• : 상수
• : 예측값
• 즉, 좋은 값을 선택해야, 정확한 예측값을 구함
0
1
2
3
4
5
6
7
8
9
0 2 4 6 8 10 12
17. 머신러닝 성능평가 단계
Training Data Features
Accuracy =
Correctly Predicted Target Variables / Total Predicted Target Variables
Predicted Target VariablesMachine
18. 실제로 구현해보기
• 필기체 인식하기
• Data : Handwritten digit image
• Taget Value : 0, 1, 2, 3, 4, 5, 6, 7, 8, 9