Data Analysis @ Daum | Devon 2012

Data Analysis @ Daum
Paul Kim (totworld@daumcorp.com)
DevOn 2012

Search Quality
=
Satisfaction / Cost

HTTP://WWW.GOOGLE.COM/ONCEUPONATIME/TECHNOLOGY/PIGEONRANK.HTML

Understanding Users
with Logs
BIG
DATA!

Data Analysis Process
with Hadoop

? !
HADOOP FEATURES TOOLS
2 QUAD-CORES SAS
8GB RAM X 60 NODES WEKA
4TB HDD R
ETC
4 QUAD-CORES
16GB RAM X 30 NODES
4TB HDD

라면 맛있게 끓이는 비법

많이 본 글
Mission
만족스러운 검색 경험들을 랭킹에 반영
Target Data
Half Year Search Logs (about 40TB)
Features
JOB
ROU P-BY
Query - Collection Relationship G
UP-B Y JOB
Query - Document - Session Relationship GRO
JOB
Session - Query Relationship GROU P-BY
UP-B Y JOB
Session - Document Relationship GRO

많이 본 글
Modeling
Linear Regression with SAS

Batch Process

HADOOP FEATURES MODEL ENGINE

LESS THAN 2 HOURS

SEARCH SPAM INDEX
Mission
Spam이 검색 사용자에게 미치는 영향 파악
Data
Search Log : Text with Delimiter
Post Filtered Documents : Json Format
Operation Deleted Documents : Xml Format
Task
Query - Session - Doc. 1 - Doc. 2 - Doc. 3 - Doc. 4
Click? TER JOIN
OU
Type? (Ham, Spam, OP Del.)

SEARCH SPAM INDEX
Result Sample

BLOG CLASSIFICATION
Mission
Unsupervised Learning을 통한 나쁜 Blog Clustering
Data
30 Days Blog Documents
Task
Blog - Document’s Feature Analysis with Fixed Interval

BLOG CLASSIFICATION
Modeling
Kohonen’s SOM(Self Organizing Map) with R

WHAT ELSE?
Topic Analysis with PLSA

Query Chain Filtering

Reprocessing with Hadoop

ADVANTAGE OF HADOOP
ADVANTAGE
Low analyze cost!
No more sampling!
Low operation cost!
Programming Language Independent
Various support tools

DISADVANTAGE
Conceptual Change is Needed.
Project under active development.
Version upgrade is not supported.

Data Analysis @ Daum | Devon 2012

Recommended

Recommended

More Related Content

What's hot

What's hot (6)

Similar to Data Analysis @ Daum | Devon 2012

Similar to Data Analysis @ Daum | Devon 2012 (20)

More from Daum DNA

More from Daum DNA (20)

Data Analysis @ Daum | Devon 2012