SlideShare a Scribd company logo
1 of 41
Download to read offline
Daum내부 Hadoop 활용 사례
       DevOn 2012




         Channy Yun

      Daum Communications Corp.
        channy@daumcorp.com
Space.1
  Daum in Jeju


                       Global Media Center



Net Intelligence Lab




         2004             2006                 2012
Data in Daum




 per User




   2004        2006   2012
Numbers in Daum

 Search Query            1,017,410,000
 Unique Visitor(UV)         19,473,803


 Top Page View(PV)     2,074,688,580
 Top Page UV              23,121,882

 Daum.net PV          13,745,663,643
                          Per Month. KoreanClick (2012.3)
A role of Big data




             ©       @mdennis, datastax
NoSQL 기술의 이점




               Update Heavy job
               Real-time
               incremental Update

               http://research.yahoo.com/Web_Information_Management/YCSB
New Buzz
   웹 2.0       비교                            빅 데이터
   1990년대      시기                             2010년대
    X86급      서버 장비                             중형급
  상용 유닉스      잠식 시장                               DW


  Redhat      대표 회사                        Cloudera
 리눅스 토발즈      대표 영웅                        더그 커팅
   Linux      소프트웨어                        Hadoop
  인터넷 포털      혁신 주체                        소셜네트워크
  웹 스타트업                                    모바일
 저렴한 웹서버 구축   변화 요인                    저렴한 데이터 분석
                http://channy.creation.net/blog/882 © Channy’s Blog
데이터 분석 산업의 변화




                ©
Bigdata Stack?




                 ©
Hadoop Kernel




                ©
Hadoop Platform : Today




                          ©
Pattern Repeated:




                    ©
도대체 국내에 빅   데이터가
있기나 한가요?
   우리는 도대체 왜 해야 하나요?
빅데이터는 상대적이다!
©   @mdennis, datastax
Daum의 Hadoop 이용 사례
•   로그 분석 사례
    – 전사 로그를 통한 통계 분석
    – 광고 및 클릭 로그 분석을 통한 타켓팅
    – 카페 로그 분석을 통한 사용자 카페 추천
    – 검색 품질 랭킹 분석 및 개선
    – 게임 서버 로그 분석 등

•   데이터 분석 사례
    – 다음 Top 토픽 분석 및 추천 서비스
    – UCC 문서의 스팸 유저 필터링
    – 사물 검색 이미지 역색인
    – 자연어 처리 텍스트 분석
    – 모바일 광고 데이터별 매체 분석 등

•   연구 개발 사례
    – SemSearch: 대용량 시맨틱 웹 검색 엔진 개발
    – VisualRank: 이미지 유사성 매칭 분석
로그 분석 사례
(1) 전사 로그 분석
         access.log



                      전사 서버 로그 수집




                24시간 이후
               분석 결과 제공
before 2009


 수집




 분석




 서비스
After Hadoop


 수집




 분석




 서비스
Tiara 시스템
Daum 서비스 내 발생하는 모든 트래픽을 수
집하여 분석 및 리포팅
– 주요 분석 데이터: Pageview, Clickstream,
  User Analysis


데이터 처리 스택
– Hadoop: 데이터 전처리
– Hive: SQL 기반 데이터 분석
– Pentaho Kettle (ETL): 데이터 저장
– Greenplum: 병렬 데이터베이스


기존방식에 비해 데이터 처리 속도 향상 및 데
이터 적재기간 증가
Hadoop 도입 전
                             Hadoop 도입 후




      고객 분석      일 로그 분석



10분 단위 분석 가능
작년 6월 1일부터 로그 적재 중
주 분석은 10분, 월 분석은 20분 내외 소요
selelct serviceId, count(distinct uuid)
from web_log
where dt='20120101' and hr='10' and mi= ‘10'
group by serviceId, mi
(2) 광고 로그 분석 시스템




광고 로그 및 통계 처리, 매체 토픽 분류 및 과거 로그 데이터를 기반으로
광고 집행 타켓팅 분석
  • input: 과거 집행(노출, 클릭) 로그 데이터 ( 필요에 따라 일, 주, 월 단위
    로그 사용)
  • output 광고에 대한 사용자별 노출 내역 통계 처리
10분에서, 시간당, 일 단위로 다양한 데이터 산출하여 타게팅 광고 효과 향
상
데이터 분석 사례
(1) 다음 Top 토픽 분석
 Top 화면에 제공할 콘텐츠의 토픽 분석




 Hadoop 기반의 머신러닝 도구인 mahout
 이용
(2) UCC 문서 스팸 필터링
문서 내부 단어 및 사용자 프로필을 기반한 스팸 필터링
                         Document Set
     Document
      Feature
                                Map                      Reduce
     Extraction        (User ID, Doc Features)       (User ID, Doc Features List)

   Filtering with               Map                      Reduce
    User Profile         (User ID, User Profiles)    (User ID, User Profiles)
                                            +                                   +
                                                          Spam Users
                                                              Data Node
           Spam User                  Job Tracker
              DB                   + 2nd Name Node
                                                              Data Node


                                                              Data Node
           Document                  Name Node
              DB
                                                              Data Node



• 처리 성능 : 일 평균 600만개 문서
• 최소 10~5000여 개의 문서를 스팸 등록한 50만개 아이디 찾음
(3) 사물 검색 데이터 색인
대용량의 이미지 데이터를 최소한의 시간으
로 분석하여 역 색인과 검색에 필요한 데이터
를 추출


사물검색 대상 이미지의 특징을 분석할 수 있
는 시스템 구축
– 책/음악 앨범/영화 포스터 등 약 150만개
– 각 이미지에서 특징점 추출(260GB)
– 빠르고 안정적인 데이터 분석, 역 색인 데이터
  생성


기존 방식 보다 1/10 정도 시간 단축
연구 개발 사례
대용량 시맨틱 웹 검색 엔진
  구분                     2009                        2010                             2011
                RDF Crawler 프로토타입 구                                          고성능 RDF Crawler
 문서 수집                                                   -
                          현                                                       구현


 대상 문서          KBS 음악 DB+MusicBrainz      Daum 영화/음악/인물 DB                    의학 LinkedData
                  (내부 텍스트 DB+LinkedData)            (내부 RDB)                 (PubMed 등 28개 레포지터리)



 처리 수량
(RDF Triples)
                         1억건                          5억건                            96억건


                     Map/Reduce                 Map/Reduce                      Map/Reduce
전처리 방법                                       (Triples 변환, SPARQL            (Triples 변환, 자동링크 생성,
                       (Triples 변환)
                                                  AnswerSet)                      Solr Index 생성)


검색 인덱스           RDF Repository (Jena)         유사 RDF Repo.                     Solr RDF Index
                                            (SPARQL SubQuery 전처리)



                    음악 RDF 서비스                 Daum 의미 검색                    Daum 의학 전문 검색
  서비스
                        데모                  http://labs.daum.net/semantic    http://labs.daum.net/medical
–Map/Reduce                  –Map/Reduce
                –Se3 Keywords –Se3 Indexer –Se3 Statistics



Internet


           –Search Service




                      –Shard Master        –Shard Slave



                             Daum Cloud                              iCube


                 관계 질의 기반 검색 UI 개발                           대용량 RDF 생성
                 - 특정 분야별 추천 키워드 제공                          - 고성능 RDF 크롤러 구현

                 - 문서 저장소에서 RDF 뷰어 제공                        - Hadoop Map/Reduce 기반 데이터 전처리

                 - 건강 DB와 연계                                 - 96억 트리플 기반 검색 인덱스
Daum의 빅데이터 기술 전략
사내 기술 코디네이션
 – 각 개발자가 Hadoop을 다양하게 활용할 아이디어 개발 및 실험 실행
 – Hadoop을 테스트 해 볼 수 있는 클라우드 플랫폼 제공
 – 실 서비스 투입 시 기존 운영팀으로 부터 노하우 전수
   •   사내 세미나 및 교육 프로그램 운영
   •   Hadoop Expert를 중심으로 필요 시 노하우 제공



개발자 데이터 접근성 향상
 – 데이터 분석가가 아닌 개발자가 직접 데이터에 접근
 – 데이터가 있는 곳에서 바로 분석
 – 기획자와 비즈니스에서 바로 의사 결정 가능


때로 콘트롤 타워가 진입 장벽과 아이디어 고갈을 가져온다!
 – 기술에 따라 어떤 접근을 할지 선택이 중요
개발자에게 서버 한대씩!
Lessons for Big Data
 기술 내재화가 중요 (No Vendors!)
 – 개발자들이 직접 Hadoop을 활용할 수 있는 환경 필요
 – 오픈 소스의 적극 활용 및 개발 잉여력 제공


 데이터 분석 및 처리의 역할 파괴 (No Data Scientist!)
 – 개발자들이 직접 실시간 분석을 위한 Hive 활용
 – 문서, 이미지 등 다양한 형태의 데이터 처리를 위한 토대 마련


 Small Data를 활용 강화 (No Big Mistakes!)
 – Small Data라도 실시간으로 저렴하게 데이터를 처리하고,
 – 처리된 데이터를 더 빠르고 쉽게 분석하도록 하여,
 – 이를 비즈니스 의사결정에 바로 이용하는 것
 – 이것이 바로 BigData 기술을 바른 활용임!
경청해주셔서
         Q&A @channyun
감사합니다!

More Related Content

What's hot

DeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun Kim
DeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun KimDeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun Kim
DeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun KimGruter
 
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개Gruter
 
Big Data Overview
Big Data OverviewBig Data Overview
Big Data OverviewKeeyong Han
 
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: SNS 서비스 아키텍쳐 구축 사례
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: SNS 서비스 아키텍쳐 구축 사례GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: SNS 서비스 아키텍쳐 구축 사례
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: SNS 서비스 아키텍쳐 구축 사례Gruter
 
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 인터넷 쇼핑몰의 실시간 분석 플랫폼 구축 사례
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 인터넷 쇼핑몰의 실시간 분석 플랫폼 구축 사례GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 인터넷 쇼핑몰의 실시간 분석 플랫폼 구축 사례
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 인터넷 쇼핑몰의 실시간 분석 플랫폼 구축 사례Gruter
 
[경북] I'mcloud information
[경북] I'mcloud information[경북] I'mcloud information
[경북] I'mcloud informationstartupkorea
 
Introduction to Hadoop, Big Data, Training, Use Cases
Introduction to Hadoop, Big Data, Training, Use CasesIntroduction to Hadoop, Big Data, Training, Use Cases
Introduction to Hadoop, Big Data, Training, Use CasesJongwook Woo
 
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 보안 로그 분석을 위한 빅데이터 시스템 구축 사례
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 보안 로그 분석을 위한 빅데이터 시스템 구축 사례GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 보안 로그 분석을 위한 빅데이터 시스템 구축 사례
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 보안 로그 분석을 위한 빅데이터 시스템 구축 사례Gruter
 
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 온라인 컨텐츠 서비스를 위한 빅데이터 구축 사례
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 온라인 컨텐츠 서비스를 위한 빅데이터 구축 사례GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 온라인 컨텐츠 서비스를 위한 빅데이터 구축 사례
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 온라인 컨텐츠 서비스를 위한 빅데이터 구축 사례Gruter
 
3 빅데이터기반비정형데이터의실시간처리방법 원종석
3 빅데이터기반비정형데이터의실시간처리방법 원종석3 빅데이터기반비정형데이터의실시간처리방법 원종석
3 빅데이터기반비정형데이터의실시간처리방법 원종석Saltlux Inc.
 
234 deview2013 김형준
234 deview2013 김형준234 deview2013 김형준
234 deview2013 김형준NAVER D2
 
Big data infra core technology 빅데이터 전문인력-양성사업_분석과정-특강
Big data infra core technology 빅데이터 전문인력-양성사업_분석과정-특강Big data infra core technology 빅데이터 전문인력-양성사업_분석과정-특강
Big data infra core technology 빅데이터 전문인력-양성사업_분석과정-특강Donghan Kim
 
빅데이터 플랫폼 새로운 미래
빅데이터 플랫폼 새로운 미래빅데이터 플랫폼 새로운 미래
빅데이터 플랫폼 새로운 미래Wooseung Kim
 
서울 하둡 사용자 모임 발표자료
서울 하둡 사용자 모임 발표자료서울 하둡 사용자 모임 발표자료
서울 하둡 사용자 모임 발표자료Teddy Choi
 
Pag 빅데이터-한국에도필요한가
Pag 빅데이터-한국에도필요한가Pag 빅데이터-한국에도필요한가
Pag 빅데이터-한국에도필요한가Wooseung Kim
 
[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안
[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안
[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안치완 박
 
빅데이터 기본개념
빅데이터 기본개념빅데이터 기본개념
빅데이터 기본개념현주 유
 
하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop
하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop
하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for HadoopSeungYong Baek
 
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Bioinformatics Data를 위한 Hadoop기반...
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Bioinformatics Data를 위한 Hadoop기반...GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Bioinformatics Data를 위한 Hadoop기반...
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Bioinformatics Data를 위한 Hadoop기반...Gruter
 
Expanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with TajoExpanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with TajoMatthew (정재화)
 

What's hot (20)

DeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun Kim
DeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun KimDeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun Kim
DeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun Kim
 
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개
201210 그루터 빅데이터_플랫폼_아키텍쳐_및_솔루션_소개
 
Big Data Overview
Big Data OverviewBig Data Overview
Big Data Overview
 
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: SNS 서비스 아키텍쳐 구축 사례
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: SNS 서비스 아키텍쳐 구축 사례GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: SNS 서비스 아키텍쳐 구축 사례
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: SNS 서비스 아키텍쳐 구축 사례
 
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 인터넷 쇼핑몰의 실시간 분석 플랫폼 구축 사례
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 인터넷 쇼핑몰의 실시간 분석 플랫폼 구축 사례GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 인터넷 쇼핑몰의 실시간 분석 플랫폼 구축 사례
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 인터넷 쇼핑몰의 실시간 분석 플랫폼 구축 사례
 
[경북] I'mcloud information
[경북] I'mcloud information[경북] I'mcloud information
[경북] I'mcloud information
 
Introduction to Hadoop, Big Data, Training, Use Cases
Introduction to Hadoop, Big Data, Training, Use CasesIntroduction to Hadoop, Big Data, Training, Use Cases
Introduction to Hadoop, Big Data, Training, Use Cases
 
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 보안 로그 분석을 위한 빅데이터 시스템 구축 사례
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 보안 로그 분석을 위한 빅데이터 시스템 구축 사례GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 보안 로그 분석을 위한 빅데이터 시스템 구축 사례
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 보안 로그 분석을 위한 빅데이터 시스템 구축 사례
 
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 온라인 컨텐츠 서비스를 위한 빅데이터 구축 사례
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 온라인 컨텐츠 서비스를 위한 빅데이터 구축 사례GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 온라인 컨텐츠 서비스를 위한 빅데이터 구축 사례
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 온라인 컨텐츠 서비스를 위한 빅데이터 구축 사례
 
3 빅데이터기반비정형데이터의실시간처리방법 원종석
3 빅데이터기반비정형데이터의실시간처리방법 원종석3 빅데이터기반비정형데이터의실시간처리방법 원종석
3 빅데이터기반비정형데이터의실시간처리방법 원종석
 
234 deview2013 김형준
234 deview2013 김형준234 deview2013 김형준
234 deview2013 김형준
 
Big data infra core technology 빅데이터 전문인력-양성사업_분석과정-특강
Big data infra core technology 빅데이터 전문인력-양성사업_분석과정-특강Big data infra core technology 빅데이터 전문인력-양성사업_분석과정-특강
Big data infra core technology 빅데이터 전문인력-양성사업_분석과정-특강
 
빅데이터 플랫폼 새로운 미래
빅데이터 플랫폼 새로운 미래빅데이터 플랫폼 새로운 미래
빅데이터 플랫폼 새로운 미래
 
서울 하둡 사용자 모임 발표자료
서울 하둡 사용자 모임 발표자료서울 하둡 사용자 모임 발표자료
서울 하둡 사용자 모임 발표자료
 
Pag 빅데이터-한국에도필요한가
Pag 빅데이터-한국에도필요한가Pag 빅데이터-한국에도필요한가
Pag 빅데이터-한국에도필요한가
 
[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안
[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안
[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안
 
빅데이터 기본개념
빅데이터 기본개념빅데이터 기본개념
빅데이터 기본개념
 
하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop
하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop
하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop
 
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Bioinformatics Data를 위한 Hadoop기반...
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Bioinformatics Data를 위한 Hadoop기반...GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Bioinformatics Data를 위한 Hadoop기반...
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Bioinformatics Data를 위한 Hadoop기반...
 
Expanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with TajoExpanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with Tajo
 

Similar to Daum내부 Hadoop 활용 사례 | Devon 2012

Daum 내부 빅데이터 및 클라우드 기술 활용 사례- 윤석찬 (2012)
Daum 내부 빅데이터 및 클라우드 기술 활용 사례- 윤석찬 (2012)Daum 내부 빅데이터 및 클라우드 기술 활용 사례- 윤석찬 (2012)
Daum 내부 빅데이터 및 클라우드 기술 활용 사례- 윤석찬 (2012)Channy Yun
 
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)Channy Yun
 
클라우드 기반의 시맨틱 웹 검색 서비스 사례 (플랫폼데이 2010)
클라우드 기반의 시맨틱 웹 검색 서비스 사례 (플랫폼데이 2010)클라우드 기반의 시맨틱 웹 검색 서비스 사례 (플랫폼데이 2010)
클라우드 기반의 시맨틱 웹 검색 서비스 사례 (플랫폼데이 2010)Channy Yun
 
Linked Data 기반 데이터 검색 서비스의 현황과 과제 (KSWC2010)
Linked Data 기반 데이터 검색 서비스의 현황과 과제 (KSWC2010)Linked Data 기반 데이터 검색 서비스의 현황과 과제 (KSWC2010)
Linked Data 기반 데이터 검색 서비스의 현황과 과제 (KSWC2010)Channy Yun
 
Jco 소셜 빅데이터_20120218
Jco 소셜 빅데이터_20120218Jco 소셜 빅데이터_20120218
Jco 소셜 빅데이터_20120218Hyoungjun Kim
 
2013 빅데이터 및 API 기술 현황과 전망- 윤석찬
2013 빅데이터 및 API 기술 현황과 전망- 윤석찬2013 빅데이터 및 API 기술 현황과 전망- 윤석찬
2013 빅데이터 및 API 기술 현황과 전망- 윤석찬Channy Yun
 
데이터 레이크 알아보기(Learn about Data Lake)
데이터 레이크 알아보기(Learn about Data Lake)데이터 레이크 알아보기(Learn about Data Lake)
데이터 레이크 알아보기(Learn about Data Lake)SeungYong Baek
 
2012.04.11 미래사회와 빅 데이터(big data) 기술 nipa
2012.04.11 미래사회와 빅 데이터(big data) 기술 nipa2012.04.11 미래사회와 빅 데이터(big data) 기술 nipa
2012.04.11 미래사회와 빅 데이터(big data) 기술 nipa영진 박
 
Big data 20111203_배포판
Big data 20111203_배포판Big data 20111203_배포판
Big data 20111203_배포판Hyoungjun Kim
 
[E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략
[E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략[E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략
[E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략Amazon Web Services Korea
 
DB관점에서 본 빅데이터 (2019년 8월)
DB관점에서 본 빅데이터 (2019년 8월)DB관점에서 본 빅데이터 (2019년 8월)
DB관점에서 본 빅데이터 (2019년 8월)Kee Hoon Lee
 
고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장
고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장
고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장eungjin cho
 
클라우드 컴퓨팅과 Daum의 사례- 윤석찬 (KREN 연구 협력 포럼, 2013)
클라우드 컴퓨팅과 Daum의 사례- 윤석찬 (KREN 연구 협력 포럼, 2013) 클라우드 컴퓨팅과 Daum의 사례- 윤석찬 (KREN 연구 협력 포럼, 2013)
클라우드 컴퓨팅과 Daum의 사례- 윤석찬 (KREN 연구 협력 포럼, 2013) Channy Yun
 
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)Amazon Web Services Korea
 
AWS Summit Seoul 2015 - 게임 서비스 혁신을 위한 데이터 분석
AWS Summit Seoul 2015 - 게임 서비스 혁신을 위한 데이터 분석AWS Summit Seoul 2015 - 게임 서비스 혁신을 위한 데이터 분석
AWS Summit Seoul 2015 - 게임 서비스 혁신을 위한 데이터 분석Amazon Web Services Korea
 
Apache spark 소개 및 실습
Apache spark 소개 및 실습Apache spark 소개 및 실습
Apache spark 소개 및 실습동현 강
 
AWS 기반 데이터 레이크(Datalake) 구축 및 분석 - 김민성 (AWS 솔루션즈아키텍트) : 8월 온라인 세미나
AWS 기반 데이터 레이크(Datalake) 구축 및 분석 - 김민성 (AWS 솔루션즈아키텍트) : 8월 온라인 세미나AWS 기반 데이터 레이크(Datalake) 구축 및 분석 - 김민성 (AWS 솔루션즈아키텍트) : 8월 온라인 세미나
AWS 기반 데이터 레이크(Datalake) 구축 및 분석 - 김민성 (AWS 솔루션즈아키텍트) : 8월 온라인 세미나Amazon Web Services Korea
 
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원datasciencekorea
 
Cloud 기반 Big Data 분석 엔진 서비스
Cloud 기반 Big Data 분석 엔진 서비스Cloud 기반 Big Data 분석 엔진 서비스
Cloud 기반 Big Data 분석 엔진 서비스Jayoung Lim
 
Introduction to ankus(data mining and machine learning open source)
Introduction to ankus(data mining and machine learning open source)Introduction to ankus(data mining and machine learning open source)
Introduction to ankus(data mining and machine learning open source)SuHyun Jeon
 

Similar to Daum내부 Hadoop 활용 사례 | Devon 2012 (20)

Daum 내부 빅데이터 및 클라우드 기술 활용 사례- 윤석찬 (2012)
Daum 내부 빅데이터 및 클라우드 기술 활용 사례- 윤석찬 (2012)Daum 내부 빅데이터 및 클라우드 기술 활용 사례- 윤석찬 (2012)
Daum 내부 빅데이터 및 클라우드 기술 활용 사례- 윤석찬 (2012)
 
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
 
클라우드 기반의 시맨틱 웹 검색 서비스 사례 (플랫폼데이 2010)
클라우드 기반의 시맨틱 웹 검색 서비스 사례 (플랫폼데이 2010)클라우드 기반의 시맨틱 웹 검색 서비스 사례 (플랫폼데이 2010)
클라우드 기반의 시맨틱 웹 검색 서비스 사례 (플랫폼데이 2010)
 
Linked Data 기반 데이터 검색 서비스의 현황과 과제 (KSWC2010)
Linked Data 기반 데이터 검색 서비스의 현황과 과제 (KSWC2010)Linked Data 기반 데이터 검색 서비스의 현황과 과제 (KSWC2010)
Linked Data 기반 데이터 검색 서비스의 현황과 과제 (KSWC2010)
 
Jco 소셜 빅데이터_20120218
Jco 소셜 빅데이터_20120218Jco 소셜 빅데이터_20120218
Jco 소셜 빅데이터_20120218
 
2013 빅데이터 및 API 기술 현황과 전망- 윤석찬
2013 빅데이터 및 API 기술 현황과 전망- 윤석찬2013 빅데이터 및 API 기술 현황과 전망- 윤석찬
2013 빅데이터 및 API 기술 현황과 전망- 윤석찬
 
데이터 레이크 알아보기(Learn about Data Lake)
데이터 레이크 알아보기(Learn about Data Lake)데이터 레이크 알아보기(Learn about Data Lake)
데이터 레이크 알아보기(Learn about Data Lake)
 
2012.04.11 미래사회와 빅 데이터(big data) 기술 nipa
2012.04.11 미래사회와 빅 데이터(big data) 기술 nipa2012.04.11 미래사회와 빅 데이터(big data) 기술 nipa
2012.04.11 미래사회와 빅 데이터(big data) 기술 nipa
 
Big data 20111203_배포판
Big data 20111203_배포판Big data 20111203_배포판
Big data 20111203_배포판
 
[E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략
[E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략[E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략
[E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략
 
DB관점에서 본 빅데이터 (2019년 8월)
DB관점에서 본 빅데이터 (2019년 8월)DB관점에서 본 빅데이터 (2019년 8월)
DB관점에서 본 빅데이터 (2019년 8월)
 
고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장
고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장
고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장
 
클라우드 컴퓨팅과 Daum의 사례- 윤석찬 (KREN 연구 협력 포럼, 2013)
클라우드 컴퓨팅과 Daum의 사례- 윤석찬 (KREN 연구 협력 포럼, 2013) 클라우드 컴퓨팅과 Daum의 사례- 윤석찬 (KREN 연구 협력 포럼, 2013)
클라우드 컴퓨팅과 Daum의 사례- 윤석찬 (KREN 연구 협력 포럼, 2013)
 
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
 
AWS Summit Seoul 2015 - 게임 서비스 혁신을 위한 데이터 분석
AWS Summit Seoul 2015 - 게임 서비스 혁신을 위한 데이터 분석AWS Summit Seoul 2015 - 게임 서비스 혁신을 위한 데이터 분석
AWS Summit Seoul 2015 - 게임 서비스 혁신을 위한 데이터 분석
 
Apache spark 소개 및 실습
Apache spark 소개 및 실습Apache spark 소개 및 실습
Apache spark 소개 및 실습
 
AWS 기반 데이터 레이크(Datalake) 구축 및 분석 - 김민성 (AWS 솔루션즈아키텍트) : 8월 온라인 세미나
AWS 기반 데이터 레이크(Datalake) 구축 및 분석 - 김민성 (AWS 솔루션즈아키텍트) : 8월 온라인 세미나AWS 기반 데이터 레이크(Datalake) 구축 및 분석 - 김민성 (AWS 솔루션즈아키텍트) : 8월 온라인 세미나
AWS 기반 데이터 레이크(Datalake) 구축 및 분석 - 김민성 (AWS 솔루션즈아키텍트) : 8월 온라인 세미나
 
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원
 
Cloud 기반 Big Data 분석 엔진 서비스
Cloud 기반 Big Data 분석 엔진 서비스Cloud 기반 Big Data 분석 엔진 서비스
Cloud 기반 Big Data 분석 엔진 서비스
 
Introduction to ankus(data mining and machine learning open source)
Introduction to ankus(data mining and machine learning open source)Introduction to ankus(data mining and machine learning open source)
Introduction to ankus(data mining and machine learning open source)
 

More from Daum DNA

Daum의 개방형 기술 전략 및 자바 기술 로드맵(2007)
Daum의 개방형 기술 전략 및 자바 기술 로드맵(2007)Daum의 개방형 기술 전략 및 자바 기술 로드맵(2007)
Daum의 개방형 기술 전략 및 자바 기술 로드맵(2007)Daum DNA
 
Daum OAuth 2.0
Daum OAuth 2.0Daum OAuth 2.0
Daum OAuth 2.0Daum DNA
 
Daum 음성인식 API (김한샘)
Daum 음성인식 API (김한샘)Daum 음성인식 API (김한샘)
Daum 음성인식 API (김한샘)Daum DNA
 
Daum 검색/지도 API (이정주)
Daum 검색/지도 API (이정주)Daum 검색/지도 API (이정주)
Daum 검색/지도 API (이정주)Daum DNA
 
오픈 API 활용방법(Daum 사례 중심, 윤석찬)
오픈 API 활용방법(Daum 사례 중심, 윤석찬)오픈 API 활용방법(Daum 사례 중심, 윤석찬)
오픈 API 활용방법(Daum 사례 중심, 윤석찬)Daum DNA
 
Daum 티스토리 API (천정환)
Daum 티스토리 API (천정환)Daum 티스토리 API (천정환)
Daum 티스토리 API (천정환)Daum DNA
 
Daum 로그인 API (함태윤)
Daum 로그인 API (함태윤)Daum 로그인 API (함태윤)
Daum 로그인 API (함태윤)Daum DNA
 
FT직군의 현재와 미래 - 홍윤표
FT직군의 현재와 미래 - 홍윤표FT직군의 현재와 미래 - 홍윤표
FT직군의 현재와 미래 - 홍윤표Daum DNA
 
웹접근성과 장애인 차별 금지법 - 장성민
웹접근성과 장애인 차별 금지법 - 장성민웹접근성과 장애인 차별 금지법 - 장성민
웹접근성과 장애인 차별 금지법 - 장성민Daum DNA
 
반응형 웹 디자인은 만능인가? - 신현석
반응형 웹 디자인은 만능인가? - 신현석반응형 웹 디자인은 만능인가? - 신현석
반응형 웹 디자인은 만능인가? - 신현석Daum DNA
 
Daum devday 13 [bap]
Daum devday 13  [bap]Daum devday 13  [bap]
Daum devday 13 [bap]Daum DNA
 
Daum DevDay 13-힐링이 필요해
Daum DevDay 13-힐링이 필요해Daum DevDay 13-힐링이 필요해
Daum DevDay 13-힐링이 필요해Daum DNA
 
Daum DevDay 13 - 마음의 소리
Daum DevDay 13 - 마음의 소리Daum DevDay 13 - 마음의 소리
Daum DevDay 13 - 마음의 소리Daum DNA
 
Daum DevDay 13 - OpenBrace
Daum DevDay 13 - OpenBraceDaum DevDay 13 - OpenBrace
Daum DevDay 13 - OpenBraceDaum DNA
 
Daum DevDay 13 - Ogangjang
Daum DevDay 13 - OgangjangDaum DevDay 13 - Ogangjang
Daum DevDay 13 - OgangjangDaum DNA
 
Daum DevDay 13 - Mook
Daum DevDay 13 - MookDaum DevDay 13 - Mook
Daum DevDay 13 - MookDaum DNA
 
Daum DevDay 13 - Moonlight
Daum DevDay 13 - MoonlightDaum DevDay 13 - Moonlight
Daum DevDay 13 - MoonlightDaum DNA
 
Daum DevDay 13 - In-N-Out
Daum DevDay 13 - In-N-OutDaum DevDay 13 - In-N-Out
Daum DevDay 13 - In-N-OutDaum DNA
 
Daum DevDay 13 - i-DF
Daum DevDay 13 - i-DFDaum DevDay 13 - i-DF
Daum DevDay 13 - i-DFDaum DNA
 
Daum 키노트 | Devon 2012
Daum 키노트 | Devon 2012Daum 키노트 | Devon 2012
Daum 키노트 | Devon 2012Daum DNA
 

More from Daum DNA (20)

Daum의 개방형 기술 전략 및 자바 기술 로드맵(2007)
Daum의 개방형 기술 전략 및 자바 기술 로드맵(2007)Daum의 개방형 기술 전략 및 자바 기술 로드맵(2007)
Daum의 개방형 기술 전략 및 자바 기술 로드맵(2007)
 
Daum OAuth 2.0
Daum OAuth 2.0Daum OAuth 2.0
Daum OAuth 2.0
 
Daum 음성인식 API (김한샘)
Daum 음성인식 API (김한샘)Daum 음성인식 API (김한샘)
Daum 음성인식 API (김한샘)
 
Daum 검색/지도 API (이정주)
Daum 검색/지도 API (이정주)Daum 검색/지도 API (이정주)
Daum 검색/지도 API (이정주)
 
오픈 API 활용방법(Daum 사례 중심, 윤석찬)
오픈 API 활용방법(Daum 사례 중심, 윤석찬)오픈 API 활용방법(Daum 사례 중심, 윤석찬)
오픈 API 활용방법(Daum 사례 중심, 윤석찬)
 
Daum 티스토리 API (천정환)
Daum 티스토리 API (천정환)Daum 티스토리 API (천정환)
Daum 티스토리 API (천정환)
 
Daum 로그인 API (함태윤)
Daum 로그인 API (함태윤)Daum 로그인 API (함태윤)
Daum 로그인 API (함태윤)
 
FT직군의 현재와 미래 - 홍윤표
FT직군의 현재와 미래 - 홍윤표FT직군의 현재와 미래 - 홍윤표
FT직군의 현재와 미래 - 홍윤표
 
웹접근성과 장애인 차별 금지법 - 장성민
웹접근성과 장애인 차별 금지법 - 장성민웹접근성과 장애인 차별 금지법 - 장성민
웹접근성과 장애인 차별 금지법 - 장성민
 
반응형 웹 디자인은 만능인가? - 신현석
반응형 웹 디자인은 만능인가? - 신현석반응형 웹 디자인은 만능인가? - 신현석
반응형 웹 디자인은 만능인가? - 신현석
 
Daum devday 13 [bap]
Daum devday 13  [bap]Daum devday 13  [bap]
Daum devday 13 [bap]
 
Daum DevDay 13-힐링이 필요해
Daum DevDay 13-힐링이 필요해Daum DevDay 13-힐링이 필요해
Daum DevDay 13-힐링이 필요해
 
Daum DevDay 13 - 마음의 소리
Daum DevDay 13 - 마음의 소리Daum DevDay 13 - 마음의 소리
Daum DevDay 13 - 마음의 소리
 
Daum DevDay 13 - OpenBrace
Daum DevDay 13 - OpenBraceDaum DevDay 13 - OpenBrace
Daum DevDay 13 - OpenBrace
 
Daum DevDay 13 - Ogangjang
Daum DevDay 13 - OgangjangDaum DevDay 13 - Ogangjang
Daum DevDay 13 - Ogangjang
 
Daum DevDay 13 - Mook
Daum DevDay 13 - MookDaum DevDay 13 - Mook
Daum DevDay 13 - Mook
 
Daum DevDay 13 - Moonlight
Daum DevDay 13 - MoonlightDaum DevDay 13 - Moonlight
Daum DevDay 13 - Moonlight
 
Daum DevDay 13 - In-N-Out
Daum DevDay 13 - In-N-OutDaum DevDay 13 - In-N-Out
Daum DevDay 13 - In-N-Out
 
Daum DevDay 13 - i-DF
Daum DevDay 13 - i-DFDaum DevDay 13 - i-DF
Daum DevDay 13 - i-DF
 
Daum 키노트 | Devon 2012
Daum 키노트 | Devon 2012Daum 키노트 | Devon 2012
Daum 키노트 | Devon 2012
 

Daum내부 Hadoop 활용 사례 | Devon 2012

  • 1. Daum내부 Hadoop 활용 사례 DevOn 2012 Channy Yun Daum Communications Corp. channy@daumcorp.com
  • 2. Space.1 Daum in Jeju Global Media Center Net Intelligence Lab 2004 2006 2012
  • 3. Data in Daum per User 2004 2006 2012
  • 4.
  • 5.
  • 6.
  • 7.
  • 8.
  • 9. Numbers in Daum Search Query 1,017,410,000 Unique Visitor(UV) 19,473,803 Top Page View(PV) 2,074,688,580 Top Page UV 23,121,882 Daum.net PV 13,745,663,643 Per Month. KoreanClick (2012.3)
  • 10. A role of Big data © @mdennis, datastax
  • 11. NoSQL 기술의 이점 Update Heavy job Real-time incremental Update http://research.yahoo.com/Web_Information_Management/YCSB
  • 12. New Buzz 웹 2.0 비교 빅 데이터 1990년대 시기 2010년대 X86급 서버 장비 중형급 상용 유닉스 잠식 시장 DW Redhat 대표 회사 Cloudera 리눅스 토발즈 대표 영웅 더그 커팅 Linux 소프트웨어 Hadoop 인터넷 포털 혁신 주체 소셜네트워크 웹 스타트업 모바일 저렴한 웹서버 구축 변화 요인 저렴한 데이터 분석 http://channy.creation.net/blog/882 © Channy’s Blog
  • 16. Hadoop Platform : Today ©
  • 18. 도대체 국내에 빅 데이터가 있기나 한가요? 우리는 도대체 왜 해야 하나요?
  • 20. © @mdennis, datastax
  • 21. Daum의 Hadoop 이용 사례 • 로그 분석 사례 – 전사 로그를 통한 통계 분석 – 광고 및 클릭 로그 분석을 통한 타켓팅 – 카페 로그 분석을 통한 사용자 카페 추천 – 검색 품질 랭킹 분석 및 개선 – 게임 서버 로그 분석 등 • 데이터 분석 사례 – 다음 Top 토픽 분석 및 추천 서비스 – UCC 문서의 스팸 유저 필터링 – 사물 검색 이미지 역색인 – 자연어 처리 텍스트 분석 – 모바일 광고 데이터별 매체 분석 등 • 연구 개발 사례 – SemSearch: 대용량 시맨틱 웹 검색 엔진 개발 – VisualRank: 이미지 유사성 매칭 분석
  • 23. (1) 전사 로그 분석 access.log 전사 서버 로그 수집 24시간 이후 분석 결과 제공
  • 24. before 2009 수집 분석 서비스
  • 25. After Hadoop 수집 분석 서비스
  • 26.
  • 27. Tiara 시스템 Daum 서비스 내 발생하는 모든 트래픽을 수 집하여 분석 및 리포팅 – 주요 분석 데이터: Pageview, Clickstream, User Analysis 데이터 처리 스택 – Hadoop: 데이터 전처리 – Hive: SQL 기반 데이터 분석 – Pentaho Kettle (ETL): 데이터 저장 – Greenplum: 병렬 데이터베이스 기존방식에 비해 데이터 처리 속도 향상 및 데 이터 적재기간 증가
  • 28. Hadoop 도입 전 Hadoop 도입 후 고객 분석 일 로그 분석 10분 단위 분석 가능 작년 6월 1일부터 로그 적재 중 주 분석은 10분, 월 분석은 20분 내외 소요
  • 29. selelct serviceId, count(distinct uuid) from web_log where dt='20120101' and hr='10' and mi= ‘10' group by serviceId, mi
  • 30. (2) 광고 로그 분석 시스템 광고 로그 및 통계 처리, 매체 토픽 분류 및 과거 로그 데이터를 기반으로 광고 집행 타켓팅 분석 • input: 과거 집행(노출, 클릭) 로그 데이터 ( 필요에 따라 일, 주, 월 단위 로그 사용) • output 광고에 대한 사용자별 노출 내역 통계 처리 10분에서, 시간당, 일 단위로 다양한 데이터 산출하여 타게팅 광고 효과 향 상
  • 32. (1) 다음 Top 토픽 분석 Top 화면에 제공할 콘텐츠의 토픽 분석 Hadoop 기반의 머신러닝 도구인 mahout 이용
  • 33. (2) UCC 문서 스팸 필터링 문서 내부 단어 및 사용자 프로필을 기반한 스팸 필터링 Document Set Document Feature Map Reduce Extraction (User ID, Doc Features) (User ID, Doc Features List) Filtering with Map Reduce User Profile (User ID, User Profiles) (User ID, User Profiles) + + Spam Users Data Node Spam User Job Tracker DB + 2nd Name Node Data Node Data Node Document Name Node DB Data Node • 처리 성능 : 일 평균 600만개 문서 • 최소 10~5000여 개의 문서를 스팸 등록한 50만개 아이디 찾음
  • 34. (3) 사물 검색 데이터 색인 대용량의 이미지 데이터를 최소한의 시간으 로 분석하여 역 색인과 검색에 필요한 데이터 를 추출 사물검색 대상 이미지의 특징을 분석할 수 있 는 시스템 구축 – 책/음악 앨범/영화 포스터 등 약 150만개 – 각 이미지에서 특징점 추출(260GB) – 빠르고 안정적인 데이터 분석, 역 색인 데이터 생성 기존 방식 보다 1/10 정도 시간 단축
  • 36. 대용량 시맨틱 웹 검색 엔진 구분 2009 2010 2011 RDF Crawler 프로토타입 구 고성능 RDF Crawler 문서 수집 - 현 구현 대상 문서 KBS 음악 DB+MusicBrainz Daum 영화/음악/인물 DB 의학 LinkedData (내부 텍스트 DB+LinkedData) (내부 RDB) (PubMed 등 28개 레포지터리) 처리 수량 (RDF Triples) 1억건 5억건 96억건 Map/Reduce Map/Reduce Map/Reduce 전처리 방법 (Triples 변환, SPARQL (Triples 변환, 자동링크 생성, (Triples 변환) AnswerSet) Solr Index 생성) 검색 인덱스 RDF Repository (Jena) 유사 RDF Repo. Solr RDF Index (SPARQL SubQuery 전처리) 음악 RDF 서비스 Daum 의미 검색 Daum 의학 전문 검색 서비스 데모 http://labs.daum.net/semantic http://labs.daum.net/medical
  • 37. –Map/Reduce –Map/Reduce –Se3 Keywords –Se3 Indexer –Se3 Statistics Internet –Search Service –Shard Master –Shard Slave Daum Cloud iCube  관계 질의 기반 검색 UI 개발  대용량 RDF 생성 - 특정 분야별 추천 키워드 제공 - 고성능 RDF 크롤러 구현 - 문서 저장소에서 RDF 뷰어 제공 - Hadoop Map/Reduce 기반 데이터 전처리 - 건강 DB와 연계 - 96억 트리플 기반 검색 인덱스
  • 38. Daum의 빅데이터 기술 전략 사내 기술 코디네이션 – 각 개발자가 Hadoop을 다양하게 활용할 아이디어 개발 및 실험 실행 – Hadoop을 테스트 해 볼 수 있는 클라우드 플랫폼 제공 – 실 서비스 투입 시 기존 운영팀으로 부터 노하우 전수 • 사내 세미나 및 교육 프로그램 운영 • Hadoop Expert를 중심으로 필요 시 노하우 제공 개발자 데이터 접근성 향상 – 데이터 분석가가 아닌 개발자가 직접 데이터에 접근 – 데이터가 있는 곳에서 바로 분석 – 기획자와 비즈니스에서 바로 의사 결정 가능 때로 콘트롤 타워가 진입 장벽과 아이디어 고갈을 가져온다! – 기술에 따라 어떤 접근을 할지 선택이 중요
  • 40. Lessons for Big Data 기술 내재화가 중요 (No Vendors!) – 개발자들이 직접 Hadoop을 활용할 수 있는 환경 필요 – 오픈 소스의 적극 활용 및 개발 잉여력 제공 데이터 분석 및 처리의 역할 파괴 (No Data Scientist!) – 개발자들이 직접 실시간 분석을 위한 Hive 활용 – 문서, 이미지 등 다양한 형태의 데이터 처리를 위한 토대 마련 Small Data를 활용 강화 (No Big Mistakes!) – Small Data라도 실시간으로 저렴하게 데이터를 처리하고, – 처리된 데이터를 더 빠르고 쉽게 분석하도록 하여, – 이를 비즈니스 의사결정에 바로 이용하는 것 – 이것이 바로 BigData 기술을 바른 활용임!
  • 41. 경청해주셔서 Q&A @channyun 감사합니다!