SlideShare a Scribd company logo
줌인터넷(주)
빅데이터 활용사례

       김우승
소개

}   줌인터넷(주) 연구소장
}   이력
    }   줌인터넷
    }   SK 플래닛
    }   SK 텔레콤
    }   삼성전자


}   http://kimws.wordpress.com
}   @kimws
회사 소개 : zum.com

}검색 포털 회사
검색 회사(검색 서비스)가 하는 일 …


                                                                             Serving

                                                                                        Real-time


                                                                            Analyzing



                                                                                         Batch
                                            Crawler

                                                 Parsing                    Crawling
                                                                Analyzing
                                            storage

출처: http://www.ibm.com/developerworks/web/library/wa-lucene2/
Crawl
문서를 크롤하면 (> 10억건)

 메타데이터 저장              Structured Data


 HTML 저장               Semi-structured Data


 제목, 본문 추출             Unstructured Data

 이미지 추출
     썸네일 생성            Multimedia Data

     원본 이미지 저장


 Crawler 시스템은 분산 처리를 하기 위해서 MapReduce + Downloader 등으로 구현
Analyzer
- 분석 데이터의 종류와 범위에 따라서 다양한 주기로 설정된 스케줄로 프로세스들이 실행
- 프로세스의 우선 순위에 따라 Pig & MR Job에 우선순위와 리소스를 상이하게 할당




 }   중복 문서 제거                      (Pig + UDF ) + Python + Shell
 }   스팸 문서
 }   성인 필터링
 }   검색 랭킹 계산
 }   문서 클러스터링
 }   수십여가지 분석프로세                   Java Map-Reduce program
     스

          Hadoop & Hbase 는 Legacy System !
Service
}   Daily 수천만 PV 이상을 처리하기 위해서 …
                                       LVS
    Web & Application & DB Clustering 필수

                        Tomcat
    각 Layer 별로 Caching System 적용
                              Squid
                  Memcached

    인덱싱 & 검색 처리

                                             수십/수백대로 구성된 서버팜
시스템 장애 감지와 통합 모니터링 시스템 역시 필수
                                               100% Linux Server
오픈 소스 및 자체 개발 시스템을 통합해서 활용
장애 대응을 위한 HA 구성
그 밖에 오픈소스들




   서비스와 데이터 요구사항에 맞게 코어가 되는
 검색엔진, 미디어 서버, KeyValue 시스템등을 자체 개발
ZUM Data Platform
}   로그 수집 체계
    } 로그 포맷 표준화
    } 중앙 데이터 저장소 구축
    } 로그 데이터 수집 프레임워크 개발 (Flume-ng, Fluentd)
        }   Access log
        }   ZUM service log
        }   Application log
}   분석시스템 개발
    }   Hive 가 메인 도구
    }   Pig 는 Hive Table 을 생성하는 전처리(ETL) 용 스크립트
    }   Job Scheduler
Log Analysis
 }   각종 Service Log              JSON

                                                 Pig

 }   Server Access Log          Apache
                                Log Format


 }   Application Log             Log4J


                  개발자들이 Apache Pig Script 로 분석


             기획자들이 직접 데이터 통계나 분석을 할려면?
Log Data Flow Diagram

                                           estat                                                                                                   인기검색어,Suggest, …
                                                                                                                                                                                              Relay DB

                                                      zum log                               zum log

                 zum log                                                                                                                           Term weight, URLs for crawler, …
                                         Stats(2대)                                          ----                                  서비스분석
   웹브라우저                                                        es-admin                                                           ES-LOG                                                      Krystal
                                           (ATS)                                                                                  클러스터
                                              SAMBA

                 zum log                                                                                                                                         FTP                            통계
    검색로그                                                                                                                                                         서버                            Admin
                                                       NAS


                               zum log
                 Log4j log                                                                                                                    MIDAS                                          CTR피드백
   서비스 로그
                                                                                                                                                                                              시스템




                                                                                                      altoolba log(1/10 분량만)
                                                                                    altoolba log
                                                                     altoolba log
                                         노출/클릭                                                                                                통계용
                                                                                                                                               ES-LOG
                                                                                                                                              클러스터
   광고플랫폼                                 로그수집
                                                                                                                                                                                             광고플랫폼
                                          서버

                                     Get/Redirect
      쇼핑
                                                                                                                                                               개발
                                                                                                                                   em-admin                   ES-LOG
                                                                                                                                                             클러스터
      뉴스

                                                                                                                                  로그수
                 -------                                                                                                                         수집                 FTP
     툴바                                  안티피싱                    URL                                                                집           DAUM용
                                          안티피싱                                                                                                  클러스터                서버
    안티피싱                                  서버                    수집서버                                                              admin         클러스터
                                           서버

                                                                                                                               Other IDC

       ???                                 미정

                                                                                                                                  http                  DFSClinet API                 unknown/undetermined
                  access log
                                                                                                                                  ftp                   samba              미개발              Hadoop
   ALL Servers                             미정
                                                                                                                                  rsync/scp             DB I/F
통계 지표 관리
}   고정 지표
    }   상시 분석해서 결과를 파악해야 하는 지표
    }   공통 지표 정의
    }   서비스별 지표 정의                 자동화의 대상
    }   배치성 지표
    }   실시간성 지표



}   유동 지표
    }   서비스별로 필요한 경우에 따라서 파악할 지표   Ad-hoc 업무
    }   중요도에 따라 고정지표로 전환


             데이터 분석 업무가 기존 개발자에서
        기획자, 데이터 분석가의 손에서 다루어질 수 있도록
ZUM Data Platform
               Log
 Service 1
              Agent
                                                           시스템엔지니어는 로그용량을 고려하여 설정이 된 에이전트 설치


                                                                Avro
   ……          Log                                              adapter       Real-time Analyzer
                                          Flume-NG
              Agent                                                                (ESPER)

                                                                                                       개발자는 Pig등을 이용해서
                                                                                                       Raw Data를 Hive Data 등으로 변환
 Service N     Log
              Agent                                   Web Browser                                      R
                                                                                                       Excel
                                                          Hive                Job         Data         Text File
                                                         Console           Scheduler     Viewer


                                                                              Data Repository (HDFS)    Reporting Server   Service 1
Service N+1    Log
              Agent
                      WebHDFS




                                                      변환                      분석                                           Service 2
                                                                   Hive                                    Historical
                                           Raw data                                    결과DB
                                                                   Table                                      DB
                                                                                                                            ……
    …          Log
              Agent
                                          fuse             fuse

                                Service               Service
                                Server           …    Server               Hive 는 Metadata 을 담고 있음
                                                                           SQL 은 개발자가 아닌 기획자들도 간편히 로직 구현 가능
분석 프로세스 개선
       데이터 추출 요청                    URL 추출 조건 확인 후 추출 요청
                                                                   Before




                      데이터분석담당                     개발자
 기획자                                          데이터 추출 결과 확인

                   데이터 전달                     1) 추출된 데이터 확인
                                              2) 추출 조건 수정하여 재 추출




        After
                                  데이터 추출 요청




                                                     데이터분석담당
                            기획자
                                                데이터 전달
마지막으로 요즘 드는 생각 …
    Apaceh Hadoop / HBase 가 이미 Legacy System 되어가고 있고
      결국 점점 복잡해지고, 무거워지고, 이해하기 힘들어지고 …
                     다른 이가 만든 기술에 대한 의존은 여전하고
                         때론 한계에 부딛히기도 하다


Don’t reinvent the wheel?       Core 에 대한 깊은 이해 없이
                            대충 이해하고 응용 어플리케이션 / 서비스 만
                                      들기도 바쁘다

                                     그래서?
                               직접 만들어 볼 필요도 있다!!!
Q&A
감사합니다

More Related Content

What's hot

[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안
[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안
[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안치완 박
 
빅데이터 기술 현황과 시장 전망(2014)
빅데이터 기술 현황과 시장 전망(2014)빅데이터 기술 현황과 시장 전망(2014)
빅데이터 기술 현황과 시장 전망(2014)
Channy Yun
 
2012 빅데이터 big data 발표자료
2012 빅데이터 big data 발표자료2012 빅데이터 big data 발표자료
2012 빅데이터 big data 발표자료
Wooseung Kim
 
Hadoop과 SQL-on-Hadoop (A short intro to Hadoop and SQL-on-Hadoop)
Hadoop과 SQL-on-Hadoop (A short intro to Hadoop and SQL-on-Hadoop)Hadoop과 SQL-on-Hadoop (A short intro to Hadoop and SQL-on-Hadoop)
Hadoop과 SQL-on-Hadoop (A short intro to Hadoop and SQL-on-Hadoop)
Matthew (정재화)
 
빅데이터, big data
빅데이터, big data빅데이터, big data
빅데이터, big data
H K Yoon
 
Apache hbase overview (20160427)
Apache hbase overview (20160427)Apache hbase overview (20160427)
Apache hbase overview (20160427)
Steve Min
 
Tajo and SQL-on-Hadoop in Tech Planet 2013
Tajo and SQL-on-Hadoop in Tech Planet 2013Tajo and SQL-on-Hadoop in Tech Planet 2013
Tajo and SQL-on-Hadoop in Tech Planet 2013
Gruter
 
Big Data Overview
Big Data OverviewBig Data Overview
Big Data Overview
Keeyong Han
 
Expanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with TajoExpanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with Tajo
Matthew (정재화)
 
Cloud dw benchmark using tpd-ds( Snowflake vs Redshift vs EMR Hive )
Cloud dw benchmark using tpd-ds( Snowflake vs Redshift vs EMR Hive )Cloud dw benchmark using tpd-ds( Snowflake vs Redshift vs EMR Hive )
Cloud dw benchmark using tpd-ds( Snowflake vs Redshift vs EMR Hive )
SANG WON PARK
 
Druid+superset
Druid+supersetDruid+superset
Druid+superset
Dongwoo Lee
 
하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop
하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop
하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop
SeungYong Baek
 
Spark_Overview_qna
Spark_Overview_qnaSpark_Overview_qna
Spark_Overview_qna현철 박
 
3 빅데이터기반비정형데이터의실시간처리방법 원종석
3 빅데이터기반비정형데이터의실시간처리방법 원종석3 빅데이터기반비정형데이터의실시간처리방법 원종석
3 빅데이터기반비정형데이터의실시간처리방법 원종석Saltlux Inc.
 
Hadoop 제주대
Hadoop 제주대Hadoop 제주대
Hadoop 제주대
DaeHeon Oh
 
Jco 소셜 빅데이터_20120218
Jco 소셜 빅데이터_20120218Jco 소셜 빅데이터_20120218
Jco 소셜 빅데이터_20120218
Hyoungjun Kim
 
Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사
Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사
Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사
uEngine Solutions
 
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Tajo와 SQL-on-Hadoop
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Tajo와 SQL-on-HadoopGRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Tajo와 SQL-on-Hadoop
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Tajo와 SQL-on-Hadoop
Gruter
 
OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)
OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)
OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)
SANG WON PARK
 
Tajo TPC-H Benchmark Test on AWS
Tajo TPC-H Benchmark Test on AWSTajo TPC-H Benchmark Test on AWS
Tajo TPC-H Benchmark Test on AWS
Gruter
 

What's hot (20)

[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안
[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안
[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안
 
빅데이터 기술 현황과 시장 전망(2014)
빅데이터 기술 현황과 시장 전망(2014)빅데이터 기술 현황과 시장 전망(2014)
빅데이터 기술 현황과 시장 전망(2014)
 
2012 빅데이터 big data 발표자료
2012 빅데이터 big data 발표자료2012 빅데이터 big data 발표자료
2012 빅데이터 big data 발표자료
 
Hadoop과 SQL-on-Hadoop (A short intro to Hadoop and SQL-on-Hadoop)
Hadoop과 SQL-on-Hadoop (A short intro to Hadoop and SQL-on-Hadoop)Hadoop과 SQL-on-Hadoop (A short intro to Hadoop and SQL-on-Hadoop)
Hadoop과 SQL-on-Hadoop (A short intro to Hadoop and SQL-on-Hadoop)
 
빅데이터, big data
빅데이터, big data빅데이터, big data
빅데이터, big data
 
Apache hbase overview (20160427)
Apache hbase overview (20160427)Apache hbase overview (20160427)
Apache hbase overview (20160427)
 
Tajo and SQL-on-Hadoop in Tech Planet 2013
Tajo and SQL-on-Hadoop in Tech Planet 2013Tajo and SQL-on-Hadoop in Tech Planet 2013
Tajo and SQL-on-Hadoop in Tech Planet 2013
 
Big Data Overview
Big Data OverviewBig Data Overview
Big Data Overview
 
Expanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with TajoExpanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with Tajo
 
Cloud dw benchmark using tpd-ds( Snowflake vs Redshift vs EMR Hive )
Cloud dw benchmark using tpd-ds( Snowflake vs Redshift vs EMR Hive )Cloud dw benchmark using tpd-ds( Snowflake vs Redshift vs EMR Hive )
Cloud dw benchmark using tpd-ds( Snowflake vs Redshift vs EMR Hive )
 
Druid+superset
Druid+supersetDruid+superset
Druid+superset
 
하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop
하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop
하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop
 
Spark_Overview_qna
Spark_Overview_qnaSpark_Overview_qna
Spark_Overview_qna
 
3 빅데이터기반비정형데이터의실시간처리방법 원종석
3 빅데이터기반비정형데이터의실시간처리방법 원종석3 빅데이터기반비정형데이터의실시간처리방법 원종석
3 빅데이터기반비정형데이터의실시간처리방법 원종석
 
Hadoop 제주대
Hadoop 제주대Hadoop 제주대
Hadoop 제주대
 
Jco 소셜 빅데이터_20120218
Jco 소셜 빅데이터_20120218Jco 소셜 빅데이터_20120218
Jco 소셜 빅데이터_20120218
 
Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사
Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사
Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사
 
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Tajo와 SQL-on-Hadoop
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Tajo와 SQL-on-HadoopGRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Tajo와 SQL-on-Hadoop
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Tajo와 SQL-on-Hadoop
 
OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)
OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)
OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)
 
Tajo TPC-H Benchmark Test on AWS
Tajo TPC-H Benchmark Test on AWSTajo TPC-H Benchmark Test on AWS
Tajo TPC-H Benchmark Test on AWS
 

Viewers also liked

빅데이터 플랫폼 새로운 미래
빅데이터 플랫폼 새로운 미래빅데이터 플랫폼 새로운 미래
빅데이터 플랫폼 새로운 미래Wooseung Kim
 
Best practice instagram
Best practice   instagramBest practice   instagram
Best practice instagramWooseung Kim
 
Bitcoin 2.0(blockchain technology 2)
Bitcoin 2.0(blockchain technology 2)Bitcoin 2.0(blockchain technology 2)
Bitcoin 2.0(blockchain technology 2)
Wooseung Kim
 
Pag 빅데이터-한국에도필요한가
Pag 빅데이터-한국에도필요한가Pag 빅데이터-한국에도필요한가
Pag 빅데이터-한국에도필요한가
Wooseung Kim
 
2011 06-30-hadoop-summit v5
2011 06-30-hadoop-summit v52011 06-30-hadoop-summit v5
2011 06-30-hadoop-summit v5
Samuel Rash
 

Viewers also liked (6)

빅데이터 플랫폼 새로운 미래
빅데이터 플랫폼 새로운 미래빅데이터 플랫폼 새로운 미래
빅데이터 플랫폼 새로운 미래
 
Best practice instagram
Best practice   instagramBest practice   instagram
Best practice instagram
 
Bitcoin 2.0(blockchain technology 2)
Bitcoin 2.0(blockchain technology 2)Bitcoin 2.0(blockchain technology 2)
Bitcoin 2.0(blockchain technology 2)
 
Pag 빅데이터-한국에도필요한가
Pag 빅데이터-한국에도필요한가Pag 빅데이터-한국에도필요한가
Pag 빅데이터-한국에도필요한가
 
2011 06-30-hadoop-summit v5
2011 06-30-hadoop-summit v52011 06-30-hadoop-summit v5
2011 06-30-hadoop-summit v5
 
Cloudera's Flume
Cloudera's FlumeCloudera's Flume
Cloudera's Flume
 

Similar to 줌인터넷 빅데이터 활용사례 김우승

도서추천서비스-아키텍처-v1.0 2.pdf
도서추천서비스-아키텍처-v1.0 2.pdf도서추천서비스-아키텍처-v1.0 2.pdf
도서추천서비스-아키텍처-v1.0 2.pdf
ssusera65af0
 
넥슨레드 RF실과 함께할 개발자를 찾습니다
넥슨레드 RF실과 함께할 개발자를 찾습니다넥슨레드 RF실과 함께할 개발자를 찾습니다
넥슨레드 RF실과 함께할 개발자를 찾습니다
NEXON RED
 
서비스 모니터링 구현 사례 공유 - Realtime log monitoring platform-PMon을 ...
서비스 모니터링 구현 사례 공유 - Realtime log monitoring platform-PMon을 ...서비스 모니터링 구현 사례 공유 - Realtime log monitoring platform-PMon을 ...
서비스 모니터링 구현 사례 공유 - Realtime log monitoring platform-PMon을 ...
Jemin Huh
 
주니어 개발자의 서버 로그 관리 개선기
주니어 개발자의 서버 로그 관리 개선기주니어 개발자의 서버 로그 관리 개선기
주니어 개발자의 서버 로그 관리 개선기
Yeonhee Kim
 
Log Collection and Analysis with elk Stack
Log Collection and Analysis with elk StackLog Collection and Analysis with elk Stack
Log Collection and Analysis with elk Stack
t lc
 
[2018] NHN 모니터링의 현재와 미래 for 인프라 엔지니어
[2018] NHN 모니터링의 현재와 미래 for 인프라 엔지니어[2018] NHN 모니터링의 현재와 미래 for 인프라 엔지니어
[2018] NHN 모니터링의 현재와 미래 for 인프라 엔지니어
NHN FORWARD
 
데이터 분석가를 위한 신규 분석 서비스 - 김기영, AWS 분석 솔루션즈 아키텍트 / 변규현, 당근마켓 소프트웨어 엔지니어 :: AWS r...
데이터 분석가를 위한 신규 분석 서비스 - 김기영, AWS 분석 솔루션즈 아키텍트 / 변규현, 당근마켓 소프트웨어 엔지니어 :: AWS r...데이터 분석가를 위한 신규 분석 서비스 - 김기영, AWS 분석 솔루션즈 아키텍트 / 변규현, 당근마켓 소프트웨어 엔지니어 :: AWS r...
데이터 분석가를 위한 신규 분석 서비스 - 김기영, AWS 분석 솔루션즈 아키텍트 / 변규현, 당근마켓 소프트웨어 엔지니어 :: AWS r...
Amazon Web Services Korea
 
[빅데이터 컨퍼런스 전희원]
[빅데이터 컨퍼런스 전희원][빅데이터 컨퍼런스 전희원]
[빅데이터 컨퍼런스 전희원]Jayoung Lim
 
모든 데이터를 위한 단 하나의 저장소, Amazon S3 기반 데이터 레이크::정세웅::AWS Summit Seoul 2018
모든 데이터를 위한 단 하나의 저장소, Amazon S3 기반 데이터 레이크::정세웅::AWS Summit Seoul 2018모든 데이터를 위한 단 하나의 저장소, Amazon S3 기반 데이터 레이크::정세웅::AWS Summit Seoul 2018
모든 데이터를 위한 단 하나의 저장소, Amazon S3 기반 데이터 레이크::정세웅::AWS Summit Seoul 2018Amazon Web Services Korea
 
[오픈소스컨설팅]openstack_monitoring_session
[오픈소스컨설팅]openstack_monitoring_session[오픈소스컨설팅]openstack_monitoring_session
[오픈소스컨설팅]openstack_monitoring_session
Chanyeol yoon
 
AWS를 활용한 게임 데이터 분석 퀘스트 깨기::안효빈::AWS Summit Seoul 2018
AWS를 활용한 게임 데이터 분석 퀘스트 깨기::안효빈::AWS Summit Seoul 2018AWS를 활용한 게임 데이터 분석 퀘스트 깨기::안효빈::AWS Summit Seoul 2018
AWS를 활용한 게임 데이터 분석 퀘스트 깨기::안효빈::AWS Summit Seoul 2018Amazon Web Services Korea
 
Amazon Aurora 신규 서비스 알아보기::최유정::AWS Summit Seoul 2018
Amazon Aurora 신규 서비스 알아보기::최유정::AWS Summit Seoul 2018Amazon Aurora 신규 서비스 알아보기::최유정::AWS Summit Seoul 2018
Amazon Aurora 신규 서비스 알아보기::최유정::AWS Summit Seoul 2018Amazon Web Services Korea
 
스타트업사례로 본 로그 데이터분석 : Tajo on AWS
스타트업사례로 본 로그 데이터분석 : Tajo on AWS스타트업사례로 본 로그 데이터분석 : Tajo on AWS
스타트업사례로 본 로그 데이터분석 : Tajo on AWS
Gruter
 
Aws glue를 통한 손쉬운 데이터 전처리 작업하기
Aws glue를 통한 손쉬운 데이터 전처리 작업하기Aws glue를 통한 손쉬운 데이터 전처리 작업하기
Aws glue를 통한 손쉬운 데이터 전처리 작업하기
Amazon Web Services Korea
 
AWS Summit Seoul 2023 | 실시간 CDC 데이터 처리! Modern Transactional Data Lake 구축하기
AWS Summit Seoul 2023 | 실시간 CDC 데이터 처리! Modern Transactional Data Lake 구축하기AWS Summit Seoul 2023 | 실시간 CDC 데이터 처리! Modern Transactional Data Lake 구축하기
AWS Summit Seoul 2023 | 실시간 CDC 데이터 처리! Modern Transactional Data Lake 구축하기
Amazon Web Services Korea
 
민첩하고 비용효율적인 Data Lake 구축 - 문종민 솔루션즈 아키텍트, AWS
민첩하고 비용효율적인 Data Lake 구축 - 문종민 솔루션즈 아키텍트, AWS민첩하고 비용효율적인 Data Lake 구축 - 문종민 솔루션즈 아키텍트, AWS
민첩하고 비용효율적인 Data Lake 구축 - 문종민 솔루션즈 아키텍트, AWS
Amazon Web Services Korea
 
빅데이터를 위한 AWS 모범사례와 아키텍처 구축 패턴 :: 양승도 :: AWS Summit Seoul 2016
빅데이터를 위한 AWS 모범사례와 아키텍처 구축 패턴 :: 양승도 :: AWS Summit Seoul 2016빅데이터를 위한 AWS 모범사례와 아키텍처 구축 패턴 :: 양승도 :: AWS Summit Seoul 2016
빅데이터를 위한 AWS 모범사례와 아키텍처 구축 패턴 :: 양승도 :: AWS Summit Seoul 2016
Amazon Web Services Korea
 
효과적인 NoSQL (Elasticahe / DynamoDB) 디자인 및 활용 방안 (최유정 & 최홍식, AWS 솔루션즈 아키텍트) :: ...
효과적인 NoSQL (Elasticahe / DynamoDB) 디자인 및 활용 방안 (최유정 & 최홍식, AWS 솔루션즈 아키텍트) :: ...효과적인 NoSQL (Elasticahe / DynamoDB) 디자인 및 활용 방안 (최유정 & 최홍식, AWS 솔루션즈 아키텍트) :: ...
효과적인 NoSQL (Elasticahe / DynamoDB) 디자인 및 활용 방안 (최유정 & 최홍식, AWS 솔루션즈 아키텍트) :: ...
Amazon Web Services Korea
 
폴라리스오피스 운영시스템
폴라리스오피스 운영시스템폴라리스오피스 운영시스템
폴라리스오피스 운영시스템
SANGGI CHOI
 
스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS
스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS
스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS
Matthew (정재화)
 

Similar to 줌인터넷 빅데이터 활용사례 김우승 (20)

도서추천서비스-아키텍처-v1.0 2.pdf
도서추천서비스-아키텍처-v1.0 2.pdf도서추천서비스-아키텍처-v1.0 2.pdf
도서추천서비스-아키텍처-v1.0 2.pdf
 
넥슨레드 RF실과 함께할 개발자를 찾습니다
넥슨레드 RF실과 함께할 개발자를 찾습니다넥슨레드 RF실과 함께할 개발자를 찾습니다
넥슨레드 RF실과 함께할 개발자를 찾습니다
 
서비스 모니터링 구현 사례 공유 - Realtime log monitoring platform-PMon을 ...
서비스 모니터링 구현 사례 공유 - Realtime log monitoring platform-PMon을 ...서비스 모니터링 구현 사례 공유 - Realtime log monitoring platform-PMon을 ...
서비스 모니터링 구현 사례 공유 - Realtime log monitoring platform-PMon을 ...
 
주니어 개발자의 서버 로그 관리 개선기
주니어 개발자의 서버 로그 관리 개선기주니어 개발자의 서버 로그 관리 개선기
주니어 개발자의 서버 로그 관리 개선기
 
Log Collection and Analysis with elk Stack
Log Collection and Analysis with elk StackLog Collection and Analysis with elk Stack
Log Collection and Analysis with elk Stack
 
[2018] NHN 모니터링의 현재와 미래 for 인프라 엔지니어
[2018] NHN 모니터링의 현재와 미래 for 인프라 엔지니어[2018] NHN 모니터링의 현재와 미래 for 인프라 엔지니어
[2018] NHN 모니터링의 현재와 미래 for 인프라 엔지니어
 
데이터 분석가를 위한 신규 분석 서비스 - 김기영, AWS 분석 솔루션즈 아키텍트 / 변규현, 당근마켓 소프트웨어 엔지니어 :: AWS r...
데이터 분석가를 위한 신규 분석 서비스 - 김기영, AWS 분석 솔루션즈 아키텍트 / 변규현, 당근마켓 소프트웨어 엔지니어 :: AWS r...데이터 분석가를 위한 신규 분석 서비스 - 김기영, AWS 분석 솔루션즈 아키텍트 / 변규현, 당근마켓 소프트웨어 엔지니어 :: AWS r...
데이터 분석가를 위한 신규 분석 서비스 - 김기영, AWS 분석 솔루션즈 아키텍트 / 변규현, 당근마켓 소프트웨어 엔지니어 :: AWS r...
 
[빅데이터 컨퍼런스 전희원]
[빅데이터 컨퍼런스 전희원][빅데이터 컨퍼런스 전희원]
[빅데이터 컨퍼런스 전희원]
 
모든 데이터를 위한 단 하나의 저장소, Amazon S3 기반 데이터 레이크::정세웅::AWS Summit Seoul 2018
모든 데이터를 위한 단 하나의 저장소, Amazon S3 기반 데이터 레이크::정세웅::AWS Summit Seoul 2018모든 데이터를 위한 단 하나의 저장소, Amazon S3 기반 데이터 레이크::정세웅::AWS Summit Seoul 2018
모든 데이터를 위한 단 하나의 저장소, Amazon S3 기반 데이터 레이크::정세웅::AWS Summit Seoul 2018
 
[오픈소스컨설팅]openstack_monitoring_session
[오픈소스컨설팅]openstack_monitoring_session[오픈소스컨설팅]openstack_monitoring_session
[오픈소스컨설팅]openstack_monitoring_session
 
AWS를 활용한 게임 데이터 분석 퀘스트 깨기::안효빈::AWS Summit Seoul 2018
AWS를 활용한 게임 데이터 분석 퀘스트 깨기::안효빈::AWS Summit Seoul 2018AWS를 활용한 게임 데이터 분석 퀘스트 깨기::안효빈::AWS Summit Seoul 2018
AWS를 활용한 게임 데이터 분석 퀘스트 깨기::안효빈::AWS Summit Seoul 2018
 
Amazon Aurora 신규 서비스 알아보기::최유정::AWS Summit Seoul 2018
Amazon Aurora 신규 서비스 알아보기::최유정::AWS Summit Seoul 2018Amazon Aurora 신규 서비스 알아보기::최유정::AWS Summit Seoul 2018
Amazon Aurora 신규 서비스 알아보기::최유정::AWS Summit Seoul 2018
 
스타트업사례로 본 로그 데이터분석 : Tajo on AWS
스타트업사례로 본 로그 데이터분석 : Tajo on AWS스타트업사례로 본 로그 데이터분석 : Tajo on AWS
스타트업사례로 본 로그 데이터분석 : Tajo on AWS
 
Aws glue를 통한 손쉬운 데이터 전처리 작업하기
Aws glue를 통한 손쉬운 데이터 전처리 작업하기Aws glue를 통한 손쉬운 데이터 전처리 작업하기
Aws glue를 통한 손쉬운 데이터 전처리 작업하기
 
AWS Summit Seoul 2023 | 실시간 CDC 데이터 처리! Modern Transactional Data Lake 구축하기
AWS Summit Seoul 2023 | 실시간 CDC 데이터 처리! Modern Transactional Data Lake 구축하기AWS Summit Seoul 2023 | 실시간 CDC 데이터 처리! Modern Transactional Data Lake 구축하기
AWS Summit Seoul 2023 | 실시간 CDC 데이터 처리! Modern Transactional Data Lake 구축하기
 
민첩하고 비용효율적인 Data Lake 구축 - 문종민 솔루션즈 아키텍트, AWS
민첩하고 비용효율적인 Data Lake 구축 - 문종민 솔루션즈 아키텍트, AWS민첩하고 비용효율적인 Data Lake 구축 - 문종민 솔루션즈 아키텍트, AWS
민첩하고 비용효율적인 Data Lake 구축 - 문종민 솔루션즈 아키텍트, AWS
 
빅데이터를 위한 AWS 모범사례와 아키텍처 구축 패턴 :: 양승도 :: AWS Summit Seoul 2016
빅데이터를 위한 AWS 모범사례와 아키텍처 구축 패턴 :: 양승도 :: AWS Summit Seoul 2016빅데이터를 위한 AWS 모범사례와 아키텍처 구축 패턴 :: 양승도 :: AWS Summit Seoul 2016
빅데이터를 위한 AWS 모범사례와 아키텍처 구축 패턴 :: 양승도 :: AWS Summit Seoul 2016
 
효과적인 NoSQL (Elasticahe / DynamoDB) 디자인 및 활용 방안 (최유정 & 최홍식, AWS 솔루션즈 아키텍트) :: ...
효과적인 NoSQL (Elasticahe / DynamoDB) 디자인 및 활용 방안 (최유정 & 최홍식, AWS 솔루션즈 아키텍트) :: ...효과적인 NoSQL (Elasticahe / DynamoDB) 디자인 및 활용 방안 (최유정 & 최홍식, AWS 솔루션즈 아키텍트) :: ...
효과적인 NoSQL (Elasticahe / DynamoDB) 디자인 및 활용 방안 (최유정 & 최홍식, AWS 솔루션즈 아키텍트) :: ...
 
폴라리스오피스 운영시스템
폴라리스오피스 운영시스템폴라리스오피스 운영시스템
폴라리스오피스 운영시스템
 
스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS
스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS
스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS
 

줌인터넷 빅데이터 활용사례 김우승

  • 2. 소개 } 줌인터넷(주) 연구소장 } 이력 } 줌인터넷 } SK 플래닛 } SK 텔레콤 } 삼성전자 } http://kimws.wordpress.com } @kimws
  • 3. 회사 소개 : zum.com }검색 포털 회사
  • 4. 검색 회사(검색 서비스)가 하는 일 … Serving Real-time Analyzing Batch Crawler Parsing Crawling Analyzing storage 출처: http://www.ibm.com/developerworks/web/library/wa-lucene2/
  • 5. Crawl 문서를 크롤하면 (> 10억건) 메타데이터 저장 Structured Data HTML 저장 Semi-structured Data 제목, 본문 추출 Unstructured Data 이미지 추출 썸네일 생성 Multimedia Data 원본 이미지 저장 Crawler 시스템은 분산 처리를 하기 위해서 MapReduce + Downloader 등으로 구현
  • 6. Analyzer - 분석 데이터의 종류와 범위에 따라서 다양한 주기로 설정된 스케줄로 프로세스들이 실행 - 프로세스의 우선 순위에 따라 Pig & MR Job에 우선순위와 리소스를 상이하게 할당 } 중복 문서 제거 (Pig + UDF ) + Python + Shell } 스팸 문서 } 성인 필터링 } 검색 랭킹 계산 } 문서 클러스터링 } 수십여가지 분석프로세 Java Map-Reduce program 스 Hadoop & Hbase 는 Legacy System !
  • 7. Service } Daily 수천만 PV 이상을 처리하기 위해서 … LVS Web & Application & DB Clustering 필수 Tomcat 각 Layer 별로 Caching System 적용 Squid Memcached 인덱싱 & 검색 처리 수십/수백대로 구성된 서버팜 시스템 장애 감지와 통합 모니터링 시스템 역시 필수 100% Linux Server 오픈 소스 및 자체 개발 시스템을 통합해서 활용 장애 대응을 위한 HA 구성
  • 8. 그 밖에 오픈소스들 서비스와 데이터 요구사항에 맞게 코어가 되는 검색엔진, 미디어 서버, KeyValue 시스템등을 자체 개발
  • 9. ZUM Data Platform } 로그 수집 체계 } 로그 포맷 표준화 } 중앙 데이터 저장소 구축 } 로그 데이터 수집 프레임워크 개발 (Flume-ng, Fluentd) } Access log } ZUM service log } Application log } 분석시스템 개발 } Hive 가 메인 도구 } Pig 는 Hive Table 을 생성하는 전처리(ETL) 용 스크립트 } Job Scheduler
  • 10. Log Analysis } 각종 Service Log JSON Pig } Server Access Log Apache Log Format } Application Log Log4J 개발자들이 Apache Pig Script 로 분석 기획자들이 직접 데이터 통계나 분석을 할려면?
  • 11. Log Data Flow Diagram estat 인기검색어,Suggest, … Relay DB zum log zum log zum log Term weight, URLs for crawler, … Stats(2대) ---- 서비스분석 웹브라우저 es-admin ES-LOG Krystal (ATS) 클러스터 SAMBA zum log FTP 통계 검색로그 서버 Admin NAS zum log Log4j log MIDAS CTR피드백 서비스 로그 시스템 altoolba log(1/10 분량만) altoolba log altoolba log 노출/클릭 통계용 ES-LOG 클러스터 광고플랫폼 로그수집 광고플랫폼 서버 Get/Redirect 쇼핑 개발 em-admin ES-LOG 클러스터 뉴스 로그수 ------- 수집 FTP 툴바 안티피싱 URL 집 DAUM용 안티피싱 클러스터 서버 안티피싱 서버 수집서버 admin 클러스터 서버 Other IDC ??? 미정 http DFSClinet API unknown/undetermined access log ftp samba 미개발 Hadoop ALL Servers 미정 rsync/scp DB I/F
  • 12. 통계 지표 관리 } 고정 지표 } 상시 분석해서 결과를 파악해야 하는 지표 } 공통 지표 정의 } 서비스별 지표 정의 자동화의 대상 } 배치성 지표 } 실시간성 지표 } 유동 지표 } 서비스별로 필요한 경우에 따라서 파악할 지표 Ad-hoc 업무 } 중요도에 따라 고정지표로 전환 데이터 분석 업무가 기존 개발자에서 기획자, 데이터 분석가의 손에서 다루어질 수 있도록
  • 13. ZUM Data Platform Log Service 1 Agent 시스템엔지니어는 로그용량을 고려하여 설정이 된 에이전트 설치 Avro …… Log adapter Real-time Analyzer Flume-NG Agent (ESPER) 개발자는 Pig등을 이용해서 Raw Data를 Hive Data 등으로 변환 Service N Log Agent Web Browser R Excel Hive Job Data Text File Console Scheduler Viewer Data Repository (HDFS) Reporting Server Service 1 Service N+1 Log Agent WebHDFS 변환 분석 Service 2 Hive Historical Raw data 결과DB Table DB …… … Log Agent fuse fuse Service Service Server … Server Hive 는 Metadata 을 담고 있음 SQL 은 개발자가 아닌 기획자들도 간편히 로직 구현 가능
  • 14. 분석 프로세스 개선 데이터 추출 요청 URL 추출 조건 확인 후 추출 요청 Before 데이터분석담당 개발자 기획자 데이터 추출 결과 확인 데이터 전달 1) 추출된 데이터 확인 2) 추출 조건 수정하여 재 추출 After 데이터 추출 요청 데이터분석담당 기획자 데이터 전달
  • 15. 마지막으로 요즘 드는 생각 … Apaceh Hadoop / HBase 가 이미 Legacy System 되어가고 있고 결국 점점 복잡해지고, 무거워지고, 이해하기 힘들어지고 … 다른 이가 만든 기술에 대한 의존은 여전하고 때론 한계에 부딛히기도 하다 Don’t reinvent the wheel? Core 에 대한 깊은 이해 없이 대충 이해하고 응용 어플리케이션 / 서비스 만 들기도 바쁘다 그래서? 직접 만들어 볼 필요도 있다!!!