SlideShare a Scribd company logo
1 of 25
Download to read offline
제플린과 오픈소스 생태계,
그리고 실리콘벨리
이문수
moon@nflabs.com / zeppelinx.io

ZeppelinX (aka NFLabs)
데이터야 놀자 2016
Apache Zeppelin,
어디쯤 와있을까?
2016.10.12
데이터야 놀자 2016
Apache Project
Github 레파지토리
별 갯수
1 Spark 10,310
2 PredictionIO 9,665
3 Kafka 3,898
4 Airflow 3,626
5 Storm 3,586
6 Cassandra 3,030
7 Thrift 3,026
8 CouchDB 2,718
9 Mesos 2,622
10 Hadoop 2,401
11 Zookeeper 2,118
12 Zeppelin 2,027
2016.10.12
13 Flink 1,637
14 Hive 1,069
15 mahout 922
16 Hbase 896
17 Flume 745
18 Dril 697
19 Arrow 666
20 Geode 629
21 Kylin 620
22 Ignite 583
23 Lucene-Solr 470
24 Accumulo 252
*Data 관련 프로젝트만
데이터야 놀자 2016
Apache Project
Github 레파지토리
컨트리뷰터
1 Spark 977
2 Kafka 232
3 Storm 230
4 Flink 230
5 Mesos 211
6 Airflow 192
7 Cassandra 187
8 Zeppelin 153
9 Thrift 126
10 CouchDB 106
11 PredictionIO 99
12 Hive 92
2016.10.12
13 Hbase 91
14 Hadoop 82
15 Ignite 76
16 Dril 67
17 Accumulo 65
18 Kylin 51
19 Lucene-Solr 50
20 Geode 46
21 Arrow 22
22 Flume 26
23 mahout 23
24 Zookeeper 9
*이전 페이지에 있던 프로젝트들 중
데이터야 놀자 2016
2015, 2016 The best opensource bigdata software!
데이터야 놀자 2016
Apache Zeppelin,
가파르게 올라가는 중 입니다.
데이터야 놀자 2016
Apache Zeppelin,
누가 기여하고 있나?
데이터야 놀자 2016
aka. NFLabs
150 Contributors world wide
데이터야 놀자 2016
Apache Zeppelin,
누가 쓰고 있을까?
데이터야 놀자 2016
세계 최초 Zeppelin 유저
전체 약 4000 명 직원 중 1000명이 Zeppelin
사용. Tableau 대체중
내부 개발자 portal 에 Zeppelin 제공
Recommendation 팀에서 사용
1.5PB / sec 처리하는 인프라 관리 하기 위해
사용
데이터야 놀자 2016
데이터야 놀자 2016
데이터야 놀자 2016
*사진
제플린과 친구들

빅데이터 비행단
Apache Zeppelin,
누가 돈벌고 있을까?
데이터야 놀자 2016
EMR 에서 Zeppelin 서비스
Azure HD Insight 에서 Zeppelin 서비스
Google cloud data proc 에서 Zeppelin 스크
립트 제공
Zeppelin 서비스로 제공
데이터야 놀자 2016
HDP 패키지에 Zeppelin 탑재
Juju 이용해 Zeppelin 을 on-prem/cloud 에
배포가능
분석 인터페이스로 Zeppelin 제공
Datascience workbench 에서 분석 인터페이
스로 Zeppelin 제공
데이터야 놀자 2016
Apache Zeppelin,
생태계
데이터야 놀자 2016
Contributors Users
150 Contributors world wide
Service provider Technology Integration
데이터야 놀자 2016
Zeppelin 이 가져다준 것
NFlabs회사이름
위치 한국 실리콘 벨리 & 한국
투자 Seed (한국) Series A (미국)
컨퍼런스/
밋업
서울 서울, 센프란시스코, 산호세, 오스틴, 시애
틀 밴쿠버, 시드니, 벨번, 부다페스트, 베를
린, 암스테르담, 더블린, 상하이, 싱가폴, 런
던, 도쿄, 세비야....데이터야 놀자 2016
무엇이 지금까지 여정을 가능하게 했을까
요?
Right time
Right place
Great team
Great culture
3rd party
business
friendly
데이터야 놀자 2016
HDFS 와 Map-reduce 를 CDN 서비스
프로덕션에 사용
빅데이터 기술 노하우 습득

Hadoop 생태계에 분석환경
없음 느낌
CDN -> Big data Pivot
Hadoop 플랫폼 SI 프로젝트
Spark 기반 분석 소프트웨어 (Peloton/
Peloton2/Zeppelin 0.4)
오픈소스로 빠르게 구현 (Zeppelin 0.5)
Apache 에 incubation 됨
2010
2011
2012
2013
2014
2015
Zeppelin 을 Spark 이 한창 떠오르는 시점에, 사람들이 필
요로 하는 기능을 넣어서 공개할 수 있었던 이유
삽질잘해서, 어슬렁거려서,

책보고공부해서, 똑똑해서
실제 사용해보고
여러번 시행착오를 겪었기 때문
(Peloton, Peloton2, Zeppelin-0.4)
Right time
Right place
데이터야 놀자 2016
Great team
Great culture
데이터야 놀자 2016
첫 번째 오픈소스프로젝트 임에도 성공적인 오픈소스로 키울 수 있었던 이유
이미 오픈소스 프로젝트와 같은 방식으로 일하고 있었기 때문
원래부터 가지고 있던 팀 / 문화
다양성
- 4개국에서 온 개발자들
- 서로다른 경험과 문화
문화
- 원격 근무, Flexible time
- 모든 커뮤니케이션은 영어로
오픈소스 프로젝트
- 전세계의 서로다른 개발 경
험, 서로다른 문화를 가진
개발자

- 전세계에 분산된 개발자들
과 원격으로 협업
Great team
Great culture
데이터야 놀자 2016
구글, 아마존, 마이크로소프트등 전세계 기업이 기여하고 서비스에 이용하는 이유
비즈니스를 독점하려고 하지 않았기 때문
Support
Consulting
Training
Cloud service
Enterprise Packaging
OEM
System integration
Opensource development
Sharing and Collaboration
service on top of Zeppelin
3rd party
business
friendly
데이터야 놀자 2016
제플린은 어디로 갈까요?
Spark BI / Communication
더 큰 세상으로 갑니다.
데이터야 놀자 2016
Spark
BI
Database
ETLStorage
Data
Machine
Learning
Cloud
Computing
이제 여러분의 차례입니다. 데이터의 세계는 큽니다.
데이터야 놀자 2016

More Related Content

Similar to Zeppelin and Open Source Ecosystem and Silicon Valley

DataWorks Summit 2017
DataWorks Summit 2017DataWorks Summit 2017
DataWorks Summit 2017Daesung Park
 
User Story :: Cloudike with KT UCloud Biz
User Story :: Cloudike with KT UCloud BizUser Story :: Cloudike with KT UCloud Biz
User Story :: Cloudike with KT UCloud BizNalee Jang
 
DataWorks Summit 2018
DataWorks Summit 2018DataWorks Summit 2018
DataWorks Summit 2018Daesung Park
 
Zeppelin(Spark)으로 데이터 분석하기
Zeppelin(Spark)으로 데이터 분석하기Zeppelin(Spark)으로 데이터 분석하기
Zeppelin(Spark)으로 데이터 분석하기SangWoo Kim
 
올챙이 현재와 미래
올챙이 현재와 미래올챙이 현재와 미래
올챙이 현재와 미래cho hyun jong
 
Cloudera session seoul - Spark bootcamp
Cloudera session seoul - Spark bootcampCloudera session seoul - Spark bootcamp
Cloudera session seoul - Spark bootcampSang-bae Lim
 
스플렁크를 이용한 AWS운영 인텔리전스 확보:: Splunk 최승돈 :: AWS Summit Seoul 2016
스플렁크를 이용한 AWS운영 인텔리전스 확보:: Splunk 최승돈 :: AWS Summit Seoul 2016스플렁크를 이용한 AWS운영 인텔리전스 확보:: Splunk 최승돈 :: AWS Summit Seoul 2016
스플렁크를 이용한 AWS운영 인텔리전스 확보:: Splunk 최승돈 :: AWS Summit Seoul 2016Amazon Web Services Korea
 
Apache spark 소개 및 실습
Apache spark 소개 및 실습Apache spark 소개 및 실습
Apache spark 소개 및 실습동현 강
 
제2회 i talks-세미나-openstack+openshift-2014-5-28
제2회 i talks-세미나-openstack+openshift-2014-5-28제2회 i talks-세미나-openstack+openshift-2014-5-28
제2회 i talks-세미나-openstack+openshift-2014-5-28Donghan Kim
 
[D2 COMMUNITY] Spark User Group - 스파크를 통한 딥러닝 이론과 실제
[D2 COMMUNITY] Spark User Group - 스파크를 통한 딥러닝 이론과 실제[D2 COMMUNITY] Spark User Group - 스파크를 통한 딥러닝 이론과 실제
[D2 COMMUNITY] Spark User Group - 스파크를 통한 딥러닝 이론과 실제NAVER D2
 
Streaming platform Kafka in SK planet
Streaming platform Kafka in SK planetStreaming platform Kafka in SK planet
Streaming platform Kafka in SK planetByeongsu Kang
 
SOSCON 2017 - Backend.AI
SOSCON 2017 - Backend.AISOSCON 2017 - Backend.AI
SOSCON 2017 - Backend.AIJoongi Kim
 
[온라인교육시리즈] Jupyter를 이용한 분석 환경 구축하기 - 허창현 클라우드 솔루션 아키텍트
[온라인교육시리즈] Jupyter를 이용한 분석 환경 구축하기 - 허창현 클라우드 솔루션 아키텍트[온라인교육시리즈] Jupyter를 이용한 분석 환경 구축하기 - 허창현 클라우드 솔루션 아키텍트
[온라인교육시리즈] Jupyter를 이용한 분석 환경 구축하기 - 허창현 클라우드 솔루션 아키텍트NAVER CLOUD PLATFORMㅣ네이버 클라우드 플랫폼
 
Hadoop 10th Birthday and Hadoop 3 Alpha
Hadoop 10th Birthday and Hadoop 3 AlphaHadoop 10th Birthday and Hadoop 3 Alpha
Hadoop 10th Birthday and Hadoop 3 AlphaDataya Nolja
 
OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)
OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)
OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)SANG WON PARK
 
​『9가지 사례로 익히는 고급 스파크 분석(2판) 』 맛보기
​『9가지 사례로 익히는 고급 스파크 분석(2판) 』 맛보기​『9가지 사례로 익히는 고급 스파크 분석(2판) 』 맛보기
​『9가지 사례로 익히는 고급 스파크 분석(2판) 』 맛보기복연 이
 
KCSE 2015 Tutorial 빅데이터 분석 기술의 소프트웨어 공학 분야 활용 (...
KCSE 2015 Tutorial 빅데이터 분석 기술의  소프트웨어 공학 분야 활용 (...KCSE 2015 Tutorial 빅데이터 분석 기술의  소프트웨어 공학 분야 활용 (...
KCSE 2015 Tutorial 빅데이터 분석 기술의 소프트웨어 공학 분야 활용 (...Chanjin Park
 
[OpenStack Days Korea 2016] Innovating OpenStack Network with SDN solution
[OpenStack Days Korea 2016] Innovating OpenStack Network with SDN solution[OpenStack Days Korea 2016] Innovating OpenStack Network with SDN solution
[OpenStack Days Korea 2016] Innovating OpenStack Network with SDN solutionOpenStack Korea Community
 
OpenSource! OpenStack!
OpenSource! OpenStack!OpenSource! OpenStack!
OpenSource! OpenStack!Nalee Jang
 
[NDC 2018] Spark, Flintrock, Airflow 로 구현하는 탄력적이고 유연한 데이터 분산처리 자동화 인프라 구축
[NDC 2018] Spark, Flintrock, Airflow 로 구현하는 탄력적이고 유연한 데이터 분산처리 자동화 인프라 구축[NDC 2018] Spark, Flintrock, Airflow 로 구현하는 탄력적이고 유연한 데이터 분산처리 자동화 인프라 구축
[NDC 2018] Spark, Flintrock, Airflow 로 구현하는 탄력적이고 유연한 데이터 분산처리 자동화 인프라 구축Juhong Park
 

Similar to Zeppelin and Open Source Ecosystem and Silicon Valley (20)

DataWorks Summit 2017
DataWorks Summit 2017DataWorks Summit 2017
DataWorks Summit 2017
 
User Story :: Cloudike with KT UCloud Biz
User Story :: Cloudike with KT UCloud BizUser Story :: Cloudike with KT UCloud Biz
User Story :: Cloudike with KT UCloud Biz
 
DataWorks Summit 2018
DataWorks Summit 2018DataWorks Summit 2018
DataWorks Summit 2018
 
Zeppelin(Spark)으로 데이터 분석하기
Zeppelin(Spark)으로 데이터 분석하기Zeppelin(Spark)으로 데이터 분석하기
Zeppelin(Spark)으로 데이터 분석하기
 
올챙이 현재와 미래
올챙이 현재와 미래올챙이 현재와 미래
올챙이 현재와 미래
 
Cloudera session seoul - Spark bootcamp
Cloudera session seoul - Spark bootcampCloudera session seoul - Spark bootcamp
Cloudera session seoul - Spark bootcamp
 
스플렁크를 이용한 AWS운영 인텔리전스 확보:: Splunk 최승돈 :: AWS Summit Seoul 2016
스플렁크를 이용한 AWS운영 인텔리전스 확보:: Splunk 최승돈 :: AWS Summit Seoul 2016스플렁크를 이용한 AWS운영 인텔리전스 확보:: Splunk 최승돈 :: AWS Summit Seoul 2016
스플렁크를 이용한 AWS운영 인텔리전스 확보:: Splunk 최승돈 :: AWS Summit Seoul 2016
 
Apache spark 소개 및 실습
Apache spark 소개 및 실습Apache spark 소개 및 실습
Apache spark 소개 및 실습
 
제2회 i talks-세미나-openstack+openshift-2014-5-28
제2회 i talks-세미나-openstack+openshift-2014-5-28제2회 i talks-세미나-openstack+openshift-2014-5-28
제2회 i talks-세미나-openstack+openshift-2014-5-28
 
[D2 COMMUNITY] Spark User Group - 스파크를 통한 딥러닝 이론과 실제
[D2 COMMUNITY] Spark User Group - 스파크를 통한 딥러닝 이론과 실제[D2 COMMUNITY] Spark User Group - 스파크를 통한 딥러닝 이론과 실제
[D2 COMMUNITY] Spark User Group - 스파크를 통한 딥러닝 이론과 실제
 
Streaming platform Kafka in SK planet
Streaming platform Kafka in SK planetStreaming platform Kafka in SK planet
Streaming platform Kafka in SK planet
 
SOSCON 2017 - Backend.AI
SOSCON 2017 - Backend.AISOSCON 2017 - Backend.AI
SOSCON 2017 - Backend.AI
 
[온라인교육시리즈] Jupyter를 이용한 분석 환경 구축하기 - 허창현 클라우드 솔루션 아키텍트
[온라인교육시리즈] Jupyter를 이용한 분석 환경 구축하기 - 허창현 클라우드 솔루션 아키텍트[온라인교육시리즈] Jupyter를 이용한 분석 환경 구축하기 - 허창현 클라우드 솔루션 아키텍트
[온라인교육시리즈] Jupyter를 이용한 분석 환경 구축하기 - 허창현 클라우드 솔루션 아키텍트
 
Hadoop 10th Birthday and Hadoop 3 Alpha
Hadoop 10th Birthday and Hadoop 3 AlphaHadoop 10th Birthday and Hadoop 3 Alpha
Hadoop 10th Birthday and Hadoop 3 Alpha
 
OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)
OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)
OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)
 
​『9가지 사례로 익히는 고급 스파크 분석(2판) 』 맛보기
​『9가지 사례로 익히는 고급 스파크 분석(2판) 』 맛보기​『9가지 사례로 익히는 고급 스파크 분석(2판) 』 맛보기
​『9가지 사례로 익히는 고급 스파크 분석(2판) 』 맛보기
 
KCSE 2015 Tutorial 빅데이터 분석 기술의 소프트웨어 공학 분야 활용 (...
KCSE 2015 Tutorial 빅데이터 분석 기술의  소프트웨어 공학 분야 활용 (...KCSE 2015 Tutorial 빅데이터 분석 기술의  소프트웨어 공학 분야 활용 (...
KCSE 2015 Tutorial 빅데이터 분석 기술의 소프트웨어 공학 분야 활용 (...
 
[OpenStack Days Korea 2016] Innovating OpenStack Network with SDN solution
[OpenStack Days Korea 2016] Innovating OpenStack Network with SDN solution[OpenStack Days Korea 2016] Innovating OpenStack Network with SDN solution
[OpenStack Days Korea 2016] Innovating OpenStack Network with SDN solution
 
OpenSource! OpenStack!
OpenSource! OpenStack!OpenSource! OpenStack!
OpenSource! OpenStack!
 
[NDC 2018] Spark, Flintrock, Airflow 로 구현하는 탄력적이고 유연한 데이터 분산처리 자동화 인프라 구축
[NDC 2018] Spark, Flintrock, Airflow 로 구현하는 탄력적이고 유연한 데이터 분산처리 자동화 인프라 구축[NDC 2018] Spark, Flintrock, Airflow 로 구현하는 탄력적이고 유연한 데이터 분산처리 자동화 인프라 구축
[NDC 2018] Spark, Flintrock, Airflow 로 구현하는 탄력적이고 유연한 데이터 분산처리 자동화 인프라 구축
 

More from Dataya Nolja

How to Study Mathematics for ML
How to Study Mathematics for MLHow to Study Mathematics for ML
How to Study Mathematics for MLDataya Nolja
 
Music Data Start to End
Music Data Start to EndMusic Data Start to End
Music Data Start to EndDataya Nolja
 
Find a Leak Time in the Schedule
Find a Leak Time in the ScheduleFind a Leak Time in the Schedule
Find a Leak Time in the ScheduleDataya Nolja
 
A Financial Company Story of Bringing Open Source and ML in
A Financial Company Story of Bringing Open Source and ML inA Financial Company Story of Bringing Open Source and ML in
A Financial Company Story of Bringing Open Source and ML inDataya Nolja
 
Practice, Practice, Practice and do the Dirty Work
Practice, Practice, Practice and do the Dirty WorkPractice, Practice, Practice and do the Dirty Work
Practice, Practice, Practice and do the Dirty WorkDataya Nolja
 
Predicting People Who May Get off at the Next Station
Predicting People Who May Get off at the Next StationPredicting People Who May Get off at the Next Station
Predicting People Who May Get off at the Next StationDataya Nolja
 
Endless Trial-and-Errors for Data Collecting
Endless Trial-and-Errors for Data CollectingEndless Trial-and-Errors for Data Collecting
Endless Trial-and-Errors for Data CollectingDataya Nolja
 
Log Design Case Study
Log Design Case StudyLog Design Case Study
Log Design Case StudyDataya Nolja
 
Let's Play with Data Safely
Let's Play with Data SafelyLet's Play with Data Safely
Let's Play with Data SafelyDataya Nolja
 
Things Data Scientists Should Keep in Mind
Things Data Scientists Should Keep in MindThings Data Scientists Should Keep in Mind
Things Data Scientists Should Keep in MindDataya Nolja
 
Things Happend between JDBC and MySQL
Things Happend between JDBC and MySQLThings Happend between JDBC and MySQL
Things Happend between JDBC and MySQLDataya Nolja
 
Human-Machine Interaction and AI
Human-Machine Interaction and AIHuman-Machine Interaction and AI
Human-Machine Interaction and AIDataya Nolja
 
Julia 0.5 and TensorFlow
Julia 0.5 and TensorFlowJulia 0.5 and TensorFlow
Julia 0.5 and TensorFlowDataya Nolja
 
Kakao Bank Powered by Open Sources
Kakao Bank Powered by Open SourcesKakao Bank Powered by Open Sources
Kakao Bank Powered by Open SourcesDataya Nolja
 
Open Source is My Job
Open Source is My JobOpen Source is My Job
Open Source is My JobDataya Nolja
 
Creating Value through Data Analysis
Creating Value through Data AnalysisCreating Value through Data Analysis
Creating Value through Data AnalysisDataya Nolja
 
How to Make Money from Data - Global Cases
How to Make Money from Data - Global CasesHow to Make Money from Data - Global Cases
How to Make Money from Data - Global CasesDataya Nolja
 
Structured Streaming with Apache Spark
Structured Streaming with Apache SparkStructured Streaming with Apache Spark
Structured Streaming with Apache SparkDataya Nolja
 
How to Create Value from Data, and Its Difficulty
How to Create Value from Data, and Its DifficultyHow to Create Value from Data, and Its Difficulty
How to Create Value from Data, and Its DifficultyDataya Nolja
 
Machine Learning with Apache Spark and Zeppelin
Machine Learning with Apache Spark and ZeppelinMachine Learning with Apache Spark and Zeppelin
Machine Learning with Apache Spark and ZeppelinDataya Nolja
 

More from Dataya Nolja (20)

How to Study Mathematics for ML
How to Study Mathematics for MLHow to Study Mathematics for ML
How to Study Mathematics for ML
 
Music Data Start to End
Music Data Start to EndMusic Data Start to End
Music Data Start to End
 
Find a Leak Time in the Schedule
Find a Leak Time in the ScheduleFind a Leak Time in the Schedule
Find a Leak Time in the Schedule
 
A Financial Company Story of Bringing Open Source and ML in
A Financial Company Story of Bringing Open Source and ML inA Financial Company Story of Bringing Open Source and ML in
A Financial Company Story of Bringing Open Source and ML in
 
Practice, Practice, Practice and do the Dirty Work
Practice, Practice, Practice and do the Dirty WorkPractice, Practice, Practice and do the Dirty Work
Practice, Practice, Practice and do the Dirty Work
 
Predicting People Who May Get off at the Next Station
Predicting People Who May Get off at the Next StationPredicting People Who May Get off at the Next Station
Predicting People Who May Get off at the Next Station
 
Endless Trial-and-Errors for Data Collecting
Endless Trial-and-Errors for Data CollectingEndless Trial-and-Errors for Data Collecting
Endless Trial-and-Errors for Data Collecting
 
Log Design Case Study
Log Design Case StudyLog Design Case Study
Log Design Case Study
 
Let's Play with Data Safely
Let's Play with Data SafelyLet's Play with Data Safely
Let's Play with Data Safely
 
Things Data Scientists Should Keep in Mind
Things Data Scientists Should Keep in MindThings Data Scientists Should Keep in Mind
Things Data Scientists Should Keep in Mind
 
Things Happend between JDBC and MySQL
Things Happend between JDBC and MySQLThings Happend between JDBC and MySQL
Things Happend between JDBC and MySQL
 
Human-Machine Interaction and AI
Human-Machine Interaction and AIHuman-Machine Interaction and AI
Human-Machine Interaction and AI
 
Julia 0.5 and TensorFlow
Julia 0.5 and TensorFlowJulia 0.5 and TensorFlow
Julia 0.5 and TensorFlow
 
Kakao Bank Powered by Open Sources
Kakao Bank Powered by Open SourcesKakao Bank Powered by Open Sources
Kakao Bank Powered by Open Sources
 
Open Source is My Job
Open Source is My JobOpen Source is My Job
Open Source is My Job
 
Creating Value through Data Analysis
Creating Value through Data AnalysisCreating Value through Data Analysis
Creating Value through Data Analysis
 
How to Make Money from Data - Global Cases
How to Make Money from Data - Global CasesHow to Make Money from Data - Global Cases
How to Make Money from Data - Global Cases
 
Structured Streaming with Apache Spark
Structured Streaming with Apache SparkStructured Streaming with Apache Spark
Structured Streaming with Apache Spark
 
How to Create Value from Data, and Its Difficulty
How to Create Value from Data, and Its DifficultyHow to Create Value from Data, and Its Difficulty
How to Create Value from Data, and Its Difficulty
 
Machine Learning with Apache Spark and Zeppelin
Machine Learning with Apache Spark and ZeppelinMachine Learning with Apache Spark and Zeppelin
Machine Learning with Apache Spark and Zeppelin
 

Zeppelin and Open Source Ecosystem and Silicon Valley

  • 1. 제플린과 오픈소스 생태계, 그리고 실리콘벨리 이문수 moon@nflabs.com / zeppelinx.io
 ZeppelinX (aka NFLabs) 데이터야 놀자 2016
  • 3. Apache Project Github 레파지토리 별 갯수 1 Spark 10,310 2 PredictionIO 9,665 3 Kafka 3,898 4 Airflow 3,626 5 Storm 3,586 6 Cassandra 3,030 7 Thrift 3,026 8 CouchDB 2,718 9 Mesos 2,622 10 Hadoop 2,401 11 Zookeeper 2,118 12 Zeppelin 2,027 2016.10.12 13 Flink 1,637 14 Hive 1,069 15 mahout 922 16 Hbase 896 17 Flume 745 18 Dril 697 19 Arrow 666 20 Geode 629 21 Kylin 620 22 Ignite 583 23 Lucene-Solr 470 24 Accumulo 252 *Data 관련 프로젝트만 데이터야 놀자 2016
  • 4. Apache Project Github 레파지토리 컨트리뷰터 1 Spark 977 2 Kafka 232 3 Storm 230 4 Flink 230 5 Mesos 211 6 Airflow 192 7 Cassandra 187 8 Zeppelin 153 9 Thrift 126 10 CouchDB 106 11 PredictionIO 99 12 Hive 92 2016.10.12 13 Hbase 91 14 Hadoop 82 15 Ignite 76 16 Dril 67 17 Accumulo 65 18 Kylin 51 19 Lucene-Solr 50 20 Geode 46 21 Arrow 22 22 Flume 26 23 mahout 23 24 Zookeeper 9 *이전 페이지에 있던 프로젝트들 중 데이터야 놀자 2016
  • 5. 2015, 2016 The best opensource bigdata software! 데이터야 놀자 2016
  • 6. Apache Zeppelin, 가파르게 올라가는 중 입니다. 데이터야 놀자 2016
  • 7. Apache Zeppelin, 누가 기여하고 있나? 데이터야 놀자 2016
  • 8. aka. NFLabs 150 Contributors world wide 데이터야 놀자 2016
  • 9. Apache Zeppelin, 누가 쓰고 있을까? 데이터야 놀자 2016
  • 10. 세계 최초 Zeppelin 유저 전체 약 4000 명 직원 중 1000명이 Zeppelin 사용. Tableau 대체중 내부 개발자 portal 에 Zeppelin 제공 Recommendation 팀에서 사용 1.5PB / sec 처리하는 인프라 관리 하기 위해 사용 데이터야 놀자 2016
  • 12. 데이터야 놀자 2016 *사진 제플린과 친구들
 빅데이터 비행단
  • 13. Apache Zeppelin, 누가 돈벌고 있을까? 데이터야 놀자 2016
  • 14. EMR 에서 Zeppelin 서비스 Azure HD Insight 에서 Zeppelin 서비스 Google cloud data proc 에서 Zeppelin 스크 립트 제공 Zeppelin 서비스로 제공 데이터야 놀자 2016
  • 15. HDP 패키지에 Zeppelin 탑재 Juju 이용해 Zeppelin 을 on-prem/cloud 에 배포가능 분석 인터페이스로 Zeppelin 제공 Datascience workbench 에서 분석 인터페이 스로 Zeppelin 제공 데이터야 놀자 2016
  • 17. Contributors Users 150 Contributors world wide Service provider Technology Integration 데이터야 놀자 2016
  • 18. Zeppelin 이 가져다준 것 NFlabs회사이름 위치 한국 실리콘 벨리 & 한국 투자 Seed (한국) Series A (미국) 컨퍼런스/ 밋업 서울 서울, 센프란시스코, 산호세, 오스틴, 시애 틀 밴쿠버, 시드니, 벨번, 부다페스트, 베를 린, 암스테르담, 더블린, 상하이, 싱가폴, 런 던, 도쿄, 세비야....데이터야 놀자 2016
  • 19. 무엇이 지금까지 여정을 가능하게 했을까 요? Right time Right place Great team Great culture 3rd party business friendly 데이터야 놀자 2016
  • 20. HDFS 와 Map-reduce 를 CDN 서비스 프로덕션에 사용 빅데이터 기술 노하우 습득
 Hadoop 생태계에 분석환경 없음 느낌 CDN -> Big data Pivot Hadoop 플랫폼 SI 프로젝트 Spark 기반 분석 소프트웨어 (Peloton/ Peloton2/Zeppelin 0.4) 오픈소스로 빠르게 구현 (Zeppelin 0.5) Apache 에 incubation 됨 2010 2011 2012 2013 2014 2015 Zeppelin 을 Spark 이 한창 떠오르는 시점에, 사람들이 필 요로 하는 기능을 넣어서 공개할 수 있었던 이유 삽질잘해서, 어슬렁거려서,
 책보고공부해서, 똑똑해서 실제 사용해보고 여러번 시행착오를 겪었기 때문 (Peloton, Peloton2, Zeppelin-0.4) Right time Right place 데이터야 놀자 2016
  • 22. 첫 번째 오픈소스프로젝트 임에도 성공적인 오픈소스로 키울 수 있었던 이유 이미 오픈소스 프로젝트와 같은 방식으로 일하고 있었기 때문 원래부터 가지고 있던 팀 / 문화 다양성 - 4개국에서 온 개발자들 - 서로다른 경험과 문화 문화 - 원격 근무, Flexible time - 모든 커뮤니케이션은 영어로 오픈소스 프로젝트 - 전세계의 서로다른 개발 경 험, 서로다른 문화를 가진 개발자
 - 전세계에 분산된 개발자들 과 원격으로 협업 Great team Great culture 데이터야 놀자 2016
  • 23. 구글, 아마존, 마이크로소프트등 전세계 기업이 기여하고 서비스에 이용하는 이유 비즈니스를 독점하려고 하지 않았기 때문 Support Consulting Training Cloud service Enterprise Packaging OEM System integration Opensource development Sharing and Collaboration service on top of Zeppelin 3rd party business friendly 데이터야 놀자 2016
  • 24. 제플린은 어디로 갈까요? Spark BI / Communication 더 큰 세상으로 갑니다. 데이터야 놀자 2016