Dataworks Summit 2018 후기
SAN JOSE, USA JUNE 18-21
팅크웨어 선행기술개발팀
박대성
Dataworks Summit 2018
팅크웨어 선행기술개발팀
박대성
OVERVIEW
세션의 기술 적인 내용보다 전반적인 이야기를 다루고자 함
( 각 세션의 자세한 내용은 기회가 된다면 추후 발표 )
각 일정에 들었던 세션들
현장 분위기
SUMMIT 슬로건
세션 소개
그 밖에 재미있던 점
총평 및 소감
Dataworks Summit 2018
팅크웨어 선행기술개발팀
박대성
• KEYNOTE
• YARN 3.x
• GoPro’s Streaming Pipelines
• MaterializedViews in Apache Hive
• Spark Configuration Tuning
• ING’s Docker-based Pipelines
DAY 1
SCHEDULE
• KEYNOTE
• Cincinnati Insurance’s Spark ETL
• Streaming Analytics in Apache Metron
• United Airlines’s ETL
• HDFS Router-based Federation
DAY 2
SCHEDULE
• Apache Flink
• Geospatial Data Platform at Uber
DAY 3
SCHEDULE
참여 인원
2100+
32 개국 23 업종
# Keynote 에서 발표
참여 인원
하지만, 작년 대비 한산한 느낌
3일차 세션 모습
참여 인원
2014 채용 공고 게시판 2018 채용 공고 게시판
# 2014 채용공고 사진 출처 : Hortonworks 최종욱 페이스북 (https://www.facebook.com/pudidic)
채용 공고 게시판에도 변화
스폰서
실제로도 스폰서의 숫자가 줄었음
2017 2018
Hortonworks Yahoo!
Microsoft
Hewlett Packard
IBM
ORACLE
DELL EMC
Hortonworks
IBM
IMPETUS
TERADATA
IMPETUS Syncsoft ATSCALE
Microsoft Hewlett Packard
Syncsoft NetApp
# 기업명은 HOST, DIAMOND, PLATINUM의 스폰서만 표기함.
총 37 기업 (모든등급) 총 27 기업 (모든등급)
참여 인원
작년과는 다르게 한국인 참석자가 많이 보였음
그와중에 중국인의 증가가 가장 크게 두드러짐
2017
백상훈 박대성
2018
인도 중국
THINKWARE
NAVER
LG CNS
SK Hynix SAMSUNG Elec
인도
DATAWORKS 2018
SLOGAN
산업혁명 이 후의 비즈니스 모델의 변화
PROCEDURAL PROCESSING CONNECTED COMMUNITIES
Enterprise Customer Product Supply Customer
Enterprise
Product
Supply
데이터가 증가, 그에 따른 가치도 상승
무어의 법칙 메트칼프의 법칙 베조스의 법칙
“마이크로칩의 성능은
2년마다 2배로 증가한다”
“네트워크의 가치는
그 이용자 수의 제곱에 비례한다.”
“클라우드 컴퓨팅의 가격은
3년마다 절반씩 떨어진다”
비용 가치
ROB REARDEN, CEO, Hortonworks
“HDP-3는 이제 하이브리드 형태로 Cloud와 GPU를 지원할 것이다”
ROBTHOMAS, General Manager, IBM
“DATA Transformation한 기업들의 가치는 상승할 것이며
그 안엔 AI가 있다. IBM은 이 AI를 쉽고 만연하게 쓰도록 할 것이다”
“Algorithms can be bought. Not your data.”
PRAVEEN KANKARIYA, CEO, Impetus
“이젠 데이터를 어떻게 처리할지 보다 어떻게 활용할지가 중요”
Ideas,
Insights,
Innovation.
Dataworks 2017 Slogan - Transformation through Data
# GoPro Spark Streaming Pipeline
세션 소개
Deep Learning 보단 Spark Streaming, NiFi 등이 많이 언급
구축 사례를 보면 NiFi, Kafka, Spark Streaming 로 처리한 사례가 많음
(Event)
(State)
세션 소개
데이터를 주고 받을 때의 로그의 포맷은 주로 JSON 포맷을 사용
“Spark DataFrame의 장점을 극대화”
JSON Support, SQL Transformations, Parquet Support, Hive Support, Kafka Integration
df = sqlContext.read.json(“JSON_DATAFILE”)
df.show()
// +------+----------+
// |action| timestamp|
// +------+----------+
// |create|1452121277|
// | null| null|
// +------+----------+
df = sqlContext.read.json(“JSON_DATAFILE”)
df.createOrReplaceTempView(“json_view”)
df_new = sqlContext.sql(“select * from json_view”)
df_new.show()
// +------+----------+
// |action| timestamp|
// +------+----------+
// |create|1452121277|
// | null| null|
// +------+----------+
세션 소개
ING의 “Docker data science pipeline” 세션에선
GITLAB 의 CI-CD 기능을 활용하여 Docker 이미지를 생성/배포/테스트 하는 과정을 설명
GITLAB 의 CI-CD 기능을 활용,
자동 배포/테스트하는 방법을 적용 해 볼 수 있을 것
적용 예
• Gitlab을 통한 배포로 NEW SONA 웹페이지의 버전 관리
• IX 통계 모듈 업데이트 패치 배포 자동화
세션 소개
Hortonworks의 “Accelerating query processing with materialized views in Apache Hive” 세션에선
조회하는 쿼리에 따라 내부 뷰의 쿼리가 최적화 되는 Materialized View에 대한 소개
반복 사용되는 쿼리에 대해 빠른 성능을 기대할 수 있음
단, 사용처가 매우 제한 될 것으로 생각
세션 소개
data Artisans의 “Why and how to leverage the simplicity and power of SQL on Flink” 세션에선
SQL로 Streaming/Batch 데이터를 조회할 수 있는 Apache Flink에 대한 소개
친숙한 SQL을 이용하는 장점과
Query 종류에 따라 Streaming/Batch 결과를 제공
kafka+kibana를 이용하여 Query 하나로,
택시에 탑승하고 내리는 지역을 실시간으로 표출하는 예제를 보여주었음
세션 소개
Uber의 “Geospatial data platform at Uber” 세션에선
GPS 좌표 데이터를 빠르게 Polygon에 매칭하기 위한 좌표 데이터의 최적화 과정을 소개
Uber에서 QuadTree 알고리즘을 발표

특정 좌표의 ADMCODE를 빠르게 찾는데 사용할 수 있을 것으로 기대
그 밖에 재미있던 것들
부스 한쪽에서 Stress Free Zone을 운영
아기 멍멍이🐶들을 만지며 힐링할 수 있음
부스 한쪽에서 Ask Me Anything Lounge를 운영
이 곳에 무엇이든 궁금한 걸 적어두면 담당자가 와서 설명해주는 장소
CAT!
Ask me about
누군가는 이 곳에 이렇게 적었음
총평 및 소감
중국은거지도QR코드로구걸할정도로
디지털변화가빠르게일어나고있음
총평 및 소감
DevOps NoOps
기업들은 벌써 움직이고 있음
Dataworks Summit 2018
총평 및 소감
작년 Dataworks 2017을 방문 했을 때의 느낌은
다 새롭고 대단하게 보였음
올 해 Dataworks 2018을 방문 했을 때의 느낌은
“저긴 우리랑 비슷하네?”
우리는 Data Transformation 을 성공 한 것일까?
Dataworks Summit 2018
총평 및 소감
COST REDUCTION MODERNIZATION INSIGHT-DRIVEN TRANSFORMATION
Enterprise Value 2017 2018
6%
43%
45%
6% 5%
41%
42%
12%
The Data Maturity Curve
# 출처 : DELL EMC
계획 데이터 적재
자가 분석
새로운 사업 창출
감사합니다
# 슬라이드에 사용된 아이콘 출처 : NounProject (https://thenounproject.com/)

DataWorks Summit 2018

  • 1.
    Dataworks Summit 2018후기 SAN JOSE, USA JUNE 18-21 팅크웨어 선행기술개발팀 박대성
  • 2.
    Dataworks Summit 2018 팅크웨어선행기술개발팀 박대성 OVERVIEW 세션의 기술 적인 내용보다 전반적인 이야기를 다루고자 함 ( 각 세션의 자세한 내용은 기회가 된다면 추후 발표 ) 각 일정에 들었던 세션들 현장 분위기 SUMMIT 슬로건 세션 소개 그 밖에 재미있던 점 총평 및 소감
  • 3.
    Dataworks Summit 2018 팅크웨어선행기술개발팀 박대성 • KEYNOTE • YARN 3.x • GoPro’s Streaming Pipelines • MaterializedViews in Apache Hive • Spark Configuration Tuning • ING’s Docker-based Pipelines DAY 1 SCHEDULE
  • 4.
    • KEYNOTE • CincinnatiInsurance’s Spark ETL • Streaming Analytics in Apache Metron • United Airlines’s ETL • HDFS Router-based Federation DAY 2 SCHEDULE
  • 5.
    • Apache Flink •Geospatial Data Platform at Uber DAY 3 SCHEDULE
  • 6.
    참여 인원 2100+ 32 개국23 업종 # Keynote 에서 발표
  • 7.
    참여 인원 하지만, 작년대비 한산한 느낌 3일차 세션 모습
  • 8.
    참여 인원 2014 채용공고 게시판 2018 채용 공고 게시판 # 2014 채용공고 사진 출처 : Hortonworks 최종욱 페이스북 (https://www.facebook.com/pudidic) 채용 공고 게시판에도 변화
  • 9.
    스폰서 실제로도 스폰서의 숫자가줄었음 2017 2018 Hortonworks Yahoo! Microsoft Hewlett Packard IBM ORACLE DELL EMC Hortonworks IBM IMPETUS TERADATA IMPETUS Syncsoft ATSCALE Microsoft Hewlett Packard Syncsoft NetApp # 기업명은 HOST, DIAMOND, PLATINUM의 스폰서만 표기함. 총 37 기업 (모든등급) 총 27 기업 (모든등급)
  • 10.
    참여 인원 작년과는 다르게한국인 참석자가 많이 보였음 그와중에 중국인의 증가가 가장 크게 두드러짐 2017 백상훈 박대성 2018 인도 중국 THINKWARE NAVER LG CNS SK Hynix SAMSUNG Elec 인도
  • 11.
  • 12.
    산업혁명 이 후의비즈니스 모델의 변화 PROCEDURAL PROCESSING CONNECTED COMMUNITIES Enterprise Customer Product Supply Customer Enterprise Product Supply
  • 13.
    데이터가 증가, 그에따른 가치도 상승 무어의 법칙 메트칼프의 법칙 베조스의 법칙 “마이크로칩의 성능은 2년마다 2배로 증가한다” “네트워크의 가치는 그 이용자 수의 제곱에 비례한다.” “클라우드 컴퓨팅의 가격은 3년마다 절반씩 떨어진다” 비용 가치
  • 14.
    ROB REARDEN, CEO,Hortonworks “HDP-3는 이제 하이브리드 형태로 Cloud와 GPU를 지원할 것이다” ROBTHOMAS, General Manager, IBM “DATA Transformation한 기업들의 가치는 상승할 것이며 그 안엔 AI가 있다. IBM은 이 AI를 쉽고 만연하게 쓰도록 할 것이다” “Algorithms can be bought. Not your data.” PRAVEEN KANKARIYA, CEO, Impetus “이젠 데이터를 어떻게 처리할지 보다 어떻게 활용할지가 중요”
  • 15.
  • 16.
    # GoPro SparkStreaming Pipeline 세션 소개 Deep Learning 보단 Spark Streaming, NiFi 등이 많이 언급 구축 사례를 보면 NiFi, Kafka, Spark Streaming 로 처리한 사례가 많음 (Event) (State)
  • 17.
    세션 소개 데이터를 주고받을 때의 로그의 포맷은 주로 JSON 포맷을 사용 “Spark DataFrame의 장점을 극대화” JSON Support, SQL Transformations, Parquet Support, Hive Support, Kafka Integration df = sqlContext.read.json(“JSON_DATAFILE”) df.show() // +------+----------+ // |action| timestamp| // +------+----------+ // |create|1452121277| // | null| null| // +------+----------+ df = sqlContext.read.json(“JSON_DATAFILE”) df.createOrReplaceTempView(“json_view”) df_new = sqlContext.sql(“select * from json_view”) df_new.show() // +------+----------+ // |action| timestamp| // +------+----------+ // |create|1452121277| // | null| null| // +------+----------+
  • 18.
    세션 소개 ING의 “Dockerdata science pipeline” 세션에선 GITLAB 의 CI-CD 기능을 활용하여 Docker 이미지를 생성/배포/테스트 하는 과정을 설명 GITLAB 의 CI-CD 기능을 활용, 자동 배포/테스트하는 방법을 적용 해 볼 수 있을 것 적용 예 • Gitlab을 통한 배포로 NEW SONA 웹페이지의 버전 관리 • IX 통계 모듈 업데이트 패치 배포 자동화
  • 19.
    세션 소개 Hortonworks의 “Acceleratingquery processing with materialized views in Apache Hive” 세션에선 조회하는 쿼리에 따라 내부 뷰의 쿼리가 최적화 되는 Materialized View에 대한 소개 반복 사용되는 쿼리에 대해 빠른 성능을 기대할 수 있음 단, 사용처가 매우 제한 될 것으로 생각
  • 20.
    세션 소개 data Artisans의“Why and how to leverage the simplicity and power of SQL on Flink” 세션에선 SQL로 Streaming/Batch 데이터를 조회할 수 있는 Apache Flink에 대한 소개 친숙한 SQL을 이용하는 장점과 Query 종류에 따라 Streaming/Batch 결과를 제공 kafka+kibana를 이용하여 Query 하나로, 택시에 탑승하고 내리는 지역을 실시간으로 표출하는 예제를 보여주었음
  • 21.
    세션 소개 Uber의 “Geospatialdata platform at Uber” 세션에선 GPS 좌표 데이터를 빠르게 Polygon에 매칭하기 위한 좌표 데이터의 최적화 과정을 소개 Uber에서 QuadTree 알고리즘을 발표
 특정 좌표의 ADMCODE를 빠르게 찾는데 사용할 수 있을 것으로 기대
  • 22.
    그 밖에 재미있던것들 부스 한쪽에서 Stress Free Zone을 운영 아기 멍멍이🐶들을 만지며 힐링할 수 있음 부스 한쪽에서 Ask Me Anything Lounge를 운영 이 곳에 무엇이든 궁금한 걸 적어두면 담당자가 와서 설명해주는 장소 CAT! Ask me about 누군가는 이 곳에 이렇게 적었음
  • 23.
  • 24.
    총평 및 소감 DevOpsNoOps 기업들은 벌써 움직이고 있음
  • 25.
    Dataworks Summit 2018 총평및 소감 작년 Dataworks 2017을 방문 했을 때의 느낌은 다 새롭고 대단하게 보였음 올 해 Dataworks 2018을 방문 했을 때의 느낌은 “저긴 우리랑 비슷하네?” 우리는 Data Transformation 을 성공 한 것일까?
  • 26.
    Dataworks Summit 2018 총평및 소감 COST REDUCTION MODERNIZATION INSIGHT-DRIVEN TRANSFORMATION Enterprise Value 2017 2018 6% 43% 45% 6% 5% 41% 42% 12% The Data Maturity Curve # 출처 : DELL EMC 계획 데이터 적재 자가 분석 새로운 사업 창출
  • 27.
    감사합니다 # 슬라이드에 사용된아이콘 출처 : NounProject (https://thenounproject.com/)