DataWorks Summit 2018

Dataworks Summit 2018 후기
SAN JOSE, USA JUNE 18-21
팅크웨어 선행기술개발팀
박대성

Dataworks Summit 2018
박대성
OVERVIEW
세션의 기술 적인 내용보다 전반적인 이야기를 다루고자 함
( 각 세션의 자세한 내용은 기회가 된다면 추후 발표 )
각 일정에 들었던 세션들
현장 분위기
SUMMIT 슬로건
세션 소개
그 밖에 재미있던 점
총평 및 소감

박대성
• KEYNOTE
• YARN 3.x
• GoPro’s Streaming Pipelines
• MaterializedViews in Apache Hive
• Spark Configuration Tuning
• ING’s Docker-based Pipelines
DAY 1
SCHEDULE

• KEYNOTE
• Cincinnati Insurance’s Spark ETL
• Streaming Analytics in Apache Metron
• United Airlines’s ETL
• HDFS Router-based Federation
DAY 2
SCHEDULE

• Apache Flink
• Geospatial Data Platform at Uber
DAY 3
SCHEDULE

참여 인원
2100+
32 개국 23 업종
# Keynote 에서 발표

참여 인원
하지만, 작년 대비 한산한 느낌
3일차 세션 모습

참여 인원
2014 채용 공고 게시판 2018 채용 공고 게시판
# 2014 채용공고 사진 출처 : Hortonworks 최종욱 페이스북 (https://www.facebook.com/pudidic)
채용 공고 게시판에도 변화

스폰서
실제로도 스폰서의 숫자가 줄었음
2017 2018
Hortonworks Yahoo!
Microsoft
Hewlett Packard
IBM
ORACLE
DELL EMC
Hortonworks
IBM
IMPETUS
TERADATA
IMPETUS Syncsoft ATSCALE
Microsoft Hewlett Packard
Syncsoft NetApp
# 기업명은 HOST, DIAMOND, PLATINUM의 스폰서만 표기함.
총 37 기업 (모든등급) 총 27 기업 (모든등급)

참여 인원
작년과는 다르게 한국인 참석자가 많이 보였음
그와중에 중국인의 증가가 가장 크게 두드러짐
2017
백상훈 박대성
2018
인도 중국
THINKWARE
NAVER
LG CNS
SK Hynix SAMSUNG Elec
인도

산업혁명 이 후의 비즈니스 모델의 변화
PROCEDURAL PROCESSING CONNECTED COMMUNITIES
Enterprise Customer Product Supply Customer
Enterprise
Product
Supply

데이터가 증가, 그에 따른 가치도 상승
무어의 법칙 메트칼프의 법칙 베조스의 법칙
“마이크로칩의 성능은
2년마다 2배로 증가한다”
“네트워크의 가치는
그 이용자 수의 제곱에 비례한다.”
“클라우드 컴퓨팅의 가격은
3년마다 절반씩 떨어진다”
비용 가치

ROB REARDEN, CEO, Hortonworks
“HDP-3는 이제 하이브리드 형태로 Cloud와 GPU를 지원할 것이다”
ROBTHOMAS, General Manager, IBM
“DATA Transformation한 기업들의 가치는 상승할 것이며
그 안엔 AI가 있다. IBM은 이 AI를 쉽고 만연하게 쓰도록 할 것이다”
“Algorithms can be bought. Not your data.”
PRAVEEN KANKARIYA, CEO, Impetus
“이젠 데이터를 어떻게 처리할지 보다 어떻게 활용할지가 중요”

Ideas,
Insights,
Innovation.
Dataworks 2017 Slogan - Transformation through Data

# GoPro Spark Streaming Pipeline
세션 소개
Deep Learning 보단 Spark Streaming, NiFi 등이 많이 언급
구축 사례를 보면 NiFi, Kafka, Spark Streaming 로 처리한 사례가 많음
(Event)
(State)

세션 소개
ING의 “Docker data science pipeline” 세션에선
GITLAB 의 CI-CD 기능을 활용하여 Docker 이미지를 생성/배포/테스트 하는 과정을 설명
GITLAB 의 CI-CD 기능을 활용,
자동 배포/테스트하는 방법을 적용 해 볼 수 있을 것
적용 예
• Gitlab을 통한 배포로 NEW SONA 웹페이지의 버전 관리
• IX 통계 모듈 업데이트 패치 배포 자동화

세션 소개
Hortonworks의 “Accelerating query processing with materialized views in Apache Hive” 세션에선
조회하는 쿼리에 따라 내부 뷰의 쿼리가 최적화 되는 Materialized View에 대한 소개
반복 사용되는 쿼리에 대해 빠른 성능을 기대할 수 있음
단, 사용처가 매우 제한 될 것으로 생각

세션 소개
data Artisans의 “Why and how to leverage the simplicity and power of SQL on Flink” 세션에선
SQL로 Streaming/Batch 데이터를 조회할 수 있는 Apache Flink에 대한 소개
친숙한 SQL을 이용하는 장점과
Query 종류에 따라 Streaming/Batch 결과를 제공
kafka+kibana를 이용하여 Query 하나로,
택시에 탑승하고 내리는 지역을 실시간으로 표출하는 예제를 보여주었음

세션 소개
Uber의 “Geospatial data platform at Uber” 세션에선
GPS 좌표 데이터를 빠르게 Polygon에 매칭하기 위한 좌표 데이터의 최적화 과정을 소개
Uber에서 QuadTree 알고리즘을 발표 
특정 좌표의 ADMCODE를 빠르게 찾는데 사용할 수 있을 것으로 기대

그 밖에 재미있던 것들
부스 한쪽에서 Stress Free Zone을 운영
아기 멍멍이🐶들을 만지며 힐링할 수 있음
부스 한쪽에서 Ask Me Anything Lounge를 운영
이 곳에 무엇이든 궁금한 걸 적어두면 담당자가 와서 설명해주는 장소
CAT!
Ask me about
누군가는 이 곳에 이렇게 적었음

총평 및 소감
중국은거지도QR코드로구걸할정도로
디지털변화가빠르게일어나고있음

총평 및 소감
DevOps NoOps
기업들은 벌써 움직이고 있음

총평 및 소감
작년 Dataworks 2017을 방문 했을 때의 느낌은
다 새롭고 대단하게 보였음
올 해 Dataworks 2018을 방문 했을 때의 느낌은
“저긴 우리랑 비슷하네?”
우리는 Data Transformation 을 성공 한 것일까?

총평 및 소감
COST REDUCTION MODERNIZATION INSIGHT-DRIVEN TRANSFORMATION
Enterprise Value 2017 2018
6%
43%
45%
6% 5%
41%
42%
12%
The Data Maturity Curve
# 출처 : DELL EMC
계획 데이터 적재
자가 분석
새로운 사업 창출

감사합니다
# 슬라이드에 사용된 아이콘 출처 : NounProject (https://thenounproject.com/)

DataWorks Summit 2018

Recommended

Recommended

More Related Content

Similar to DataWorks Summit 2018

Similar to DataWorks Summit 2018 (20)

More from Daesung Park

More from Daesung Park (7)

DataWorks Summit 2018