SlideShare a Scribd company logo
1 of 27
Download to read offline
Dataworks Summit 2018 후기
SAN JOSE, USA JUNE 18-21
팅크웨어 선행기술개발팀
박대성
Dataworks Summit 2018
팅크웨어 선행기술개발팀
박대성
OVERVIEW
세션의 기술 적인 내용보다 전반적인 이야기를 다루고자 함
( 각 세션의 자세한 내용은 기회가 된다면 추후 발표 )
각 일정에 들었던 세션들
현장 분위기
SUMMIT 슬로건
세션 소개
그 밖에 재미있던 점
총평 및 소감
Dataworks Summit 2018
팅크웨어 선행기술개발팀
박대성
• KEYNOTE
• YARN 3.x
• GoPro’s Streaming Pipelines
• MaterializedViews in Apache Hive
• Spark Configuration Tuning
• ING’s Docker-based Pipelines
DAY 1
SCHEDULE
• KEYNOTE
• Cincinnati Insurance’s Spark ETL
• Streaming Analytics in Apache Metron
• United Airlines’s ETL
• HDFS Router-based Federation
DAY 2
SCHEDULE
• Apache Flink
• Geospatial Data Platform at Uber
DAY 3
SCHEDULE
참여 인원
2100+
32 개국 23 업종
# Keynote 에서 발표
참여 인원
하지만, 작년 대비 한산한 느낌
3일차 세션 모습
참여 인원
2014 채용 공고 게시판 2018 채용 공고 게시판
# 2014 채용공고 사진 출처 : Hortonworks 최종욱 페이스북 (https://www.facebook.com/pudidic)
채용 공고 게시판에도 변화
스폰서
실제로도 스폰서의 숫자가 줄었음
2017 2018
Hortonworks Yahoo!
Microsoft
Hewlett Packard
IBM
ORACLE
DELL EMC
Hortonworks
IBM
IMPETUS
TERADATA
IMPETUS Syncsoft ATSCALE
Microsoft Hewlett Packard
Syncsoft NetApp
# 기업명은 HOST, DIAMOND, PLATINUM의 스폰서만 표기함.
총 37 기업 (모든등급) 총 27 기업 (모든등급)
참여 인원
작년과는 다르게 한국인 참석자가 많이 보였음
그와중에 중국인의 증가가 가장 크게 두드러짐
2017
백상훈 박대성
2018
인도 중국
THINKWARE
NAVER
LG CNS
SK Hynix SAMSUNG Elec
인도
DATAWORKS 2018
SLOGAN
산업혁명 이 후의 비즈니스 모델의 변화
PROCEDURAL PROCESSING CONNECTED COMMUNITIES
Enterprise Customer Product Supply Customer
Enterprise
Product
Supply
데이터가 증가, 그에 따른 가치도 상승
무어의 법칙 메트칼프의 법칙 베조스의 법칙
“마이크로칩의 성능은
2년마다 2배로 증가한다”
“네트워크의 가치는
그 이용자 수의 제곱에 비례한다.”
“클라우드 컴퓨팅의 가격은
3년마다 절반씩 떨어진다”
비용 가치
ROB REARDEN, CEO, Hortonworks
“HDP-3는 이제 하이브리드 형태로 Cloud와 GPU를 지원할 것이다”
ROBTHOMAS, General Manager, IBM
“DATA Transformation한 기업들의 가치는 상승할 것이며
그 안엔 AI가 있다. IBM은 이 AI를 쉽고 만연하게 쓰도록 할 것이다”
“Algorithms can be bought. Not your data.”
PRAVEEN KANKARIYA, CEO, Impetus
“이젠 데이터를 어떻게 처리할지 보다 어떻게 활용할지가 중요”
Ideas,
Insights,
Innovation.
Dataworks 2017 Slogan - Transformation through Data
# GoPro Spark Streaming Pipeline
세션 소개
Deep Learning 보단 Spark Streaming, NiFi 등이 많이 언급
구축 사례를 보면 NiFi, Kafka, Spark Streaming 로 처리한 사례가 많음
(Event)
(State)
세션 소개
데이터를 주고 받을 때의 로그의 포맷은 주로 JSON 포맷을 사용
“Spark DataFrame의 장점을 극대화”
JSON Support, SQL Transformations, Parquet Support, Hive Support, Kafka Integration
df = sqlContext.read.json(“JSON_DATAFILE”)
df.show()
// +------+----------+
// |action| timestamp|
// +------+----------+
// |create|1452121277|
// | null| null|
// +------+----------+
df = sqlContext.read.json(“JSON_DATAFILE”)
df.createOrReplaceTempView(“json_view”)
df_new = sqlContext.sql(“select * from json_view”)
df_new.show()
// +------+----------+
// |action| timestamp|
// +------+----------+
// |create|1452121277|
// | null| null|
// +------+----------+
세션 소개
ING의 “Docker data science pipeline” 세션에선
GITLAB 의 CI-CD 기능을 활용하여 Docker 이미지를 생성/배포/테스트 하는 과정을 설명
GITLAB 의 CI-CD 기능을 활용,
자동 배포/테스트하는 방법을 적용 해 볼 수 있을 것
적용 예
• Gitlab을 통한 배포로 NEW SONA 웹페이지의 버전 관리
• IX 통계 모듈 업데이트 패치 배포 자동화
세션 소개
Hortonworks의 “Accelerating query processing with materialized views in Apache Hive” 세션에선
조회하는 쿼리에 따라 내부 뷰의 쿼리가 최적화 되는 Materialized View에 대한 소개
반복 사용되는 쿼리에 대해 빠른 성능을 기대할 수 있음
단, 사용처가 매우 제한 될 것으로 생각
세션 소개
data Artisans의 “Why and how to leverage the simplicity and power of SQL on Flink” 세션에선
SQL로 Streaming/Batch 데이터를 조회할 수 있는 Apache Flink에 대한 소개
친숙한 SQL을 이용하는 장점과
Query 종류에 따라 Streaming/Batch 결과를 제공
kafka+kibana를 이용하여 Query 하나로,
택시에 탑승하고 내리는 지역을 실시간으로 표출하는 예제를 보여주었음
세션 소개
Uber의 “Geospatial data platform at Uber” 세션에선
GPS 좌표 데이터를 빠르게 Polygon에 매칭하기 위한 좌표 데이터의 최적화 과정을 소개
Uber에서 QuadTree 알고리즘을 발표

특정 좌표의 ADMCODE를 빠르게 찾는데 사용할 수 있을 것으로 기대
그 밖에 재미있던 것들
부스 한쪽에서 Stress Free Zone을 운영
아기 멍멍이🐶들을 만지며 힐링할 수 있음
부스 한쪽에서 Ask Me Anything Lounge를 운영
이 곳에 무엇이든 궁금한 걸 적어두면 담당자가 와서 설명해주는 장소
CAT!
Ask me about
누군가는 이 곳에 이렇게 적었음
총평 및 소감
중국은거지도QR코드로구걸할정도로
디지털변화가빠르게일어나고있음
총평 및 소감
DevOps NoOps
기업들은 벌써 움직이고 있음
Dataworks Summit 2018
총평 및 소감
작년 Dataworks 2017을 방문 했을 때의 느낌은
다 새롭고 대단하게 보였음
올 해 Dataworks 2018을 방문 했을 때의 느낌은
“저긴 우리랑 비슷하네?”
우리는 Data Transformation 을 성공 한 것일까?
Dataworks Summit 2018
총평 및 소감
COST REDUCTION MODERNIZATION INSIGHT-DRIVEN TRANSFORMATION
Enterprise Value 2017 2018
6%
43%
45%
6% 5%
41%
42%
12%
The Data Maturity Curve
# 출처 : DELL EMC
계획 데이터 적재
자가 분석
새로운 사업 창출
감사합니다
# 슬라이드에 사용된 아이콘 출처 : NounProject (https://thenounproject.com/)

More Related Content

Similar to DataWorks Summit 2018

OPEN_POWER8_SESSION_20150316
OPEN_POWER8_SESSION_20150316OPEN_POWER8_SESSION_20150316
OPEN_POWER8_SESSION_20150316기한 김
 
Pag 빅데이터-한국에도필요한가
Pag 빅데이터-한국에도필요한가Pag 빅데이터-한국에도필요한가
Pag 빅데이터-한국에도필요한가Wooseung Kim
 
스타트업사례로 본 로그 데이터분석 : Tajo on AWS
스타트업사례로 본 로그 데이터분석 : Tajo on AWS스타트업사례로 본 로그 데이터분석 : Tajo on AWS
스타트업사례로 본 로그 데이터분석 : Tajo on AWSGruter
 
Open standard open cloud engine for digital business process
Open standard open cloud engine for digital business process Open standard open cloud engine for digital business process
Open standard open cloud engine for digital business process uEngine Solutions
 
Lablupconf session8 "Paving the road to AI-powered world"
Lablupconf session8 "Paving the road to AI-powered world"Lablupconf session8 "Paving the road to AI-powered world"
Lablupconf session8 "Paving the road to AI-powered world"Lablup Inc.
 
SOSCON 2017 - Backend.AI
SOSCON 2017 - Backend.AISOSCON 2017 - Backend.AI
SOSCON 2017 - Backend.AIJoongi Kim
 
재업로드주소: https://www.slideshare.net/hnki0104/gsshop-103837144
재업로드주소: https://www.slideshare.net/hnki0104/gsshop-103837144재업로드주소: https://www.slideshare.net/hnki0104/gsshop-103837144
재업로드주소: https://www.slideshare.net/hnki0104/gsshop-103837144Darion Kim
 
글로벌 지도 API 서비스 현황과 미래 - 한국지리정보학회 (2014)
글로벌 지도 API 서비스 현황과 미래 - 한국지리정보학회 (2014)글로벌 지도 API 서비스 현황과 미래 - 한국지리정보학회 (2014)
글로벌 지도 API 서비스 현황과 미래 - 한국지리정보학회 (2014)Channy Yun
 
The Data tech for AI based innovation(기업의 AI기반 혁신을 지원하는 데이터 기술)
The Data tech for AI based innovation(기업의 AI기반 혁신을 지원하는 데이터 기술)The Data tech for AI based innovation(기업의 AI기반 혁신을 지원하는 데이터 기술)
The Data tech for AI based innovation(기업의 AI기반 혁신을 지원하는 데이터 기술)SANG WON PARK
 
스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS
스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS
스타트업 사례로 본 로그 데이터 분석 : Tajo on AWSMatthew (정재화)
 
DB관점에서 본 빅데이터 (2019년 8월)
DB관점에서 본 빅데이터 (2019년 8월)DB관점에서 본 빅데이터 (2019년 8월)
DB관점에서 본 빅데이터 (2019년 8월)Kee Hoon Lee
 
Cloudera session seoul - Spark bootcamp
Cloudera session seoul - Spark bootcampCloudera session seoul - Spark bootcamp
Cloudera session seoul - Spark bootcampSang-bae Lim
 
Spark machine learning & deep learning
Spark machine learning & deep learningSpark machine learning & deep learning
Spark machine learning & deep learninghoondong kim
 
DataWorks Summit 2017
DataWorks Summit 2017DataWorks Summit 2017
DataWorks Summit 2017Daesung Park
 
Auto Scalable 한 Deep Learning Production 을 위한 AI Serving Infra 구성 및 AI DevOps...
Auto Scalable 한 Deep Learning Production 을 위한 AI Serving Infra 구성 및 AI DevOps...Auto Scalable 한 Deep Learning Production 을 위한 AI Serving Infra 구성 및 AI DevOps...
Auto Scalable 한 Deep Learning Production 을 위한 AI Serving Infra 구성 및 AI DevOps...hoondong kim
 
AWS Finance Symposium_바로 도입할 수 있는 금융권 업무의 클라우드 아키텍처 알아보기
AWS Finance Symposium_바로 도입할 수 있는 금융권 업무의 클라우드 아키텍처 알아보기AWS Finance Symposium_바로 도입할 수 있는 금융권 업무의 클라우드 아키텍처 알아보기
AWS Finance Symposium_바로 도입할 수 있는 금융권 업무의 클라우드 아키텍처 알아보기Amazon Web Services Korea
 
Real-time Big Data Analytics Practice with Unstructured Data
Real-time Big Data Analytics Practice with Unstructured DataReal-time Big Data Analytics Practice with Unstructured Data
Real-time Big Data Analytics Practice with Unstructured DataTed Won
 
[KR] Building modern data pipeline with Snowflake + DBT + Airflow.pdf
[KR] Building modern data pipeline with Snowflake + DBT + Airflow.pdf[KR] Building modern data pipeline with Snowflake + DBT + Airflow.pdf
[KR] Building modern data pipeline with Snowflake + DBT + Airflow.pdfChris Hoyean Song
 
주니어 개발자의 서버 로그 관리 개선기
주니어 개발자의 서버 로그 관리 개선기주니어 개발자의 서버 로그 관리 개선기
주니어 개발자의 서버 로그 관리 개선기Yeonhee Kim
 
OCE - Cno 2014 private sector oriented open paas oce
OCE - Cno 2014 private sector oriented open paas   oceOCE - Cno 2014 private sector oriented open paas   oce
OCE - Cno 2014 private sector oriented open paas oceuEngine Solutions
 

Similar to DataWorks Summit 2018 (20)

OPEN_POWER8_SESSION_20150316
OPEN_POWER8_SESSION_20150316OPEN_POWER8_SESSION_20150316
OPEN_POWER8_SESSION_20150316
 
Pag 빅데이터-한국에도필요한가
Pag 빅데이터-한국에도필요한가Pag 빅데이터-한국에도필요한가
Pag 빅데이터-한국에도필요한가
 
스타트업사례로 본 로그 데이터분석 : Tajo on AWS
스타트업사례로 본 로그 데이터분석 : Tajo on AWS스타트업사례로 본 로그 데이터분석 : Tajo on AWS
스타트업사례로 본 로그 데이터분석 : Tajo on AWS
 
Open standard open cloud engine for digital business process
Open standard open cloud engine for digital business process Open standard open cloud engine for digital business process
Open standard open cloud engine for digital business process
 
Lablupconf session8 "Paving the road to AI-powered world"
Lablupconf session8 "Paving the road to AI-powered world"Lablupconf session8 "Paving the road to AI-powered world"
Lablupconf session8 "Paving the road to AI-powered world"
 
SOSCON 2017 - Backend.AI
SOSCON 2017 - Backend.AISOSCON 2017 - Backend.AI
SOSCON 2017 - Backend.AI
 
재업로드주소: https://www.slideshare.net/hnki0104/gsshop-103837144
재업로드주소: https://www.slideshare.net/hnki0104/gsshop-103837144재업로드주소: https://www.slideshare.net/hnki0104/gsshop-103837144
재업로드주소: https://www.slideshare.net/hnki0104/gsshop-103837144
 
글로벌 지도 API 서비스 현황과 미래 - 한국지리정보학회 (2014)
글로벌 지도 API 서비스 현황과 미래 - 한국지리정보학회 (2014)글로벌 지도 API 서비스 현황과 미래 - 한국지리정보학회 (2014)
글로벌 지도 API 서비스 현황과 미래 - 한국지리정보학회 (2014)
 
The Data tech for AI based innovation(기업의 AI기반 혁신을 지원하는 데이터 기술)
The Data tech for AI based innovation(기업의 AI기반 혁신을 지원하는 데이터 기술)The Data tech for AI based innovation(기업의 AI기반 혁신을 지원하는 데이터 기술)
The Data tech for AI based innovation(기업의 AI기반 혁신을 지원하는 데이터 기술)
 
스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS
스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS
스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS
 
DB관점에서 본 빅데이터 (2019년 8월)
DB관점에서 본 빅데이터 (2019년 8월)DB관점에서 본 빅데이터 (2019년 8월)
DB관점에서 본 빅데이터 (2019년 8월)
 
Cloudera session seoul - Spark bootcamp
Cloudera session seoul - Spark bootcampCloudera session seoul - Spark bootcamp
Cloudera session seoul - Spark bootcamp
 
Spark machine learning & deep learning
Spark machine learning & deep learningSpark machine learning & deep learning
Spark machine learning & deep learning
 
DataWorks Summit 2017
DataWorks Summit 2017DataWorks Summit 2017
DataWorks Summit 2017
 
Auto Scalable 한 Deep Learning Production 을 위한 AI Serving Infra 구성 및 AI DevOps...
Auto Scalable 한 Deep Learning Production 을 위한 AI Serving Infra 구성 및 AI DevOps...Auto Scalable 한 Deep Learning Production 을 위한 AI Serving Infra 구성 및 AI DevOps...
Auto Scalable 한 Deep Learning Production 을 위한 AI Serving Infra 구성 및 AI DevOps...
 
AWS Finance Symposium_바로 도입할 수 있는 금융권 업무의 클라우드 아키텍처 알아보기
AWS Finance Symposium_바로 도입할 수 있는 금융권 업무의 클라우드 아키텍처 알아보기AWS Finance Symposium_바로 도입할 수 있는 금융권 업무의 클라우드 아키텍처 알아보기
AWS Finance Symposium_바로 도입할 수 있는 금융권 업무의 클라우드 아키텍처 알아보기
 
Real-time Big Data Analytics Practice with Unstructured Data
Real-time Big Data Analytics Practice with Unstructured DataReal-time Big Data Analytics Practice with Unstructured Data
Real-time Big Data Analytics Practice with Unstructured Data
 
[KR] Building modern data pipeline with Snowflake + DBT + Airflow.pdf
[KR] Building modern data pipeline with Snowflake + DBT + Airflow.pdf[KR] Building modern data pipeline with Snowflake + DBT + Airflow.pdf
[KR] Building modern data pipeline with Snowflake + DBT + Airflow.pdf
 
주니어 개발자의 서버 로그 관리 개선기
주니어 개발자의 서버 로그 관리 개선기주니어 개발자의 서버 로그 관리 개선기
주니어 개발자의 서버 로그 관리 개선기
 
OCE - Cno 2014 private sector oriented open paas oce
OCE - Cno 2014 private sector oriented open paas   oceOCE - Cno 2014 private sector oriented open paas   oce
OCE - Cno 2014 private sector oriented open paas oce
 

More from Daesung Park

알아두면 쓸모있는 GPS 이야기
알아두면 쓸모있는 GPS 이야기알아두면 쓸모있는 GPS 이야기
알아두면 쓸모있는 GPS 이야기Daesung Park
 
TechTalk - 개발환경설정 이야기
TechTalk - 개발환경설정 이야기TechTalk - 개발환경설정 이야기
TechTalk - 개발환경설정 이야기Daesung Park
 
TechTalk - 서버를 해킹 당했습니다
TechTalk - 서버를 해킹 당했습니다TechTalk - 서버를 해킹 당했습니다
TechTalk - 서버를 해킹 당했습니다Daesung Park
 
TechTalk - POI Tokenizing
TechTalk - POI TokenizingTechTalk - POI Tokenizing
TechTalk - POI TokenizingDaesung Park
 
TechTalk - Object Interning
TechTalk - Object InterningTechTalk - Object Interning
TechTalk - Object InterningDaesung Park
 
TechTalk - DrawIO 팁
TechTalk - DrawIO 팁TechTalk - DrawIO 팁
TechTalk - DrawIO 팁Daesung Park
 
Python Dict을 남용하지 마세요
Python Dict을 남용하지 마세요Python Dict을 남용하지 마세요
Python Dict을 남용하지 마세요Daesung Park
 

More from Daesung Park (7)

알아두면 쓸모있는 GPS 이야기
알아두면 쓸모있는 GPS 이야기알아두면 쓸모있는 GPS 이야기
알아두면 쓸모있는 GPS 이야기
 
TechTalk - 개발환경설정 이야기
TechTalk - 개발환경설정 이야기TechTalk - 개발환경설정 이야기
TechTalk - 개발환경설정 이야기
 
TechTalk - 서버를 해킹 당했습니다
TechTalk - 서버를 해킹 당했습니다TechTalk - 서버를 해킹 당했습니다
TechTalk - 서버를 해킹 당했습니다
 
TechTalk - POI Tokenizing
TechTalk - POI TokenizingTechTalk - POI Tokenizing
TechTalk - POI Tokenizing
 
TechTalk - Object Interning
TechTalk - Object InterningTechTalk - Object Interning
TechTalk - Object Interning
 
TechTalk - DrawIO 팁
TechTalk - DrawIO 팁TechTalk - DrawIO 팁
TechTalk - DrawIO 팁
 
Python Dict을 남용하지 마세요
Python Dict을 남용하지 마세요Python Dict을 남용하지 마세요
Python Dict을 남용하지 마세요
 

DataWorks Summit 2018

  • 1. Dataworks Summit 2018 후기 SAN JOSE, USA JUNE 18-21 팅크웨어 선행기술개발팀 박대성
  • 2. Dataworks Summit 2018 팅크웨어 선행기술개발팀 박대성 OVERVIEW 세션의 기술 적인 내용보다 전반적인 이야기를 다루고자 함 ( 각 세션의 자세한 내용은 기회가 된다면 추후 발표 ) 각 일정에 들었던 세션들 현장 분위기 SUMMIT 슬로건 세션 소개 그 밖에 재미있던 점 총평 및 소감
  • 3. Dataworks Summit 2018 팅크웨어 선행기술개발팀 박대성 • KEYNOTE • YARN 3.x • GoPro’s Streaming Pipelines • MaterializedViews in Apache Hive • Spark Configuration Tuning • ING’s Docker-based Pipelines DAY 1 SCHEDULE
  • 4. • KEYNOTE • Cincinnati Insurance’s Spark ETL • Streaming Analytics in Apache Metron • United Airlines’s ETL • HDFS Router-based Federation DAY 2 SCHEDULE
  • 5. • Apache Flink • Geospatial Data Platform at Uber DAY 3 SCHEDULE
  • 6. 참여 인원 2100+ 32 개국 23 업종 # Keynote 에서 발표
  • 7. 참여 인원 하지만, 작년 대비 한산한 느낌 3일차 세션 모습
  • 8. 참여 인원 2014 채용 공고 게시판 2018 채용 공고 게시판 # 2014 채용공고 사진 출처 : Hortonworks 최종욱 페이스북 (https://www.facebook.com/pudidic) 채용 공고 게시판에도 변화
  • 9. 스폰서 실제로도 스폰서의 숫자가 줄었음 2017 2018 Hortonworks Yahoo! Microsoft Hewlett Packard IBM ORACLE DELL EMC Hortonworks IBM IMPETUS TERADATA IMPETUS Syncsoft ATSCALE Microsoft Hewlett Packard Syncsoft NetApp # 기업명은 HOST, DIAMOND, PLATINUM의 스폰서만 표기함. 총 37 기업 (모든등급) 총 27 기업 (모든등급)
  • 10. 참여 인원 작년과는 다르게 한국인 참석자가 많이 보였음 그와중에 중국인의 증가가 가장 크게 두드러짐 2017 백상훈 박대성 2018 인도 중국 THINKWARE NAVER LG CNS SK Hynix SAMSUNG Elec 인도
  • 12. 산업혁명 이 후의 비즈니스 모델의 변화 PROCEDURAL PROCESSING CONNECTED COMMUNITIES Enterprise Customer Product Supply Customer Enterprise Product Supply
  • 13. 데이터가 증가, 그에 따른 가치도 상승 무어의 법칙 메트칼프의 법칙 베조스의 법칙 “마이크로칩의 성능은 2년마다 2배로 증가한다” “네트워크의 가치는 그 이용자 수의 제곱에 비례한다.” “클라우드 컴퓨팅의 가격은 3년마다 절반씩 떨어진다” 비용 가치
  • 14. ROB REARDEN, CEO, Hortonworks “HDP-3는 이제 하이브리드 형태로 Cloud와 GPU를 지원할 것이다” ROBTHOMAS, General Manager, IBM “DATA Transformation한 기업들의 가치는 상승할 것이며 그 안엔 AI가 있다. IBM은 이 AI를 쉽고 만연하게 쓰도록 할 것이다” “Algorithms can be bought. Not your data.” PRAVEEN KANKARIYA, CEO, Impetus “이젠 데이터를 어떻게 처리할지 보다 어떻게 활용할지가 중요”
  • 15. Ideas, Insights, Innovation. Dataworks 2017 Slogan - Transformation through Data
  • 16. # GoPro Spark Streaming Pipeline 세션 소개 Deep Learning 보단 Spark Streaming, NiFi 등이 많이 언급 구축 사례를 보면 NiFi, Kafka, Spark Streaming 로 처리한 사례가 많음 (Event) (State)
  • 17. 세션 소개 데이터를 주고 받을 때의 로그의 포맷은 주로 JSON 포맷을 사용 “Spark DataFrame의 장점을 극대화” JSON Support, SQL Transformations, Parquet Support, Hive Support, Kafka Integration df = sqlContext.read.json(“JSON_DATAFILE”) df.show() // +------+----------+ // |action| timestamp| // +------+----------+ // |create|1452121277| // | null| null| // +------+----------+ df = sqlContext.read.json(“JSON_DATAFILE”) df.createOrReplaceTempView(“json_view”) df_new = sqlContext.sql(“select * from json_view”) df_new.show() // +------+----------+ // |action| timestamp| // +------+----------+ // |create|1452121277| // | null| null| // +------+----------+
  • 18. 세션 소개 ING의 “Docker data science pipeline” 세션에선 GITLAB 의 CI-CD 기능을 활용하여 Docker 이미지를 생성/배포/테스트 하는 과정을 설명 GITLAB 의 CI-CD 기능을 활용, 자동 배포/테스트하는 방법을 적용 해 볼 수 있을 것 적용 예 • Gitlab을 통한 배포로 NEW SONA 웹페이지의 버전 관리 • IX 통계 모듈 업데이트 패치 배포 자동화
  • 19. 세션 소개 Hortonworks의 “Accelerating query processing with materialized views in Apache Hive” 세션에선 조회하는 쿼리에 따라 내부 뷰의 쿼리가 최적화 되는 Materialized View에 대한 소개 반복 사용되는 쿼리에 대해 빠른 성능을 기대할 수 있음 단, 사용처가 매우 제한 될 것으로 생각
  • 20. 세션 소개 data Artisans의 “Why and how to leverage the simplicity and power of SQL on Flink” 세션에선 SQL로 Streaming/Batch 데이터를 조회할 수 있는 Apache Flink에 대한 소개 친숙한 SQL을 이용하는 장점과 Query 종류에 따라 Streaming/Batch 결과를 제공 kafka+kibana를 이용하여 Query 하나로, 택시에 탑승하고 내리는 지역을 실시간으로 표출하는 예제를 보여주었음
  • 21. 세션 소개 Uber의 “Geospatial data platform at Uber” 세션에선 GPS 좌표 데이터를 빠르게 Polygon에 매칭하기 위한 좌표 데이터의 최적화 과정을 소개 Uber에서 QuadTree 알고리즘을 발표
 특정 좌표의 ADMCODE를 빠르게 찾는데 사용할 수 있을 것으로 기대
  • 22. 그 밖에 재미있던 것들 부스 한쪽에서 Stress Free Zone을 운영 아기 멍멍이🐶들을 만지며 힐링할 수 있음 부스 한쪽에서 Ask Me Anything Lounge를 운영 이 곳에 무엇이든 궁금한 걸 적어두면 담당자가 와서 설명해주는 장소 CAT! Ask me about 누군가는 이 곳에 이렇게 적었음
  • 24. 총평 및 소감 DevOps NoOps 기업들은 벌써 움직이고 있음
  • 25. Dataworks Summit 2018 총평 및 소감 작년 Dataworks 2017을 방문 했을 때의 느낌은 다 새롭고 대단하게 보였음 올 해 Dataworks 2018을 방문 했을 때의 느낌은 “저긴 우리랑 비슷하네?” 우리는 Data Transformation 을 성공 한 것일까?
  • 26. Dataworks Summit 2018 총평 및 소감 COST REDUCTION MODERNIZATION INSIGHT-DRIVEN TRANSFORMATION Enterprise Value 2017 2018 6% 43% 45% 6% 5% 41% 42% 12% The Data Maturity Curve # 출처 : DELL EMC 계획 데이터 적재 자가 분석 새로운 사업 창출
  • 27. 감사합니다 # 슬라이드에 사용된 아이콘 출처 : NounProject (https://thenounproject.com/)