2. Dataworks Summit 2018
팅크웨어 선행기술개발팀
박대성
OVERVIEW
세션의 기술 적인 내용보다 전반적인 이야기를 다루고자 함
( 각 세션의 자세한 내용은 기회가 된다면 추후 발표 )
각 일정에 들었던 세션들
현장 분위기
SUMMIT 슬로건
세션 소개
그 밖에 재미있던 점
총평 및 소감
8. 참여 인원
2014 채용 공고 게시판 2018 채용 공고 게시판
# 2014 채용공고 사진 출처 : Hortonworks 최종욱 페이스북 (https://www.facebook.com/pudidic)
채용 공고 게시판에도 변화
9. 스폰서
실제로도 스폰서의 숫자가 줄었음
2017 2018
Hortonworks Yahoo!
Microsoft
Hewlett Packard
IBM
ORACLE
DELL EMC
Hortonworks
IBM
IMPETUS
TERADATA
IMPETUS Syncsoft ATSCALE
Microsoft Hewlett Packard
Syncsoft NetApp
# 기업명은 HOST, DIAMOND, PLATINUM의 스폰서만 표기함.
총 37 기업 (모든등급) 총 27 기업 (모든등급)
10. 참여 인원
작년과는 다르게 한국인 참석자가 많이 보였음
그와중에 중국인의 증가가 가장 크게 두드러짐
2017
백상훈 박대성
2018
인도 중국
THINKWARE
NAVER
LG CNS
SK Hynix SAMSUNG Elec
인도
12. 산업혁명 이 후의 비즈니스 모델의 변화
PROCEDURAL PROCESSING CONNECTED COMMUNITIES
Enterprise Customer Product Supply Customer
Enterprise
Product
Supply
13. 데이터가 증가, 그에 따른 가치도 상승
무어의 법칙 메트칼프의 법칙 베조스의 법칙
“마이크로칩의 성능은
2년마다 2배로 증가한다”
“네트워크의 가치는
그 이용자 수의 제곱에 비례한다.”
“클라우드 컴퓨팅의 가격은
3년마다 절반씩 떨어진다”
비용 가치
14. ROB REARDEN, CEO, Hortonworks
“HDP-3는 이제 하이브리드 형태로 Cloud와 GPU를 지원할 것이다”
ROBTHOMAS, General Manager, IBM
“DATA Transformation한 기업들의 가치는 상승할 것이며
그 안엔 AI가 있다. IBM은 이 AI를 쉽고 만연하게 쓰도록 할 것이다”
“Algorithms can be bought. Not your data.”
PRAVEEN KANKARIYA, CEO, Impetus
“이젠 데이터를 어떻게 처리할지 보다 어떻게 활용할지가 중요”
16. # GoPro Spark Streaming Pipeline
세션 소개
Deep Learning 보단 Spark Streaming, NiFi 등이 많이 언급
구축 사례를 보면 NiFi, Kafka, Spark Streaming 로 처리한 사례가 많음
(Event)
(State)
17. 세션 소개
데이터를 주고 받을 때의 로그의 포맷은 주로 JSON 포맷을 사용
“Spark DataFrame의 장점을 극대화”
JSON Support, SQL Transformations, Parquet Support, Hive Support, Kafka Integration
df = sqlContext.read.json(“JSON_DATAFILE”)
df.show()
// +------+----------+
// |action| timestamp|
// +------+----------+
// |create|1452121277|
// | null| null|
// +------+----------+
df = sqlContext.read.json(“JSON_DATAFILE”)
df.createOrReplaceTempView(“json_view”)
df_new = sqlContext.sql(“select * from json_view”)
df_new.show()
// +------+----------+
// |action| timestamp|
// +------+----------+
// |create|1452121277|
// | null| null|
// +------+----------+
18. 세션 소개
ING의 “Docker data science pipeline” 세션에선
GITLAB 의 CI-CD 기능을 활용하여 Docker 이미지를 생성/배포/테스트 하는 과정을 설명
GITLAB 의 CI-CD 기능을 활용,
자동 배포/테스트하는 방법을 적용 해 볼 수 있을 것
적용 예
• Gitlab을 통한 배포로 NEW SONA 웹페이지의 버전 관리
• IX 통계 모듈 업데이트 패치 배포 자동화
19. 세션 소개
Hortonworks의 “Accelerating query processing with materialized views in Apache Hive” 세션에선
조회하는 쿼리에 따라 내부 뷰의 쿼리가 최적화 되는 Materialized View에 대한 소개
반복 사용되는 쿼리에 대해 빠른 성능을 기대할 수 있음
단, 사용처가 매우 제한 될 것으로 생각
20. 세션 소개
data Artisans의 “Why and how to leverage the simplicity and power of SQL on Flink” 세션에선
SQL로 Streaming/Batch 데이터를 조회할 수 있는 Apache Flink에 대한 소개
친숙한 SQL을 이용하는 장점과
Query 종류에 따라 Streaming/Batch 결과를 제공
kafka+kibana를 이용하여 Query 하나로,
택시에 탑승하고 내리는 지역을 실시간으로 표출하는 예제를 보여주었음
21. 세션 소개
Uber의 “Geospatial data platform at Uber” 세션에선
GPS 좌표 데이터를 빠르게 Polygon에 매칭하기 위한 좌표 데이터의 최적화 과정을 소개
Uber에서 QuadTree 알고리즘을 발표
특정 좌표의 ADMCODE를 빠르게 찾는데 사용할 수 있을 것으로 기대
22. 그 밖에 재미있던 것들
부스 한쪽에서 Stress Free Zone을 운영
아기 멍멍이🐶들을 만지며 힐링할 수 있음
부스 한쪽에서 Ask Me Anything Lounge를 운영
이 곳에 무엇이든 궁금한 걸 적어두면 담당자가 와서 설명해주는 장소
CAT!
Ask me about
누군가는 이 곳에 이렇게 적었음
25. Dataworks Summit 2018
총평 및 소감
작년 Dataworks 2017을 방문 했을 때의 느낌은
다 새롭고 대단하게 보였음
올 해 Dataworks 2018을 방문 했을 때의 느낌은
“저긴 우리랑 비슷하네?”
우리는 Data Transformation 을 성공 한 것일까?
26. Dataworks Summit 2018
총평 및 소감
COST REDUCTION MODERNIZATION INSIGHT-DRIVEN TRANSFORMATION
Enterprise Value 2017 2018
6%
43%
45%
6% 5%
41%
42%
12%
The Data Maturity Curve
# 출처 : DELL EMC
계획 데이터 적재
자가 분석
새로운 사업 창출
27. 감사합니다
# 슬라이드에 사용된 아이콘 출처 : NounProject (https://thenounproject.com/)