Dataworks Summit 2018
팅크웨어선행기술개발팀
박대성
OVERVIEW
세션의 기술 적인 내용보다 전반적인 이야기를 다루고자 함
( 각 세션의 자세한 내용은 기회가 된다면 추후 발표 )
각 일정에 들었던 세션들
현장 분위기
SUMMIT 슬로건
세션 소개
그 밖에 재미있던 점
총평 및 소감
산업혁명 이 후의비즈니스 모델의 변화
PROCEDURAL PROCESSING CONNECTED COMMUNITIES
Enterprise Customer Product Supply Customer
Enterprise
Product
Supply
13.
데이터가 증가, 그에따른 가치도 상승
무어의 법칙 메트칼프의 법칙 베조스의 법칙
“마이크로칩의 성능은
2년마다 2배로 증가한다”
“네트워크의 가치는
그 이용자 수의 제곱에 비례한다.”
“클라우드 컴퓨팅의 가격은
3년마다 절반씩 떨어진다”
비용 가치
14.
ROB REARDEN, CEO,Hortonworks
“HDP-3는 이제 하이브리드 형태로 Cloud와 GPU를 지원할 것이다”
ROBTHOMAS, General Manager, IBM
“DATA Transformation한 기업들의 가치는 상승할 것이며
그 안엔 AI가 있다. IBM은 이 AI를 쉽고 만연하게 쓰도록 할 것이다”
“Algorithms can be bought. Not your data.”
PRAVEEN KANKARIYA, CEO, Impetus
“이젠 데이터를 어떻게 처리할지 보다 어떻게 활용할지가 중요”
# GoPro SparkStreaming Pipeline
세션 소개
Deep Learning 보단 Spark Streaming, NiFi 등이 많이 언급
구축 사례를 보면 NiFi, Kafka, Spark Streaming 로 처리한 사례가 많음
(Event)
(State)
17.
세션 소개
데이터를 주고받을 때의 로그의 포맷은 주로 JSON 포맷을 사용
“Spark DataFrame의 장점을 극대화”
JSON Support, SQL Transformations, Parquet Support, Hive Support, Kafka Integration
df = sqlContext.read.json(“JSON_DATAFILE”)
df.show()
// +------+----------+
// |action| timestamp|
// +------+----------+
// |create|1452121277|
// | null| null|
// +------+----------+
df = sqlContext.read.json(“JSON_DATAFILE”)
df.createOrReplaceTempView(“json_view”)
df_new = sqlContext.sql(“select * from json_view”)
df_new.show()
// +------+----------+
// |action| timestamp|
// +------+----------+
// |create|1452121277|
// | null| null|
// +------+----------+
18.
세션 소개
ING의 “Dockerdata science pipeline” 세션에선
GITLAB 의 CI-CD 기능을 활용하여 Docker 이미지를 생성/배포/테스트 하는 과정을 설명
GITLAB 의 CI-CD 기능을 활용,
자동 배포/테스트하는 방법을 적용 해 볼 수 있을 것
적용 예
• Gitlab을 통한 배포로 NEW SONA 웹페이지의 버전 관리
• IX 통계 모듈 업데이트 패치 배포 자동화
19.
세션 소개
Hortonworks의 “Acceleratingquery processing with materialized views in Apache Hive” 세션에선
조회하는 쿼리에 따라 내부 뷰의 쿼리가 최적화 되는 Materialized View에 대한 소개
반복 사용되는 쿼리에 대해 빠른 성능을 기대할 수 있음
단, 사용처가 매우 제한 될 것으로 생각
20.
세션 소개
data Artisans의“Why and how to leverage the simplicity and power of SQL on Flink” 세션에선
SQL로 Streaming/Batch 데이터를 조회할 수 있는 Apache Flink에 대한 소개
친숙한 SQL을 이용하는 장점과
Query 종류에 따라 Streaming/Batch 결과를 제공
kafka+kibana를 이용하여 Query 하나로,
택시에 탑승하고 내리는 지역을 실시간으로 표출하는 예제를 보여주었음
21.
세션 소개
Uber의 “Geospatialdata platform at Uber” 세션에선
GPS 좌표 데이터를 빠르게 Polygon에 매칭하기 위한 좌표 데이터의 최적화 과정을 소개
Uber에서 QuadTree 알고리즘을 발표
특정 좌표의 ADMCODE를 빠르게 찾는데 사용할 수 있을 것으로 기대
22.
그 밖에 재미있던것들
부스 한쪽에서 Stress Free Zone을 운영
아기 멍멍이🐶들을 만지며 힐링할 수 있음
부스 한쪽에서 Ask Me Anything Lounge를 운영
이 곳에 무엇이든 궁금한 걸 적어두면 담당자가 와서 설명해주는 장소
CAT!
Ask me about
누군가는 이 곳에 이렇게 적었음
Dataworks Summit 2018
총평및 소감
작년 Dataworks 2017을 방문 했을 때의 느낌은
다 새롭고 대단하게 보였음
올 해 Dataworks 2018을 방문 했을 때의 느낌은
“저긴 우리랑 비슷하네?”
우리는 Data Transformation 을 성공 한 것일까?
26.
Dataworks Summit 2018
총평및 소감
COST REDUCTION MODERNIZATION INSIGHT-DRIVEN TRANSFORMATION
Enterprise Value 2017 2018
6%
43%
45%
6% 5%
41%
42%
12%
The Data Maturity Curve
# 출처 : DELL EMC
계획 데이터 적재
자가 분석
새로운 사업 창출