SlideShare a Scribd company logo
지하철 너 뭐 돼?
: 지하철 지연 시간 데이터 분석 및 시각화를
위한 데이터 파이프라인 구축
목차
(●’◡’●)
01 팀 구성
(❁´◡`❁)
02 주제 및 목표
(ノ*・ω・)ノ
03 소스 데이터 설명
( *^-^)ρ(^0^* )
04 데이터 파이프라인
(●ˇ∀ˇ●)
05 결과 도출 및 시각화
(┬┬﹏┬┬)
06 의의 및 한계
01 팀 구성
19기 엔지 김가경
동덕여대 정보통계학과
19기 엔지 김동진
경희대 컴퓨터공학과
19기 분석 김보겸
중앙대 사회학과
19기 엔지 박재은
숙명여대 컴퓨터과학 전공
19기 엔지 이재준
명지대 융합소프트웨어
데이터테크놀로지 전공
01 팀구성
02 주제 및 목표
지하철 운행시간표는
실시간이 아닌 정적으로 관리/운영
→ 지하철 도착 지연이 빈번하게 발생하여
운행 시간표의 신뢰도 의심
→ 현 운행 시간표의 신뢰도를 측정하고자 함
지하철 지연 시간 데이터 분석 및 시각화를
위한 데이터 파이프라인 구축
02 주제 및 목표
What? Why?
- 데이터
: 서울시 실시간 지하철 운행 데이터 API, 네이버 지도의 지하철 도착 시간표
- 데이터 수집
: AWS 서비스 ( S3, lambda, event bridge ) 를 활용하여 스크래퍼 개발 및 데이터 적재
- 데이터 분석 및 시각화
: 적재한 데이터를 바탕으로 ELK stack 및 BigQuery, Looker Studio를 활용한 분석 및 시각화
02 주제 및 목표
How?
03 소스 데이터 설명
서울시 실시간 지하철 운행 데이터 api 활용
https://data.seoul.go.kr/dataList/OA-12764/F/1/datasetView.do
03 소스 데이터 설명 - 실시간 지하철 운행 데이터
03 소스 데이터 설명 - 실시간 지하철 운행 데이터
{
“lineNum” : 호선,
“weekTag” : 평일(1), 토요일(2), 공휴일(3) 구분,
“inOutTag” : 상/하행, 내/외선 구분,
“stationNm” : 역 이름,
“arriveTime” : 도착시간,
“arriveDate” : 도착날짜
}
API 데이터 중
일부 사용
서울시 실시간 지하철 운행 데이터 API 활용
03 소스 데이터 설명 - 지하철 도착 시간표 데이터
네이버 지도의 지하철 도착 시간표 데이터 활용
{
“lineNum” : 호선,
“weekTag” : 평일(1), 토요일(2), 공휴일(3) 구분,
“inOutTag” : 상/하행, 내/외선 구분,
“stationNm” : 역 이름,
“arriveTime” : 도착시간
}
스크래핑
04 데이터 파이프라인
04 데이터 파이프라인
Push
GitHub Actions Amazon ECR
AWS Lambda
AWS Lambda
AWS Lambda
공공 API
요청, 응답, 처리
지하철 호선 정보
스크래퍼 (네이버)
당일 지하철 시간표
스크래퍼 (네이버)
Rule
Amazon S3
Kibana
Elasticsearch
Logstash
Big Query Looker Studio
Amazon Cloudwatch
(Alarm)
Amazon SNS
(Topic)
Developer
Developer
Email, Slack
Notification
Publish
Data
Transform
04 데이터 파이프라인 - Scrapper
Push
GitHub Actions Amazon ECR
AWS Lambda
AWS Lambda
AWS Lambda
공공 API
요청, 응답, 처리
지하철 호선 정보
스크래퍼 (네이버)
Rule
Amazon S3
Kibana
Elasticsearch
Logstash
Big Query
Amazon Cloudwatch
(Alarm)
Amazon SNS
(Topic)
Developer
Developer
Email, Slack
Notification
Publish
당일 지하철 시간표
스크래퍼 (네이버)
Looker Studio
Data
Transform
04 데이터 파이프라인 - 공공API 데이터 리퀘스트
출력명 설명
subwayId
지하철호선ID
(1001:1호선, 1002:2호선, 1003:3호선, 1004:4호선,
1005:5호선 1006:6호선, 1007:7호선, 1008:8호선,
1009:9호선, 1061:중앙선1063:경의중앙선, 1065:공항
철도, 1067:경춘선, 1075:수의분당선 1077:신분당선,
1092:우이신설선)
updnLine
상하행선구분
(0 : 상행/내선, 1 : 하행/외선)
statnId 지하철역ID
recptnDt 열차도착정보를 생성한 시각
arvlCd
도착코드
(0:진입, 1:도착, 2:출발, 3:전역출발, 4:전역진입, 5:전역도
착, 99:운행중)
{
“lineNum” : 호선,
“weekTag” : 평일(1), 토요일(2), 공휴일(3) 구분,
“inOutTag” : 상/하행, 내/외선 구분,
“stationNm” : 역 이름,
“arriveTime” : 도착시간,
“arriveDate” : 도착날짜
}
1분 간격으로 호출하여 데이터 수신,
해당 데이터를 필요한 포맷에 맞게끔 transform
04 데이터 파이프라인 - Scrapper
역별 시간표 페이지(네이버 지도)에서 정보 스크래핑
시간표 데이터
04 데이터 파이프라인 - Scrapper
1. 정해진 URL 형식으로 쿼리
2. ‘전체 시간표' 클릭
3. 역 시간표 페이지 진입 후 원하는 정보 스크래핑
시간표 데이터 습득 과정
04 데이터 파이프라인 - Scrapper
https://pts.map.naver.com/end-subway/ends/web/{역 코드}/home?timemode=
네이버에서 자체적으로 사용하고 있는 역 코드는 매우 불규칙적이며, 공개되어 있지도 않음
04 데이터 파이프라인 - Scrapper
189번 1호선 오산역 190번 1호선 진위역 1401번 1호선 송탄역…?
네이버에서 자체적으로 사용하고 있는 역 코드는 매우 불규칙적이며, 공개되어 있지도 않음
04 데이터 파이프라인 - Scrapper
100 ~ 20000까지 모두 쿼리를 날려보고 (역, 호선 신설 가능성 고려)
검색결과가 존재하는 숫자,
그리고 그 숫자에 매칭되는 역 이름을
하나의 파일로 저장해보자!
그 후에 저장된 역 코드를 바탕으로
해당 역의 시간표를 스크래핑 하면 될 것 같아!
04 데이터 파이프라인 - Scrapper
{ ‘0호선' : [
{
“역 코드" : 000,
“역 이름”: “00역”
}
]}
{
“lineNum”: “00선”,
“weekTag”: “0”,
“inOutTag: “0”,
“stationNm”: “00역",
“arriveTime:
“00:00:00”
}
① ②
역 코드 스크래퍼 역 코드 파일 시간표 스크래퍼 시간표 파일
Overall plan for Scrapping
04 데이터 파이프라인 - Scrapper
역 코드 스크래퍼
- BeautifulSoup 라이브러리 활용
- 100부터 20000까지 쿼리
- 역 정보가 있다면 코드, 역 이름 저장
- 역 정보가 없다면 continue
- 호선, 역 신설에 강건하게 대응할 수 있도록 설계
- ‘subway_information.json’ 파일에 데이터 최종 저장
Scrapper with Python
시간표 스크래퍼
- BeautifulSoup, Selenium 라이브러리 활용
- ‘subway_information.json’에서 역 코드, 이름 정보 획득
- 호선 별로 당일 역 시간 표 정보 저장
04 데이터 파이프라인 - Scrapper
Amazon EventBridge AWS Lambda Amazon S3
Trigger
(Every 5:00, 5:30)
Upload
Scrapping
로컬 환경의 비효율성, 불안정성 개선
- 스크래퍼 2개 합쳐 하루에 최대 30분 실행
⟹ Lambda 사용
- 약 4달 동안 매일 오전 5시에 코드 실행 필요
⟹ EventBridge로 스케쥴링
- 팀원들 간 스크래핑 결과물(json) 공유 기능 필요
⟹ S3 이용
자동화 with AWS
04 데이터 파이프라인 - Scrapper
Limitations of AWS Lambda
Lambda Timeout
최대 15분
(콜드 스타트로 실제 가용 시간은 더 적음 ...)
Computing Power
최대 10,240MB 메모리
(하지만 3,008MB 최대였음...)
04 데이터 파이프라인 - Scrapper
Limitations of AWS Lambda
하지만 내 코드는 10코어 CPU, 16GB RAM에서 30분 이상 돌아가는 걸..?
🤔
Lambda Timeout
최대 15분
(콜드 스타트로 실제 가용 시간은 더 적음 ...)
Computing Power
최대 10,240MB 메모리
(하지만 3,008MB 최대였음...)
04 데이터 파이프라인 - Scrapper
Scrapper with Multiprocessing
첫번째 시도: Python with Multiprocessing
- Multiprocessing 적용하여 병렬처리
- 시간표 스크래퍼의 경우 부분 적용 (webdriver 이슈)
⟹ Timeout은 충족하나 Lambda 위에서는 OS 에러 발생
04 데이터 파이프라인 - Scrapper
Scrapper with Golang
- Goroutine을 활용한 경량화 스레드에서의 병렬처리
- 역 코드 스크래퍼: Goquery 라이브러리 이용
- 시간표 스크래퍼: Goquery + Chromedp 라이브러리 이용
두번째 시도: Golang
첫번째 시도: Python with Multiprocessing
- Multiprocessing 적용하여 병렬처리
- 시간표 스크래퍼의 경우 부분 적용 (webdriver 이슈)
⟹ Timeout은 충족하나 Lambda 위에서는 OS 에러 발생
⟹ Timeout 충족 + OS 에러 미발생
04 데이터 파이프라인 - Scrapper
Performance Improvement
Python (plain) Python (with Multiprocessing) Go
역 코드 (쿼리 당) 0.1s 0.02s 0.002s
시간표 (역 당) 13s 1.75s 0.21s
역 코드 스크래퍼: 처리 속도 약 50배 향상 (쿼리 당 0.1s→ 0.002s)
시간표 스크래퍼: 처리 속도 약 62배 향상 (역 당 13s→ 0.21s)
⟹ EC2가 아닌 Lambda를 사용하여 서버 비용 절감
+ 경량화 스레드로 인한 낮은 컨텍스트 스위칭 비용
04 데이터 파이프라인 - CI/CD
Push
GitHub Actions Amazon ECR
AWS Lambda
AWS Lambda
AWS Lambda
공공 API
요청, 응답, 처리
지하철 호선 정보
스크래퍼 (네이버)
Rule
Amazon S3
Kibana
Elasticsearch
Logstash
Big Query Looker Studio
Amazon Cloudwatch
(Alarm)
Amazon SNS
(Topic)
Developer
Developer
Email, Slack
Notification
Data
Transform
Publish
당일 지하철 시간표
스크래퍼 (네이버)
04 데이터 파이프라인 - CI/CD
GitHub Actions를 통한 Docker Image 배포 자동화
시간표 크롤러에서 사용한 chromedp 경우 chrome 프로세스를 띄워야 함
Lambda 위에서 chrome을 띄울 수 있도록 Docker Image 구성 필요
(+ 겸사겸사 다른 스크래퍼도 Dockerize)
04 데이터 파이프라인 - CI/CD
GitHub Actions를 통한 Docker Image 배포 자동화
Docker Image
Build, Tag
Configure
AWS Credentials
Image push to ECR
Deploy Image
to Lambda
사람이 하나하나 직접 실행 ⟹ GitHub main 브랜치 push 시 자동으로 모든 프로세스 진행
04 데이터 파이프라인 - 모니터링
Push
GitHub Actions Amazon ECR
AWS Lambda
AWS Lambda
AWS Lambda
공공 API
요청, 응답, 처리
지하철 호선 정보
스크래퍼 (네이버)
Rule
Amazon S3
Kibana
Elasticsearch
Logstash
Big Query Looker Studio
Amazon Cloudwatch
(Alarm)
Amazon SNS
(Topic)
Developer
Developer
Email, Slack
Notification
Data
Transform
Publish
당일 지하철 시간표
스크래퍼 (네이버)
04 데이터 파이프라인 - 모니터링
Lambda 실행 중 사용자가 설정한
임계 값을 벗어났을 경우 알람
(ex. 에러가 1회 이상 발생했을 경우)
Publisher
(Amazon Cloudwatch)
Amazon SNS SNS Topic Message filtering
and fanout
Subscribers
(email, Lambda)
Cloudwatch가 알람(메시지)을 보내면
SNS는 메시지를 주제(Topic)에 전송
SNS를 구독하고 있는
구독자들에게 메시지 전송
Cloudwatch & SNS를 활용한 에러 리포팅
04 데이터 파이프라인 - Transformer
Push
GitHub Actions Amazon ECR
AWS Lambda
AWS Lambda
AWS Lambda
공공 API
요청, 응답, 처리
지하철 호선 정보
스크래퍼 (네이버)
Rule
Amazon S3
Kibana
Elasticsearch
Logstash
Big Query Looker Studio
Amazon Cloudwatch
(Alarm)
Amazon SNS
(Topic)
Developer
Developer
Email, Slack
Notification
Data
Transform
Publish
당일 지하철 시간표
스크래퍼 (네이버)
04 데이터 파이프라인 - Transformer
- Data Lake 형태로 필요한 정보를 가공하지 않고 저장
- 서로 다른 프레임워크에서 활용하기 위해 가공 작업 필요
- Amazon S3 버킷에서 정제 후 다른 S3 버킷에 적재
Amazon S3 Amazon S3
04 데이터 파이프라인 - Transformer
04 데이터 파이프라인 ­ ELK Stack
Push
GitHub Actions Amazon ECR
AWS Lambda
AWS Lambda
AWS Lambda
공공 API
요청, 응답, 처리
지하철 호선 정보
스크래퍼 (네이버)
Rule
Amazon S3
Kibana
Elasticsearch
Logstash
Big Query Looker Studio
Amazon Cloudwatch
(Alarm)
Amazon SNS
(Topic)
Developer
Developer
Email, Slack
Notification
Data
Transform
Publish
당일 지하철 시간표
스크래퍼 (네이버)
04 데이터 파이프라인 ­ ELK Stack
ELK = Elasticsearch + Logstash + Kibana
: 사용자에게 모든 시스템과 애플리케이션에서 로그를 집계하고 이를 분석하며
애플리케이션과 인프라 모니터링 시각화를 생성하고, 빠르게 문제를 해결하며 보안 분석할 수 있는 능력을 제공
- Elasticsearch
: Apache Lucene(아파치 루씬) 기반의 java 오픈소스 분산 검색 엔진.
방대한 양의 데이터를 신속하고 거의 실시간으로 저장, 검색, 분석 가능.
- Logstash
: 여러 소스에서 동시에 데이터를 수집하여 변환 후 Elasticsearch 서버로 전송하는 데이터 처리 엔진.
- Kibana
: 분석한 내용을 차트와 그래프 등을 활용하여 시각화 가능한 툴
Kibana
Elasticsearch
Logstash
04 데이터 파이프라인 ­ ELK Stack
데이터 가공 및
인덱스 생성
데이터 검색 및 분석
데이터 시각화
데이터 전처리
ELK 도입 목적
- Elasticsearch를 통해 대용량 데이터 검색, 최종적으로는 데이터 간 비교 연산, 분석
- Kibana를 활용한 시각화를 통해 다양한 인사이트를 도출
데이터 전송
Amazon S3
Logstash → Elasticsearch
Logstash를 활용하여 Amazon S3의 Data를
원하는 구조의 index로 재구성하여 Elastic Search에 적재
인덱스 내부 구조
timetable_230601
{
“inOutTag: “0”,
“weekTag”: “0”,
“stationNm”: “00역",
“dataType”: “timetable”,
“arriveTime”: “yy-mm-ddT00:00:00”,
“lineNum”: “00선”,
…
}
Logstash
04 데이터 파이프라인 ­ ELK Stack
- Elasticsearch의 RESTful API를 활용한 HTTP
요청을 통해 데이터가 원하는 형태의 인덱스로
저장됨을 확인
- 각각의 인덱스는 약 20만개의 요소를 담고 있음
04 데이터 파이프라인 ­ ELK Stack
Elasticsearch
- 데이터 구분, 시각화를 위한 데이터 뷰 생성
- timetable (당일 지하철 도착 시간표)
- realtime (실시간 열차 도착 시간)
- 각 데이터 뷰는 약 600만개의 데이터로 구성
- (6월 1일 ~ 6월 30일 데이터 기준)
Elasticsearch
04 데이터 파이프라인 ­ ELK Stack
- Filter 기능을 활용하여 쉽게 검색 가능
04 데이터 파이프라인 ­ ELK Stack
Elasticsearch
04 데이터 파이프라인 ­ ELK Stack
Kibana
Query DSL로 필드 간 비교 연산 수행 시 에러 발생
04 데이터 파이프라인 ­ ELK Stack
Limit of Using Elasticsearch
04 데이터 파이프라인 ­ ELK Stack
Limit of Using Elasticsearch
- Query DSL을 통해 실시간 지하철 데이터와 지하철 시간표 데이터의 도착 시간 차이 분석 시도
- Elasticsearch는 필터를 이용한 빠른 검색에 용이
- 하지만, 원하는 데이터 간 비교 연산(특히 대규모 비교 연산)은 실질적으로 불가능
- SUM, AVERAGE 등의 집계 연산은 가능하나, 특정 필드 간의 (수리적인) 비교 연산은 불가
(수리적인 비교 연산을 하기 위해선 데이터의 조건 하나하나 직접 필터링 부분에 적어서 비교해야 함)
⟹ 비교 연산, 분석의 경우 BigQuery를 이용하는 것으로 변경
⟹ 저장된 데이터를 파악(ex. 지하철 역 별 열차가 지나간 횟수, 시간 별 열차가 지나간 횟수 등)에 ElasticSearch, Kibana 이용
04 데이터 파이프라인 - BigQuery & Looker Studio
Push
GitHub Actions Amazon ECR
AWS Lambda
AWS Lambda
AWS Lambda
공공 API
요청, 응답, 처리
지하철 호선 정보
스크래퍼 (네이버)
Rule
Amazon S3
Kibana
Elasticsearch
Logstash
Big Query Looker Studio
Amazon Cloudwatch
(Alarm)
Amazon SNS
(Topic)
Developer
Developer
Email, Slack
Notification
Data
Transform
Publish
당일 지하철 시간표
스크래퍼 (네이버)
04 데이터 파이프라인 - BigQuery & Looker Studio
- BigQuery
: 구글이 제공하는 클라우드 기반 데이터 웨어하우스
대용량의 데이터를 빠르고 강력한 쿼리로 분석할 수 있음
- Looker Studio
: 데이터 분석 및 시각화를 위한 클라우드 기반 비즈니스 인텔리전스 도구
사용자들이 데이터를 쉽게 이해하고 시각화하여 인사이트를 얻을 수 있도록 지원하는 서비스
04 데이터 파이프라인 - BigQuery & Looker Studio
BigQuery Looker Studio
Amazon S3
BigQuery omni로
데이터 전송
데이터 전처리
데이터 시각화
BigQuery 도입 목적
- ELK stack만으로는 지하철 지연 분석이 어려움
- BigQuery를 도입하여 지하철 도착 정확도를 분석, Looker Studio를 연동하여 시각화
JSON to Table
04 데이터 파이프라인 - BigQuery & Looker Studio
당일 시간표 데이터에
DATE 필드 추가
시간표 데이터 전체 병합
&
실시간 데이터와 비교하여
accord 필드 추가
실시간 열차 도착 데이터의
arriveTime 필드 ‘초’ 정보
00으로 통일
실시간 지하철 도착 시간이 당일
시간표와 일치하는 경우
accord = 1 ( default = 0 )
1. 당일 시간표 데이터 전처리
2. 실시간 열차 도착시간 데이터 전처리
3. 데이터 비교 및 결과 도출1 - 전체 데이터
04 데이터 파이프라인 - BigQuery & Looker Studio
호선 별 지하철 운행 정확도 도출 시간대 별 지하철 운행 정확도 도출
( timetag 는 24시간을 2시간 단위로 분할한 정보.
time1, 2, ..., 12 )
요일 별 지하철 운행 정확도 도출
( weekDay 는 요일 정보. 월, 화, …일 )
4. 데이터 비교 및 결과 도출2 - 호선, 시간, 요일 별 데이터
04 데이터 파이프라인 - BigQuery & Looker Studio
Looker Studio
05 결과 도출 및 시각화
ELK, BigQuery & Looker Studio
05 결과 도출 및 시각화 ­ ELK Stack
- timetable 데이터를 통한 호선별 역개수 시각화
- 호선 개수 비교를 한눈에 확인 가능
05 결과 도출 및 시각화 ­ ELK Stack
- 6월 한달 동안의 지하철 역 별 열차가 지나간 횟수
- 막대그래프 및 워드클라우드로 시각화
05 결과 도출 및 시각화 ­ ELK Stack
- 시간 별 열차가 지나간 횟수를 heatmap으로 표현
- 색깔이 짙을 수록 그 시간에 열차가 많이 지나 간 것
- 평일에는 16시~18시 사이에 열차가 많음을 알 수 있음
05 결과 도출 및 시각화 - BigQuery & Looker Studio
- 날짜 별 지하철 운행 추이
- 지하철 도착 정확도
: 특정 날짜를 선택하여 해당 날짜의 지하철 도착 정확도
확인할 수 있음.
- 날짜 별 지하철 운행 수
: 주말과 공휴일에 상대적으로 운행 지하철 수가 적은
것을 알 수 있음.
05 결과 도출 및 시각화 - BigQuery & Looker Studio
- 지하철 호선 별 도착 정확도 (정확도 높은 순 정렬)
: 9호선과 2호선의 정확도가 매우 낮음…!
심지어 경의중앙선보다..?
- 주요 호선(1~9호선)의 도착 정확도 및 운행 열차 수
: 도착 정확도 ­ Line chart
운행 열차 수 - Bar chart
- 지하철 도착 정확도
: 특정 호선을 선택하여 해당 호선의 지하철 도착 정확도
확인할 수 있음.
- 지하철 도착 정확도 BEST / WORST TOP 5 시간대
: 06~08시 가 가장 정확도가 높음
01~04시 (새벽 time) 가 가장 낮음
- 시간대별 지하철 도착 정확도 추이
: 시간대는 24시간을 2시간 간격으로 나누어 time1,
… ,12로 설정함 (단, 2~4시는 운행 열차가 없어 0~1,
1~4시로 설정)
- 지하철 도착 정확도
: 특정 시간대를 선택하여 해당 시간대의 지하철 도착
정확도 확인할 수 있음
05 결과 도출 및 시각화 - BigQuery & Looker Studio
05 결과 도출 및 시각화 - BigQuery & Looker Studio
- 요일 별 지하철 도착 정확도 순위
: 화요일이 BEST
토요일이 WORST
- 지하철 도착 정확도
: 특정 요일을 선택하여 해당 요일의 지하철 도착 정확도
확인할 수 있음
- 요일 별 지하철 도착 정확도 (feat 요일 별 전체 운영 열차 수)
: 제 시간에 도착한 열차 수 확인 가능
- 요일 별 지하철 운행 수
: 전체 열차 수 확인 가능
06 의의 및 한계
06 의의 및 한계
의의
- 파이프라인을 구축하는 과정에서 다양한 기술 스택 경험
- 실시간 데이터 및 대용량의 데이터(600만 건) 핸들링 경험
- 각 스택(ELK, Big Query)별 다른 용도에 대한 이해
한계
- 파편화된 파이프라인 통합 관리 솔루션(ex. Airflow) 부재
- Git 활용에 대한 아쉬움
Thank You!

More Related Content

What's hot

제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [하둡메이트 팀] : 하둡 설정 고도화 및 맵리듀스 모니터링
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [하둡메이트 팀] : 하둡 설정 고도화 및 맵리듀스 모니터링제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [하둡메이트 팀] : 하둡 설정 고도화 및 맵리듀스 모니터링
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [하둡메이트 팀] : 하둡 설정 고도화 및 맵리듀스 모니터링
BOAZ Bigdata
 
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [코끼리책방 팀] : 사용자 스크랩 내용 기반 도서 추천
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [코끼리책방 팀] : 사용자 스크랩 내용 기반 도서 추천 제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [코끼리책방 팀] : 사용자 스크랩 내용 기반 도서 추천
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [코끼리책방 팀] : 사용자 스크랩 내용 기반 도서 추천
BOAZ Bigdata
 
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [기린그림 팀] : 사용자의 손글씨가 담긴 그림 일기 생성 서비스
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [기린그림 팀] : 사용자의 손글씨가 담긴 그림 일기 생성 서비스제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [기린그림 팀] : 사용자의 손글씨가 담긴 그림 일기 생성 서비스
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [기린그림 팀] : 사용자의 손글씨가 담긴 그림 일기 생성 서비스
BOAZ Bigdata
 
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Stalker 팀] : 감정분석을 통한 MBTI 기반 개인별 투자 성향 분석
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Stalker 팀] : 감정분석을 통한 MBTI 기반 개인별 투자 성향 분석제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Stalker 팀] : 감정분석을 통한 MBTI 기반 개인별 투자 성향 분석
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Stalker 팀] : 감정분석을 통한 MBTI 기반 개인별 투자 성향 분석
BOAZ Bigdata
 
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [WHY 팀] : 나만의 웹툰일기 Toonight
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [WHY 팀] : 나만의 웹툰일기 Toonight제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [WHY 팀] : 나만의 웹툰일기 Toonight
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [WHY 팀] : 나만의 웹툰일기 Toonight
BOAZ Bigdata
 
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Cm:)e팀] : 이커머스 고객경험 관리 분석
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Cm:)e팀] : 이커머스 고객경험 관리 분석제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Cm:)e팀] : 이커머스 고객경험 관리 분석
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Cm:)e팀] : 이커머스 고객경험 관리 분석
BOAZ Bigdata
 
제 13회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [경기는 계속되어야 한다] : 실시간 축구 중계 영상 화질개선 모델
제 13회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [경기는 계속되어야 한다] : 실시간 축구 중계 영상 화질개선 모델제 13회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [경기는 계속되어야 한다] : 실시간 축구 중계 영상 화질개선 모델
제 13회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [경기는 계속되어야 한다] : 실시간 축구 중계 영상 화질개선 모델
BOAZ Bigdata
 
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [로깅줍깅] : 로그 스트림 파이프라인 여행기
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [로깅줍깅] : 로그 스트림 파이프라인 여행기제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [로깅줍깅] : 로그 스트림 파이프라인 여행기
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [로깅줍깅] : 로그 스트림 파이프라인 여행기
BOAZ Bigdata
 
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Secret X 팀] : XAI를 활용한 수능 영어영역 문제풀이
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Secret X 팀] : XAI를 활용한 수능 영어영역 문제풀이제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Secret X 팀] : XAI를 활용한 수능 영어영역 문제풀이
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Secret X 팀] : XAI를 활용한 수능 영어영역 문제풀이
BOAZ Bigdata
 
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [BAOBAB 팀] : 반려동물 미용업 모바일 서비스 분석
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [BAOBAB 팀] : 반려동물 미용업 모바일 서비스 분석제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [BAOBAB 팀] : 반려동물 미용업 모바일 서비스 분석
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [BAOBAB 팀] : 반려동물 미용업 모바일 서비스 분석
BOAZ Bigdata
 
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Indus2ry 팀] : 2022산업동향- 편의점 & OTT 완벽 분석
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Indus2ry 팀] : 2022산업동향- 편의점 & OTT 완벽 분석제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Indus2ry 팀] : 2022산업동향- 편의점 & OTT 완벽 분석
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Indus2ry 팀] : 2022산업동향- 편의점 & OTT 완벽 분석
BOAZ Bigdata
 
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [쇼미더뮤직 팀] : 텍스트 감정추출을 통한 노래 추천
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [쇼미더뮤직 팀] : 텍스트 감정추출을 통한 노래 추천제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [쇼미더뮤직 팀] : 텍스트 감정추출을 통한 노래 추천
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [쇼미더뮤직 팀] : 텍스트 감정추출을 통한 노래 추천
BOAZ Bigdata
 
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [ztyle] : 손그림 의류 검색 서비스
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [ztyle] : 손그림 의류 검색 서비스제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [ztyle] : 손그림 의류 검색 서비스
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [ztyle] : 손그림 의류 검색 서비스
BOAZ Bigdata
 
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [나만 없어 범고래] : 스니커즈 중심의 리셀 시장 및 플랫폼 KREAM 분석
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [나만 없어 범고래] : 스니커즈 중심의 리셀 시장 및 플랫폼 KREAM 분석제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [나만 없어 범고래] : 스니커즈 중심의 리셀 시장 및 플랫폼 KREAM 분석
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [나만 없어 범고래] : 스니커즈 중심의 리셀 시장 및 플랫폼 KREAM 분석
BOAZ Bigdata
 
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [시켜줘, 보아즈 명예경찰관] : 보이스피싱 탐지 알고리즘
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [시켜줘, 보아즈 명예경찰관] : 보이스피싱 탐지 알고리즘제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [시켜줘, 보아즈 명예경찰관] : 보이스피싱 탐지 알고리즘
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [시켜줘, 보아즈 명예경찰관] : 보이스피싱 탐지 알고리즘
BOAZ Bigdata
 
제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [TweetViz팀] : 카프카와 스파크를 통한 tweetdeck 개발
제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [TweetViz팀] : 카프카와 스파크를 통한 tweetdeck 개발제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [TweetViz팀] : 카프카와 스파크를 통한 tweetdeck 개발
제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [TweetViz팀] : 카프카와 스파크를 통한 tweetdeck 개발
BOAZ Bigdata
 
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [4부터7] : 공방 301 데이터를 활용한 마케팅 방안 제시
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [4부터7] : 공방 301 데이터를 활용한 마케팅 방안 제시제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [4부터7] : 공방 301 데이터를 활용한 마케팅 방안 제시
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [4부터7] : 공방 301 데이터를 활용한 마케팅 방안 제시
BOAZ Bigdata
 
제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [카페 어디가?팀] : 카페 및 장소 추천 서비스
제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [카페 어디가?팀] : 카페 및 장소 추천 서비스제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [카페 어디가?팀] : 카페 및 장소 추천 서비스
제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [카페 어디가?팀] : 카페 및 장소 추천 서비스
BOAZ Bigdata
 
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [COLLABO-AZ] : 고객 세그멘테이션 기반 개인 맞춤형 추천시스템 for 루빗
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [COLLABO-AZ] : 고객 세그멘테이션 기반 개인 맞춤형 추천시스템 for 루빗제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [COLLABO-AZ] : 고객 세그멘테이션 기반 개인 맞춤형 추천시스템 for 루빗
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [COLLABO-AZ] : 고객 세그멘테이션 기반 개인 맞춤형 추천시스템 for 루빗
BOAZ Bigdata
 
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [SiZoAH] : 리뷰 기반 의류 사이즈 추천시스템
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [SiZoAH] : 리뷰 기반 의류 사이즈 추천시스템제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [SiZoAH] : 리뷰 기반 의류 사이즈 추천시스템
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [SiZoAH] : 리뷰 기반 의류 사이즈 추천시스템
BOAZ Bigdata
 

What's hot (20)

제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [하둡메이트 팀] : 하둡 설정 고도화 및 맵리듀스 모니터링
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [하둡메이트 팀] : 하둡 설정 고도화 및 맵리듀스 모니터링제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [하둡메이트 팀] : 하둡 설정 고도화 및 맵리듀스 모니터링
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [하둡메이트 팀] : 하둡 설정 고도화 및 맵리듀스 모니터링
 
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [코끼리책방 팀] : 사용자 스크랩 내용 기반 도서 추천
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [코끼리책방 팀] : 사용자 스크랩 내용 기반 도서 추천 제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [코끼리책방 팀] : 사용자 스크랩 내용 기반 도서 추천
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [코끼리책방 팀] : 사용자 스크랩 내용 기반 도서 추천
 
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [기린그림 팀] : 사용자의 손글씨가 담긴 그림 일기 생성 서비스
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [기린그림 팀] : 사용자의 손글씨가 담긴 그림 일기 생성 서비스제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [기린그림 팀] : 사용자의 손글씨가 담긴 그림 일기 생성 서비스
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [기린그림 팀] : 사용자의 손글씨가 담긴 그림 일기 생성 서비스
 
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Stalker 팀] : 감정분석을 통한 MBTI 기반 개인별 투자 성향 분석
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Stalker 팀] : 감정분석을 통한 MBTI 기반 개인별 투자 성향 분석제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Stalker 팀] : 감정분석을 통한 MBTI 기반 개인별 투자 성향 분석
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Stalker 팀] : 감정분석을 통한 MBTI 기반 개인별 투자 성향 분석
 
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [WHY 팀] : 나만의 웹툰일기 Toonight
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [WHY 팀] : 나만의 웹툰일기 Toonight제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [WHY 팀] : 나만의 웹툰일기 Toonight
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [WHY 팀] : 나만의 웹툰일기 Toonight
 
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Cm:)e팀] : 이커머스 고객경험 관리 분석
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Cm:)e팀] : 이커머스 고객경험 관리 분석제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Cm:)e팀] : 이커머스 고객경험 관리 분석
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Cm:)e팀] : 이커머스 고객경험 관리 분석
 
제 13회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [경기는 계속되어야 한다] : 실시간 축구 중계 영상 화질개선 모델
제 13회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [경기는 계속되어야 한다] : 실시간 축구 중계 영상 화질개선 모델제 13회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [경기는 계속되어야 한다] : 실시간 축구 중계 영상 화질개선 모델
제 13회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [경기는 계속되어야 한다] : 실시간 축구 중계 영상 화질개선 모델
 
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [로깅줍깅] : 로그 스트림 파이프라인 여행기
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [로깅줍깅] : 로그 스트림 파이프라인 여행기제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [로깅줍깅] : 로그 스트림 파이프라인 여행기
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [로깅줍깅] : 로그 스트림 파이프라인 여행기
 
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Secret X 팀] : XAI를 활용한 수능 영어영역 문제풀이
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Secret X 팀] : XAI를 활용한 수능 영어영역 문제풀이제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Secret X 팀] : XAI를 활용한 수능 영어영역 문제풀이
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Secret X 팀] : XAI를 활용한 수능 영어영역 문제풀이
 
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [BAOBAB 팀] : 반려동물 미용업 모바일 서비스 분석
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [BAOBAB 팀] : 반려동물 미용업 모바일 서비스 분석제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [BAOBAB 팀] : 반려동물 미용업 모바일 서비스 분석
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [BAOBAB 팀] : 반려동물 미용업 모바일 서비스 분석
 
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Indus2ry 팀] : 2022산업동향- 편의점 & OTT 완벽 분석
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Indus2ry 팀] : 2022산업동향- 편의점 & OTT 완벽 분석제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Indus2ry 팀] : 2022산업동향- 편의점 & OTT 완벽 분석
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Indus2ry 팀] : 2022산업동향- 편의점 & OTT 완벽 분석
 
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [쇼미더뮤직 팀] : 텍스트 감정추출을 통한 노래 추천
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [쇼미더뮤직 팀] : 텍스트 감정추출을 통한 노래 추천제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [쇼미더뮤직 팀] : 텍스트 감정추출을 통한 노래 추천
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [쇼미더뮤직 팀] : 텍스트 감정추출을 통한 노래 추천
 
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [ztyle] : 손그림 의류 검색 서비스
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [ztyle] : 손그림 의류 검색 서비스제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [ztyle] : 손그림 의류 검색 서비스
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [ztyle] : 손그림 의류 검색 서비스
 
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [나만 없어 범고래] : 스니커즈 중심의 리셀 시장 및 플랫폼 KREAM 분석
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [나만 없어 범고래] : 스니커즈 중심의 리셀 시장 및 플랫폼 KREAM 분석제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [나만 없어 범고래] : 스니커즈 중심의 리셀 시장 및 플랫폼 KREAM 분석
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [나만 없어 범고래] : 스니커즈 중심의 리셀 시장 및 플랫폼 KREAM 분석
 
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [시켜줘, 보아즈 명예경찰관] : 보이스피싱 탐지 알고리즘
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [시켜줘, 보아즈 명예경찰관] : 보이스피싱 탐지 알고리즘제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [시켜줘, 보아즈 명예경찰관] : 보이스피싱 탐지 알고리즘
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [시켜줘, 보아즈 명예경찰관] : 보이스피싱 탐지 알고리즘
 
제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [TweetViz팀] : 카프카와 스파크를 통한 tweetdeck 개발
제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [TweetViz팀] : 카프카와 스파크를 통한 tweetdeck 개발제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [TweetViz팀] : 카프카와 스파크를 통한 tweetdeck 개발
제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [TweetViz팀] : 카프카와 스파크를 통한 tweetdeck 개발
 
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [4부터7] : 공방 301 데이터를 활용한 마케팅 방안 제시
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [4부터7] : 공방 301 데이터를 활용한 마케팅 방안 제시제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [4부터7] : 공방 301 데이터를 활용한 마케팅 방안 제시
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [4부터7] : 공방 301 데이터를 활용한 마케팅 방안 제시
 
제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [카페 어디가?팀] : 카페 및 장소 추천 서비스
제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [카페 어디가?팀] : 카페 및 장소 추천 서비스제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [카페 어디가?팀] : 카페 및 장소 추천 서비스
제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [카페 어디가?팀] : 카페 및 장소 추천 서비스
 
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [COLLABO-AZ] : 고객 세그멘테이션 기반 개인 맞춤형 추천시스템 for 루빗
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [COLLABO-AZ] : 고객 세그멘테이션 기반 개인 맞춤형 추천시스템 for 루빗제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [COLLABO-AZ] : 고객 세그멘테이션 기반 개인 맞춤형 추천시스템 for 루빗
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [COLLABO-AZ] : 고객 세그멘테이션 기반 개인 맞춤형 추천시스템 for 루빗
 
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [SiZoAH] : 리뷰 기반 의류 사이즈 추천시스템
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [SiZoAH] : 리뷰 기반 의류 사이즈 추천시스템제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [SiZoAH] : 리뷰 기반 의류 사이즈 추천시스템
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [SiZoAH] : 리뷰 기반 의류 사이즈 추천시스템
 

Similar to 제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [이탈리안 BMT] : 지하철 지연 시간 데이터 분석 및 시각화를 위한 데이터 파이프라인 구축

S3 Select를 통한 빠른 데이터 분석하기 - 트랙2, Community Day 2018 re:Invent 특집
S3 Select를 통한 빠른 데이터 분석하기 - 트랙2, Community Day 2018 re:Invent 특집S3 Select를 통한 빠른 데이터 분석하기 - 트랙2, Community Day 2018 re:Invent 특집
S3 Select를 통한 빠른 데이터 분석하기 - 트랙2, Community Day 2018 re:Invent 특집
AWSKRUG - AWS한국사용자모임
 
AWS Lambda 100% 활용하기 :: 김상필 솔루션즈 아키텍트 :: Gaming on AWS 2016
AWS Lambda 100% 활용하기 :: 김상필 솔루션즈 아키텍트 :: Gaming on AWS 2016AWS Lambda 100% 활용하기 :: 김상필 솔루션즈 아키텍트 :: Gaming on AWS 2016
AWS Lambda 100% 활용하기 :: 김상필 솔루션즈 아키텍트 :: Gaming on AWS 2016
Amazon Web Services Korea
 
포털 검색어 순위 수집 및 분석 후기
포털 검색어 순위 수집 및 분석 후기포털 검색어 순위 수집 및 분석 후기
포털 검색어 순위 수집 및 분석 후기
Kyuhyun Byun
 
AWS의 하둡 관련 서비스 - EMR/S3
AWS의 하둡 관련 서비스 - EMR/S3AWS의 하둡 관련 서비스 - EMR/S3
AWS의 하둡 관련 서비스 - EMR/S3
Keeyong Han
 
판교 개발자 데이 – Aws가 제안하는 서버리스 아키텍처 – 김필중
판교 개발자 데이 – Aws가 제안하는 서버리스 아키텍처 – 김필중판교 개발자 데이 – Aws가 제안하는 서버리스 아키텍처 – 김필중
판교 개발자 데이 – Aws가 제안하는 서버리스 아키텍처 – 김필중
Amazon Web Services Korea
 
AWS 신규 데이터 분석 서비스 - QuickSight, Kinesis Firehose 등 (양승도) :: re:Invent re:Cap ...
AWS 신규 데이터 분석 서비스 - QuickSight, Kinesis Firehose 등 (양승도) :: re:Invent re:Cap ...AWS 신규 데이터 분석 서비스 - QuickSight, Kinesis Firehose 등 (양승도) :: re:Invent re:Cap ...
AWS 신규 데이터 분석 서비스 - QuickSight, Kinesis Firehose 등 (양승도) :: re:Invent re:Cap ...
Amazon Web Services Korea
 
AWS 빅데이터 아키텍처 패턴 및 모범 사례- AWS Summit Seoul 2017
AWS 빅데이터 아키텍처 패턴 및 모범 사례- AWS Summit Seoul 2017AWS 빅데이터 아키텍처 패턴 및 모범 사례- AWS Summit Seoul 2017
AWS 빅데이터 아키텍처 패턴 및 모범 사례- AWS Summit Seoul 2017
Amazon Web Services Korea
 
[236] 카카오의데이터파이프라인 윤도영
[236] 카카오의데이터파이프라인 윤도영[236] 카카오의데이터파이프라인 윤도영
[236] 카카오의데이터파이프라인 윤도영
NAVER D2
 
AWS Summit Seoul 2015 - AWS 이용사례 - SM 엔터테인먼트 및 셰이커미디어 사례를 중심으로
AWS Summit Seoul 2015 - AWS 이용사례 - SM 엔터테인먼트 및 셰이커미디어 사례를 중심으로AWS Summit Seoul 2015 - AWS 이용사례 - SM 엔터테인먼트 및 셰이커미디어 사례를 중심으로
AWS Summit Seoul 2015 - AWS 이용사례 - SM 엔터테인먼트 및 셰이커미디어 사례를 중심으로
Amazon Web Services Korea
 
Amazon Elastcsearch Service 소개 및 활용 방법 (윤석찬)
Amazon Elastcsearch Service 소개 및 활용 방법 (윤석찬) Amazon Elastcsearch Service 소개 및 활용 방법 (윤석찬)
Amazon Elastcsearch Service 소개 및 활용 방법 (윤석찬)
Amazon Web Services Korea
 
Ad-Tech on AWS 세미나 | AWS와 데이터 분석
Ad-Tech on AWS 세미나 | AWS와 데이터 분석Ad-Tech on AWS 세미나 | AWS와 데이터 분석
Ad-Tech on AWS 세미나 | AWS와 데이터 분석
Amazon Web Services Korea
 
폴라리스오피스 운영시스템
폴라리스오피스 운영시스템폴라리스오피스 운영시스템
폴라리스오피스 운영시스템
SANGGI CHOI
 
AWS Lambda를 기반으로한 실시간 빅테이터 처리하기
AWS Lambda를 기반으로한 실시간 빅테이터 처리하기AWS Lambda를 기반으로한 실시간 빅테이터 처리하기
AWS Lambda를 기반으로한 실시간 빅테이터 처리하기
Amazon Web Services Korea
 
CloudFront(클라우드 프론트)와 Route53(라우트53) AWS Summit Seoul 2015
CloudFront(클라우드 프론트)와 Route53(라우트53) AWS Summit Seoul 2015CloudFront(클라우드 프론트)와 Route53(라우트53) AWS Summit Seoul 2015
CloudFront(클라우드 프론트)와 Route53(라우트53) AWS Summit Seoul 2015
WineSOFT
 
Amazon OpenSearch - Use Cases, Security/Observability, Serverless and Enhance...
Amazon OpenSearch - Use Cases, Security/Observability, Serverless and Enhance...Amazon OpenSearch - Use Cases, Security/Observability, Serverless and Enhance...
Amazon OpenSearch - Use Cases, Security/Observability, Serverless and Enhance...
Amazon Web Services Korea
 
AWS Innovate: Infrastructure Automation on AWS - Seungdo Yang
AWS Innovate: Infrastructure Automation on AWS - Seungdo YangAWS Innovate: Infrastructure Automation on AWS - Seungdo Yang
AWS Innovate: Infrastructure Automation on AWS - Seungdo Yang
Amazon Web Services Korea
 
찾아가는 AWS 세미나(구로,가산,판교) - AWS에서 작은 서비스 구현하기 (김필중 솔루션즈 아키텍트)
찾아가는 AWS 세미나(구로,가산,판교) -  AWS에서 작은 서비스 구현하기 (김필중 솔루션즈 아키텍트)찾아가는 AWS 세미나(구로,가산,판교) -  AWS에서 작은 서비스 구현하기 (김필중 솔루션즈 아키텍트)
찾아가는 AWS 세미나(구로,가산,판교) - AWS에서 작은 서비스 구현하기 (김필중 솔루션즈 아키텍트)
Amazon Web Services Korea
 
AWS 서버리스 컴퓨팅-김필중 :: 2015 리인벤트 리캡 게이밍
AWS 서버리스 컴퓨팅-김필중 :: 2015 리인벤트 리캡 게이밍AWS 서버리스 컴퓨팅-김필중 :: 2015 리인벤트 리캡 게이밍
AWS 서버리스 컴퓨팅-김필중 :: 2015 리인벤트 리캡 게이밍
Amazon Web Services Korea
 
분석가를 위한 Aws 기반의 digital 플랫폼 구축
분석가를 위한 Aws 기반의 digital 플랫폼 구축분석가를 위한 Aws 기반의 digital 플랫폼 구축
분석가를 위한 Aws 기반의 digital 플랫폼 구축
Nak Joo Kwon
 
AWS Summit Seoul 2015 -CloudFront와 Route53 기반 콘텐츠 배포 전략 (GS네오텍-박정수)
AWS Summit Seoul 2015 -CloudFront와 Route53 기반 콘텐츠 배포 전략 (GS네오텍-박정수)AWS Summit Seoul 2015 -CloudFront와 Route53 기반 콘텐츠 배포 전략 (GS네오텍-박정수)
AWS Summit Seoul 2015 -CloudFront와 Route53 기반 콘텐츠 배포 전략 (GS네오텍-박정수)
Amazon Web Services Korea
 

Similar to 제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [이탈리안 BMT] : 지하철 지연 시간 데이터 분석 및 시각화를 위한 데이터 파이프라인 구축 (20)

S3 Select를 통한 빠른 데이터 분석하기 - 트랙2, Community Day 2018 re:Invent 특집
S3 Select를 통한 빠른 데이터 분석하기 - 트랙2, Community Day 2018 re:Invent 특집S3 Select를 통한 빠른 데이터 분석하기 - 트랙2, Community Day 2018 re:Invent 특집
S3 Select를 통한 빠른 데이터 분석하기 - 트랙2, Community Day 2018 re:Invent 특집
 
AWS Lambda 100% 활용하기 :: 김상필 솔루션즈 아키텍트 :: Gaming on AWS 2016
AWS Lambda 100% 활용하기 :: 김상필 솔루션즈 아키텍트 :: Gaming on AWS 2016AWS Lambda 100% 활용하기 :: 김상필 솔루션즈 아키텍트 :: Gaming on AWS 2016
AWS Lambda 100% 활용하기 :: 김상필 솔루션즈 아키텍트 :: Gaming on AWS 2016
 
포털 검색어 순위 수집 및 분석 후기
포털 검색어 순위 수집 및 분석 후기포털 검색어 순위 수집 및 분석 후기
포털 검색어 순위 수집 및 분석 후기
 
AWS의 하둡 관련 서비스 - EMR/S3
AWS의 하둡 관련 서비스 - EMR/S3AWS의 하둡 관련 서비스 - EMR/S3
AWS의 하둡 관련 서비스 - EMR/S3
 
판교 개발자 데이 – Aws가 제안하는 서버리스 아키텍처 – 김필중
판교 개발자 데이 – Aws가 제안하는 서버리스 아키텍처 – 김필중판교 개발자 데이 – Aws가 제안하는 서버리스 아키텍처 – 김필중
판교 개발자 데이 – Aws가 제안하는 서버리스 아키텍처 – 김필중
 
AWS 신규 데이터 분석 서비스 - QuickSight, Kinesis Firehose 등 (양승도) :: re:Invent re:Cap ...
AWS 신규 데이터 분석 서비스 - QuickSight, Kinesis Firehose 등 (양승도) :: re:Invent re:Cap ...AWS 신규 데이터 분석 서비스 - QuickSight, Kinesis Firehose 등 (양승도) :: re:Invent re:Cap ...
AWS 신규 데이터 분석 서비스 - QuickSight, Kinesis Firehose 등 (양승도) :: re:Invent re:Cap ...
 
AWS 빅데이터 아키텍처 패턴 및 모범 사례- AWS Summit Seoul 2017
AWS 빅데이터 아키텍처 패턴 및 모범 사례- AWS Summit Seoul 2017AWS 빅데이터 아키텍처 패턴 및 모범 사례- AWS Summit Seoul 2017
AWS 빅데이터 아키텍처 패턴 및 모범 사례- AWS Summit Seoul 2017
 
[236] 카카오의데이터파이프라인 윤도영
[236] 카카오의데이터파이프라인 윤도영[236] 카카오의데이터파이프라인 윤도영
[236] 카카오의데이터파이프라인 윤도영
 
AWS Summit Seoul 2015 - AWS 이용사례 - SM 엔터테인먼트 및 셰이커미디어 사례를 중심으로
AWS Summit Seoul 2015 - AWS 이용사례 - SM 엔터테인먼트 및 셰이커미디어 사례를 중심으로AWS Summit Seoul 2015 - AWS 이용사례 - SM 엔터테인먼트 및 셰이커미디어 사례를 중심으로
AWS Summit Seoul 2015 - AWS 이용사례 - SM 엔터테인먼트 및 셰이커미디어 사례를 중심으로
 
Amazon Elastcsearch Service 소개 및 활용 방법 (윤석찬)
Amazon Elastcsearch Service 소개 및 활용 방법 (윤석찬) Amazon Elastcsearch Service 소개 및 활용 방법 (윤석찬)
Amazon Elastcsearch Service 소개 및 활용 방법 (윤석찬)
 
Ad-Tech on AWS 세미나 | AWS와 데이터 분석
Ad-Tech on AWS 세미나 | AWS와 데이터 분석Ad-Tech on AWS 세미나 | AWS와 데이터 분석
Ad-Tech on AWS 세미나 | AWS와 데이터 분석
 
폴라리스오피스 운영시스템
폴라리스오피스 운영시스템폴라리스오피스 운영시스템
폴라리스오피스 운영시스템
 
AWS Lambda를 기반으로한 실시간 빅테이터 처리하기
AWS Lambda를 기반으로한 실시간 빅테이터 처리하기AWS Lambda를 기반으로한 실시간 빅테이터 처리하기
AWS Lambda를 기반으로한 실시간 빅테이터 처리하기
 
CloudFront(클라우드 프론트)와 Route53(라우트53) AWS Summit Seoul 2015
CloudFront(클라우드 프론트)와 Route53(라우트53) AWS Summit Seoul 2015CloudFront(클라우드 프론트)와 Route53(라우트53) AWS Summit Seoul 2015
CloudFront(클라우드 프론트)와 Route53(라우트53) AWS Summit Seoul 2015
 
Amazon OpenSearch - Use Cases, Security/Observability, Serverless and Enhance...
Amazon OpenSearch - Use Cases, Security/Observability, Serverless and Enhance...Amazon OpenSearch - Use Cases, Security/Observability, Serverless and Enhance...
Amazon OpenSearch - Use Cases, Security/Observability, Serverless and Enhance...
 
AWS Innovate: Infrastructure Automation on AWS - Seungdo Yang
AWS Innovate: Infrastructure Automation on AWS - Seungdo YangAWS Innovate: Infrastructure Automation on AWS - Seungdo Yang
AWS Innovate: Infrastructure Automation on AWS - Seungdo Yang
 
찾아가는 AWS 세미나(구로,가산,판교) - AWS에서 작은 서비스 구현하기 (김필중 솔루션즈 아키텍트)
찾아가는 AWS 세미나(구로,가산,판교) -  AWS에서 작은 서비스 구현하기 (김필중 솔루션즈 아키텍트)찾아가는 AWS 세미나(구로,가산,판교) -  AWS에서 작은 서비스 구현하기 (김필중 솔루션즈 아키텍트)
찾아가는 AWS 세미나(구로,가산,판교) - AWS에서 작은 서비스 구현하기 (김필중 솔루션즈 아키텍트)
 
AWS 서버리스 컴퓨팅-김필중 :: 2015 리인벤트 리캡 게이밍
AWS 서버리스 컴퓨팅-김필중 :: 2015 리인벤트 리캡 게이밍AWS 서버리스 컴퓨팅-김필중 :: 2015 리인벤트 리캡 게이밍
AWS 서버리스 컴퓨팅-김필중 :: 2015 리인벤트 리캡 게이밍
 
분석가를 위한 Aws 기반의 digital 플랫폼 구축
분석가를 위한 Aws 기반의 digital 플랫폼 구축분석가를 위한 Aws 기반의 digital 플랫폼 구축
분석가를 위한 Aws 기반의 digital 플랫폼 구축
 
AWS Summit Seoul 2015 -CloudFront와 Route53 기반 콘텐츠 배포 전략 (GS네오텍-박정수)
AWS Summit Seoul 2015 -CloudFront와 Route53 기반 콘텐츠 배포 전략 (GS네오텍-박정수)AWS Summit Seoul 2015 -CloudFront와 Route53 기반 콘텐츠 배포 전략 (GS네오텍-박정수)
AWS Summit Seoul 2015 -CloudFront와 Route53 기반 콘텐츠 배포 전략 (GS네오텍-박정수)
 

More from BOAZ Bigdata

제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [백발백준] : 백준봇 : 컨테이너 오케스트레이션 기반 백준 문제 추천 봇
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [백발백준] : 백준봇 : 컨테이너 오케스트레이션 기반 백준 문제 추천 봇제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [백발백준] : 백준봇 : 컨테이너 오케스트레이션 기반 백준 문제 추천 봇
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [백발백준] : 백준봇 : 컨테이너 오케스트레이션 기반 백준 문제 추천 봇
BOAZ Bigdata
 
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [무드등] : 무신사를 활용한 고객 상황에 따른 의류 추천 스타일링 대시보드
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [무드등] : 무신사를 활용한 고객 상황에 따른 의류 추천 스타일링 대시보드제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [무드등] : 무신사를 활용한 고객 상황에 따른 의류 추천 스타일링 대시보드
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [무드등] : 무신사를 활용한 고객 상황에 따른 의류 추천 스타일링 대시보드
BOAZ Bigdata
 
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [섬유유연제] : 어글리us! 스마일 Earth! : NLP 기반 프로젝트와 비즈니스 대시보드
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [섬유유연제] : 어글리us! 스마일 Earth! : NLP 기반 프로젝트와 비즈니스 대시보드제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [섬유유연제] : 어글리us! 스마일 Earth! : NLP 기반 프로젝트와 비즈니스 대시보드
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [섬유유연제] : 어글리us! 스마일 Earth! : NLP 기반 프로젝트와 비즈니스 대시보드
BOAZ Bigdata
 
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [SPOAZ] : Spotify 기반 개인화 음악 추천 서비스 프로젝트
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [SPOAZ] : Spotify 기반 개인화 음악 추천 서비스 프로젝트제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [SPOAZ] : Spotify 기반 개인화 음악 추천 서비스 프로젝트
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [SPOAZ] : Spotify 기반 개인화 음악 추천 서비스 프로젝트
BOAZ Bigdata
 
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [다함께 레벨업!] : 학식 예약 서비스 yammi CRM 대시보드
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [다함께 레벨업!] : 학식 예약 서비스 yammi CRM 대시보드제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [다함께 레벨업!] : 학식 예약 서비스 yammi CRM 대시보드
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [다함께 레벨업!] : 학식 예약 서비스 yammi CRM 대시보드
BOAZ Bigdata
 
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [HAUL의 움직이는 리포트] : 투자성향 기반 주식 추천 및 기업 정보 제공 대시보드
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [HAUL의 움직이는 리포트] : 투자성향 기반 주식 추천 및 기업 정보 제공 대시보드제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [HAUL의 움직이는 리포트] : 투자성향 기반 주식 추천 및 기업 정보 제공 대시보드
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [HAUL의 움직이는 리포트] : 투자성향 기반 주식 추천 및 기업 정보 제공 대시보드
BOAZ Bigdata
 
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [BEARS] : 이미지 캡셔닝을 통한 이모지 추천 및 해시태그 생성
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [BEARS] : 이미지 캡셔닝을 통한 이모지 추천 및 해시태그 생성제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [BEARS] : 이미지 캡셔닝을 통한 이모지 추천 및 해시태그 생성
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [BEARS] : 이미지 캡셔닝을 통한 이모지 추천 및 해시태그 생성
BOAZ Bigdata
 
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [디버깅 드래곤즈] : 실시간 채용공고 요약 Slack Bot
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [디버깅 드래곤즈] : 실시간 채용공고 요약 Slack Bot제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [디버깅 드래곤즈] : 실시간 채용공고 요약 Slack Bot
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [디버깅 드래곤즈] : 실시간 채용공고 요약 Slack Bot
BOAZ Bigdata
 
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [낭만젊음사람] : UDA를 통한 중환자실 급성 호흡곤란 증후군 조기 예측
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [낭만젊음사람] : UDA를 통한 중환자실 급성 호흡곤란 증후군 조기 예측제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [낭만젊음사람] : UDA를 통한 중환자실 급성 호흡곤란 증후군 조기 예측
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [낭만젊음사람] : UDA를 통한 중환자실 급성 호흡곤란 증후군 조기 예측
BOAZ Bigdata
 
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [레시피를 보아즈] : 영수증 인식 및 대화를 통한 재료 기반 레시피 추천 챗봇
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [레시피를 보아즈] : 영수증 인식 및 대화를 통한 재료 기반 레시피 추천 챗봇제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [레시피를 보아즈] : 영수증 인식 및 대화를 통한 재료 기반 레시피 추천 챗봇
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [레시피를 보아즈] : 영수증 인식 및 대화를 통한 재료 기반 레시피 추천 챗봇
BOAZ Bigdata
 
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [전진 4드론] : RAD(Reinforcement learning method for ...
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [전진 4드론] : RAD(Reinforcement learning method for ...제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [전진 4드론] : RAD(Reinforcement learning method for ...
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [전진 4드론] : RAD(Reinforcement learning method for ...
BOAZ Bigdata
 
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [REC] : 캠핏 데이터를 활용한 캠핑장 추천 시스템 구현
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [REC] : 캠핏 데이터를 활용한 캠핑장 추천 시스템 구현제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [REC] : 캠핏 데이터를 활용한 캠핑장 추천 시스템 구현
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [REC] : 캠핏 데이터를 활용한 캠핑장 추천 시스템 구현
BOAZ Bigdata
 
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [유쾌한 반란] : Howmuch : 꽃집 관리 서비스
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [유쾌한 반란] : Howmuch : 꽃집 관리 서비스제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [유쾌한 반란] : Howmuch : 꽃집 관리 서비스
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [유쾌한 반란] : Howmuch : 꽃집 관리 서비스
BOAZ Bigdata
 
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [분모자] : 분류 모자이크
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [분모자] : 분류 모자이크제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [분모자] : 분류 모자이크
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [분모자] : 분류 모자이크
BOAZ Bigdata
 
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [link-us(링커즈)] : 링키드를 위한 비즈니스 대시보드 제작
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [link-us(링커즈)] : 링키드를 위한 비즈니스 대시보드 제작제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [link-us(링커즈)] : 링키드를 위한 비즈니스 대시보드 제작
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [link-us(링커즈)] : 링키드를 위한 비즈니스 대시보드 제작
BOAZ Bigdata
 
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [뉴진스] : Multi-modal Fake News Detection
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [뉴진스] : Multi-modal Fake News Detection제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [뉴진스] : Multi-modal Fake News Detection
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [뉴진스] : Multi-modal Fake News Detection
BOAZ Bigdata
 
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [추적 24시] : 완전 자동결제를 위한 무인점포 이용자 Tracking System 개발
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스  - [추적 24시] : 완전 자동결제를 위한 무인점포 이용자 Tracking System 개발제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스  - [추적 24시] : 완전 자동결제를 위한 무인점포 이용자 Tracking System 개발
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [추적 24시] : 완전 자동결제를 위한 무인점포 이용자 Tracking System 개발
BOAZ Bigdata
 
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [6시내고양포CAT몬] : Cat Anti-aging Project based Style...
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [6시내고양포CAT몬] : Cat Anti-aging Project based Style...제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [6시내고양포CAT몬] : Cat Anti-aging Project based Style...
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [6시내고양포CAT몬] : Cat Anti-aging Project based Style...
BOAZ Bigdata
 
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [AutoCar죠] : 자율주행 로봇 층간 이동을 위한 인지 기능 구현
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [AutoCar죠] : 자율주행 로봇 층간 이동을 위한 인지 기능 구현제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [AutoCar죠] : 자율주행 로봇 층간 이동을 위한 인지 기능 구현
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [AutoCar죠] : 자율주행 로봇 층간 이동을 위한 인지 기능 구현
BOAZ Bigdata
 
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [으쓱^^] : 기업과 소비자를 위한 ESG 대시보드 & 지속가능경영보고서
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [으쓱^^] : 기업과 소비자를 위한 ESG 대시보드 & 지속가능경영보고서제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [으쓱^^] : 기업과 소비자를 위한 ESG 대시보드 & 지속가능경영보고서
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [으쓱^^] : 기업과 소비자를 위한 ESG 대시보드 & 지속가능경영보고서
BOAZ Bigdata
 

More from BOAZ Bigdata (20)

제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [백발백준] : 백준봇 : 컨테이너 오케스트레이션 기반 백준 문제 추천 봇
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [백발백준] : 백준봇 : 컨테이너 오케스트레이션 기반 백준 문제 추천 봇제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [백발백준] : 백준봇 : 컨테이너 오케스트레이션 기반 백준 문제 추천 봇
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [백발백준] : 백준봇 : 컨테이너 오케스트레이션 기반 백준 문제 추천 봇
 
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [무드등] : 무신사를 활용한 고객 상황에 따른 의류 추천 스타일링 대시보드
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [무드등] : 무신사를 활용한 고객 상황에 따른 의류 추천 스타일링 대시보드제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [무드등] : 무신사를 활용한 고객 상황에 따른 의류 추천 스타일링 대시보드
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [무드등] : 무신사를 활용한 고객 상황에 따른 의류 추천 스타일링 대시보드
 
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [섬유유연제] : 어글리us! 스마일 Earth! : NLP 기반 프로젝트와 비즈니스 대시보드
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [섬유유연제] : 어글리us! 스마일 Earth! : NLP 기반 프로젝트와 비즈니스 대시보드제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [섬유유연제] : 어글리us! 스마일 Earth! : NLP 기반 프로젝트와 비즈니스 대시보드
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [섬유유연제] : 어글리us! 스마일 Earth! : NLP 기반 프로젝트와 비즈니스 대시보드
 
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [SPOAZ] : Spotify 기반 개인화 음악 추천 서비스 프로젝트
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [SPOAZ] : Spotify 기반 개인화 음악 추천 서비스 프로젝트제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [SPOAZ] : Spotify 기반 개인화 음악 추천 서비스 프로젝트
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [SPOAZ] : Spotify 기반 개인화 음악 추천 서비스 프로젝트
 
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [다함께 레벨업!] : 학식 예약 서비스 yammi CRM 대시보드
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [다함께 레벨업!] : 학식 예약 서비스 yammi CRM 대시보드제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [다함께 레벨업!] : 학식 예약 서비스 yammi CRM 대시보드
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [다함께 레벨업!] : 학식 예약 서비스 yammi CRM 대시보드
 
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [HAUL의 움직이는 리포트] : 투자성향 기반 주식 추천 및 기업 정보 제공 대시보드
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [HAUL의 움직이는 리포트] : 투자성향 기반 주식 추천 및 기업 정보 제공 대시보드제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [HAUL의 움직이는 리포트] : 투자성향 기반 주식 추천 및 기업 정보 제공 대시보드
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [HAUL의 움직이는 리포트] : 투자성향 기반 주식 추천 및 기업 정보 제공 대시보드
 
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [BEARS] : 이미지 캡셔닝을 통한 이모지 추천 및 해시태그 생성
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [BEARS] : 이미지 캡셔닝을 통한 이모지 추천 및 해시태그 생성제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [BEARS] : 이미지 캡셔닝을 통한 이모지 추천 및 해시태그 생성
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [BEARS] : 이미지 캡셔닝을 통한 이모지 추천 및 해시태그 생성
 
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [디버깅 드래곤즈] : 실시간 채용공고 요약 Slack Bot
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [디버깅 드래곤즈] : 실시간 채용공고 요약 Slack Bot제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [디버깅 드래곤즈] : 실시간 채용공고 요약 Slack Bot
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [디버깅 드래곤즈] : 실시간 채용공고 요약 Slack Bot
 
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [낭만젊음사람] : UDA를 통한 중환자실 급성 호흡곤란 증후군 조기 예측
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [낭만젊음사람] : UDA를 통한 중환자실 급성 호흡곤란 증후군 조기 예측제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [낭만젊음사람] : UDA를 통한 중환자실 급성 호흡곤란 증후군 조기 예측
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [낭만젊음사람] : UDA를 통한 중환자실 급성 호흡곤란 증후군 조기 예측
 
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [레시피를 보아즈] : 영수증 인식 및 대화를 통한 재료 기반 레시피 추천 챗봇
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [레시피를 보아즈] : 영수증 인식 및 대화를 통한 재료 기반 레시피 추천 챗봇제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [레시피를 보아즈] : 영수증 인식 및 대화를 통한 재료 기반 레시피 추천 챗봇
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [레시피를 보아즈] : 영수증 인식 및 대화를 통한 재료 기반 레시피 추천 챗봇
 
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [전진 4드론] : RAD(Reinforcement learning method for ...
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [전진 4드론] : RAD(Reinforcement learning method for ...제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [전진 4드론] : RAD(Reinforcement learning method for ...
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [전진 4드론] : RAD(Reinforcement learning method for ...
 
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [REC] : 캠핏 데이터를 활용한 캠핑장 추천 시스템 구현
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [REC] : 캠핏 데이터를 활용한 캠핑장 추천 시스템 구현제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [REC] : 캠핏 데이터를 활용한 캠핑장 추천 시스템 구현
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [REC] : 캠핏 데이터를 활용한 캠핑장 추천 시스템 구현
 
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [유쾌한 반란] : Howmuch : 꽃집 관리 서비스
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [유쾌한 반란] : Howmuch : 꽃집 관리 서비스제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [유쾌한 반란] : Howmuch : 꽃집 관리 서비스
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [유쾌한 반란] : Howmuch : 꽃집 관리 서비스
 
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [분모자] : 분류 모자이크
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [분모자] : 분류 모자이크제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [분모자] : 분류 모자이크
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [분모자] : 분류 모자이크
 
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [link-us(링커즈)] : 링키드를 위한 비즈니스 대시보드 제작
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [link-us(링커즈)] : 링키드를 위한 비즈니스 대시보드 제작제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [link-us(링커즈)] : 링키드를 위한 비즈니스 대시보드 제작
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [link-us(링커즈)] : 링키드를 위한 비즈니스 대시보드 제작
 
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [뉴진스] : Multi-modal Fake News Detection
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [뉴진스] : Multi-modal Fake News Detection제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [뉴진스] : Multi-modal Fake News Detection
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [뉴진스] : Multi-modal Fake News Detection
 
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [추적 24시] : 완전 자동결제를 위한 무인점포 이용자 Tracking System 개발
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스  - [추적 24시] : 완전 자동결제를 위한 무인점포 이용자 Tracking System 개발제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스  - [추적 24시] : 완전 자동결제를 위한 무인점포 이용자 Tracking System 개발
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [추적 24시] : 완전 자동결제를 위한 무인점포 이용자 Tracking System 개발
 
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [6시내고양포CAT몬] : Cat Anti-aging Project based Style...
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [6시내고양포CAT몬] : Cat Anti-aging Project based Style...제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [6시내고양포CAT몬] : Cat Anti-aging Project based Style...
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [6시내고양포CAT몬] : Cat Anti-aging Project based Style...
 
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [AutoCar죠] : 자율주행 로봇 층간 이동을 위한 인지 기능 구현
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [AutoCar죠] : 자율주행 로봇 층간 이동을 위한 인지 기능 구현제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [AutoCar죠] : 자율주행 로봇 층간 이동을 위한 인지 기능 구현
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [AutoCar죠] : 자율주행 로봇 층간 이동을 위한 인지 기능 구현
 
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [으쓱^^] : 기업과 소비자를 위한 ESG 대시보드 & 지속가능경영보고서
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [으쓱^^] : 기업과 소비자를 위한 ESG 대시보드 & 지속가능경영보고서제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [으쓱^^] : 기업과 소비자를 위한 ESG 대시보드 & 지속가능경영보고서
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [으쓱^^] : 기업과 소비자를 위한 ESG 대시보드 & 지속가능경영보고서
 

제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [이탈리안 BMT] : 지하철 지연 시간 데이터 분석 및 시각화를 위한 데이터 파이프라인 구축

  • 1. 지하철 너 뭐 돼? : 지하철 지연 시간 데이터 분석 및 시각화를 위한 데이터 파이프라인 구축
  • 2. 목차 (●’◡’●) 01 팀 구성 (❁´◡`❁) 02 주제 및 목표 (ノ*・ω・)ノ 03 소스 데이터 설명 ( *^-^)ρ(^0^* ) 04 데이터 파이프라인 (●ˇ∀ˇ●) 05 결과 도출 및 시각화 (┬┬﹏┬┬) 06 의의 및 한계
  • 4. 19기 엔지 김가경 동덕여대 정보통계학과 19기 엔지 김동진 경희대 컴퓨터공학과 19기 분석 김보겸 중앙대 사회학과 19기 엔지 박재은 숙명여대 컴퓨터과학 전공 19기 엔지 이재준 명지대 융합소프트웨어 데이터테크놀로지 전공 01 팀구성
  • 5. 02 주제 및 목표
  • 6. 지하철 운행시간표는 실시간이 아닌 정적으로 관리/운영 → 지하철 도착 지연이 빈번하게 발생하여 운행 시간표의 신뢰도 의심 → 현 운행 시간표의 신뢰도를 측정하고자 함 지하철 지연 시간 데이터 분석 및 시각화를 위한 데이터 파이프라인 구축 02 주제 및 목표 What? Why?
  • 7. - 데이터 : 서울시 실시간 지하철 운행 데이터 API, 네이버 지도의 지하철 도착 시간표 - 데이터 수집 : AWS 서비스 ( S3, lambda, event bridge ) 를 활용하여 스크래퍼 개발 및 데이터 적재 - 데이터 분석 및 시각화 : 적재한 데이터를 바탕으로 ELK stack 및 BigQuery, Looker Studio를 활용한 분석 및 시각화 02 주제 및 목표 How?
  • 9. 서울시 실시간 지하철 운행 데이터 api 활용 https://data.seoul.go.kr/dataList/OA-12764/F/1/datasetView.do 03 소스 데이터 설명 - 실시간 지하철 운행 데이터
  • 10. 03 소스 데이터 설명 - 실시간 지하철 운행 데이터 { “lineNum” : 호선, “weekTag” : 평일(1), 토요일(2), 공휴일(3) 구분, “inOutTag” : 상/하행, 내/외선 구분, “stationNm” : 역 이름, “arriveTime” : 도착시간, “arriveDate” : 도착날짜 } API 데이터 중 일부 사용 서울시 실시간 지하철 운행 데이터 API 활용
  • 11. 03 소스 데이터 설명 - 지하철 도착 시간표 데이터 네이버 지도의 지하철 도착 시간표 데이터 활용 { “lineNum” : 호선, “weekTag” : 평일(1), 토요일(2), 공휴일(3) 구분, “inOutTag” : 상/하행, 내/외선 구분, “stationNm” : 역 이름, “arriveTime” : 도착시간 } 스크래핑
  • 13. 04 데이터 파이프라인 Push GitHub Actions Amazon ECR AWS Lambda AWS Lambda AWS Lambda 공공 API 요청, 응답, 처리 지하철 호선 정보 스크래퍼 (네이버) 당일 지하철 시간표 스크래퍼 (네이버) Rule Amazon S3 Kibana Elasticsearch Logstash Big Query Looker Studio Amazon Cloudwatch (Alarm) Amazon SNS (Topic) Developer Developer Email, Slack Notification Publish Data Transform
  • 14. 04 데이터 파이프라인 - Scrapper Push GitHub Actions Amazon ECR AWS Lambda AWS Lambda AWS Lambda 공공 API 요청, 응답, 처리 지하철 호선 정보 스크래퍼 (네이버) Rule Amazon S3 Kibana Elasticsearch Logstash Big Query Amazon Cloudwatch (Alarm) Amazon SNS (Topic) Developer Developer Email, Slack Notification Publish 당일 지하철 시간표 스크래퍼 (네이버) Looker Studio Data Transform
  • 15. 04 데이터 파이프라인 - 공공API 데이터 리퀘스트 출력명 설명 subwayId 지하철호선ID (1001:1호선, 1002:2호선, 1003:3호선, 1004:4호선, 1005:5호선 1006:6호선, 1007:7호선, 1008:8호선, 1009:9호선, 1061:중앙선1063:경의중앙선, 1065:공항 철도, 1067:경춘선, 1075:수의분당선 1077:신분당선, 1092:우이신설선) updnLine 상하행선구분 (0 : 상행/내선, 1 : 하행/외선) statnId 지하철역ID recptnDt 열차도착정보를 생성한 시각 arvlCd 도착코드 (0:진입, 1:도착, 2:출발, 3:전역출발, 4:전역진입, 5:전역도 착, 99:운행중) { “lineNum” : 호선, “weekTag” : 평일(1), 토요일(2), 공휴일(3) 구분, “inOutTag” : 상/하행, 내/외선 구분, “stationNm” : 역 이름, “arriveTime” : 도착시간, “arriveDate” : 도착날짜 } 1분 간격으로 호출하여 데이터 수신, 해당 데이터를 필요한 포맷에 맞게끔 transform
  • 16. 04 데이터 파이프라인 - Scrapper 역별 시간표 페이지(네이버 지도)에서 정보 스크래핑 시간표 데이터
  • 17. 04 데이터 파이프라인 - Scrapper 1. 정해진 URL 형식으로 쿼리 2. ‘전체 시간표' 클릭 3. 역 시간표 페이지 진입 후 원하는 정보 스크래핑 시간표 데이터 습득 과정
  • 18. 04 데이터 파이프라인 - Scrapper https://pts.map.naver.com/end-subway/ends/web/{역 코드}/home?timemode= 네이버에서 자체적으로 사용하고 있는 역 코드는 매우 불규칙적이며, 공개되어 있지도 않음
  • 19. 04 데이터 파이프라인 - Scrapper 189번 1호선 오산역 190번 1호선 진위역 1401번 1호선 송탄역…? 네이버에서 자체적으로 사용하고 있는 역 코드는 매우 불규칙적이며, 공개되어 있지도 않음
  • 20. 04 데이터 파이프라인 - Scrapper 100 ~ 20000까지 모두 쿼리를 날려보고 (역, 호선 신설 가능성 고려) 검색결과가 존재하는 숫자, 그리고 그 숫자에 매칭되는 역 이름을 하나의 파일로 저장해보자! 그 후에 저장된 역 코드를 바탕으로 해당 역의 시간표를 스크래핑 하면 될 것 같아!
  • 21. 04 데이터 파이프라인 - Scrapper { ‘0호선' : [ { “역 코드" : 000, “역 이름”: “00역” } ]} { “lineNum”: “00선”, “weekTag”: “0”, “inOutTag: “0”, “stationNm”: “00역", “arriveTime: “00:00:00” } ① ② 역 코드 스크래퍼 역 코드 파일 시간표 스크래퍼 시간표 파일 Overall plan for Scrapping
  • 22. 04 데이터 파이프라인 - Scrapper 역 코드 스크래퍼 - BeautifulSoup 라이브러리 활용 - 100부터 20000까지 쿼리 - 역 정보가 있다면 코드, 역 이름 저장 - 역 정보가 없다면 continue - 호선, 역 신설에 강건하게 대응할 수 있도록 설계 - ‘subway_information.json’ 파일에 데이터 최종 저장 Scrapper with Python 시간표 스크래퍼 - BeautifulSoup, Selenium 라이브러리 활용 - ‘subway_information.json’에서 역 코드, 이름 정보 획득 - 호선 별로 당일 역 시간 표 정보 저장
  • 23. 04 데이터 파이프라인 - Scrapper Amazon EventBridge AWS Lambda Amazon S3 Trigger (Every 5:00, 5:30) Upload Scrapping 로컬 환경의 비효율성, 불안정성 개선 - 스크래퍼 2개 합쳐 하루에 최대 30분 실행 ⟹ Lambda 사용 - 약 4달 동안 매일 오전 5시에 코드 실행 필요 ⟹ EventBridge로 스케쥴링 - 팀원들 간 스크래핑 결과물(json) 공유 기능 필요 ⟹ S3 이용 자동화 with AWS
  • 24. 04 데이터 파이프라인 - Scrapper Limitations of AWS Lambda Lambda Timeout 최대 15분 (콜드 스타트로 실제 가용 시간은 더 적음 ...) Computing Power 최대 10,240MB 메모리 (하지만 3,008MB 최대였음...)
  • 25. 04 데이터 파이프라인 - Scrapper Limitations of AWS Lambda 하지만 내 코드는 10코어 CPU, 16GB RAM에서 30분 이상 돌아가는 걸..? 🤔 Lambda Timeout 최대 15분 (콜드 스타트로 실제 가용 시간은 더 적음 ...) Computing Power 최대 10,240MB 메모리 (하지만 3,008MB 최대였음...)
  • 26. 04 데이터 파이프라인 - Scrapper Scrapper with Multiprocessing 첫번째 시도: Python with Multiprocessing - Multiprocessing 적용하여 병렬처리 - 시간표 스크래퍼의 경우 부분 적용 (webdriver 이슈) ⟹ Timeout은 충족하나 Lambda 위에서는 OS 에러 발생
  • 27. 04 데이터 파이프라인 - Scrapper Scrapper with Golang - Goroutine을 활용한 경량화 스레드에서의 병렬처리 - 역 코드 스크래퍼: Goquery 라이브러리 이용 - 시간표 스크래퍼: Goquery + Chromedp 라이브러리 이용 두번째 시도: Golang 첫번째 시도: Python with Multiprocessing - Multiprocessing 적용하여 병렬처리 - 시간표 스크래퍼의 경우 부분 적용 (webdriver 이슈) ⟹ Timeout은 충족하나 Lambda 위에서는 OS 에러 발생 ⟹ Timeout 충족 + OS 에러 미발생
  • 28. 04 데이터 파이프라인 - Scrapper Performance Improvement Python (plain) Python (with Multiprocessing) Go 역 코드 (쿼리 당) 0.1s 0.02s 0.002s 시간표 (역 당) 13s 1.75s 0.21s 역 코드 스크래퍼: 처리 속도 약 50배 향상 (쿼리 당 0.1s→ 0.002s) 시간표 스크래퍼: 처리 속도 약 62배 향상 (역 당 13s→ 0.21s) ⟹ EC2가 아닌 Lambda를 사용하여 서버 비용 절감 + 경량화 스레드로 인한 낮은 컨텍스트 스위칭 비용
  • 29. 04 데이터 파이프라인 - CI/CD Push GitHub Actions Amazon ECR AWS Lambda AWS Lambda AWS Lambda 공공 API 요청, 응답, 처리 지하철 호선 정보 스크래퍼 (네이버) Rule Amazon S3 Kibana Elasticsearch Logstash Big Query Looker Studio Amazon Cloudwatch (Alarm) Amazon SNS (Topic) Developer Developer Email, Slack Notification Data Transform Publish 당일 지하철 시간표 스크래퍼 (네이버)
  • 30. 04 데이터 파이프라인 - CI/CD GitHub Actions를 통한 Docker Image 배포 자동화 시간표 크롤러에서 사용한 chromedp 경우 chrome 프로세스를 띄워야 함 Lambda 위에서 chrome을 띄울 수 있도록 Docker Image 구성 필요 (+ 겸사겸사 다른 스크래퍼도 Dockerize)
  • 31. 04 데이터 파이프라인 - CI/CD GitHub Actions를 통한 Docker Image 배포 자동화 Docker Image Build, Tag Configure AWS Credentials Image push to ECR Deploy Image to Lambda 사람이 하나하나 직접 실행 ⟹ GitHub main 브랜치 push 시 자동으로 모든 프로세스 진행
  • 32. 04 데이터 파이프라인 - 모니터링 Push GitHub Actions Amazon ECR AWS Lambda AWS Lambda AWS Lambda 공공 API 요청, 응답, 처리 지하철 호선 정보 스크래퍼 (네이버) Rule Amazon S3 Kibana Elasticsearch Logstash Big Query Looker Studio Amazon Cloudwatch (Alarm) Amazon SNS (Topic) Developer Developer Email, Slack Notification Data Transform Publish 당일 지하철 시간표 스크래퍼 (네이버)
  • 33. 04 데이터 파이프라인 - 모니터링 Lambda 실행 중 사용자가 설정한 임계 값을 벗어났을 경우 알람 (ex. 에러가 1회 이상 발생했을 경우) Publisher (Amazon Cloudwatch) Amazon SNS SNS Topic Message filtering and fanout Subscribers (email, Lambda) Cloudwatch가 알람(메시지)을 보내면 SNS는 메시지를 주제(Topic)에 전송 SNS를 구독하고 있는 구독자들에게 메시지 전송 Cloudwatch & SNS를 활용한 에러 리포팅
  • 34. 04 데이터 파이프라인 - Transformer Push GitHub Actions Amazon ECR AWS Lambda AWS Lambda AWS Lambda 공공 API 요청, 응답, 처리 지하철 호선 정보 스크래퍼 (네이버) Rule Amazon S3 Kibana Elasticsearch Logstash Big Query Looker Studio Amazon Cloudwatch (Alarm) Amazon SNS (Topic) Developer Developer Email, Slack Notification Data Transform Publish 당일 지하철 시간표 스크래퍼 (네이버)
  • 35. 04 데이터 파이프라인 - Transformer - Data Lake 형태로 필요한 정보를 가공하지 않고 저장 - 서로 다른 프레임워크에서 활용하기 위해 가공 작업 필요 - Amazon S3 버킷에서 정제 후 다른 S3 버킷에 적재 Amazon S3 Amazon S3
  • 37. 04 데이터 파이프라인 ­ ELK Stack Push GitHub Actions Amazon ECR AWS Lambda AWS Lambda AWS Lambda 공공 API 요청, 응답, 처리 지하철 호선 정보 스크래퍼 (네이버) Rule Amazon S3 Kibana Elasticsearch Logstash Big Query Looker Studio Amazon Cloudwatch (Alarm) Amazon SNS (Topic) Developer Developer Email, Slack Notification Data Transform Publish 당일 지하철 시간표 스크래퍼 (네이버)
  • 38. 04 데이터 파이프라인 ­ ELK Stack ELK = Elasticsearch + Logstash + Kibana : 사용자에게 모든 시스템과 애플리케이션에서 로그를 집계하고 이를 분석하며 애플리케이션과 인프라 모니터링 시각화를 생성하고, 빠르게 문제를 해결하며 보안 분석할 수 있는 능력을 제공 - Elasticsearch : Apache Lucene(아파치 루씬) 기반의 java 오픈소스 분산 검색 엔진. 방대한 양의 데이터를 신속하고 거의 실시간으로 저장, 검색, 분석 가능. - Logstash : 여러 소스에서 동시에 데이터를 수집하여 변환 후 Elasticsearch 서버로 전송하는 데이터 처리 엔진. - Kibana : 분석한 내용을 차트와 그래프 등을 활용하여 시각화 가능한 툴
  • 39. Kibana Elasticsearch Logstash 04 데이터 파이프라인 ­ ELK Stack 데이터 가공 및 인덱스 생성 데이터 검색 및 분석 데이터 시각화 데이터 전처리 ELK 도입 목적 - Elasticsearch를 통해 대용량 데이터 검색, 최종적으로는 데이터 간 비교 연산, 분석 - Kibana를 활용한 시각화를 통해 다양한 인사이트를 도출 데이터 전송 Amazon S3
  • 40. Logstash → Elasticsearch Logstash를 활용하여 Amazon S3의 Data를 원하는 구조의 index로 재구성하여 Elastic Search에 적재 인덱스 내부 구조 timetable_230601 { “inOutTag: “0”, “weekTag”: “0”, “stationNm”: “00역", “dataType”: “timetable”, “arriveTime”: “yy-mm-ddT00:00:00”, “lineNum”: “00선”, … } Logstash 04 데이터 파이프라인 ­ ELK Stack
  • 41. - Elasticsearch의 RESTful API를 활용한 HTTP 요청을 통해 데이터가 원하는 형태의 인덱스로 저장됨을 확인 - 각각의 인덱스는 약 20만개의 요소를 담고 있음 04 데이터 파이프라인 ­ ELK Stack Elasticsearch
  • 42. - 데이터 구분, 시각화를 위한 데이터 뷰 생성 - timetable (당일 지하철 도착 시간표) - realtime (실시간 열차 도착 시간) - 각 데이터 뷰는 약 600만개의 데이터로 구성 - (6월 1일 ~ 6월 30일 데이터 기준) Elasticsearch 04 데이터 파이프라인 ­ ELK Stack
  • 43. - Filter 기능을 활용하여 쉽게 검색 가능 04 데이터 파이프라인 ­ ELK Stack Elasticsearch
  • 44. 04 데이터 파이프라인 ­ ELK Stack Kibana
  • 45. Query DSL로 필드 간 비교 연산 수행 시 에러 발생 04 데이터 파이프라인 ­ ELK Stack Limit of Using Elasticsearch
  • 46. 04 데이터 파이프라인 ­ ELK Stack Limit of Using Elasticsearch - Query DSL을 통해 실시간 지하철 데이터와 지하철 시간표 데이터의 도착 시간 차이 분석 시도 - Elasticsearch는 필터를 이용한 빠른 검색에 용이 - 하지만, 원하는 데이터 간 비교 연산(특히 대규모 비교 연산)은 실질적으로 불가능 - SUM, AVERAGE 등의 집계 연산은 가능하나, 특정 필드 간의 (수리적인) 비교 연산은 불가 (수리적인 비교 연산을 하기 위해선 데이터의 조건 하나하나 직접 필터링 부분에 적어서 비교해야 함) ⟹ 비교 연산, 분석의 경우 BigQuery를 이용하는 것으로 변경 ⟹ 저장된 데이터를 파악(ex. 지하철 역 별 열차가 지나간 횟수, 시간 별 열차가 지나간 횟수 등)에 ElasticSearch, Kibana 이용
  • 47. 04 데이터 파이프라인 - BigQuery & Looker Studio Push GitHub Actions Amazon ECR AWS Lambda AWS Lambda AWS Lambda 공공 API 요청, 응답, 처리 지하철 호선 정보 스크래퍼 (네이버) Rule Amazon S3 Kibana Elasticsearch Logstash Big Query Looker Studio Amazon Cloudwatch (Alarm) Amazon SNS (Topic) Developer Developer Email, Slack Notification Data Transform Publish 당일 지하철 시간표 스크래퍼 (네이버)
  • 48. 04 데이터 파이프라인 - BigQuery & Looker Studio - BigQuery : 구글이 제공하는 클라우드 기반 데이터 웨어하우스 대용량의 데이터를 빠르고 강력한 쿼리로 분석할 수 있음 - Looker Studio : 데이터 분석 및 시각화를 위한 클라우드 기반 비즈니스 인텔리전스 도구 사용자들이 데이터를 쉽게 이해하고 시각화하여 인사이트를 얻을 수 있도록 지원하는 서비스
  • 49. 04 데이터 파이프라인 - BigQuery & Looker Studio BigQuery Looker Studio Amazon S3 BigQuery omni로 데이터 전송 데이터 전처리 데이터 시각화 BigQuery 도입 목적 - ELK stack만으로는 지하철 지연 분석이 어려움 - BigQuery를 도입하여 지하철 도착 정확도를 분석, Looker Studio를 연동하여 시각화 JSON to Table
  • 50. 04 데이터 파이프라인 - BigQuery & Looker Studio 당일 시간표 데이터에 DATE 필드 추가 시간표 데이터 전체 병합 & 실시간 데이터와 비교하여 accord 필드 추가 실시간 열차 도착 데이터의 arriveTime 필드 ‘초’ 정보 00으로 통일 실시간 지하철 도착 시간이 당일 시간표와 일치하는 경우 accord = 1 ( default = 0 ) 1. 당일 시간표 데이터 전처리 2. 실시간 열차 도착시간 데이터 전처리 3. 데이터 비교 및 결과 도출1 - 전체 데이터
  • 51. 04 데이터 파이프라인 - BigQuery & Looker Studio 호선 별 지하철 운행 정확도 도출 시간대 별 지하철 운행 정확도 도출 ( timetag 는 24시간을 2시간 단위로 분할한 정보. time1, 2, ..., 12 ) 요일 별 지하철 운행 정확도 도출 ( weekDay 는 요일 정보. 월, 화, …일 ) 4. 데이터 비교 및 결과 도출2 - 호선, 시간, 요일 별 데이터
  • 52. 04 데이터 파이프라인 - BigQuery & Looker Studio Looker Studio
  • 53. 05 결과 도출 및 시각화 ELK, BigQuery & Looker Studio
  • 54. 05 결과 도출 및 시각화 ­ ELK Stack - timetable 데이터를 통한 호선별 역개수 시각화 - 호선 개수 비교를 한눈에 확인 가능
  • 55. 05 결과 도출 및 시각화 ­ ELK Stack - 6월 한달 동안의 지하철 역 별 열차가 지나간 횟수 - 막대그래프 및 워드클라우드로 시각화
  • 56. 05 결과 도출 및 시각화 ­ ELK Stack - 시간 별 열차가 지나간 횟수를 heatmap으로 표현 - 색깔이 짙을 수록 그 시간에 열차가 많이 지나 간 것 - 평일에는 16시~18시 사이에 열차가 많음을 알 수 있음
  • 57. 05 결과 도출 및 시각화 - BigQuery & Looker Studio - 날짜 별 지하철 운행 추이 - 지하철 도착 정확도 : 특정 날짜를 선택하여 해당 날짜의 지하철 도착 정확도 확인할 수 있음. - 날짜 별 지하철 운행 수 : 주말과 공휴일에 상대적으로 운행 지하철 수가 적은 것을 알 수 있음.
  • 58. 05 결과 도출 및 시각화 - BigQuery & Looker Studio - 지하철 호선 별 도착 정확도 (정확도 높은 순 정렬) : 9호선과 2호선의 정확도가 매우 낮음…! 심지어 경의중앙선보다..? - 주요 호선(1~9호선)의 도착 정확도 및 운행 열차 수 : 도착 정확도 ­ Line chart 운행 열차 수 - Bar chart - 지하철 도착 정확도 : 특정 호선을 선택하여 해당 호선의 지하철 도착 정확도 확인할 수 있음.
  • 59. - 지하철 도착 정확도 BEST / WORST TOP 5 시간대 : 06~08시 가 가장 정확도가 높음 01~04시 (새벽 time) 가 가장 낮음 - 시간대별 지하철 도착 정확도 추이 : 시간대는 24시간을 2시간 간격으로 나누어 time1, … ,12로 설정함 (단, 2~4시는 운행 열차가 없어 0~1, 1~4시로 설정) - 지하철 도착 정확도 : 특정 시간대를 선택하여 해당 시간대의 지하철 도착 정확도 확인할 수 있음 05 결과 도출 및 시각화 - BigQuery & Looker Studio
  • 60. 05 결과 도출 및 시각화 - BigQuery & Looker Studio - 요일 별 지하철 도착 정확도 순위 : 화요일이 BEST 토요일이 WORST - 지하철 도착 정확도 : 특정 요일을 선택하여 해당 요일의 지하철 도착 정확도 확인할 수 있음 - 요일 별 지하철 도착 정확도 (feat 요일 별 전체 운영 열차 수) : 제 시간에 도착한 열차 수 확인 가능 - 요일 별 지하철 운행 수 : 전체 열차 수 확인 가능
  • 61. 06 의의 및 한계
  • 62. 06 의의 및 한계 의의 - 파이프라인을 구축하는 과정에서 다양한 기술 스택 경험 - 실시간 데이터 및 대용량의 데이터(600만 건) 핸들링 경험 - 각 스택(ELK, Big Query)별 다른 용도에 대한 이해 한계 - 파편화된 파이프라인 통합 관리 솔루션(ex. Airflow) 부재 - Git 활용에 대한 아쉬움