데이터 엔지니어링 프로젝트를 진행한 이탈리안 BMT 팀에서는 아래와 같은 프로젝트를 진행했습니다.
지하철 지연 시간 데이터 분석 및 시각화를 위한 데이터 파이프라인 구축
19기 김보겸 중앙대학교 사회학과
19기 김가경 동덕여자대학교 정보통계학과
19기 김동진 경희대학교 컴퓨터공학과
19기 박재은 숙명여자대학교 컴퓨터과학전공
19기 이재준 명지대학교 융합소프트웨어 데이터테크놀로지전공
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [중고책나라] : 실시간 데이터를 이용한 Elasticsearch 클러스터 최적화BOAZ Bigdata
데이터 엔지니어링 프로젝트를 진행한 중고책나라 팀에서는 아래와 같은 프로젝트를 진행했습니다.
중고책 실시간 데이터를 활용하여 Elasticsearch Indexing 클러스터 성능 최적화
18기 금나연 숙명여자대학교 IT공학 전공
18기 박규연 국민대학교 소프트웨어학부
18기 김건우 국민대학교 AI빅데이터융합경영학과
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Catch, Traffic!] : 지하철 혼잡도 및 키워드 분석 데이터 파이프라인 구축BOAZ Bigdata
데이터 엔지니어링 프로젝트를 진행한 Catch, Traffic! 팀에서는 아래와 같은 프로젝트를 진행했습니다.
수도권 교통의 혼잡성을 해결하기 위한 방안을 찾는 데이터 파이프라인 구축
18기 김인섭 숭실대학교 산업정보시스템공학과
18기 김재민 국민대학교 AI빅데이터융합경영학과
18기 서은유 동덕여자대학교 정보통계학과
18기 윤정원 숙명여자대학교 소프트웨어융합전공
18기 이현진 서울과학기술대학교 산업정보시스템전공
18기 조은학 명지대학교 융합소프트웨어학부
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [YouPlace 팀] : 카프카와 스파크를 활용한 유튜브 영상 속 제주 명소 검색 BOAZ Bigdata
데이터 엔지니어링 프로젝트를 진행한 YouPlace팀에서는 아래와 같은 프로젝트를 진행했습니다.
<aside>
이젠 검색도 유튜브 시대
제주여행을 계획할 때 브이로그 영상을 많이 참고하실텐데요
수많은 영상들과 영상 속 분산된 명소들을 하나 하나 찾으려 생각하면 막막하지 않으셨나요?
이러한 고민을 갖고 계신 분들을 위해, 유튜브 브이로거들이 찾아간 여행 명소들을 지도에서 한 눈에 파악할 수 있도록 만들었어요
(github : https://github.com/Boaz-Youplace)
16기 엔지니어링 고은서 | 중앙대학교 소프트웨어학부
16기 엔지니어링 류정화 | 성신여자대학교 융합보안공학과
16기 엔지니어링 송경민 | 국민대학교 소프트웨어학과
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [마페터 팀] : 고객 페르소나를 활용한 마케팅 전략 대시보드BOAZ Bigdata
데이터 시각화 프로젝트를 진행한 마페터 팀에서는 아래와 같은 프로젝트를 진행했습니다.
데이터 시각화 프로젝트를 진행한 Marpeter 팀에서는 마케팅 대시보드를 제작하였습니다.
저희의 대시보드는 고객 생애 주기, 광고 성과 분석, 페르소나 도출 페이지로 구성되어 있습니다.
먼저 고객 생애 주기 페이지는 AARRR 퍼널을 통해 고객 생애 주기를 분석할 수 있습니다. 사전에 군집화가 이루어진 고객 그룹별로, 유입부터 재구매에 이르기까지 고객의 생애 주기를 분석하여 각 생애 주기 단계별 주요 지표들을 통해 각 단계의 전환율을 높일 수 있는 마케팅 전략을 수립할 수 있습니다.
광고 성과 분석 페이지에서는 고객들이 홈페이지에 남긴 흔적 데이터를 종합적으로 분석하여 비용 대비 최고의 성과를 내는 채널 별 최적의 마케팅 프로세스를 찾습니다. 원하는 채널을 클릭하면 퍼포먼스 마케팅의 KPI를 파악하고 ‘cost’와 ‘action’을 기준으로 광고 성과를 분석할 수 있습니다. 또한 해당 채널에 접근한 고객의 특성과 추천 페르소나를 확인할 수 있습니다.
마지막으로 페르소나 도출 페이지에서는 타깃 시장에 속한 사람들 간의 공통점을 가지고 실존하는 인물처럼 구체적인 정보를 가진 페르소나를 제시하여 더욱 생산적인 구매자 참여를 유도하는 마케팅 전략 정보를 제공합니다. 구체화된 페르소나의 이름을 클릭하면 나이, 직업, 가족 정보 등의 인구통계학적 정보뿐만 아니라 특징, 소비습관, 취향 등을 확인할 수 있습니다. 이를 통해 이상적인 타깃과 부정적인 타깃을 파악하고 페르소나 별 마케팅 전략을 기획할 수 있습니다.
17기 변강준 동국대학교 산업시스템공학과
17기 윤성원 이화여자대학교 통계학과 석사
17기 이소정 숙명여자대학교 통계학과
17기 이승권 건국대학교 응용통계학과
17기 이현지 이화여자대학교 통계학과 석사
17기 조세연 연세대학교 의류환경학과
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [개미야 뭐하니?팀] : 투자자의 반응을 이용한 실시간 등락 예측(feat. 카프카)BOAZ Bigdata
데이터 엔지니어링 프로젝트를 진행한 개미야 뭐하니? 팀에서는 아래와 같은 프로젝트를 진행했습니다.
[Web 발신] 5분 후, 당신이 투자한 주식이 떨어집니다!
실시간으로 내 주식의 등락을 알려주는 ai가 있다?
이것만 있으면 나도 주린이 탈출
개미와 함께하는 최적의 매도 매수 타이밍
지금 이 순간, 내 주식의 미래를 볼 수 있다
(신청: https://github.com/jayleenym/AYOA)
16기 강지수 동덕여자대학교 정보통계학과
16기 김서민 숙명여자대학교 컴퓨터과학과
16기 김윤기 한양대학교 대학원 컴퓨터소프트웨어학과
16기 문예진 서강대학교 경제학과 / 빅데이터 사이언스
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [보아酒] : 리뷰 감정분석을 통한 전통주 추천 서비스BOAZ Bigdata
데이터 분석 프로젝트를 진행한 보아酒 팀에서는 아래와 같은 프로젝트를 진행했습니다.
리뷰 감정분석을 통한 전통주 추천 서비스
19기 정은진 한양대학교 ERICA 정보사회미디어학과
19기 강하연 명지대학교 경영정보학과
19기 고건호 고려대학교 통계학과
19기 김진재 중앙대학교 응용통계학과
19기 박상윤 가천대학교 경영학부(글로벌경영학)
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [중고책나라] : 실시간 데이터를 이용한 Elasticsearch 클러스터 최적화BOAZ Bigdata
데이터 엔지니어링 프로젝트를 진행한 중고책나라 팀에서는 아래와 같은 프로젝트를 진행했습니다.
중고책 실시간 데이터를 활용하여 Elasticsearch Indexing 클러스터 성능 최적화
18기 금나연 숙명여자대학교 IT공학 전공
18기 박규연 국민대학교 소프트웨어학부
18기 김건우 국민대학교 AI빅데이터융합경영학과
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Catch, Traffic!] : 지하철 혼잡도 및 키워드 분석 데이터 파이프라인 구축BOAZ Bigdata
데이터 엔지니어링 프로젝트를 진행한 Catch, Traffic! 팀에서는 아래와 같은 프로젝트를 진행했습니다.
수도권 교통의 혼잡성을 해결하기 위한 방안을 찾는 데이터 파이프라인 구축
18기 김인섭 숭실대학교 산업정보시스템공학과
18기 김재민 국민대학교 AI빅데이터융합경영학과
18기 서은유 동덕여자대학교 정보통계학과
18기 윤정원 숙명여자대학교 소프트웨어융합전공
18기 이현진 서울과학기술대학교 산업정보시스템전공
18기 조은학 명지대학교 융합소프트웨어학부
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [YouPlace 팀] : 카프카와 스파크를 활용한 유튜브 영상 속 제주 명소 검색 BOAZ Bigdata
데이터 엔지니어링 프로젝트를 진행한 YouPlace팀에서는 아래와 같은 프로젝트를 진행했습니다.
<aside>
이젠 검색도 유튜브 시대
제주여행을 계획할 때 브이로그 영상을 많이 참고하실텐데요
수많은 영상들과 영상 속 분산된 명소들을 하나 하나 찾으려 생각하면 막막하지 않으셨나요?
이러한 고민을 갖고 계신 분들을 위해, 유튜브 브이로거들이 찾아간 여행 명소들을 지도에서 한 눈에 파악할 수 있도록 만들었어요
(github : https://github.com/Boaz-Youplace)
16기 엔지니어링 고은서 | 중앙대학교 소프트웨어학부
16기 엔지니어링 류정화 | 성신여자대학교 융합보안공학과
16기 엔지니어링 송경민 | 국민대학교 소프트웨어학과
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [마페터 팀] : 고객 페르소나를 활용한 마케팅 전략 대시보드BOAZ Bigdata
데이터 시각화 프로젝트를 진행한 마페터 팀에서는 아래와 같은 프로젝트를 진행했습니다.
데이터 시각화 프로젝트를 진행한 Marpeter 팀에서는 마케팅 대시보드를 제작하였습니다.
저희의 대시보드는 고객 생애 주기, 광고 성과 분석, 페르소나 도출 페이지로 구성되어 있습니다.
먼저 고객 생애 주기 페이지는 AARRR 퍼널을 통해 고객 생애 주기를 분석할 수 있습니다. 사전에 군집화가 이루어진 고객 그룹별로, 유입부터 재구매에 이르기까지 고객의 생애 주기를 분석하여 각 생애 주기 단계별 주요 지표들을 통해 각 단계의 전환율을 높일 수 있는 마케팅 전략을 수립할 수 있습니다.
광고 성과 분석 페이지에서는 고객들이 홈페이지에 남긴 흔적 데이터를 종합적으로 분석하여 비용 대비 최고의 성과를 내는 채널 별 최적의 마케팅 프로세스를 찾습니다. 원하는 채널을 클릭하면 퍼포먼스 마케팅의 KPI를 파악하고 ‘cost’와 ‘action’을 기준으로 광고 성과를 분석할 수 있습니다. 또한 해당 채널에 접근한 고객의 특성과 추천 페르소나를 확인할 수 있습니다.
마지막으로 페르소나 도출 페이지에서는 타깃 시장에 속한 사람들 간의 공통점을 가지고 실존하는 인물처럼 구체적인 정보를 가진 페르소나를 제시하여 더욱 생산적인 구매자 참여를 유도하는 마케팅 전략 정보를 제공합니다. 구체화된 페르소나의 이름을 클릭하면 나이, 직업, 가족 정보 등의 인구통계학적 정보뿐만 아니라 특징, 소비습관, 취향 등을 확인할 수 있습니다. 이를 통해 이상적인 타깃과 부정적인 타깃을 파악하고 페르소나 별 마케팅 전략을 기획할 수 있습니다.
17기 변강준 동국대학교 산업시스템공학과
17기 윤성원 이화여자대학교 통계학과 석사
17기 이소정 숙명여자대학교 통계학과
17기 이승권 건국대학교 응용통계학과
17기 이현지 이화여자대학교 통계학과 석사
17기 조세연 연세대학교 의류환경학과
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [개미야 뭐하니?팀] : 투자자의 반응을 이용한 실시간 등락 예측(feat. 카프카)BOAZ Bigdata
데이터 엔지니어링 프로젝트를 진행한 개미야 뭐하니? 팀에서는 아래와 같은 프로젝트를 진행했습니다.
[Web 발신] 5분 후, 당신이 투자한 주식이 떨어집니다!
실시간으로 내 주식의 등락을 알려주는 ai가 있다?
이것만 있으면 나도 주린이 탈출
개미와 함께하는 최적의 매도 매수 타이밍
지금 이 순간, 내 주식의 미래를 볼 수 있다
(신청: https://github.com/jayleenym/AYOA)
16기 강지수 동덕여자대학교 정보통계학과
16기 김서민 숙명여자대학교 컴퓨터과학과
16기 김윤기 한양대학교 대학원 컴퓨터소프트웨어학과
16기 문예진 서강대학교 경제학과 / 빅데이터 사이언스
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [보아酒] : 리뷰 감정분석을 통한 전통주 추천 서비스BOAZ Bigdata
데이터 분석 프로젝트를 진행한 보아酒 팀에서는 아래와 같은 프로젝트를 진행했습니다.
리뷰 감정분석을 통한 전통주 추천 서비스
19기 정은진 한양대학교 ERICA 정보사회미디어학과
19기 강하연 명지대학교 경영정보학과
19기 고건호 고려대학교 통계학과
19기 김진재 중앙대학교 응용통계학과
19기 박상윤 가천대학교 경영학부(글로벌경영학)
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [코끼리책방 팀] : 사용자 스크랩 내용 기반 도서 추천 BOAZ Bigdata
데이터 분석 프로젝트를 진행한 코끼리책방 팀에서는 아래와 같은 프로젝트를 진행했습니다.
사용자 스크랩 내용 기반 도서 추천
16기 이지혜 이화여자대학교 컴퓨터공학과
17기 권예은 한국항공대학교 컴퓨터공학과
17기 변강준 동국대학교 산업시스템공학과
17기 이현지 이화여자대학교 통계학과
17기 홍지원 국민대학교 AI빅데이터융합경영학과
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [기린그림 팀] : 사용자의 손글씨가 담긴 그림 일기 생성 서비스BOAZ Bigdata
데이터 분석 프로젝트를 진행한 기린그림 팀에서는 아래와 같은 프로젝트를 진행했습니다.
기린그림 팀은 사용자의 글씨체를 학습하여 나만의 폰트로 일기를 쓰고, 사진을 업로드 하면 직접 그림을 그린 것처럼 변환하여 그림일기를 쓸 수 있도록 하는 프로젝트를 진행 했습니다.
16기 김유진 이화여자대학교 과학교육과
17기 김송성 고려대학교 통계학과
17기 박종은 연세대학교 언더우드국제학부
17기 여해인 동덕여자대학교 컴퓨터학과
17기 이보림 중앙대학교 소프트웨어학부
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Stalker 팀] : 감정분석을 통한 MBTI 기반 개인별 투자 성향 분석BOAZ Bigdata
데이터 분석 프로젝트를 진행한 Stalker 팀에서는 아래와 같은 프로젝트를 진행했습니다.
감정분석을 통한 MBTI 기반 개인별 투자 성향 분석
16기 김지원 명지대학교 산업경영공학과
17기 곽윤경 홍익대학교 디자인경영융합학부
17기 김나현 서울대학교 언어학과
17기 유승희 중앙대학교 응용통계학과
17기 조수연 연세대학교 통계데이터사이언스학과
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Cm:)e팀] : 이커머스 고객경험 관리 분석BOAZ Bigdata
시각화 프로젝트를 진행한 Cm:)e팀에서는 고객의 입장에서 고객이 원하는 방식으로 소통할 수 있도록 기존 고객 관리 방식의 터치포인트에 관한 분석과 고객의 소리를 함께 분석할 수 있는 통합 대시보드를 구상했습니다.
16기 김수민 숙명여자대학교 경영학부
16기 김정아 고려대학교 통계학과
16기 이지혜 숙명여자대학교 소비자경제학과
14기 유가연 한양대학교 관광학부 빅데이터 융합 전공
16기 전유정 세종대학교 호텔관광경영학과
데이터 엔지니어링 프로젝트를 진행한 로깅줍깅 팀에서는 로그 데이터를 수집 및 처리하는 파이프라인을 만들어 각각의 단계에서 일어날 수 있는 상황에 대한 실험을 진행했습니다.
16기 엔지니어링 강하영 동덕여자대학교 정보통계학과
16기 엔지니어링 임태빈 상명대학교 컴퓨터과학과
16기 엔지니어링 지유리 숙명여자대학교 소프트웨어융합학과
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Secret X 팀] : XAI를 활용한 수능 영어영역 문제풀이BOAZ Bigdata
데이터 분석 프로젝트를 진행한 Secret X 팀에서는 아래와 같은 프로젝트를 진행했습니다.
비밀집단에서는 영어 문제를 풀고 XAI를 이용해 이를 해설합니다.
17기 권강미 연세대학교 문헌정보학과
17기 김지수 고려대학교 통계학과
17기 이수경 성균관대학교 데이터사이언스전공
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [BAOBAB 팀] : 반려동물 미용업 모바일 서비스 분석BOAZ Bigdata
데이터 시각화 프로젝트를 진행한 BAOBAB 팀에서는 아래와 같은 프로젝트를 진행했습니다.
반려동물 미용업 모바일 서비스 분석
17기 강지민 숙명여자대학교 통계학과
17기 김나연 고려대학교 통계학과
17기 김지윤 성신여자대학교 융합보안공학과
17기 박이정 인하대학교 경영학과
17기 이세영 동덕여자대학교 국제경영/정보통계학과
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [쇼미더뮤직 팀] : 텍스트 감정추출을 통한 노래 추천BOAZ Bigdata
데이터 분석 프로젝트를 짆애한 쇼미더뮤직 팀에서는 아래와 같은 프로젝트를 진행했습니다.
내 하루의 감정을 통해 노래를 추천받을 수 있다면 얼마나 좋을까?
자연어처리와 추천시스템 기법의 collaboration..
여러분의 감정을 추출하고, 어울리는 노래를 추천해드립니다.
**쇼미더뮤직!**
16기 김양경 건국대학교 기술경영학과
15기 김은선 세종대학교 데이터사이언스학과
16기 유수빈 동덕여자대학교 정보통계학과
16기 이상민 경희대학교 소프트웨어융합학과
16기 조하늘 동덕여자대학교 국제경영학과, 정보통계학과
16기 최 리 건국대학교 응용통계학과
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [ztyle] : 손그림 의류 검색 서비스BOAZ Bigdata
데이터 분석 프로젝트를 진행한 ztyle 팀에서는 아래와 같은 프로젝트를 진행했습니다.
손그림 의류 검색 서비스
18기 조현정 고려대학교 일반대학원 통계학과
18기 김혜연 고려대학교 통계학과
18기 최유진 숙명여자대학교 소비자경제학과
18기 한상범 경기대학교 컴퓨터공학부
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [나만 없어 범고래] : 스니커즈 중심의 리셀 시장 및 플랫폼 KREAM 분석BOAZ Bigdata
데이터 시각화 프로젝트를 진행한 '나만 없어 범고래' 팀에서는 아래와 같은 프로젝트를 진행했습니다.
스니커즈를 중심으로 현재 리셀 트렌드와 리셀 플랫폼 KREAM 을 분석하고, 기업, 서비스 등을 비교해주는 대시보드를 만들었습니다.
18기 강채현 고려대학교 산업경영공학부
17기 김민채 한국외국어대학교 스페인어과
17기 이서영 이화여자대학교 통계학과
18기 백은수 인하대학교 경영학과
18기 이해림 동덕여자대학교 정보통계학과
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [4부터7] : 공방 301 데이터를 활용한 마케팅 방안 제시BOAZ Bigdata
데이터 시각화 프로젝트를 진행한 4부터7 팀에서는 아래와 같은 프로젝트를 진행했습니다.
공방 301 데이터를 활용한 마케팅 방안 제시
19기 김동하 고려대학교 미디어학부
19기 고현서 동덕여자대학교 경영학과
19기 노근혜 이화여자대학교 통계학과
19기 박상윤 가천대학교 경영학부(글로벌경영학)
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [COLLABO-AZ] : 고객 세그멘테이션 기반 개인 맞춤형 추천시스템 for 루빗BOAZ Bigdata
데이터 분석 프로젝트를 진행한 COLLABO-AZ 팀에서는 아래와 같은 프로젝트를 진행했습니다.
고객 세그멘테이션 기반 개인 맞춤형 추천시스템 for 루빗
20기 정지혜 이화여자대학교 통계학과
20기 김지민 중앙대학교 응용통계학과
20기 오태연 단국대학교 정보통계학과
20기 최은선 한양대학교 에리카캠퍼스 정보사회미디어학과
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [SiZoAH] : 리뷰 기반 의류 사이즈 추천시스템BOAZ Bigdata
데이터 분석 프로젝트를 진행한 SiZoAH 팀에서는 아래와 같은 프로젝트를 진행했습니다.
리뷰 기반 의류 사이즈 추천시스템
18기 박태남 고려대학교 산업경영공학과
18기 김주은 성균관대학교 문헌정보학과
18기 문다정 단국대학교 응용통계학과
18기 박희준 명지대학교 산업공학과
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [코끼리책방 팀] : 사용자 스크랩 내용 기반 도서 추천 BOAZ Bigdata
데이터 분석 프로젝트를 진행한 코끼리책방 팀에서는 아래와 같은 프로젝트를 진행했습니다.
사용자 스크랩 내용 기반 도서 추천
16기 이지혜 이화여자대학교 컴퓨터공학과
17기 권예은 한국항공대학교 컴퓨터공학과
17기 변강준 동국대학교 산업시스템공학과
17기 이현지 이화여자대학교 통계학과
17기 홍지원 국민대학교 AI빅데이터융합경영학과
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [기린그림 팀] : 사용자의 손글씨가 담긴 그림 일기 생성 서비스BOAZ Bigdata
데이터 분석 프로젝트를 진행한 기린그림 팀에서는 아래와 같은 프로젝트를 진행했습니다.
기린그림 팀은 사용자의 글씨체를 학습하여 나만의 폰트로 일기를 쓰고, 사진을 업로드 하면 직접 그림을 그린 것처럼 변환하여 그림일기를 쓸 수 있도록 하는 프로젝트를 진행 했습니다.
16기 김유진 이화여자대학교 과학교육과
17기 김송성 고려대학교 통계학과
17기 박종은 연세대학교 언더우드국제학부
17기 여해인 동덕여자대학교 컴퓨터학과
17기 이보림 중앙대학교 소프트웨어학부
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Stalker 팀] : 감정분석을 통한 MBTI 기반 개인별 투자 성향 분석BOAZ Bigdata
데이터 분석 프로젝트를 진행한 Stalker 팀에서는 아래와 같은 프로젝트를 진행했습니다.
감정분석을 통한 MBTI 기반 개인별 투자 성향 분석
16기 김지원 명지대학교 산업경영공학과
17기 곽윤경 홍익대학교 디자인경영융합학부
17기 김나현 서울대학교 언어학과
17기 유승희 중앙대학교 응용통계학과
17기 조수연 연세대학교 통계데이터사이언스학과
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Cm:)e팀] : 이커머스 고객경험 관리 분석BOAZ Bigdata
시각화 프로젝트를 진행한 Cm:)e팀에서는 고객의 입장에서 고객이 원하는 방식으로 소통할 수 있도록 기존 고객 관리 방식의 터치포인트에 관한 분석과 고객의 소리를 함께 분석할 수 있는 통합 대시보드를 구상했습니다.
16기 김수민 숙명여자대학교 경영학부
16기 김정아 고려대학교 통계학과
16기 이지혜 숙명여자대학교 소비자경제학과
14기 유가연 한양대학교 관광학부 빅데이터 융합 전공
16기 전유정 세종대학교 호텔관광경영학과
데이터 엔지니어링 프로젝트를 진행한 로깅줍깅 팀에서는 로그 데이터를 수집 및 처리하는 파이프라인을 만들어 각각의 단계에서 일어날 수 있는 상황에 대한 실험을 진행했습니다.
16기 엔지니어링 강하영 동덕여자대학교 정보통계학과
16기 엔지니어링 임태빈 상명대학교 컴퓨터과학과
16기 엔지니어링 지유리 숙명여자대학교 소프트웨어융합학과
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Secret X 팀] : XAI를 활용한 수능 영어영역 문제풀이BOAZ Bigdata
데이터 분석 프로젝트를 진행한 Secret X 팀에서는 아래와 같은 프로젝트를 진행했습니다.
비밀집단에서는 영어 문제를 풀고 XAI를 이용해 이를 해설합니다.
17기 권강미 연세대학교 문헌정보학과
17기 김지수 고려대학교 통계학과
17기 이수경 성균관대학교 데이터사이언스전공
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [BAOBAB 팀] : 반려동물 미용업 모바일 서비스 분석BOAZ Bigdata
데이터 시각화 프로젝트를 진행한 BAOBAB 팀에서는 아래와 같은 프로젝트를 진행했습니다.
반려동물 미용업 모바일 서비스 분석
17기 강지민 숙명여자대학교 통계학과
17기 김나연 고려대학교 통계학과
17기 김지윤 성신여자대학교 융합보안공학과
17기 박이정 인하대학교 경영학과
17기 이세영 동덕여자대학교 국제경영/정보통계학과
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [쇼미더뮤직 팀] : 텍스트 감정추출을 통한 노래 추천BOAZ Bigdata
데이터 분석 프로젝트를 짆애한 쇼미더뮤직 팀에서는 아래와 같은 프로젝트를 진행했습니다.
내 하루의 감정을 통해 노래를 추천받을 수 있다면 얼마나 좋을까?
자연어처리와 추천시스템 기법의 collaboration..
여러분의 감정을 추출하고, 어울리는 노래를 추천해드립니다.
**쇼미더뮤직!**
16기 김양경 건국대학교 기술경영학과
15기 김은선 세종대학교 데이터사이언스학과
16기 유수빈 동덕여자대학교 정보통계학과
16기 이상민 경희대학교 소프트웨어융합학과
16기 조하늘 동덕여자대학교 국제경영학과, 정보통계학과
16기 최 리 건국대학교 응용통계학과
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [ztyle] : 손그림 의류 검색 서비스BOAZ Bigdata
데이터 분석 프로젝트를 진행한 ztyle 팀에서는 아래와 같은 프로젝트를 진행했습니다.
손그림 의류 검색 서비스
18기 조현정 고려대학교 일반대학원 통계학과
18기 김혜연 고려대학교 통계학과
18기 최유진 숙명여자대학교 소비자경제학과
18기 한상범 경기대학교 컴퓨터공학부
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [나만 없어 범고래] : 스니커즈 중심의 리셀 시장 및 플랫폼 KREAM 분석BOAZ Bigdata
데이터 시각화 프로젝트를 진행한 '나만 없어 범고래' 팀에서는 아래와 같은 프로젝트를 진행했습니다.
스니커즈를 중심으로 현재 리셀 트렌드와 리셀 플랫폼 KREAM 을 분석하고, 기업, 서비스 등을 비교해주는 대시보드를 만들었습니다.
18기 강채현 고려대학교 산업경영공학부
17기 김민채 한국외국어대학교 스페인어과
17기 이서영 이화여자대학교 통계학과
18기 백은수 인하대학교 경영학과
18기 이해림 동덕여자대학교 정보통계학과
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [4부터7] : 공방 301 데이터를 활용한 마케팅 방안 제시BOAZ Bigdata
데이터 시각화 프로젝트를 진행한 4부터7 팀에서는 아래와 같은 프로젝트를 진행했습니다.
공방 301 데이터를 활용한 마케팅 방안 제시
19기 김동하 고려대학교 미디어학부
19기 고현서 동덕여자대학교 경영학과
19기 노근혜 이화여자대학교 통계학과
19기 박상윤 가천대학교 경영학부(글로벌경영학)
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [COLLABO-AZ] : 고객 세그멘테이션 기반 개인 맞춤형 추천시스템 for 루빗BOAZ Bigdata
데이터 분석 프로젝트를 진행한 COLLABO-AZ 팀에서는 아래와 같은 프로젝트를 진행했습니다.
고객 세그멘테이션 기반 개인 맞춤형 추천시스템 for 루빗
20기 정지혜 이화여자대학교 통계학과
20기 김지민 중앙대학교 응용통계학과
20기 오태연 단국대학교 정보통계학과
20기 최은선 한양대학교 에리카캠퍼스 정보사회미디어학과
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [SiZoAH] : 리뷰 기반 의류 사이즈 추천시스템BOAZ Bigdata
데이터 분석 프로젝트를 진행한 SiZoAH 팀에서는 아래와 같은 프로젝트를 진행했습니다.
리뷰 기반 의류 사이즈 추천시스템
18기 박태남 고려대학교 산업경영공학과
18기 김주은 성균관대학교 문헌정보학과
18기 문다정 단국대학교 응용통계학과
18기 박희준 명지대학교 산업공학과
Amazon OpenSearch - Use Cases, Security/Observability, Serverless and Enhance...Amazon Web Services Korea
로그 및 지표 데이터를 쉽게 가져오고, OpenSearch 검색 API를 사용하고, OpenSearch 대시보드를 사용하여 시각화를 구축하는 등 Amazon OpenSearch의 새로운 기능과 기능에 대해 자세히 알아보십시오. 애플리케이션 문제를 디버깅할 수 있는 OpenSearch의 Observability 기능에 대해 알아보세요. Amazon OpenSearch Service를 통해 인프라 관리에 대해 걱정하지 않고 검색 또는 모니터링 문제에 집중할 수 있는 방법을 알아보십시오.
AWS Summit Seoul 2015에서 GS네오텍 박정수 팀장님의 CloudFront와 Route53 기반 콘텐츠 배포 전략 발표 자료입니다.
---
웹 서비스를 이용하는 사용자들이 늘어나고 트래픽이 증가하면 이에 대응하기 위해 보다 유연한 서비스 환경을 구축할 필요가 있습니다. 특히 서비스 내 미디어 등 콘텐츠를 빠르게 배포하는 것은 서비스 경험을 높이는 데 매우 중요한 요소입니다.
이 강연에서는 AWS 클라우드의 콘텐츠 배포 서비스(CDN)인 Amazon CloudFront와 도메인 관리 서비스인 Amazon Route53를 활용하고 있는 국내 고객의 사례를 소개하고, 국내는 물론 국외에 소재한 고객들에게도 훌륭한 서비스 경험을 제공하기 위해 한국을 비롯해 전 세계 53개소에 자리잡은 CloudFront 엣지 로케이션을 활용하는 방법의 다양한 기술적/비용적 이점에 대해 설명하겠습니다.
Similar to 제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [이탈리안 BMT] : 지하철 지연 시간 데이터 분석 및 시각화를 위한 데이터 파이프라인 구축 (20)
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [백발백준] : 백준봇 : 컨테이너 오케스트레이션 기반 백준 문제 추천 봇BOAZ Bigdata
데이터 엔지니어링 프로젝트를 진행한 백발백준 팀에서는 아래와 같은 프로젝트를 진행했습니다.
백준봇 : 컨테이너 오케스트레이션 기반 백준 문제 추천 봇
20기 유하준 한국외국어대학교 산업공학과
20기 안지완 중앙대학교 소프트웨어학과
20기 정태형 경기대학교 응용통계학과
20기 최윤서 숙명여자대학교 일반대학원 통계학과
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [무드등] : 무신사를 활용한 고객 상황에 따른 의류 추천 스타일링 대시보드BOAZ Bigdata
데이터 시각화 프로젝트를 진행한 무드등 팀에서는 아래와 같은 프로젝트를 진행했습니다.
무신사를 활용한 고객 상황에 따른 의류 추천 스타일링 대시보드
20기 이호림 숙명여자대학교 경영학부
20기 노승혜 숙명여자대학교 소비자경제학과
20기 정다인 성신여자대학교 통계학과
20기 홍나연 숭실대학교 정보통계보험수리학과
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [섬유유연제] : 어글리us! 스마일 Earth! : NLP 기반 프로젝트와 비즈니스 대시보드BOAZ Bigdata
데이터 시각화 프로젝트를 진행한 섬유유연제 팀에서는 아래와 같은 프로젝트를 진행했습니다.
어글리us! 스마일 Earth! : NLP 기반 프로젝트와 비즈니스 대시보드
20기 정강민 세종대학교 경영학과
20기 김기수 광운대학교 데이터사이언스전공
20기 김세연 이화여자대학교 기후에너지시스템공학전공
20기 윤여빈 성신여자대학교 수리통계데이터사이언스학부
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [SPOAZ] : Spotify 기반 개인화 음악 추천 서비스 프로젝트BOAZ Bigdata
데이터 엔지니어링 프로젝트를 진행한 SPOAZ 팀에서는 아래와 같은 프로젝트를 진행했습니다.
Spotify 기반 개인화 음악 추천 서비스 프로젝트
20기 이해현 서울여자대학교 소프트웨어융합학과
20기 안소유 서울여자대학교 소프트웨어융합학과
20기 임혁 중앙대학교 응용통계학과
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [다함께 레벨업!] : 학식 예약 서비스 yammi CRM 대시보드BOAZ Bigdata
데이터 시각화 프로젝트를 진행한 다함께 레벨업! 팀에서는 아래와 같은 프로젝트를 진행했습니다.
학식 예약 서비스 yammi CRM 대시보드
20기 조성배 중앙대학교 공공인재학부
20기 김윤지 숙명여자대학교 경영학부
20기 김지연 연세대학교 심리학과
20기 한은빈 세종대학교 경영학부
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [HAUL의 움직이는 리포트] : 투자성향 기반 주식 추천 및 기업 정보 제공 대시보드BOAZ Bigdata
데이터 시각화 프로젝트를 진행한 HAUL의 움직이는 리포트 팀에서는 아래와 같은 프로젝트를 진행했습니다.
투자성향 기반 주식 추천 및 기업 정보 제공 대시보드
20기 이준희 건국대학교 응용통계학과
20기 김지후 고려대학교 통계학과
19기 김청환 건국대학교 응용통계학과
19기 백지영 한양대학교 경영대학원 비즈니스인포매틱스학과
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [BEARS] : 이미지 캡셔닝을 통한 이모지 추천 및 해시태그 생성BOAZ Bigdata
데이터 분석 프로젝트를 진행한 BEARS 팀에서는 아래와 같은 프로젝트를 진행했습니다.
이미지 캡셔닝을 통한 이모지 추천 및 해시태그 생성
20기 최영우 인하대학교 중국학과
20기 김주은 성신여자대학교 정보시스템공학과
20기 이시내 한국외국어대학교 바이오메디컬공학과
18기 전혜주 숙명여자대학교 독일언어문화학과
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [낭만젊음사람] : UDA를 통한 중환자실 급성 호흡곤란 증후군 조기 예측BOAZ Bigdata
데이터 분석 프로젝트를 진행한 낭만젊음사람 팀에서는 아래와 같은 프로젝트를 진행했습니다.
UDA를 통한 중환자실 급성 호흡곤란 증후군 조기 예측
20기 서동혁 국민대학교 AI빅데이터융합경영학과
20기 권정을 명지대학교 산업경영공학과
20기 정재원 숙명여자대학교 통계학과
20기 황재성 세종대학교 데이터사이언스학과
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [레시피를 보아즈] : 영수증 인식 및 대화를 통한 재료 기반 레시피 추천 챗봇BOAZ Bigdata
데이터 분석 프로젝트를 진행한 레시피를 보아즈 팀에서는 아래와 같은 프로젝트를 진행했습니다.
영수증 인식 및 대화를 통한 재료 기반 레시피 추천 챗봇
20기 박진영 숙명여자대학교 경영학부
20기 서민진 경희대학교 통계학과
20기 안소유 서울여자대학교 소프트웨어융합학과
20기 윤선영 서울과학기술대학교 데이터사이언스학과
20기 이민선 한국공학대학교 산업경영학과
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [전진 4드론] : RAD(Reinforcement learning method for ...BOAZ Bigdata
데이터 분석 프로젝트를 진행한 전진4드론 팀에서는 아래와 같은 프로젝트를 진행했습니다.
RAD(Reinforcement learning method for Autonomous Drone)
20기 정재준 한양대학교 에리카캠퍼스 프랑스학과
20기 이영현 한양대학교 대학원 인공지능학과
20기 이찬 경희대학교 컴퓨터공학과
20기 정원준 건국대학교 컴퓨터공학부
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [REC] : 캠핏 데이터를 활용한 캠핑장 추천 시스템 구현BOAZ Bigdata
데이터 분석 프로젝트를 진행한 REC 팀에서는 아래와 같은 프로젝트를 진행했습니다.
캠핏 데이터를 활용한 캠핑장 추천 시스템 구현
20기 김민혜 한양대학교 경영대학원 비즈니스 인포메틱스
20기 송여진 이화여자대학교 휴먼기계바이오공학부
20기 이은효 이화여자대학교 대학원 통계학과
20기 임세은 숙명여자대학교 사회심리학과
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [유쾌한 반란] : Howmuch : 꽃집 관리 서비스BOAZ Bigdata
데이터 엔지니어링 프로젝트를 진행한 유쾌한 반란 팀에서는 아래와 같은 프로젝트를 진행했습니다.
일 단위 화훼 경매 데이터를 화훼소매업자들에게 제공하여 적정가에 사입할 수 있도록 돕는 서비스 기획
19기 송우석 연세대학교 컴퓨터과학과
19기 박선홍 한국외국어대학교 국제통상학과
19기 이 은 홍익대학교 산업공학과
19기 정성윤 국민대학교 경영정보학부
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [분모자] : 분류 모자이크BOAZ Bigdata
데이터 분석 프로젝트를 진행한 분모자 팀에서는 아래와 같은 프로젝트를 진행했습니다.
로고 자동 감지 및 모자이크 서비스 제안
19기 오효근 건국대학교 일반대학원 기계설계학과
19기 김보겸 중앙대학교 사회학과
19기 송예진 서울여자대학교 소프트웨어융합학과
19기 우아라 서울여자대학교 소프트웨어융합학과
19기 임서현 성균관대학교 글로벌리더학부
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [link-us(링커즈)] : 링키드를 위한 비즈니스 대시보드 제작BOAZ Bigdata
데이터 시각화 프로젝트를 진행한 link-us(링커즈) 팀에서는 아래와 같은 프로젝트를 진행했습니다.
링키드(linkid)를 위한 비즈니스 대시보드 제작
19기 정소영 숙명여자대학교 통계학과
19기 유나현 중앙대학교 응용통계학과
19기 이세연 성신여자대학교 빅데이터사이언스전공
19기 정다운 숙명여자대학교 통계학과
데이터 분석 프로젝트를 진행한 뉴진스 팀에서는 아래와 같은 프로젝트를 진행했습니다.
Multi-modal Fake News Detection
19기 장우솔 단국대학교 일반대학원 응용통계학과
19기 김동진 경희대학교 컴퓨터공학과
19기 박명규 한양대학교 ERICA 로봇공학과
19기 성재혁 고려대학교 컴퓨터학과
19기 신은빈 건국대학교 응용통계학과
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [추적 24시] : 완전 자동결제를 위한 무인점포 이용자 Tracking System 개발BOAZ Bigdata
데이터 분석 프로젝트를 진행한 추적24시 팀에서는 아래와 같은 프로젝트를 진행했습니다.
완전 자동결제를 위한 무인점포 이용자 Tracking System 개발
19기 민경원 고려대학교 산업경영공학부
19기 신재욱 연세대학교 산업공학과
19기 이유빈 서울여자대학교 소프트웨어융합학과
19기 최가희 국립공주대학교 산업시스템공학과
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [6시내고양포CAT몬] : Cat Anti-aging Project based Style...BOAZ Bigdata
데이터 분석 프로젝트를 진행한 6시내고양포CAT몬 팀에서는 아래와 같은 프로젝트를 진행했습니다.
Cat Anti-aging Project based StyleGAN2
18기 박규연 국민대학교 소프트웨어학부
18기 김가영 숙명여자대학교 통계학과
18기 서은유 동덕여자대학교 정보통계학과
18기 이기원 고려대학교 식품자원경제학과
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [AutoCar죠] : 자율주행 로봇 층간 이동을 위한 인지 기능 구현BOAZ Bigdata
데이터 분석 프로젝트를 진행한 AutoCar죠 팀에서는 아래와 같은 프로젝트를 진행했습니다.
자율주행 로봇 층간 이동을 위한 인지 기능 구현
18기 강용구 세종대학교 무인이동체공학과
18기 전효진 건국대학교 응용통계학과
18기 백채은 숙명여자대학교 컴퓨터과학전공
18기 이가은 가천대학교 의용생체공학과
18기 이소연 이화여자대학교 일반대학원 통계학과
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [으쓱^^] : 기업과 소비자를 위한 ESG 대시보드 & 지속가능경영보고서BOAZ Bigdata
데이터 시각화 프로젝트를 진행한 으쓱^^ 팀에서는 아래와 같은 프로젝트를 진행했습니다.
기업과 소비자를 위한 ESG 대시보드 제작 및 ESG 지속가능경영보고서 작성
18기 김성경 동덕여자대학교 정보통계학과
16기 강혜민 한양대학교 경영학부
18기 권순호 연세대학교 식품영양학과
18기 김다희 서울시립대학교 통계학과
18기 윤주원 서울여자대학교 행정학과
6. 지하철 운행시간표는
실시간이 아닌 정적으로 관리/운영
→ 지하철 도착 지연이 빈번하게 발생하여
운행 시간표의 신뢰도 의심
→ 현 운행 시간표의 신뢰도를 측정하고자 함
지하철 지연 시간 데이터 분석 및 시각화를
위한 데이터 파이프라인 구축
02 주제 및 목표
What? Why?
7. - 데이터
: 서울시 실시간 지하철 운행 데이터 API, 네이버 지도의 지하철 도착 시간표
- 데이터 수집
: AWS 서비스 ( S3, lambda, event bridge ) 를 활용하여 스크래퍼 개발 및 데이터 적재
- 데이터 분석 및 시각화
: 적재한 데이터를 바탕으로 ELK stack 및 BigQuery, Looker Studio를 활용한 분석 및 시각화
02 주제 및 목표
How?
9. 서울시 실시간 지하철 운행 데이터 api 활용
https://data.seoul.go.kr/dataList/OA-12764/F/1/datasetView.do
03 소스 데이터 설명 - 실시간 지하철 운행 데이터
10. 03 소스 데이터 설명 - 실시간 지하철 운행 데이터
{
“lineNum” : 호선,
“weekTag” : 평일(1), 토요일(2), 공휴일(3) 구분,
“inOutTag” : 상/하행, 내/외선 구분,
“stationNm” : 역 이름,
“arriveTime” : 도착시간,
“arriveDate” : 도착날짜
}
API 데이터 중
일부 사용
서울시 실시간 지하철 운행 데이터 API 활용
11. 03 소스 데이터 설명 - 지하철 도착 시간표 데이터
네이버 지도의 지하철 도착 시간표 데이터 활용
{
“lineNum” : 호선,
“weekTag” : 평일(1), 토요일(2), 공휴일(3) 구분,
“inOutTag” : 상/하행, 내/외선 구분,
“stationNm” : 역 이름,
“arriveTime” : 도착시간
}
스크래핑
13. 04 데이터 파이프라인
Push
GitHub Actions Amazon ECR
AWS Lambda
AWS Lambda
AWS Lambda
공공 API
요청, 응답, 처리
지하철 호선 정보
스크래퍼 (네이버)
당일 지하철 시간표
스크래퍼 (네이버)
Rule
Amazon S3
Kibana
Elasticsearch
Logstash
Big Query Looker Studio
Amazon Cloudwatch
(Alarm)
Amazon SNS
(Topic)
Developer
Developer
Email, Slack
Notification
Publish
Data
Transform
14. 04 데이터 파이프라인 - Scrapper
Push
GitHub Actions Amazon ECR
AWS Lambda
AWS Lambda
AWS Lambda
공공 API
요청, 응답, 처리
지하철 호선 정보
스크래퍼 (네이버)
Rule
Amazon S3
Kibana
Elasticsearch
Logstash
Big Query
Amazon Cloudwatch
(Alarm)
Amazon SNS
(Topic)
Developer
Developer
Email, Slack
Notification
Publish
당일 지하철 시간표
스크래퍼 (네이버)
Looker Studio
Data
Transform
15. 04 데이터 파이프라인 - 공공API 데이터 리퀘스트
출력명 설명
subwayId
지하철호선ID
(1001:1호선, 1002:2호선, 1003:3호선, 1004:4호선,
1005:5호선 1006:6호선, 1007:7호선, 1008:8호선,
1009:9호선, 1061:중앙선1063:경의중앙선, 1065:공항
철도, 1067:경춘선, 1075:수의분당선 1077:신분당선,
1092:우이신설선)
updnLine
상하행선구분
(0 : 상행/내선, 1 : 하행/외선)
statnId 지하철역ID
recptnDt 열차도착정보를 생성한 시각
arvlCd
도착코드
(0:진입, 1:도착, 2:출발, 3:전역출발, 4:전역진입, 5:전역도
착, 99:운행중)
{
“lineNum” : 호선,
“weekTag” : 평일(1), 토요일(2), 공휴일(3) 구분,
“inOutTag” : 상/하행, 내/외선 구분,
“stationNm” : 역 이름,
“arriveTime” : 도착시간,
“arriveDate” : 도착날짜
}
1분 간격으로 호출하여 데이터 수신,
해당 데이터를 필요한 포맷에 맞게끔 transform
16. 04 데이터 파이프라인 - Scrapper
역별 시간표 페이지(네이버 지도)에서 정보 스크래핑
시간표 데이터
17. 04 데이터 파이프라인 - Scrapper
1. 정해진 URL 형식으로 쿼리
2. ‘전체 시간표' 클릭
3. 역 시간표 페이지 진입 후 원하는 정보 스크래핑
시간표 데이터 습득 과정
18. 04 데이터 파이프라인 - Scrapper
https://pts.map.naver.com/end-subway/ends/web/{역 코드}/home?timemode=
네이버에서 자체적으로 사용하고 있는 역 코드는 매우 불규칙적이며, 공개되어 있지도 않음
19. 04 데이터 파이프라인 - Scrapper
189번 1호선 오산역 190번 1호선 진위역 1401번 1호선 송탄역…?
네이버에서 자체적으로 사용하고 있는 역 코드는 매우 불규칙적이며, 공개되어 있지도 않음
20. 04 데이터 파이프라인 - Scrapper
100 ~ 20000까지 모두 쿼리를 날려보고 (역, 호선 신설 가능성 고려)
검색결과가 존재하는 숫자,
그리고 그 숫자에 매칭되는 역 이름을
하나의 파일로 저장해보자!
그 후에 저장된 역 코드를 바탕으로
해당 역의 시간표를 스크래핑 하면 될 것 같아!
21. 04 데이터 파이프라인 - Scrapper
{ ‘0호선' : [
{
“역 코드" : 000,
“역 이름”: “00역”
}
]}
{
“lineNum”: “00선”,
“weekTag”: “0”,
“inOutTag: “0”,
“stationNm”: “00역",
“arriveTime:
“00:00:00”
}
① ②
역 코드 스크래퍼 역 코드 파일 시간표 스크래퍼 시간표 파일
Overall plan for Scrapping
22. 04 데이터 파이프라인 - Scrapper
역 코드 스크래퍼
- BeautifulSoup 라이브러리 활용
- 100부터 20000까지 쿼리
- 역 정보가 있다면 코드, 역 이름 저장
- 역 정보가 없다면 continue
- 호선, 역 신설에 강건하게 대응할 수 있도록 설계
- ‘subway_information.json’ 파일에 데이터 최종 저장
Scrapper with Python
시간표 스크래퍼
- BeautifulSoup, Selenium 라이브러리 활용
- ‘subway_information.json’에서 역 코드, 이름 정보 획득
- 호선 별로 당일 역 시간 표 정보 저장
23. 04 데이터 파이프라인 - Scrapper
Amazon EventBridge AWS Lambda Amazon S3
Trigger
(Every 5:00, 5:30)
Upload
Scrapping
로컬 환경의 비효율성, 불안정성 개선
- 스크래퍼 2개 합쳐 하루에 최대 30분 실행
⟹ Lambda 사용
- 약 4달 동안 매일 오전 5시에 코드 실행 필요
⟹ EventBridge로 스케쥴링
- 팀원들 간 스크래핑 결과물(json) 공유 기능 필요
⟹ S3 이용
자동화 with AWS
24. 04 데이터 파이프라인 - Scrapper
Limitations of AWS Lambda
Lambda Timeout
최대 15분
(콜드 스타트로 실제 가용 시간은 더 적음 ...)
Computing Power
최대 10,240MB 메모리
(하지만 3,008MB 최대였음...)
25. 04 데이터 파이프라인 - Scrapper
Limitations of AWS Lambda
하지만 내 코드는 10코어 CPU, 16GB RAM에서 30분 이상 돌아가는 걸..?
🤔
Lambda Timeout
최대 15분
(콜드 스타트로 실제 가용 시간은 더 적음 ...)
Computing Power
최대 10,240MB 메모리
(하지만 3,008MB 최대였음...)
26. 04 데이터 파이프라인 - Scrapper
Scrapper with Multiprocessing
첫번째 시도: Python with Multiprocessing
- Multiprocessing 적용하여 병렬처리
- 시간표 스크래퍼의 경우 부분 적용 (webdriver 이슈)
⟹ Timeout은 충족하나 Lambda 위에서는 OS 에러 발생
27. 04 데이터 파이프라인 - Scrapper
Scrapper with Golang
- Goroutine을 활용한 경량화 스레드에서의 병렬처리
- 역 코드 스크래퍼: Goquery 라이브러리 이용
- 시간표 스크래퍼: Goquery + Chromedp 라이브러리 이용
두번째 시도: Golang
첫번째 시도: Python with Multiprocessing
- Multiprocessing 적용하여 병렬처리
- 시간표 스크래퍼의 경우 부분 적용 (webdriver 이슈)
⟹ Timeout은 충족하나 Lambda 위에서는 OS 에러 발생
⟹ Timeout 충족 + OS 에러 미발생
28. 04 데이터 파이프라인 - Scrapper
Performance Improvement
Python (plain) Python (with Multiprocessing) Go
역 코드 (쿼리 당) 0.1s 0.02s 0.002s
시간표 (역 당) 13s 1.75s 0.21s
역 코드 스크래퍼: 처리 속도 약 50배 향상 (쿼리 당 0.1s→ 0.002s)
시간표 스크래퍼: 처리 속도 약 62배 향상 (역 당 13s→ 0.21s)
⟹ EC2가 아닌 Lambda를 사용하여 서버 비용 절감
+ 경량화 스레드로 인한 낮은 컨텍스트 스위칭 비용
29. 04 데이터 파이프라인 - CI/CD
Push
GitHub Actions Amazon ECR
AWS Lambda
AWS Lambda
AWS Lambda
공공 API
요청, 응답, 처리
지하철 호선 정보
스크래퍼 (네이버)
Rule
Amazon S3
Kibana
Elasticsearch
Logstash
Big Query Looker Studio
Amazon Cloudwatch
(Alarm)
Amazon SNS
(Topic)
Developer
Developer
Email, Slack
Notification
Data
Transform
Publish
당일 지하철 시간표
스크래퍼 (네이버)
30. 04 데이터 파이프라인 - CI/CD
GitHub Actions를 통한 Docker Image 배포 자동화
시간표 크롤러에서 사용한 chromedp 경우 chrome 프로세스를 띄워야 함
Lambda 위에서 chrome을 띄울 수 있도록 Docker Image 구성 필요
(+ 겸사겸사 다른 스크래퍼도 Dockerize)
31. 04 데이터 파이프라인 - CI/CD
GitHub Actions를 통한 Docker Image 배포 자동화
Docker Image
Build, Tag
Configure
AWS Credentials
Image push to ECR
Deploy Image
to Lambda
사람이 하나하나 직접 실행 ⟹ GitHub main 브랜치 push 시 자동으로 모든 프로세스 진행
32. 04 데이터 파이프라인 - 모니터링
Push
GitHub Actions Amazon ECR
AWS Lambda
AWS Lambda
AWS Lambda
공공 API
요청, 응답, 처리
지하철 호선 정보
스크래퍼 (네이버)
Rule
Amazon S3
Kibana
Elasticsearch
Logstash
Big Query Looker Studio
Amazon Cloudwatch
(Alarm)
Amazon SNS
(Topic)
Developer
Developer
Email, Slack
Notification
Data
Transform
Publish
당일 지하철 시간표
스크래퍼 (네이버)
33. 04 데이터 파이프라인 - 모니터링
Lambda 실행 중 사용자가 설정한
임계 값을 벗어났을 경우 알람
(ex. 에러가 1회 이상 발생했을 경우)
Publisher
(Amazon Cloudwatch)
Amazon SNS SNS Topic Message filtering
and fanout
Subscribers
(email, Lambda)
Cloudwatch가 알람(메시지)을 보내면
SNS는 메시지를 주제(Topic)에 전송
SNS를 구독하고 있는
구독자들에게 메시지 전송
Cloudwatch & SNS를 활용한 에러 리포팅
34. 04 데이터 파이프라인 - Transformer
Push
GitHub Actions Amazon ECR
AWS Lambda
AWS Lambda
AWS Lambda
공공 API
요청, 응답, 처리
지하철 호선 정보
스크래퍼 (네이버)
Rule
Amazon S3
Kibana
Elasticsearch
Logstash
Big Query Looker Studio
Amazon Cloudwatch
(Alarm)
Amazon SNS
(Topic)
Developer
Developer
Email, Slack
Notification
Data
Transform
Publish
당일 지하철 시간표
스크래퍼 (네이버)
35. 04 데이터 파이프라인 - Transformer
- Data Lake 형태로 필요한 정보를 가공하지 않고 저장
- 서로 다른 프레임워크에서 활용하기 위해 가공 작업 필요
- Amazon S3 버킷에서 정제 후 다른 S3 버킷에 적재
Amazon S3 Amazon S3
37. 04 데이터 파이프라인 ELK Stack
Push
GitHub Actions Amazon ECR
AWS Lambda
AWS Lambda
AWS Lambda
공공 API
요청, 응답, 처리
지하철 호선 정보
스크래퍼 (네이버)
Rule
Amazon S3
Kibana
Elasticsearch
Logstash
Big Query Looker Studio
Amazon Cloudwatch
(Alarm)
Amazon SNS
(Topic)
Developer
Developer
Email, Slack
Notification
Data
Transform
Publish
당일 지하철 시간표
스크래퍼 (네이버)
38. 04 데이터 파이프라인 ELK Stack
ELK = Elasticsearch + Logstash + Kibana
: 사용자에게 모든 시스템과 애플리케이션에서 로그를 집계하고 이를 분석하며
애플리케이션과 인프라 모니터링 시각화를 생성하고, 빠르게 문제를 해결하며 보안 분석할 수 있는 능력을 제공
- Elasticsearch
: Apache Lucene(아파치 루씬) 기반의 java 오픈소스 분산 검색 엔진.
방대한 양의 데이터를 신속하고 거의 실시간으로 저장, 검색, 분석 가능.
- Logstash
: 여러 소스에서 동시에 데이터를 수집하여 변환 후 Elasticsearch 서버로 전송하는 데이터 처리 엔진.
- Kibana
: 분석한 내용을 차트와 그래프 등을 활용하여 시각화 가능한 툴
39. Kibana
Elasticsearch
Logstash
04 데이터 파이프라인 ELK Stack
데이터 가공 및
인덱스 생성
데이터 검색 및 분석
데이터 시각화
데이터 전처리
ELK 도입 목적
- Elasticsearch를 통해 대용량 데이터 검색, 최종적으로는 데이터 간 비교 연산, 분석
- Kibana를 활용한 시각화를 통해 다양한 인사이트를 도출
데이터 전송
Amazon S3
40. Logstash → Elasticsearch
Logstash를 활용하여 Amazon S3의 Data를
원하는 구조의 index로 재구성하여 Elastic Search에 적재
인덱스 내부 구조
timetable_230601
{
“inOutTag: “0”,
“weekTag”: “0”,
“stationNm”: “00역",
“dataType”: “timetable”,
“arriveTime”: “yy-mm-ddT00:00:00”,
“lineNum”: “00선”,
…
}
Logstash
04 데이터 파이프라인 ELK Stack
41. - Elasticsearch의 RESTful API를 활용한 HTTP
요청을 통해 데이터가 원하는 형태의 인덱스로
저장됨을 확인
- 각각의 인덱스는 약 20만개의 요소를 담고 있음
04 데이터 파이프라인 ELK Stack
Elasticsearch
42. - 데이터 구분, 시각화를 위한 데이터 뷰 생성
- timetable (당일 지하철 도착 시간표)
- realtime (실시간 열차 도착 시간)
- 각 데이터 뷰는 약 600만개의 데이터로 구성
- (6월 1일 ~ 6월 30일 데이터 기준)
Elasticsearch
04 데이터 파이프라인 ELK Stack
43. - Filter 기능을 활용하여 쉽게 검색 가능
04 데이터 파이프라인 ELK Stack
Elasticsearch
45. Query DSL로 필드 간 비교 연산 수행 시 에러 발생
04 데이터 파이프라인 ELK Stack
Limit of Using Elasticsearch
46. 04 데이터 파이프라인 ELK Stack
Limit of Using Elasticsearch
- Query DSL을 통해 실시간 지하철 데이터와 지하철 시간표 데이터의 도착 시간 차이 분석 시도
- Elasticsearch는 필터를 이용한 빠른 검색에 용이
- 하지만, 원하는 데이터 간 비교 연산(특히 대규모 비교 연산)은 실질적으로 불가능
- SUM, AVERAGE 등의 집계 연산은 가능하나, 특정 필드 간의 (수리적인) 비교 연산은 불가
(수리적인 비교 연산을 하기 위해선 데이터의 조건 하나하나 직접 필터링 부분에 적어서 비교해야 함)
⟹ 비교 연산, 분석의 경우 BigQuery를 이용하는 것으로 변경
⟹ 저장된 데이터를 파악(ex. 지하철 역 별 열차가 지나간 횟수, 시간 별 열차가 지나간 횟수 등)에 ElasticSearch, Kibana 이용
47. 04 데이터 파이프라인 - BigQuery & Looker Studio
Push
GitHub Actions Amazon ECR
AWS Lambda
AWS Lambda
AWS Lambda
공공 API
요청, 응답, 처리
지하철 호선 정보
스크래퍼 (네이버)
Rule
Amazon S3
Kibana
Elasticsearch
Logstash
Big Query Looker Studio
Amazon Cloudwatch
(Alarm)
Amazon SNS
(Topic)
Developer
Developer
Email, Slack
Notification
Data
Transform
Publish
당일 지하철 시간표
스크래퍼 (네이버)
48. 04 데이터 파이프라인 - BigQuery & Looker Studio
- BigQuery
: 구글이 제공하는 클라우드 기반 데이터 웨어하우스
대용량의 데이터를 빠르고 강력한 쿼리로 분석할 수 있음
- Looker Studio
: 데이터 분석 및 시각화를 위한 클라우드 기반 비즈니스 인텔리전스 도구
사용자들이 데이터를 쉽게 이해하고 시각화하여 인사이트를 얻을 수 있도록 지원하는 서비스
49. 04 데이터 파이프라인 - BigQuery & Looker Studio
BigQuery Looker Studio
Amazon S3
BigQuery omni로
데이터 전송
데이터 전처리
데이터 시각화
BigQuery 도입 목적
- ELK stack만으로는 지하철 지연 분석이 어려움
- BigQuery를 도입하여 지하철 도착 정확도를 분석, Looker Studio를 연동하여 시각화
JSON to Table
50. 04 데이터 파이프라인 - BigQuery & Looker Studio
당일 시간표 데이터에
DATE 필드 추가
시간표 데이터 전체 병합
&
실시간 데이터와 비교하여
accord 필드 추가
실시간 열차 도착 데이터의
arriveTime 필드 ‘초’ 정보
00으로 통일
실시간 지하철 도착 시간이 당일
시간표와 일치하는 경우
accord = 1 ( default = 0 )
1. 당일 시간표 데이터 전처리
2. 실시간 열차 도착시간 데이터 전처리
3. 데이터 비교 및 결과 도출1 - 전체 데이터
51. 04 데이터 파이프라인 - BigQuery & Looker Studio
호선 별 지하철 운행 정확도 도출 시간대 별 지하철 운행 정확도 도출
( timetag 는 24시간을 2시간 단위로 분할한 정보.
time1, 2, ..., 12 )
요일 별 지하철 운행 정확도 도출
( weekDay 는 요일 정보. 월, 화, …일 )
4. 데이터 비교 및 결과 도출2 - 호선, 시간, 요일 별 데이터
52. 04 데이터 파이프라인 - BigQuery & Looker Studio
Looker Studio
54. 05 결과 도출 및 시각화 ELK Stack
- timetable 데이터를 통한 호선별 역개수 시각화
- 호선 개수 비교를 한눈에 확인 가능
55. 05 결과 도출 및 시각화 ELK Stack
- 6월 한달 동안의 지하철 역 별 열차가 지나간 횟수
- 막대그래프 및 워드클라우드로 시각화
56. 05 결과 도출 및 시각화 ELK Stack
- 시간 별 열차가 지나간 횟수를 heatmap으로 표현
- 색깔이 짙을 수록 그 시간에 열차가 많이 지나 간 것
- 평일에는 16시~18시 사이에 열차가 많음을 알 수 있음
57. 05 결과 도출 및 시각화 - BigQuery & Looker Studio
- 날짜 별 지하철 운행 추이
- 지하철 도착 정확도
: 특정 날짜를 선택하여 해당 날짜의 지하철 도착 정확도
확인할 수 있음.
- 날짜 별 지하철 운행 수
: 주말과 공휴일에 상대적으로 운행 지하철 수가 적은
것을 알 수 있음.
58. 05 결과 도출 및 시각화 - BigQuery & Looker Studio
- 지하철 호선 별 도착 정확도 (정확도 높은 순 정렬)
: 9호선과 2호선의 정확도가 매우 낮음…!
심지어 경의중앙선보다..?
- 주요 호선(1~9호선)의 도착 정확도 및 운행 열차 수
: 도착 정확도 Line chart
운행 열차 수 - Bar chart
- 지하철 도착 정확도
: 특정 호선을 선택하여 해당 호선의 지하철 도착 정확도
확인할 수 있음.
59. - 지하철 도착 정확도 BEST / WORST TOP 5 시간대
: 06~08시 가 가장 정확도가 높음
01~04시 (새벽 time) 가 가장 낮음
- 시간대별 지하철 도착 정확도 추이
: 시간대는 24시간을 2시간 간격으로 나누어 time1,
… ,12로 설정함 (단, 2~4시는 운행 열차가 없어 0~1,
1~4시로 설정)
- 지하철 도착 정확도
: 특정 시간대를 선택하여 해당 시간대의 지하철 도착
정확도 확인할 수 있음
05 결과 도출 및 시각화 - BigQuery & Looker Studio
60. 05 결과 도출 및 시각화 - BigQuery & Looker Studio
- 요일 별 지하철 도착 정확도 순위
: 화요일이 BEST
토요일이 WORST
- 지하철 도착 정확도
: 특정 요일을 선택하여 해당 요일의 지하철 도착 정확도
확인할 수 있음
- 요일 별 지하철 도착 정확도 (feat 요일 별 전체 운영 열차 수)
: 제 시간에 도착한 열차 수 확인 가능
- 요일 별 지하철 운행 수
: 전체 열차 수 확인 가능
62. 06 의의 및 한계
의의
- 파이프라인을 구축하는 과정에서 다양한 기술 스택 경험
- 실시간 데이터 및 대용량의 데이터(600만 건) 핸들링 경험
- 각 스택(ELK, Big Query)별 다른 용도에 대한 이해
한계
- 파편화된 파이프라인 통합 관리 솔루션(ex. Airflow) 부재
- Git 활용에 대한 아쉬움