데이터 엔지니어링 프로젝트를 진행한 중고책나라 팀에서는 아래와 같은 프로젝트를 진행했습니다.
중고책 실시간 데이터를 활용하여 Elasticsearch Indexing 클러스터 성능 최적화
18기 금나연 숙명여자대학교 IT공학 전공
18기 박규연 국민대학교 소프트웨어학부
18기 김건우 국민대학교 AI빅데이터융합경영학과
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Catch, Traffic!] : 지하철 혼잡도 및 키워드 분석 데이터 파이프라인 구축BOAZ Bigdata
데이터 엔지니어링 프로젝트를 진행한 Catch, Traffic! 팀에서는 아래와 같은 프로젝트를 진행했습니다.
수도권 교통의 혼잡성을 해결하기 위한 방안을 찾는 데이터 파이프라인 구축
18기 김인섭 숭실대학교 산업정보시스템공학과
18기 김재민 국민대학교 AI빅데이터융합경영학과
18기 서은유 동덕여자대학교 정보통계학과
18기 윤정원 숙명여자대학교 소프트웨어융합전공
18기 이현진 서울과학기술대학교 산업정보시스템전공
18기 조은학 명지대학교 융합소프트웨어학부
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [YouPlace 팀] : 카프카와 스파크를 활용한 유튜브 영상 속 제주 명소 검색 BOAZ Bigdata
데이터 엔지니어링 프로젝트를 진행한 YouPlace팀에서는 아래와 같은 프로젝트를 진행했습니다.
<aside>
이젠 검색도 유튜브 시대
제주여행을 계획할 때 브이로그 영상을 많이 참고하실텐데요
수많은 영상들과 영상 속 분산된 명소들을 하나 하나 찾으려 생각하면 막막하지 않으셨나요?
이러한 고민을 갖고 계신 분들을 위해, 유튜브 브이로거들이 찾아간 여행 명소들을 지도에서 한 눈에 파악할 수 있도록 만들었어요
(github : https://github.com/Boaz-Youplace)
16기 엔지니어링 고은서 | 중앙대학교 소프트웨어학부
16기 엔지니어링 류정화 | 성신여자대학교 융합보안공학과
16기 엔지니어링 송경민 | 국민대학교 소프트웨어학과
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [BAOBAB 팀] : 반려동물 미용업 모바일 서비스 분석BOAZ Bigdata
데이터 시각화 프로젝트를 진행한 BAOBAB 팀에서는 아래와 같은 프로젝트를 진행했습니다.
반려동물 미용업 모바일 서비스 분석
17기 강지민 숙명여자대학교 통계학과
17기 김나연 고려대학교 통계학과
17기 김지윤 성신여자대학교 융합보안공학과
17기 박이정 인하대학교 경영학과
17기 이세영 동덕여자대학교 국제경영/정보통계학과
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [코끼리책방 팀] : 사용자 스크랩 내용 기반 도서 추천 BOAZ Bigdata
데이터 분석 프로젝트를 진행한 코끼리책방 팀에서는 아래와 같은 프로젝트를 진행했습니다.
사용자 스크랩 내용 기반 도서 추천
16기 이지혜 이화여자대학교 컴퓨터공학과
17기 권예은 한국항공대학교 컴퓨터공학과
17기 변강준 동국대학교 산업시스템공학과
17기 이현지 이화여자대학교 통계학과
17기 홍지원 국민대학교 AI빅데이터융합경영학과
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Catch, Traffic!] : 지하철 혼잡도 및 키워드 분석 데이터 파이프라인 구축BOAZ Bigdata
데이터 엔지니어링 프로젝트를 진행한 Catch, Traffic! 팀에서는 아래와 같은 프로젝트를 진행했습니다.
수도권 교통의 혼잡성을 해결하기 위한 방안을 찾는 데이터 파이프라인 구축
18기 김인섭 숭실대학교 산업정보시스템공학과
18기 김재민 국민대학교 AI빅데이터융합경영학과
18기 서은유 동덕여자대학교 정보통계학과
18기 윤정원 숙명여자대학교 소프트웨어융합전공
18기 이현진 서울과학기술대학교 산업정보시스템전공
18기 조은학 명지대학교 융합소프트웨어학부
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [YouPlace 팀] : 카프카와 스파크를 활용한 유튜브 영상 속 제주 명소 검색 BOAZ Bigdata
데이터 엔지니어링 프로젝트를 진행한 YouPlace팀에서는 아래와 같은 프로젝트를 진행했습니다.
<aside>
이젠 검색도 유튜브 시대
제주여행을 계획할 때 브이로그 영상을 많이 참고하실텐데요
수많은 영상들과 영상 속 분산된 명소들을 하나 하나 찾으려 생각하면 막막하지 않으셨나요?
이러한 고민을 갖고 계신 분들을 위해, 유튜브 브이로거들이 찾아간 여행 명소들을 지도에서 한 눈에 파악할 수 있도록 만들었어요
(github : https://github.com/Boaz-Youplace)
16기 엔지니어링 고은서 | 중앙대학교 소프트웨어학부
16기 엔지니어링 류정화 | 성신여자대학교 융합보안공학과
16기 엔지니어링 송경민 | 국민대학교 소프트웨어학과
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [BAOBAB 팀] : 반려동물 미용업 모바일 서비스 분석BOAZ Bigdata
데이터 시각화 프로젝트를 진행한 BAOBAB 팀에서는 아래와 같은 프로젝트를 진행했습니다.
반려동물 미용업 모바일 서비스 분석
17기 강지민 숙명여자대학교 통계학과
17기 김나연 고려대학교 통계학과
17기 김지윤 성신여자대학교 융합보안공학과
17기 박이정 인하대학교 경영학과
17기 이세영 동덕여자대학교 국제경영/정보통계학과
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [코끼리책방 팀] : 사용자 스크랩 내용 기반 도서 추천 BOAZ Bigdata
데이터 분석 프로젝트를 진행한 코끼리책방 팀에서는 아래와 같은 프로젝트를 진행했습니다.
사용자 스크랩 내용 기반 도서 추천
16기 이지혜 이화여자대학교 컴퓨터공학과
17기 권예은 한국항공대학교 컴퓨터공학과
17기 변강준 동국대학교 산업시스템공학과
17기 이현지 이화여자대학교 통계학과
17기 홍지원 국민대학교 AI빅데이터융합경영학과
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [개미야 뭐하니?팀] : 투자자의 반응을 이용한 실시간 등락 예측(feat. 카프카)BOAZ Bigdata
데이터 엔지니어링 프로젝트를 진행한 개미야 뭐하니? 팀에서는 아래와 같은 프로젝트를 진행했습니다.
[Web 발신] 5분 후, 당신이 투자한 주식이 떨어집니다!
실시간으로 내 주식의 등락을 알려주는 ai가 있다?
이것만 있으면 나도 주린이 탈출
개미와 함께하는 최적의 매도 매수 타이밍
지금 이 순간, 내 주식의 미래를 볼 수 있다
(신청: https://github.com/jayleenym/AYOA)
16기 강지수 동덕여자대학교 정보통계학과
16기 김서민 숙명여자대학교 컴퓨터과학과
16기 김윤기 한양대학교 대학원 컴퓨터소프트웨어학과
16기 문예진 서강대학교 경제학과 / 빅데이터 사이언스
This document discusses using BigQuery and Dataflow for ETL processes. It explains loading raw data from databases into BigQuery, transforming the data with Dataflow, and writing the results. It also mentions pricing of $5 per terabyte for BigQuery storage and notes that Dataflow provides virtual CPUs and RAM. Finally, it includes a link about performing ETL from relational databases to BigQuery.
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [기린그림 팀] : 사용자의 손글씨가 담긴 그림 일기 생성 서비스BOAZ Bigdata
데이터 분석 프로젝트를 진행한 기린그림 팀에서는 아래와 같은 프로젝트를 진행했습니다.
기린그림 팀은 사용자의 글씨체를 학습하여 나만의 폰트로 일기를 쓰고, 사진을 업로드 하면 직접 그림을 그린 것처럼 변환하여 그림일기를 쓸 수 있도록 하는 프로젝트를 진행 했습니다.
16기 김유진 이화여자대학교 과학교육과
17기 김송성 고려대학교 통계학과
17기 박종은 연세대학교 언더우드국제학부
17기 여해인 동덕여자대학교 컴퓨터학과
17기 이보림 중앙대학교 소프트웨어학부
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [이탈리안 BMT] : 지하철 지연 시간 데이터 분석 및 시각화를 위한 데이터 파이프라인 구축BOAZ Bigdata
데이터 엔지니어링 프로젝트를 진행한 이탈리안 BMT 팀에서는 아래와 같은 프로젝트를 진행했습니다.
지하철 지연 시간 데이터 분석 및 시각화를 위한 데이터 파이프라인 구축
19기 김보겸 중앙대학교 사회학과
19기 김가경 동덕여자대학교 정보통계학과
19기 김동진 경희대학교 컴퓨터공학과
19기 박재은 숙명여자대학교 컴퓨터과학전공
19기 이재준 명지대학교 융합소프트웨어 데이터테크놀로지전공
대용량 데이터레이크 마이그레이션 사례 공유 [카카오게임즈 - 레벨 200] - 조은희, 팀장, 카카오게임즈 ::: Games on AWS ...Amazon Web Services Korea
기존 온프레미스 환경에서는 비즈니스 성장에 따른 유연한 확장에 어려움 있어 AWS를 이용하여 더욱 탄력적인 환경을 구축하는 프로젝트를 수행하였습니다. 이 세션을 통해 카카오게임즈가 AWS와 함께 수행한 데이터레이크 마이그레이션의 여정과, 그 과정에서 Amazon S3, EMR, Athena, Redshift 등의 다양한 기술 요소들을 활용한 경험과 팁을 전달해 드립니다.
한빛데브그라운드에서 발표했던 내용입니다.
발표 영상 : https://youtu.be/ohpfSLf0V3Y
--
스타트업 비즈니스에서 데이터를 활용한 전략 수립과 의사결정은 필수적인 요소입니다. 서비스 운영 데이터에서부터 다양한 고객의 행동 로그, 소셜 미디어 데이터까지 다양한 데이터를 모두 모아 분석 환경을 구축하기 위해서는 많은 준비와 고민이 필요합니다. 스타트업에서 빠른 속도와 최소한의 비용, 다양한 분석 Tool들과 연동되는 Data Pipeline, Data Lake, Data Warehouse 구축 경험기를 공유하고자 합니다. 이 과정을 통해 애널리틱스 파이프라인을 구축 과정과 S3, Glue, Athena,EMR, Quicksight와 같은 서버리스 애널리틱스 서비스에 대한 구축 사례를 확인하실 수 있습니다.
데이터 시각화 프로젝트를 진행한 보아져 팀에서는 아래와 같은 프로젝트를 진행했습니다.
에듀테크 기업 바이브온과 함께한 세가지 프로젝트 모음집. 바이브온의 모든 데이터를 기반으로 한 인사이트 도출 과정이 나타난 [Marketing Analysis], 이용자들에게 효과적인 서비스를 제공하기 위한 시각화 서비스 기획안인 [타 생기부 분석 100% 활용하기], 시각화를 넘어 NLP를 통해 선생님의 생기부 작성을 돕는 [Vital-On] 세가지 프로젝트로 이루어져있다.
15기 박대희 이화여자대학교 통계학과
17기 김태현 이화여자대학교 경제학과
17시 박지운 이화여자대학교 통계학과
17기 이수경 성균관대학교 데이터사이언스학과
17기 이한울 고려대학교 사회학과
17기 이준희 고려대학교 통계학과
코끼리(BOAZ) 사서의 도서 추천 솔루션
: 이 책 내용이 내 취향인데, 비슷한 내용의 책은 어떻게 찾지?’
줄거리를 바탕으로 책을 고르시는 분, 관심 작가의 책을 읽고 싶은 분들께
코끼리 사서가 취향저격 책을 제안해 드립니다.
12기 강호석 고은비 고은지 양태일 이지인 전준수 정해원
[국내 최초 빅데이터 연합동아리 BOAZ]
유튜브 - https://www.youtube.com/channel/UCSniI26A56n2QZ71opJtTUg
페이스북 - https://www.facebook.com/BOAZbigdata
인스타그램 - http://www.instagram.com/boaz_bigdata
블로그 - https://blog.naver.com/boazbigdata
MongoDB Atlas Data Lake는 MongoDB Atlas가 제공하는 새로운 서비스입니다.
많은 고객들이 S3, GCP, Azure Blobs와 같은 저렴한 오브젝트 스토리지에 장기 보관용 데이터를 저장합니다.
하지만 그 중 다수는 의사 결정을 위한 분석이 필요 시 , 효과적으로 해당 데이터를 활용할 수 있는 강력한 시스템이나 도구가 없습니다. MongoDB Atlas Data Lake는 장기간 저장된 고객의 데이터 분석을 가능하게 하며, 해당 비즈니스에 의미있고, 가치있는 정보를 제공할 수 있습니다.
해당 세션에서는 MongoDB Atlas Data Lake에서 사용할 수 있는 기능과 그 구현 방법에 대해 자세히 설명합니다.
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [힐링세포들] : MHTI (Mental Health Type Indicator)BOAZ Bigdata
데이터 시각화 프로젝트를 진행한 힐링세포들 팀에서는 아래와 같은 프로젝트를 진행했습니다.
정신건강 정보를 전달하고, 관리할 수 있는 대시보드 제작
18기 최유진 숙명여자대학교 소비자경제학과
18기 김주은 성균관대학교 문헌정보학과
18기 김혜연 고려대학교 통계학과
18기 홍주리 숙명여자대학교 통계학과
18기 황인정 숙명여자대학교 일반대학원 경영학과
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Stalker 팀] : 감정분석을 통한 MBTI 기반 개인별 투자 성향 분석BOAZ Bigdata
데이터 분석 프로젝트를 진행한 Stalker 팀에서는 아래와 같은 프로젝트를 진행했습니다.
감정분석을 통한 MBTI 기반 개인별 투자 성향 분석
16기 김지원 명지대학교 산업경영공학과
17기 곽윤경 홍익대학교 디자인경영융합학부
17기 김나현 서울대학교 언어학과
17기 유승희 중앙대학교 응용통계학과
17기 조수연 연세대학교 통계데이터사이언스학과
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [쇼미더뮤직 팀] : 텍스트 감정추출을 통한 노래 추천BOAZ Bigdata
데이터 분석 프로젝트를 짆애한 쇼미더뮤직 팀에서는 아래와 같은 프로젝트를 진행했습니다.
내 하루의 감정을 통해 노래를 추천받을 수 있다면 얼마나 좋을까?
자연어처리와 추천시스템 기법의 collaboration..
여러분의 감정을 추출하고, 어울리는 노래를 추천해드립니다.
**쇼미더뮤직!**
16기 김양경 건국대학교 기술경영학과
15기 김은선 세종대학교 데이터사이언스학과
16기 유수빈 동덕여자대학교 정보통계학과
16기 이상민 경희대학교 소프트웨어융합학과
16기 조하늘 동덕여자대학교 국제경영학과, 정보통계학과
16기 최 리 건국대학교 응용통계학과
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링BOAZ Bigdata
데이터 분석 프로젝트를 진행한 리뷰의 재발견 팀에서는 아래와 같은 프로젝트를 진행했습다.
Review? Re-View!
물건 살 때 우리는 리뷰를 보며 많은 정보를 얻습니다❕여러분이 보는 그 리뷰의 유용성을 저희가 알려드릴게요
리뷰 유용성 판단부터 토픽으로 알아보는 리뷰 유용성 결정 요인 분석, 군집화를 통한 대표 리뷰 추출까지
우리 같이 Review를 Re-View해봐요
16기 정수연 한양대 파이낸스경영학과
16기 문예진 서강대 경제학부 / 빅데이터 사이언스
16기 이상민 경희대 소프트웨어융합학과
16기 황의린 숙명여대 생명시스템학부 / 통계학과
16기 정승연 연세대 대학원 전산언어학
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [개미야 뭐하니?팀] : 투자자의 반응을 이용한 실시간 등락 예측(feat. 카프카)BOAZ Bigdata
데이터 엔지니어링 프로젝트를 진행한 개미야 뭐하니? 팀에서는 아래와 같은 프로젝트를 진행했습니다.
[Web 발신] 5분 후, 당신이 투자한 주식이 떨어집니다!
실시간으로 내 주식의 등락을 알려주는 ai가 있다?
이것만 있으면 나도 주린이 탈출
개미와 함께하는 최적의 매도 매수 타이밍
지금 이 순간, 내 주식의 미래를 볼 수 있다
(신청: https://github.com/jayleenym/AYOA)
16기 강지수 동덕여자대학교 정보통계학과
16기 김서민 숙명여자대학교 컴퓨터과학과
16기 김윤기 한양대학교 대학원 컴퓨터소프트웨어학과
16기 문예진 서강대학교 경제학과 / 빅데이터 사이언스
This document discusses using BigQuery and Dataflow for ETL processes. It explains loading raw data from databases into BigQuery, transforming the data with Dataflow, and writing the results. It also mentions pricing of $5 per terabyte for BigQuery storage and notes that Dataflow provides virtual CPUs and RAM. Finally, it includes a link about performing ETL from relational databases to BigQuery.
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [기린그림 팀] : 사용자의 손글씨가 담긴 그림 일기 생성 서비스BOAZ Bigdata
데이터 분석 프로젝트를 진행한 기린그림 팀에서는 아래와 같은 프로젝트를 진행했습니다.
기린그림 팀은 사용자의 글씨체를 학습하여 나만의 폰트로 일기를 쓰고, 사진을 업로드 하면 직접 그림을 그린 것처럼 변환하여 그림일기를 쓸 수 있도록 하는 프로젝트를 진행 했습니다.
16기 김유진 이화여자대학교 과학교육과
17기 김송성 고려대학교 통계학과
17기 박종은 연세대학교 언더우드국제학부
17기 여해인 동덕여자대학교 컴퓨터학과
17기 이보림 중앙대학교 소프트웨어학부
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [이탈리안 BMT] : 지하철 지연 시간 데이터 분석 및 시각화를 위한 데이터 파이프라인 구축BOAZ Bigdata
데이터 엔지니어링 프로젝트를 진행한 이탈리안 BMT 팀에서는 아래와 같은 프로젝트를 진행했습니다.
지하철 지연 시간 데이터 분석 및 시각화를 위한 데이터 파이프라인 구축
19기 김보겸 중앙대학교 사회학과
19기 김가경 동덕여자대학교 정보통계학과
19기 김동진 경희대학교 컴퓨터공학과
19기 박재은 숙명여자대학교 컴퓨터과학전공
19기 이재준 명지대학교 융합소프트웨어 데이터테크놀로지전공
대용량 데이터레이크 마이그레이션 사례 공유 [카카오게임즈 - 레벨 200] - 조은희, 팀장, 카카오게임즈 ::: Games on AWS ...Amazon Web Services Korea
기존 온프레미스 환경에서는 비즈니스 성장에 따른 유연한 확장에 어려움 있어 AWS를 이용하여 더욱 탄력적인 환경을 구축하는 프로젝트를 수행하였습니다. 이 세션을 통해 카카오게임즈가 AWS와 함께 수행한 데이터레이크 마이그레이션의 여정과, 그 과정에서 Amazon S3, EMR, Athena, Redshift 등의 다양한 기술 요소들을 활용한 경험과 팁을 전달해 드립니다.
한빛데브그라운드에서 발표했던 내용입니다.
발표 영상 : https://youtu.be/ohpfSLf0V3Y
--
스타트업 비즈니스에서 데이터를 활용한 전략 수립과 의사결정은 필수적인 요소입니다. 서비스 운영 데이터에서부터 다양한 고객의 행동 로그, 소셜 미디어 데이터까지 다양한 데이터를 모두 모아 분석 환경을 구축하기 위해서는 많은 준비와 고민이 필요합니다. 스타트업에서 빠른 속도와 최소한의 비용, 다양한 분석 Tool들과 연동되는 Data Pipeline, Data Lake, Data Warehouse 구축 경험기를 공유하고자 합니다. 이 과정을 통해 애널리틱스 파이프라인을 구축 과정과 S3, Glue, Athena,EMR, Quicksight와 같은 서버리스 애널리틱스 서비스에 대한 구축 사례를 확인하실 수 있습니다.
데이터 시각화 프로젝트를 진행한 보아져 팀에서는 아래와 같은 프로젝트를 진행했습니다.
에듀테크 기업 바이브온과 함께한 세가지 프로젝트 모음집. 바이브온의 모든 데이터를 기반으로 한 인사이트 도출 과정이 나타난 [Marketing Analysis], 이용자들에게 효과적인 서비스를 제공하기 위한 시각화 서비스 기획안인 [타 생기부 분석 100% 활용하기], 시각화를 넘어 NLP를 통해 선생님의 생기부 작성을 돕는 [Vital-On] 세가지 프로젝트로 이루어져있다.
15기 박대희 이화여자대학교 통계학과
17기 김태현 이화여자대학교 경제학과
17시 박지운 이화여자대학교 통계학과
17기 이수경 성균관대학교 데이터사이언스학과
17기 이한울 고려대학교 사회학과
17기 이준희 고려대학교 통계학과
코끼리(BOAZ) 사서의 도서 추천 솔루션
: 이 책 내용이 내 취향인데, 비슷한 내용의 책은 어떻게 찾지?’
줄거리를 바탕으로 책을 고르시는 분, 관심 작가의 책을 읽고 싶은 분들께
코끼리 사서가 취향저격 책을 제안해 드립니다.
12기 강호석 고은비 고은지 양태일 이지인 전준수 정해원
[국내 최초 빅데이터 연합동아리 BOAZ]
유튜브 - https://www.youtube.com/channel/UCSniI26A56n2QZ71opJtTUg
페이스북 - https://www.facebook.com/BOAZbigdata
인스타그램 - http://www.instagram.com/boaz_bigdata
블로그 - https://blog.naver.com/boazbigdata
MongoDB Atlas Data Lake는 MongoDB Atlas가 제공하는 새로운 서비스입니다.
많은 고객들이 S3, GCP, Azure Blobs와 같은 저렴한 오브젝트 스토리지에 장기 보관용 데이터를 저장합니다.
하지만 그 중 다수는 의사 결정을 위한 분석이 필요 시 , 효과적으로 해당 데이터를 활용할 수 있는 강력한 시스템이나 도구가 없습니다. MongoDB Atlas Data Lake는 장기간 저장된 고객의 데이터 분석을 가능하게 하며, 해당 비즈니스에 의미있고, 가치있는 정보를 제공할 수 있습니다.
해당 세션에서는 MongoDB Atlas Data Lake에서 사용할 수 있는 기능과 그 구현 방법에 대해 자세히 설명합니다.
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [힐링세포들] : MHTI (Mental Health Type Indicator)BOAZ Bigdata
데이터 시각화 프로젝트를 진행한 힐링세포들 팀에서는 아래와 같은 프로젝트를 진행했습니다.
정신건강 정보를 전달하고, 관리할 수 있는 대시보드 제작
18기 최유진 숙명여자대학교 소비자경제학과
18기 김주은 성균관대학교 문헌정보학과
18기 김혜연 고려대학교 통계학과
18기 홍주리 숙명여자대학교 통계학과
18기 황인정 숙명여자대학교 일반대학원 경영학과
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Stalker 팀] : 감정분석을 통한 MBTI 기반 개인별 투자 성향 분석BOAZ Bigdata
데이터 분석 프로젝트를 진행한 Stalker 팀에서는 아래와 같은 프로젝트를 진행했습니다.
감정분석을 통한 MBTI 기반 개인별 투자 성향 분석
16기 김지원 명지대학교 산업경영공학과
17기 곽윤경 홍익대학교 디자인경영융합학부
17기 김나현 서울대학교 언어학과
17기 유승희 중앙대학교 응용통계학과
17기 조수연 연세대학교 통계데이터사이언스학과
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [쇼미더뮤직 팀] : 텍스트 감정추출을 통한 노래 추천BOAZ Bigdata
데이터 분석 프로젝트를 짆애한 쇼미더뮤직 팀에서는 아래와 같은 프로젝트를 진행했습니다.
내 하루의 감정을 통해 노래를 추천받을 수 있다면 얼마나 좋을까?
자연어처리와 추천시스템 기법의 collaboration..
여러분의 감정을 추출하고, 어울리는 노래를 추천해드립니다.
**쇼미더뮤직!**
16기 김양경 건국대학교 기술경영학과
15기 김은선 세종대학교 데이터사이언스학과
16기 유수빈 동덕여자대학교 정보통계학과
16기 이상민 경희대학교 소프트웨어융합학과
16기 조하늘 동덕여자대학교 국제경영학과, 정보통계학과
16기 최 리 건국대학교 응용통계학과
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링BOAZ Bigdata
데이터 분석 프로젝트를 진행한 리뷰의 재발견 팀에서는 아래와 같은 프로젝트를 진행했습다.
Review? Re-View!
물건 살 때 우리는 리뷰를 보며 많은 정보를 얻습니다❕여러분이 보는 그 리뷰의 유용성을 저희가 알려드릴게요
리뷰 유용성 판단부터 토픽으로 알아보는 리뷰 유용성 결정 요인 분석, 군집화를 통한 대표 리뷰 추출까지
우리 같이 Review를 Re-View해봐요
16기 정수연 한양대 파이낸스경영학과
16기 문예진 서강대 경제학부 / 빅데이터 사이언스
16기 이상민 경희대 소프트웨어융합학과
16기 황의린 숙명여대 생명시스템학부 / 통계학과
16기 정승연 연세대 대학원 전산언어학
– Elastic stack과 Data pipeline의 개념
– 데이터의 종류와 형태 / Document 데이터 모델링 (mapping, data type)
– 분산 데이터 저장소 관점에서의 Elasticsearch (index, shard & replica, segment)
https://learningspoons.com/course/detail/elastic-stack/
Amazon Aurora 는 엔터프라이즈급의 가용성과 성능을 제공합니다. 실제 적용에서 Aurora성능 개선을 위해 무엇을 해야하는지, 그에 따른 모범 사례는 무엇이 있는지 본 세션에서 살펴봅니다. 또한 AWS Lambda 및 Amazon S3 와 같은 AWS의 다양한 서비스와 통합하는 최근 기능들에 대하여 상세하게 살펴보고 한국 고객들이 Aurora를 도입 및 마이그레이션한 사례를 통해 어떻게 마이그레이션에 접근해야 하는지를 살펴봅니다.
연사: 구승모, 아마존 웹서비스 솔루션즈 아키텍트
Similar to 제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [중고책나라] : 실시간 데이터를 이용한 Elasticsearch 클러스터 최적화 (20)
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [COLLABO-AZ] : 고객 세그멘테이션 기반 개인 맞춤형 추천시스템 for 루빗BOAZ Bigdata
데이터 분석 프로젝트를 진행한 COLLABO-AZ 팀에서는 아래와 같은 프로젝트를 진행했습니다.
고객 세그멘테이션 기반 개인 맞춤형 추천시스템 for 루빗
20기 정지혜 이화여자대학교 통계학과
20기 김지민 중앙대학교 응용통계학과
20기 오태연 단국대학교 정보통계학과
20기 최은선 한양대학교 에리카캠퍼스 정보사회미디어학과
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [백발백준] : 백준봇 : 컨테이너 오케스트레이션 기반 백준 문제 추천 봇BOAZ Bigdata
데이터 엔지니어링 프로젝트를 진행한 백발백준 팀에서는 아래와 같은 프로젝트를 진행했습니다.
백준봇 : 컨테이너 오케스트레이션 기반 백준 문제 추천 봇
20기 유하준 한국외국어대학교 산업공학과
20기 안지완 중앙대학교 소프트웨어학과
20기 정태형 경기대학교 응용통계학과
20기 최윤서 숙명여자대학교 일반대학원 통계학과
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [무드등] : 무신사를 활용한 고객 상황에 따른 의류 추천 스타일링 대시보드BOAZ Bigdata
데이터 시각화 프로젝트를 진행한 무드등 팀에서는 아래와 같은 프로젝트를 진행했습니다.
무신사를 활용한 고객 상황에 따른 의류 추천 스타일링 대시보드
20기 이호림 숙명여자대학교 경영학부
20기 노승혜 숙명여자대학교 소비자경제학과
20기 정다인 성신여자대학교 통계학과
20기 홍나연 숭실대학교 정보통계보험수리학과
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [섬유유연제] : 어글리us! 스마일 Earth! : NLP 기반 프로젝트와 비즈니스 대시보드BOAZ Bigdata
데이터 시각화 프로젝트를 진행한 섬유유연제 팀에서는 아래와 같은 프로젝트를 진행했습니다.
어글리us! 스마일 Earth! : NLP 기반 프로젝트와 비즈니스 대시보드
20기 정강민 세종대학교 경영학과
20기 김기수 광운대학교 데이터사이언스전공
20기 김세연 이화여자대학교 기후에너지시스템공학전공
20기 윤여빈 성신여자대학교 수리통계데이터사이언스학부
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [SPOAZ] : Spotify 기반 개인화 음악 추천 서비스 프로젝트BOAZ Bigdata
데이터 엔지니어링 프로젝트를 진행한 SPOAZ 팀에서는 아래와 같은 프로젝트를 진행했습니다.
Spotify 기반 개인화 음악 추천 서비스 프로젝트
20기 이해현 서울여자대학교 소프트웨어융합학과
20기 안소유 서울여자대학교 소프트웨어융합학과
20기 임혁 중앙대학교 응용통계학과
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [다함께 레벨업!] : 학식 예약 서비스 yammi CRM 대시보드BOAZ Bigdata
데이터 시각화 프로젝트를 진행한 다함께 레벨업! 팀에서는 아래와 같은 프로젝트를 진행했습니다.
학식 예약 서비스 yammi CRM 대시보드
20기 조성배 중앙대학교 공공인재학부
20기 김윤지 숙명여자대학교 경영학부
20기 김지연 연세대학교 심리학과
20기 한은빈 세종대학교 경영학부
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [HAUL의 움직이는 리포트] : 투자성향 기반 주식 추천 및 기업 정보 제공 대시보드BOAZ Bigdata
데이터 시각화 프로젝트를 진행한 HAUL의 움직이는 리포트 팀에서는 아래와 같은 프로젝트를 진행했습니다.
투자성향 기반 주식 추천 및 기업 정보 제공 대시보드
20기 이준희 건국대학교 응용통계학과
20기 김지후 고려대학교 통계학과
19기 김청환 건국대학교 응용통계학과
19기 백지영 한양대학교 경영대학원 비즈니스인포매틱스학과
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [BEARS] : 이미지 캡셔닝을 통한 이모지 추천 및 해시태그 생성BOAZ Bigdata
데이터 분석 프로젝트를 진행한 BEARS 팀에서는 아래와 같은 프로젝트를 진행했습니다.
이미지 캡셔닝을 통한 이모지 추천 및 해시태그 생성
20기 최영우 인하대학교 중국학과
20기 김주은 성신여자대학교 정보시스템공학과
20기 이시내 한국외국어대학교 바이오메디컬공학과
18기 전혜주 숙명여자대학교 독일언어문화학과
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [낭만젊음사람] : UDA를 통한 중환자실 급성 호흡곤란 증후군 조기 예측BOAZ Bigdata
데이터 분석 프로젝트를 진행한 낭만젊음사람 팀에서는 아래와 같은 프로젝트를 진행했습니다.
UDA를 통한 중환자실 급성 호흡곤란 증후군 조기 예측
20기 서동혁 국민대학교 AI빅데이터융합경영학과
20기 권정을 명지대학교 산업경영공학과
20기 정재원 숙명여자대학교 통계학과
20기 황재성 세종대학교 데이터사이언스학과
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [레시피를 보아즈] : 영수증 인식 및 대화를 통한 재료 기반 레시피 추천 챗봇BOAZ Bigdata
데이터 분석 프로젝트를 진행한 레시피를 보아즈 팀에서는 아래와 같은 프로젝트를 진행했습니다.
영수증 인식 및 대화를 통한 재료 기반 레시피 추천 챗봇
20기 박진영 숙명여자대학교 경영학부
20기 서민진 경희대학교 통계학과
20기 안소유 서울여자대학교 소프트웨어융합학과
20기 윤선영 서울과학기술대학교 데이터사이언스학과
20기 이민선 한국공학대학교 산업경영학과
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [전진 4드론] : RAD(Reinforcement learning method for ...BOAZ Bigdata
데이터 분석 프로젝트를 진행한 전진4드론 팀에서는 아래와 같은 프로젝트를 진행했습니다.
RAD(Reinforcement learning method for Autonomous Drone)
20기 정재준 한양대학교 에리카캠퍼스 프랑스학과
20기 이영현 한양대학교 대학원 인공지능학과
20기 이찬 경희대학교 컴퓨터공학과
20기 정원준 건국대학교 컴퓨터공학부
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [REC] : 캠핏 데이터를 활용한 캠핑장 추천 시스템 구현BOAZ Bigdata
데이터 분석 프로젝트를 진행한 REC 팀에서는 아래와 같은 프로젝트를 진행했습니다.
캠핏 데이터를 활용한 캠핑장 추천 시스템 구현
20기 김민혜 한양대학교 경영대학원 비즈니스 인포메틱스
20기 송여진 이화여자대학교 휴먼기계바이오공학부
20기 이은효 이화여자대학교 대학원 통계학과
20기 임세은 숙명여자대학교 사회심리학과
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [4부터7] : 공방 301 데이터를 활용한 마케팅 방안 제시BOAZ Bigdata
데이터 시각화 프로젝트를 진행한 4부터7 팀에서는 아래와 같은 프로젝트를 진행했습니다.
공방 301 데이터를 활용한 마케팅 방안 제시
19기 김동하 고려대학교 미디어학부
19기 고현서 동덕여자대학교 경영학과
19기 노근혜 이화여자대학교 통계학과
19기 박상윤 가천대학교 경영학부(글로벌경영학)
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [유쾌한 반란] : Howmuch : 꽃집 관리 서비스BOAZ Bigdata
데이터 엔지니어링 프로젝트를 진행한 유쾌한 반란 팀에서는 아래와 같은 프로젝트를 진행했습니다.
일 단위 화훼 경매 데이터를 화훼소매업자들에게 제공하여 적정가에 사입할 수 있도록 돕는 서비스 기획
19기 송우석 연세대학교 컴퓨터과학과
19기 박선홍 한국외국어대학교 국제통상학과
19기 이 은 홍익대학교 산업공학과
19기 정성윤 국민대학교 경영정보학부
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [보아酒] : 리뷰 감정분석을 통한 전통주 추천 서비스BOAZ Bigdata
데이터 분석 프로젝트를 진행한 보아酒 팀에서는 아래와 같은 프로젝트를 진행했습니다.
리뷰 감정분석을 통한 전통주 추천 서비스
19기 정은진 한양대학교 ERICA 정보사회미디어학과
19기 강하연 명지대학교 경영정보학과
19기 고건호 고려대학교 통계학과
19기 김진재 중앙대학교 응용통계학과
19기 박상윤 가천대학교 경영학부(글로벌경영학)
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [분모자] : 분류 모자이크BOAZ Bigdata
데이터 분석 프로젝트를 진행한 분모자 팀에서는 아래와 같은 프로젝트를 진행했습니다.
로고 자동 감지 및 모자이크 서비스 제안
19기 오효근 건국대학교 일반대학원 기계설계학과
19기 김보겸 중앙대학교 사회학과
19기 송예진 서울여자대학교 소프트웨어융합학과
19기 우아라 서울여자대학교 소프트웨어융합학과
19기 임서현 성균관대학교 글로벌리더학부
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [link-us(링커즈)] : 링키드를 위한 비즈니스 대시보드 제작BOAZ Bigdata
데이터 시각화 프로젝트를 진행한 link-us(링커즈) 팀에서는 아래와 같은 프로젝트를 진행했습니다.
링키드(linkid)를 위한 비즈니스 대시보드 제작
19기 정소영 숙명여자대학교 통계학과
19기 유나현 중앙대학교 응용통계학과
19기 이세연 성신여자대학교 빅데이터사이언스전공
19기 정다운 숙명여자대학교 통계학과
데이터 분석 프로젝트를 진행한 뉴진스 팀에서는 아래와 같은 프로젝트를 진행했습니다.
Multi-modal Fake News Detection
19기 장우솔 단국대학교 일반대학원 응용통계학과
19기 김동진 경희대학교 컴퓨터공학과
19기 박명규 한양대학교 ERICA 로봇공학과
19기 성재혁 고려대학교 컴퓨터학과
19기 신은빈 건국대학교 응용통계학과
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [추적 24시] : 완전 자동결제를 위한 무인점포 이용자 Tracking System 개발BOAZ Bigdata
데이터 분석 프로젝트를 진행한 추적24시 팀에서는 아래와 같은 프로젝트를 진행했습니다.
완전 자동결제를 위한 무인점포 이용자 Tracking System 개발
19기 민경원 고려대학교 산업경영공학부
19기 신재욱 연세대학교 산업공학과
19기 이유빈 서울여자대학교 소프트웨어융합학과
19기 최가희 국립공주대학교 산업시스템공학과
3. 01
주제 및 주제 선정 배경
데이터 소개
CONTENTS
04
인덱싱 최적화 실험
02
사용 기술 및 아키텍처
05
결론
참고문헌
03
About Elasticsearch
06
Introduction
Optimization
Architecture
Conclusions
Elasticsearch
Q&A
3
11. Elasticsearch 란?
기반의 JAVA 오픈소스 분산 검색 엔진
● Lucene 라이브러리를단독으로 사용
● 방대한 양의 데이터를 신속하고 거의 실시간(NRT, Near Real Time)으로 저장,
검색, 분석
검색 엔진의 시초
● 아파치 소프트웨어 재단의 회장 더그 커팅(Doug Cutting)이 고안한 역색인
(Inverted Index) 구조인 아파치 Lucene을 기반으로 분산처리를 가능하게 한
아파치 Solr가 등장하여 검색엔진 시장을 장악
● 이후 Lucene을 기반으로 한 Elasticsearch가 등장하여 현재 지배적인 위치
Apache Lucene 이란?
11
13. Indexing 이란?
인덱싱의 목적
● 문서의 위치에 대한 index를 생성하여 빠르게 문서에 접근
● Elasticsearch는 inverted-index(역색인)의 구조로 구성
역색인
● 문서 내의 문자와 같은 내용물의 매핑 정보를 색인하는 전문 검색의 형태
13
20. 1. Static Mapping
데이터 타입
● Text: 문자열을 term 단위로 쪼개어 역색인 구조를 생성. Full-text 검색
● Keyword: 문자열을 하나의 토큰으로 저장
→ Text 타입을 남용할 경우 쿼리로 인한 집계나 정렬 과정에서 메모리 사용량의
오버헤드 생성
● Aladin 데이터는 text, keyword, long, boolean 등 다양한 타입으로 이루어져 있어
text 형식의 데이터에 주목하여 keyword로 전환 후 성능 최적화
20
22. 2. Elasticsearch Shard 개수
Shard의 종류
● Primary Shard: 실제 CRUD를 제공하는 샤드, 증가 시 마스터 노드의 부하를
야기하여 색인과 검색 성능, 메모리에 악영향
● Replica Shard: 읽기 분산으로도 활용 가능한 장애 복구용 Primary Shard의
복제본.
○ 일반적으로 장애 대응을 위해 최소 한 개 이상의 replica shard를 두며, 운영 중 변경
가능
○ 인덱싱 성능과 trade-off 관계
22
24. 2. Elasticsearch Shard 개수
실험군
1) Replica shard의 개수: 0개
● Elasticsearch Ingest node 1, Master node(Data node) 1
● Primary shard 1, Replica shard 0, Static mapping
● Indexing Rate: 686.9 /s (↔638.24) 약 1.07배 증가
● Latency: 0.16 ms (↔0.18) 약 1.3배 감소
→ Replica Shard의 수가 0개일 때는 1개에 비해 Indexing Rate이 증가하고
Latency이 감소하여 전체적인 성능이 향상되지만,
실시간 데이터의 특성 상 안정성을 위해 최소한의 replica shard 개수인
1개로 실험을 이어나간다.
24
25. 2. Elasticsearch Shard 개수
2) Primary shard의 개수 : 2개
● Elasticsearch Ingest node 1, Master node(Data node) 1, Data node 1
● Primary shard 2, Replica shard 1, Static mapping
● Indexing Rate: 653.18 /s (↔638.24) 약 1.02배 증가
● Latency: 0.20 ms (↔0.32) 약 1.60배 감소
25
26. 2. Elasticsearch Shard 개수
2) Primary shard의 개수 : 4개
● Elasticsearch Ingest node 1, Master node(Data node) 1, Data node 1
● Primary shard 4, Replica shard 1, Static mapping
● Indexing Rate: 640.79 /s (↔638.24) 약 1.004배 증가
● Latency: 0.23 ms (↔0.32) 약 1.39배 감소
26
27. 2. Elasticsearch Shard 개수
2) Primary shard의 개수 : 8개
● Elasticsearch Ingest node 1, Master node(Data node) 1, Data node 1
● Primary shard 8, Replica shard 1, Static mapping
● Indexing Rate: 647.39 /s (↔638.24) 약 1.01배 증가
● Latency: 0.34 ms (←0.32) 약 1.06배 증가
27
28. 2. Elasticsearch Shard 개수
2) Primary shard의 개수 : 16개
● Elasticsearch Ingest node 1, Master node(Data node) 1, Data node 1
● Primary shard 16, Replica shard 1, Static mapping
● Indexing Rate: 640.91/s (↔638.24) 약 1.004배 증가
● Latency: 0.44 ms (↔0.32) 약 1.38배 증가
28
29. 2. Elasticsearch Shard 개수
2) Primary shard의 개수
● Primary shard 수를 늘리는 것은 Indexing rate 향상에 효과가 있으나 한계가
존재
● Primary shard 수는 Latency와 trade-off 관계
● 최대 성능: Primary shard 2개
○ Elasticsearch Ingest node 1, Master node(Data node) 1
○ Primary shard 2, Replica shard 1, Static mapping
○ Indexing Rate: 653.18 /s (↔638.24) 약 1.02배 증가
○ Latency: 0.20 ms (↔0.32) 약 1.60배 감소
29
30. 3. Elasticsearch Data Node 개수
Data node의 역할
● 데이터와 관련된 CRUD 작업을 수행하는 노드
● 실질적인 데이터 저장: 데이터가 실제로 분산 저장되는 물리 공간인 샤드가 배치
● 검색과 통계 등 데이터 관련 작업 수행
→ Data node의 개수가 데이터 indexing 작업에 미치는 영향을 실험하여 최적의 Data
node 개수 설정
30
31. 3. Elasticsearch Data Node 개수
Data node의 개수 : 3개
● Elasticsearch Ingest node 1, Master node(Data node) 1, Data node 2
● Primary shard 16, Replica shard 1, Static mapping
● Indexing Rate: 590.86/s (↔653.18) 약 1.11배 감소
● Latency: 0.26 ms (↔0.20) 약 1.3배 증가
31
32. 3. Elasticsearch Data Node 개수
Data node의 개수 : 4개
● Elasticsearch Ingest node 1, Master node(Data node) 1, Data node 3
● Primary shard 16, Replica shard 1, Static mapping
● Indexing Rate: 554.23/s (↔653.18) 약 1.17배 감소
● Latency: 0.32 ms (↔0.20) 약 1.6배 증가
32
33. 3. Elasticsearch Data Node 개수
Data node의 개수
● Data node의 수를 늘리는 것은 Indexing rate 향상에 효과가 없었음
● PC가 한 대라서 성능의 이득을 크게 볼 수 없었을 것으로 확인
○ 실제 클러스터를 구성할 시 I/O bottleneck 등이 일어날 가능성이 있어 Data node의
개수와 Indexing rate 사이에 trade-off가 존재할 것으로 예상되나, 여건 문제로 확인
불가
● 최대 성능(기존과 동일): Primary shard 2개
○ Elasticsearch Ingest node 1, Master node(Data node) 1
○ Primary shard 2, Replica shard 1, Static mapping
○ Indexing Rate: 653.18 /s -
○ Latency: 0.20 ms -
33
34. 문제 분석
데이터 모델에 nested 필드가 존재할 경우, 정보 변경에 큰 오버헤드 발생
4. Nested to Unnested
34
36. 문제 분석
데이터 모델에 nested 필드가 존재할 경우, 정보 변경에 큰 오버헤드 발생
● Parent, nested 문서는 segment 상에서 연속된 위치에 저장되어 연관 관계를
유지
● 정보 변경 시 update되는 것이 아닌 새 segment가 덮어 쓰임
4. Nested to Unnested
→ Parent 정보가 변경될 때마다 모든 nested 문서 또한 덮어쓰이게 되고,
nested 필드의 개수만큼의 쓰기 증폭이 발생하게 되어 인덱싱 성능에
큰 악영향을 줄 수 있음
36
37. 데이터 구조 개편
데이터 모델을 재설계하여 인덱싱 성능 이슈 해결
4. Nested to Unnested
Book data
Shop data
37
38. 4. Nested to Unnested
Unnested Data model
● Elasticsearch Ingest node 1, Master node(Data node) 1, Data node 1
● Primary shard 2, Replica shard 1, Static mapping
● Indexing Rate: 1983.51 /s (↔653.18) 약 3.04배 증가
● Latency: 0.07 ms (↔0.20) 약 2.86배 감소
38
41. 한계점
● PC가 한 대라 구성의 이점을 누리기 어려움
● SSD를 이용하기 때문에 GC로 인한 성능 편차 존재
● 실험의 용이성을 위해 데이터 스트림을 일정하게 하여 실제 환경과 거리감 존재
● 검색 성능을 고려하지 않음
Limits
41
42. 참고문헌
● Elastic 가이드북(https://esbook.kimjmin.net/)
● Elastic Discuss(https://discuss.elastic.co/)
● 실시간 인덱싱을 위한 Elasticsearch 구조를 찾아서
(https://techblog.woowahan.com/7425/)
● Feasibility Analysis of Big Log Data Real Time Search Based on Hbase and ElasticSearch,
Jun Bai, 2013.7
● An Optimization Method for Elasticsearch Index Shard Number, Bizhond Wei, 2020 CIS
● Design and Implementation of Elasticsearch for Media Data, Lu Han, 2020 ICCEA
Reference
42