AiRBnB : Aspect in Review 비교 & 분석 숙소를 고를 때 '사진이랑 다르지는 않을까, 적혀져 있는 정보가 틀리지는 않을까' 고민해보신 적 없으신가요? 그래서 저희는 에어비앤비의 리뷰를 통해 사람들의 관심사에 대해 알아보았습니다! 토픽 모델링을 통해 사람들이 관심있는 Aspect를 살펴보고 LARA를 이용해 Aspect별 점수를 매겨 숙소의 평가기준인 별점도 재정의하여 쉽게 방을 고를 수 있도록 하였습니다. 이제 이것저것 고민하시지 마시고 리뷰로 방을 골라보세요
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [YouPlace 팀] : 카프카와 스파크를 활용한 유튜브 영상 속 제주 명소 검색 BOAZ Bigdata
데이터 엔지니어링 프로젝트를 진행한 YouPlace팀에서는 아래와 같은 프로젝트를 진행했습니다.
<aside>
이젠 검색도 유튜브 시대
제주여행을 계획할 때 브이로그 영상을 많이 참고하실텐데요
수많은 영상들과 영상 속 분산된 명소들을 하나 하나 찾으려 생각하면 막막하지 않으셨나요?
이러한 고민을 갖고 계신 분들을 위해, 유튜브 브이로거들이 찾아간 여행 명소들을 지도에서 한 눈에 파악할 수 있도록 만들었어요
(github : https://github.com/Boaz-Youplace)
16기 엔지니어링 고은서 | 중앙대학교 소프트웨어학부
16기 엔지니어링 류정화 | 성신여자대학교 융합보안공학과
16기 엔지니어링 송경민 | 국민대학교 소프트웨어학과
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [MarketIN팀] : 디지털 마케팅 헬스체킹 서비스BOAZ Bigdata
데이터 시각화 프로젝트를 진행한 MarketIN팀에서는 아래와 같은 프로젝트를 진행했습니다.
- 작은 가게를 운영하는 경우부터 온라인 쇼핑몰까지 비즈니스 운영 과정에선 수많은 의사 결정이 필요합니다. 데이터를 대시보드 템플릿에 연결하여 질문에 대한 답을 한눈에 찾을 수 있습니다.
- 마켓인을 통해 데이터 기반 비즈니스를 경험해보세요.
16기 강민주 (서울과학기술대학교 산업정보시스템전공)
16기 김서연 (숙명여자대학교 홍보광고학과)
16기 오지원 (세종대학교 경영학과)
16기 윤해림 (세종대학교 경영학과)
16기 임성아 (세종대학교 경영학과)
16기 한주리 (고려대학교 사회학과)
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링BOAZ Bigdata
데이터 분석 프로젝트를 진행한 리뷰의 재발견 팀에서는 아래와 같은 프로젝트를 진행했습다.
Review? Re-View!
물건 살 때 우리는 리뷰를 보며 많은 정보를 얻습니다❕여러분이 보는 그 리뷰의 유용성을 저희가 알려드릴게요
리뷰 유용성 판단부터 토픽으로 알아보는 리뷰 유용성 결정 요인 분석, 군집화를 통한 대표 리뷰 추출까지
우리 같이 Review를 Re-View해봐요
16기 정수연 한양대 파이낸스경영학과
16기 문예진 서강대 경제학부 / 빅데이터 사이언스
16기 이상민 경희대 소프트웨어융합학과
16기 황의린 숙명여대 생명시스템학부 / 통계학과
16기 정승연 연세대 대학원 전산언어학
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [YouPlace 팀] : 카프카와 스파크를 활용한 유튜브 영상 속 제주 명소 검색 BOAZ Bigdata
데이터 엔지니어링 프로젝트를 진행한 YouPlace팀에서는 아래와 같은 프로젝트를 진행했습니다.
<aside>
이젠 검색도 유튜브 시대
제주여행을 계획할 때 브이로그 영상을 많이 참고하실텐데요
수많은 영상들과 영상 속 분산된 명소들을 하나 하나 찾으려 생각하면 막막하지 않으셨나요?
이러한 고민을 갖고 계신 분들을 위해, 유튜브 브이로거들이 찾아간 여행 명소들을 지도에서 한 눈에 파악할 수 있도록 만들었어요
(github : https://github.com/Boaz-Youplace)
16기 엔지니어링 고은서 | 중앙대학교 소프트웨어학부
16기 엔지니어링 류정화 | 성신여자대학교 융합보안공학과
16기 엔지니어링 송경민 | 국민대학교 소프트웨어학과
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [MarketIN팀] : 디지털 마케팅 헬스체킹 서비스BOAZ Bigdata
데이터 시각화 프로젝트를 진행한 MarketIN팀에서는 아래와 같은 프로젝트를 진행했습니다.
- 작은 가게를 운영하는 경우부터 온라인 쇼핑몰까지 비즈니스 운영 과정에선 수많은 의사 결정이 필요합니다. 데이터를 대시보드 템플릿에 연결하여 질문에 대한 답을 한눈에 찾을 수 있습니다.
- 마켓인을 통해 데이터 기반 비즈니스를 경험해보세요.
16기 강민주 (서울과학기술대학교 산업정보시스템전공)
16기 김서연 (숙명여자대학교 홍보광고학과)
16기 오지원 (세종대학교 경영학과)
16기 윤해림 (세종대학교 경영학과)
16기 임성아 (세종대학교 경영학과)
16기 한주리 (고려대학교 사회학과)
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링BOAZ Bigdata
데이터 분석 프로젝트를 진행한 리뷰의 재발견 팀에서는 아래와 같은 프로젝트를 진행했습다.
Review? Re-View!
물건 살 때 우리는 리뷰를 보며 많은 정보를 얻습니다❕여러분이 보는 그 리뷰의 유용성을 저희가 알려드릴게요
리뷰 유용성 판단부터 토픽으로 알아보는 리뷰 유용성 결정 요인 분석, 군집화를 통한 대표 리뷰 추출까지
우리 같이 Review를 Re-View해봐요
16기 정수연 한양대 파이낸스경영학과
16기 문예진 서강대 경제학부 / 빅데이터 사이언스
16기 이상민 경희대 소프트웨어융합학과
16기 황의린 숙명여대 생명시스템학부 / 통계학과
16기 정승연 연세대 대학원 전산언어학
오픈소스 검색엔진인 Elasticsearch 어떻게 저장하고 조회하는지 검색엔진의 개념에 대해서 간단히 살펴보고, Node.js 로 구현된 아주 간단한 예제를 소개합니다.
- 검색엔진과 Elasticsearch 소개
- Elasticsearch에서의 색인
- Elasticsearch에서의 조회
- Node.js 로 구현된 예제 소개
* 자바카페
자바카페 페이스북 : https://www.facebook.com/groups/javacafe/
자바카페 기술 블로그 : http://tech.javacafe.io/
카카오 광고 플랫폼 MSA 적용 사례 및 API Gateway와 인증 구현에 대한 소개if kakao
황민호(robin.hwang) / kakao corp. DSP개발파트
---
최근 Spring Cloud와 Netflix OSS로 MSA를 구성하는 시스템 기반의 서비스들이 많아지는 추세입니다.
카카오에서도 작년에 오픈한 광고 플랫폼 모먼트에 Spring Cloud 기반의 MSA환경을 구성하여, API Gateway도 적용하였는데 1년 반 정도 운영한 경험을 공유할 예정입니다. 더불어 MSA 환경에서는 API Gateway를 통해 인증을 어떻게 처리하는지 알아보고 OAuth2 기반의 JWT Token을 이용한 인증에 대한 이야기도 함께 나눌 예정입니다.
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Cm:)e팀] : 이커머스 고객경험 관리 분석BOAZ Bigdata
시각화 프로젝트를 진행한 Cm:)e팀에서는 고객의 입장에서 고객이 원하는 방식으로 소통할 수 있도록 기존 고객 관리 방식의 터치포인트에 관한 분석과 고객의 소리를 함께 분석할 수 있는 통합 대시보드를 구상했습니다.
16기 김수민 숙명여자대학교 경영학부
16기 김정아 고려대학교 통계학과
16기 이지혜 숙명여자대학교 소비자경제학과
14기 유가연 한양대학교 관광학부 빅데이터 융합 전공
16기 전유정 세종대학교 호텔관광경영학과
July Tech Festa 2015にて登壇した際の資料です。
なお後日、小河さんがOpen VASのCLI操作の解説について以下のスライドを追加投稿してくれました!
「フリーでできるセキュリティチェック OpenVAS CLI編」
http://www.slideshare.net/abend_cve_9999_0001/openvas-cli-51048313
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Stalker 팀] : 감정분석을 통한 MBTI 기반 개인별 투자 성향 분석BOAZ Bigdata
데이터 분석 프로젝트를 진행한 Stalker 팀에서는 아래와 같은 프로젝트를 진행했습니다.
감정분석을 통한 MBTI 기반 개인별 투자 성향 분석
16기 김지원 명지대학교 산업경영공학과
17기 곽윤경 홍익대학교 디자인경영융합학부
17기 김나현 서울대학교 언어학과
17기 유승희 중앙대학교 응용통계학과
17기 조수연 연세대학교 통계데이터사이언스학과
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [COLLABO-AZ] : 고객 세그멘테이션 기반 개인 맞춤형 추천시스템 for 루빗BOAZ Bigdata
데이터 분석 프로젝트를 진행한 COLLABO-AZ 팀에서는 아래와 같은 프로젝트를 진행했습니다.
고객 세그멘테이션 기반 개인 맞춤형 추천시스템 for 루빗
20기 정지혜 이화여자대학교 통계학과
20기 김지민 중앙대학교 응용통계학과
20기 오태연 단국대학교 정보통계학과
20기 최은선 한양대학교 에리카캠퍼스 정보사회미디어학과
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [백발백준] : 백준봇 : 컨테이너 오케스트레이션 기반 백준 문제 추천 봇BOAZ Bigdata
데이터 엔지니어링 프로젝트를 진행한 백발백준 팀에서는 아래와 같은 프로젝트를 진행했습니다.
백준봇 : 컨테이너 오케스트레이션 기반 백준 문제 추천 봇
20기 유하준 한국외국어대학교 산업공학과
20기 안지완 중앙대학교 소프트웨어학과
20기 정태형 경기대학교 응용통계학과
20기 최윤서 숙명여자대학교 일반대학원 통계학과
오픈소스 검색엔진인 Elasticsearch 어떻게 저장하고 조회하는지 검색엔진의 개념에 대해서 간단히 살펴보고, Node.js 로 구현된 아주 간단한 예제를 소개합니다.
- 검색엔진과 Elasticsearch 소개
- Elasticsearch에서의 색인
- Elasticsearch에서의 조회
- Node.js 로 구현된 예제 소개
* 자바카페
자바카페 페이스북 : https://www.facebook.com/groups/javacafe/
자바카페 기술 블로그 : http://tech.javacafe.io/
카카오 광고 플랫폼 MSA 적용 사례 및 API Gateway와 인증 구현에 대한 소개if kakao
황민호(robin.hwang) / kakao corp. DSP개발파트
---
최근 Spring Cloud와 Netflix OSS로 MSA를 구성하는 시스템 기반의 서비스들이 많아지는 추세입니다.
카카오에서도 작년에 오픈한 광고 플랫폼 모먼트에 Spring Cloud 기반의 MSA환경을 구성하여, API Gateway도 적용하였는데 1년 반 정도 운영한 경험을 공유할 예정입니다. 더불어 MSA 환경에서는 API Gateway를 통해 인증을 어떻게 처리하는지 알아보고 OAuth2 기반의 JWT Token을 이용한 인증에 대한 이야기도 함께 나눌 예정입니다.
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Cm:)e팀] : 이커머스 고객경험 관리 분석BOAZ Bigdata
시각화 프로젝트를 진행한 Cm:)e팀에서는 고객의 입장에서 고객이 원하는 방식으로 소통할 수 있도록 기존 고객 관리 방식의 터치포인트에 관한 분석과 고객의 소리를 함께 분석할 수 있는 통합 대시보드를 구상했습니다.
16기 김수민 숙명여자대학교 경영학부
16기 김정아 고려대학교 통계학과
16기 이지혜 숙명여자대학교 소비자경제학과
14기 유가연 한양대학교 관광학부 빅데이터 융합 전공
16기 전유정 세종대학교 호텔관광경영학과
July Tech Festa 2015にて登壇した際の資料です。
なお後日、小河さんがOpen VASのCLI操作の解説について以下のスライドを追加投稿してくれました!
「フリーでできるセキュリティチェック OpenVAS CLI編」
http://www.slideshare.net/abend_cve_9999_0001/openvas-cli-51048313
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Stalker 팀] : 감정분석을 통한 MBTI 기반 개인별 투자 성향 분석BOAZ Bigdata
데이터 분석 프로젝트를 진행한 Stalker 팀에서는 아래와 같은 프로젝트를 진행했습니다.
감정분석을 통한 MBTI 기반 개인별 투자 성향 분석
16기 김지원 명지대학교 산업경영공학과
17기 곽윤경 홍익대학교 디자인경영융합학부
17기 김나현 서울대학교 언어학과
17기 유승희 중앙대학교 응용통계학과
17기 조수연 연세대학교 통계데이터사이언스학과
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [COLLABO-AZ] : 고객 세그멘테이션 기반 개인 맞춤형 추천시스템 for 루빗BOAZ Bigdata
데이터 분석 프로젝트를 진행한 COLLABO-AZ 팀에서는 아래와 같은 프로젝트를 진행했습니다.
고객 세그멘테이션 기반 개인 맞춤형 추천시스템 for 루빗
20기 정지혜 이화여자대학교 통계학과
20기 김지민 중앙대학교 응용통계학과
20기 오태연 단국대학교 정보통계학과
20기 최은선 한양대학교 에리카캠퍼스 정보사회미디어학과
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [백발백준] : 백준봇 : 컨테이너 오케스트레이션 기반 백준 문제 추천 봇BOAZ Bigdata
데이터 엔지니어링 프로젝트를 진행한 백발백준 팀에서는 아래와 같은 프로젝트를 진행했습니다.
백준봇 : 컨테이너 오케스트레이션 기반 백준 문제 추천 봇
20기 유하준 한국외국어대학교 산업공학과
20기 안지완 중앙대학교 소프트웨어학과
20기 정태형 경기대학교 응용통계학과
20기 최윤서 숙명여자대학교 일반대학원 통계학과
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [무드등] : 무신사를 활용한 고객 상황에 따른 의류 추천 스타일링 대시보드BOAZ Bigdata
데이터 시각화 프로젝트를 진행한 무드등 팀에서는 아래와 같은 프로젝트를 진행했습니다.
무신사를 활용한 고객 상황에 따른 의류 추천 스타일링 대시보드
20기 이호림 숙명여자대학교 경영학부
20기 노승혜 숙명여자대학교 소비자경제학과
20기 정다인 성신여자대학교 통계학과
20기 홍나연 숭실대학교 정보통계보험수리학과
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [섬유유연제] : 어글리us! 스마일 Earth! : NLP 기반 프로젝트와 비즈니스 대시보드BOAZ Bigdata
데이터 시각화 프로젝트를 진행한 섬유유연제 팀에서는 아래와 같은 프로젝트를 진행했습니다.
어글리us! 스마일 Earth! : NLP 기반 프로젝트와 비즈니스 대시보드
20기 정강민 세종대학교 경영학과
20기 김기수 광운대학교 데이터사이언스전공
20기 김세연 이화여자대학교 기후에너지시스템공학전공
20기 윤여빈 성신여자대학교 수리통계데이터사이언스학부
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [SPOAZ] : Spotify 기반 개인화 음악 추천 서비스 프로젝트BOAZ Bigdata
데이터 엔지니어링 프로젝트를 진행한 SPOAZ 팀에서는 아래와 같은 프로젝트를 진행했습니다.
Spotify 기반 개인화 음악 추천 서비스 프로젝트
20기 이해현 서울여자대학교 소프트웨어융합학과
20기 안소유 서울여자대학교 소프트웨어융합학과
20기 임혁 중앙대학교 응용통계학과
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [다함께 레벨업!] : 학식 예약 서비스 yammi CRM 대시보드BOAZ Bigdata
데이터 시각화 프로젝트를 진행한 다함께 레벨업! 팀에서는 아래와 같은 프로젝트를 진행했습니다.
학식 예약 서비스 yammi CRM 대시보드
20기 조성배 중앙대학교 공공인재학부
20기 김윤지 숙명여자대학교 경영학부
20기 김지연 연세대학교 심리학과
20기 한은빈 세종대학교 경영학부
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [HAUL의 움직이는 리포트] : 투자성향 기반 주식 추천 및 기업 정보 제공 대시보드BOAZ Bigdata
데이터 시각화 프로젝트를 진행한 HAUL의 움직이는 리포트 팀에서는 아래와 같은 프로젝트를 진행했습니다.
투자성향 기반 주식 추천 및 기업 정보 제공 대시보드
20기 이준희 건국대학교 응용통계학과
20기 김지후 고려대학교 통계학과
19기 김청환 건국대학교 응용통계학과
19기 백지영 한양대학교 경영대학원 비즈니스인포매틱스학과
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [BEARS] : 이미지 캡셔닝을 통한 이모지 추천 및 해시태그 생성BOAZ Bigdata
데이터 분석 프로젝트를 진행한 BEARS 팀에서는 아래와 같은 프로젝트를 진행했습니다.
이미지 캡셔닝을 통한 이모지 추천 및 해시태그 생성
20기 최영우 인하대학교 중국학과
20기 김주은 성신여자대학교 정보시스템공학과
20기 이시내 한국외국어대학교 바이오메디컬공학과
18기 전혜주 숙명여자대학교 독일언어문화학과
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [낭만젊음사람] : UDA를 통한 중환자실 급성 호흡곤란 증후군 조기 예측BOAZ Bigdata
데이터 분석 프로젝트를 진행한 낭만젊음사람 팀에서는 아래와 같은 프로젝트를 진행했습니다.
UDA를 통한 중환자실 급성 호흡곤란 증후군 조기 예측
20기 서동혁 국민대학교 AI빅데이터융합경영학과
20기 권정을 명지대학교 산업경영공학과
20기 정재원 숙명여자대학교 통계학과
20기 황재성 세종대학교 데이터사이언스학과
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [레시피를 보아즈] : 영수증 인식 및 대화를 통한 재료 기반 레시피 추천 챗봇BOAZ Bigdata
데이터 분석 프로젝트를 진행한 레시피를 보아즈 팀에서는 아래와 같은 프로젝트를 진행했습니다.
영수증 인식 및 대화를 통한 재료 기반 레시피 추천 챗봇
20기 박진영 숙명여자대학교 경영학부
20기 서민진 경희대학교 통계학과
20기 안소유 서울여자대학교 소프트웨어융합학과
20기 윤선영 서울과학기술대학교 데이터사이언스학과
20기 이민선 한국공학대학교 산업경영학과
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [전진 4드론] : RAD(Reinforcement learning method for ...BOAZ Bigdata
데이터 분석 프로젝트를 진행한 전진4드론 팀에서는 아래와 같은 프로젝트를 진행했습니다.
RAD(Reinforcement learning method for Autonomous Drone)
20기 정재준 한양대학교 에리카캠퍼스 프랑스학과
20기 이영현 한양대학교 대학원 인공지능학과
20기 이찬 경희대학교 컴퓨터공학과
20기 정원준 건국대학교 컴퓨터공학부
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [REC] : 캠핏 데이터를 활용한 캠핑장 추천 시스템 구현BOAZ Bigdata
데이터 분석 프로젝트를 진행한 REC 팀에서는 아래와 같은 프로젝트를 진행했습니다.
캠핏 데이터를 활용한 캠핑장 추천 시스템 구현
20기 김민혜 한양대학교 경영대학원 비즈니스 인포메틱스
20기 송여진 이화여자대학교 휴먼기계바이오공학부
20기 이은효 이화여자대학교 대학원 통계학과
20기 임세은 숙명여자대학교 사회심리학과
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [4부터7] : 공방 301 데이터를 활용한 마케팅 방안 제시BOAZ Bigdata
데이터 시각화 프로젝트를 진행한 4부터7 팀에서는 아래와 같은 프로젝트를 진행했습니다.
공방 301 데이터를 활용한 마케팅 방안 제시
19기 김동하 고려대학교 미디어학부
19기 고현서 동덕여자대학교 경영학과
19기 노근혜 이화여자대학교 통계학과
19기 박상윤 가천대학교 경영학부(글로벌경영학)
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [유쾌한 반란] : Howmuch : 꽃집 관리 서비스BOAZ Bigdata
데이터 엔지니어링 프로젝트를 진행한 유쾌한 반란 팀에서는 아래와 같은 프로젝트를 진행했습니다.
일 단위 화훼 경매 데이터를 화훼소매업자들에게 제공하여 적정가에 사입할 수 있도록 돕는 서비스 기획
19기 송우석 연세대학교 컴퓨터과학과
19기 박선홍 한국외국어대학교 국제통상학과
19기 이 은 홍익대학교 산업공학과
19기 정성윤 국민대학교 경영정보학부
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [보아酒] : 리뷰 감정분석을 통한 전통주 추천 서비스BOAZ Bigdata
데이터 분석 프로젝트를 진행한 보아酒 팀에서는 아래와 같은 프로젝트를 진행했습니다.
리뷰 감정분석을 통한 전통주 추천 서비스
19기 정은진 한양대학교 ERICA 정보사회미디어학과
19기 강하연 명지대학교 경영정보학과
19기 고건호 고려대학교 통계학과
19기 김진재 중앙대학교 응용통계학과
19기 박상윤 가천대학교 경영학부(글로벌경영학)
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [이탈리안 BMT] : 지하철 지연 시간 데이터 분석 및 시각화를 위한 데이터 파이프라인 구축BOAZ Bigdata
데이터 엔지니어링 프로젝트를 진행한 이탈리안 BMT 팀에서는 아래와 같은 프로젝트를 진행했습니다.
지하철 지연 시간 데이터 분석 및 시각화를 위한 데이터 파이프라인 구축
19기 김보겸 중앙대학교 사회학과
19기 김가경 동덕여자대학교 정보통계학과
19기 김동진 경희대학교 컴퓨터공학과
19기 박재은 숙명여자대학교 컴퓨터과학전공
19기 이재준 명지대학교 융합소프트웨어 데이터테크놀로지전공
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [분모자] : 분류 모자이크BOAZ Bigdata
데이터 분석 프로젝트를 진행한 분모자 팀에서는 아래와 같은 프로젝트를 진행했습니다.
로고 자동 감지 및 모자이크 서비스 제안
19기 오효근 건국대학교 일반대학원 기계설계학과
19기 김보겸 중앙대학교 사회학과
19기 송예진 서울여자대학교 소프트웨어융합학과
19기 우아라 서울여자대학교 소프트웨어융합학과
19기 임서현 성균관대학교 글로벌리더학부
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [link-us(링커즈)] : 링키드를 위한 비즈니스 대시보드 제작BOAZ Bigdata
데이터 시각화 프로젝트를 진행한 link-us(링커즈) 팀에서는 아래와 같은 프로젝트를 진행했습니다.
링키드(linkid)를 위한 비즈니스 대시보드 제작
19기 정소영 숙명여자대학교 통계학과
19기 유나현 중앙대학교 응용통계학과
19기 이세연 성신여자대학교 빅데이터사이언스전공
19기 정다운 숙명여자대학교 통계학과
4. 1. 주제선정배경
리뷰 = 별점 + 텍스트
• 별점
• 가치: 파악이 쉽고 상품끼리 비교하기 용이함
• 한계: 이용자 개개인의 평점 도출 배경 알 수 없음. 구체적이지 못함
• 텍스트
• 가치: 별점만으로 파악하기 힘든 여러 측면의 정보 도출
• 한계: 한눈에 파악하기 힘듦
6. 1. 주제선정배경
숙박 공유 서비스
방을 빌려준 사람을 호스트
들어가는 사람을 게스트
배낭여행자들 사이에서 인기
공유 민박업은 기존에 없던 새로운 서비스
호스트의 부재, 셀프 체크인 등 예기치 못한 문제 발생
구체적인 정보 필요(위치, 시설, 호스트 등)
7. 1. 주제선정배경
답하고자 하는 질문들
리뷰를 쓸 때, 중요하게 생각하는 주제는 무엇일까 ?
(비슷한 것들 많은데) 굳이 리뷰를 모두 읽어야 하나?
좀 더 효과적으로 방을 비교할 수 있는 방법은 없을까?
또다른 정보를 알아낼 수는 없을까?
8. D A T A
데이터 수집 및 전처리
A I R B N B : Aspect In Review 비교 & 분석
9. 2. 데이터 설명
- 대한민국의 도시 9곳 선정 : 서울,부산,제주,서귀포,강릉,전주,대전,대구,광주,여수
- 방의 고유번호인 Listing ID 수집 -> 방에 해당하는 리뷰 크롤링
2.1 데이터 수집 : 에어비앤비 리뷰
총 32,958개
지역별 방 갯수
총 628,095개
지역별 리뷰 수
10. 2. 데이터 설명
2.2 데이터 전처리 : 번역
언어별 리뷰 수
약 40여개 언어가 혼재, 파파고 번역기를 이용하여
전처리가 상대적으로 쉬운 영어로 번역
11. 2. 데이터 설명
2.2 데이터 전처리
리뷰 안에는 문장
문장 안에는 단어
품사로 구분되는 단어
전 처 리 목 표
리뷰를 요약하는 단어 추출
12. 2. 데이터 설명
1. 정규표현식 이용하여 알파벳과 숫자를 제외한 불필요한 기호들 제거
. ! ? 같이 문장이 끝나는 정보를 포함하는 기호는 남김
2. 정확한 문장 tokenizing 을 위해 정규표현식으로 띄어쓰기 보정
3. 문장 tokenizing (NLTK)
"It's very convenient.” “Many coffee shops nearby are nice."
2.2 데이터 전처리
13. 2. 데이터 설명
4. 너무 짧은 문장은 제거
예 > ‘ha.’, ‘ Oh!’
5. 리뷰가 없는 방 제거
6. 단어 tokenizing (NLTK) 후 품사 tagging
'Many’, 'coffee’, 'shops’, 'nearby’, 'are’, 'nice’, '.'
('Many', 'JJ'), ('coffee', 'NN'), ('shops', 'NNS’),
('nearby', 'RB'), ('are', 'VBP'), ('nice', 'JJ'), ('.', '.')
2.2 데이터 전처리
14. 2. 데이터 설명
7. ‘ 명사 형용사 동사 부사 ‘ 만 뽑고 고유명사(‘NNP’)는 선택적으로 제거
예 > 제거: ‘Henry’, ‘Kyungsoon’
제거 X: ‘Nice’, ‘Wifi’(단어의 시작이 대문자)
8. 품사별 Lemmatization(표제어 추출) 진행
예 > 동사 ‘ is ’ , ’ are ’ -> ‘ be ’
명사 ‘rooms’ -> ‘ room ’
9. 모든 단어를 소문자으로 변환
2.2 데이터 전처리
15. 2. 데이터 설명
10. 불용어(Stop words) 제거 : 분석에 큰 의미를 가지지 못하지만 빈출하는 단어
Python NLTK에서 제공하는 stopwords 사용해 제거
Ex) I, am, a, the…
분석을 진행하며 불필요한 단어는 불용어 리스트에 지속적으로 업데이트
2.2 데이터 전처리
16. 2. 데이터 설명
"It's very convenient.Many coffee shops nearby are nice.
Also coffee is good ☺”
[ [very, convenient]
, [coffee, shop, nearby, nice]
,[coffee, good ] ]
2.2 데이터 전처리
17. M O D E L
LDA / Elastic Net / LARA
A I R B N B : Aspect In Review 비교 & 분석
18. 3. 모델
3.1 LDA : Topic modeling
리뷰를 쓸 때, 중요하게 생각하는 주제는 무엇일까 ?
리뷰가 ‘어떤 주제(topic)’에 관한 정보인지
‘어떠한 측면(aspect)’ 을 언급하는지 알아보자
Ex) 위치, 가격, 청결도
19. 3. 모델
3.1 LDA : Topic modeling
LDA 가정
1. 한 리뷰에는 여러 가지 주제가
포함될 수 있다.
2. 주제에는 여러 개의 단어가
포함될 수 있다.
3. 리뷰에 사용된 단어 하나하나는
어떤 주제에 포함된다.
20. 3. 모델
3.1 LDA : Topic modeling
𝜽 = 문서의 주제 분포
Z = 단어의 주제 분포
𝝋 = 주제의 단어 분포
K = 주제의 수
D = 리뷰 문장 수
N = 문장에 속한 단어의 수
21. 3. 모델
3.1 LDA : 지역별
내륙해안
서귀포
제주
부산
여수
대구
서울
대전
광주
전주
22. 해안 내륙
3.1 LDA : 지역별
3. 모델
host
kind
neat
help
friendly
location
close
convenient
walk
beach
clean
comfortable
bed
everything
bathroom
stay
place
time
want
next
view
see
beautiful
floor
morning
Host
Kind
Helpful
home
Location
Station
close
Subway
bus
airport
Clean
Comfortable
Accommodation
Cozy
Spacious
Restaurant
Store
Convenience
nearby
Use
Bed
Small
Bathroom
kitchen
LDA로 도출한 지역별 주제 분포의 차이
26. 3. 모델
3.2 LARA: Latent Aspect Rating Analysis
▪ 별점( 𝑟𝑑 ) : 리뷰에 대한 별점
▪ Aspect : 말하고자 하는 바 (topic)
▪ Aspect 별점 ( 𝜶 𝒅 ) : 리뷰에 대한 aspect별 별점
▪ Aspect 가중치 ( 𝒔 𝒅 ) : 리뷰에 대한 aspect별 가중치
▪ LARA
‘ 별점과 리뷰 텍스트만 가지고도
aspect별 별점과 가중치를 알 수 있는’ 모델
27. 3. 모델
숙소가 사진이랑 완전 똑같았고 사진처럼 정말 깨끗했습니다. 나와서 건물 하나만 지나면
바로 해운대 백사장이 있어서 저녁에 산책하기에도 너무 좋았고 주변에 편의시설도
있었습니다. 하지만 가격이 비싸서 조금 아쉬웠습니다.
3.2 LARA: Latent Aspect Rating Analysis
28. 3. 모델
숙소가 사진이랑 완전 똑같았고 사진처럼 정말 깨끗했습니다. 나와서 건물 하나만 지나면
바로 해운대 백사장이 있어서 저녁에 산책하기에도 너무 좋았고 주변에 편의시설도
있었습니다. 하지만 가격이 비싸서 조금 아쉬웠습니다.
별점 ( 𝑟𝑑 ) 4점
3.2 LARA: Latent Aspect Rating Analysis
29. 3. 모델
숙소가 사진이랑 완전 똑같았고 사진처럼 정말 깨끗했습니다. 나와서 건물 하나만 지나면
바로 해운대 백사장이 있어서 저녁에 산책하기에도 너무 좋았고 주변에 편의시설도
있었습니다. 하지만 가격이 비싸서 조금 아쉬웠습니다.
별점( 𝑟𝑑 ) 4점
= 청결도 × 4점 + 위치 × 5점 + 가격 × 2점
Aspect 별점 ( 𝒔 𝒅 )
3.2 LARA: Latent Aspect Rating Analysis
30. 3. 모델
숙소가 사진이랑 완전 똑같았고 사진처럼 정말 깨끗했습니다. 나와서 건물 하나만 지나면
바로 해운대 백사장이 있어서 저녁에 산책하기에도 너무 좋았고 주변에 편의시설도
있었습니다. 하지만 가격이 비싸서 조금 아쉬웠습니다.
별점( 𝑟𝑑 ) 4점
= 청결도 × 4점 + 위치 × 5점 + 가격 × 2점
= 0.5 × 4점 + 0.35 × 5점 + 0.125 × 2점
Aspect 가중치 ( 𝜶 𝒅 )
3.2 LARA: Latent Aspect Rating Analysis
31. 3. 모델
단어별 감성 극성
DTM(N*K*D)
aspect 가중치
Variance
aspect 별점
aspect 가중치의 평균
aspect 가중치 의
Variance
Aspect Segmentation
(LDA + Bootstrapping)
3.2 LARA: Latent Aspect Rating Analysis
32. 3. 모델
3.2 Elastic Net - 감정사전 구축
다른 방법으로는
각 주제에 대한 사람들의 생각, 감정을 알 수 없을까?
33. 3. 모델
3.2 Elastic Net - 감정사전 구축
리뷰는 텍스트,
텍스트에는 사람들의 감정이 담겨있다.
그럼 텍스트에 담긴 감정을 어떻게 정량화할 수 있을까?
텍스트에 이용된 단어들의 감정을 수치화 시킨 것이 감정사전이다.
34. 3. 모델
3.2 Elastic Net - 감성사전 구축
감정사전은 이미 존재
But,
Domain(숙소)에 따른 감성사전 구축의 필요성
-> Elastic Net을 이용하여 에어비앤비의 감성사전을 직접 구축
35. 3. 모델
3.2 Elastic Net - 감성사전 구축
+ = = 1 이라는 제약조건 하에서 각 값을 0과 1사이로 조절
중요한 변수를 선택할 수 있고 다중공선성 문제를 해결 가능
데이터의 관측치 수에 비해 변수의 수가 많아지면
변수들 사이의 강한 상관관계로 과적합이 발생 -> 모델 해석이 어렵고 예측력이 떨어짐
36. 3. 모델
3.2 Elastic Net - 감성사전 구축
별점 (rating) 단어 빈도수
DTM very convenient coffee … shop nearby … nice good
review1 1 1 2 0 1 1 0 1 1
Rating
4
37. 3. 모델
3.2 Elastic Net - 감성사전 구축
Elastic Net을 적용하여 산출한 각 회귀계수를 개별 단어의 감정 점수로 사용
별점 (rating) 단어 빈도수
38. 3.3 감성사전 구축 - 결과
Negative Words
vocab Coefficent
challenge -2.095048
burner -0.689223
freshener -0.635682
inaccurate -0.543925
commercial -0.543383
confuse -0.521895
pyeong -0.506351
line -0.503193
furniture -0.466405
advance -0.402517
Positive Words
vocab Coefficent
hostess 0.203116
decorate 0.174437
reply 0.138483
focus 0.136315
tend 0.126949
news 0.115064
human 0.103802
perfectly 0.098851
provide 0.097512
flood 0.095992
- Elastic Net 결과 빈도수 기반으로 추려낸 2920개의 단어 중 412개 단어가 유의
3. 모델
39. M O D E L I N G
Scoring
A I R B N B : Aspect In Review 비교 & 분석
40. 4. 모델링
4.1 모델 Framework
데이터
LDA
주제의
단어분포
▪ LDA output
Distribution topic1 topic2
word1 0.7 0.2
word2 0.3 0.8
41. 4. 모델링
데이터
DTM 생성
감정사전
구축
▪ Elastic Net▪ 문서 단어 행렬
Sentiment
dictionary
Sentiment
score
word1 0.5
word2 0.3
4.1 모델 Framework