위 자료는 BOAZ 2016 프로젝트 주제의 하나로, Advanced 정규세션 동안 Base 정규세션에서 배웠던 다양한 이론들과 기본 지식들, 그리고 툴 활용능력들을 직접 실행하며 진행한 결과물입니다.
*** 모바일 SNS 사용자들의 감성 용어 사전 제작 및 공인대상 감성 분석 ***
트위터의 모바일 기기 사용자들이 게시한 트윗들을 분석해서 명사, 형용사로 구성된 감성 사전 제작. 이를 통해 정치, 연예 등 다양한 분야의 공인들을 대상으로 해당 서비스 사용자들의 감성 수치화 및 시간에 따른 변화 분석.
방진현 서울대학교 산업공학과
김원현 성균관대학교 수학과
허승 중앙대학교 응용통계학과
장한솔 숙명여자대학교 한국어문학부
최원빈 이화여자대학교 사회교육과
** 국내 최초 대학생 빅데이터 연합동아리 BOAZ **
Blog : http://BOAZbigdata.com
Facebook : http://fb.com/BOAZbigdata
위 자료는 BOAZ 2016 프로젝트 주제의 하나로, Advanced 정규세션 동안 Base 정규세션에서 배웠던 다양한 이론들과 기본 지식들, 그리고 툴 활용능력들을 직접 실행하며 진행한 결과물입니다.
*** CNN 이미지 인식 알고리즘을 활용한 사칙 연산 수행 ***
기존의 MNIST 이미지에 직접 수집한 숫자와 부호 이미지 데이터를 활용하여 연산이 포함된 이미지를 인식하고 계산하는 알고리즘 개발.
김현수 이화여자대학교 컴퓨터공학과
이혜진 덕성여자대학교 철학과
조혜선 단국대학교 통계학과
이은지 이화여자대학교 영문학과
** 국내 최초 대학생 빅데이터 연합동아리 BOAZ **
Blog : http://BOAZbigdata.com
Facebook : http://fb.com/BOAZbigdata
위 자료는 BOAZ 2016 하반기 프로젝트 주제의 하나로, Advanced 정규세션 동안 Base 정규세션에서 배웠던 다양한 이론들과 기본 지식들, 그리고 툴 활용능력들을 직접 실행하며 진행한 결과물입니다.
*** 웹툰의 OSMU 가능성 예측을 위한 통계적 모델링 ***
웹툰시장에서 활발히 이루어지고 있는 OSMU(One Source Multi Use)에 대해서 다양한 통계적 기법을 통해 모델링함. 또한, 현재 미완결 웹툰 중 OSMU 가능성이 높은 웹툰을 예측함.
6기 조규원 홍익대학교 경영학과
6기 이신원 덕성여자대학교 문헌정보학과
6기 이하영 중앙대학교 응용통계학과
6기 최기준 인하대학교 통계학과
** 국내 최초 대학생 빅데이터 연합동아리 BOAZ **
Blog : http://BOAZbigdata.com
Facebook : http://fb.com/BOAZbigdata
[분석]서울시내 상권분석/폐업률을 기준으로 한 서울시 창업기업의 생존률 분석BOAZ Bigdata
위 자료는 BOAZ 2016 하반기 프로젝트 주제의 하나로, Advanced 정규세션 동안 Base 정규세션에서 배웠던 다양한 이론들과 기본 지식들, 그리고 툴 활용능력들을 직접 실행하며 진행한 결과물입니다.
*** 서울시내 상권분석/폐업률을 기준으로 한 서울시 창업기업의 생존률 분석 ***
스타벅스 옆에 있는 이디야 카페가 생존율이 높은 것에 착안하여 서울시 강남구 상권 데이터를 생존분석과 접목하여 분석해 음식점 입지 선정 전략에 대해 고찰함.
6기 김상엽 중앙대학교 영어영문학부
6기 김동환 서울과학기술대학교 산업공학과
6기 임재성 광운대학교 산업심리학과
6기 전현우 서울시립대학교 통계학과
** 국내 최초 대학생 빅데이터 연합동아리 BOAZ **
Blog : http://BOAZbigdata.com
Facebook : http://fb.com/BOAZbigdata
[시각화]서울시내 간선도로 교통량을 활용한 주요지점 간 이동시간 시각화BOAZ Bigdata
위 자료는 BOAZ 2016 하반기 프로젝트 주제의 하나로, Advanced 정규세션 동안 Base 정규세션에서 배웠던 다양한 이론들과 기본 지식들, 그리고 툴 활용능력들을 직접 실행하며 진행한 결과물입니다.
*** 서울시내 간선도로 교통량을 활용한 주요지점 간 이동시간 시각화 ***
서울시 주요 지점의 교통량 데이터를 이용하여 관측되지 않은 지점의 교통량을 추정하고, 카토그램을 이용하여 시각화함. 구현되는 지도는 차가 많이 밀리는 곳이 넓게 보여지기 때문에 사람들의 체감 이동거리를 나타낼 수 있음.
7기 조수민 숭실대학교 경제학과
6기 박슬기 서울과학기술대학교 디자인학과
** 국내 최초 대학생 빅데이터 연합동아리 BOAZ **
Blog : http://BOAZbigdata.com
Facebook : http://fb.com/BOAZbigdata
위 자료는 BOAZ 2016 하반기 프로젝트 주제의 하나로, Advanced 정규세션 동안 Base 정규세션에서 배웠던 다양한 이론들과 기본 지식들, 그리고 툴 활용능력들을 직접 실행하며 진행한 결과물입니다.
*** 워드임베딩과 인공신경망을 이용한 개인 맞춤형 레시피 추천 ***
추천 시스템의 Cold start Problem에 대처하기 위해, 대량의 레시피 텍스트로부터 각 레시피의 특징을 추출하고 이를 인공신경망에 매핑하여 복잡미묘한 입맛의 선호를 예측, 봇 인터페이스를 통해 피드백을 받는 Online learning 형태의 추천 시스템을 제안함.
6기 김성동 숭실대학교 경영학부
6기 김수연 동덕여자대학교 정보통계학과
6기 노우영 한양대학교 ERICA 응용수학과
6기 박소영 건국대학교 응용통계학과
6기 박소현 연세대학교 응용통계학과
6기 이지원 고려대학교 통계학과
** 국내 최초 대학생 빅데이터 연합동아리 BOAZ **
Blog : http://BOAZbigdata.com
Facebook : http://fb.com/BOAZbigdata
위 자료는 BOAZ 2016 하반기 프로젝트 주제의 하나로, Advanced 정규세션 동안 Base 정규세션에서 배웠던 다양한 이론들과 기본 지식들, 그리고 툴 활용능력들을 직접 실행하며 진행한 결과물입니다.
*** 서울시 2030 나홀로족을 위한 라이프 가이드북 ***
서울에 거주하는 2030 나홀로족을 위해 제작된 라이프 가이드북. 이 가이드북의 주목적은 먹는 것(식) 그리고 사는 것(주)에 대해서 그에 관한 정보를 주는 것임.
6기 김승효 중앙대학교 응용통계학과
6기 김재은 이화여자대학교 시각디자인과
7기 박다혜 한국외국어대학교 통계학과
** 국내 최초 대학생 빅데이터 연합동아리 BOAZ **
Blog : http://BOAZbigdata.com
Facebook : http://fb.com/BOAZbigdata
위 자료는 BOAZ 2016 프로젝트 주제의 하나로, 시각화 세션에서 배웠던 다양한 이론들과 기본 지식들, 그리고 툴 활용능력들을 직접 실행하며 진행한 결과물입니다.
*** 통계로 본 서울시 유기동물 정보 시각화 ***
서울시의 최근 발생한 유기동물에 대한 정보를 통계로 나타내고 이를 시각화하여 사람들에게 유기동물의 현황을 알리고 심각성 및 행동요령 정보에 대한 접근성을 향상시킴. 시각화된 정보 자료를 팜플릿으로 제작해 동물병원 및 동물보호단체에 제공하고자 함.
장민경 이화여자대학교 시각디자인전공
박슬기 서울과학기술대학교 디자인학부
김동환 서울과학기술대학교 산업공학과
** 국내 최초 대학생 빅데이터 연합동아리 BOAZ **
Blog : http://BOAZbigdata.com
Facebook : http://fb.com/BOAZbigdata
위 자료는 BOAZ 2016 프로젝트 주제의 하나로, Advanced 정규세션 동안 Base 정규세션에서 배웠던 다양한 이론들과 기본 지식들, 그리고 툴 활용능력들을 직접 실행하며 진행한 결과물입니다.
*** CNN 이미지 인식 알고리즘을 활용한 사칙 연산 수행 ***
기존의 MNIST 이미지에 직접 수집한 숫자와 부호 이미지 데이터를 활용하여 연산이 포함된 이미지를 인식하고 계산하는 알고리즘 개발.
김현수 이화여자대학교 컴퓨터공학과
이혜진 덕성여자대학교 철학과
조혜선 단국대학교 통계학과
이은지 이화여자대학교 영문학과
** 국내 최초 대학생 빅데이터 연합동아리 BOAZ **
Blog : http://BOAZbigdata.com
Facebook : http://fb.com/BOAZbigdata
위 자료는 BOAZ 2016 하반기 프로젝트 주제의 하나로, Advanced 정규세션 동안 Base 정규세션에서 배웠던 다양한 이론들과 기본 지식들, 그리고 툴 활용능력들을 직접 실행하며 진행한 결과물입니다.
*** 웹툰의 OSMU 가능성 예측을 위한 통계적 모델링 ***
웹툰시장에서 활발히 이루어지고 있는 OSMU(One Source Multi Use)에 대해서 다양한 통계적 기법을 통해 모델링함. 또한, 현재 미완결 웹툰 중 OSMU 가능성이 높은 웹툰을 예측함.
6기 조규원 홍익대학교 경영학과
6기 이신원 덕성여자대학교 문헌정보학과
6기 이하영 중앙대학교 응용통계학과
6기 최기준 인하대학교 통계학과
** 국내 최초 대학생 빅데이터 연합동아리 BOAZ **
Blog : http://BOAZbigdata.com
Facebook : http://fb.com/BOAZbigdata
[분석]서울시내 상권분석/폐업률을 기준으로 한 서울시 창업기업의 생존률 분석BOAZ Bigdata
위 자료는 BOAZ 2016 하반기 프로젝트 주제의 하나로, Advanced 정규세션 동안 Base 정규세션에서 배웠던 다양한 이론들과 기본 지식들, 그리고 툴 활용능력들을 직접 실행하며 진행한 결과물입니다.
*** 서울시내 상권분석/폐업률을 기준으로 한 서울시 창업기업의 생존률 분석 ***
스타벅스 옆에 있는 이디야 카페가 생존율이 높은 것에 착안하여 서울시 강남구 상권 데이터를 생존분석과 접목하여 분석해 음식점 입지 선정 전략에 대해 고찰함.
6기 김상엽 중앙대학교 영어영문학부
6기 김동환 서울과학기술대학교 산업공학과
6기 임재성 광운대학교 산업심리학과
6기 전현우 서울시립대학교 통계학과
** 국내 최초 대학생 빅데이터 연합동아리 BOAZ **
Blog : http://BOAZbigdata.com
Facebook : http://fb.com/BOAZbigdata
[시각화]서울시내 간선도로 교통량을 활용한 주요지점 간 이동시간 시각화BOAZ Bigdata
위 자료는 BOAZ 2016 하반기 프로젝트 주제의 하나로, Advanced 정규세션 동안 Base 정규세션에서 배웠던 다양한 이론들과 기본 지식들, 그리고 툴 활용능력들을 직접 실행하며 진행한 결과물입니다.
*** 서울시내 간선도로 교통량을 활용한 주요지점 간 이동시간 시각화 ***
서울시 주요 지점의 교통량 데이터를 이용하여 관측되지 않은 지점의 교통량을 추정하고, 카토그램을 이용하여 시각화함. 구현되는 지도는 차가 많이 밀리는 곳이 넓게 보여지기 때문에 사람들의 체감 이동거리를 나타낼 수 있음.
7기 조수민 숭실대학교 경제학과
6기 박슬기 서울과학기술대학교 디자인학과
** 국내 최초 대학생 빅데이터 연합동아리 BOAZ **
Blog : http://BOAZbigdata.com
Facebook : http://fb.com/BOAZbigdata
위 자료는 BOAZ 2016 하반기 프로젝트 주제의 하나로, Advanced 정규세션 동안 Base 정규세션에서 배웠던 다양한 이론들과 기본 지식들, 그리고 툴 활용능력들을 직접 실행하며 진행한 결과물입니다.
*** 워드임베딩과 인공신경망을 이용한 개인 맞춤형 레시피 추천 ***
추천 시스템의 Cold start Problem에 대처하기 위해, 대량의 레시피 텍스트로부터 각 레시피의 특징을 추출하고 이를 인공신경망에 매핑하여 복잡미묘한 입맛의 선호를 예측, 봇 인터페이스를 통해 피드백을 받는 Online learning 형태의 추천 시스템을 제안함.
6기 김성동 숭실대학교 경영학부
6기 김수연 동덕여자대학교 정보통계학과
6기 노우영 한양대학교 ERICA 응용수학과
6기 박소영 건국대학교 응용통계학과
6기 박소현 연세대학교 응용통계학과
6기 이지원 고려대학교 통계학과
** 국내 최초 대학생 빅데이터 연합동아리 BOAZ **
Blog : http://BOAZbigdata.com
Facebook : http://fb.com/BOAZbigdata
위 자료는 BOAZ 2016 하반기 프로젝트 주제의 하나로, Advanced 정규세션 동안 Base 정규세션에서 배웠던 다양한 이론들과 기본 지식들, 그리고 툴 활용능력들을 직접 실행하며 진행한 결과물입니다.
*** 서울시 2030 나홀로족을 위한 라이프 가이드북 ***
서울에 거주하는 2030 나홀로족을 위해 제작된 라이프 가이드북. 이 가이드북의 주목적은 먹는 것(식) 그리고 사는 것(주)에 대해서 그에 관한 정보를 주는 것임.
6기 김승효 중앙대학교 응용통계학과
6기 김재은 이화여자대학교 시각디자인과
7기 박다혜 한국외국어대학교 통계학과
** 국내 최초 대학생 빅데이터 연합동아리 BOAZ **
Blog : http://BOAZbigdata.com
Facebook : http://fb.com/BOAZbigdata
위 자료는 BOAZ 2016 프로젝트 주제의 하나로, 시각화 세션에서 배웠던 다양한 이론들과 기본 지식들, 그리고 툴 활용능력들을 직접 실행하며 진행한 결과물입니다.
*** 통계로 본 서울시 유기동물 정보 시각화 ***
서울시의 최근 발생한 유기동물에 대한 정보를 통계로 나타내고 이를 시각화하여 사람들에게 유기동물의 현황을 알리고 심각성 및 행동요령 정보에 대한 접근성을 향상시킴. 시각화된 정보 자료를 팜플릿으로 제작해 동물병원 및 동물보호단체에 제공하고자 함.
장민경 이화여자대학교 시각디자인전공
박슬기 서울과학기술대학교 디자인학부
김동환 서울과학기술대학교 산업공학과
** 국내 최초 대학생 빅데이터 연합동아리 BOAZ **
Blog : http://BOAZbigdata.com
Facebook : http://fb.com/BOAZbigdata
[06_미국보다 한국시장에서 상대적으로 더 흥행할 영화의 사전 예측]
위 자료는 BOAZ 2016 프로젝트 주제의 하나로, Advanced 정규세션 동안 Base 정규세션에서 배웠던 다양한 이론들과 기본 지식들, 그리고 툴 활용능력들을 직접 실행하며 진행한 결과물입니다.
*** 미국보다 한국시장에서 상대적으로 더 흥행할 영화의 사전 예측 ***
영화 배급 결정이나 개봉 이후의 영화흥행도를 예측하는 것이 아닌 영화마켓(영화를 상품으로서 사고파는 시장)에서 미국영화를 수입하는 시점에서 의사결정을 돕는 분류 모델 구현 및 모델 성능 저하 요인을 분석한 자료 전시.
송석민 서울대학교 대학원 산업공학과
이주경 국민대학교 대학원 데이터사이언스학과
신재춘 단국대학교 경제학과
신재학 단국대학교 응용통계학과
강윤영 숙명여자대학교 통계학과
** 국내 최초 대학생 빅데이터 연합동아리 BOAZ **
Blog : http://BOAZbigdata.com
Facebook : http://fb.com/BOAZbigdata
위 자료는 BOAZ 2016 프로젝트 주제의 하나로, 시각화 세션에서 배웠던 다양한 이론들과 기본 지식들, 그리고 툴 활용능력들을 직접 실행하며 진행한 결과물입니다.
*** 소고기와 돼지고기에 대한 정보 시각화 ***
우리가 흔히 접하는 돼지고기와 소고기에 대해 축산유통종합정보센터와 농식품종합정보시스템에서 제공하는 유용한 자료를 데이터시각화.
김승효 중앙대학교 응용통계학과
김윤지 이화여자대학교 시각디자인학과
조영민 국민대학교 언론정보학구 광고학
** 국내 최초 대학생 빅데이터 연합동아리 BOAZ **
Blog : http://BOAZbigdata.com
Facebook : http://fb.com/BOAZbigdata
위 자료는 BOAZ 2016 프로젝트 주제의 하나로, Advanced 정규세션 동안 Base 정규세션에서 배웠던 다양한 이론들과 기본 지식들, 그리고 툴 활용능력들을 직접 실행하며 진행한 결과물입니다.
*** 음성데이터를 활용한 화자인식 구현 및 보안에서의 활용 ***
개인 목소리의 특징을 통계적인 방법으로 추출하여 음성데이터의 차원을 획기적으로 줄임과 동시에 데이터의 차원을 고정시켜 데이터를 화자인식과 보안문제에 응용
김형주 서울시립대학교 자연과학대학 통계학과
유재용 서울시립대학교 일반대학원 통계학과
이재환 한양대학교 일반대학원 산업공학과
조현선 이화여자대학교 일반대학원 통계학과
** 국내 최초 대학생 빅데이터 연합동아리 BOAZ **
Blog : http://BOAZbigdata.com
Facebook : http://fb.com/BOAZbigdata
위 자료는 BOAZ 2016 프로젝트 주제의 하나로, Advanced 정규세션 동안 Base 정규세션에서 배웠던 다양한 이론들과 기본 지식들, 그리고 툴 활용능력들을 직접 실행하며 진행한 결과물입니다.
*** 회귀 분석 및 시뮬레이션 모델에 기반한 웹서비스 제작 ***
카페의 지점별 데이터를 바탕으로 시간당 판매량에 대한 회귀식을 도출하고, 이를 대기행렬 시뮬레이션에 반영하여 예상 대기시간 및 대기인원을 실시간으로 분석하는 프로그램 제공
박경록 서강대학교 경영학과
김도연 단국대학교 응용통계학과
이창준 성균관대학교 통계학과
임수만 서울시립대학교 통계학과
홍성근 중앙대학교 컴퓨터공학과
** 국내 최초 대학생 빅데이터 연합동아리 BOAZ **
Blog : http://BOAZbigdata.com
Facebook : http://fb.com/BOAZbigdata
위 자료는 BOAZ 2015 프로젝트 주제의 하나로, Advanced 정규세션 동안 Base 정규세션에서 배웠던 다양한 이론들과 기본 지식들, 그리고 툴 활용능력들을 직접 실행하며 진행한 결과물입니다.
*** 도서 분석을 통한 사람들의 심리&마음 파악 ***
다양한 시각화 프로세스를 통해 도서에서 사람을 발견하고, 이를 연도별로 분석한 프로젝트
- 베스트셀러 순위 및 리뷰 데이터 수집
- 베스트셀러의 출현과 추세(순위 변동) 시각화
- 시각화를 통한 연도별 키워드 추출
- 베스트셀러에 나타난 연도별 감정 변화 시각화
숙명여자대학교 경영학과 지영은
서울과학기술대학교 산업공학과 모경현
이화여자대학교 일반대학원 통계학과 안주연
이화여자대학교 영상디자인 김유현
서울시립대학교 도시공학과 황채은
** 국내 최초 대학생 빅데이터 연합동아리 BOAZ **
Blog : http://BOAZbigdata.com
Facebook : http://fb.com/BOAZbigdata
위 자료는 2014 BOAZ 외부 프로젝트로, BOAZ 정규세션에서 배웠던 다양한 이론들과 기본 지식들, 그리고 툴 활용능력들을 직접 실행하며 진행한 결과물입니다.
*** 제 3회 Open OASIS 교통데이터 활용 공모전 / 네이버 특별상 수상작 / 국도로 떠나는 '휴' 드라이브 ***
이화여자대학교 영상디자인 박소영
이화여자대학교 영상디자인 이주원
중앙대학교 전자전기공학 임제헌
서울시립대학교 통계학과 김유나
** 국내 최초 대학생 빅데이터 연합동아리 BOAZ **
Blog : http://BOAZbigdata.com
Facebook : http://fb.com/BOAZbigdata
위 자료는 BOAZ 2014 프로젝트 주제의 하나로, Advanced 정규세션 동안 Base 정규세션에서 배웠던 다양한 이론들과 기본 지식들, 그리고 툴 활용능력들을 직접 실행하며 진행한 결과물입니다.
*** 애니메이션 영화 포스터 색채분석 ***
2000년 이후의 '미국과 일본 애니메이션 영화 포스터'와 '주요 애니메이션 제작사(5개 제작사)'의 애니메이션 영화 포스터 색채분석과 감정 형용사 분석
- 애니메이션 영화 포스터 주제 선정 배경
- 포스터 색상 데이터 분석 및 시각화 과정
- 색상별 감정 형용사 추출 및 시각화 과정
- 디자인 컨셉 설명 및 결과물 소개
이화여자대학교 영상디자인 박소영
아주대학교 미디어학과 최아름
단국대학교 정보통계학과 박인성
홍익대학교 시각디자인과 김나현
** 국내 최초 대학생 빅데이터 연합동아리 BOAZ **
Blog : http://BOAZbigdata.com
Facebook : http://fb.com/BOAZbigdata
Semantic annotation is done through first representing words and documents in the vector space model using Word2Vec and Doc2Vec implementations, the vectors are taken as features into a classifier, trained and a model is made which can classify a document with ACM classification tree categories, with the help of Wikipedia corpus.
Project Presentation: https://youtu.be/706HJteh1xc
Project Webpage: http://rohitsakala.github.io/semanticAnnotationAcmCategories/
Source Code: https://github.com/rohitsakala/semanticAnnotationAcmCategories
References:
Quoc V. Le, and Tomas Mikolov, ''Distributed Representations of Sentences and Documents ICML", 2014
위 자료는 BOAZ 2015 프로젝트 주제의 하나로, Advanced 정규세션 동안 Base 정규세션에서 배웠던 다양한 이론들과 기본 지식들, 그리고 툴 활용능력들을 직접 실행하며 진행한 결과물입니다.
*** 기상레이더를 활용한 강우 확률분포 예측 ***
Kaggle에서 제공하는 미국 NEXRAD의 이중편파 기상레이더 데이터 및 MADIS의 우량계 데이터를 활용한 시간 당 강우량 확률분포 예측
- 이중편파 기상레이더 소개, 데이터 탐색 및 분석 과정, 강우량 확률분포 예측 모델 소개
건국대학교 응용통계학과 박민식
단국대학교 정보통계학과 박인성
서울과학기술대학교 산업공학과 신현리
중앙대학교 응용통계학과 최준
** 국내 최초 대학생 빅데이터 연합동아리 BOAZ **
Blog : http://BOAZbigdata.com
Facebook : http://fb.com/BOAZbigdata
위 자료는 BOAZ 2015 프로젝트 주제의 하나로, Advanced 정규세션 동안 Base 정규세션에서 배웠던 다양한 이론들과 기본 지식들, 그리고 툴 활용능력들을 직접 실행하며 진행한 결과물입니다.
*** 텔레마틱스 데이터를 이용한 자동차 운전자 프로필 생성 ***
Kaggle에서 제공하는 2차원 좌표의 텔레마틱스 데이터를 활용하여 지도매칭과 모델링접근 방법을 통한 운전자의 특징 파악 및 프로필 생성
- Telematics 소개
- 운전자 지문 활용방안
- 지도 매칭 방법 & 모델링 접근 방법
건국대학교 응용통계학과 김한솔
숙명여자대학교 경제학과 남윤이
성균관대학교 컴퓨터공학과 성미진
숙명여자대학교 통계학과 신현화
** 국내 최초 대학생 빅데이터 연합동아리 BOAZ **
Blog : http://BOAZbigdata.com
Facebook : http://fb.com/BOAZbigdata
위 자료는 BOAZ 2015 프로젝트 주제의 하나로, Advanced 정규세션 동안 Base 정규세션에서 배웠던 다양한 이론들과 기본 지식들, 그리고 툴 활용능력들을 직접 실행하며 진행한 결과물입니다.
*** 프리미어리그 축구팀 승자 예측 ***
프리미어리그 2014/2015 시즌 데이터를 기초한 본 프로젝트는 데이터베이스 테이블을 구축하고 예측 모형을 모델링하고 남은 경기로 예측을 실시. 이 예측 모델을 기반으로 경기 예측 어플리케이션을 구현했습니다.
송준호 국민대학교 경영정보학과 10
허성오 인천대학교 컴퓨터공학과 09
김그리나 이화여자대학교 영상디자인과 13
** 국내 최초 대학생 빅데이터 연합동아리 BOAZ **
Blog : http://BOAZbigdata.com
Facebook : http://fb.com/BOAZbigdata
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [COLLABO-AZ] : 고객 세그멘테이션 기반 개인 맞춤형 추천시스템 for 루빗BOAZ Bigdata
데이터 분석 프로젝트를 진행한 COLLABO-AZ 팀에서는 아래와 같은 프로젝트를 진행했습니다.
고객 세그멘테이션 기반 개인 맞춤형 추천시스템 for 루빗
20기 정지혜 이화여자대학교 통계학과
20기 김지민 중앙대학교 응용통계학과
20기 오태연 단국대학교 정보통계학과
20기 최은선 한양대학교 에리카캠퍼스 정보사회미디어학과
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [백발백준] : 백준봇 : 컨테이너 오케스트레이션 기반 백준 문제 추천 봇BOAZ Bigdata
데이터 엔지니어링 프로젝트를 진행한 백발백준 팀에서는 아래와 같은 프로젝트를 진행했습니다.
백준봇 : 컨테이너 오케스트레이션 기반 백준 문제 추천 봇
20기 유하준 한국외국어대학교 산업공학과
20기 안지완 중앙대학교 소프트웨어학과
20기 정태형 경기대학교 응용통계학과
20기 최윤서 숙명여자대학교 일반대학원 통계학과
[06_미국보다 한국시장에서 상대적으로 더 흥행할 영화의 사전 예측]
위 자료는 BOAZ 2016 프로젝트 주제의 하나로, Advanced 정규세션 동안 Base 정규세션에서 배웠던 다양한 이론들과 기본 지식들, 그리고 툴 활용능력들을 직접 실행하며 진행한 결과물입니다.
*** 미국보다 한국시장에서 상대적으로 더 흥행할 영화의 사전 예측 ***
영화 배급 결정이나 개봉 이후의 영화흥행도를 예측하는 것이 아닌 영화마켓(영화를 상품으로서 사고파는 시장)에서 미국영화를 수입하는 시점에서 의사결정을 돕는 분류 모델 구현 및 모델 성능 저하 요인을 분석한 자료 전시.
송석민 서울대학교 대학원 산업공학과
이주경 국민대학교 대학원 데이터사이언스학과
신재춘 단국대학교 경제학과
신재학 단국대학교 응용통계학과
강윤영 숙명여자대학교 통계학과
** 국내 최초 대학생 빅데이터 연합동아리 BOAZ **
Blog : http://BOAZbigdata.com
Facebook : http://fb.com/BOAZbigdata
위 자료는 BOAZ 2016 프로젝트 주제의 하나로, 시각화 세션에서 배웠던 다양한 이론들과 기본 지식들, 그리고 툴 활용능력들을 직접 실행하며 진행한 결과물입니다.
*** 소고기와 돼지고기에 대한 정보 시각화 ***
우리가 흔히 접하는 돼지고기와 소고기에 대해 축산유통종합정보센터와 농식품종합정보시스템에서 제공하는 유용한 자료를 데이터시각화.
김승효 중앙대학교 응용통계학과
김윤지 이화여자대학교 시각디자인학과
조영민 국민대학교 언론정보학구 광고학
** 국내 최초 대학생 빅데이터 연합동아리 BOAZ **
Blog : http://BOAZbigdata.com
Facebook : http://fb.com/BOAZbigdata
위 자료는 BOAZ 2016 프로젝트 주제의 하나로, Advanced 정규세션 동안 Base 정규세션에서 배웠던 다양한 이론들과 기본 지식들, 그리고 툴 활용능력들을 직접 실행하며 진행한 결과물입니다.
*** 음성데이터를 활용한 화자인식 구현 및 보안에서의 활용 ***
개인 목소리의 특징을 통계적인 방법으로 추출하여 음성데이터의 차원을 획기적으로 줄임과 동시에 데이터의 차원을 고정시켜 데이터를 화자인식과 보안문제에 응용
김형주 서울시립대학교 자연과학대학 통계학과
유재용 서울시립대학교 일반대학원 통계학과
이재환 한양대학교 일반대학원 산업공학과
조현선 이화여자대학교 일반대학원 통계학과
** 국내 최초 대학생 빅데이터 연합동아리 BOAZ **
Blog : http://BOAZbigdata.com
Facebook : http://fb.com/BOAZbigdata
위 자료는 BOAZ 2016 프로젝트 주제의 하나로, Advanced 정규세션 동안 Base 정규세션에서 배웠던 다양한 이론들과 기본 지식들, 그리고 툴 활용능력들을 직접 실행하며 진행한 결과물입니다.
*** 회귀 분석 및 시뮬레이션 모델에 기반한 웹서비스 제작 ***
카페의 지점별 데이터를 바탕으로 시간당 판매량에 대한 회귀식을 도출하고, 이를 대기행렬 시뮬레이션에 반영하여 예상 대기시간 및 대기인원을 실시간으로 분석하는 프로그램 제공
박경록 서강대학교 경영학과
김도연 단국대학교 응용통계학과
이창준 성균관대학교 통계학과
임수만 서울시립대학교 통계학과
홍성근 중앙대학교 컴퓨터공학과
** 국내 최초 대학생 빅데이터 연합동아리 BOAZ **
Blog : http://BOAZbigdata.com
Facebook : http://fb.com/BOAZbigdata
위 자료는 BOAZ 2015 프로젝트 주제의 하나로, Advanced 정규세션 동안 Base 정규세션에서 배웠던 다양한 이론들과 기본 지식들, 그리고 툴 활용능력들을 직접 실행하며 진행한 결과물입니다.
*** 도서 분석을 통한 사람들의 심리&마음 파악 ***
다양한 시각화 프로세스를 통해 도서에서 사람을 발견하고, 이를 연도별로 분석한 프로젝트
- 베스트셀러 순위 및 리뷰 데이터 수집
- 베스트셀러의 출현과 추세(순위 변동) 시각화
- 시각화를 통한 연도별 키워드 추출
- 베스트셀러에 나타난 연도별 감정 변화 시각화
숙명여자대학교 경영학과 지영은
서울과학기술대학교 산업공학과 모경현
이화여자대학교 일반대학원 통계학과 안주연
이화여자대학교 영상디자인 김유현
서울시립대학교 도시공학과 황채은
** 국내 최초 대학생 빅데이터 연합동아리 BOAZ **
Blog : http://BOAZbigdata.com
Facebook : http://fb.com/BOAZbigdata
위 자료는 2014 BOAZ 외부 프로젝트로, BOAZ 정규세션에서 배웠던 다양한 이론들과 기본 지식들, 그리고 툴 활용능력들을 직접 실행하며 진행한 결과물입니다.
*** 제 3회 Open OASIS 교통데이터 활용 공모전 / 네이버 특별상 수상작 / 국도로 떠나는 '휴' 드라이브 ***
이화여자대학교 영상디자인 박소영
이화여자대학교 영상디자인 이주원
중앙대학교 전자전기공학 임제헌
서울시립대학교 통계학과 김유나
** 국내 최초 대학생 빅데이터 연합동아리 BOAZ **
Blog : http://BOAZbigdata.com
Facebook : http://fb.com/BOAZbigdata
위 자료는 BOAZ 2014 프로젝트 주제의 하나로, Advanced 정규세션 동안 Base 정규세션에서 배웠던 다양한 이론들과 기본 지식들, 그리고 툴 활용능력들을 직접 실행하며 진행한 결과물입니다.
*** 애니메이션 영화 포스터 색채분석 ***
2000년 이후의 '미국과 일본 애니메이션 영화 포스터'와 '주요 애니메이션 제작사(5개 제작사)'의 애니메이션 영화 포스터 색채분석과 감정 형용사 분석
- 애니메이션 영화 포스터 주제 선정 배경
- 포스터 색상 데이터 분석 및 시각화 과정
- 색상별 감정 형용사 추출 및 시각화 과정
- 디자인 컨셉 설명 및 결과물 소개
이화여자대학교 영상디자인 박소영
아주대학교 미디어학과 최아름
단국대학교 정보통계학과 박인성
홍익대학교 시각디자인과 김나현
** 국내 최초 대학생 빅데이터 연합동아리 BOAZ **
Blog : http://BOAZbigdata.com
Facebook : http://fb.com/BOAZbigdata
Semantic annotation is done through first representing words and documents in the vector space model using Word2Vec and Doc2Vec implementations, the vectors are taken as features into a classifier, trained and a model is made which can classify a document with ACM classification tree categories, with the help of Wikipedia corpus.
Project Presentation: https://youtu.be/706HJteh1xc
Project Webpage: http://rohitsakala.github.io/semanticAnnotationAcmCategories/
Source Code: https://github.com/rohitsakala/semanticAnnotationAcmCategories
References:
Quoc V. Le, and Tomas Mikolov, ''Distributed Representations of Sentences and Documents ICML", 2014
위 자료는 BOAZ 2015 프로젝트 주제의 하나로, Advanced 정규세션 동안 Base 정규세션에서 배웠던 다양한 이론들과 기본 지식들, 그리고 툴 활용능력들을 직접 실행하며 진행한 결과물입니다.
*** 기상레이더를 활용한 강우 확률분포 예측 ***
Kaggle에서 제공하는 미국 NEXRAD의 이중편파 기상레이더 데이터 및 MADIS의 우량계 데이터를 활용한 시간 당 강우량 확률분포 예측
- 이중편파 기상레이더 소개, 데이터 탐색 및 분석 과정, 강우량 확률분포 예측 모델 소개
건국대학교 응용통계학과 박민식
단국대학교 정보통계학과 박인성
서울과학기술대학교 산업공학과 신현리
중앙대학교 응용통계학과 최준
** 국내 최초 대학생 빅데이터 연합동아리 BOAZ **
Blog : http://BOAZbigdata.com
Facebook : http://fb.com/BOAZbigdata
위 자료는 BOAZ 2015 프로젝트 주제의 하나로, Advanced 정규세션 동안 Base 정규세션에서 배웠던 다양한 이론들과 기본 지식들, 그리고 툴 활용능력들을 직접 실행하며 진행한 결과물입니다.
*** 텔레마틱스 데이터를 이용한 자동차 운전자 프로필 생성 ***
Kaggle에서 제공하는 2차원 좌표의 텔레마틱스 데이터를 활용하여 지도매칭과 모델링접근 방법을 통한 운전자의 특징 파악 및 프로필 생성
- Telematics 소개
- 운전자 지문 활용방안
- 지도 매칭 방법 & 모델링 접근 방법
건국대학교 응용통계학과 김한솔
숙명여자대학교 경제학과 남윤이
성균관대학교 컴퓨터공학과 성미진
숙명여자대학교 통계학과 신현화
** 국내 최초 대학생 빅데이터 연합동아리 BOAZ **
Blog : http://BOAZbigdata.com
Facebook : http://fb.com/BOAZbigdata
위 자료는 BOAZ 2015 프로젝트 주제의 하나로, Advanced 정규세션 동안 Base 정규세션에서 배웠던 다양한 이론들과 기본 지식들, 그리고 툴 활용능력들을 직접 실행하며 진행한 결과물입니다.
*** 프리미어리그 축구팀 승자 예측 ***
프리미어리그 2014/2015 시즌 데이터를 기초한 본 프로젝트는 데이터베이스 테이블을 구축하고 예측 모형을 모델링하고 남은 경기로 예측을 실시. 이 예측 모델을 기반으로 경기 예측 어플리케이션을 구현했습니다.
송준호 국민대학교 경영정보학과 10
허성오 인천대학교 컴퓨터공학과 09
김그리나 이화여자대학교 영상디자인과 13
** 국내 최초 대학생 빅데이터 연합동아리 BOAZ **
Blog : http://BOAZbigdata.com
Facebook : http://fb.com/BOAZbigdata
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [COLLABO-AZ] : 고객 세그멘테이션 기반 개인 맞춤형 추천시스템 for 루빗BOAZ Bigdata
데이터 분석 프로젝트를 진행한 COLLABO-AZ 팀에서는 아래와 같은 프로젝트를 진행했습니다.
고객 세그멘테이션 기반 개인 맞춤형 추천시스템 for 루빗
20기 정지혜 이화여자대학교 통계학과
20기 김지민 중앙대학교 응용통계학과
20기 오태연 단국대학교 정보통계학과
20기 최은선 한양대학교 에리카캠퍼스 정보사회미디어학과
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [백발백준] : 백준봇 : 컨테이너 오케스트레이션 기반 백준 문제 추천 봇BOAZ Bigdata
데이터 엔지니어링 프로젝트를 진행한 백발백준 팀에서는 아래와 같은 프로젝트를 진행했습니다.
백준봇 : 컨테이너 오케스트레이션 기반 백준 문제 추천 봇
20기 유하준 한국외국어대학교 산업공학과
20기 안지완 중앙대학교 소프트웨어학과
20기 정태형 경기대학교 응용통계학과
20기 최윤서 숙명여자대학교 일반대학원 통계학과
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [무드등] : 무신사를 활용한 고객 상황에 따른 의류 추천 스타일링 대시보드BOAZ Bigdata
데이터 시각화 프로젝트를 진행한 무드등 팀에서는 아래와 같은 프로젝트를 진행했습니다.
무신사를 활용한 고객 상황에 따른 의류 추천 스타일링 대시보드
20기 이호림 숙명여자대학교 경영학부
20기 노승혜 숙명여자대학교 소비자경제학과
20기 정다인 성신여자대학교 통계학과
20기 홍나연 숭실대학교 정보통계보험수리학과
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [섬유유연제] : 어글리us! 스마일 Earth! : NLP 기반 프로젝트와 비즈니스 대시보드BOAZ Bigdata
데이터 시각화 프로젝트를 진행한 섬유유연제 팀에서는 아래와 같은 프로젝트를 진행했습니다.
어글리us! 스마일 Earth! : NLP 기반 프로젝트와 비즈니스 대시보드
20기 정강민 세종대학교 경영학과
20기 김기수 광운대학교 데이터사이언스전공
20기 김세연 이화여자대학교 기후에너지시스템공학전공
20기 윤여빈 성신여자대학교 수리통계데이터사이언스학부
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [SPOAZ] : Spotify 기반 개인화 음악 추천 서비스 프로젝트BOAZ Bigdata
데이터 엔지니어링 프로젝트를 진행한 SPOAZ 팀에서는 아래와 같은 프로젝트를 진행했습니다.
Spotify 기반 개인화 음악 추천 서비스 프로젝트
20기 이해현 서울여자대학교 소프트웨어융합학과
20기 안소유 서울여자대학교 소프트웨어융합학과
20기 임혁 중앙대학교 응용통계학과
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [다함께 레벨업!] : 학식 예약 서비스 yammi CRM 대시보드BOAZ Bigdata
데이터 시각화 프로젝트를 진행한 다함께 레벨업! 팀에서는 아래와 같은 프로젝트를 진행했습니다.
학식 예약 서비스 yammi CRM 대시보드
20기 조성배 중앙대학교 공공인재학부
20기 김윤지 숙명여자대학교 경영학부
20기 김지연 연세대학교 심리학과
20기 한은빈 세종대학교 경영학부
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [HAUL의 움직이는 리포트] : 투자성향 기반 주식 추천 및 기업 정보 제공 대시보드BOAZ Bigdata
데이터 시각화 프로젝트를 진행한 HAUL의 움직이는 리포트 팀에서는 아래와 같은 프로젝트를 진행했습니다.
투자성향 기반 주식 추천 및 기업 정보 제공 대시보드
20기 이준희 건국대학교 응용통계학과
20기 김지후 고려대학교 통계학과
19기 김청환 건국대학교 응용통계학과
19기 백지영 한양대학교 경영대학원 비즈니스인포매틱스학과
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [BEARS] : 이미지 캡셔닝을 통한 이모지 추천 및 해시태그 생성BOAZ Bigdata
데이터 분석 프로젝트를 진행한 BEARS 팀에서는 아래와 같은 프로젝트를 진행했습니다.
이미지 캡셔닝을 통한 이모지 추천 및 해시태그 생성
20기 최영우 인하대학교 중국학과
20기 김주은 성신여자대학교 정보시스템공학과
20기 이시내 한국외국어대학교 바이오메디컬공학과
18기 전혜주 숙명여자대학교 독일언어문화학과
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [낭만젊음사람] : UDA를 통한 중환자실 급성 호흡곤란 증후군 조기 예측BOAZ Bigdata
데이터 분석 프로젝트를 진행한 낭만젊음사람 팀에서는 아래와 같은 프로젝트를 진행했습니다.
UDA를 통한 중환자실 급성 호흡곤란 증후군 조기 예측
20기 서동혁 국민대학교 AI빅데이터융합경영학과
20기 권정을 명지대학교 산업경영공학과
20기 정재원 숙명여자대학교 통계학과
20기 황재성 세종대학교 데이터사이언스학과
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [레시피를 보아즈] : 영수증 인식 및 대화를 통한 재료 기반 레시피 추천 챗봇BOAZ Bigdata
데이터 분석 프로젝트를 진행한 레시피를 보아즈 팀에서는 아래와 같은 프로젝트를 진행했습니다.
영수증 인식 및 대화를 통한 재료 기반 레시피 추천 챗봇
20기 박진영 숙명여자대학교 경영학부
20기 서민진 경희대학교 통계학과
20기 안소유 서울여자대학교 소프트웨어융합학과
20기 윤선영 서울과학기술대학교 데이터사이언스학과
20기 이민선 한국공학대학교 산업경영학과
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [전진 4드론] : RAD(Reinforcement learning method for ...BOAZ Bigdata
데이터 분석 프로젝트를 진행한 전진4드론 팀에서는 아래와 같은 프로젝트를 진행했습니다.
RAD(Reinforcement learning method for Autonomous Drone)
20기 정재준 한양대학교 에리카캠퍼스 프랑스학과
20기 이영현 한양대학교 대학원 인공지능학과
20기 이찬 경희대학교 컴퓨터공학과
20기 정원준 건국대학교 컴퓨터공학부
제 19회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [REC] : 캠핏 데이터를 활용한 캠핑장 추천 시스템 구현BOAZ Bigdata
데이터 분석 프로젝트를 진행한 REC 팀에서는 아래와 같은 프로젝트를 진행했습니다.
캠핏 데이터를 활용한 캠핑장 추천 시스템 구현
20기 김민혜 한양대학교 경영대학원 비즈니스 인포메틱스
20기 송여진 이화여자대학교 휴먼기계바이오공학부
20기 이은효 이화여자대학교 대학원 통계학과
20기 임세은 숙명여자대학교 사회심리학과
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [4부터7] : 공방 301 데이터를 활용한 마케팅 방안 제시BOAZ Bigdata
데이터 시각화 프로젝트를 진행한 4부터7 팀에서는 아래와 같은 프로젝트를 진행했습니다.
공방 301 데이터를 활용한 마케팅 방안 제시
19기 김동하 고려대학교 미디어학부
19기 고현서 동덕여자대학교 경영학과
19기 노근혜 이화여자대학교 통계학과
19기 박상윤 가천대학교 경영학부(글로벌경영학)
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [유쾌한 반란] : Howmuch : 꽃집 관리 서비스BOAZ Bigdata
데이터 엔지니어링 프로젝트를 진행한 유쾌한 반란 팀에서는 아래와 같은 프로젝트를 진행했습니다.
일 단위 화훼 경매 데이터를 화훼소매업자들에게 제공하여 적정가에 사입할 수 있도록 돕는 서비스 기획
19기 송우석 연세대학교 컴퓨터과학과
19기 박선홍 한국외국어대학교 국제통상학과
19기 이 은 홍익대학교 산업공학과
19기 정성윤 국민대학교 경영정보학부
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [보아酒] : 리뷰 감정분석을 통한 전통주 추천 서비스BOAZ Bigdata
데이터 분석 프로젝트를 진행한 보아酒 팀에서는 아래와 같은 프로젝트를 진행했습니다.
리뷰 감정분석을 통한 전통주 추천 서비스
19기 정은진 한양대학교 ERICA 정보사회미디어학과
19기 강하연 명지대학교 경영정보학과
19기 고건호 고려대학교 통계학과
19기 김진재 중앙대학교 응용통계학과
19기 박상윤 가천대학교 경영학부(글로벌경영학)
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [이탈리안 BMT] : 지하철 지연 시간 데이터 분석 및 시각화를 위한 데이터 파이프라인 구축BOAZ Bigdata
데이터 엔지니어링 프로젝트를 진행한 이탈리안 BMT 팀에서는 아래와 같은 프로젝트를 진행했습니다.
지하철 지연 시간 데이터 분석 및 시각화를 위한 데이터 파이프라인 구축
19기 김보겸 중앙대학교 사회학과
19기 김가경 동덕여자대학교 정보통계학과
19기 김동진 경희대학교 컴퓨터공학과
19기 박재은 숙명여자대학교 컴퓨터과학전공
19기 이재준 명지대학교 융합소프트웨어 데이터테크놀로지전공
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [분모자] : 분류 모자이크BOAZ Bigdata
데이터 분석 프로젝트를 진행한 분모자 팀에서는 아래와 같은 프로젝트를 진행했습니다.
로고 자동 감지 및 모자이크 서비스 제안
19기 오효근 건국대학교 일반대학원 기계설계학과
19기 김보겸 중앙대학교 사회학과
19기 송예진 서울여자대학교 소프트웨어융합학과
19기 우아라 서울여자대학교 소프트웨어융합학과
19기 임서현 성균관대학교 글로벌리더학부
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [link-us(링커즈)] : 링키드를 위한 비즈니스 대시보드 제작BOAZ Bigdata
데이터 시각화 프로젝트를 진행한 link-us(링커즈) 팀에서는 아래와 같은 프로젝트를 진행했습니다.
링키드(linkid)를 위한 비즈니스 대시보드 제작
19기 정소영 숙명여자대학교 통계학과
19기 유나현 중앙대학교 응용통계학과
19기 이세연 성신여자대학교 빅데이터사이언스전공
19기 정다운 숙명여자대학교 통계학과
12. 데이터 수집 및 저장: 크롤링
트윗 당 16개의 속성을 CSV파일로 저장
ScreenName Screen name of the user who posted this status
Id Id of this status
replyToSN Screen name of the user this is in reply to
replyToUID ID of the user this was in reply to
Truncated Whether this status was truncated
Favorited Whether this status has been facorited
Retweeted TRUE if this status has been retweeted
retweetCount The number of times this status has been retweeted
15. 전처리: 형태소 한정
감성분석에 필요한
형태소 한정
NNG 일반명사
NNP 고유명사
VA 형용사
VCN 부정지정사
VCP 긍정지정사
UN 명사추정범주
한글만 남김!
16. 전처리: 고유명사 처리
고유명사는 영어로 자동적으로 변환시켜 입력되도록
고유명사를 영어로 변환시켜야 하는 이유
표창원 -> 표/NNG + 창원/NNP
안철수 -> 안/VCN + 철수/NNP
17. 전처리: 형용사와 결합된 부정어
‘안’ 용언 위에 붙어 부정 또는 반대의 뜻을 나타내는 부사 '아니'의 준말이고,
‘않-’ 동사나 형용사 아래에 붙어 부정의 뜻을 더하는 보조용언 '아니하-'의 준말
철수는 밥을 안 먹는다. → ‘먹는다’를 부정어 처리
철수는 밥을 먹지 않았다. → ‘먹지’를 부정어 처리
‘안’ + ‘기쁘다’ → ‘안기쁘다’ 로 변환
부정어가 나타난 부분의 bigram만 변환!
18. 전처리
정치 : 2,782,151
스포츠 : 613,444
남자 연예인 : 560,725
여자 연예인 : 547,265
경제 : 38,544
데이터 수집기간 2016/03/01 – 2016/04/30
수집한 데이터 수
19. .
이세돌 승리 직후
프로듀스 101
최종 11인 선정
전처리
김무성 대표 옥새 투쟁
프로듀스 101 종영
문재인 대표 광주방문
4.13 총선
문재인 공개활동 재개
정치인
여자연예인
스포츠
기업
남자연예인
23. 사전제작: CBOW architecture
앞 뒤의 단어들을 통해 ‘이가’ 라는 말이 들어갈 것을 추측하는 방식
주어진 단어에 대해 앞 뒤로 C/2개 씩 총 C개의 단어를 Input으로 사용,
주어진 단어를 맞추기 위한 네트워크를 만든다.
“집 앞 편의점에서 아이스크림을 사 먹었는데, __ 시려서 너무 먹기가 힘들었다.”
24. 사전제작: Skip-gram architecture
CBOW와는 반대 방향의 모델
현재 주어진 단어 하나 → 주위 등장하는 나머지 몇 개의 단어 등장 여부를 유추
예측하는 단어들의 경우 현재 단어 주위에서 샘플링
멀리 떨어져있는 단어일수록 낮은 확률로 택하는 방법
26. 단어최소 출현횟수 : 20
Hidden node 수 : 200
현재단어와 예측단어 사이의 최대 거리 : 10
Model = gensim.models.Word2Vec
(sentences, min_count=20, size=200, window=10)
사전제작: Word2Vec 모델 제작 및 성능 확인