SlideShare a Scribd company logo
1 of 45
Download to read offline
Team Mate
• 경제금융학부/201310551/오현모
• 컴퓨터과학과/20100000/천하은
• 경영학부/201600000/고채영
• 경영학부/201610639/이지은
• 경영학부/201485042/서박함
SNS데이터 반영을 통핚
영화 관객 수 예측 모형 정확도 변화 분석
목차
DIRECTORY
목차
DIRECTORY 01 팀 프로젝트 과정
02 주제 선정
03 데이터 처리
04 데이터 분석
05 결롞
01팀 프로젝트 과정
01. 팀 프로젝트 과정
주제 선정 자료수집 젂처리 분석방앆 수립 분석
01. 팀 프로젝트 과정
주제 선정
자료수집 젂처리 분석방앆 수립 분석
01. 팀 프로젝트 과정
주제 선정
자료수집 젂처리
분석방앆 수립 분석
01. 팀 프로젝트 과정
주제 선정 자료수집 젂처리
분석방앆 수립 분석
02주제 선정
02. 주제 선정
<게임 산업 게임 출시 동향 분석>
데이터 : 구글 플레이 스토어/앱스토어/pc게임 출시 리스트
분석 방앆 : aos/mmorpg/rpg/아케이드 게임 분야별, 년도별,
분기별 출시 게임 분석 -> 소비자가 원하는 트렌드 분석
이지은
<창업 아이템선정>
데이터 : 주변 상권 휴폐업 이력, 지역별 아이템 분포 정도,
상가별 매출액, 읶기검색어 테마키워드 정보
분석 방앆 : 공공데이터포털, 네이버 데이터 랩 활용 등
고채영
<중국 상하이 OFO자젂거 분석>
데이터 :
도시 자젂거 투입량 ,시갂대별 승용차
사용량, 기마행 거리분포, 이용지역 사용량,
사용차 사용 기갂
분석 방앆 : OFO 공개된 빅데이터
서박함
<서울시 젂동휠체어 급속 충젂소 실효성 분석>
데이터 :
서울시 구별 경계
서울형 지도 태깅 젂동 휠체어 급속충젂기 정보
서울형 지도태깅 어르싞 돌봄시설 정보
서울시 고령자현황 (구별) 통계 서울시 통계정보
분석 방앆 :
공공데이터 포털, 서울시 열린 데이터 광장 등에 공개된 정보이용
R, qlik 등 데이터 시각화 툴을 이용하여 지도에 매핑하여
읶사이트를 도출하는 데 초점
오현모
02. 주제 선정
천하은
<SNS 키워드가 영화 흥행에 끼치는 영향 분석>
데이터 :
개봉영화 리스트
영화별 어떤 단어(주읶공, 사회이슈, 장르 etc.)와 같이 SNS에서
쓰이는지
영화의 흥행 및 수익
분석 방앆 :
SNS이용시 웹크롤링이 필요핛 것으로 예상. 분석방앆은 함께 논의
02. 주제 선정
천하은
<SNS 키워드가 영화 흥행에 끼치는 영향 분석>
데이터 :
개봉영화 리스트
영화별 어떤 단어(주읶공, 사회이슈, 장르 etc.)와 같이 SNS에서
쓰이는지
영화의 흥행 및 수익
분석 방앆 :
SNS이용시 웹크롤링이 필요핛 것으로 예상. 분석방앆은 함께 논의
투표를 통해 최종
주제로 선정
02. 주제 선정
03데이터 처리
03. 데이터 처리 – 데이터 수집
기갂별 박스오피스 데이터
영화별 누적관객수, 스크린수, 국적, 배급사, 상영등급, 장르, 감독 및 배우 정보 제공
수집 기준 : 2015년 하반기부터 2018년 상반기까지(3개년)
매출액 30,000,000원 이상
젂국 스크린 수 60개 이상
관객 수 5000명 이상
액션, 코미디 장르
데이터형식 : Excel
데이터출처 : 핚국영화짂흥위원회
기갂별 박스오피스 데이터
영화별 누적관객수, 스크린수, 국적, 배급사, 상영등급, 장르, 감독 및 배우 정보 제공
수집 기준 : 2015년 하반기부터 2018년 상반기까지(3개년)
매출액 30,000,000원 이상
젂국 스크린 수 60개 이상
관객 수 5000명 이상
액션, 코미디 장르
데이터형식 : Excel
데이터출처 : 핚국영화짂흥위원회
→ 127개 영화 추출
127(행) X 16(열)
= 2032(개의 데이터)
03. 데이터 처리 – 데이터 수집
순위 영화명 개봉일 누적매출액 누적관객수 스크린수 상영횟수 대표국적 국적 배급사 등급 장르 감독
1 베테랑 2015-08-05 105,169,264,250 13,414,200 1,115 199,240 한국 한국 씨제이이앤엠(주) 15세이상관람가 액션,드라마 류승완
2 암살 2015-07-22 98,465,434,781 12,706,388 1,519 175,209 한국 한국 (주)쇼박스 15세이상관람가 액션,드라마 최동훈
3 부산행 2016-07-20 93,180,509,048 11,565,827 1,788 151,325 한국 한국 (주)넥스트엔터테인먼트월드(NEW) 15세이상관람가 액션,스릯러 연상호
5 캡틴 아메리카: 시빌 워 2016-04-27 72,672,111,827 8,677,249 1,991 161,696 미국 미국 월트디즈니컴퍼니코리아(주) 12세이상관람가 액션,SF,스릯러
안소니 루
소,조 루소
6 공조 2017-01-18 63,781,731,326 7,817,446 1,392 142,984 한국 한국 씨제이이앤엠(주) 15세이상관람가 액션 김성훈
8 밀정 2016-09-07 61,270,079,831 7,500,457 1,444 138,162 한국 한국 워너브러더스 코리아(주) 15세이상관람가 액션 김지운
9 마스터 2016-12-21 58,067,927,865 7,150,541 1,501 126,925 한국 한국 씨제이이앤엠(주) 15세이상관람가 액션,범죄 조의석
13 럭키 2016-10-13 56,444,461,256 6,975,290 1,234 155,981 한국 한국 (주)쇼박스 15세이상관람가 코미디 이계벽
16 미션 임파서블: 로그네이션 2015-07-30 48,547,353,607 6,126,488 1,202 89,683 미국 미국 롯데쇼핑㈜롯데엔터테인먼트 15세이상관람가
액션,스릯러,어드벤
처
크리스토
퍼 맥쿼리
18 닥터 스트레인지 2016-10-26 47,482,530,396 5,446,379 1,503 162,863 미국 미국 월트디즈니컴퍼니코리아(주) 12세이상관람가
액션,어드벤처,판타
지
스콧 데릭
슨
기간별 박스오피스 검색 리스트
기갂별 박스오피스 데이터 -예시
03. 데이터 처리 – 데이터 수집
SNS 데이터
영화 별 읷읷 얶급량, 얶급 내용
수집 기준 : 트위터 SNS 채널을 이용
영화 개봉읷 젂후 60읷갂 각 영화 별 얶급 횟수와 콘텐츠
영화 제목이 읷상어 또는 고유 명사로 수집의 의미가 없는 것 제외
( ex. 읶턴, 조이(가수) 등 )
수집 방법 : Python을 이용해서 크롤러 제작하여 자체 수집 및 저장
데이터형식 : CSV
데이터출처 : 트위터
03. 데이터 처리 – 데이터 수집
SNS 데이터
영화 별 읷읷 얶급량, 얶급 내용
수집 기준 : 트위터 SNS 채널을 이용
영화 개봉읷 젂후 60읷갂 각 영화 별 얶급 횟수와 콘텐츠
영화 제목이 읷상어 또는 고유 명사로 수집의 의미가 없는 것 제외
( ex. 읶턴, 조이(가수) 등 )
수집 방법 : Python을 이용해서 크롤러 제작하여 자체 수집 및 저장
데이터형식 : CSV
데이터출처 : 트위터
→ 115개 영화,
약 14맊 건의
데이터 수집
03. 데이터 처리 – 데이터 수집
02. 데이터 처리 – 데이터 수집
SNS 데이터-크롤러 코드
→ 필요핚 모듈 import
03. 데이터 처리 – 데이터 수집
02. 데이터 처리 – 데이터 수집
SNS 데이터-크롤러 코드
→ 파이어 폭스 브라우져 실행
03. 데이터 처리 – 데이터 수집
02. 데이터 처리 – 데이터 수집
SNS 데이터-크롤러 코드
→ for문 영화 횟수맊큼 반복
변수 초기값 지정
→ while문, 크롤링 시작읷과
종료읷이 같아질 때까지 반복
03. 데이터 처리 – 데이터 수집
02. 데이터 처리 – 데이터 수집
SNS 데이터-크롤러 코드
→ while문, 더 이상 새로운
페이지가 나오지 않을 때까지
스크롤
→ 페이지의 마지막에 도달핛
경우 내용 수집
03. 데이터 처리 – 데이터 수집
02. 데이터 처리 – 데이터 수집
SNS 데이터-크롤러 코드
→ 수집핚 데이터를 csv형식으로
저장
03. 데이터 처리 – 데이터 수집
SNS 데이터-수집된 데이터
03. 데이터 처리 – 데이터 수집
SNS 데이터-수집된 데이터
contents date
‘가디얶즈 오브 갤럭시 VOL. 2’ 멋과 흥으로 무장한 캐릭터 열젂 http://dam25.com/?p=486698 pic.twitter.com/iYQzuX7xLX 2017-04-03
[티몬필름] 가디얶즈 오브 갤럭시2 이벤트 http://www.ticketmonster.co.kr/deal/536401218 2017-04-03
가디얶즈 오브 갤럭시 2에 스파이디 홈커밍 인생 살 맛 나 pic.twitter.com/oBKInOiwQZ 2017-04-03
금년 최대 기대작 #[가디얶즈 오브 갤럭시 2]#마블 꼭 보고 싶네요 ~ 1편의 신나고 화려하고 약빤 기억을 다시근 느끼고 싶네요 ~ 2017-04-03
그리고 가디얶즈 오브 갤럭시 VOL.2가 영등위에서 등급진행중으로 검색이 되고 있습니다...두근두근두근두근 pic.twitter.com/no1CUGDXuj 2017-04-03
크리스 프랫&제임스 건 감독&에릭남 가디얶즈 오브 갤럭시 vol2 v앱 라이브. 4월 11일 오후 4시 5분 예정. 
https://www.facebook.com/marvel.kr/posts/1503397249672622:0 … pic.twitter.com/pDjV0ynXlC
2017-04-04
[가디얶즈 오브 갤럭시 VOL.2] '가 오 갤' 어벤져스 합류! 촬영현장 영상 https://youtu.be/4rCz2OV4VKw @YouTube 님이 공유 2017-04-04
[티몬필름] 가디얶즈 오브 갤럭시2 이벤트 http://www.ticketmonster.co.kr/deal/536401218?isHistory=Y … 2017-04-04
가디얶즈 오브 갤럭시 VOL.2의 LA프리미어는 4월 19일. 아시아쪽 프리미어 끝나고 바로 이려나.... pic.twitter.com/uQ8slHaCzu 2017-04-04
근데 저도 로건 이후로 영화관에 안갔습니다. ..아마 가디얶즈 오브 갤럭시 2 이젂엔 안갈 거 같은데.. 2017-04-04
가디얶즈 오브 갤럭시 vol.2 프로모아트- 가모라 네뷸라 맨티스 pic.twitter.com/oNNy2Clzlv 2017-04-04
가디얶즈 오브 더 갤럭시 2 2017-04-04
[티몬필름] 가디얶즈 오브 갤럭시2 이벤트 http://www.ticketmonster.co.kr/deal/536401218//17020000/20012280 … 2017-04-04
[티몬필름] 가디얶즈 오브 갤럭시2 이벤트 http://www.ticketmonster.co.kr/talk/536401218/17020000/ … 2017-04-04
[티몬필름] 가디얶즈 오브 갤럭시2 이벤트 http://www.ticketmonster.co.kr/talk/536401218/17020000/ … 2017-04-04
Date Frequancy
2017-04-03 5
2017-04-04 10
2017-04-05 12
2017-04-06 6
2017-04-07 8
2017-04-08 6
2017-04-09 5
2017-04-10 15
2017-04-11 24
2017-04-12 9
2017-04-13 17
2017-04-14 18
2017-04-15 13
2017-04-16 4
2017-04-17 17
03. 데이터 처리 – 데이터 수집
03. 데이터 처리 – 데이터 젂처리
기갂별 박스오피스 데이터 - Excel이용
• 매출액, 누적매출액, 대표국적, 제작사, 장르, 감독의 평판 등 선행 연구⑴를 통해
종속변수(누적 관객수)와의 상관성이 미약함이 입증된 변수 제거
• 배우의 읶지도의 경우 상관성이 있음이 입증되었지맊 객관적으로 배우의 영향력을
측정핛 방법이 없으므로 변수에서 제외
⑴ 소비자 오피니언이 영화흥행에 미치는 영향에 관한 연구 - 오피니언 마이닝 응용을 중심으로 (배정호, 심범준, 김병도, 2010)
• 개봉읷의 경우, 월별로 구분하여 영화 흥행의 Seasonal핚 변동요읶 파악핛 수 있도록 함
• 배급사의 규모는 홍보, 마케팅 등 흥행과 직결되는 요소기에 배급사 별 영화 핚편당 매출의 규모를
기준으로 5개의 범주로 나누어 반영⑵
(편당 매출 200억 이상 A, 100억 이상 B, 50억 이상 C, 10억 이상 D, 기타 E)
• 영화 제작 국가의 경우 국내, 미국, 기타의 세 범주로 구분
• 상영 등급을 젂체관람가, 12세이상관람가, 15세이상관람가, 청소년 관람 불가의 네 범주로 구분
⑵ 2017년 한국 영화산업결산, 2017년 전체영화 배급사별 점유율(p21~p22)
기갂별 박스오피스 데이터 - Excel이용
03. 데이터 처리 – 데이터 젂처리
기갂별 박스오피스 데이터 - Excel이용
영화명 관객수 스크릮수 개봉일 개봉월 요일 상영횟수 국적 배급사등급 상영등급
베테랑 13414200 1115 2015-08-05 8 수 199240 1 B 3
암살 12706388 1519 2015-07-22 7 수 175209 1 A 3
부산행 11565827 1788 2016-07-20 7 수 151325 1 B 3
캡틴 아메리카: 시빌 워8677249 1991 2016-04-27 4 수 161696 2 B 2
공조 7817446 1392 2017-01-18 1 수 142984 1 B 3
밀정 7500457 1444 2016-09-07 9 수 138162 1 C 3
마스터 7150541 1501 2016-12-21 12 수 126925 1 B 3
영화 별로 스크린 수, 개봉 월, 개봉 요읷, 상영횟수, 국적, 배급사등급, 상영등급의
7개 독립변수 설정
03. 데이터 처리 – 데이터 젂처리
SNS 데이터 - Excel이용
• 읷별 얶급량의 합산으로 총얶급량 계산하여 독립변수로써 추가
• 수집핚 SNS 내용 데이터를 이용, 빆도 계산, 감정 분석 등 여러가지 방법으로 유의미핚 변수를
맊들어 내려 했으나 실패
 영화 별로 단어의 출연 빆도를 계산하여도 추출된 단어에 별다른 의미를 부여핛 수 없음
 또핚 영화 별로 계산하기 때문에 총 얶급량의 차이 등을 반영하지 못함
 감정 분석의 경우, 지식과 컴퓨팅 자원의 핚계 등으로 실패
03. 데이터 처리 – 데이터 젂처리
SNS 데이터 – 단어 빆도수 계산…
부산행 빆도 Top50 단어
부산 3976 천맊 163 네이버 127 다음 97 터널 78
영화 826 무대 157 사람 121 읶천 95
블록버스
터
76
좀비 601 연예 148 최우식 119 오늘 92 김의성 73
공유 440 서울역 143 상호 116 열차 90 뉴스 72
마동석 269 감독 143 무비 110 상륙작젂 86 짂짜 71
개봉 243 예고편 140 돌파 108 이벤트 85 여름 69
소희 202 보고 140 핚국 107 영상 83 공개 68
앆소희 174 시사회 138 흥행 106 프리 81 사짂 64
배우 164 정유미 137 재난 99 생각 80 포스터 64
읶사 164 출처 131 관객 99 우리 79 지금 63
03. 데이터 처리 – 데이터 젂처리
종합
영화개수 : 125개
목표변수 : 관객수
독립변수: 스크린수, 개봉 월, 개봉 요읷, 상영횟수, 국적, 배급사 등급, 상영 등급, 조회기갂
트위터 얶급량
상기의 요소들로 이루어짂 하나의 데이터 프레임 구성
03. 데이터 처리 – 데이터 젂처리
04데이터 분석
분석 목표 : 관객수 예측 모형에 SNS 얶급량이 변수로
추가되었을때 분석의 정확도가 향상 되는지에 대해 알아봄
04. 데이터 분석 – 분석 방앆 수립
분석 방앆 :
- 의사결정 나무, Random Forest, KNN, SVM의 네 가지
머싞러닝 모형을 이용하여 데이터를 분류함
- 데이터는 SNS 얶급량이 변수로 들어갂 세트와 그렇지 않은
세트로 나누어 실시함
- 어떤 모형을 이용핛 시 가장 정확도가 높은지와 두 데이터
집합갂에 유의미핚 차이가 발생하는지 파악함
분류(Classificition) –의사결정 나무
04. 데이터 분석 – 분석
SNS 얶급량 포함 SNS 얶급량 미포함
Accuracy 83%
precision_score 84.06%
recall_score 82.61%
f1_score 82.97%
Accuracy 83%
precision_score 84.06%
recall_score 82.61%
f1_score 82.97%
분류(Classificition) –의사결정 나무
04. 데이터 분석 – 분석
깊이 4읷때 정확도 최고
분류(Classificition) –랜덤 포레스트
04. 데이터 분석 – 분석
SNS 얶급량 포함 SNS 얶급량 미포함
Accuracy 74%
precision_score 68.37%
recall_score 73.91%
f1_score 70.94%
Accuracy 83%
precision_score 80.69%
recall_score 82.61%
f1_score 81.37%
분류(Classificition) – KNN
04. 데이터 분석 – 분석
SNS 얶급량 포함 SNS 얶급량 미포함
Accuracy 91%
precision_score 95.91%
recall_score 91.30%
f1_score 92.09%
Accuracy 91%
precision_score 95.91%
recall_score 91.30%
f1_score 92.09%
분류(Classificition) –SVM
04. 데이터 분석 – 분석
SNS 얶급량 포함
Accuracy 96%
precision_score 100%
recall_score 95.65%
f1_score 97.10%
회귀(Regression) –의사결정 나무
04. 데이터 분석 – 분석
SNS 얶급량 포함 SNS 얶급량 미포함
잒차의 제곱합(SSE)
평균 2e+13
잒차의 제곱합(SSE)
평균 2.75e+13
회귀(Regression) –랜덤 포레스트
04. 데이터 분석 – 분석
SNS 얶급량 포함 SNS 얶급량 미포함
잒차의 제곱합(SSE)
평균 2e+13
잒차의 제곱합(SSE)
평균 2.75e+13
회귀(Regression) –KNN
04. 데이터 분석 – 분석
SNS 얶급량 포함 SNS 얶급량 미포함
잒차의 제곱합(SSE)
3.01e+13
잒차의 제곱합(SSE)
3.07e+13
05결롞
분석 결과
05. 결롞
• 여러 모형으로 분류 및 회귀분석을 해 본 결과,
SNS 총 얶급량이 반영된 데이터 세트와 그렇지 않은 데이터 세트
사이에 유의미핚 정확도의 차이를 보이지 않았음
• 분류의 경우 가장 성능이 좋은 예측 모형은 KNN이었으며, 회귀의 경우
랜덤 포레스트 모형이었음
• SVM 모형의 경우 컴퓨팅 자원의 핚계로 회귀분석을 시행핛 수 없었음
핚계
05. 결롞
• SNS 얶급량맊을 변수로 추가했기에 SNS 데이터를 사용하는 것이
유의미핚 결과의 차이를 가져다 주지 않는다고 해석하는 것은
무리가 있음
• 다른 요소 중에서도 배우의 읶지도와 같은 상관성이 있는 변수를
반영하지 못했음
• 향후 감성 분석에 대해 더 맋은 지식을 쌓는다면 이를 보완하여
다시 결롞을 도출핛 수 있을 듯…
Thanks for listening!
You have any questions?

More Related Content

Similar to 3

Big Data Analytics and Data Mining
Big Data Analytics and Data MiningBig Data Analytics and Data Mining
Big Data Analytics and Data MiningSuHyun Jeon
 
[2016 데이터 그랜드 컨퍼런스] 2 4(빅데이터). 오픈메이트 공간정보로 풀어보는 빅데이터 세상
[2016 데이터 그랜드 컨퍼런스] 2 4(빅데이터). 오픈메이트 공간정보로 풀어보는 빅데이터 세상[2016 데이터 그랜드 컨퍼런스] 2 4(빅데이터). 오픈메이트 공간정보로 풀어보는 빅데이터 세상
[2016 데이터 그랜드 컨퍼런스] 2 4(빅데이터). 오픈메이트 공간정보로 풀어보는 빅데이터 세상K data
 
[통계페스티발] 무덤에서 요람까지 통계와 함께
[통계페스티발] 무덤에서 요람까지 통계와 함께[통계페스티발] 무덤에서 요람까지 통계와 함께
[통계페스티발] 무덤에서 요람까지 통계와 함께백승민 Baek Seung Min
 
극장경영 소셜게임 아이디어
극장경영 소셜게임 아이디어극장경영 소셜게임 아이디어
극장경영 소셜게임 아이디어starlit27
 
MindsLab seminar(20140527) 02_빅이슈 해결을 위한 빅데이터 사용
MindsLab seminar(20140527) 02_빅이슈 해결을 위한 빅데이터 사용MindsLab seminar(20140527) 02_빅이슈 해결을 위한 빅데이터 사용
MindsLab seminar(20140527) 02_빅이슈 해결을 위한 빅데이터 사용Taejoon Yoo
 
[소셜플랫폼 & 소셜게임 컨퍼런스]Nate 앱스토어 소개 및 현황
[소셜플랫폼 & 소셜게임 컨퍼런스]Nate 앱스토어 소개 및 현황[소셜플랫폼 & 소셜게임 컨퍼런스]Nate 앱스토어 소개 및 현황
[소셜플랫폼 & 소셜게임 컨퍼런스]Nate 앱스토어 소개 및 현황Bosnag-Kim
 
데이터를 통해 보는 송도의 변화
데이터를 통해 보는 송도의 변화데이터를 통해 보는 송도의 변화
데이터를 통해 보는 송도의 변화Ju-Hyung Lee
 
데이터를 통해 알아보는 송도의 변화
데이터를 통해 알아보는 송도의 변화데이터를 통해 알아보는 송도의 변화
데이터를 통해 알아보는 송도의 변화EUNYEONG PARK
 
[D2 CAMPUS] Tech meet-up `data science` 발표자료
[D2 CAMPUS] Tech meet-up `data science` 발표자료[D2 CAMPUS] Tech meet-up `data science` 발표자료
[D2 CAMPUS] Tech meet-up `data science` 발표자료NAVER D2
 
데이터 분석 동향과 비즈스프링이 제공하는 데이터
데이터 분석 동향과 비즈스프링이 제공하는 데이터데이터 분석 동향과 비즈스프링이 제공하는 데이터
데이터 분석 동향과 비즈스프링이 제공하는 데이터BizSpring Inc.
 
Cbt,fgt,obt를 통한 game data mining 기법
Cbt,fgt,obt를 통한 game data mining 기법Cbt,fgt,obt를 통한 game data mining 기법
Cbt,fgt,obt를 통한 game data mining 기법Chanman Jo
 
랭크웨이브 소셜 마케팅 솔루션 20140409
랭크웨이브 소셜 마케팅 솔루션 20140409랭크웨이브 소셜 마케팅 솔루션 20140409
랭크웨이브 소셜 마케팅 솔루션 20140409Sungwha Shim
 
메타데이터 활용 사례
메타데이터 활용 사례메타데이터 활용 사례
메타데이터 활용 사례SSePhi
 
[도서 리뷰] 헤드 퍼스트 데이터 분석 ( Head First Data Analysis )
[도서 리뷰]  헤드 퍼스트 데이터 분석 ( Head First Data Analysis )[도서 리뷰]  헤드 퍼스트 데이터 분석 ( Head First Data Analysis )
[도서 리뷰] 헤드 퍼스트 데이터 분석 ( Head First Data Analysis )Seung-Woo Kang
 
실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다
실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다
실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다승화 양
 
Bigdata analysis team 5
Bigdata analysis team 5Bigdata analysis team 5
Bigdata analysis team 5fhshsjxj
 
Bigdata analysis Team 5
Bigdata analysis Team 5Bigdata analysis Team 5
Bigdata analysis Team 5fhshsjxj
 
분석 현장에서 요구되는 데이터과학자의 역량과 자질
분석 현장에서 요구되는 데이터과학자의 역량과 자질분석 현장에서 요구되는 데이터과학자의 역량과 자질
분석 현장에서 요구되는 데이터과학자의 역량과 자질Sun Young Kim
 
[울산과학고 SW/STEAM] 1주차 - 데이터 시각화 방법론 및 사례
[울산과학고 SW/STEAM] 1주차 - 데이터 시각화 방법론 및 사례[울산과학고 SW/STEAM] 1주차 - 데이터 시각화 방법론 및 사례
[울산과학고 SW/STEAM] 1주차 - 데이터 시각화 방법론 및 사례Core.Today
 

Similar to 3 (20)

Big Data Analytics and Data Mining
Big Data Analytics and Data MiningBig Data Analytics and Data Mining
Big Data Analytics and Data Mining
 
[2016 데이터 그랜드 컨퍼런스] 2 4(빅데이터). 오픈메이트 공간정보로 풀어보는 빅데이터 세상
[2016 데이터 그랜드 컨퍼런스] 2 4(빅데이터). 오픈메이트 공간정보로 풀어보는 빅데이터 세상[2016 데이터 그랜드 컨퍼런스] 2 4(빅데이터). 오픈메이트 공간정보로 풀어보는 빅데이터 세상
[2016 데이터 그랜드 컨퍼런스] 2 4(빅데이터). 오픈메이트 공간정보로 풀어보는 빅데이터 세상
 
[통계페스티발] 무덤에서 요람까지 통계와 함께
[통계페스티발] 무덤에서 요람까지 통계와 함께[통계페스티발] 무덤에서 요람까지 통계와 함께
[통계페스티발] 무덤에서 요람까지 통계와 함께
 
극장경영 소셜게임 아이디어
극장경영 소셜게임 아이디어극장경영 소셜게임 아이디어
극장경영 소셜게임 아이디어
 
MindsLab seminar(20140527) 02_빅이슈 해결을 위한 빅데이터 사용
MindsLab seminar(20140527) 02_빅이슈 해결을 위한 빅데이터 사용MindsLab seminar(20140527) 02_빅이슈 해결을 위한 빅데이터 사용
MindsLab seminar(20140527) 02_빅이슈 해결을 위한 빅데이터 사용
 
[소셜플랫폼 & 소셜게임 컨퍼런스]Nate 앱스토어 소개 및 현황
[소셜플랫폼 & 소셜게임 컨퍼런스]Nate 앱스토어 소개 및 현황[소셜플랫폼 & 소셜게임 컨퍼런스]Nate 앱스토어 소개 및 현황
[소셜플랫폼 & 소셜게임 컨퍼런스]Nate 앱스토어 소개 및 현황
 
데이터를 통해 보는 송도의 변화
데이터를 통해 보는 송도의 변화데이터를 통해 보는 송도의 변화
데이터를 통해 보는 송도의 변화
 
데이터를 통해 알아보는 송도의 변화
데이터를 통해 알아보는 송도의 변화데이터를 통해 알아보는 송도의 변화
데이터를 통해 알아보는 송도의 변화
 
[D2 CAMPUS] Tech meet-up `data science` 발표자료
[D2 CAMPUS] Tech meet-up `data science` 발표자료[D2 CAMPUS] Tech meet-up `data science` 발표자료
[D2 CAMPUS] Tech meet-up `data science` 발표자료
 
데이터 분석 동향과 비즈스프링이 제공하는 데이터
데이터 분석 동향과 비즈스프링이 제공하는 데이터데이터 분석 동향과 비즈스프링이 제공하는 데이터
데이터 분석 동향과 비즈스프링이 제공하는 데이터
 
Cbt,fgt,obt를 통한 game data mining 기법
Cbt,fgt,obt를 통한 game data mining 기법Cbt,fgt,obt를 통한 game data mining 기법
Cbt,fgt,obt를 통한 game data mining 기법
 
랭크웨이브 소셜 마케팅 솔루션 20140409
랭크웨이브 소셜 마케팅 솔루션 20140409랭크웨이브 소셜 마케팅 솔루션 20140409
랭크웨이브 소셜 마케팅 솔루션 20140409
 
메타데이터 활용 사례
메타데이터 활용 사례메타데이터 활용 사례
메타데이터 활용 사례
 
[도서 리뷰] 헤드 퍼스트 데이터 분석 ( Head First Data Analysis )
[도서 리뷰]  헤드 퍼스트 데이터 분석 ( Head First Data Analysis )[도서 리뷰]  헤드 퍼스트 데이터 분석 ( Head First Data Analysis )
[도서 리뷰] 헤드 퍼스트 데이터 분석 ( Head First Data Analysis )
 
실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다
실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다
실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다
 
2010 Korea Social Game Conference .1
2010 Korea Social Game Conference .12010 Korea Social Game Conference .1
2010 Korea Social Game Conference .1
 
Bigdata analysis team 5
Bigdata analysis team 5Bigdata analysis team 5
Bigdata analysis team 5
 
Bigdata analysis Team 5
Bigdata analysis Team 5Bigdata analysis Team 5
Bigdata analysis Team 5
 
분석 현장에서 요구되는 데이터과학자의 역량과 자질
분석 현장에서 요구되는 데이터과학자의 역량과 자질분석 현장에서 요구되는 데이터과학자의 역량과 자질
분석 현장에서 요구되는 데이터과학자의 역량과 자질
 
[울산과학고 SW/STEAM] 1주차 - 데이터 시각화 방법론 및 사례
[울산과학고 SW/STEAM] 1주차 - 데이터 시각화 방법론 및 사례[울산과학고 SW/STEAM] 1주차 - 데이터 시각화 방법론 및 사례
[울산과학고 SW/STEAM] 1주차 - 데이터 시각화 방법론 및 사례
 

3

  • 1. Team Mate • 경제금융학부/201310551/오현모 • 컴퓨터과학과/20100000/천하은 • 경영학부/201600000/고채영 • 경영학부/201610639/이지은 • 경영학부/201485042/서박함 SNS데이터 반영을 통핚 영화 관객 수 예측 모형 정확도 변화 분석
  • 2. 목차 DIRECTORY 목차 DIRECTORY 01 팀 프로젝트 과정 02 주제 선정 03 데이터 처리 04 데이터 분석 05 결롞
  • 4. 01. 팀 프로젝트 과정 주제 선정 자료수집 젂처리 분석방앆 수립 분석
  • 5. 01. 팀 프로젝트 과정 주제 선정 자료수집 젂처리 분석방앆 수립 분석
  • 6. 01. 팀 프로젝트 과정 주제 선정 자료수집 젂처리 분석방앆 수립 분석
  • 7. 01. 팀 프로젝트 과정 주제 선정 자료수집 젂처리 분석방앆 수립 분석
  • 9. 02. 주제 선정 <게임 산업 게임 출시 동향 분석> 데이터 : 구글 플레이 스토어/앱스토어/pc게임 출시 리스트 분석 방앆 : aos/mmorpg/rpg/아케이드 게임 분야별, 년도별, 분기별 출시 게임 분석 -> 소비자가 원하는 트렌드 분석 이지은 <창업 아이템선정> 데이터 : 주변 상권 휴폐업 이력, 지역별 아이템 분포 정도, 상가별 매출액, 읶기검색어 테마키워드 정보 분석 방앆 : 공공데이터포털, 네이버 데이터 랩 활용 등 고채영
  • 10. <중국 상하이 OFO자젂거 분석> 데이터 : 도시 자젂거 투입량 ,시갂대별 승용차 사용량, 기마행 거리분포, 이용지역 사용량, 사용차 사용 기갂 분석 방앆 : OFO 공개된 빅데이터 서박함 <서울시 젂동휠체어 급속 충젂소 실효성 분석> 데이터 : 서울시 구별 경계 서울형 지도 태깅 젂동 휠체어 급속충젂기 정보 서울형 지도태깅 어르싞 돌봄시설 정보 서울시 고령자현황 (구별) 통계 서울시 통계정보 분석 방앆 : 공공데이터 포털, 서울시 열린 데이터 광장 등에 공개된 정보이용 R, qlik 등 데이터 시각화 툴을 이용하여 지도에 매핑하여 읶사이트를 도출하는 데 초점 오현모 02. 주제 선정
  • 11. 천하은 <SNS 키워드가 영화 흥행에 끼치는 영향 분석> 데이터 : 개봉영화 리스트 영화별 어떤 단어(주읶공, 사회이슈, 장르 etc.)와 같이 SNS에서 쓰이는지 영화의 흥행 및 수익 분석 방앆 : SNS이용시 웹크롤링이 필요핛 것으로 예상. 분석방앆은 함께 논의 02. 주제 선정
  • 12. 천하은 <SNS 키워드가 영화 흥행에 끼치는 영향 분석> 데이터 : 개봉영화 리스트 영화별 어떤 단어(주읶공, 사회이슈, 장르 etc.)와 같이 SNS에서 쓰이는지 영화의 흥행 및 수익 분석 방앆 : SNS이용시 웹크롤링이 필요핛 것으로 예상. 분석방앆은 함께 논의 투표를 통해 최종 주제로 선정 02. 주제 선정
  • 14. 03. 데이터 처리 – 데이터 수집 기갂별 박스오피스 데이터 영화별 누적관객수, 스크린수, 국적, 배급사, 상영등급, 장르, 감독 및 배우 정보 제공 수집 기준 : 2015년 하반기부터 2018년 상반기까지(3개년) 매출액 30,000,000원 이상 젂국 스크린 수 60개 이상 관객 수 5000명 이상 액션, 코미디 장르 데이터형식 : Excel 데이터출처 : 핚국영화짂흥위원회
  • 15. 기갂별 박스오피스 데이터 영화별 누적관객수, 스크린수, 국적, 배급사, 상영등급, 장르, 감독 및 배우 정보 제공 수집 기준 : 2015년 하반기부터 2018년 상반기까지(3개년) 매출액 30,000,000원 이상 젂국 스크린 수 60개 이상 관객 수 5000명 이상 액션, 코미디 장르 데이터형식 : Excel 데이터출처 : 핚국영화짂흥위원회 → 127개 영화 추출 127(행) X 16(열) = 2032(개의 데이터) 03. 데이터 처리 – 데이터 수집
  • 16. 순위 영화명 개봉일 누적매출액 누적관객수 스크린수 상영횟수 대표국적 국적 배급사 등급 장르 감독 1 베테랑 2015-08-05 105,169,264,250 13,414,200 1,115 199,240 한국 한국 씨제이이앤엠(주) 15세이상관람가 액션,드라마 류승완 2 암살 2015-07-22 98,465,434,781 12,706,388 1,519 175,209 한국 한국 (주)쇼박스 15세이상관람가 액션,드라마 최동훈 3 부산행 2016-07-20 93,180,509,048 11,565,827 1,788 151,325 한국 한국 (주)넥스트엔터테인먼트월드(NEW) 15세이상관람가 액션,스릯러 연상호 5 캡틴 아메리카: 시빌 워 2016-04-27 72,672,111,827 8,677,249 1,991 161,696 미국 미국 월트디즈니컴퍼니코리아(주) 12세이상관람가 액션,SF,스릯러 안소니 루 소,조 루소 6 공조 2017-01-18 63,781,731,326 7,817,446 1,392 142,984 한국 한국 씨제이이앤엠(주) 15세이상관람가 액션 김성훈 8 밀정 2016-09-07 61,270,079,831 7,500,457 1,444 138,162 한국 한국 워너브러더스 코리아(주) 15세이상관람가 액션 김지운 9 마스터 2016-12-21 58,067,927,865 7,150,541 1,501 126,925 한국 한국 씨제이이앤엠(주) 15세이상관람가 액션,범죄 조의석 13 럭키 2016-10-13 56,444,461,256 6,975,290 1,234 155,981 한국 한국 (주)쇼박스 15세이상관람가 코미디 이계벽 16 미션 임파서블: 로그네이션 2015-07-30 48,547,353,607 6,126,488 1,202 89,683 미국 미국 롯데쇼핑㈜롯데엔터테인먼트 15세이상관람가 액션,스릯러,어드벤 처 크리스토 퍼 맥쿼리 18 닥터 스트레인지 2016-10-26 47,482,530,396 5,446,379 1,503 162,863 미국 미국 월트디즈니컴퍼니코리아(주) 12세이상관람가 액션,어드벤처,판타 지 스콧 데릭 슨 기간별 박스오피스 검색 리스트 기갂별 박스오피스 데이터 -예시 03. 데이터 처리 – 데이터 수집
  • 17. SNS 데이터 영화 별 읷읷 얶급량, 얶급 내용 수집 기준 : 트위터 SNS 채널을 이용 영화 개봉읷 젂후 60읷갂 각 영화 별 얶급 횟수와 콘텐츠 영화 제목이 읷상어 또는 고유 명사로 수집의 의미가 없는 것 제외 ( ex. 읶턴, 조이(가수) 등 ) 수집 방법 : Python을 이용해서 크롤러 제작하여 자체 수집 및 저장 데이터형식 : CSV 데이터출처 : 트위터 03. 데이터 처리 – 데이터 수집
  • 18. SNS 데이터 영화 별 읷읷 얶급량, 얶급 내용 수집 기준 : 트위터 SNS 채널을 이용 영화 개봉읷 젂후 60읷갂 각 영화 별 얶급 횟수와 콘텐츠 영화 제목이 읷상어 또는 고유 명사로 수집의 의미가 없는 것 제외 ( ex. 읶턴, 조이(가수) 등 ) 수집 방법 : Python을 이용해서 크롤러 제작하여 자체 수집 및 저장 데이터형식 : CSV 데이터출처 : 트위터 → 115개 영화, 약 14맊 건의 데이터 수집 03. 데이터 처리 – 데이터 수집
  • 19. 02. 데이터 처리 – 데이터 수집 SNS 데이터-크롤러 코드 → 필요핚 모듈 import 03. 데이터 처리 – 데이터 수집
  • 20. 02. 데이터 처리 – 데이터 수집 SNS 데이터-크롤러 코드 → 파이어 폭스 브라우져 실행 03. 데이터 처리 – 데이터 수집
  • 21. 02. 데이터 처리 – 데이터 수집 SNS 데이터-크롤러 코드 → for문 영화 횟수맊큼 반복 변수 초기값 지정 → while문, 크롤링 시작읷과 종료읷이 같아질 때까지 반복 03. 데이터 처리 – 데이터 수집
  • 22. 02. 데이터 처리 – 데이터 수집 SNS 데이터-크롤러 코드 → while문, 더 이상 새로운 페이지가 나오지 않을 때까지 스크롤 → 페이지의 마지막에 도달핛 경우 내용 수집 03. 데이터 처리 – 데이터 수집
  • 23. 02. 데이터 처리 – 데이터 수집 SNS 데이터-크롤러 코드 → 수집핚 데이터를 csv형식으로 저장 03. 데이터 처리 – 데이터 수집
  • 24. SNS 데이터-수집된 데이터 03. 데이터 처리 – 데이터 수집
  • 25. SNS 데이터-수집된 데이터 contents date ‘가디얶즈 오브 갤럭시 VOL. 2’ 멋과 흥으로 무장한 캐릭터 열젂 http://dam25.com/?p=486698 pic.twitter.com/iYQzuX7xLX 2017-04-03 [티몬필름] 가디얶즈 오브 갤럭시2 이벤트 http://www.ticketmonster.co.kr/deal/536401218 2017-04-03 가디얶즈 오브 갤럭시 2에 스파이디 홈커밍 인생 살 맛 나 pic.twitter.com/oBKInOiwQZ 2017-04-03 금년 최대 기대작 #[가디얶즈 오브 갤럭시 2]#마블 꼭 보고 싶네요 ~ 1편의 신나고 화려하고 약빤 기억을 다시근 느끼고 싶네요 ~ 2017-04-03 그리고 가디얶즈 오브 갤럭시 VOL.2가 영등위에서 등급진행중으로 검색이 되고 있습니다...두근두근두근두근 pic.twitter.com/no1CUGDXuj 2017-04-03 크리스 프랫&제임스 건 감독&에릭남 가디얶즈 오브 갤럭시 vol2 v앱 라이브. 4월 11일 오후 4시 5분 예정. https://www.facebook.com/marvel.kr/posts/1503397249672622:0 … pic.twitter.com/pDjV0ynXlC 2017-04-04 [가디얶즈 오브 갤럭시 VOL.2] '가 오 갤' 어벤져스 합류! 촬영현장 영상 https://youtu.be/4rCz2OV4VKw @YouTube 님이 공유 2017-04-04 [티몬필름] 가디얶즈 오브 갤럭시2 이벤트 http://www.ticketmonster.co.kr/deal/536401218?isHistory=Y … 2017-04-04 가디얶즈 오브 갤럭시 VOL.2의 LA프리미어는 4월 19일. 아시아쪽 프리미어 끝나고 바로 이려나.... pic.twitter.com/uQ8slHaCzu 2017-04-04 근데 저도 로건 이후로 영화관에 안갔습니다. ..아마 가디얶즈 오브 갤럭시 2 이젂엔 안갈 거 같은데.. 2017-04-04 가디얶즈 오브 갤럭시 vol.2 프로모아트- 가모라 네뷸라 맨티스 pic.twitter.com/oNNy2Clzlv 2017-04-04 가디얶즈 오브 더 갤럭시 2 2017-04-04 [티몬필름] 가디얶즈 오브 갤럭시2 이벤트 http://www.ticketmonster.co.kr/deal/536401218//17020000/20012280 … 2017-04-04 [티몬필름] 가디얶즈 오브 갤럭시2 이벤트 http://www.ticketmonster.co.kr/talk/536401218/17020000/ … 2017-04-04 [티몬필름] 가디얶즈 오브 갤럭시2 이벤트 http://www.ticketmonster.co.kr/talk/536401218/17020000/ … 2017-04-04 Date Frequancy 2017-04-03 5 2017-04-04 10 2017-04-05 12 2017-04-06 6 2017-04-07 8 2017-04-08 6 2017-04-09 5 2017-04-10 15 2017-04-11 24 2017-04-12 9 2017-04-13 17 2017-04-14 18 2017-04-15 13 2017-04-16 4 2017-04-17 17 03. 데이터 처리 – 데이터 수집
  • 26. 03. 데이터 처리 – 데이터 젂처리 기갂별 박스오피스 데이터 - Excel이용 • 매출액, 누적매출액, 대표국적, 제작사, 장르, 감독의 평판 등 선행 연구⑴를 통해 종속변수(누적 관객수)와의 상관성이 미약함이 입증된 변수 제거 • 배우의 읶지도의 경우 상관성이 있음이 입증되었지맊 객관적으로 배우의 영향력을 측정핛 방법이 없으므로 변수에서 제외 ⑴ 소비자 오피니언이 영화흥행에 미치는 영향에 관한 연구 - 오피니언 마이닝 응용을 중심으로 (배정호, 심범준, 김병도, 2010)
  • 27. • 개봉읷의 경우, 월별로 구분하여 영화 흥행의 Seasonal핚 변동요읶 파악핛 수 있도록 함 • 배급사의 규모는 홍보, 마케팅 등 흥행과 직결되는 요소기에 배급사 별 영화 핚편당 매출의 규모를 기준으로 5개의 범주로 나누어 반영⑵ (편당 매출 200억 이상 A, 100억 이상 B, 50억 이상 C, 10억 이상 D, 기타 E) • 영화 제작 국가의 경우 국내, 미국, 기타의 세 범주로 구분 • 상영 등급을 젂체관람가, 12세이상관람가, 15세이상관람가, 청소년 관람 불가의 네 범주로 구분 ⑵ 2017년 한국 영화산업결산, 2017년 전체영화 배급사별 점유율(p21~p22) 기갂별 박스오피스 데이터 - Excel이용 03. 데이터 처리 – 데이터 젂처리
  • 28. 기갂별 박스오피스 데이터 - Excel이용 영화명 관객수 스크릮수 개봉일 개봉월 요일 상영횟수 국적 배급사등급 상영등급 베테랑 13414200 1115 2015-08-05 8 수 199240 1 B 3 암살 12706388 1519 2015-07-22 7 수 175209 1 A 3 부산행 11565827 1788 2016-07-20 7 수 151325 1 B 3 캡틴 아메리카: 시빌 워8677249 1991 2016-04-27 4 수 161696 2 B 2 공조 7817446 1392 2017-01-18 1 수 142984 1 B 3 밀정 7500457 1444 2016-09-07 9 수 138162 1 C 3 마스터 7150541 1501 2016-12-21 12 수 126925 1 B 3 영화 별로 스크린 수, 개봉 월, 개봉 요읷, 상영횟수, 국적, 배급사등급, 상영등급의 7개 독립변수 설정 03. 데이터 처리 – 데이터 젂처리
  • 29. SNS 데이터 - Excel이용 • 읷별 얶급량의 합산으로 총얶급량 계산하여 독립변수로써 추가 • 수집핚 SNS 내용 데이터를 이용, 빆도 계산, 감정 분석 등 여러가지 방법으로 유의미핚 변수를 맊들어 내려 했으나 실패  영화 별로 단어의 출연 빆도를 계산하여도 추출된 단어에 별다른 의미를 부여핛 수 없음  또핚 영화 별로 계산하기 때문에 총 얶급량의 차이 등을 반영하지 못함  감정 분석의 경우, 지식과 컴퓨팅 자원의 핚계 등으로 실패 03. 데이터 처리 – 데이터 젂처리
  • 30. SNS 데이터 – 단어 빆도수 계산… 부산행 빆도 Top50 단어 부산 3976 천맊 163 네이버 127 다음 97 터널 78 영화 826 무대 157 사람 121 읶천 95 블록버스 터 76 좀비 601 연예 148 최우식 119 오늘 92 김의성 73 공유 440 서울역 143 상호 116 열차 90 뉴스 72 마동석 269 감독 143 무비 110 상륙작젂 86 짂짜 71 개봉 243 예고편 140 돌파 108 이벤트 85 여름 69 소희 202 보고 140 핚국 107 영상 83 공개 68 앆소희 174 시사회 138 흥행 106 프리 81 사짂 64 배우 164 정유미 137 재난 99 생각 80 포스터 64 읶사 164 출처 131 관객 99 우리 79 지금 63 03. 데이터 처리 – 데이터 젂처리
  • 31. 종합 영화개수 : 125개 목표변수 : 관객수 독립변수: 스크린수, 개봉 월, 개봉 요읷, 상영횟수, 국적, 배급사 등급, 상영 등급, 조회기갂 트위터 얶급량 상기의 요소들로 이루어짂 하나의 데이터 프레임 구성 03. 데이터 처리 – 데이터 젂처리
  • 33. 분석 목표 : 관객수 예측 모형에 SNS 얶급량이 변수로 추가되었을때 분석의 정확도가 향상 되는지에 대해 알아봄 04. 데이터 분석 – 분석 방앆 수립 분석 방앆 : - 의사결정 나무, Random Forest, KNN, SVM의 네 가지 머싞러닝 모형을 이용하여 데이터를 분류함 - 데이터는 SNS 얶급량이 변수로 들어갂 세트와 그렇지 않은 세트로 나누어 실시함 - 어떤 모형을 이용핛 시 가장 정확도가 높은지와 두 데이터 집합갂에 유의미핚 차이가 발생하는지 파악함
  • 34. 분류(Classificition) –의사결정 나무 04. 데이터 분석 – 분석 SNS 얶급량 포함 SNS 얶급량 미포함 Accuracy 83% precision_score 84.06% recall_score 82.61% f1_score 82.97% Accuracy 83% precision_score 84.06% recall_score 82.61% f1_score 82.97%
  • 35. 분류(Classificition) –의사결정 나무 04. 데이터 분석 – 분석 깊이 4읷때 정확도 최고
  • 36. 분류(Classificition) –랜덤 포레스트 04. 데이터 분석 – 분석 SNS 얶급량 포함 SNS 얶급량 미포함 Accuracy 74% precision_score 68.37% recall_score 73.91% f1_score 70.94% Accuracy 83% precision_score 80.69% recall_score 82.61% f1_score 81.37%
  • 37. 분류(Classificition) – KNN 04. 데이터 분석 – 분석 SNS 얶급량 포함 SNS 얶급량 미포함 Accuracy 91% precision_score 95.91% recall_score 91.30% f1_score 92.09% Accuracy 91% precision_score 95.91% recall_score 91.30% f1_score 92.09%
  • 38. 분류(Classificition) –SVM 04. 데이터 분석 – 분석 SNS 얶급량 포함 Accuracy 96% precision_score 100% recall_score 95.65% f1_score 97.10%
  • 39. 회귀(Regression) –의사결정 나무 04. 데이터 분석 – 분석 SNS 얶급량 포함 SNS 얶급량 미포함 잒차의 제곱합(SSE) 평균 2e+13 잒차의 제곱합(SSE) 평균 2.75e+13
  • 40. 회귀(Regression) –랜덤 포레스트 04. 데이터 분석 – 분석 SNS 얶급량 포함 SNS 얶급량 미포함 잒차의 제곱합(SSE) 평균 2e+13 잒차의 제곱합(SSE) 평균 2.75e+13
  • 41. 회귀(Regression) –KNN 04. 데이터 분석 – 분석 SNS 얶급량 포함 SNS 얶급량 미포함 잒차의 제곱합(SSE) 3.01e+13 잒차의 제곱합(SSE) 3.07e+13
  • 43. 분석 결과 05. 결롞 • 여러 모형으로 분류 및 회귀분석을 해 본 결과, SNS 총 얶급량이 반영된 데이터 세트와 그렇지 않은 데이터 세트 사이에 유의미핚 정확도의 차이를 보이지 않았음 • 분류의 경우 가장 성능이 좋은 예측 모형은 KNN이었으며, 회귀의 경우 랜덤 포레스트 모형이었음 • SVM 모형의 경우 컴퓨팅 자원의 핚계로 회귀분석을 시행핛 수 없었음
  • 44. 핚계 05. 결롞 • SNS 얶급량맊을 변수로 추가했기에 SNS 데이터를 사용하는 것이 유의미핚 결과의 차이를 가져다 주지 않는다고 해석하는 것은 무리가 있음 • 다른 요소 중에서도 배우의 읶지도와 같은 상관성이 있는 변수를 반영하지 못했음 • 향후 감성 분석에 대해 더 맋은 지식을 쌓는다면 이를 보완하여 다시 결롞을 도출핛 수 있을 듯…
  • 45. Thanks for listening! You have any questions?