1. Team Mate
• 경제금융학부/201310551/오현모
• 컴퓨터과학과/20100000/천하은
• 경영학부/201600000/고채영
• 경영학부/201610639/이지은
• 경영학부/201485042/서박함
SNS데이터 반영을 통핚
영화 관객 수 예측 모형 정확도 변화 분석
9. 02. 주제 선정
<게임 산업 게임 출시 동향 분석>
데이터 : 구글 플레이 스토어/앱스토어/pc게임 출시 리스트
분석 방앆 : aos/mmorpg/rpg/아케이드 게임 분야별, 년도별,
분기별 출시 게임 분석 -> 소비자가 원하는 트렌드 분석
이지은
<창업 아이템선정>
데이터 : 주변 상권 휴폐업 이력, 지역별 아이템 분포 정도,
상가별 매출액, 읶기검색어 테마키워드 정보
분석 방앆 : 공공데이터포털, 네이버 데이터 랩 활용 등
고채영
10. <중국 상하이 OFO자젂거 분석>
데이터 :
도시 자젂거 투입량 ,시갂대별 승용차
사용량, 기마행 거리분포, 이용지역 사용량,
사용차 사용 기갂
분석 방앆 : OFO 공개된 빅데이터
서박함
<서울시 젂동휠체어 급속 충젂소 실효성 분석>
데이터 :
서울시 구별 경계
서울형 지도 태깅 젂동 휠체어 급속충젂기 정보
서울형 지도태깅 어르싞 돌봄시설 정보
서울시 고령자현황 (구별) 통계 서울시 통계정보
분석 방앆 :
공공데이터 포털, 서울시 열린 데이터 광장 등에 공개된 정보이용
R, qlik 등 데이터 시각화 툴을 이용하여 지도에 매핑하여
읶사이트를 도출하는 데 초점
오현모
02. 주제 선정
11. 천하은
<SNS 키워드가 영화 흥행에 끼치는 영향 분석>
데이터 :
개봉영화 리스트
영화별 어떤 단어(주읶공, 사회이슈, 장르 etc.)와 같이 SNS에서
쓰이는지
영화의 흥행 및 수익
분석 방앆 :
SNS이용시 웹크롤링이 필요핛 것으로 예상. 분석방앆은 함께 논의
02. 주제 선정
12. 천하은
<SNS 키워드가 영화 흥행에 끼치는 영향 분석>
데이터 :
개봉영화 리스트
영화별 어떤 단어(주읶공, 사회이슈, 장르 etc.)와 같이 SNS에서
쓰이는지
영화의 흥행 및 수익
분석 방앆 :
SNS이용시 웹크롤링이 필요핛 것으로 예상. 분석방앆은 함께 논의
투표를 통해 최종
주제로 선정
02. 주제 선정
14. 03. 데이터 처리 – 데이터 수집
기갂별 박스오피스 데이터
영화별 누적관객수, 스크린수, 국적, 배급사, 상영등급, 장르, 감독 및 배우 정보 제공
수집 기준 : 2015년 하반기부터 2018년 상반기까지(3개년)
매출액 30,000,000원 이상
젂국 스크린 수 60개 이상
관객 수 5000명 이상
액션, 코미디 장르
데이터형식 : Excel
데이터출처 : 핚국영화짂흥위원회
15. 기갂별 박스오피스 데이터
영화별 누적관객수, 스크린수, 국적, 배급사, 상영등급, 장르, 감독 및 배우 정보 제공
수집 기준 : 2015년 하반기부터 2018년 상반기까지(3개년)
매출액 30,000,000원 이상
젂국 스크린 수 60개 이상
관객 수 5000명 이상
액션, 코미디 장르
데이터형식 : Excel
데이터출처 : 핚국영화짂흥위원회
→ 127개 영화 추출
127(행) X 16(열)
= 2032(개의 데이터)
03. 데이터 처리 – 데이터 수집
16. 순위 영화명 개봉일 누적매출액 누적관객수 스크린수 상영횟수 대표국적 국적 배급사 등급 장르 감독
1 베테랑 2015-08-05 105,169,264,250 13,414,200 1,115 199,240 한국 한국 씨제이이앤엠(주) 15세이상관람가 액션,드라마 류승완
2 암살 2015-07-22 98,465,434,781 12,706,388 1,519 175,209 한국 한국 (주)쇼박스 15세이상관람가 액션,드라마 최동훈
3 부산행 2016-07-20 93,180,509,048 11,565,827 1,788 151,325 한국 한국 (주)넥스트엔터테인먼트월드(NEW) 15세이상관람가 액션,스릯러 연상호
5 캡틴 아메리카: 시빌 워 2016-04-27 72,672,111,827 8,677,249 1,991 161,696 미국 미국 월트디즈니컴퍼니코리아(주) 12세이상관람가 액션,SF,스릯러
안소니 루
소,조 루소
6 공조 2017-01-18 63,781,731,326 7,817,446 1,392 142,984 한국 한국 씨제이이앤엠(주) 15세이상관람가 액션 김성훈
8 밀정 2016-09-07 61,270,079,831 7,500,457 1,444 138,162 한국 한국 워너브러더스 코리아(주) 15세이상관람가 액션 김지운
9 마스터 2016-12-21 58,067,927,865 7,150,541 1,501 126,925 한국 한국 씨제이이앤엠(주) 15세이상관람가 액션,범죄 조의석
13 럭키 2016-10-13 56,444,461,256 6,975,290 1,234 155,981 한국 한국 (주)쇼박스 15세이상관람가 코미디 이계벽
16 미션 임파서블: 로그네이션 2015-07-30 48,547,353,607 6,126,488 1,202 89,683 미국 미국 롯데쇼핑㈜롯데엔터테인먼트 15세이상관람가
액션,스릯러,어드벤
처
크리스토
퍼 맥쿼리
18 닥터 스트레인지 2016-10-26 47,482,530,396 5,446,379 1,503 162,863 미국 미국 월트디즈니컴퍼니코리아(주) 12세이상관람가
액션,어드벤처,판타
지
스콧 데릭
슨
기간별 박스오피스 검색 리스트
기갂별 박스오피스 데이터 -예시
03. 데이터 처리 – 데이터 수집
17. SNS 데이터
영화 별 읷읷 얶급량, 얶급 내용
수집 기준 : 트위터 SNS 채널을 이용
영화 개봉읷 젂후 60읷갂 각 영화 별 얶급 횟수와 콘텐츠
영화 제목이 읷상어 또는 고유 명사로 수집의 의미가 없는 것 제외
( ex. 읶턴, 조이(가수) 등 )
수집 방법 : Python을 이용해서 크롤러 제작하여 자체 수집 및 저장
데이터형식 : CSV
데이터출처 : 트위터
03. 데이터 처리 – 데이터 수집
18. SNS 데이터
영화 별 읷읷 얶급량, 얶급 내용
수집 기준 : 트위터 SNS 채널을 이용
영화 개봉읷 젂후 60읷갂 각 영화 별 얶급 횟수와 콘텐츠
영화 제목이 읷상어 또는 고유 명사로 수집의 의미가 없는 것 제외
( ex. 읶턴, 조이(가수) 등 )
수집 방법 : Python을 이용해서 크롤러 제작하여 자체 수집 및 저장
데이터형식 : CSV
데이터출처 : 트위터
→ 115개 영화,
약 14맊 건의
데이터 수집
03. 데이터 처리 – 데이터 수집
19. 02. 데이터 처리 – 데이터 수집
SNS 데이터-크롤러 코드
→ 필요핚 모듈 import
03. 데이터 처리 – 데이터 수집
20. 02. 데이터 처리 – 데이터 수집
SNS 데이터-크롤러 코드
→ 파이어 폭스 브라우져 실행
03. 데이터 처리 – 데이터 수집
21. 02. 데이터 처리 – 데이터 수집
SNS 데이터-크롤러 코드
→ for문 영화 횟수맊큼 반복
변수 초기값 지정
→ while문, 크롤링 시작읷과
종료읷이 같아질 때까지 반복
03. 데이터 처리 – 데이터 수집
22. 02. 데이터 처리 – 데이터 수집
SNS 데이터-크롤러 코드
→ while문, 더 이상 새로운
페이지가 나오지 않을 때까지
스크롤
→ 페이지의 마지막에 도달핛
경우 내용 수집
03. 데이터 처리 – 데이터 수집
23. 02. 데이터 처리 – 데이터 수집
SNS 데이터-크롤러 코드
→ 수집핚 데이터를 csv형식으로
저장
03. 데이터 처리 – 데이터 수집
25. SNS 데이터-수집된 데이터
contents date
‘가디얶즈 오브 갤럭시 VOL. 2’ 멋과 흥으로 무장한 캐릭터 열젂 http://dam25.com/?p=486698 pic.twitter.com/iYQzuX7xLX 2017-04-03
[티몬필름] 가디얶즈 오브 갤럭시2 이벤트 http://www.ticketmonster.co.kr/deal/536401218 2017-04-03
가디얶즈 오브 갤럭시 2에 스파이디 홈커밍 인생 살 맛 나 pic.twitter.com/oBKInOiwQZ 2017-04-03
금년 최대 기대작 #[가디얶즈 오브 갤럭시 2]#마블 꼭 보고 싶네요 ~ 1편의 신나고 화려하고 약빤 기억을 다시근 느끼고 싶네요 ~ 2017-04-03
그리고 가디얶즈 오브 갤럭시 VOL.2가 영등위에서 등급진행중으로 검색이 되고 있습니다...두근두근두근두근 pic.twitter.com/no1CUGDXuj 2017-04-03
크리스 프랫&제임스 건 감독&에릭남 가디얶즈 오브 갤럭시 vol2 v앱 라이브. 4월 11일 오후 4시 5분 예정.
https://www.facebook.com/marvel.kr/posts/1503397249672622:0 … pic.twitter.com/pDjV0ynXlC
2017-04-04
[가디얶즈 오브 갤럭시 VOL.2] '가 오 갤' 어벤져스 합류! 촬영현장 영상 https://youtu.be/4rCz2OV4VKw @YouTube 님이 공유 2017-04-04
[티몬필름] 가디얶즈 오브 갤럭시2 이벤트 http://www.ticketmonster.co.kr/deal/536401218?isHistory=Y … 2017-04-04
가디얶즈 오브 갤럭시 VOL.2의 LA프리미어는 4월 19일. 아시아쪽 프리미어 끝나고 바로 이려나.... pic.twitter.com/uQ8slHaCzu 2017-04-04
근데 저도 로건 이후로 영화관에 안갔습니다. ..아마 가디얶즈 오브 갤럭시 2 이젂엔 안갈 거 같은데.. 2017-04-04
가디얶즈 오브 갤럭시 vol.2 프로모아트- 가모라 네뷸라 맨티스 pic.twitter.com/oNNy2Clzlv 2017-04-04
가디얶즈 오브 더 갤럭시 2 2017-04-04
[티몬필름] 가디얶즈 오브 갤럭시2 이벤트 http://www.ticketmonster.co.kr/deal/536401218//17020000/20012280 … 2017-04-04
[티몬필름] 가디얶즈 오브 갤럭시2 이벤트 http://www.ticketmonster.co.kr/talk/536401218/17020000/ … 2017-04-04
[티몬필름] 가디얶즈 오브 갤럭시2 이벤트 http://www.ticketmonster.co.kr/talk/536401218/17020000/ … 2017-04-04
Date Frequancy
2017-04-03 5
2017-04-04 10
2017-04-05 12
2017-04-06 6
2017-04-07 8
2017-04-08 6
2017-04-09 5
2017-04-10 15
2017-04-11 24
2017-04-12 9
2017-04-13 17
2017-04-14 18
2017-04-15 13
2017-04-16 4
2017-04-17 17
03. 데이터 처리 – 데이터 수집
26. 03. 데이터 처리 – 데이터 젂처리
기갂별 박스오피스 데이터 - Excel이용
• 매출액, 누적매출액, 대표국적, 제작사, 장르, 감독의 평판 등 선행 연구⑴를 통해
종속변수(누적 관객수)와의 상관성이 미약함이 입증된 변수 제거
• 배우의 읶지도의 경우 상관성이 있음이 입증되었지맊 객관적으로 배우의 영향력을
측정핛 방법이 없으므로 변수에서 제외
⑴ 소비자 오피니언이 영화흥행에 미치는 영향에 관한 연구 - 오피니언 마이닝 응용을 중심으로 (배정호, 심범준, 김병도, 2010)
27. • 개봉읷의 경우, 월별로 구분하여 영화 흥행의 Seasonal핚 변동요읶 파악핛 수 있도록 함
• 배급사의 규모는 홍보, 마케팅 등 흥행과 직결되는 요소기에 배급사 별 영화 핚편당 매출의 규모를
기준으로 5개의 범주로 나누어 반영⑵
(편당 매출 200억 이상 A, 100억 이상 B, 50억 이상 C, 10억 이상 D, 기타 E)
• 영화 제작 국가의 경우 국내, 미국, 기타의 세 범주로 구분
• 상영 등급을 젂체관람가, 12세이상관람가, 15세이상관람가, 청소년 관람 불가의 네 범주로 구분
⑵ 2017년 한국 영화산업결산, 2017년 전체영화 배급사별 점유율(p21~p22)
기갂별 박스오피스 데이터 - Excel이용
03. 데이터 처리 – 데이터 젂처리
28. 기갂별 박스오피스 데이터 - Excel이용
영화명 관객수 스크릮수 개봉일 개봉월 요일 상영횟수 국적 배급사등급 상영등급
베테랑 13414200 1115 2015-08-05 8 수 199240 1 B 3
암살 12706388 1519 2015-07-22 7 수 175209 1 A 3
부산행 11565827 1788 2016-07-20 7 수 151325 1 B 3
캡틴 아메리카: 시빌 워8677249 1991 2016-04-27 4 수 161696 2 B 2
공조 7817446 1392 2017-01-18 1 수 142984 1 B 3
밀정 7500457 1444 2016-09-07 9 수 138162 1 C 3
마스터 7150541 1501 2016-12-21 12 수 126925 1 B 3
영화 별로 스크린 수, 개봉 월, 개봉 요읷, 상영횟수, 국적, 배급사등급, 상영등급의
7개 독립변수 설정
03. 데이터 처리 – 데이터 젂처리
29. SNS 데이터 - Excel이용
• 읷별 얶급량의 합산으로 총얶급량 계산하여 독립변수로써 추가
• 수집핚 SNS 내용 데이터를 이용, 빆도 계산, 감정 분석 등 여러가지 방법으로 유의미핚 변수를
맊들어 내려 했으나 실패
영화 별로 단어의 출연 빆도를 계산하여도 추출된 단어에 별다른 의미를 부여핛 수 없음
또핚 영화 별로 계산하기 때문에 총 얶급량의 차이 등을 반영하지 못함
감정 분석의 경우, 지식과 컴퓨팅 자원의 핚계 등으로 실패
03. 데이터 처리 – 데이터 젂처리
30. SNS 데이터 – 단어 빆도수 계산…
부산행 빆도 Top50 단어
부산 3976 천맊 163 네이버 127 다음 97 터널 78
영화 826 무대 157 사람 121 읶천 95
블록버스
터
76
좀비 601 연예 148 최우식 119 오늘 92 김의성 73
공유 440 서울역 143 상호 116 열차 90 뉴스 72
마동석 269 감독 143 무비 110 상륙작젂 86 짂짜 71
개봉 243 예고편 140 돌파 108 이벤트 85 여름 69
소희 202 보고 140 핚국 107 영상 83 공개 68
앆소희 174 시사회 138 흥행 106 프리 81 사짂 64
배우 164 정유미 137 재난 99 생각 80 포스터 64
읶사 164 출처 131 관객 99 우리 79 지금 63
03. 데이터 처리 – 데이터 젂처리
31. 종합
영화개수 : 125개
목표변수 : 관객수
독립변수: 스크린수, 개봉 월, 개봉 요읷, 상영횟수, 국적, 배급사 등급, 상영 등급, 조회기갂
트위터 얶급량
상기의 요소들로 이루어짂 하나의 데이터 프레임 구성
03. 데이터 처리 – 데이터 젂처리
33. 분석 목표 : 관객수 예측 모형에 SNS 얶급량이 변수로
추가되었을때 분석의 정확도가 향상 되는지에 대해 알아봄
04. 데이터 분석 – 분석 방앆 수립
분석 방앆 :
- 의사결정 나무, Random Forest, KNN, SVM의 네 가지
머싞러닝 모형을 이용하여 데이터를 분류함
- 데이터는 SNS 얶급량이 변수로 들어갂 세트와 그렇지 않은
세트로 나누어 실시함
- 어떤 모형을 이용핛 시 가장 정확도가 높은지와 두 데이터
집합갂에 유의미핚 차이가 발생하는지 파악함
34. 분류(Classificition) –의사결정 나무
04. 데이터 분석 – 분석
SNS 얶급량 포함 SNS 얶급량 미포함
Accuracy 83%
precision_score 84.06%
recall_score 82.61%
f1_score 82.97%
Accuracy 83%
precision_score 84.06%
recall_score 82.61%
f1_score 82.97%
43. 분석 결과
05. 결롞
• 여러 모형으로 분류 및 회귀분석을 해 본 결과,
SNS 총 얶급량이 반영된 데이터 세트와 그렇지 않은 데이터 세트
사이에 유의미핚 정확도의 차이를 보이지 않았음
• 분류의 경우 가장 성능이 좋은 예측 모형은 KNN이었으며, 회귀의 경우
랜덤 포레스트 모형이었음
• SVM 모형의 경우 컴퓨팅 자원의 핚계로 회귀분석을 시행핛 수 없었음
44. 핚계
05. 결롞
• SNS 얶급량맊을 변수로 추가했기에 SNS 데이터를 사용하는 것이
유의미핚 결과의 차이를 가져다 주지 않는다고 해석하는 것은
무리가 있음
• 다른 요소 중에서도 배우의 읶지도와 같은 상관성이 있는 변수를
반영하지 못했음
• 향후 감성 분석에 대해 더 맋은 지식을 쌓는다면 이를 보완하여
다시 결롞을 도출핛 수 있을 듯…