SlideShare a Scribd company logo
1 of 51
Download to read offline
기사 개수
음원차트
순위
상관관계
전체 기사 : 1,504,410
관련 기사 : 456,687
약 30%
관련기사
아이돌 가수 관련 기사의 비율
통계 (statistical computing)
데이터 마이닝 (data mining)
그래픽 (graphics)
웹 크롤러(web crawler)
웹 페이지를 방문해, 각종 정보를 자동적으로 수집하는 프로그램
Rvest를 이용해 NAVER 뉴스 속보 중에서
연예 부분을 수집해보자!
NAVER 뉴스
연예 속보
본문 URL
언론사
writings
발행일
dates
본문 기사본문 URL
NAVER 뉴스
연예 속보
언론사
writings
발행일
dates
제목
titles
내용
contents
본문 기사
NAVER 뉴스
연예 속보
언론사
writings
발행일
dates
제목
titles
내용
contents
read_html( URL ) = html 파싱
본문 기사
NAVER 뉴스
연예 속보
언론사
writings
발행일
dates
제목
titles
내용
contents
html_nodes()
html_attr()
메타정보
페이지당 20건
하루 2000건
NAVER 뉴스
연예 속보
언론사 발행일
본문
URL
본문 URL
본문 기사로 이동
기사제목
본문내용
data.frme으로 저장 한 후, CSV 파일로 관리
14년 7월 ~ 16년 7월 약 150만건의 기사 데이터
긍정 기사 부정 기사긍정 기사
if
긍정 기사 부정 기사긍정 기사
샘플
데이터
말뭉치
(corpus)Document
Term-matrix
긍정단어
부정단어
감정사전
일반 감정
단어
회귀분석
1. 감정사전
긍정단어
부정단어
감정사전
수집한
기사 내용
감정
분석
부정 기사
긍정 기사
2. 감정분석
상관관계 분석
부정 기사
샘플
데이터
말뭉치
(corpus)
감정사전
내용
contents
긍정/부정 각 1천건
긍정 1
부정 0
감정값(sentiment)
회귀분석에
쓰여요!
샘플
데이터
말뭉치
(corpus)
감정사전
특정 목적을 가지고 추출한 언어의 집합
감정에 영향이 없는 구두점, 숫자, 단어
Document-Term matrix ( tm )
Document
Term-matrix
단어
한글 단어 분류 How?
샘플
데이터
말뭉치
(corpus)
감정사전
KoNLP 패키지
명사, 형용사, 동사 구분
Document
Term-matrix
다양한 옵션
샘플
데이터
말뭉치
(corpus)
감정사전
Document
Term-matrix
라쏘(lasso) : 작은 회귀계수를 0으로 만듬
릿지(ridge) : 전반적으로 회귀계수를 줄여줌
엘라스틱넷(elastic net) : 라쏘 + 릿지
라쏘(lasso) : 작은 회귀계수를 0으로 만듬
릿지(ridge) : 전반적으로 회귀계수를 줄여줌
엘라스틱넷(elastic net) : 라쏘 + 릿지
회귀분석 ( glmnet )
샘플
데이터
감정사전
Document
Term-matrix
말뭉치
(corpus)
회귀분석
단어가 사용 유무 정도로 회귀분석을 실시
긍정단어
부정단어
감정사전
감정
분석
부정 기사
긍정 기사
0
100
200
300
400
500
600
700
800
900
16년 5월 16년 4월 16년 3월 16년 2월 16년 1월 15년 12월 15년 11월 15년 10월 15년 09월 15년 08월 15년 07월 15년 06월
긍정 / 부정 기사 개수
긍정 부정
5월 9일, AOA
5월 9일, AOA ‘긴또깡‘ 사건
차트
진입
0
10
20
30
40
50
60
70
80
90
100
0
50
100
150
200
250
300
350
400
Good Luck
부정기사 수 음원차트 순위
두 변수 간의 관련성을 얻기 위한 방법
즉, 두 변수 X와 Y가 함께 또는 따로 변하는 정도
• 피어슨 상관계수
• r이 -1.0과 -0.7 사이이면, 강한 음적 선형관계
• r이 -0.7과 -0.3 사이이면, 뚜렷한 음적 선형관계
• r이 -0.3과 -0.1 사이이면, 약한 음적 선형관계
• r이 -0.1과 +0.1 사이이면, 거의 무시될 수 있는 선형관계
• r이 +0.1과 +0.3 사이이면, 약한 양적 선형관계
• r이 +0.3과 +0.7 사이이면, 뚜렷한 양적 선형관계
• r이 +0.7과 +1.0 사이이면, 강한 양적 선형관계
• r이 -1.0과 -0.7 사이이면, 강한 음적 선형관계
• r이 -0.7과 -0.3 사이이면, 뚜렷한 음적 선형관계
MASS 패키지를 사용한 상관계수
1차 결론
상관계수 0.02848169
[가정]과는 부정기사와 음원차트 순위간의 상관도는 미비하다
순위
음원차트 기사 기사 수
그룹별
비율(%)
전체 기사
비율
1 빅뱅 소녀시대(SM) 9761 14.5 8.2
2 엑소
EXID
(바나나컬쳐)
8635 12.8 7.3
3 EXID 엑소(SM) 7769 11.5 6.6
4 레드벨벳 AOA(FNC) 7445 11.2 6.3
5 에이핑크 씨스타(스타쉽) 7101 10.5 6
6 AOA 레드벨벳(SM) 6918 10.3 5.8
7 걸스데이 빅뱅(YG) 6125 9.1 5.2
8 씨스타
에이핑크
(플랜에이)
5411 8 4.6
9 소녀시대 마마무(RBW) 5006 7.4 4.2
10 마마무
걸스데이
(드림티)
3179 4.7 2.7
기타 56.9
15년 04월 ~ 15년 09월 15년 10월 ~ 16년 03월
아이돌전체기사와1~10위그룹관련기사의비율
순위
음원차트 기사 기사 수
그룹별
비율(%)
전체 기사
비율(%)
1 아이콘 소녀시대(SM) 8851 13.6 7.5
2 엑소 엑소(SM) 8836 13.5 7.5
3 빅뱅 AOA(FNC) 7852 12 6.7
4 마마무
EXID
(바나나컬쳐)
7595 11.7 6.5
5 소녀시대 트와이스(JYP) 7228 10.1 6.2
6 AOA 레드벨벳(SM) 6350 9.7 5.4
7 EXID 아이콘(YG) 5934 9 5.1
8 러블리즈
러블리즈
(울림)
4460 7 3.8
9 레드벨벳 빅뱅(YG) 4445 6.9 3.8
10 트와이스 마마무(RBW) 4177 6.5 3.6
기타 56.1
56.9 56.1
순위권 그룹 타이틀곡(21곡) 주간순위
타이틀곡 첫 차트 진입 후 기사 개수
순위권 그룹 타이틀곡과 음원차트 주간순위 상관계수
타이틀곡(가수) 상관계수
1
우리사랑하지
말아요(빅뱅) -1.0
2 아예(EXID) -0.7
3
Remember
(에이핑크) -0.7
4
dumb dumb
(레드벨벳) -0.7
5 Sing for you(엑소) -0.6
6 심쿵해(AOA) -0.6
7 링마벨(걸스데이) -0.6
8 shake it(씨스타) -0.5
9 뱅뱅뱅(빅뱅) -0.4
10 LOSER(빅뱅) -0.4
11 음오아예(마마무) -0.3
12 취향저격(아이콘) -0.3
타이틀곡(가수) 상관계수
1 party(소녀시대) -0.2
2 넌is뭔들(마마무) -0.2
3 I Miss You(마마무) -0.1
4 HOT PINK(EXID) -0.1
5 lion heart(소녀시대) 0
6 Call me baby(엑소) 0.1
7 Love me right(엑소) 0.2
8
OOH-AHH하게
(트와이스) 0.3
9 Ah-Choo(러블리즈) 0.5
57%
타이틀곡(가수) 상관계수
1
우리사랑하지
말아요(빅뱅) -1.0
2 아예(EXID) -0.7
3
Remember
(에이핑크) -0.7
4
dumb dumb
(레드벨벳) -0.7
5 Sing for you(엑소) -0.6
6 심쿵해(AOA) -0.6
7 링마벨(걸스데이) -0.6
8 shake it(씨스타) -0.5
9 뱅뱅뱅(빅뱅) -0.4
10 LOSER(빅뱅) -0.4
11 음오아예(마마무) -0.3
12 취향저격(아이콘) -0.3
순위권 그룹 타이틀곡과 음원차트 주간순위 상관계수
43%
타이틀곡(가수) 상관계수
1 party(소녀시대) -0.2
2 넌is뭔들(마마무) -0.2
3 I Miss You(마마무) -0.1
4 HOT PINK(EXID) -0.1
5 lion heart(소녀시대) 0
6 Call me baby(엑소) 0.1
7 Love me right(엑소) 0.2
8
OOH-AHH하게
(트와이스) 0.3
9 Ah-Choo(러블리즈) 0.5
순위권 그룹 타이틀곡과 음원차트 주간순위 상관계수
2차 결론
57% 43%
마무리
Q&A
감사합니다

More Related Content

More from Dataya Nolja

More from Dataya Nolja (17)

Let's Play with Data Safely
Let's Play with Data SafelyLet's Play with Data Safely
Let's Play with Data Safely
 
Things Data Scientists Should Keep in Mind
Things Data Scientists Should Keep in MindThings Data Scientists Should Keep in Mind
Things Data Scientists Should Keep in Mind
 
Things Happend between JDBC and MySQL
Things Happend between JDBC and MySQLThings Happend between JDBC and MySQL
Things Happend between JDBC and MySQL
 
Human-Machine Interaction and AI
Human-Machine Interaction and AIHuman-Machine Interaction and AI
Human-Machine Interaction and AI
 
Julia 0.5 and TensorFlow
Julia 0.5 and TensorFlowJulia 0.5 and TensorFlow
Julia 0.5 and TensorFlow
 
Zeppelin and Open Source Ecosystem and Silicon Valley
Zeppelin and Open Source Ecosystem and Silicon ValleyZeppelin and Open Source Ecosystem and Silicon Valley
Zeppelin and Open Source Ecosystem and Silicon Valley
 
Hadoop 10th Birthday and Hadoop 3 Alpha
Hadoop 10th Birthday and Hadoop 3 AlphaHadoop 10th Birthday and Hadoop 3 Alpha
Hadoop 10th Birthday and Hadoop 3 Alpha
 
Kakao Bank Powered by Open Sources
Kakao Bank Powered by Open SourcesKakao Bank Powered by Open Sources
Kakao Bank Powered by Open Sources
 
Open Source is My Job
Open Source is My JobOpen Source is My Job
Open Source is My Job
 
Creating Value through Data Analysis
Creating Value through Data AnalysisCreating Value through Data Analysis
Creating Value through Data Analysis
 
How to Make Money from Data - Global Cases
How to Make Money from Data - Global CasesHow to Make Money from Data - Global Cases
How to Make Money from Data - Global Cases
 
Structured Streaming with Apache Spark
Structured Streaming with Apache SparkStructured Streaming with Apache Spark
Structured Streaming with Apache Spark
 
How to Create Value from Data, and Its Difficulty
How to Create Value from Data, and Its DifficultyHow to Create Value from Data, and Its Difficulty
How to Create Value from Data, and Its Difficulty
 
Machine Learning with Apache Spark and Zeppelin
Machine Learning with Apache Spark and ZeppelinMachine Learning with Apache Spark and Zeppelin
Machine Learning with Apache Spark and Zeppelin
 
Monitoring System for DevOps - Case of MelOn
Monitoring System for DevOps - Case of MelOnMonitoring System for DevOps - Case of MelOn
Monitoring System for DevOps - Case of MelOn
 
Alphago at a Glance
Alphago at a GlanceAlphago at a Glance
Alphago at a Glance
 
Data Analytics with Druid
Data Analytics with DruidData Analytics with Druid
Data Analytics with Druid
 

Relationship between Amount of Articles and Music Rank