위 자료는 BOAZ 2016 프로젝트 주제의 하나로, Advanced 정규세션 동안 Base 정규세션에서 배웠던 다양한 이론들과 기본 지식들, 그리고 툴 활용능력들을 직접 실행하며 진행한 결과물입니다.
*** 모바일 SNS 사용자들의 감성 용어 사전 제작 및 공인대상 감성 분석 ***
트위터의 모바일 기기 사용자들이 게시한 트윗들을 분석해서 명사, 형용사로 구성된 감성 사전 제작. 이를 통해 정치, 연예 등 다양한 분야의 공인들을 대상으로 해당 서비스 사용자들의 감성 수치화 및 시간에 따른 변화 분석.
방진현 서울대학교 산업공학과
김원현 성균관대학교 수학과
허승 중앙대학교 응용통계학과
장한솔 숙명여자대학교 한국어문학부
최원빈 이화여자대학교 사회교육과
** 국내 최초 대학생 빅데이터 연합동아리 BOAZ **
Blog : http://BOAZbigdata.com
Facebook : http://fb.com/BOAZbigdata
12. 데이터 수집 및 저장: 크롤링
트윗 당 16개의 속성을 CSV파일로 저장
ScreenName Screen name of the user who posted this status
Id Id of this status
replyToSN Screen name of the user this is in reply to
replyToUID ID of the user this was in reply to
Truncated Whether this status was truncated
Favorited Whether this status has been facorited
Retweeted TRUE if this status has been retweeted
retweetCount The number of times this status has been retweeted
15. 전처리: 형태소 한정
감성분석에 필요한
형태소 한정
NNG 일반명사
NNP 고유명사
VA 형용사
VCN 부정지정사
VCP 긍정지정사
UN 명사추정범주
한글만 남김!
16. 전처리: 고유명사 처리
고유명사는 영어로 자동적으로 변환시켜 입력되도록
고유명사를 영어로 변환시켜야 하는 이유
표창원 -> 표/NNG + 창원/NNP
안철수 -> 안/VCN + 철수/NNP
17. 전처리: 형용사와 결합된 부정어
‘안’ 용언 위에 붙어 부정 또는 반대의 뜻을 나타내는 부사 '아니'의 준말이고,
‘않-’ 동사나 형용사 아래에 붙어 부정의 뜻을 더하는 보조용언 '아니하-'의 준말
철수는 밥을 안 먹는다. → ‘먹는다’를 부정어 처리
철수는 밥을 먹지 않았다. → ‘먹지’를 부정어 처리
‘안’ + ‘기쁘다’ → ‘안기쁘다’ 로 변환
부정어가 나타난 부분의 bigram만 변환!
18. 전처리
정치 : 2,782,151
스포츠 : 613,444
남자 연예인 : 560,725
여자 연예인 : 547,265
경제 : 38,544
데이터 수집기간 2016/03/01 – 2016/04/30
수집한 데이터 수
19. .
이세돌 승리 직후
프로듀스 101
최종 11인 선정
전처리
김무성 대표 옥새 투쟁
프로듀스 101 종영
문재인 대표 광주방문
4.13 총선
문재인 공개활동 재개
정치인
여자연예인
스포츠
기업
남자연예인
23. 사전제작: CBOW architecture
앞 뒤의 단어들을 통해 ‘이가’ 라는 말이 들어갈 것을 추측하는 방식
주어진 단어에 대해 앞 뒤로 C/2개 씩 총 C개의 단어를 Input으로 사용,
주어진 단어를 맞추기 위한 네트워크를 만든다.
“집 앞 편의점에서 아이스크림을 사 먹었는데, __ 시려서 너무 먹기가 힘들었다.”
24. 사전제작: Skip-gram architecture
CBOW와는 반대 방향의 모델
현재 주어진 단어 하나 → 주위 등장하는 나머지 몇 개의 단어 등장 여부를 유추
예측하는 단어들의 경우 현재 단어 주위에서 샘플링
멀리 떨어져있는 단어일수록 낮은 확률로 택하는 방법
26. 단어최소 출현횟수 : 20
Hidden node 수 : 200
현재단어와 예측단어 사이의 최대 거리 : 10
Model = gensim.models.Word2Vec
(sentences, min_count=20, size=200, window=10)
사전제작: Word2Vec 모델 제작 및 성능 확인