SNS 급성장과 분석의필요성
• 과거
– 기업과 일반 사용자(고객)과의 온라인 커뮤니케이션 채널: 기업 인터넷사이트, 온라인 캠페인(이메일), 블로그 등
– 주로 기업내부에 축적된 데이터를 활용한 분석
– 사용자를 알기 위한 방법? 주로 간접적인 파악
• 웹로그 클릭 분석
• 상품구매이력
• 이메일을 통한 반응분석
• 온/오프라인 설문조사 등
• 현재
– "정보 혁명"에서 이제는 "소셜 데이터 혁명"의 시대
– 스마트폰 보급으로 인한 트위터, 미투데이, 페이스북, 마이크로 블로그 등의 SNS 서비스의 급성장
– 일반 사용자들이 본인의 SNS 사이트를 통해 뭘 좋아하는지 뭐가 불만인지 뭐가 이슈인지를 끊임없이 직접 이야기해 줌.
– 정보의 파급 효과 및 속도(1:9:90 법칙)
– 이를 통해 일반 사용자들의 관심사, 반응, 여론, 불만 사항 등을 파악
4
5.
Social Analytics란?
•트위터, 미투데이, 블로그 등의 소셜 네트워크 서비스에서 생산되는 방대한 양의 빅 데이터를 분석하여 의미 있
는 정보(Insight)를 추출하는 기술
– Analytics is "the science of analysis.“
– 빅데이터(Big data)
– 비정형 데이터(Unstructured data)
– 통계적 분석(Statistical Analysis), 데이터마이닝(Datamining)
• 데이터의 성격
– 비정형 데이터(Unstructured Data): 트위터, 미투데이 등의 포스팅 글이나 쇼핑몰의 상품평과 같이 텍스트 형태로 된 데이터.
– 정형 데이터(Structured Data): 성별, 연령대, 직업 등의 정형화된 데이터
– 준정형 데이터(Semi-Structured Data): 태그와 같이 메타 데이터 성격을 띠는 데이터
• 활용 분야
– 제품과 브랜드 평판분석, 시장동향 파악, 경쟁사 활동 비교 분석
– 선거예측, 주가예측, 영화흥행예측 등
– 소셜 추천(맛집, 영화 등)
– 영향력(Influential Users) 평가 서비스 등
5
분석 기술
• 분석인프라 측면
– 빅데이터 저장 및 처리 기술
– 분석 엔진
– 데이터 시각화 기술
• 분석 기법 측면
– 데이터 마이닝: Classification, Clustering
– 텍스트 마이닝: 자연어 처리(NLP)
– 소셜 네트워크 분석(Social Network Analysis)
– 오피니언 마이닝(Opinion Mining)
– 센티멘트 분석(Sentiment Analysis)
7
8.
분석 기술
분석인프라 측면
• 빅 데이터(Big Data) 저장 및 처리 기술
– 분산저장 파일 시스템: Hadoop HDFS
– NoSql 기반 데이터 베이스: HBase, MongoDB, Dynamo 등
– 그래프 기반 데이터 베이스: Neo4J, GoldenOrb. Infinite Graph 등
• GoldenOrb: Google의 Pregel 아키텍쳐 및 Hadoop, Java기반의 오픈소스 그래프 데이터 베이스
• 데이터 시각화(Data Visualization) 기술
– 툴 기반의 Social Graph Visualization: Gephi, NodeXL 등
– 라이브러리 기반: JUNG(Java Universal Network/Graph Framework), Prefuse(Prefuse의 Flash 버전인 Flare) 등
– 스크립트 기반: Google Visualization Chart API, Google Motion Chart, D3(Protovis), InfoVis, Raphael 등
8
9.
분석 기술
분석인프라 측면
• 분석 엔진
– Hadoop MapReduce
– R: 오픈소스 기반의 통계분석 패키지로 플러그인으로 만들어진 수많은 통계분석 및 데이터마이닝 서드파티 패키지 사용가능
• Hadoop 환경에서 분산 처리도 가능: RHIPE, RevolutionAnalytics의 RHadoop
• RHIPE(R and Hadoop Integrated Processing Environment): R을 Hadoop 환경에서 MapReduce와 연결시켜 수백만 개의 데이터를
매우 짧은 시간에 분석할 수 있도록 한 프로그램으로 퍼듀 대학교(Perdue University)의 Saptarshi Guha가 만듦. 현재 PaloAlto
Revolutionanalytics에서 근무중이라고 함.
• SNA(sna, igraph, …), Text Mining(topicmodels, lda, lsa, KoNLP, …), Data Mining(svd, e1071, …)
– Apache Mahout: 오픈소스 기반의 기계학습(Machine Learning) 라이브러리를 제공하며 Classification, Clustering,
Recommendation 등과 관련해 널리 알려진 기계학습 알고리즘을 구현한 라이브러리를 MapReduce로 실행할 수 있도록 제공
출처: Poll Results-Top Languages for Data Mining/Analytics
(http://www.kdnuggets.com/2011/08/poll-languages-for-
data-mining-analytics.html )
9
10.
분석 기술
분석기법 측면: 비정형 데이터를 처리하기 위한 기술 위주
• 기계 학습(Machine Learning): 지도학습, 비지도학습 기법을 통한 Classification, Clustering 등 수행
– Naive Bayes classifier, Logistic Regression, SVM(Support Vector Machine), LDA(Latent dirichlet allocation) 등
• 텍스트 마이닝(Text Mining): 기계학습 기법 및 자연어처리(NLP) 기술을 이용한 텍스트에서 의미있는 정보를 추
출하기 위한 기술
– 자연어처리 기술: 형태소 분석(Morpheme Analysis), 구문 분석(Syntactic Analysis), 의미 분석(Semantic Analysis) 등
– 분류 기술: 텍스트 분류(Text Classification), 피쳐 추출 및 분류(Feature Extraction) 등
• 소셜 네트워크 분석(Social Network Analysis): 그래프는 노드(nodes or vertices)와 두 노드를 연결하는 선
(edge or link)으로 구성되어 있다는 그래프 이론(graph theory)을 이용하여 그래프를 분석하는 기술
– Directed Graph(트위터), Undirected Graph(페이스북, 미투데이와 같이 상호 수락관계)
– 입소문의 중심(authority)이나 허브(hub) 역할을 하는 사용자(Influential User)를 찾거나 비슷한 성향으로 군집된 사용자군을
발굴(Community Detection)하는 데 주로 이용함.
– 주요 Metrics: 연결선 수(degree), 중개 중심성(betweenness centrality), 근접 중심성(closeness centrality), 고유벡터 중심성
(eigenvector centrality), 군집 정도(clustering coefficient)
– 주요 알고리즘: HITS(Hyperlink-Induced Topic Search), CNM(Clauset, Newman, & Moore) 등
• 오피니언 마이닝(Opinion Mining), 센티멘트 분석(Sentiment Analysis)
10
11.
소셜 네트워크 분석
HITS를 이용한 例: Top 10 users with high authorities and hubs on Twitter
11
12.
소셜 네트워크 분석
페이스북에서 Social Graph App을 이용한 Community Clustering한 例
12
13.
오피니언 마이닝과 센티멘트분석
• 오피니언 마이닝(Opinion Mining)과 센티멘트 분석(Sentiment Analysis)
– 둘다 비슷한 의미로 사용되며, 자연어 처리 기술, 텍스트 마이닝 등의 기술을 이용하여 텍스트에서 사용자의 의견, 태도 등을 추
출하기 위한 분야
– 오피니언 마이닝: 주로 사용자의 의견 자체에 대한 시맨틱한 정보를 추출하는 기술
– 센티멘트 분석: 텍스트에 포함된 내용이 주관적(Subjective)인지 객관적(Objective)인지 주관성을 판별하고, 주관적이면 극성
(Polarity)을 분석하여 내용이 긍정적(Positive)인지 부정적(Negative)인지 중립적(Neutral)인지 판별하는 기술
• 센티멘트 분석 주요 기법
– SVMs(Support Vector Machines): 미리 사전에 긍정/부정으로 분류된 학습 데이터(Training Sets)로 텍스트의 긍정/부정 의
견을 분류하는 방식
– Lexicon-based Approach: 사전에 미리 정의된 긍정/부정 Bag of Words(1-grams or Uni-grams)를 이용하여 텍스트에 포
함된 긍정/부정 단어의 출현 빈도로 긍정과 부정을 판별하는 기법으로 LIWC(Linguistic Inquiry andWord Count)나
POMS(Profile of Mood States) 같은 사전을 이용할 수 있는데 한국어에서는 사용할 수 없음. 긍정/부정 코퍼스(Corpus)를
잘 만드는 것이 관건임.
– Linguistic Approach: 텍스트의 문법적인 구조를 파악하여 극성을 판별하는 기법이다. 주로 Lexicon-based Approach 방식
과 함께 사용한다. 문맥(context) 등을 파악하여 극성을 판별함.
13
활용 분야
• 소셜미디어 모니터링 서비스: 소셜 여론 분석, 제품과 브랜드 분석 및 시장동향 파악, 경쟁사 활동 비교 분석, 상
품평 분석, 고객 반응 및 동향 등
– 서비스 사례: SOCIALmetrics, Radian6, People Browsr, Tweetfeel, Twitrratr 등
• 예측 서비스: 서비스나 상품의 시장규모 예측, 주가 예측, 선거 예측, 영화 흥행 예측
• 추천 서비스: 소셜 추천(맛집, 영화 등)
– 서비스: 버즈니 등
• 영향력 평가 서비스: 영향력 있는 사용자 발굴
– 서비스: Klout, Edelman, PeerIndex, Twitalizer 등
15
16.
국내외 서비스 사례
•SOCIALmetrics(이전 TrendSeek)
미디컴과 다음소프트가 공동 개발한 소셜 여론 분석 서비스로 제품과 브랜드, 시장동향 파악, 경쟁사 활동 비교 분석 등의 서비스
제공
16
17.
국내외 서비스 사례
•Klout
트위터, Facebook, LinkedIn 등의 사용자의 영향력(Social Influence) 평가 서비스를 제공
• Edelman
트위터나 블로그 등의 사용자의 영향력 평가 서비스를 제공
17
18.
2011년 서울시장 보궐선거관련 분석 서비스 사례
SOCIALmetrics (출처: http://campaign.socialmetrics.co.kr/)
18
19.
2011년 서울시장 보궐선거관련 분석 서비스 사례
그루터 (출처: http://www.seenal.com/seoul2011)
19
20.
2011년 서울시장 보궐선거관련 분석 서비스 사례
트윗믹스 (출처: http://tweetmix.net/vs/1026)
20
21.
2011년 서울시장 보궐선거관련 분석 서비스 사례
• 트위터에서의 영향력 평가는 어떻게 하는게 좋을까?
– 트위터에서의 사용자 영향력 = {Follower수, Retweet수, Mention수}?
– 트위터에서의 사용자 영향력 = {Follower수, Retweet수, Mention수 | 긍부정 | 시간}
– 센티멘트 분석 및 오피니언 마이닝의 중요성(시간에 따라 긍부정 추이를 분석하고 그 이유를 설명할 수 있어야 함.)
21