Social Analytics 소개
   - SDEC 오프라인 세미나 -




2012. 02. 07 | NHN 텍스트분류기술팀 배영규
Table of Contents

 1. SNS의 급성장과 분석의 필요성

 2. 분석 기술

 3. 활용 분야 및 국내외 서비스 사례
Table of Contents

 1. SNS의 급성장과 분석의 필요성

 2. 분석 기술

 3. 활용 분야 및 국내외 서비스 사례
SNS 급성장과 분석의 필요성



• 과거
  – 기업과 일반 사용자(고객)과의 온라인 커뮤니케이션 채널: 기업 인터넷사이트, 온라인 캠페인(이메일), 블로그 등

  – 주로 기업내부에 축적된 데이터를 활용한 분석

  – 사용자를 알기 위한 방법? 주로 간접적인 파악

   • 웹로그 클릭 분석

   • 상품구매이력

   • 이메일을 통한 반응분석

   • 온/오프라인 설문조사 등



• 현재
  – "정보 혁명"에서 이제는 "소셜 데이터 혁명"의 시대

  – 스마트폰 보급으로 인한 트위터, 미투데이, 페이스북, 마이크로 블로그 등의 SNS 서비스의 급성장

  – 일반 사용자들이 본인의 SNS 사이트를 통해 뭘 좋아하는지 뭐가 불만인지 뭐가 이슈인지를 끊임없이 직접 이야기해 줌.

  – 정보의 파급 효과 및 속도(1:9:90 법칙)

  – 이를 통해 일반 사용자들의 관심사, 반응, 여론, 불만 사항 등을 파악




                                                                        4
Social Analytics란?



 • 트위터, 미투데이, 블로그 등의 소셜 네트워크 서비스에서 생산되는 방대한 양의 빅 데이터를 분석하여 의미 있
   는 정보(Insight)를 추출하는 기술
    – Analytics is "the science of analysis.“

    – 빅데이터(Big data)

    – 비정형 데이터(Unstructured data)

    – 통계적 분석(Statistical Analysis), 데이터마이닝(Datamining)



 • 데이터의 성격
    – 비정형 데이터(Unstructured Data): 트위터, 미투데이 등의 포스팅 글이나 쇼핑몰의 상품평과 같이 텍스트 형태로 된 데이터.

    – 정형 데이터(Structured Data): 성별, 연령대, 직업 등의 정형화된 데이터

    – 준정형 데이터(Semi-Structured Data): 태그와 같이 메타 데이터 성격을 띠는 데이터



 • 활용 분야
    – 제품과 브랜드 평판분석, 시장동향 파악, 경쟁사 활동 비교 분석

    – 선거예측, 주가예측, 영화흥행예측 등

    – 소셜 추천(맛집, 영화 등)

    – 영향력(Influential Users) 평가 서비스 등


                                                                               5
Table of Contents

 1. SNS의 급성장과 분석의 필요성

 2. 분석 기술

 3. 활용 분야 및 국내외 서비스 사례
분석 기술



• 분석 인프라 측면
  – 빅데이터 저장 및 처리 기술

  – 분석 엔진

  – 데이터 시각화 기술



• 분석 기법 측면
  – 데이터 마이닝: Classification, Clustering

  – 텍스트 마이닝: 자연어 처리(NLP)

  – 소셜 네트워크 분석(Social Network Analysis)

  – 오피니언 마이닝(Opinion Mining)

  – 센티멘트 분석(Sentiment Analysis)




                                          7
분석 기술


 분석 인프라 측면

• 빅 데이터(Big Data) 저장 및 처리 기술
  – 분산저장 파일 시스템: Hadoop HDFS

  – NoSql 기반 데이터 베이스: HBase, MongoDB, Dynamo 등

  – 그래프 기반 데이터 베이스: Neo4J, GoldenOrb. Infinite Graph 등
    • GoldenOrb: Google의 Pregel 아키텍쳐 및 Hadoop, Java기반의 오픈소스 그래프 데이터 베이스

• 데이터 시각화(Data Visualization) 기술
  – 툴 기반의 Social Graph Visualization: Gephi, NodeXL 등

  – 라이브러리 기반: JUNG(Java Universal Network/Graph Framework), Prefuse(Prefuse의 Flash 버전인 Flare) 등

  – 스크립트 기반: Google Visualization Chart API, Google Motion Chart, D3(Protovis), InfoVis, Raphael 등




                                                                                                     8
분석 기술


 분석 인프라 측면

• 분석 엔진
  – Hadoop MapReduce

  – R: 오픈소스 기반의 통계분석 패키지로 플러그인으로 만들어진 수많은 통계분석 및 데이터마이닝 서드파티 패키지 사용가능
    • Hadoop 환경에서 분산 처리도 가능: RHIPE, RevolutionAnalytics의 RHadoop

    • RHIPE(R and Hadoop Integrated Processing Environment): R을 Hadoop 환경에서 MapReduce와 연결시켜 수백만 개의 데이터를
      매우 짧은 시간에 분석할 수 있도록 한 프로그램으로 퍼듀 대학교(Perdue University)의 Saptarshi Guha가 만듦. 현재 PaloAlto
      Revolutionanalytics에서 근무중이라고 함.

    • SNA(sna, igraph, …), Text Mining(topicmodels, lda, lsa, KoNLP, …), Data Mining(svd, e1071, …)

  – Apache Mahout: 오픈소스 기반의 기계학습(Machine Learning) 라이브러리를 제공하며 Classification, Clustering,
    Recommendation 등과 관련해 널리 알려진 기계학습 알고리즘을 구현한 라이브러리를 MapReduce로 실행할 수 있도록 제공




                                                          출처: Poll Results-Top Languages for Data Mining/Analytics
                                                          (http://www.kdnuggets.com/2011/08/poll-languages-for-
                                                          data-mining-analytics.html )


                                                                                                                     9
분석 기술


 분석 기법 측면: 비정형 데이터를 처리하기 위한 기술 위주

• 기계 학습(Machine Learning): 지도학습, 비지도학습 기법을 통한 Classification, Clustering 등 수행
  – Naive Bayes classifier, Logistic Regression, SVM(Support Vector Machine), LDA(Latent dirichlet allocation) 등

• 텍스트 마이닝(Text Mining): 기계학습 기법 및 자연어처리(NLP) 기술을 이용한 텍스트에서 의미있는 정보를 추
 출하기 위한 기술
  – 자연어처리 기술: 형태소 분석(Morpheme Analysis), 구문 분석(Syntactic Analysis), 의미 분석(Semantic Analysis) 등

  – 분류 기술: 텍스트 분류(Text Classification), 피쳐 추출 및 분류(Feature Extraction) 등

• 소셜 네트워크 분석(Social Network Analysis): 그래프는 노드(nodes or vertices)와 두 노드를 연결하는 선
 (edge or link)으로 구성되어 있다는 그래프 이론(graph theory)을 이용하여 그래프를 분석하는 기술
  – Directed Graph(트위터), Undirected Graph(페이스북, 미투데이와 같이 상호 수락관계)

  – 입소문의 중심(authority)이나 허브(hub) 역할을 하는 사용자(Influential User)를 찾거나 비슷한 성향으로 군집된 사용자군을
    발굴(Community Detection)하는 데 주로 이용함.

  – 주요 Metrics: 연결선 수(degree), 중개 중심성(betweenness centrality), 근접 중심성(closeness centrality), 고유벡터 중심성
    (eigenvector centrality), 군집 정도(clustering coefficient)

  – 주요 알고리즘: HITS(Hyperlink-Induced Topic Search), CNM(Clauset, Newman, & Moore) 등

• 오피니언 마이닝(Opinion Mining), 센티멘트 분석(Sentiment Analysis)



                                                                                                                   10
소셜 네트워크 분석


 HITS를 이용한 例: Top 10 users with high authorities and hubs on Twitter




                                                                       11
소셜 네트워크 분석


 페이스북에서 Social Graph App을 이용한 Community Clustering한 例




                                                        12
오피니언 마이닝과 센티멘트 분석



• 오피니언 마이닝(Opinion Mining)과 센티멘트 분석(Sentiment Analysis)
  – 둘다 비슷한 의미로 사용되며, 자연어 처리 기술, 텍스트 마이닝 등의 기술을 이용하여 텍스트에서 사용자의 의견, 태도 등을 추
    출하기 위한 분야

  – 오피니언 마이닝: 주로 사용자의 의견 자체에 대한 시맨틱한 정보를 추출하는 기술

  – 센티멘트 분석: 텍스트에 포함된 내용이 주관적(Subjective)인지 객관적(Objective)인지 주관성을 판별하고, 주관적이면 극성
    (Polarity)을 분석하여 내용이 긍정적(Positive)인지 부정적(Negative)인지 중립적(Neutral)인지 판별하는 기술



• 센티멘트 분석 주요 기법
  – SVMs(Support Vector Machines): 미리 사전에 긍정/부정으로 분류된 학습 데이터(Training Sets)로 텍스트의 긍정/부정 의
    견을 분류하는 방식

  – Lexicon-based Approach: 사전에 미리 정의된 긍정/부정 Bag of Words(1-grams or Uni-grams)를 이용하여 텍스트에 포
    함된 긍정/부정 단어의 출현 빈도로 긍정과 부정을 판별하는 기법으로 LIWC(Linguistic Inquiry andWord Count)나
    POMS(Profile of Mood States) 같은 사전을 이용할 수 있는데 한국어에서는 사용할 수 없음. 긍정/부정 코퍼스(Corpus)를
    잘 만드는 것이 관건임.

  – Linguistic Approach: 텍스트의 문법적인 구조를 파악하여 극성을 판별하는 기법이다. 주로 Lexicon-based Approach 방식
    과 함께 사용한다. 문맥(context) 등을 파악하여 극성을 판별함.




                                                                                        13
Table of Contents

 1. SNS의 급성장과 분석의 필요성

 2. 분석 기술

 3. 활용 분야 및 국내외 서비스 사례
활용 분야



• 소셜 미디어 모니터링 서비스: 소셜 여론 분석, 제품과 브랜드 분석 및 시장동향 파악, 경쟁사 활동 비교 분석, 상
 품평 분석, 고객 반응 및 동향 등
  – 서비스 사례: SOCIALmetrics, Radian6, People Browsr, Tweetfeel, Twitrratr 등

• 예측 서비스: 서비스나 상품의 시장규모 예측, 주가 예측, 선거 예측, 영화 흥행 예측

• 추천 서비스: 소셜 추천(맛집, 영화 등)
  – 서비스: 버즈니 등

• 영향력 평가 서비스: 영향력 있는 사용자 발굴
  – 서비스: Klout, Edelman, PeerIndex, Twitalizer 등




                                                                            15
국내외 서비스 사례



• SOCIALmetrics(이전 TrendSeek)
  미디컴과 다음소프트가 공동 개발한 소셜 여론 분석 서비스로 제품과 브랜드, 시장동향 파악, 경쟁사 활동 비교 분석 등의 서비스
  제공




                                                                     16
국내외 서비스 사례


• Klout
  트위터, Facebook, LinkedIn 등의 사용자의 영향력(Social Influence) 평가 서비스를 제공




• Edelman
  트위터나 블로그 등의 사용자의 영향력 평가 서비스를 제공




                                                                     17
2011년 서울시장 보궐선거 관련 분석 서비스 사례


 SOCIALmetrics (출처: http://campaign.socialmetrics.co.kr/)




                                                            18
2011년 서울시장 보궐선거 관련 분석 서비스 사례


 그루터 (출처: http://www.seenal.com/seoul2011)




                                             19
2011년 서울시장 보궐선거 관련 분석 서비스 사례


 트윗믹스 (출처: http://tweetmix.net/vs/1026)




                                          20
2011년 서울시장 보궐선거 관련 분석 서비스 사례



• 트위터에서의 영향력 평가는 어떻게 하는게 좋을까?
  – 트위터에서의 사용자 영향력 = {Follower수, Retweet수, Mention수}?

  – 트위터에서의 사용자 영향력 = {Follower수, Retweet수, Mention수 | 긍부정 | 시간}

  – 센티멘트 분석 및 오피니언 마이닝의 중요성(시간에 따라 긍부정 추이를 분석하고 그 이유를 설명할 수 있어야 함.)




                                                                      21
Thank you!


 louie09@nhn.com

Social Analytics 소개 (SDEC 오프모임 세미나)

  • 1.
    Social Analytics 소개 - SDEC 오프라인 세미나 - 2012. 02. 07 | NHN 텍스트분류기술팀 배영규
  • 2.
    Table of Contents 1. SNS의 급성장과 분석의 필요성 2. 분석 기술 3. 활용 분야 및 국내외 서비스 사례
  • 3.
    Table of Contents 1. SNS의 급성장과 분석의 필요성 2. 분석 기술 3. 활용 분야 및 국내외 서비스 사례
  • 4.
    SNS 급성장과 분석의필요성 • 과거 – 기업과 일반 사용자(고객)과의 온라인 커뮤니케이션 채널: 기업 인터넷사이트, 온라인 캠페인(이메일), 블로그 등 – 주로 기업내부에 축적된 데이터를 활용한 분석 – 사용자를 알기 위한 방법? 주로 간접적인 파악 • 웹로그 클릭 분석 • 상품구매이력 • 이메일을 통한 반응분석 • 온/오프라인 설문조사 등 • 현재 – "정보 혁명"에서 이제는 "소셜 데이터 혁명"의 시대 – 스마트폰 보급으로 인한 트위터, 미투데이, 페이스북, 마이크로 블로그 등의 SNS 서비스의 급성장 – 일반 사용자들이 본인의 SNS 사이트를 통해 뭘 좋아하는지 뭐가 불만인지 뭐가 이슈인지를 끊임없이 직접 이야기해 줌. – 정보의 파급 효과 및 속도(1:9:90 법칙) – 이를 통해 일반 사용자들의 관심사, 반응, 여론, 불만 사항 등을 파악 4
  • 5.
    Social Analytics란? •트위터, 미투데이, 블로그 등의 소셜 네트워크 서비스에서 생산되는 방대한 양의 빅 데이터를 분석하여 의미 있 는 정보(Insight)를 추출하는 기술 – Analytics is "the science of analysis.“ – 빅데이터(Big data) – 비정형 데이터(Unstructured data) – 통계적 분석(Statistical Analysis), 데이터마이닝(Datamining) • 데이터의 성격 – 비정형 데이터(Unstructured Data): 트위터, 미투데이 등의 포스팅 글이나 쇼핑몰의 상품평과 같이 텍스트 형태로 된 데이터. – 정형 데이터(Structured Data): 성별, 연령대, 직업 등의 정형화된 데이터 – 준정형 데이터(Semi-Structured Data): 태그와 같이 메타 데이터 성격을 띠는 데이터 • 활용 분야 – 제품과 브랜드 평판분석, 시장동향 파악, 경쟁사 활동 비교 분석 – 선거예측, 주가예측, 영화흥행예측 등 – 소셜 추천(맛집, 영화 등) – 영향력(Influential Users) 평가 서비스 등 5
  • 6.
    Table of Contents 1. SNS의 급성장과 분석의 필요성 2. 분석 기술 3. 활용 분야 및 국내외 서비스 사례
  • 7.
    분석 기술 • 분석인프라 측면 – 빅데이터 저장 및 처리 기술 – 분석 엔진 – 데이터 시각화 기술 • 분석 기법 측면 – 데이터 마이닝: Classification, Clustering – 텍스트 마이닝: 자연어 처리(NLP) – 소셜 네트워크 분석(Social Network Analysis) – 오피니언 마이닝(Opinion Mining) – 센티멘트 분석(Sentiment Analysis) 7
  • 8.
    분석 기술 분석인프라 측면 • 빅 데이터(Big Data) 저장 및 처리 기술 – 분산저장 파일 시스템: Hadoop HDFS – NoSql 기반 데이터 베이스: HBase, MongoDB, Dynamo 등 – 그래프 기반 데이터 베이스: Neo4J, GoldenOrb. Infinite Graph 등 • GoldenOrb: Google의 Pregel 아키텍쳐 및 Hadoop, Java기반의 오픈소스 그래프 데이터 베이스 • 데이터 시각화(Data Visualization) 기술 – 툴 기반의 Social Graph Visualization: Gephi, NodeXL 등 – 라이브러리 기반: JUNG(Java Universal Network/Graph Framework), Prefuse(Prefuse의 Flash 버전인 Flare) 등 – 스크립트 기반: Google Visualization Chart API, Google Motion Chart, D3(Protovis), InfoVis, Raphael 등 8
  • 9.
    분석 기술 분석인프라 측면 • 분석 엔진 – Hadoop MapReduce – R: 오픈소스 기반의 통계분석 패키지로 플러그인으로 만들어진 수많은 통계분석 및 데이터마이닝 서드파티 패키지 사용가능 • Hadoop 환경에서 분산 처리도 가능: RHIPE, RevolutionAnalytics의 RHadoop • RHIPE(R and Hadoop Integrated Processing Environment): R을 Hadoop 환경에서 MapReduce와 연결시켜 수백만 개의 데이터를 매우 짧은 시간에 분석할 수 있도록 한 프로그램으로 퍼듀 대학교(Perdue University)의 Saptarshi Guha가 만듦. 현재 PaloAlto Revolutionanalytics에서 근무중이라고 함. • SNA(sna, igraph, …), Text Mining(topicmodels, lda, lsa, KoNLP, …), Data Mining(svd, e1071, …) – Apache Mahout: 오픈소스 기반의 기계학습(Machine Learning) 라이브러리를 제공하며 Classification, Clustering, Recommendation 등과 관련해 널리 알려진 기계학습 알고리즘을 구현한 라이브러리를 MapReduce로 실행할 수 있도록 제공 출처: Poll Results-Top Languages for Data Mining/Analytics (http://www.kdnuggets.com/2011/08/poll-languages-for- data-mining-analytics.html ) 9
  • 10.
    분석 기술 분석기법 측면: 비정형 데이터를 처리하기 위한 기술 위주 • 기계 학습(Machine Learning): 지도학습, 비지도학습 기법을 통한 Classification, Clustering 등 수행 – Naive Bayes classifier, Logistic Regression, SVM(Support Vector Machine), LDA(Latent dirichlet allocation) 등 • 텍스트 마이닝(Text Mining): 기계학습 기법 및 자연어처리(NLP) 기술을 이용한 텍스트에서 의미있는 정보를 추 출하기 위한 기술 – 자연어처리 기술: 형태소 분석(Morpheme Analysis), 구문 분석(Syntactic Analysis), 의미 분석(Semantic Analysis) 등 – 분류 기술: 텍스트 분류(Text Classification), 피쳐 추출 및 분류(Feature Extraction) 등 • 소셜 네트워크 분석(Social Network Analysis): 그래프는 노드(nodes or vertices)와 두 노드를 연결하는 선 (edge or link)으로 구성되어 있다는 그래프 이론(graph theory)을 이용하여 그래프를 분석하는 기술 – Directed Graph(트위터), Undirected Graph(페이스북, 미투데이와 같이 상호 수락관계) – 입소문의 중심(authority)이나 허브(hub) 역할을 하는 사용자(Influential User)를 찾거나 비슷한 성향으로 군집된 사용자군을 발굴(Community Detection)하는 데 주로 이용함. – 주요 Metrics: 연결선 수(degree), 중개 중심성(betweenness centrality), 근접 중심성(closeness centrality), 고유벡터 중심성 (eigenvector centrality), 군집 정도(clustering coefficient) – 주요 알고리즘: HITS(Hyperlink-Induced Topic Search), CNM(Clauset, Newman, & Moore) 등 • 오피니언 마이닝(Opinion Mining), 센티멘트 분석(Sentiment Analysis) 10
  • 11.
    소셜 네트워크 분석 HITS를 이용한 例: Top 10 users with high authorities and hubs on Twitter 11
  • 12.
    소셜 네트워크 분석 페이스북에서 Social Graph App을 이용한 Community Clustering한 例 12
  • 13.
    오피니언 마이닝과 센티멘트분석 • 오피니언 마이닝(Opinion Mining)과 센티멘트 분석(Sentiment Analysis) – 둘다 비슷한 의미로 사용되며, 자연어 처리 기술, 텍스트 마이닝 등의 기술을 이용하여 텍스트에서 사용자의 의견, 태도 등을 추 출하기 위한 분야 – 오피니언 마이닝: 주로 사용자의 의견 자체에 대한 시맨틱한 정보를 추출하는 기술 – 센티멘트 분석: 텍스트에 포함된 내용이 주관적(Subjective)인지 객관적(Objective)인지 주관성을 판별하고, 주관적이면 극성 (Polarity)을 분석하여 내용이 긍정적(Positive)인지 부정적(Negative)인지 중립적(Neutral)인지 판별하는 기술 • 센티멘트 분석 주요 기법 – SVMs(Support Vector Machines): 미리 사전에 긍정/부정으로 분류된 학습 데이터(Training Sets)로 텍스트의 긍정/부정 의 견을 분류하는 방식 – Lexicon-based Approach: 사전에 미리 정의된 긍정/부정 Bag of Words(1-grams or Uni-grams)를 이용하여 텍스트에 포 함된 긍정/부정 단어의 출현 빈도로 긍정과 부정을 판별하는 기법으로 LIWC(Linguistic Inquiry andWord Count)나 POMS(Profile of Mood States) 같은 사전을 이용할 수 있는데 한국어에서는 사용할 수 없음. 긍정/부정 코퍼스(Corpus)를 잘 만드는 것이 관건임. – Linguistic Approach: 텍스트의 문법적인 구조를 파악하여 극성을 판별하는 기법이다. 주로 Lexicon-based Approach 방식 과 함께 사용한다. 문맥(context) 등을 파악하여 극성을 판별함. 13
  • 14.
    Table of Contents 1. SNS의 급성장과 분석의 필요성 2. 분석 기술 3. 활용 분야 및 국내외 서비스 사례
  • 15.
    활용 분야 • 소셜미디어 모니터링 서비스: 소셜 여론 분석, 제품과 브랜드 분석 및 시장동향 파악, 경쟁사 활동 비교 분석, 상 품평 분석, 고객 반응 및 동향 등 – 서비스 사례: SOCIALmetrics, Radian6, People Browsr, Tweetfeel, Twitrratr 등 • 예측 서비스: 서비스나 상품의 시장규모 예측, 주가 예측, 선거 예측, 영화 흥행 예측 • 추천 서비스: 소셜 추천(맛집, 영화 등) – 서비스: 버즈니 등 • 영향력 평가 서비스: 영향력 있는 사용자 발굴 – 서비스: Klout, Edelman, PeerIndex, Twitalizer 등 15
  • 16.
    국내외 서비스 사례 •SOCIALmetrics(이전 TrendSeek) 미디컴과 다음소프트가 공동 개발한 소셜 여론 분석 서비스로 제품과 브랜드, 시장동향 파악, 경쟁사 활동 비교 분석 등의 서비스 제공 16
  • 17.
    국내외 서비스 사례 •Klout 트위터, Facebook, LinkedIn 등의 사용자의 영향력(Social Influence) 평가 서비스를 제공 • Edelman 트위터나 블로그 등의 사용자의 영향력 평가 서비스를 제공 17
  • 18.
    2011년 서울시장 보궐선거관련 분석 서비스 사례 SOCIALmetrics (출처: http://campaign.socialmetrics.co.kr/) 18
  • 19.
    2011년 서울시장 보궐선거관련 분석 서비스 사례 그루터 (출처: http://www.seenal.com/seoul2011) 19
  • 20.
    2011년 서울시장 보궐선거관련 분석 서비스 사례 트윗믹스 (출처: http://tweetmix.net/vs/1026) 20
  • 21.
    2011년 서울시장 보궐선거관련 분석 서비스 사례 • 트위터에서의 영향력 평가는 어떻게 하는게 좋을까? – 트위터에서의 사용자 영향력 = {Follower수, Retweet수, Mention수}? – 트위터에서의 사용자 영향력 = {Follower수, Retweet수, Mention수 | 긍부정 | 시간} – 센티멘트 분석 및 오피니언 마이닝의 중요성(시간에 따라 긍부정 추이를 분석하고 그 이유를 설명할 수 있어야 함.) 21
  • 22.