2. INTRODUCTION
➤ SBI(Social Business Intelligence) : textual UGC를 사용하여 의
사결정하는 것이 중요하다.
➤ UGC(User Generated Content) : 블로그, 포럼, SNS에서 얻을
수 있는 사람들의 글, 지역정보, 선호도, 의견, 뉴스
➤ textual UGC를 이용하기 위해서는 topic과 topic hierarchy를
정의하는 것이 중요하다.
➤ topic은 논의하고 있는 영역에서 의미있는 keyword
➤ ex) mobile technology : Samsung, Galaxy 3, Touchscreen
3. INTRODUCTION
➤ UGC 분석 툴들은 기존의 BI System과 분리되어서 운영된다.
➤ UGC와 기업의 비즈니스 데이터의 통합이 어렵다.
➤ Meta-Stars를 이용하여 topic hierarchy를 정하면 이를 해결할
수 있다.
4. INTRODUCTION
➤ topic의 리스트는 의사결정자와 전문가에 의해서 결정하고 알
고리즘을 통해서 확장한다.
➤ 의사결정자는 사용자들이 topic에 대해 얼마나 많이 이야기 하
는지, 해당 topic의 평판이 어떠한지 등에 관심을 가진다.
➤ 따라서 topic을 SBI 큐브의 디멘션으로 사용할 수 있다.
5. INTRODUCTION
➤ #1 non-leaf topic 들이 fact와 관련이 있다.
➤ #2 다양한 종류의 급변하는 Trendy topic들을 수용할 수 있도록 정의된다.
➤ #3 제품명과 같은 topic들은 EDW(Enterprise Data Warehouse)와 쉽게 연
결할 수 있다.
➤ #4 topic 들간의 Roll-up relationships가 다른 의미를 가진다.
➤ “Galaxy 3 has brand Samsung”
➤ “Galaxy 3 has type smartphone”
<기존의 hierarchy와 제안하는 topic hierarchy의 차이점>
6. INTRODUCTION
➤ #1 brand reputation : 사람들이 Samsung을 어떻게 생각하는지
➤ Samsung, Galaxy, Galaxy Tab의 긍정, 부정 횟수
<topic hierarchy를 통해서 분석 할 수 있는 것들>
7. INTRODUCTION
➤ #2 talking volume : Mobile tech에 관한 topic의 양이 얼마나 되
는지
➤ Nokia, Samsung을 제외한 topic이 언급된 횟수
<topic hierarchy를 통해서 분석 할 수 있는 것들>
8. INTRODUCTION
➤ #3 Health rumors : 사용자들의 터치스크린에 대한 걱정
➤ Touchscreen과 Finger Pathologies이 언급된 횟수
<topic hierarchy를 통해서 분석 할 수 있는 것들>
10. ARCHITECTURAL OVERVIEW
➤ Crawling : 논의하는 영역에서 크
롤링
➤ ODS(Operational data store) :
Crawling된 반정형데이터를 정형
데이터로 바꿔서 저자, 채널 등과
같은 관련된 데이터를 저장
➤ document-oriented DB : ODS와
연결하여 clip을 저장
➤ Semantic Enrichment : Clip text에
서 숨은 의미 정보를 파악하여 확
장시킴
➤ ETL : 주기적으로 clip과 topic을 추
출, EDW과 통합하여 DM에 로드
11. ARCHITECTURAL OVERVIEW
➤ DM은 축적된 데이터를 다차원 큐브의 형태로 저장하고 의사결
정에 활용한다.
➤ #1 OLAP & Dashboard
➤ UGC를 다양한 관점에서 탐색할 수 있다.
➤ #2 DataMining
➤ 제품에 대한 의견이 비즈니스 이벤트에 얼마나 영향을 미치는
가를 분석할 수 있다.
➤ #3 Simulation
➤ 주어진 UGC와 비즈니스 이벤트를 이용하여 미래의 비즈니스
이벤트를 예상할 수 있다.
12. META-STARS
➤ Topic share : 주어진 기간 내
에서 전체 topic 중 한 topic
의 출현 비율
➤ Topic awareness : 전체 clip
중 topic이 언급된 clip 의 비
율
➤ Market beat : 한 topic에 대
한 긍정/부정 의견의 퍼센트
➤ Average sentiment : 한 topic
에 대한 biased opinions 평균
<다차원 큐브의 지표>
19. ➤ 다양한 의미의 집계가 가능하다.
➤ Smartphone의 출현횟수를 계산할 때 :
➤ Smartphone만 언급만 UGC를 고려할 것인가
➤ Product(Calaxy3)까지 고려할 것인가
➤ Component(8MP Camera)까지 고려할 것인가
QUERYING META-STARS
20. ➤ Queries without Topic Aggregation
06/22/2013의 brand들의 total 출현횟수를 구하여라
QUERYING META-STARS
21. ➤ Queries without Topic Aggregation
➤ level이 static한 경우
➤ level이 static 하지 않은 경우
06/22/2013의 Mobile Tech의 topic들의 출현 횟수를 구하여라.
QUERYING META-STARS
22. ➤ Queries with Semantics-Aware Topic Aggregation
➤ Brand reputation anaysis
➤ ρ = (isPartOf, hasType, hasBrand, hasCategory,
has, causedBy)
hasBrand
QUERYING META-STARS
hasBrand 관계에 있는 topic 까지 고려해서
Brand의 긍정, 부정을 구하라.
23. FINAL REMARKS
➤ An expressive solution to model topic hierarchies based on
same specific requirements :
➤ Heterogeneity and dynamics of topic classifications
➤ integrability with business hierarchies
➤ semantics-aware aggregation