[214]베이지안토픽모형 강병엽

빅데이터 분석에 적합한
LDA & HDP 베이지안
토픽모형에 대한 알고리즘 개발
강병엽
NAVER SEARCH

CONTENTS
1. 베이지안 토픽모형
2. 풀고 싶은 문제와 고민들
3. 병렬계산 알고리즘
4. 토픽모형의 적용
5. 온라인 알고리즘
6. Discussion

1.1 토픽모형
• 토픽은 사전 위에 분포
• 각 문서는 여러 토픽의
혼합으로 구성
• 문서 내 출현 단어는
특정 토픽에서 추출
Blei, D. M. (2012). Probabilistic topic models. Communications of the ACM

베이즈 정리
• 데이터가 𝐷, 모수가 𝜃 일 때
베이지안 토픽모형
• LDA: Latent Dirichlet Allocation, Blei et al. (2003)
1.1 토픽모형 - Bayesian Modeling
사후분포 ∝ 우도함수 × 사전분포
𝑝 𝜃 𝐷 ∝ 𝑝 𝐷 𝜃 × 𝑝(𝜃)
Thomas Bayes(1701~1761)

• 모수
 𝜙 𝑘: 토픽
 𝜃𝑗: 각 문서별 토픽 혼합 비율
• 사전분포
 𝜙 𝑘 ∈ R 𝑊 ∼ Dirichlet(𝛽, ⋯ , 𝛽)
 𝜃𝑗 ∈ R 𝐾 ∼ Dirichlet(𝛼, ⋯ , 𝛼)
• 초모수(사전분포의 모수)
 𝛼, 𝛽
1.1 토픽모형 – LDA(2003)
𝜃𝑗 𝑧𝑗𝑖 𝑥𝑗𝑖
𝜙 𝑘
𝛼
𝛽

1.2 Inference & Learning
사후분포를 정확히 계산하기 힘들다.
Approximation methods
• MCMC(Monte Carlo Markov Chain)
 사후분포에서 표본을 많이 추출하여 추론
 Gibbs sampling 방법을 주로 사용
 정확도 높으나 속도가 느림
• VB(Variational Bayesian)
 속도가 빠르나 정확도 낮음

2.
풀고 싶은 문제와 고민들

2.1 대규모 문서의 이해
데이터센터 각

2.2 학습 데이터
네이버 뉴스 기사(2013)
• 2013년 7월 1일부터 7일 까지 작성된 뉴스 기사 데이터
 연예/스포츠 카테고리에 속하는 뉴스기사는 제외
• 데이터 규모
문서수 N 53,607
유니크 단어수 N 134,076

네이버 뉴스 기사(2013)
• 그때 그 시절(2013. 7. 1 ~ 7. 7)
 이집트 군부 vs. 무르시 대통령
 국정원 대화록 공개
 스노든 사건
 남북 개성공단 실무회담 성사
 재가동 원칙 합의(7/7)
 아시아나 항공기 샌프란시스코 불시착(7/7)

수집 .uk 웹문서(2014)
• 네이버 웹검색 데이터 중 .uk 도메인 웹문서
문서수 N 1,367,230
유니크 단어수 N 10,279,904
문서길이 평균 710
Word count 총합 970,650,419

수집 .uk 웹데이터(2014)
• 도메인 분석
 유니크 도메인 수는 약 14만개
 문서수 기준 인기 도메인
 BBC (bbc.co.kr)
 런던 대중교통 정보(tfl.gov.uk)
 테이트갤러리(tate.org.uk)
 University College London(ucl.ac.uk)
 피터팬 작가 J.M.Barrie 홈페이지(jmbarrie.co.uk)

수집 .uk 웹데이터(2014)
• 다국어 처리
 bbc.co.uk
 다양한 외국어
 ASCII 코드 조건 적용

네이버 쇼핑 상품(2015. 04)

네이버 쇼핑 상품(2015. 04)
• 네이버 쇼핑 ‘원피스’ 카테고리에 등록된 상품 중 일부
문서(쇼핑몰-상품)수 N 159,689
상품수 N 61,911
단어수 N 16,574

네이버 블로그 문서(2016. 09)
• 사용자 공유가 많은 블로그 문서 일부
 네이버 블로그 일간 PV 2%
문서수 N 538,378
유니크 단어수 N 578,126
Word count N 87,969,309

2.3 빅데이터 토픽모형 & 문제점
토픽모형 추론 알고리즘 비교 분석(2013~2014)
• 다양한 open source들을 이용해 분석을 시도해 봄
• MCMC 결과가 VB 결과보다 더 좋음
 정량적: Test Likelihood
 정성적: 추출된 토픽을 직접 관찰
• MCMC 방법은 시간이 너무 오래 걸림
• Accuracy vs. Cost
• Infra를 활용해 MCMC 방법의 속도 향상이 가능한가?
• 병렬 계산이 가능한 MCMC 알고리즘의 개발이 필요한가?

2.3 빅데이터 토픽모형 & 문제점
Big Data & Streaming Data
• 시간의 흐름에 따라 축적된다.
 누적되면서 양이 점점 많아진다.
 시간의 흐름에 따라 모형의 변화를 관찰하고 싶다.
 토픽의 생성, 변화, 소멸을 모델링할 필요가 있다.
LDA 모형으로는 한계가 있다!

3.1 Netflix 사례 소개
우리만 이런 고민을 하는 것일까?
• Spark Streaming and GraphX at Netflix(May 19, 2015)
• https://www.youtube.com/watch?v=gqgPtcDmLGs&t=3814

3.2 병렬 계산 알고리즘 개발(2014~2015)
Partially Collapsed Gibbs Sampler(LDA)
• 𝜃𝑗 에 대해서는 표본 추출하지 않는다.
• ℎ 𝑘(𝑤) 는 𝑘 번째 토픽의 히스토그램(토픽별 단어 counting)
• ℎ𝑗
−𝑖
(𝑘) 는 𝑗 번째 문서의 히스토그램(문서별 토픽 counting, 단 𝑖 번째 단어 제외)
• Sampling 𝜙 𝑘
𝜙 𝑘|𝑧 ∼ Dirichlet(𝛽 + ℎ 𝑘(1), ⋯ , 𝛽 + ℎ 𝑘(𝑊))
• Sampling 𝑧𝑗𝑖
𝑝 𝑧𝑗𝑖 = 𝑘 𝑧−𝑗𝑖
, 𝜙 ∝ 𝛼 + ℎ𝑗
−𝑖
(𝑘) 𝜙 𝑘𝑥 𝑗𝑖

3.2 병렬 계산 알고리즘 개발(2014~2015)
𝜙 𝑘
𝛼
𝛽
Partially Collapsed Gibbs Sampler(LDA)
• 한 문서 안에서 토픽 라벨 추출 ⇨ 순차적으로
• 다른 문서 별로 토픽 라벨 추출 ⇨ 병렬로

3.2 병렬계산 알고리즘 개발(2014~2015)
실험 결과
• C언어로 pthead, MPI를 이용해서 병렬 계산
• 실험 데이터: 네이버 블로그 문서(6,970,993개 문서, 464,361개 단어)
• 실험 환경
 12 nodes
 CPU: Intel(R) Xeon(R) 2.00GHz * 24ro(hyper-threading)
 Memory: 48GB
• 실험 결과
 프로세서 144개로 58배 속도 향상
 Hyper-threading으로 66배 속도 향상

3.2 병렬계산 알고리즘 개발(2014~2015)
0
20,000
40,000
60,000
80,000
100,000
120,000
140,000
1 2 4 8 12 24 36 48 60 72 84 96 108 120 132 144
실
행
시
간
(
초
)
프로세서 수
실험 결과

4.1 학습 데이터 분석
네이버 뉴스 기사(2013.07.01~06)
• 53,607개 문서 X 134,076개 단어
• 20개 토픽 LDA

네이버 뉴스 기사(2013.07.01~06)
No. 1 2 3 4 5 6 7 8 9 10
주요단어
(Top 10)
사진
온라인
영화
반응
공개
모습
최근
화제
방송
네티즌
중국
북한
미국
대통령
우리
정부
회담
국가
한국
러시아
의원
국정원
국회
민주당
조사
공개
새누리당
대통령
국정
관련
지방
뉴스
지역
경향
장마
서울
사고
신문
오후
전선
기업
그룹
회장
사업
삼성
경영
현대
회사
대표
업체
금융
은행
기업
시장
대출
금리
투자
증권
자금
우리
시장
분기
실적
기록
상승
증권
삼성
지수
하락
투자
공단
개성
회담
남북
북한
실무
문제
우리
정부
기업
사람
우리
생각
한국
자신
문제
정도
일보
마음
여성
고객
여름
브랜드
제공
상품
가격
이벤트
할인
호텔
다양

네이버 뉴스 기사(2013.07.01~06)
No. 1 2 3 4 5 6 7 8 9 10
주요단어
(Top 10)
사진
온라인
영화
반응
공개
모습
최근
화제
방송
네티즌
중국
북한
미국
대통령
우리
정부
회담
국가
한국
러시아
의원
국정원
국회
민주당
조사
공개
새누리당
대통령
국정
관련
지방
뉴스
지역
경향
장마
서울
사고
신문
오후
전선
기업
그룹
회장
사업
삼성
경영
현대
회사
대표
업체
금융
은행
기업
시장
대출
금리
투자
증권
자금
우리
시장
분기
실적
기록
상승
증권
삼성
지수
하락
투자
공단
개성
회담
남북
북한
실무
문제
우리
정부
기업
사람
우리
생각
한국
자신
문제
정도
일보
마음
여성
고객
여름
브랜드
제공
상품
가격
이벤트
할인
호텔
다양
네이밍 연예 외교 정치 날씨 재계 금융 증권/주식 북한 사회/생활 소비
뉴스기사수 2,206 953 2,021 2,331 930 1,101 1,974 1,262 281 1,071

네이버 뉴스 기사(2013.07.01~06)
No. 11 12 13 14 15 16 17 18 19 20
주요단어
(Top 10)
게임
선수
대회
모바일
진행
경기
유저
서비스
대표
이번
과학
거래
정보
정부
국회
경제
개정안
법안
경우
벨트
스마트
삼성
전자
제품
서비스
시장
애플
사용
출시
기술
이집트
대통령
무르시
군부
시위
현지
시간
정부
무슬림
금연
협의
검찰
경찰
구속
서울
회장
수사
조사
영장
원전
교육
대학
지원
과장
학교
지역
서장
학생
활동
사회
병원
경우
치료
건강
환자
제품
피부
사용
수술
관리
사업
지역
건설
공사
시설
정부
추진
계획
개발
아파트
판매
고객
자동차
항공
모델
차량
서비스
제공
국내
가격
임금
최저
노조
주파수
연금
번호
인상
위원회
결정
병사

네이버 뉴스 기사(2013.07.01~06)
No. 11 12 13 14 15 16 17 18 19 20
주요단어
(Top 10)
게임
선수
대회
모바일
진행
경기
유저
서비스
대표
이번
과학
거래
정보
정부
국회
경제
개정안
법안
경우
벨트
스마트
삼성
전자
제품
서비스
시장
애플
사용
출시
기술
이집트
대통령
무르시
군부
시위
현지
시간
정부
무슬림
금연
협의
검찰
경찰
구속
서울
회장
수사
조사
영장
원전
교육
대학
지원
과장
학교
지역
서장
학생
활동
사회
병원
경우
치료
건강
환자
제품
피부
사용
수술
관리
사업
지역
건설
공사
시설
정부
추진
계획
개발
아파트
판매
고객
자동차
항공
모델
차량
서비스
제공
국내
가격
임금
최저
노조
주파수
연금
번호
인상
위원회
결정
병사
네이밍 게임 정부정책 IT 외신 검찰 교육 의료 부동산 자동차 근로
뉴스기사수 1,188 488 970 773 1,575 667 729 904 824 743

• 1,367,230개 문서 X 10,279,904개 단어

No. 1 2 3
주요단어
(Top 10)
People
War
President
Government
Israel
Said
World
Country
Military
Iraq
Data
England
Social
Health
Wales
Population
Statistics
Department
Defence
Ministry
2014
Events
Contact
News
Home
Event
Available
Day
London
Information
주요 도메인
news.bbc.co.uk
www.telegraph.co.uk
www.bbc.co.uk
data.gov.uk
www.ucl.ac.uk
www.visionofbritain.org.uk
www.ons.gov.uk
www.hse.gov.uk
www.eventbrite.co.uk
ojp.nationalrail.co.uk
www.ucl.ac.uk
www.nationalrail.co.uk
www.english-
heritage.org.uk

네이버 쇼핑 ‘원피스’ 상품(2015.04)
• 159,689개 문서 X 61,911개 단어

소재 FIT 색상/무늬 행사/EVENT BEACH
2015.04
(여름준비)
• 린넨
• 자수
• 플리츠
• 날씬해
• 피케
• 화이트
• 체크
• 플라워
• 하객
• 셀프촬영
• 비치
• 바캉스
• 토픽이 시간에 따라 변한다.

소재 FIT 색상/무늬 행사/EVENT BEACH
2015.04
(여름준비)
• 린넨
• 자수
• 플리츠
• 날씬해
• 피케
• 화이트
• 체크
• 플라워
• 하객
• 셀프촬영
• 비치
• 바캉스
2014.10
(겨울준비)
• 모직
• 두툼한
• 소프트 / 니트
• 시보리 / 니트
• 여리여리
• 단정한
• 프릴
• 로맨틱
• 차콜/블랙/와인/카
멜
• 플라워
• 하객룩
• 웨딩
• 셀프웨딩
• 비치
• 여름
seasonal ordinary
• 토픽이 시간에 따라 변한다.

네이버 블로그 문서(2016.09)
• 538,378개 문서 X 578,126개 단어

맛집
26.2%
연예인
19.8%
건강
10.1%상품리뷰와
구매정보
8.7%
여행
6.8%
사회/종교
4.3%
기타
3.5%
레시피
3.1%
경제
3.0%
부동산
2.5%
교육
2.0%
게임
2.0%
문화
2.0%
가정/육아
1.8%
웨딩
1.7%
일상
1.5%
뷰티
1.0%

주요 토픽 주요 단어
건강1
건강, 섭취, 비타민, 효능, 식품, 다이어트, 물질, 성분, 단백질, 김해, 음식, 작용, 세포, 지방, 풍부, 칼로리, 식물,
예방, 발효, 홍삼, 영양, 소화, 함유, 효소, 도움, 유산균, 천연, 칼슘, 콜레스테롤, 면역력, 변비, 사료, 누수, 탄수
화물, 영양소, 사과, 해독, 함량, 재배, 열매, 복용, 담배, 산소, 농장
건강2
운동, 치료, 병원, 증상, 수술, 검사, 근육, 통증, 환자, 임신, 자세, 원인, 교정, 질환, 진료, 주사, 치과, 자궁, 동작,
의사, 스트레칭, 한의원, 관절, 생리, 발생, 진단, 감염, 치아, 검진, 접종, 부위, 장애, 무릎, 요가, 골반, 호흡, 다
리, 처방, 허리, 증후군, 외과, 척추, 약물, 입원, 필라테스, 태아, 출혈, 질병, 바이러스, 초음파

주요 토픽 주요 단어
여행1
호텔, 제주, 펜션, 제주도, 리조트, 캠핑, 수영장, 캠핑장, 하우스, 객실, 텐트, 조식, 바다, 스파, 예약, 숙박, 게스트, 화
장실, 비치, 시설, 마사지, 바베큐, 수영, 물놀이, 로비, 글램핑, 샤워실, 제주시, 베드, 이용, 풀빌라, 체크인, 힐링, 해변,
모텔, 우도, 샤워, 찜질방, 온천, 자치도, 가평, 서귀포, 카라반, 야외, 사이트, 독채, 창녕, 사우나, 민박, 애월
여행2
여행, 공항, 일본, 오사카, 버스, 홍콩, 투어, 대만, 비행기, 한국, 항공, 도쿄, 쇼핑, 택시, 베트남, 태국, 후쿠오카, 방콕,
도착, 숙소, 오키나와, 하와이, 티켓, 교토, 패스, 료칸, 캐리어, 현지, 일정, 한국인, 마카오, 자유, 필리핀, 지하철, 환전,
난바, 탑승, 스위스, 이동, 기념품, 시내, 유럽, 유후인, 가이드, 세부, 면세점, 하카타, 파리, 항공권, 프라하
여행3
마을, 공원, 코스, 체험, 부산, 전주, 풍경, 한옥, 해운대, 나무, 여수, 호수, 도로, 주차장, 정원, 박물관, 강릉, 터미널, 전
망대, 폭포, 구경, 가을, 바위, 춘천, 대교, 한강, 주차, 코스모스, 산책, 입구, 입장료, 출발, 단풍, 파크, 계곡, 바람, 날씨,
산행, 강원도, 하늘, 순천, 고속, 야경, 경주, 놀이, 광안리, 나들이, 생태, 포항, 언덕

5.1 토픽모형 – HDP(2006)
𝜙 𝑘
𝛼0
𝛼1
𝛽
𝜋
• HDP: Hierarchical Dirichlet Process, The et al. (2006)
• 모수
 𝜙 𝑘: 토픽
 𝜃𝑗: 각 문서별 토픽 혼합 비율
 𝜋: 문서집합 전체의 토픽 혼합 비율

5.1 토픽모형: LDA vs. HDP
• HDP 토픽 모형이 LDA 토픽 모형과 다른 점
 사전분포가 Dirichlet distribution에서 Dirichlet process로 바뀌었다.
 모수 𝜋를 통해 문서 집합 전체에서 각 토픽의 비중을 알 수 있다.
 토픽의 개수를 미리 정하지 않는다.
 토픽의 개수에 제한을 두지 않는다.(∞)
 자동으로 최적의 토픽 개수가 정해진다.
 따로 모형 선택의 절차가 필요하지 않다.

5.2 Streaming Data
• 누적되면서 양이 점점 많아진다.
 데이터를 나누어서 학습
• 시간의 흐름에 따라 모형의 변화를 관찰하고 싶다.
 이전 데이터에서 학습된 정보가 새로운 데이터를 학습하면서 업데이트
• LDA 모형은 토픽의 개수가 고정되어 있어 시간에 따라 변하지 않는다.
 HDP 모형을 이용해 토픽의 생성, 소멸을 모형에 반영할 수 있다.
Online HDP 알고리즘이 필요하다!

5.3 온라인 알고리즘
Online HDP Model(Wang et. al. 2011)
• 데이터를 순차적으로 처리한다.
• 모형이 주기적으로 업데이트된다.
Data1
Model1
Data2
Model2
Data3
Model3

5.4 진행중인 작업
Mini-batch Gibbs sampling 알고리즘 개발(2016, ECML-PKDD)
• 이전 데이터에서 추출한 정보를 다음 데이터의 사전분포로 넘겨 준다.
• 사후분포의 표본으로부터 사전분포의 초모수를 추정한다.
Data1
사
전
분
포
1
사
후
분
포
1
Data2
사
전
분
포
2
사
후
분
포
2

5.4 진행중인 작업
Mini-batch Gibbs sampling 알고리즘 개발(2016, ECML-PKDD)
• 실험용 데이터
 KOS
 NIPS
• VB 알고리즘에 비해 MCMC 알고리즘이 더 좋은 결과를 보여준다.
• Mini-batch를 거듭해 학습할수록 Full Gibbs sampling 결과와 비슷해진다.

6.1 Discussion
빅데이터 상황에 맞게 알고리즘도 진화해야 한다.
Online modeling을 통해 streaming data의 시간의 흐름에 따른 추이를 살펴볼 수 있다.

인프라데이터 알고리즘
6.1 Discussion

[214]베이지안토픽모형 강병엽

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to [214]베이지안토픽모형 강병엽

Similar to [214]베이지안토픽모형 강병엽 (20)

More from NAVER D2

More from NAVER D2 (20)

[214]베이지안토픽모형 강병엽