SlideShare a Scribd company logo
빅데이터 분석에 적합한
LDA & HDP 베이지안
토픽모형에 대한 알고리즘 개발
강병엽
NAVER SEARCH
CONTENTS
1. 베이지안 토픽모형
2. 풀고 싶은 문제와 고민들
3. 병렬계산 알고리즘
4. 토픽모형의 적용
5. 온라인 알고리즘
6. Discussion
1.
베이지안 토픽모형
1.1 토픽모형
• 토픽은 사전 위에 분포
• 각 문서는 여러 토픽의
혼합으로 구성
• 문서 내 출현 단어는
특정 토픽에서 추출
Blei, D. M. (2012). Probabilistic topic models. Communications of the ACM
베이즈 정리
• 데이터가 𝐷, 모수가 𝜃 일 때
베이지안 토픽모형
• LDA: Latent Dirichlet Allocation, Blei et al. (2003)
1.1 토픽모형 - Bayesian Modeling
사후분포 ∝ 우도함수 × 사전분포
𝑝 𝜃 𝐷 ∝ 𝑝 𝐷 𝜃 × 𝑝(𝜃)
Thomas Bayes(1701~1761)
• 모수
 𝜙 𝑘: 토픽
 𝜃𝑗: 각 문서별 토픽 혼합 비율
• 사전분포
 𝜙 𝑘 ∈ R 𝑊 ∼ Dirichlet(𝛽, ⋯ , 𝛽)
 𝜃𝑗 ∈ R 𝐾 ∼ Dirichlet(𝛼, ⋯ , 𝛼)
• 초모수(사전분포의 모수)
 𝛼, 𝛽
1.1 토픽모형 – LDA(2003)
𝜃𝑗 𝑧𝑗𝑖 𝑥𝑗𝑖
𝜙 𝑘
𝛼
𝛽
1.2 Inference & Learning
사후분포를 정확히 계산하기 힘들다.
Approximation methods
• MCMC(Monte Carlo Markov Chain)
 사후분포에서 표본을 많이 추출하여 추론
 Gibbs sampling 방법을 주로 사용
 정확도 높으나 속도가 느림
• VB(Variational Bayesian)
 속도가 빠르나 정확도 낮음
2.
풀고 싶은 문제와 고민들
2.1 대규모 문서의 이해
데이터센터 각
2.2 학습 데이터
네이버 뉴스 기사(2013)
• 2013년 7월 1일부터 7일 까지 작성된 뉴스 기사 데이터
 연예/스포츠 카테고리에 속하는 뉴스기사는 제외
• 데이터 규모
문서수 N 53,607
유니크 단어수 N 134,076
2.2 학습 데이터
네이버 뉴스 기사(2013)
• 그때 그 시절(2013. 7. 1 ~ 7. 7)
 이집트 군부 vs. 무르시 대통령
 국정원 대화록 공개
 스노든 사건
 남북 개성공단 실무회담 성사
 재가동 원칙 합의(7/7)
 아시아나 항공기 샌프란시스코 불시착(7/7)
2.2 학습 데이터
수집 .uk 웹문서(2014)
• 네이버 웹검색 데이터 중 .uk 도메인 웹문서
• 데이터 규모
문서수 N 1,367,230
유니크 단어수 N 10,279,904
문서길이 평균 710
Word count 총합 970,650,419
2.2 학습 데이터
수집 .uk 웹데이터(2014)
• 도메인 분석
 유니크 도메인 수는 약 14만개
 문서수 기준 인기 도메인
 BBC (bbc.co.kr)
 런던 대중교통 정보(tfl.gov.uk)
 테이트갤러리(tate.org.uk)
 University College London(ucl.ac.uk)
 피터팬 작가 J.M.Barrie 홈페이지(jmbarrie.co.uk)
2.2 학습 데이터
수집 .uk 웹데이터(2014)
• 다국어 처리
 bbc.co.uk
 다양한 외국어
 ASCII 코드 조건 적용
2.2 학습 데이터
네이버 쇼핑 상품(2015. 04)
2.2 학습 데이터
네이버 쇼핑 상품(2015. 04)
• 네이버 쇼핑 ‘원피스’ 카테고리에 등록된 상품 중 일부
• 데이터 규모
문서(쇼핑몰-상품)수 N 159,689
상품수 N 61,911
단어수 N 16,574
2.2 학습 데이터
네이버 블로그 문서(2016. 09)
• 사용자 공유가 많은 블로그 문서 일부
 네이버 블로그 일간 PV 2%
• 데이터 규모
문서수 N 538,378
유니크 단어수 N 578,126
Word count N 87,969,309
2.3 빅데이터 토픽모형 & 문제점
토픽모형 추론 알고리즘 비교 분석(2013~2014)
• 다양한 open source들을 이용해 분석을 시도해 봄
• MCMC 결과가 VB 결과보다 더 좋음
 정량적: Test Likelihood
 정성적: 추출된 토픽을 직접 관찰
• MCMC 방법은 시간이 너무 오래 걸림
• Accuracy vs. Cost
• Infra를 활용해 MCMC 방법의 속도 향상이 가능한가?
• 병렬 계산이 가능한 MCMC 알고리즘의 개발이 필요한가?
2.3 빅데이터 토픽모형 & 문제점
Big Data & Streaming Data
• 시간의 흐름에 따라 축적된다.
 누적되면서 양이 점점 많아진다.
 시간의 흐름에 따라 모형의 변화를 관찰하고 싶다.
 토픽의 생성, 변화, 소멸을 모델링할 필요가 있다.
LDA 모형으로는 한계가 있다!
3.
병렬 계산 알고리즘
3.1 Netflix 사례 소개
우리만 이런 고민을 하는 것일까?
• Spark Streaming and GraphX at Netflix(May 19, 2015)
• https://www.youtube.com/watch?v=gqgPtcDmLGs&t=3814
3.1 Netflix 사례 소개
3.2 병렬 계산 알고리즘 개발(2014~2015)
Partially Collapsed Gibbs Sampler(LDA)
• 𝜃𝑗 에 대해서는 표본 추출하지 않는다.
• ℎ 𝑘(𝑤) 는 𝑘 번째 토픽의 히스토그램(토픽별 단어 counting)
• ℎ𝑗
−𝑖
(𝑘) 는 𝑗 번째 문서의 히스토그램(문서별 토픽 counting, 단 𝑖 번째 단어 제외)
• Sampling 𝜙 𝑘
𝜙 𝑘|𝑧 ∼ Dirichlet(𝛽 + ℎ 𝑘(1), ⋯ , 𝛽 + ℎ 𝑘(𝑊))
• Sampling 𝑧𝑗𝑖
𝑝 𝑧𝑗𝑖 = 𝑘 𝑧−𝑗𝑖
, 𝜙 ∝ 𝛼 + ℎ𝑗
−𝑖
(𝑘) 𝜙 𝑘𝑥 𝑗𝑖
3.2 병렬 계산 알고리즘 개발(2014~2015)
𝜃𝑗 𝑧𝑗𝑖 𝑥𝑗𝑖
𝜙 𝑘
𝛼
𝛽
Partially Collapsed Gibbs Sampler(LDA)
• 한 문서 안에서 토픽 라벨 추출 ⇨ 순차적으로
• 다른 문서 별로 토픽 라벨 추출 ⇨ 병렬로
3.2 병렬계산 알고리즘 개발(2014~2015)
실험 결과
• C언어로 pthead, MPI를 이용해서 병렬 계산
• 실험 데이터: 네이버 블로그 문서(6,970,993개 문서, 464,361개 단어)
• 실험 환경
 12 nodes
 CPU: Intel(R) Xeon(R) 2.00GHz * 24ro(hyper-threading)
 Memory: 48GB
• 실험 결과
 프로세서 144개로 58배 속도 향상
 Hyper-threading으로 66배 속도 향상
3.2 병렬계산 알고리즘 개발(2014~2015)
0
20,000
40,000
60,000
80,000
100,000
120,000
140,000
1 2 4 8 12 24 36 48 60 72 84 96 108 120 132 144
실
행
시
간
(
초
)
프로세서 수
실험 결과
4.
토픽 모형의 적용
4.1 학습 데이터 분석
네이버 뉴스 기사(2013.07.01~06)
• 53,607개 문서 X 134,076개 단어
• 20개 토픽 LDA
4.1 학습 데이터 분석
네이버 뉴스 기사(2013.07.01~06)
No. 1 2 3 4 5 6 7 8 9 10
주요단어
(Top 10)
사진
온라인
영화
반응
공개
모습
최근
화제
방송
네티즌
중국
북한
미국
대통령
우리
정부
회담
국가
한국
러시아
의원
국정원
국회
민주당
조사
공개
새누리당
대통령
국정
관련
지방
뉴스
지역
경향
장마
서울
사고
신문
오후
전선
기업
그룹
회장
사업
삼성
경영
현대
회사
대표
업체
금융
은행
기업
시장
대출
금리
투자
증권
자금
우리
시장
분기
실적
기록
상승
증권
삼성
지수
하락
투자
공단
개성
회담
남북
북한
실무
문제
우리
정부
기업
사람
우리
생각
한국
자신
문제
정도
일보
마음
여성
고객
여름
브랜드
제공
상품
가격
이벤트
할인
호텔
다양
4.1 학습 데이터 분석
네이버 뉴스 기사(2013.07.01~06)
No. 1 2 3 4 5 6 7 8 9 10
주요단어
(Top 10)
사진
온라인
영화
반응
공개
모습
최근
화제
방송
네티즌
중국
북한
미국
대통령
우리
정부
회담
국가
한국
러시아
의원
국정원
국회
민주당
조사
공개
새누리당
대통령
국정
관련
지방
뉴스
지역
경향
장마
서울
사고
신문
오후
전선
기업
그룹
회장
사업
삼성
경영
현대
회사
대표
업체
금융
은행
기업
시장
대출
금리
투자
증권
자금
우리
시장
분기
실적
기록
상승
증권
삼성
지수
하락
투자
공단
개성
회담
남북
북한
실무
문제
우리
정부
기업
사람
우리
생각
한국
자신
문제
정도
일보
마음
여성
고객
여름
브랜드
제공
상품
가격
이벤트
할인
호텔
다양
네이밍 연예 외교 정치 날씨 재계 금융 증권/주식 북한 사회/생활 소비
뉴스기사수 2,206 953 2,021 2,331 930 1,101 1,974 1,262 281 1,071
4.1 학습 데이터 분석
네이버 뉴스 기사(2013.07.01~06)
No. 11 12 13 14 15 16 17 18 19 20
주요단어
(Top 10)
게임
선수
대회
모바일
진행
경기
유저
서비스
대표
이번
과학
거래
정보
정부
국회
경제
개정안
법안
경우
벨트
스마트
삼성
전자
제품
서비스
시장
애플
사용
출시
기술
이집트
대통령
무르시
군부
시위
현지
시간
정부
무슬림
금연
협의
검찰
경찰
구속
서울
회장
수사
조사
영장
원전
교육
대학
지원
과장
학교
지역
서장
학생
활동
사회
병원
경우
치료
건강
환자
제품
피부
사용
수술
관리
사업
지역
건설
공사
시설
정부
추진
계획
개발
아파트
판매
고객
자동차
항공
모델
차량
서비스
제공
국내
가격
임금
최저
노조
주파수
연금
번호
인상
위원회
결정
병사
4.1 학습 데이터 분석
네이버 뉴스 기사(2013.07.01~06)
No. 11 12 13 14 15 16 17 18 19 20
주요단어
(Top 10)
게임
선수
대회
모바일
진행
경기
유저
서비스
대표
이번
과학
거래
정보
정부
국회
경제
개정안
법안
경우
벨트
스마트
삼성
전자
제품
서비스
시장
애플
사용
출시
기술
이집트
대통령
무르시
군부
시위
현지
시간
정부
무슬림
금연
협의
검찰
경찰
구속
서울
회장
수사
조사
영장
원전
교육
대학
지원
과장
학교
지역
서장
학생
활동
사회
병원
경우
치료
건강
환자
제품
피부
사용
수술
관리
사업
지역
건설
공사
시설
정부
추진
계획
개발
아파트
판매
고객
자동차
항공
모델
차량
서비스
제공
국내
가격
임금
최저
노조
주파수
연금
번호
인상
위원회
결정
병사
네이밍 게임 정부정책 IT 외신 검찰 교육 의료 부동산 자동차 근로
뉴스기사수 1,188 488 970 773 1,575 667 729 904 824 743
4.1 학습 데이터 분석
수집 .uk 웹문서(2014)
• 1,367,230개 문서 X 10,279,904개 단어
• 100개 토픽 LDA
4.1 학습 데이터 분석
수집 .uk 웹문서(2014)
No. 1 2 3
주요단어
(Top 10)
People
War
President
Government
Israel
Said
World
Country
Military
Iraq
Data
England
Social
Health
Wales
Population
Statistics
Department
Defence
Ministry
2014
Events
Contact
News
Home
Event
Available
Day
London
Information
주요 도메인
news.bbc.co.uk
www.telegraph.co.uk
www.bbc.co.uk
data.gov.uk
www.ucl.ac.uk
www.visionofbritain.org.uk
www.ons.gov.uk
www.hse.gov.uk
www.eventbrite.co.uk
ojp.nationalrail.co.uk
www.ucl.ac.uk
www.nationalrail.co.uk
www.english-
heritage.org.uk
4.1 학습 데이터 분석
네이버 쇼핑 ‘원피스’ 상품(2015.04)
• 159,689개 문서 X 61,911개 단어
• 20개 토픽 LDA
4.1 학습 데이터 분석
소재 FIT 색상/무늬 행사/EVENT BEACH
2015.04
(여름준비)
• 린넨
• 자수
• 플리츠
• 날씬해
• 피케
• 화이트
• 체크
• 플라워
• 하객
• 셀프촬영
• 비치
• 바캉스
네이버 쇼핑 ‘원피스’ 상품(2015.04)
• 토픽이 시간에 따라 변한다.
4.1 학습 데이터 분석
소재 FIT 색상/무늬 행사/EVENT BEACH
2015.04
(여름준비)
• 린넨
• 자수
• 플리츠
• 날씬해
• 피케
• 화이트
• 체크
• 플라워
• 하객
• 셀프촬영
• 비치
• 바캉스
2014.10
(겨울준비)
• 모직
• 두툼한
• 소프트 / 니트
• 시보리 / 니트
• 여리여리
• 단정한
• 프릴
• 로맨틱
• 차콜/블랙/와인/카
멜
• 플라워
• 하객룩
• 웨딩
• 셀프웨딩
• 비치
• 여름
seasonal ordinary
네이버 쇼핑 ‘원피스’ 상품(2014.10)
• 토픽이 시간에 따라 변한다.
4.1 학습 데이터 분석
네이버 블로그 문서(2016.09)
• 538,378개 문서 X 578,126개 단어
• 30개 토픽 LDA
4.1 학습 데이터 분석
맛집
26.2%
연예인
19.8%
건강
10.1%상품리뷰와
구매정보
8.7%
여행
6.8%
사회/종교
4.3%
기타
3.5%
레시피
3.1%
경제
3.0%
부동산
2.5%
교육
2.0%
게임
2.0%
문화
2.0%
가정/육아
1.8%
웨딩
1.7%
일상
1.5%
뷰티
1.0%
네이버 블로그 문서(2016.09)
4.1 학습 데이터 분석
네이버 블로그 문서(2016.09)
주요 토픽 주요 단어
건강1
건강, 섭취, 비타민, 효능, 식품, 다이어트, 물질, 성분, 단백질, 김해, 음식, 작용, 세포, 지방, 풍부, 칼로리, 식물,
예방, 발효, 홍삼, 영양, 소화, 함유, 효소, 도움, 유산균, 천연, 칼슘, 콜레스테롤, 면역력, 변비, 사료, 누수, 탄수
화물, 영양소, 사과, 해독, 함량, 재배, 열매, 복용, 담배, 산소, 농장
건강2
운동, 치료, 병원, 증상, 수술, 검사, 근육, 통증, 환자, 임신, 자세, 원인, 교정, 질환, 진료, 주사, 치과, 자궁, 동작,
의사, 스트레칭, 한의원, 관절, 생리, 발생, 진단, 감염, 치아, 검진, 접종, 부위, 장애, 무릎, 요가, 골반, 호흡, 다
리, 처방, 허리, 증후군, 외과, 척추, 약물, 입원, 필라테스, 태아, 출혈, 질병, 바이러스, 초음파
4.1 학습 데이터 분석
네이버 블로그 문서(2016.09)
주요 토픽 주요 단어
여행1
호텔, 제주, 펜션, 제주도, 리조트, 캠핑, 수영장, 캠핑장, 하우스, 객실, 텐트, 조식, 바다, 스파, 예약, 숙박, 게스트, 화
장실, 비치, 시설, 마사지, 바베큐, 수영, 물놀이, 로비, 글램핑, 샤워실, 제주시, 베드, 이용, 풀빌라, 체크인, 힐링, 해변,
모텔, 우도, 샤워, 찜질방, 온천, 자치도, 가평, 서귀포, 카라반, 야외, 사이트, 독채, 창녕, 사우나, 민박, 애월
여행2
여행, 공항, 일본, 오사카, 버스, 홍콩, 투어, 대만, 비행기, 한국, 항공, 도쿄, 쇼핑, 택시, 베트남, 태국, 후쿠오카, 방콕,
도착, 숙소, 오키나와, 하와이, 티켓, 교토, 패스, 료칸, 캐리어, 현지, 일정, 한국인, 마카오, 자유, 필리핀, 지하철, 환전,
난바, 탑승, 스위스, 이동, 기념품, 시내, 유럽, 유후인, 가이드, 세부, 면세점, 하카타, 파리, 항공권, 프라하
여행3
마을, 공원, 코스, 체험, 부산, 전주, 풍경, 한옥, 해운대, 나무, 여수, 호수, 도로, 주차장, 정원, 박물관, 강릉, 터미널, 전
망대, 폭포, 구경, 가을, 바위, 춘천, 대교, 한강, 주차, 코스모스, 산책, 입구, 입장료, 출발, 단풍, 파크, 계곡, 바람, 날씨,
산행, 강원도, 하늘, 순천, 고속, 야경, 경주, 놀이, 광안리, 나들이, 생태, 포항, 언덕
4.1 학습 데이터 분석
네이버 블로그 문서(2016.09)
5.
온라인 알고리즘
5.1 토픽모형 – HDP(2006)
𝜃𝑗 𝑧𝑗𝑖 𝑥𝑗𝑖
𝜙 𝑘
𝛼0
𝛼1
𝛽
𝜋
• HDP: Hierarchical Dirichlet Process, The et al. (2006)
• 모수
 𝜙 𝑘: 토픽
 𝜃𝑗: 각 문서별 토픽 혼합 비율
 𝜋: 문서집합 전체의 토픽 혼합 비율
5.1 토픽모형: LDA vs. HDP
• HDP 토픽 모형이 LDA 토픽 모형과 다른 점
 사전분포가 Dirichlet distribution에서 Dirichlet process로 바뀌었다.
 모수 𝜋를 통해 문서 집합 전체에서 각 토픽의 비중을 알 수 있다.
 토픽의 개수를 미리 정하지 않는다.
 토픽의 개수에 제한을 두지 않는다.(∞)
 자동으로 최적의 토픽 개수가 정해진다.
 따로 모형 선택의 절차가 필요하지 않다.
5.2 Streaming Data
• 누적되면서 양이 점점 많아진다.
 데이터를 나누어서 학습
• 시간의 흐름에 따라 모형의 변화를 관찰하고 싶다.
 이전 데이터에서 학습된 정보가 새로운 데이터를 학습하면서 업데이트
• LDA 모형은 토픽의 개수가 고정되어 있어 시간에 따라 변하지 않는다.
 HDP 모형을 이용해 토픽의 생성, 소멸을 모형에 반영할 수 있다.
Online HDP 알고리즘이 필요하다!
5.3 온라인 알고리즘
Online HDP Model(Wang et. al. 2011)
• 데이터를 순차적으로 처리한다.
• 모형이 주기적으로 업데이트된다.
Data1
Model1
Data2
Model2
Data3
Model3
5.4 진행중인 작업
Mini-batch Gibbs sampling 알고리즘 개발(2016, ECML-PKDD)
• 이전 데이터에서 추출한 정보를 다음 데이터의 사전분포로 넘겨 준다.
• 사후분포의 표본으로부터 사전분포의 초모수를 추정한다.
Data1
사
전
분
포
1
사
후
분
포
1
Data2
사
전
분
포
2
사
후
분
포
2
5.4 진행중인 작업
Mini-batch Gibbs sampling 알고리즘 개발(2016, ECML-PKDD)
• 실험용 데이터
 KOS
 NIPS
• VB 알고리즘에 비해 MCMC 알고리즘이 더 좋은 결과를 보여준다.
• Mini-batch를 거듭해 학습할수록 Full Gibbs sampling 결과와 비슷해진다.
6.
Discussion
6.1 Discussion
빅데이터 상황에 맞게 알고리즘도 진화해야 한다.
Online modeling을 통해 streaming data의 시간의 흐름에 따른 추이를 살펴볼 수 있다.
인프라데이터 알고리즘
6.1 Discussion
Q&A
Thank You

More Related Content

What's hot

[222]딥러닝을 활용한 이미지 검색 포토요약과 타임라인 최종 20161024
[222]딥러닝을 활용한 이미지 검색 포토요약과 타임라인 최종 20161024[222]딥러닝을 활용한 이미지 검색 포토요약과 타임라인 최종 20161024
[222]딥러닝을 활용한 이미지 검색 포토요약과 타임라인 최종 20161024
NAVER D2
 
임태현, Text-CNN을 이용한 Sentiment 분설모델 구현
임태현, Text-CNN을 이용한 Sentiment 분설모델 구현임태현, Text-CNN을 이용한 Sentiment 분설모델 구현
임태현, Text-CNN을 이용한 Sentiment 분설모델 구현
태현 임
 
NLU Tech Talk with KorBERT
NLU Tech Talk with KorBERTNLU Tech Talk with KorBERT
NLU Tech Talk with KorBERT
LGCNSairesearch
 
딥러닝 자연어처리 - RNN에서 BERT까지
딥러닝 자연어처리 - RNN에서 BERT까지딥러닝 자연어처리 - RNN에서 BERT까지
딥러닝 자연어처리 - RNN에서 BERT까지
deepseaswjh
 
문자 단위의 Neural Machine Translation
문자 단위의 Neural Machine Translation문자 단위의 Neural Machine Translation
문자 단위의 Neural Machine Translation
NAVER LABS
 
딥러닝을 이용한 자연어처리의 연구동향
딥러닝을 이용한 자연어처리의 연구동향딥러닝을 이용한 자연어처리의 연구동향
딥러닝을 이용한 자연어처리의 연구동향
홍배 김
 
GNMT로 알아보는 신경망 기반 기계번역
GNMT로 알아보는 신경망 기반 기계번역GNMT로 알아보는 신경망 기반 기계번역
GNMT로 알아보는 신경망 기반 기계번역
Byeong il Ko
 
Python을 활용한 챗봇 서비스 개발 2일차
Python을 활용한 챗봇 서비스 개발 2일차Python을 활용한 챗봇 서비스 개발 2일차
Python을 활용한 챗봇 서비스 개발 2일차
Taekyung Han
 
Lab Seminar - Reading Wikipedia to Answer Open-Domain Questions (DrQA)
Lab Seminar - Reading Wikipedia to Answer Open-Domain Questions (DrQA)Lab Seminar - Reading Wikipedia to Answer Open-Domain Questions (DrQA)
Lab Seminar - Reading Wikipedia to Answer Open-Domain Questions (DrQA)
hkh
 
파이썬으로 익히는 딥러닝 기본 (18년)
파이썬으로 익히는 딥러닝 기본 (18년)파이썬으로 익히는 딥러닝 기본 (18년)
파이썬으로 익히는 딥러닝 기본 (18년)
SK(주) C&C - 강병호
 
제11회공개sw개발자대회 금상 TensorMSA(소개)
제11회공개sw개발자대회 금상 TensorMSA(소개)제11회공개sw개발자대회 금상 TensorMSA(소개)
제11회공개sw개발자대회 금상 TensorMSA(소개)
Susang Kim
 
파이썬을 활용한 챗봇 서비스 개발 3일차
파이썬을 활용한 챗봇 서비스 개발 3일차파이썬을 활용한 챗봇 서비스 개발 3일차
파이썬을 활용한 챗봇 서비스 개발 3일차
Taekyung Han
 
[Tf2017] day1 jwkang_pub
[Tf2017] day1 jwkang_pub[Tf2017] day1 jwkang_pub
[Tf2017] day1 jwkang_pub
Jaewook. Kang
 
연구실 세미나 Show and tell google image captioning
연구실 세미나 Show and tell google image captioning연구실 세미나 Show and tell google image captioning
연구실 세미나 Show and tell google image captioning
hkh
 
(Kor ver.)NLP embedding(word2vec) tutorial & implementation(Tensorflow)
(Kor ver.)NLP embedding(word2vec) tutorial & implementation(Tensorflow)(Kor ver.)NLP embedding(word2vec) tutorial & implementation(Tensorflow)
(Kor ver.)NLP embedding(word2vec) tutorial & implementation(Tensorflow)
Adonis Han
 
Deview deep learning-김정희
Deview deep learning-김정희Deview deep learning-김정희
Deview deep learning-김정희NAVER D2
 
LDA : latent Dirichlet Allocation (Fairies NLP Series) - Korean Ver.
LDA : latent Dirichlet Allocation (Fairies NLP Series) - Korean Ver.LDA : latent Dirichlet Allocation (Fairies NLP Series) - Korean Ver.
LDA : latent Dirichlet Allocation (Fairies NLP Series) - Korean Ver.
Adonis Han
 
파이썬 데이터 분석 (18년)
파이썬 데이터 분석 (18년)파이썬 데이터 분석 (18년)
파이썬 데이터 분석 (18년)
SK(주) C&C - 강병호
 
EveryBody Tensorflow module3 GIST Jan 2018 Korean
EveryBody Tensorflow module3 GIST Jan 2018 KoreanEveryBody Tensorflow module3 GIST Jan 2018 Korean
EveryBody Tensorflow module3 GIST Jan 2018 Korean
Jaewook. Kang
 
[2D2]다국어음성합성시스템(NVOICE)개발
[2D2]다국어음성합성시스템(NVOICE)개발[2D2]다국어음성합성시스템(NVOICE)개발
[2D2]다국어음성합성시스템(NVOICE)개발
NAVER D2
 

What's hot (20)

[222]딥러닝을 활용한 이미지 검색 포토요약과 타임라인 최종 20161024
[222]딥러닝을 활용한 이미지 검색 포토요약과 타임라인 최종 20161024[222]딥러닝을 활용한 이미지 검색 포토요약과 타임라인 최종 20161024
[222]딥러닝을 활용한 이미지 검색 포토요약과 타임라인 최종 20161024
 
임태현, Text-CNN을 이용한 Sentiment 분설모델 구현
임태현, Text-CNN을 이용한 Sentiment 분설모델 구현임태현, Text-CNN을 이용한 Sentiment 분설모델 구현
임태현, Text-CNN을 이용한 Sentiment 분설모델 구현
 
NLU Tech Talk with KorBERT
NLU Tech Talk with KorBERTNLU Tech Talk with KorBERT
NLU Tech Talk with KorBERT
 
딥러닝 자연어처리 - RNN에서 BERT까지
딥러닝 자연어처리 - RNN에서 BERT까지딥러닝 자연어처리 - RNN에서 BERT까지
딥러닝 자연어처리 - RNN에서 BERT까지
 
문자 단위의 Neural Machine Translation
문자 단위의 Neural Machine Translation문자 단위의 Neural Machine Translation
문자 단위의 Neural Machine Translation
 
딥러닝을 이용한 자연어처리의 연구동향
딥러닝을 이용한 자연어처리의 연구동향딥러닝을 이용한 자연어처리의 연구동향
딥러닝을 이용한 자연어처리의 연구동향
 
GNMT로 알아보는 신경망 기반 기계번역
GNMT로 알아보는 신경망 기반 기계번역GNMT로 알아보는 신경망 기반 기계번역
GNMT로 알아보는 신경망 기반 기계번역
 
Python을 활용한 챗봇 서비스 개발 2일차
Python을 활용한 챗봇 서비스 개발 2일차Python을 활용한 챗봇 서비스 개발 2일차
Python을 활용한 챗봇 서비스 개발 2일차
 
Lab Seminar - Reading Wikipedia to Answer Open-Domain Questions (DrQA)
Lab Seminar - Reading Wikipedia to Answer Open-Domain Questions (DrQA)Lab Seminar - Reading Wikipedia to Answer Open-Domain Questions (DrQA)
Lab Seminar - Reading Wikipedia to Answer Open-Domain Questions (DrQA)
 
파이썬으로 익히는 딥러닝 기본 (18년)
파이썬으로 익히는 딥러닝 기본 (18년)파이썬으로 익히는 딥러닝 기본 (18년)
파이썬으로 익히는 딥러닝 기본 (18년)
 
제11회공개sw개발자대회 금상 TensorMSA(소개)
제11회공개sw개발자대회 금상 TensorMSA(소개)제11회공개sw개발자대회 금상 TensorMSA(소개)
제11회공개sw개발자대회 금상 TensorMSA(소개)
 
파이썬을 활용한 챗봇 서비스 개발 3일차
파이썬을 활용한 챗봇 서비스 개발 3일차파이썬을 활용한 챗봇 서비스 개발 3일차
파이썬을 활용한 챗봇 서비스 개발 3일차
 
[Tf2017] day1 jwkang_pub
[Tf2017] day1 jwkang_pub[Tf2017] day1 jwkang_pub
[Tf2017] day1 jwkang_pub
 
연구실 세미나 Show and tell google image captioning
연구실 세미나 Show and tell google image captioning연구실 세미나 Show and tell google image captioning
연구실 세미나 Show and tell google image captioning
 
(Kor ver.)NLP embedding(word2vec) tutorial & implementation(Tensorflow)
(Kor ver.)NLP embedding(word2vec) tutorial & implementation(Tensorflow)(Kor ver.)NLP embedding(word2vec) tutorial & implementation(Tensorflow)
(Kor ver.)NLP embedding(word2vec) tutorial & implementation(Tensorflow)
 
Deview deep learning-김정희
Deview deep learning-김정희Deview deep learning-김정희
Deview deep learning-김정희
 
LDA : latent Dirichlet Allocation (Fairies NLP Series) - Korean Ver.
LDA : latent Dirichlet Allocation (Fairies NLP Series) - Korean Ver.LDA : latent Dirichlet Allocation (Fairies NLP Series) - Korean Ver.
LDA : latent Dirichlet Allocation (Fairies NLP Series) - Korean Ver.
 
파이썬 데이터 분석 (18년)
파이썬 데이터 분석 (18년)파이썬 데이터 분석 (18년)
파이썬 데이터 분석 (18년)
 
EveryBody Tensorflow module3 GIST Jan 2018 Korean
EveryBody Tensorflow module3 GIST Jan 2018 KoreanEveryBody Tensorflow module3 GIST Jan 2018 Korean
EveryBody Tensorflow module3 GIST Jan 2018 Korean
 
[2D2]다국어음성합성시스템(NVOICE)개발
[2D2]다국어음성합성시스템(NVOICE)개발[2D2]다국어음성합성시스템(NVOICE)개발
[2D2]다국어음성합성시스템(NVOICE)개발
 

Similar to [214]베이지안토픽모형 강병엽

제1장 정보검색소개
제1장 정보검색소개제1장 정보검색소개
제1장 정보검색소개Chang-yong Jung
 
빅데이터의 이해
빅데이터의 이해빅데이터의 이해
빅데이터의 이해
수보 김
 
KrKwic내용분석특강(november2006)
KrKwic내용분석특강(november2006)KrKwic내용분석특강(november2006)
KrKwic내용분석특강(november2006)
Han Woo PARK
 
Human-Machine Interaction and AI
Human-Machine Interaction and AIHuman-Machine Interaction and AI
Human-Machine Interaction and AI
Dataya Nolja
 
Webonaver(2012-09-02)
Webonaver(2012-09-02)Webonaver(2012-09-02)
Webonaver(2012-09-02)Han Woo PARK
 
데이터시장의 트렌드와 예측 - 이영환
데이터시장의 트렌드와 예측 - 이영환 데이터시장의 트렌드와 예측 - 이영환
데이터시장의 트렌드와 예측 - 이영환
datasciencekorea
 
[2021 Google I/O] LaMDA : Language Models for DialogApplications
[2021 Google I/O] LaMDA : Language Models for DialogApplications[2021 Google I/O] LaMDA : Language Models for DialogApplications
[2021 Google I/O] LaMDA : Language Models for DialogApplications
taeseon ryu
 
La mda 딥러닝 논문읽기 모임, 2021 google IO
La mda 딥러닝 논문읽기 모임, 2021 google IOLa mda 딥러닝 논문읽기 모임, 2021 google IO
La mda 딥러닝 논문읽기 모임, 2021 google IO
taeseon ryu
 
농업 빅데이터를 활용한 병해충 발생 예측 모형
농업 빅데이터를 활용한 병해충 발생 예측 모형농업 빅데이터를 활용한 병해충 발생 예측 모형
농업 빅데이터를 활용한 병해충 발생 예측 모형
datasciencekorea
 
20150331 msr outreach media_roundtable_deck_연세대강홍구교수_음성합성
20150331 msr outreach media_roundtable_deck_연세대강홍구교수_음성합성20150331 msr outreach media_roundtable_deck_연세대강홍구교수_음성합성
20150331 msr outreach media_roundtable_deck_연세대강홍구교수_음성합성
Hye-rim Jang
 
LOD (linked open data) part 2 lod 구축과 현황
LOD (linked open data) part 2   lod 구축과 현황LOD (linked open data) part 2   lod 구축과 현황
LOD (linked open data) part 2 lod 구축과 현황
LiST Inc
 
Apache Hive: for business intelligence use and real-time I/O use (Korean)
Apache Hive: for business intelligence use and real-time I/O use (Korean)Apache Hive: for business intelligence use and real-time I/O use (Korean)
Apache Hive: for business intelligence use and real-time I/O use (Korean)
Teddy Choi
 
빅데이터와 딥러닝
빅데이터와 딥러닝빅데이터와 딥러닝
빅데이터와 딥러닝
재용 박
 
Linked Data 이야기
Linked Data 이야기Linked Data 이야기
Linked Data 이야기
Haklae Kim
 
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data
K data
 
20100407 박진호 d_lifecycle_kisti
20100407 박진호 d_lifecycle_kisti20100407 박진호 d_lifecycle_kisti
20100407 박진호 d_lifecycle_kisti
glorykim
 
인터넷 연구방법으로 E 사이언스 20 Oct2009
인터넷 연구방법으로 E 사이언스 20 Oct2009인터넷 연구방법으로 E 사이언스 20 Oct2009
인터넷 연구방법으로 E 사이언스 20 Oct2009Han Woo PARK
 
Machine Learning with Apache Spark and Zeppelin
Machine Learning with Apache Spark and ZeppelinMachine Learning with Apache Spark and Zeppelin
Machine Learning with Apache Spark and Zeppelin
Dataya Nolja
 
LOD 구축현황 과 현황
LOD 구축현황 과 현황LOD 구축현황 과 현황
LOD 구축현황 과 현황
sbchae
 

Similar to [214]베이지안토픽모형 강병엽 (20)

제1장 정보검색소개
제1장 정보검색소개제1장 정보검색소개
제1장 정보검색소개
 
빅데이터의 이해
빅데이터의 이해빅데이터의 이해
빅데이터의 이해
 
KrKwic내용분석특강(november2006)
KrKwic내용분석특강(november2006)KrKwic내용분석특강(november2006)
KrKwic내용분석특강(november2006)
 
Human-Machine Interaction and AI
Human-Machine Interaction and AIHuman-Machine Interaction and AI
Human-Machine Interaction and AI
 
Webonaver(2012-09-02)
Webonaver(2012-09-02)Webonaver(2012-09-02)
Webonaver(2012-09-02)
 
데이터시장의 트렌드와 예측 - 이영환
데이터시장의 트렌드와 예측 - 이영환 데이터시장의 트렌드와 예측 - 이영환
데이터시장의 트렌드와 예측 - 이영환
 
[2021 Google I/O] LaMDA : Language Models for DialogApplications
[2021 Google I/O] LaMDA : Language Models for DialogApplications[2021 Google I/O] LaMDA : Language Models for DialogApplications
[2021 Google I/O] LaMDA : Language Models for DialogApplications
 
La mda 딥러닝 논문읽기 모임, 2021 google IO
La mda 딥러닝 논문읽기 모임, 2021 google IOLa mda 딥러닝 논문읽기 모임, 2021 google IO
La mda 딥러닝 논문읽기 모임, 2021 google IO
 
농업 빅데이터를 활용한 병해충 발생 예측 모형
농업 빅데이터를 활용한 병해충 발생 예측 모형농업 빅데이터를 활용한 병해충 발생 예측 모형
농업 빅데이터를 활용한 병해충 발생 예측 모형
 
20150331 msr outreach media_roundtable_deck_연세대강홍구교수_음성합성
20150331 msr outreach media_roundtable_deck_연세대강홍구교수_음성합성20150331 msr outreach media_roundtable_deck_연세대강홍구교수_음성합성
20150331 msr outreach media_roundtable_deck_연세대강홍구교수_음성합성
 
LOD (linked open data) part 2 lod 구축과 현황
LOD (linked open data) part 2   lod 구축과 현황LOD (linked open data) part 2   lod 구축과 현황
LOD (linked open data) part 2 lod 구축과 현황
 
Apache Hive: for business intelligence use and real-time I/O use (Korean)
Apache Hive: for business intelligence use and real-time I/O use (Korean)Apache Hive: for business intelligence use and real-time I/O use (Korean)
Apache Hive: for business intelligence use and real-time I/O use (Korean)
 
빅데이터와 딥러닝
빅데이터와 딥러닝빅데이터와 딥러닝
빅데이터와 딥러닝
 
Linked Data 이야기
Linked Data 이야기Linked Data 이야기
Linked Data 이야기
 
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data
 
20100407 박진호 d_lifecycle_kisti
20100407 박진호 d_lifecycle_kisti20100407 박진호 d_lifecycle_kisti
20100407 박진호 d_lifecycle_kisti
 
인터넷 연구방법으로 E 사이언스 20 Oct2009
인터넷 연구방법으로 E 사이언스 20 Oct2009인터넷 연구방법으로 E 사이언스 20 Oct2009
인터넷 연구방법으로 E 사이언스 20 Oct2009
 
Machine Learning with Apache Spark and Zeppelin
Machine Learning with Apache Spark and ZeppelinMachine Learning with Apache Spark and Zeppelin
Machine Learning with Apache Spark and Zeppelin
 
빅데이터
빅데이터빅데이터
빅데이터
 
LOD 구축현황 과 현황
LOD 구축현황 과 현황LOD 구축현황 과 현황
LOD 구축현황 과 현황
 

More from NAVER D2

[211] 인공지능이 인공지능 챗봇을 만든다
[211] 인공지능이 인공지능 챗봇을 만든다[211] 인공지능이 인공지능 챗봇을 만든다
[211] 인공지능이 인공지능 챗봇을 만든다
NAVER D2
 
[233] 대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing: Maglev Hashing Scheduler i...
[233] 대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing: Maglev Hashing Scheduler i...[233] 대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing: Maglev Hashing Scheduler i...
[233] 대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing: Maglev Hashing Scheduler i...
NAVER D2
 
[215] Druid로 쉽고 빠르게 데이터 분석하기
[215] Druid로 쉽고 빠르게 데이터 분석하기[215] Druid로 쉽고 빠르게 데이터 분석하기
[215] Druid로 쉽고 빠르게 데이터 분석하기
NAVER D2
 
[245]Papago Internals: 모델분석과 응용기술 개발
[245]Papago Internals: 모델분석과 응용기술 개발[245]Papago Internals: 모델분석과 응용기술 개발
[245]Papago Internals: 모델분석과 응용기술 개발
NAVER D2
 
[236] 스트림 저장소 최적화 이야기: 아파치 드루이드로부터 얻은 교훈
[236] 스트림 저장소 최적화 이야기: 아파치 드루이드로부터 얻은 교훈[236] 스트림 저장소 최적화 이야기: 아파치 드루이드로부터 얻은 교훈
[236] 스트림 저장소 최적화 이야기: 아파치 드루이드로부터 얻은 교훈
NAVER D2
 
[235]Wikipedia-scale Q&A
[235]Wikipedia-scale Q&A[235]Wikipedia-scale Q&A
[235]Wikipedia-scale Q&A
NAVER D2
 
[244]로봇이 현실 세계에 대해 학습하도록 만들기
[244]로봇이 현실 세계에 대해 학습하도록 만들기[244]로봇이 현실 세계에 대해 학습하도록 만들기
[244]로봇이 현실 세계에 대해 학습하도록 만들기
NAVER D2
 
[243] Deep Learning to help student’s Deep Learning
[243] Deep Learning to help student’s Deep Learning[243] Deep Learning to help student’s Deep Learning
[243] Deep Learning to help student’s Deep Learning
NAVER D2
 
[234]Fast & Accurate Data Annotation Pipeline for AI applications
[234]Fast & Accurate Data Annotation Pipeline for AI applications[234]Fast & Accurate Data Annotation Pipeline for AI applications
[234]Fast & Accurate Data Annotation Pipeline for AI applications
NAVER D2
 
Old version: [233]대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing
Old version: [233]대형 컨테이너 클러스터에서의 고가용성 Network Load BalancingOld version: [233]대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing
Old version: [233]대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing
NAVER D2
 
[226]NAVER 광고 deep click prediction: 모델링부터 서빙까지
[226]NAVER 광고 deep click prediction: 모델링부터 서빙까지[226]NAVER 광고 deep click prediction: 모델링부터 서빙까지
[226]NAVER 광고 deep click prediction: 모델링부터 서빙까지
NAVER D2
 
[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기
[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기
[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기
NAVER D2
 
[224]네이버 검색과 개인화
[224]네이버 검색과 개인화[224]네이버 검색과 개인화
[224]네이버 검색과 개인화
NAVER D2
 
[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)
[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)
[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)
NAVER D2
 
[214] Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기
[214] Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기[214] Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기
[214] Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기
NAVER D2
 
[213] Fashion Visual Search
[213] Fashion Visual Search[213] Fashion Visual Search
[213] Fashion Visual Search
NAVER D2
 
[232] TensorRT를 활용한 딥러닝 Inference 최적화
[232] TensorRT를 활용한 딥러닝 Inference 최적화[232] TensorRT를 활용한 딥러닝 Inference 최적화
[232] TensorRT를 활용한 딥러닝 Inference 최적화
NAVER D2
 
[242]컴퓨터 비전을 이용한 실내 지도 자동 업데이트 방법: 딥러닝을 통한 POI 변화 탐지
[242]컴퓨터 비전을 이용한 실내 지도 자동 업데이트 방법: 딥러닝을 통한 POI 변화 탐지[242]컴퓨터 비전을 이용한 실내 지도 자동 업데이트 방법: 딥러닝을 통한 POI 변화 탐지
[242]컴퓨터 비전을 이용한 실내 지도 자동 업데이트 방법: 딥러닝을 통한 POI 변화 탐지
NAVER D2
 
[212]C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터
[212]C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터[212]C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터
[212]C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터
NAVER D2
 
[223]기계독해 QA: 검색인가, NLP인가?
[223]기계독해 QA: 검색인가, NLP인가?[223]기계독해 QA: 검색인가, NLP인가?
[223]기계독해 QA: 검색인가, NLP인가?
NAVER D2
 

More from NAVER D2 (20)

[211] 인공지능이 인공지능 챗봇을 만든다
[211] 인공지능이 인공지능 챗봇을 만든다[211] 인공지능이 인공지능 챗봇을 만든다
[211] 인공지능이 인공지능 챗봇을 만든다
 
[233] 대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing: Maglev Hashing Scheduler i...
[233] 대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing: Maglev Hashing Scheduler i...[233] 대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing: Maglev Hashing Scheduler i...
[233] 대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing: Maglev Hashing Scheduler i...
 
[215] Druid로 쉽고 빠르게 데이터 분석하기
[215] Druid로 쉽고 빠르게 데이터 분석하기[215] Druid로 쉽고 빠르게 데이터 분석하기
[215] Druid로 쉽고 빠르게 데이터 분석하기
 
[245]Papago Internals: 모델분석과 응용기술 개발
[245]Papago Internals: 모델분석과 응용기술 개발[245]Papago Internals: 모델분석과 응용기술 개발
[245]Papago Internals: 모델분석과 응용기술 개발
 
[236] 스트림 저장소 최적화 이야기: 아파치 드루이드로부터 얻은 교훈
[236] 스트림 저장소 최적화 이야기: 아파치 드루이드로부터 얻은 교훈[236] 스트림 저장소 최적화 이야기: 아파치 드루이드로부터 얻은 교훈
[236] 스트림 저장소 최적화 이야기: 아파치 드루이드로부터 얻은 교훈
 
[235]Wikipedia-scale Q&A
[235]Wikipedia-scale Q&A[235]Wikipedia-scale Q&A
[235]Wikipedia-scale Q&A
 
[244]로봇이 현실 세계에 대해 학습하도록 만들기
[244]로봇이 현실 세계에 대해 학습하도록 만들기[244]로봇이 현실 세계에 대해 학습하도록 만들기
[244]로봇이 현실 세계에 대해 학습하도록 만들기
 
[243] Deep Learning to help student’s Deep Learning
[243] Deep Learning to help student’s Deep Learning[243] Deep Learning to help student’s Deep Learning
[243] Deep Learning to help student’s Deep Learning
 
[234]Fast & Accurate Data Annotation Pipeline for AI applications
[234]Fast & Accurate Data Annotation Pipeline for AI applications[234]Fast & Accurate Data Annotation Pipeline for AI applications
[234]Fast & Accurate Data Annotation Pipeline for AI applications
 
Old version: [233]대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing
Old version: [233]대형 컨테이너 클러스터에서의 고가용성 Network Load BalancingOld version: [233]대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing
Old version: [233]대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing
 
[226]NAVER 광고 deep click prediction: 모델링부터 서빙까지
[226]NAVER 광고 deep click prediction: 모델링부터 서빙까지[226]NAVER 광고 deep click prediction: 모델링부터 서빙까지
[226]NAVER 광고 deep click prediction: 모델링부터 서빙까지
 
[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기
[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기
[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기
 
[224]네이버 검색과 개인화
[224]네이버 검색과 개인화[224]네이버 검색과 개인화
[224]네이버 검색과 개인화
 
[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)
[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)
[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)
 
[214] Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기
[214] Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기[214] Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기
[214] Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기
 
[213] Fashion Visual Search
[213] Fashion Visual Search[213] Fashion Visual Search
[213] Fashion Visual Search
 
[232] TensorRT를 활용한 딥러닝 Inference 최적화
[232] TensorRT를 활용한 딥러닝 Inference 최적화[232] TensorRT를 활용한 딥러닝 Inference 최적화
[232] TensorRT를 활용한 딥러닝 Inference 최적화
 
[242]컴퓨터 비전을 이용한 실내 지도 자동 업데이트 방법: 딥러닝을 통한 POI 변화 탐지
[242]컴퓨터 비전을 이용한 실내 지도 자동 업데이트 방법: 딥러닝을 통한 POI 변화 탐지[242]컴퓨터 비전을 이용한 실내 지도 자동 업데이트 방법: 딥러닝을 통한 POI 변화 탐지
[242]컴퓨터 비전을 이용한 실내 지도 자동 업데이트 방법: 딥러닝을 통한 POI 변화 탐지
 
[212]C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터
[212]C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터[212]C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터
[212]C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터
 
[223]기계독해 QA: 검색인가, NLP인가?
[223]기계독해 QA: 검색인가, NLP인가?[223]기계독해 QA: 검색인가, NLP인가?
[223]기계독해 QA: 검색인가, NLP인가?
 

[214]베이지안토픽모형 강병엽

  • 1. 빅데이터 분석에 적합한 LDA & HDP 베이지안 토픽모형에 대한 알고리즘 개발 강병엽 NAVER SEARCH
  • 2. CONTENTS 1. 베이지안 토픽모형 2. 풀고 싶은 문제와 고민들 3. 병렬계산 알고리즘 4. 토픽모형의 적용 5. 온라인 알고리즘 6. Discussion
  • 4. 1.1 토픽모형 • 토픽은 사전 위에 분포 • 각 문서는 여러 토픽의 혼합으로 구성 • 문서 내 출현 단어는 특정 토픽에서 추출 Blei, D. M. (2012). Probabilistic topic models. Communications of the ACM
  • 5. 베이즈 정리 • 데이터가 𝐷, 모수가 𝜃 일 때 베이지안 토픽모형 • LDA: Latent Dirichlet Allocation, Blei et al. (2003) 1.1 토픽모형 - Bayesian Modeling 사후분포 ∝ 우도함수 × 사전분포 𝑝 𝜃 𝐷 ∝ 𝑝 𝐷 𝜃 × 𝑝(𝜃) Thomas Bayes(1701~1761)
  • 6. • 모수  𝜙 𝑘: 토픽  𝜃𝑗: 각 문서별 토픽 혼합 비율 • 사전분포  𝜙 𝑘 ∈ R 𝑊 ∼ Dirichlet(𝛽, ⋯ , 𝛽)  𝜃𝑗 ∈ R 𝐾 ∼ Dirichlet(𝛼, ⋯ , 𝛼) • 초모수(사전분포의 모수)  𝛼, 𝛽 1.1 토픽모형 – LDA(2003) 𝜃𝑗 𝑧𝑗𝑖 𝑥𝑗𝑖 𝜙 𝑘 𝛼 𝛽
  • 7. 1.2 Inference & Learning 사후분포를 정확히 계산하기 힘들다. Approximation methods • MCMC(Monte Carlo Markov Chain)  사후분포에서 표본을 많이 추출하여 추론  Gibbs sampling 방법을 주로 사용  정확도 높으나 속도가 느림 • VB(Variational Bayesian)  속도가 빠르나 정확도 낮음
  • 9. 2.1 대규모 문서의 이해 데이터센터 각
  • 10. 2.2 학습 데이터 네이버 뉴스 기사(2013) • 2013년 7월 1일부터 7일 까지 작성된 뉴스 기사 데이터  연예/스포츠 카테고리에 속하는 뉴스기사는 제외 • 데이터 규모 문서수 N 53,607 유니크 단어수 N 134,076
  • 11. 2.2 학습 데이터 네이버 뉴스 기사(2013) • 그때 그 시절(2013. 7. 1 ~ 7. 7)  이집트 군부 vs. 무르시 대통령  국정원 대화록 공개  스노든 사건  남북 개성공단 실무회담 성사  재가동 원칙 합의(7/7)  아시아나 항공기 샌프란시스코 불시착(7/7)
  • 12. 2.2 학습 데이터 수집 .uk 웹문서(2014) • 네이버 웹검색 데이터 중 .uk 도메인 웹문서 • 데이터 규모 문서수 N 1,367,230 유니크 단어수 N 10,279,904 문서길이 평균 710 Word count 총합 970,650,419
  • 13. 2.2 학습 데이터 수집 .uk 웹데이터(2014) • 도메인 분석  유니크 도메인 수는 약 14만개  문서수 기준 인기 도메인  BBC (bbc.co.kr)  런던 대중교통 정보(tfl.gov.uk)  테이트갤러리(tate.org.uk)  University College London(ucl.ac.uk)  피터팬 작가 J.M.Barrie 홈페이지(jmbarrie.co.uk)
  • 14. 2.2 학습 데이터 수집 .uk 웹데이터(2014) • 다국어 처리  bbc.co.uk  다양한 외국어  ASCII 코드 조건 적용
  • 15. 2.2 학습 데이터 네이버 쇼핑 상품(2015. 04)
  • 16. 2.2 학습 데이터 네이버 쇼핑 상품(2015. 04) • 네이버 쇼핑 ‘원피스’ 카테고리에 등록된 상품 중 일부 • 데이터 규모 문서(쇼핑몰-상품)수 N 159,689 상품수 N 61,911 단어수 N 16,574
  • 17. 2.2 학습 데이터 네이버 블로그 문서(2016. 09) • 사용자 공유가 많은 블로그 문서 일부  네이버 블로그 일간 PV 2% • 데이터 규모 문서수 N 538,378 유니크 단어수 N 578,126 Word count N 87,969,309
  • 18. 2.3 빅데이터 토픽모형 & 문제점 토픽모형 추론 알고리즘 비교 분석(2013~2014) • 다양한 open source들을 이용해 분석을 시도해 봄 • MCMC 결과가 VB 결과보다 더 좋음  정량적: Test Likelihood  정성적: 추출된 토픽을 직접 관찰 • MCMC 방법은 시간이 너무 오래 걸림 • Accuracy vs. Cost • Infra를 활용해 MCMC 방법의 속도 향상이 가능한가? • 병렬 계산이 가능한 MCMC 알고리즘의 개발이 필요한가?
  • 19. 2.3 빅데이터 토픽모형 & 문제점 Big Data & Streaming Data • 시간의 흐름에 따라 축적된다.  누적되면서 양이 점점 많아진다.  시간의 흐름에 따라 모형의 변화를 관찰하고 싶다.  토픽의 생성, 변화, 소멸을 모델링할 필요가 있다. LDA 모형으로는 한계가 있다!
  • 21. 3.1 Netflix 사례 소개 우리만 이런 고민을 하는 것일까? • Spark Streaming and GraphX at Netflix(May 19, 2015) • https://www.youtube.com/watch?v=gqgPtcDmLGs&t=3814
  • 23. 3.2 병렬 계산 알고리즘 개발(2014~2015) Partially Collapsed Gibbs Sampler(LDA) • 𝜃𝑗 에 대해서는 표본 추출하지 않는다. • ℎ 𝑘(𝑤) 는 𝑘 번째 토픽의 히스토그램(토픽별 단어 counting) • ℎ𝑗 −𝑖 (𝑘) 는 𝑗 번째 문서의 히스토그램(문서별 토픽 counting, 단 𝑖 번째 단어 제외) • Sampling 𝜙 𝑘 𝜙 𝑘|𝑧 ∼ Dirichlet(𝛽 + ℎ 𝑘(1), ⋯ , 𝛽 + ℎ 𝑘(𝑊)) • Sampling 𝑧𝑗𝑖 𝑝 𝑧𝑗𝑖 = 𝑘 𝑧−𝑗𝑖 , 𝜙 ∝ 𝛼 + ℎ𝑗 −𝑖 (𝑘) 𝜙 𝑘𝑥 𝑗𝑖
  • 24. 3.2 병렬 계산 알고리즘 개발(2014~2015) 𝜃𝑗 𝑧𝑗𝑖 𝑥𝑗𝑖 𝜙 𝑘 𝛼 𝛽 Partially Collapsed Gibbs Sampler(LDA) • 한 문서 안에서 토픽 라벨 추출 ⇨ 순차적으로 • 다른 문서 별로 토픽 라벨 추출 ⇨ 병렬로
  • 25. 3.2 병렬계산 알고리즘 개발(2014~2015) 실험 결과 • C언어로 pthead, MPI를 이용해서 병렬 계산 • 실험 데이터: 네이버 블로그 문서(6,970,993개 문서, 464,361개 단어) • 실험 환경  12 nodes  CPU: Intel(R) Xeon(R) 2.00GHz * 24ro(hyper-threading)  Memory: 48GB • 실험 결과  프로세서 144개로 58배 속도 향상  Hyper-threading으로 66배 속도 향상
  • 26. 3.2 병렬계산 알고리즘 개발(2014~2015) 0 20,000 40,000 60,000 80,000 100,000 120,000 140,000 1 2 4 8 12 24 36 48 60 72 84 96 108 120 132 144 실 행 시 간 ( 초 ) 프로세서 수 실험 결과
  • 28. 4.1 학습 데이터 분석 네이버 뉴스 기사(2013.07.01~06) • 53,607개 문서 X 134,076개 단어 • 20개 토픽 LDA
  • 29. 4.1 학습 데이터 분석 네이버 뉴스 기사(2013.07.01~06) No. 1 2 3 4 5 6 7 8 9 10 주요단어 (Top 10) 사진 온라인 영화 반응 공개 모습 최근 화제 방송 네티즌 중국 북한 미국 대통령 우리 정부 회담 국가 한국 러시아 의원 국정원 국회 민주당 조사 공개 새누리당 대통령 국정 관련 지방 뉴스 지역 경향 장마 서울 사고 신문 오후 전선 기업 그룹 회장 사업 삼성 경영 현대 회사 대표 업체 금융 은행 기업 시장 대출 금리 투자 증권 자금 우리 시장 분기 실적 기록 상승 증권 삼성 지수 하락 투자 공단 개성 회담 남북 북한 실무 문제 우리 정부 기업 사람 우리 생각 한국 자신 문제 정도 일보 마음 여성 고객 여름 브랜드 제공 상품 가격 이벤트 할인 호텔 다양
  • 30. 4.1 학습 데이터 분석 네이버 뉴스 기사(2013.07.01~06) No. 1 2 3 4 5 6 7 8 9 10 주요단어 (Top 10) 사진 온라인 영화 반응 공개 모습 최근 화제 방송 네티즌 중국 북한 미국 대통령 우리 정부 회담 국가 한국 러시아 의원 국정원 국회 민주당 조사 공개 새누리당 대통령 국정 관련 지방 뉴스 지역 경향 장마 서울 사고 신문 오후 전선 기업 그룹 회장 사업 삼성 경영 현대 회사 대표 업체 금융 은행 기업 시장 대출 금리 투자 증권 자금 우리 시장 분기 실적 기록 상승 증권 삼성 지수 하락 투자 공단 개성 회담 남북 북한 실무 문제 우리 정부 기업 사람 우리 생각 한국 자신 문제 정도 일보 마음 여성 고객 여름 브랜드 제공 상품 가격 이벤트 할인 호텔 다양 네이밍 연예 외교 정치 날씨 재계 금융 증권/주식 북한 사회/생활 소비 뉴스기사수 2,206 953 2,021 2,331 930 1,101 1,974 1,262 281 1,071
  • 31. 4.1 학습 데이터 분석 네이버 뉴스 기사(2013.07.01~06) No. 11 12 13 14 15 16 17 18 19 20 주요단어 (Top 10) 게임 선수 대회 모바일 진행 경기 유저 서비스 대표 이번 과학 거래 정보 정부 국회 경제 개정안 법안 경우 벨트 스마트 삼성 전자 제품 서비스 시장 애플 사용 출시 기술 이집트 대통령 무르시 군부 시위 현지 시간 정부 무슬림 금연 협의 검찰 경찰 구속 서울 회장 수사 조사 영장 원전 교육 대학 지원 과장 학교 지역 서장 학생 활동 사회 병원 경우 치료 건강 환자 제품 피부 사용 수술 관리 사업 지역 건설 공사 시설 정부 추진 계획 개발 아파트 판매 고객 자동차 항공 모델 차량 서비스 제공 국내 가격 임금 최저 노조 주파수 연금 번호 인상 위원회 결정 병사
  • 32. 4.1 학습 데이터 분석 네이버 뉴스 기사(2013.07.01~06) No. 11 12 13 14 15 16 17 18 19 20 주요단어 (Top 10) 게임 선수 대회 모바일 진행 경기 유저 서비스 대표 이번 과학 거래 정보 정부 국회 경제 개정안 법안 경우 벨트 스마트 삼성 전자 제품 서비스 시장 애플 사용 출시 기술 이집트 대통령 무르시 군부 시위 현지 시간 정부 무슬림 금연 협의 검찰 경찰 구속 서울 회장 수사 조사 영장 원전 교육 대학 지원 과장 학교 지역 서장 학생 활동 사회 병원 경우 치료 건강 환자 제품 피부 사용 수술 관리 사업 지역 건설 공사 시설 정부 추진 계획 개발 아파트 판매 고객 자동차 항공 모델 차량 서비스 제공 국내 가격 임금 최저 노조 주파수 연금 번호 인상 위원회 결정 병사 네이밍 게임 정부정책 IT 외신 검찰 교육 의료 부동산 자동차 근로 뉴스기사수 1,188 488 970 773 1,575 667 729 904 824 743
  • 33. 4.1 학습 데이터 분석 수집 .uk 웹문서(2014) • 1,367,230개 문서 X 10,279,904개 단어 • 100개 토픽 LDA
  • 34. 4.1 학습 데이터 분석 수집 .uk 웹문서(2014) No. 1 2 3 주요단어 (Top 10) People War President Government Israel Said World Country Military Iraq Data England Social Health Wales Population Statistics Department Defence Ministry 2014 Events Contact News Home Event Available Day London Information 주요 도메인 news.bbc.co.uk www.telegraph.co.uk www.bbc.co.uk data.gov.uk www.ucl.ac.uk www.visionofbritain.org.uk www.ons.gov.uk www.hse.gov.uk www.eventbrite.co.uk ojp.nationalrail.co.uk www.ucl.ac.uk www.nationalrail.co.uk www.english- heritage.org.uk
  • 35. 4.1 학습 데이터 분석 네이버 쇼핑 ‘원피스’ 상품(2015.04) • 159,689개 문서 X 61,911개 단어 • 20개 토픽 LDA
  • 36. 4.1 학습 데이터 분석 소재 FIT 색상/무늬 행사/EVENT BEACH 2015.04 (여름준비) • 린넨 • 자수 • 플리츠 • 날씬해 • 피케 • 화이트 • 체크 • 플라워 • 하객 • 셀프촬영 • 비치 • 바캉스 네이버 쇼핑 ‘원피스’ 상품(2015.04) • 토픽이 시간에 따라 변한다.
  • 37. 4.1 학습 데이터 분석 소재 FIT 색상/무늬 행사/EVENT BEACH 2015.04 (여름준비) • 린넨 • 자수 • 플리츠 • 날씬해 • 피케 • 화이트 • 체크 • 플라워 • 하객 • 셀프촬영 • 비치 • 바캉스 2014.10 (겨울준비) • 모직 • 두툼한 • 소프트 / 니트 • 시보리 / 니트 • 여리여리 • 단정한 • 프릴 • 로맨틱 • 차콜/블랙/와인/카 멜 • 플라워 • 하객룩 • 웨딩 • 셀프웨딩 • 비치 • 여름 seasonal ordinary 네이버 쇼핑 ‘원피스’ 상품(2014.10) • 토픽이 시간에 따라 변한다.
  • 38. 4.1 학습 데이터 분석 네이버 블로그 문서(2016.09) • 538,378개 문서 X 578,126개 단어 • 30개 토픽 LDA
  • 39. 4.1 학습 데이터 분석 맛집 26.2% 연예인 19.8% 건강 10.1%상품리뷰와 구매정보 8.7% 여행 6.8% 사회/종교 4.3% 기타 3.5% 레시피 3.1% 경제 3.0% 부동산 2.5% 교육 2.0% 게임 2.0% 문화 2.0% 가정/육아 1.8% 웨딩 1.7% 일상 1.5% 뷰티 1.0% 네이버 블로그 문서(2016.09)
  • 40. 4.1 학습 데이터 분석 네이버 블로그 문서(2016.09) 주요 토픽 주요 단어 건강1 건강, 섭취, 비타민, 효능, 식품, 다이어트, 물질, 성분, 단백질, 김해, 음식, 작용, 세포, 지방, 풍부, 칼로리, 식물, 예방, 발효, 홍삼, 영양, 소화, 함유, 효소, 도움, 유산균, 천연, 칼슘, 콜레스테롤, 면역력, 변비, 사료, 누수, 탄수 화물, 영양소, 사과, 해독, 함량, 재배, 열매, 복용, 담배, 산소, 농장 건강2 운동, 치료, 병원, 증상, 수술, 검사, 근육, 통증, 환자, 임신, 자세, 원인, 교정, 질환, 진료, 주사, 치과, 자궁, 동작, 의사, 스트레칭, 한의원, 관절, 생리, 발생, 진단, 감염, 치아, 검진, 접종, 부위, 장애, 무릎, 요가, 골반, 호흡, 다 리, 처방, 허리, 증후군, 외과, 척추, 약물, 입원, 필라테스, 태아, 출혈, 질병, 바이러스, 초음파
  • 41. 4.1 학습 데이터 분석 네이버 블로그 문서(2016.09) 주요 토픽 주요 단어 여행1 호텔, 제주, 펜션, 제주도, 리조트, 캠핑, 수영장, 캠핑장, 하우스, 객실, 텐트, 조식, 바다, 스파, 예약, 숙박, 게스트, 화 장실, 비치, 시설, 마사지, 바베큐, 수영, 물놀이, 로비, 글램핑, 샤워실, 제주시, 베드, 이용, 풀빌라, 체크인, 힐링, 해변, 모텔, 우도, 샤워, 찜질방, 온천, 자치도, 가평, 서귀포, 카라반, 야외, 사이트, 독채, 창녕, 사우나, 민박, 애월 여행2 여행, 공항, 일본, 오사카, 버스, 홍콩, 투어, 대만, 비행기, 한국, 항공, 도쿄, 쇼핑, 택시, 베트남, 태국, 후쿠오카, 방콕, 도착, 숙소, 오키나와, 하와이, 티켓, 교토, 패스, 료칸, 캐리어, 현지, 일정, 한국인, 마카오, 자유, 필리핀, 지하철, 환전, 난바, 탑승, 스위스, 이동, 기념품, 시내, 유럽, 유후인, 가이드, 세부, 면세점, 하카타, 파리, 항공권, 프라하 여행3 마을, 공원, 코스, 체험, 부산, 전주, 풍경, 한옥, 해운대, 나무, 여수, 호수, 도로, 주차장, 정원, 박물관, 강릉, 터미널, 전 망대, 폭포, 구경, 가을, 바위, 춘천, 대교, 한강, 주차, 코스모스, 산책, 입구, 입장료, 출발, 단풍, 파크, 계곡, 바람, 날씨, 산행, 강원도, 하늘, 순천, 고속, 야경, 경주, 놀이, 광안리, 나들이, 생태, 포항, 언덕
  • 42. 4.1 학습 데이터 분석 네이버 블로그 문서(2016.09)
  • 44. 5.1 토픽모형 – HDP(2006) 𝜃𝑗 𝑧𝑗𝑖 𝑥𝑗𝑖 𝜙 𝑘 𝛼0 𝛼1 𝛽 𝜋 • HDP: Hierarchical Dirichlet Process, The et al. (2006) • 모수  𝜙 𝑘: 토픽  𝜃𝑗: 각 문서별 토픽 혼합 비율  𝜋: 문서집합 전체의 토픽 혼합 비율
  • 45. 5.1 토픽모형: LDA vs. HDP • HDP 토픽 모형이 LDA 토픽 모형과 다른 점  사전분포가 Dirichlet distribution에서 Dirichlet process로 바뀌었다.  모수 𝜋를 통해 문서 집합 전체에서 각 토픽의 비중을 알 수 있다.  토픽의 개수를 미리 정하지 않는다.  토픽의 개수에 제한을 두지 않는다.(∞)  자동으로 최적의 토픽 개수가 정해진다.  따로 모형 선택의 절차가 필요하지 않다.
  • 46. 5.2 Streaming Data • 누적되면서 양이 점점 많아진다.  데이터를 나누어서 학습 • 시간의 흐름에 따라 모형의 변화를 관찰하고 싶다.  이전 데이터에서 학습된 정보가 새로운 데이터를 학습하면서 업데이트 • LDA 모형은 토픽의 개수가 고정되어 있어 시간에 따라 변하지 않는다.  HDP 모형을 이용해 토픽의 생성, 소멸을 모형에 반영할 수 있다. Online HDP 알고리즘이 필요하다!
  • 47. 5.3 온라인 알고리즘 Online HDP Model(Wang et. al. 2011) • 데이터를 순차적으로 처리한다. • 모형이 주기적으로 업데이트된다. Data1 Model1 Data2 Model2 Data3 Model3
  • 48. 5.4 진행중인 작업 Mini-batch Gibbs sampling 알고리즘 개발(2016, ECML-PKDD) • 이전 데이터에서 추출한 정보를 다음 데이터의 사전분포로 넘겨 준다. • 사후분포의 표본으로부터 사전분포의 초모수를 추정한다. Data1 사 전 분 포 1 사 후 분 포 1 Data2 사 전 분 포 2 사 후 분 포 2
  • 49. 5.4 진행중인 작업 Mini-batch Gibbs sampling 알고리즘 개발(2016, ECML-PKDD) • 실험용 데이터  KOS  NIPS • VB 알고리즘에 비해 MCMC 알고리즘이 더 좋은 결과를 보여준다. • Mini-batch를 거듭해 학습할수록 Full Gibbs sampling 결과와 비슷해진다.
  • 51. 6.1 Discussion 빅데이터 상황에 맞게 알고리즘도 진화해야 한다. Online modeling을 통해 streaming data의 시간의 흐름에 따른 추이를 살펴볼 수 있다.
  • 53. Q&A