LDA : latent Dirichlet Allocation (Fairies NLP Series) - Korean Ver.Adonis Han
*Introduction - Unsupervised Learning (Text-mining or Machine learning?
*Method - Learning Process, Packages
*Explanation Formula
*Case Study of LDA
*Coding with Best LDA Model from Grid search
*Conclusion - insight & Furthur more
*Not edit here
-What is Text-Rank?
-What is Jieba Packages?
대형 병원의 교양 세미나에서 발표한 자료입니다.
이미 기술 지식은 충분하셨고 사례를 많이 궁금해 하셨습니다. 그래서 제 경험을 통해 얻었던 인사이트를 많이 나누었습니다. 하지만 의료현장은 플랫폼이나 기술보다는 의료기기로 접근하지 않으면 사용되기 힘들다는 생각이 들었습니다.
LDA : latent Dirichlet Allocation (Fairies NLP Series) - Korean Ver.Adonis Han
*Introduction - Unsupervised Learning (Text-mining or Machine learning?
*Method - Learning Process, Packages
*Explanation Formula
*Case Study of LDA
*Coding with Best LDA Model from Grid search
*Conclusion - insight & Furthur more
*Not edit here
-What is Text-Rank?
-What is Jieba Packages?
대형 병원의 교양 세미나에서 발표한 자료입니다.
이미 기술 지식은 충분하셨고 사례를 많이 궁금해 하셨습니다. 그래서 제 경험을 통해 얻었던 인사이트를 많이 나누었습니다. 하지만 의료현장은 플랫폼이나 기술보다는 의료기기로 접근하지 않으면 사용되기 힘들다는 생각이 들었습니다.
[2021 Google I/O] LaMDA : Language Models for DialogApplicationstaeseon ryu
오늘 소개드릴 논문은 단어의 시퀀스의 확률을 할당하는
Large scale LM 모델 방법과 직접 레이블링한 데이터로
파인튜닝한 트랜스포머 계열의 대화테스크를 위한
언어 모델이라고 이해해주시면 될 것 같습니다
그래서 Google CEO가 직접 2021년에 발표를 했고
영상에서는 LaMDA가 이렇게 행성으로
이제 페르소나를 가지고 서로 대화하는 모습을 Google I/O 에서 보여주셨습니다
오늘 소개드릴 논문은 단어의 시퀀스의 확률을 할당하는
Large scale LM 모델 방법과 직접 레이블링한 데이터로
파인튜닝한 트랜스포머 계열의 대화테스크를 위한
언어 모델이라고 이해해주시면 될 것 같습니다
그래서 Google CEO가 직접 2021년에 발표를 했고
영상에서는 LaMDA가 이렇게 행성으로
이제 페르소나를 가지고 서로 대화하는 모습을 Google I/O 에서 보여주셨습니다
LOD , Linked Open Data 에 대해 구축 절차 및 도구, 사례에 대한 자료 입니다. LOD는 공공 데이터를 제공, 공유, 재활용하기 위한 또 하나의 방법이며 오픈 데이터(Open Data) 를 위한 하나의 방법으로 웹을 기반으로 데이터를 공유하여 재활용하고자 방법이며 기술이고 데이터입니다.
Apache Hive: for business intelligence use and real-time I/O use (Korean)Teddy Choi
"아파치 하이브: 비즈니스 인텔리전스와 실시간 조회 관점에서" 슬라이드는 제 10회 ACC (http://acc.zdnet.co.kr)에서 아파치 하이브 기여자 최종욱이 발표한 내용을 담고 있습니다. 최근 스팅어가 추구하는 방향, 그리고 달성한 성과와 HBase 통합 분야의 발전을 소개합니다.
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big dataK data
미래의 ICT생태계는 데이터를 중심으로 형성될 것입니다. 디지털라이제이션(digitalization)의 가속화로 우리의 일상은 빠르게 데이터 기반으로 급변하고 있습니다. 빅데이터라는 용어가 라디오 프로그램의 선곡기준으로도 등장하는 현 시점에서 다양한 관점의 빅데이터를 살펴봄으로써 실제 산업 생태계에 가져올 기술, 사회, 제도적 혁신의 조짐을 살펴보고자 합니다.
먼저 오픈소스가 가져오는 IT 생태계의 변화와 공유경제라는 키워드를 통해 함께함으로써 커지는 데이터의 가치, 그리고 그 가치를 더욱 크게 할 메타데이터의 중요성을 이야기하겠습니다. 또한 데이터 생태계의 활성화를 위한 거래 플랫폼이 가진 멀티 사이드 플랫폼의 가치와 이러한 플랫폼 활성화를 위한 공공 정책의 데이터 기반 변화 트렌드와 개인 프라이버시 보호 트렌드 및 기술을 살펴보고자합니다.
The document discusses various machine learning clustering algorithms like K-means clustering, DBSCAN, and EM clustering. It also discusses neural network architectures like LSTM, bi-LSTM, and convolutional neural networks. Finally, it presents results from evaluating different chatbot models on various metrics like validation score.
The document discusses challenges with using reinforcement learning for robotics. While simulations allow fast training of agents, there is often a "reality gap" when transferring learning to real robots. Other approaches like imitation learning and self-supervised learning can be safer alternatives that don't require trial-and-error. To better apply reinforcement learning, robots may need model-based approaches that learn forward models of the world, as well as techniques like active localization that allow robots to gather targeted information through interactive perception. Closing the reality gap will require finding ways to better match simulations to reality or allow robots to learn from real-world experiences.
[243] Deep Learning to help student’s Deep LearningNAVER D2
This document describes research on using deep learning to predict student performance in massive open online courses (MOOCs). It introduces GritNet, a model that takes raw student activity data as input and predicts outcomes like course graduation without feature engineering. GritNet outperforms baselines by more than 5% in predicting graduation. The document also describes how GritNet can be adapted in an unsupervised way to new courses using pseudo-labels, improving predictions in the first few weeks. Overall, GritNet is presented as the state-of-the-art for student prediction and can be transferred across courses without labels.
[234]Fast & Accurate Data Annotation Pipeline for AI applicationsNAVER D2
This document provides a summary of new datasets and papers related to computer vision tasks including object detection, image matting, person pose estimation, pedestrian detection, and person instance segmentation. A total of 8 papers and their associated datasets are listed with brief descriptions of the core contributions or techniques developed in each.
[226]NAVER 광고 deep click prediction: 모델링부터 서빙까지NAVER D2
This document presents a formula for calculating the loss function J(θ) in machine learning models. The formula averages the negative log likelihood of the predicted probabilities being correct over all samples S, and includes a regularization term λ that penalizes predicted embeddings being dissimilar from actual embeddings. It also defines the cosine similarity term used in the regularization.
[214] Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기NAVER D2
The document discusses running a TensorFlow Serving (TFS) container using Docker. It shows commands to:
1. Pull the TFS Docker image from a repository
2. Define a script to configure and run the TFS container, specifying the model path, name, and port mapping
3. Run the script to start the TFS container exposing port 13377
The document discusses linear algebra concepts including:
- Representing a system of linear equations as a matrix equation Ax = b where A is a coefficient matrix, x is a vector of unknowns, and b is a vector of constants.
- Solving for the vector x that satisfies the matrix equation using linear algebra techniques such as row reduction.
- Examples of matrix equations and their component vectors are shown.
This document describes the steps to convert a TensorFlow model to a TensorRT engine for inference. It includes steps to parse the model, optimize it, generate a runtime engine, serialize and deserialize the engine, as well as perform inference using the engine. It also provides code snippets for a PReLU plugin implementation in C++.
The document discusses machine reading comprehension (MRC) techniques for question answering (QA) systems, comparing search-based and natural language processing (NLP)-based approaches. It covers key milestones in the development of extractive QA models using NLP, from early sentence-level models to current state-of-the-art techniques like cross-attention, self-attention, and transfer learning. It notes the speed and scalability benefits of combining search and reading methods for QA.
7. 1.2 Inference & Learning
사후분포를 정확히 계산하기 힘들다.
Approximation methods
• MCMC(Monte Carlo Markov Chain)
사후분포에서 표본을 많이 추출하여 추론
Gibbs sampling 방법을 주로 사용
정확도 높으나 속도가 느림
• VB(Variational Bayesian)
속도가 빠르나 정확도 낮음
10. 2.2 학습 데이터
네이버 뉴스 기사(2013)
• 2013년 7월 1일부터 7일 까지 작성된 뉴스 기사 데이터
연예/스포츠 카테고리에 속하는 뉴스기사는 제외
• 데이터 규모
문서수 N 53,607
유니크 단어수 N 134,076
11. 2.2 학습 데이터
네이버 뉴스 기사(2013)
• 그때 그 시절(2013. 7. 1 ~ 7. 7)
이집트 군부 vs. 무르시 대통령
국정원 대화록 공개
스노든 사건
남북 개성공단 실무회담 성사
재가동 원칙 합의(7/7)
아시아나 항공기 샌프란시스코 불시착(7/7)
12. 2.2 학습 데이터
수집 .uk 웹문서(2014)
• 네이버 웹검색 데이터 중 .uk 도메인 웹문서
• 데이터 규모
문서수 N 1,367,230
유니크 단어수 N 10,279,904
문서길이 평균 710
Word count 총합 970,650,419
13. 2.2 학습 데이터
수집 .uk 웹데이터(2014)
• 도메인 분석
유니크 도메인 수는 약 14만개
문서수 기준 인기 도메인
BBC (bbc.co.kr)
런던 대중교통 정보(tfl.gov.uk)
테이트갤러리(tate.org.uk)
University College London(ucl.ac.uk)
피터팬 작가 J.M.Barrie 홈페이지(jmbarrie.co.uk)
14. 2.2 학습 데이터
수집 .uk 웹데이터(2014)
• 다국어 처리
bbc.co.uk
다양한 외국어
ASCII 코드 조건 적용
16. 2.2 학습 데이터
네이버 쇼핑 상품(2015. 04)
• 네이버 쇼핑 ‘원피스’ 카테고리에 등록된 상품 중 일부
• 데이터 규모
문서(쇼핑몰-상품)수 N 159,689
상품수 N 61,911
단어수 N 16,574
17. 2.2 학습 데이터
네이버 블로그 문서(2016. 09)
• 사용자 공유가 많은 블로그 문서 일부
네이버 블로그 일간 PV 2%
• 데이터 규모
문서수 N 538,378
유니크 단어수 N 578,126
Word count N 87,969,309
18. 2.3 빅데이터 토픽모형 & 문제점
토픽모형 추론 알고리즘 비교 분석(2013~2014)
• 다양한 open source들을 이용해 분석을 시도해 봄
• MCMC 결과가 VB 결과보다 더 좋음
정량적: Test Likelihood
정성적: 추출된 토픽을 직접 관찰
• MCMC 방법은 시간이 너무 오래 걸림
• Accuracy vs. Cost
• Infra를 활용해 MCMC 방법의 속도 향상이 가능한가?
• 병렬 계산이 가능한 MCMC 알고리즘의 개발이 필요한가?
19. 2.3 빅데이터 토픽모형 & 문제점
Big Data & Streaming Data
• 시간의 흐름에 따라 축적된다.
누적되면서 양이 점점 많아진다.
시간의 흐름에 따라 모형의 변화를 관찰하고 싶다.
토픽의 생성, 변화, 소멸을 모델링할 필요가 있다.
LDA 모형으로는 한계가 있다!
23. 3.2 병렬 계산 알고리즘 개발(2014~2015)
Partially Collapsed Gibbs Sampler(LDA)
• 𝜃𝑗 에 대해서는 표본 추출하지 않는다.
• ℎ 𝑘(𝑤) 는 𝑘 번째 토픽의 히스토그램(토픽별 단어 counting)
• ℎ𝑗
−𝑖
(𝑘) 는 𝑗 번째 문서의 히스토그램(문서별 토픽 counting, 단 𝑖 번째 단어 제외)
• Sampling 𝜙 𝑘
𝜙 𝑘|𝑧 ∼ Dirichlet(𝛽 + ℎ 𝑘(1), ⋯ , 𝛽 + ℎ 𝑘(𝑊))
• Sampling 𝑧𝑗𝑖
𝑝 𝑧𝑗𝑖 = 𝑘 𝑧−𝑗𝑖
, 𝜙 ∝ 𝛼 + ℎ𝑗
−𝑖
(𝑘) 𝜙 𝑘𝑥 𝑗𝑖
24. 3.2 병렬 계산 알고리즘 개발(2014~2015)
𝜃𝑗 𝑧𝑗𝑖 𝑥𝑗𝑖
𝜙 𝑘
𝛼
𝛽
Partially Collapsed Gibbs Sampler(LDA)
• 한 문서 안에서 토픽 라벨 추출 ⇨ 순차적으로
• 다른 문서 별로 토픽 라벨 추출 ⇨ 병렬로
25. 3.2 병렬계산 알고리즘 개발(2014~2015)
실험 결과
• C언어로 pthead, MPI를 이용해서 병렬 계산
• 실험 데이터: 네이버 블로그 문서(6,970,993개 문서, 464,361개 단어)
• 실험 환경
12 nodes
CPU: Intel(R) Xeon(R) 2.00GHz * 24ro(hyper-threading)
Memory: 48GB
• 실험 결과
프로세서 144개로 58배 속도 향상
Hyper-threading으로 66배 속도 향상
26. 3.2 병렬계산 알고리즘 개발(2014~2015)
0
20,000
40,000
60,000
80,000
100,000
120,000
140,000
1 2 4 8 12 24 36 48 60 72 84 96 108 120 132 144
실
행
시
간
(
초
)
프로세서 수
실험 결과
28. 4.1 학습 데이터 분석
네이버 뉴스 기사(2013.07.01~06)
• 53,607개 문서 X 134,076개 단어
• 20개 토픽 LDA
29. 4.1 학습 데이터 분석
네이버 뉴스 기사(2013.07.01~06)
No. 1 2 3 4 5 6 7 8 9 10
주요단어
(Top 10)
사진
온라인
영화
반응
공개
모습
최근
화제
방송
네티즌
중국
북한
미국
대통령
우리
정부
회담
국가
한국
러시아
의원
국정원
국회
민주당
조사
공개
새누리당
대통령
국정
관련
지방
뉴스
지역
경향
장마
서울
사고
신문
오후
전선
기업
그룹
회장
사업
삼성
경영
현대
회사
대표
업체
금융
은행
기업
시장
대출
금리
투자
증권
자금
우리
시장
분기
실적
기록
상승
증권
삼성
지수
하락
투자
공단
개성
회담
남북
북한
실무
문제
우리
정부
기업
사람
우리
생각
한국
자신
문제
정도
일보
마음
여성
고객
여름
브랜드
제공
상품
가격
이벤트
할인
호텔
다양
30. 4.1 학습 데이터 분석
네이버 뉴스 기사(2013.07.01~06)
No. 1 2 3 4 5 6 7 8 9 10
주요단어
(Top 10)
사진
온라인
영화
반응
공개
모습
최근
화제
방송
네티즌
중국
북한
미국
대통령
우리
정부
회담
국가
한국
러시아
의원
국정원
국회
민주당
조사
공개
새누리당
대통령
국정
관련
지방
뉴스
지역
경향
장마
서울
사고
신문
오후
전선
기업
그룹
회장
사업
삼성
경영
현대
회사
대표
업체
금융
은행
기업
시장
대출
금리
투자
증권
자금
우리
시장
분기
실적
기록
상승
증권
삼성
지수
하락
투자
공단
개성
회담
남북
북한
실무
문제
우리
정부
기업
사람
우리
생각
한국
자신
문제
정도
일보
마음
여성
고객
여름
브랜드
제공
상품
가격
이벤트
할인
호텔
다양
네이밍 연예 외교 정치 날씨 재계 금융 증권/주식 북한 사회/생활 소비
뉴스기사수 2,206 953 2,021 2,331 930 1,101 1,974 1,262 281 1,071
31. 4.1 학습 데이터 분석
네이버 뉴스 기사(2013.07.01~06)
No. 11 12 13 14 15 16 17 18 19 20
주요단어
(Top 10)
게임
선수
대회
모바일
진행
경기
유저
서비스
대표
이번
과학
거래
정보
정부
국회
경제
개정안
법안
경우
벨트
스마트
삼성
전자
제품
서비스
시장
애플
사용
출시
기술
이집트
대통령
무르시
군부
시위
현지
시간
정부
무슬림
금연
협의
검찰
경찰
구속
서울
회장
수사
조사
영장
원전
교육
대학
지원
과장
학교
지역
서장
학생
활동
사회
병원
경우
치료
건강
환자
제품
피부
사용
수술
관리
사업
지역
건설
공사
시설
정부
추진
계획
개발
아파트
판매
고객
자동차
항공
모델
차량
서비스
제공
국내
가격
임금
최저
노조
주파수
연금
번호
인상
위원회
결정
병사
32. 4.1 학습 데이터 분석
네이버 뉴스 기사(2013.07.01~06)
No. 11 12 13 14 15 16 17 18 19 20
주요단어
(Top 10)
게임
선수
대회
모바일
진행
경기
유저
서비스
대표
이번
과학
거래
정보
정부
국회
경제
개정안
법안
경우
벨트
스마트
삼성
전자
제품
서비스
시장
애플
사용
출시
기술
이집트
대통령
무르시
군부
시위
현지
시간
정부
무슬림
금연
협의
검찰
경찰
구속
서울
회장
수사
조사
영장
원전
교육
대학
지원
과장
학교
지역
서장
학생
활동
사회
병원
경우
치료
건강
환자
제품
피부
사용
수술
관리
사업
지역
건설
공사
시설
정부
추진
계획
개발
아파트
판매
고객
자동차
항공
모델
차량
서비스
제공
국내
가격
임금
최저
노조
주파수
연금
번호
인상
위원회
결정
병사
네이밍 게임 정부정책 IT 외신 검찰 교육 의료 부동산 자동차 근로
뉴스기사수 1,188 488 970 773 1,575 667 729 904 824 743
33. 4.1 학습 데이터 분석
수집 .uk 웹문서(2014)
• 1,367,230개 문서 X 10,279,904개 단어
• 100개 토픽 LDA
34. 4.1 학습 데이터 분석
수집 .uk 웹문서(2014)
No. 1 2 3
주요단어
(Top 10)
People
War
President
Government
Israel
Said
World
Country
Military
Iraq
Data
England
Social
Health
Wales
Population
Statistics
Department
Defence
Ministry
2014
Events
Contact
News
Home
Event
Available
Day
London
Information
주요 도메인
news.bbc.co.uk
www.telegraph.co.uk
www.bbc.co.uk
data.gov.uk
www.ucl.ac.uk
www.visionofbritain.org.uk
www.ons.gov.uk
www.hse.gov.uk
www.eventbrite.co.uk
ojp.nationalrail.co.uk
www.ucl.ac.uk
www.nationalrail.co.uk
www.english-
heritage.org.uk
35. 4.1 학습 데이터 분석
네이버 쇼핑 ‘원피스’ 상품(2015.04)
• 159,689개 문서 X 61,911개 단어
• 20개 토픽 LDA
36. 4.1 학습 데이터 분석
소재 FIT 색상/무늬 행사/EVENT BEACH
2015.04
(여름준비)
• 린넨
• 자수
• 플리츠
• 날씬해
• 피케
• 화이트
• 체크
• 플라워
• 하객
• 셀프촬영
• 비치
• 바캉스
네이버 쇼핑 ‘원피스’ 상품(2015.04)
• 토픽이 시간에 따라 변한다.
37. 4.1 학습 데이터 분석
소재 FIT 색상/무늬 행사/EVENT BEACH
2015.04
(여름준비)
• 린넨
• 자수
• 플리츠
• 날씬해
• 피케
• 화이트
• 체크
• 플라워
• 하객
• 셀프촬영
• 비치
• 바캉스
2014.10
(겨울준비)
• 모직
• 두툼한
• 소프트 / 니트
• 시보리 / 니트
• 여리여리
• 단정한
• 프릴
• 로맨틱
• 차콜/블랙/와인/카
멜
• 플라워
• 하객룩
• 웨딩
• 셀프웨딩
• 비치
• 여름
seasonal ordinary
네이버 쇼핑 ‘원피스’ 상품(2014.10)
• 토픽이 시간에 따라 변한다.
38. 4.1 학습 데이터 분석
네이버 블로그 문서(2016.09)
• 538,378개 문서 X 578,126개 단어
• 30개 토픽 LDA
39. 4.1 학습 데이터 분석
맛집
26.2%
연예인
19.8%
건강
10.1%상품리뷰와
구매정보
8.7%
여행
6.8%
사회/종교
4.3%
기타
3.5%
레시피
3.1%
경제
3.0%
부동산
2.5%
교육
2.0%
게임
2.0%
문화
2.0%
가정/육아
1.8%
웨딩
1.7%
일상
1.5%
뷰티
1.0%
네이버 블로그 문서(2016.09)
44. 5.1 토픽모형 – HDP(2006)
𝜃𝑗 𝑧𝑗𝑖 𝑥𝑗𝑖
𝜙 𝑘
𝛼0
𝛼1
𝛽
𝜋
• HDP: Hierarchical Dirichlet Process, The et al. (2006)
• 모수
𝜙 𝑘: 토픽
𝜃𝑗: 각 문서별 토픽 혼합 비율
𝜋: 문서집합 전체의 토픽 혼합 비율
45. 5.1 토픽모형: LDA vs. HDP
• HDP 토픽 모형이 LDA 토픽 모형과 다른 점
사전분포가 Dirichlet distribution에서 Dirichlet process로 바뀌었다.
모수 𝜋를 통해 문서 집합 전체에서 각 토픽의 비중을 알 수 있다.
토픽의 개수를 미리 정하지 않는다.
토픽의 개수에 제한을 두지 않는다.(∞)
자동으로 최적의 토픽 개수가 정해진다.
따로 모형 선택의 절차가 필요하지 않다.
46. 5.2 Streaming Data
• 누적되면서 양이 점점 많아진다.
데이터를 나누어서 학습
• 시간의 흐름에 따라 모형의 변화를 관찰하고 싶다.
이전 데이터에서 학습된 정보가 새로운 데이터를 학습하면서 업데이트
• LDA 모형은 토픽의 개수가 고정되어 있어 시간에 따라 변하지 않는다.
HDP 모형을 이용해 토픽의 생성, 소멸을 모형에 반영할 수 있다.
Online HDP 알고리즘이 필요하다!
47. 5.3 온라인 알고리즘
Online HDP Model(Wang et. al. 2011)
• 데이터를 순차적으로 처리한다.
• 모형이 주기적으로 업데이트된다.
Data1
Model1
Data2
Model2
Data3
Model3
48. 5.4 진행중인 작업
Mini-batch Gibbs sampling 알고리즘 개발(2016, ECML-PKDD)
• 이전 데이터에서 추출한 정보를 다음 데이터의 사전분포로 넘겨 준다.
• 사후분포의 표본으로부터 사전분포의 초모수를 추정한다.
Data1
사
전
분
포
1
사
후
분
포
1
Data2
사
전
분
포
2
사
후
분
포
2
49. 5.4 진행중인 작업
Mini-batch Gibbs sampling 알고리즘 개발(2016, ECML-PKDD)
• 실험용 데이터
KOS
NIPS
• VB 알고리즘에 비해 MCMC 알고리즘이 더 좋은 결과를 보여준다.
• Mini-batch를 거듭해 학습할수록 Full Gibbs sampling 결과와 비슷해진다.