Dynamic Word Cloud Using Word2Vec - Final Presentation

Dynamic Word Cloud
Reflecting Flow of Time
Using Word2Vec
4팀 : 장민욱, 장하진, 김범수

목차
- 지난 발표 요약
- Pain & Needs
- Model 결과 분석
- Word Cloud 구현 이슈
- Word Cloud 결과 분석

팀원 소개
• 장민욱 : 응용 시나리오, 데이터 수집, 처리
• 김범수 : Word2Vec 구현 담당
• 장하진 : 데이터 시각화, 다이나믹스 담당

지난 발표 요약
• 왜 Word Cloud를 Word2Vec으로 만드는가?
• Text8과 4월 자료에 대한 결과 분석
• 평가에 대한 질문

Why WordCloud?
• 기존의 것은 정적이다
• 워듴클라우드를 직접 만들기 어렵다. 기존의 것들은 직접 입력
해줘야 함.
• 데이터 시각화를 해주는 또 하나의 자료

Wikimedia dump service
• 한 달에 두 번, dump file을 제작, 배포
• Pages-meta-currnet.xml.bz2
• 모든 문서의 최신 버전
• 25.2GB
• Pages-articles.xml.bz2
• 일반 문서의 최신 버전
• 전체 편집 역사는 들어있지 않음
• 12.0GB
https://dumps.wikimedia.org/enwiki/

Using WikiExtractor
• Install WikiExtractor
Git clone https://github.com/attardi/wikiextractor.git
Cd wikiextractor/
sudo python setup.py install
• Using
WikiExtractor.py -o enwiki enwiki-latest-pages-articles.xml.bz2

Test DataSet
1. Enwiki-170220-pages.articles.xml.bz2

Google Hot Topic
2017.02 2017.04

검증 (02.20 / 04.20 / 06.01)
• Keyword
• 1) Japan
• 2) Summer
• 3) Text
• 4) Data

Word2Vec 결과 분석
• 왜 이런 값이 나왔는지?
• Training Set 크기에 따른 결과 분석
• 날짜에 따른 결과 분석

Wiki dump
• Wiki에서 만든 덤프를 이용해 text corpus생성
• Stemming, stopword 처리 X
• 12GB
• 20억개의 단어, 380만개의 단어 종류

구현 이슈
• 한 덤프당 12GB.
• 학습시간 1시간(cbow, hierarchical softmax 적용)
• 시간에 따른 특성이 명확하게 보이지 않음

• 최신 문서임에 따라 overwatch 게임이 연관성을 띌것으로 기대
• 위키문서의 특성상, 오래된 정보도 새로운 정보와 동일한 학습
을 거치게 된다.
• 새롭게 update된 정보만을 학습하는 기법이 필요할것이라 생각
됨

• 한 덤프당 12GB를 차지하다보니 동시에 여러 학습을 진행하기
힘들다.
• 여러 가상머신을 사용해서 학습만을 진행하는 머신과 서버 역
할을 하는 머신을 구분할 필요가 있다.

Word Cloud 구현 목표
• 1. Dynamic Word Cloud 구현
• 2. 시간의 변화량 표현
• 직관적인 시각적 효과 적용

1. Dynamic Word Cloud - 요구사항
• 일반적인 Word Cloud는 ‘단어’와 ‘단어의 빈도’가 기준.
• 우리가 목표로 하는 Word Cloud는 ‘키워드’와 ‘유사어 및 유사
도’를 기준으로 사용한다.
• 벡터화된 단어를 이해하고, 시간의 변화량을 표현할 수 있는
Word Cloud 라이브러리를 사용 또는 제작해야 한다.

Frequency와 Vector의 차이
• 지난 시간 질문 중
“Word2Vec을 이용한 Word Cloud는 어떤 의미가 있는가?”
• 단어를 Vector로 표현하여 Semantic을 고려할 수 있다.
• Google Hot Topic를 기준으로 활용

2. 시간의 변화량 표현 - 요구사항
• 일정한 간격으로 수집된 데이터의 변화량을 어떻게 표현할 것
인가?
• 단어의 크기, 위치, 색 등 정적인 요소를 동적으로 변화시켜 시
간의 흐름을 나타낼 수 있다.

3. 직관적인 시각적 효과 - 요구사항
• Word Cloud를 볼 사람들이 한눈에 제작자가 어떤 내용을 전달
하려 하는지를 이해할 수 있어야 한다.

구현 이슈
• 다양한 Word Cloud 라이브러리가 존재한다.
• JS : D3-Cloud, WordCloud2.js
• Python : pytagcloud, wordcloud
• C# : Sparc.TagCloud
• 기존 라이브러리 사용 vs 자체 라이브러리 제작

구현 이슈
• 기존 Word Cloud 라이브러리들은 정적 이미지만 제작이 가능.
• 기술적 요구사항인 “시간의 변화량 표현”을 충족하지 못함.
• 이를 만족하기 위해선 Word Cloud를 직접 만들어야 한다.

구현 결과
• 기존 라이브러리 사용시

구현 결과
• 새 구현체

개선점 및 향후 방향
• 다양한 DataSet 및 확장
• 보고서 등 활용할 수 있도록 다양한 시나리오
• Word Cloud 출력 형태 개선

친절한 설명
• 1) 창의성
• 기존 Frequency 기반 Word cloud의 개념을 전복
• 퀄리티
• 2) 기술적 완성도
• 구현 및 테스트
• Word Cloud 자체 구현
• 3) 기여도
• Word2Vec 구현 정도에 따른 성능 비교
• 개선점 제안
• Wiki dump를 사용하기 위한 튜토리얼 제시

감사합니다
https://github.com/fromme0528/DataScience_Word2Vec

Dynamic Word Cloud Using Word2Vec - Final Presentation

Recommended

Recommended

More Related Content

Similar to Dynamic Word Cloud Using Word2Vec - Final Presentation

Similar to Dynamic Word Cloud Using Word2Vec - Final Presentation (20)

Dynamic Word Cloud Using Word2Vec - Final Presentation

Editor's Notes