Documents as a Bag of Maximal Substrings: An Unsupervised Feature Extraction for Document Clustering
1.
- An UnsupervisedFeature Extraction for Document Clustering - 正田 备也 Tomonari MASADA 长崎大学 Nagasaki University [email_address] DOCUMENTS AS A BAG OF MAXIMAL SUBSTRINGS
2.
Example “ abracadabra” “ a” (5) “ abra” (2) X “abr ” (2) We only consider the maximal substrings appearing more than once.
3.
Maximal Substrings (1/2)[Okanohara et al. 09] Every substring whose number of occurrences decreases even by adding a single character to its head or tail. Use maximal substrings as “words” Word extraction is not trivial for some languages.
4.
“ Bag ofWords” Represent each doc as a vector “ Bag of Words” representation Words = elementary features of docs Non-trivial word extraction X Supervised method (CRF, HMM) ( n j 1 , n j 2 , ..., n jW )
5.
Maximal Substrings (2/2)Efficient extraction [Okanohara et al. 09] Unsupervised extraction Suffix Array BWT Linear time (linear in string length)
이날본회의에서 한중일은 환경 정책과 지구ㆍ동북아시아 차원의 환경문제 극복을 위한 자국의 주요 정책을 소개하고 의견을 교환했다 . 특히 한ㆍ중 장관은 재난에 따른 환경 피해를 예방하기 위한 정보 공유의 필요성을 강조했다 . 한국은 녹색강국의 비전 실현을 위한 저탄소 녹색성장 프로그램 , 4 대강 살리기 대책 , 소음 대책을 비롯한 생활 공감 환경정책 등을 소개했다 . 중국은 제 11 차 5 개년 (2005~2011) 계획의 환경적 성과 , 제 12 차 5 개년 (2011~2015) 계획의 환경개선 목표 , 이산화황 (SO2) 등 주요 오염원 배출 저감지표 등을 설명했다 . 일본은 지난달 발생한 지진과 쓰나미의 피해상황과 대응책을 설명하고 그린 이노베이션 (Green Innovation), 지구온난화 대책 기술개발 , 환경영향평가법 개정 등 주요 환경정책을 소개했다 .
10.
기자 243772이 230494 보기 216175 것 134963 기사 108662 블로그 105935 기자이 105461 등 103620 고 69754 2009 55899 수 54841 2008 49877 저 46713 지난 40253 kr 38759 co 38368 seoul 37869 한 37689 대통령 36856 서울 36258 한국 34117 정부 32053 대한 29792 씨 27762 그 27376 대표 26445 원 25405 하 25397 경기 24005 1 23754 의원 21790 미국 21777 당 21218 이날 20939 2 20767 뒤 20710 은행 20161 지난해 19926 때문 19720 때 19507 관련 19081 북한 18965 문제 18849 경제 18775 3 18259 〃 18014 만원 17979 금융 17673 회장 17628 시장 17503 기업 17103 김 16914 조사 16690 관계자 16601 경우 16326 지역 15895 나 15874 하지 15841 이상 15632 중 15594 이번 15460 연합 15443 뉴스 15387 이후 15329 달러 15232 우리 14962 삼성 14819 오전 14807 지원 14377 경찰 14303 한나라 14071 09 13825 04 13766 4 13744 05 13675 사업 13556 국회 13473 07 13412 국민 13363 08 13356 검찰 13354 03 13345 한나라당 13196 06 13105 상황 12998 말 12942 국내 12853 정책 12657 01 12593 10 12560 가운데 12513 02 12322 최근 12192 수사 12130 함 11998 두 11950 시간 11908 보 11887 사실 11843 이어 11704
11.
의를 9864특히 9833 사가 9813 혐 9805 정을 9778 점을 9769 쳐 9764 수는 9756 앙 9751 혐의 9727 0 억원 9707 들에 9702 주택 9702 라며 9692 찬 9687 부의 9683 않았 9676 탄 9670 80 9661 색 9650 이를 9646 주장 9635 첫 9585 d 9581 기관 9545 탈 9536 긴 9508 이들 9444 회사 9428 전문 9421 문이 9414 하겠다 9392 돈 9360 와대 9351 기준 9350 청와 9347 사건 9344 청와대 9344 예정 9340 넷 9333 가장 9332 설명 9332 성을 9329 스 2 9323 렸다 9321 이사 9300 객 9299 큰 9288 자리 9286 시작 9283 들을 9272 원들 9259 확인 9258 지를 9255 발표 9248 뉴스 2 9247 찰은 9240 연합뉴스 2 9217 00 만원 9196 스 20 9186 스 200 9182 페 9174 뉴스 20 9171 뉴스 200 9167 연합뉴스 20 9166 연합뉴스 200 9162 전자 9158 볼 9149 하며 9130 안을 9127 찾 9115 좋 9108 없는 9105 정에 9065 70 9062 지적 9058 이지 9017 31 8998 휴 8962 보인 8951 끝 8922 롯 8910 럼 8861 국의 8833 추진 8804 5 년 8804 이고 8803 열린 8800 인다 8781 적이 8772 기획 8749 등에 8744 압 8717 는다 8717 력을 8715 이명 8703 중앙 8687 p 8681 자금 8670 것을 8667
12.
Our Aim Comparethe effectiveness of maximal substrings with that of the words extracted by a supervised method in document clustering
13.
Comparison Procedure maximalsubstrings words (supervised) document vectors document vectors document clustering document set document set document set
BTW (Burrows-Wheeler Transform)“ abracadabra$” a r d * r c a a a a b b $ a$ ra$ bra$ abra$ dabra$ adabra$ cadabra$ acadabra$ racadabra$ bracadabra$ abracadabra$ $ a$ ra$ bra$ abra$ dabra$ adabra$ cadabra$ acadabra$ racadabra$ bracadabra$ abracadabra$
Extracting Maximal Substrings....._...._......_..._.........._......_.... ...._...._......_...._.. ..._.._...._...._....._...._.. # # Extract all maximal substrings (MS) Remove all MS containing special chars `#’ White spaces Punctuations
18.
Frequency-based Selection nL : Lowest frequency Remove all features whose frequencies are smaller than n L n H : Highest frequency Remove all features whose frequencies are larger than n H Specify n H by n H = c H x n 1 n 1 : frequency of the most frequent feature
19.
Supervised Word ExtractionKorean KLT (a dictionary-based morphological analyzer) [Gang 09] Part-of-speech tagging Not required for our experiment Chinese CRF-based word segmenter (implemented by us) L1-regularized linear CRF [Tsuruoka et al. 09] SIGHAN Bakeoff 2005 [Tseng et al. 05] 0.943 (AS), 0.941 (HK), 0.929 (PK), 0.960 (MSR)
20.
Multinomial Mixtures MultinomialDistributions Documents as word frequency histograms Ignore word token ordering Mixuture of Multinomials One multinomial for each document cluster
Document Sets SEOUL (in Korean): Web Seoul Newspaper Jan 1, 2008 ~ Sep 30, 2009 52,730 docs Category: Economy , Local issues , Politics , Sports XINHUA (in Chinese): Xinhua Net May 8, 2009 ~ Dec 17, 2009 20,127 docs Category: Economy , International , Politics
Previous Works (1/2)Unsupervised Segmentation [Poon et al. 09] Exhaustive enumeration of segmentation patterns [Mochihashi et al. 09] Bayesian nonparametrics (nested Pitman-Yor) Intricate implementation [Okanohara et al. 09] Maximal substrings We adopt this approach!
31.
Previous Works (2/2)Document Classification [Okanohara et al. 09] Document Clustering [Zhang et al. 06] Special subset of substrings [Zhang et al. 04] No quantitative evaluation [Li et al. 08] Using WordNet for feature selection [Chumwatana et al. 10] Small document set
32.
Conclusions Maximal substringsas elementary features of documents Unsupervised extraction Efficient extraction algorithm Acceptable performance in document clustering
33.
Future Work Furtherimprovement Document models customized for maximal substrings “ Word” probability distribution Noisy feature removal Dimensionality reduction