SlideShare a Scribd company logo
1 of 33
- An Unsupervised Feature Extraction for Document Clustering - 正田 备也  Tomonari MASADA 长崎大学  Nagasaki University [email_address] DOCUMENTS AS A BAG OF MAXIMAL SUBSTRINGS
Example ,[object Object],[object Object],[object Object],[object Object],[object Object]
Maximal Substrings (1/2) ,[object Object],[object Object],[object Object],[object Object]
“ Bag of Words” ,[object Object],[object Object],[object Object],[object Object],[object Object],( n j 1 ,  n j 2 , ...,  n jW )
Maximal Substrings (2/2) ,[object Object],[object Object],[object Object],[object Object],[object Object]
     在第六次人口普查数据中,值得注意的是中国人口的年龄结构变化。普查结果显示,大陆 31 个省份和现役军人的人口中, 0-14 岁人口占 16.60% ; 15-59 岁占 70.14% ; 60 岁及以上人口占 13.26% ,其中 65 岁及以上人口占 8.87% 。      同第五次全国人口普查相比, 0-14 岁人口的比重下降 6.29 个百分点, 15-59 岁人口的比重上升 3.36 个百分点, 60 岁及以上人口的比重上升 2.93 个百分点, 65 岁及以上人口的比重上升 1.91 个百分点。      马建堂表示, 1980 年以后,特别是近十年,老龄人口比重增加,少儿年龄的比重在缩小,“这样的状况,大家都在思索中国的人口政策和计划生育政策。”      他认为,计划生育工作取得了举世瞩目的成就,有效控制了人口过快增长。此外,中国要重视人口发展出现的一些新情况、新变化,坚持计划生育的基本国策,稳定适度低生育的水平,同时兼顾当前和长远,科学研究、认真评估,慎重地、逐步地完善人口计划生育政策,统筹解决人口问题。
工作  12119 表示  12107 于  12027 名  11993 问题  11965 已  11906 后  11854 更  11812 就  11792 从  11486 进行  11180 以  10902 地区  10712 被  10368 要  10209 但  10047 还  9927 目前  9700 总统  9658 企业  9582 北京  9114 向  9041 合作  8982 时  8969 市场  8873 一个  8668 年  8665 最  8570 公司  8453 今年  8365 都  8286 组织  8235 而  8124 前  8073 元  8070 会  8034 举行  7980 出  7849 安全  7788 金融  7705 关注  7600 美元  7480 社会  7432 国  7393 人员  7330 内容  7324 次  7319 发生  7319 建设  7205 世界  7087 至  7086 地  6995 会议  6929 我们  6784 全国  6698 下  6692 报道  6648 关系  6570 增长  6493 通过  6476 政策  6392 认为  6251 有关  6184 价格  6149 能  6119 日本  6102 三  6094 请  6088 机构  6080 应  6014 没有  5997 其  5968 要求  5896 活动  5872 主要  5868 由  5855 部门  5662 已经  5624 影响  5616 加强  5609 投资  5507 新华社  5479 重要  5469 方面  5456 副  5437 来  5412 情况  5377 当天  5356 高  5292 可能  5285 管理  5277 内  5242 流感  5229 其中  5179 朝鲜  5074 危机  5071 银行  5052 甲型  5049 及  5047 时间  5021
为  52758 是  52564 了  51612 月  51262 部  48568 上  47851 对  44310 地  42575 不  42441 政  42422 美  41441 业  41141 经  39598 出  38830 时  38796 者  38659 生  37414 家  36601 作  35987 以  35923 关  35642 全  35352 成  35198 方  35050 要  34279 市  34249 3  34237 中国  34144 公  33453 进  33437 个  33222 5  32887 华  32497 这  32313 于  32201 民  32125 前  32089 将  32040 0  32037 机  30320 长  29705 工  29641 多  29571 9  29539 到  29377 1  29320 加  28963 说  28478 来  28428 内  28382 展  28206 网  28142 电  27906 8  27643 合  27615 6  27442 7  27355 重  27024 记  26608 4  26598 员  26551 动  26496 开  26383 法  26338 主  26220 斯  26039 现  25456 区  25352 表  25350 高  25082 能  25007 下  24920 分  24850 总  24822 与  24504 同  24228 学  24012 事  23414 资  23173 定  23161 新华  23160 记者  23138 后  23122 力  22809 实  22796 本  22719 利  22424 产  22368 等  22253 建  22164 济  22124 2  21954 理  21889 金  21865 当  21783 报  21540 美国  21501 体  21429 议  21314 他  21303
    이날 본회의에서 한중일은 환경 정책과 지구ㆍ동북아시아 차원의 환경문제 극복을 위한 자국의 주요 정책을 소개하고 의견을 교환했다 .     특히 한ㆍ중 장관은 재난에 따른 환경 피해를 예방하기 위한 정보 공유의 필요성을 강조했다 .     한국은 녹색강국의 비전 실현을 위한 저탄소 녹색성장 프로그램 , 4 대강 살리기 대책 ,  소음 대책을 비롯한 생활 공감 환경정책 등을 소개했다 .     중국은 제 11 차  5 개년 (2005~2011)  계획의 환경적 성과 ,  제 12 차  5 개년 (2011~2015)  계획의 환경개선 목표 ,  이산화황 (SO2)  등 주요 오염원 배출 저감지표 등을 설명했다 .     일본은 지난달 발생한 지진과 쓰나미의 피해상황과 대응책을 설명하고 그린 이노베이션 (Green Innovation),  지구온난화 대책 기술개발 ,  환경영향평가법 개정 등 주요 환경정책을 소개했다 .
기자  243772 이  230494 보기  216175 것  134963 기사  108662 블로그  105935 기자이  105461 등  103620 고  69754 2009  55899 수  54841 2008  49877 저  46713 지난  40253 kr  38759 co  38368 seoul  37869 한  37689 대통령  36856 서울  36258 한국  34117 정부  32053 대한  29792 씨  27762 그  27376 대표  26445 원  25405 하  25397 경기  24005 1  23754 의원  21790 미국  21777 당  21218 이날  20939 2  20767 뒤  20710 은행  20161 지난해  19926 때문  19720 때  19507 관련  19081 북한  18965 문제  18849 경제  18775 3  18259 〃  18014 만원  17979 금융  17673 회장  17628 시장  17503 기업  17103 김  16914 조사  16690 관계자  16601 경우  16326 지역  15895 나  15874 하지  15841 이상  15632 중  15594 이번  15460 연합  15443 뉴스  15387 이후  15329 달러  15232 우리  14962 삼성  14819 오전  14807 지원  14377 경찰  14303 한나라  14071 09  13825 04  13766 4  13744 05  13675 사업  13556 국회  13473 07  13412 국민  13363 08  13356 검찰  13354 03  13345 한나라당  13196 06  13105 상황  12998 말  12942 국내  12853 정책  12657 01  12593 10  12560 가운데  12513 02  12322 최근  12192 수사  12130 함  11998 두  11950 시간  11908 보  11887 사실  11843 이어  11704
의를  9864 특히  9833 사가  9813 혐  9805 정을  9778 점을  9769 쳐  9764 수는  9756 앙  9751 혐의  9727 0 억원  9707 들에  9702 주택  9702 라며  9692 찬  9687 부의  9683 않았  9676 탄  9670 80  9661 색  9650 이를  9646 주장  9635 첫  9585 d  9581 기관  9545 탈  9536 긴  9508 이들  9444 회사  9428 전문  9421 문이  9414 하겠다  9392 돈  9360 와대  9351 기준  9350 청와  9347 사건  9344 청와대  9344 예정  9340 넷  9333 가장  9332 설명  9332 성을  9329 스 2  9323 렸다  9321 이사  9300 객  9299 큰  9288 자리  9286 시작  9283 들을  9272 원들  9259 확인  9258 지를  9255 발표  9248 뉴스 2  9247 찰은  9240 연합뉴스 2  9217 00 만원  9196 스 20  9186 스 200  9182 페  9174 뉴스 20  9171 뉴스 200 9167 연합뉴스 20  9166 연합뉴스 200  9162 전자  9158 볼  9149 하며  9130 안을  9127 찾  9115 좋  9108 없는  9105 정에  9065 70  9062 지적  9058 이지  9017 31  8998 휴  8962 보인  8951 끝  8922 롯  8910 럼  8861 국의  8833 추진  8804 5 년  8804 이고  8803 열린  8800 인다  8781 적이  8772 기획  8749 등에  8744 압  8717 는다  8717 력을  8715 이명  8703 중앙  8687 p  8681 자금  8670 것을  8667
Our Aim ,[object Object],[object Object],[object Object],[object Object]
Comparison Procedure maximal substrings words (supervised) document vectors document vectors document clustering document set document set document set
Suffix Array “ abracadabra$” $ a$ ra$ bra$ abra$ dabra$ adabra$ cadabra$ acadabra$ racadabra$ bracadabra$ abracadabra$ $ a$ ra$ bra$ abra$ dabra$ adabra$ cadabra$ acadabra$ racadabra$ bracadabra$ abracadabra$ 12 11 10 9 8 7 6 5 4 3 2 1 12 11 8 1 4 6 9 2 5 7 10 3 SAIS [Nong et al. 08]
BTW (Burrows-Wheeler Transform) “ abracadabra$” a r d * r c a a a a b b $ a$ ra$ bra$ abra$ dabra$ adabra$ cadabra$ acadabra$ racadabra$ bracadabra$ abracadabra$ $ a$ ra$ bra$ abra$ dabra$ adabra$ cadabra$ acadabra$ racadabra$ bracadabra$ abracadabra$
Extracting Maximal Substrings ...... ...... .... .... ...... .......... . .... ....._...._......_..._.........._......_.... ..... ....... .. .... . ...... .... .....  ...._...._......_...._.. ..... ... .. .... .. ... . . ... ... .... .....  ..._.._...._...._....._...._..
Extracting Maximal Substrings ....._...._......_..._.........._......_.... ...._...._......_...._.. ..._.._...._...._....._...._.. # # ,[object Object],[object Object],[object Object],[object Object],[object Object]
Frequency-based Selection ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Supervised Word Extraction ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Multinomial Mixtures ,[object Object],[object Object],[object Object],[object Object],[object Object]
E step M step
Dirichlet Compound Multinomials ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
E step M step
Document Sets ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
 
n 1  = 978,789 n 1  = 243,772
 
n 1  = 265,254 n 1  = 262,769
 
Previous Works (1/2) ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Previous Works (2/2) ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Conclusions ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Future Work ,[object Object],[object Object],[object Object],[object Object],[object Object]

More Related Content

More from Tomonari Masada

A Simple Stochastic Gradient Variational Bayes for Latent Dirichlet Allocation
A Simple Stochastic Gradient Variational Bayes for Latent Dirichlet AllocationA Simple Stochastic Gradient Variational Bayes for Latent Dirichlet Allocation
A Simple Stochastic Gradient Variational Bayes for Latent Dirichlet Allocation
Tomonari Masada
 
Supplementary material for my following paper: Infinite Latent Process Decomp...
Supplementary material for my following paper: Infinite Latent Process Decomp...Supplementary material for my following paper: Infinite Latent Process Decomp...
Supplementary material for my following paper: Infinite Latent Process Decomp...
Tomonari Masada
 
Nonparametric Factor Analysis with Beta Process Priors の式解説
Nonparametric Factor Analysis with Beta Process Priors の式解説Nonparametric Factor Analysis with Beta Process Priors の式解説
Nonparametric Factor Analysis with Beta Process Priors の式解説
Tomonari Masada
 

More from Tomonari Masada (20)

A note on variational inference for the univariate Gaussian
A note on variational inference for the univariate GaussianA note on variational inference for the univariate Gaussian
A note on variational inference for the univariate Gaussian
 
Document Modeling with Implicit Approximate Posterior Distributions
Document Modeling with Implicit Approximate Posterior DistributionsDocument Modeling with Implicit Approximate Posterior Distributions
Document Modeling with Implicit Approximate Posterior Distributions
 
LDA-Based Scoring of Sequences Generated by RNN for Automatic Tanka Composition
LDA-Based Scoring of Sequences Generated by RNN for Automatic Tanka CompositionLDA-Based Scoring of Sequences Generated by RNN for Automatic Tanka Composition
LDA-Based Scoring of Sequences Generated by RNN for Automatic Tanka Composition
 
A Note on ZINB-VAE
A Note on ZINB-VAEA Note on ZINB-VAE
A Note on ZINB-VAE
 
A Note on Latent LSTM Allocation
A Note on Latent LSTM AllocationA Note on Latent LSTM Allocation
A Note on Latent LSTM Allocation
 
A Note on TopicRNN
A Note on TopicRNNA Note on TopicRNN
A Note on TopicRNN
 
Topic modeling with Poisson factorization (2)
Topic modeling with Poisson factorization (2)Topic modeling with Poisson factorization (2)
Topic modeling with Poisson factorization (2)
 
Poisson factorization
Poisson factorizationPoisson factorization
Poisson factorization
 
A Simple Stochastic Gradient Variational Bayes for the Correlated Topic Model
A Simple Stochastic Gradient Variational Bayes for the Correlated Topic ModelA Simple Stochastic Gradient Variational Bayes for the Correlated Topic Model
A Simple Stochastic Gradient Variational Bayes for the Correlated Topic Model
 
A Simple Stochastic Gradient Variational Bayes for Latent Dirichlet Allocation
A Simple Stochastic Gradient Variational Bayes for Latent Dirichlet AllocationA Simple Stochastic Gradient Variational Bayes for Latent Dirichlet Allocation
A Simple Stochastic Gradient Variational Bayes for Latent Dirichlet Allocation
 
Word count in Husserliana Volumes 1 to 28
Word count in Husserliana Volumes 1 to 28Word count in Husserliana Volumes 1 to 28
Word count in Husserliana Volumes 1 to 28
 
A Simple Stochastic Gradient Variational Bayes for Latent Dirichlet Allocation
A Simple Stochastic Gradient Variational Bayes for Latent Dirichlet AllocationA Simple Stochastic Gradient Variational Bayes for Latent Dirichlet Allocation
A Simple Stochastic Gradient Variational Bayes for Latent Dirichlet Allocation
 
FDSE2015
FDSE2015FDSE2015
FDSE2015
 
A derivation of the sampling formulas for An Entity-Topic Model for Entity Li...
A derivation of the sampling formulas for An Entity-Topic Model for Entity Li...A derivation of the sampling formulas for An Entity-Topic Model for Entity Li...
A derivation of the sampling formulas for An Entity-Topic Model for Entity Li...
 
A Note on BPTT for LSTM LM
A Note on BPTT for LSTM LMA Note on BPTT for LSTM LM
A Note on BPTT for LSTM LM
 
The detailed derivation of the derivatives in Table 2 of Marginalized Denoisi...
The detailed derivation of the derivatives in Table 2 of Marginalized Denoisi...The detailed derivation of the derivatives in Table 2 of Marginalized Denoisi...
The detailed derivation of the derivatives in Table 2 of Marginalized Denoisi...
 
A Note on PCVB0 for HDP-LDA
A Note on PCVB0 for HDP-LDAA Note on PCVB0 for HDP-LDA
A Note on PCVB0 for HDP-LDA
 
ChronoSAGE: Diversifying Topic Modeling Chronologically
ChronoSAGE: Diversifying Topic Modeling ChronologicallyChronoSAGE: Diversifying Topic Modeling Chronologically
ChronoSAGE: Diversifying Topic Modeling Chronologically
 
Supplementary material for my following paper: Infinite Latent Process Decomp...
Supplementary material for my following paper: Infinite Latent Process Decomp...Supplementary material for my following paper: Infinite Latent Process Decomp...
Supplementary material for my following paper: Infinite Latent Process Decomp...
 
Nonparametric Factor Analysis with Beta Process Priors の式解説
Nonparametric Factor Analysis with Beta Process Priors の式解説Nonparametric Factor Analysis with Beta Process Priors の式解説
Nonparametric Factor Analysis with Beta Process Priors の式解説
 

Documents as a Bag of Maximal Substrings: An Unsupervised Feature Extraction for Document Clustering

  • 1. - An Unsupervised Feature Extraction for Document Clustering - 正田 备也 Tomonari MASADA 长崎大学 Nagasaki University [email_address] DOCUMENTS AS A BAG OF MAXIMAL SUBSTRINGS
  • 2.
  • 3.
  • 4.
  • 5.
  • 6.      在第六次人口普查数据中,值得注意的是中国人口的年龄结构变化。普查结果显示,大陆 31 个省份和现役军人的人口中, 0-14 岁人口占 16.60% ; 15-59 岁占 70.14% ; 60 岁及以上人口占 13.26% ,其中 65 岁及以上人口占 8.87% 。      同第五次全国人口普查相比, 0-14 岁人口的比重下降 6.29 个百分点, 15-59 岁人口的比重上升 3.36 个百分点, 60 岁及以上人口的比重上升 2.93 个百分点, 65 岁及以上人口的比重上升 1.91 个百分点。      马建堂表示, 1980 年以后,特别是近十年,老龄人口比重增加,少儿年龄的比重在缩小,“这样的状况,大家都在思索中国的人口政策和计划生育政策。”      他认为,计划生育工作取得了举世瞩目的成就,有效控制了人口过快增长。此外,中国要重视人口发展出现的一些新情况、新变化,坚持计划生育的基本国策,稳定适度低生育的水平,同时兼顾当前和长远,科学研究、认真评估,慎重地、逐步地完善人口计划生育政策,统筹解决人口问题。
  • 7. 工作 12119 表示 12107 于 12027 名 11993 问题 11965 已 11906 后 11854 更 11812 就 11792 从 11486 进行 11180 以 10902 地区 10712 被 10368 要 10209 但 10047 还 9927 目前 9700 总统 9658 企业 9582 北京 9114 向 9041 合作 8982 时 8969 市场 8873 一个 8668 年 8665 最 8570 公司 8453 今年 8365 都 8286 组织 8235 而 8124 前 8073 元 8070 会 8034 举行 7980 出 7849 安全 7788 金融 7705 关注 7600 美元 7480 社会 7432 国 7393 人员 7330 内容 7324 次 7319 发生 7319 建设 7205 世界 7087 至 7086 地 6995 会议 6929 我们 6784 全国 6698 下 6692 报道 6648 关系 6570 增长 6493 通过 6476 政策 6392 认为 6251 有关 6184 价格 6149 能 6119 日本 6102 三 6094 请 6088 机构 6080 应 6014 没有 5997 其 5968 要求 5896 活动 5872 主要 5868 由 5855 部门 5662 已经 5624 影响 5616 加强 5609 投资 5507 新华社 5479 重要 5469 方面 5456 副 5437 来 5412 情况 5377 当天 5356 高 5292 可能 5285 管理 5277 内 5242 流感 5229 其中 5179 朝鲜 5074 危机 5071 银行 5052 甲型 5049 及 5047 时间 5021
  • 8. 为 52758 是 52564 了 51612 月 51262 部 48568 上 47851 对 44310 地 42575 不 42441 政 42422 美 41441 业 41141 经 39598 出 38830 时 38796 者 38659 生 37414 家 36601 作 35987 以 35923 关 35642 全 35352 成 35198 方 35050 要 34279 市 34249 3 34237 中国 34144 公 33453 进 33437 个 33222 5 32887 华 32497 这 32313 于 32201 民 32125 前 32089 将 32040 0 32037 机 30320 长 29705 工 29641 多 29571 9 29539 到 29377 1 29320 加 28963 说 28478 来 28428 内 28382 展 28206 网 28142 电 27906 8 27643 合 27615 6 27442 7 27355 重 27024 记 26608 4 26598 员 26551 动 26496 开 26383 法 26338 主 26220 斯 26039 现 25456 区 25352 表 25350 高 25082 能 25007 下 24920 分 24850 总 24822 与 24504 同 24228 学 24012 事 23414 资 23173 定 23161 新华 23160 记者 23138 后 23122 力 22809 实 22796 本 22719 利 22424 产 22368 等 22253 建 22164 济 22124 2 21954 理 21889 金 21865 当 21783 报 21540 美国 21501 体 21429 议 21314 他 21303
  • 9.    이날 본회의에서 한중일은 환경 정책과 지구ㆍ동북아시아 차원의 환경문제 극복을 위한 자국의 주요 정책을 소개하고 의견을 교환했다 .    특히 한ㆍ중 장관은 재난에 따른 환경 피해를 예방하기 위한 정보 공유의 필요성을 강조했다 .    한국은 녹색강국의 비전 실현을 위한 저탄소 녹색성장 프로그램 , 4 대강 살리기 대책 , 소음 대책을 비롯한 생활 공감 환경정책 등을 소개했다 .    중국은 제 11 차 5 개년 (2005~2011) 계획의 환경적 성과 , 제 12 차 5 개년 (2011~2015) 계획의 환경개선 목표 , 이산화황 (SO2) 등 주요 오염원 배출 저감지표 등을 설명했다 .    일본은 지난달 발생한 지진과 쓰나미의 피해상황과 대응책을 설명하고 그린 이노베이션 (Green Innovation), 지구온난화 대책 기술개발 , 환경영향평가법 개정 등 주요 환경정책을 소개했다 .
  • 10. 기자 243772 이 230494 보기 216175 것 134963 기사 108662 블로그 105935 기자이 105461 등 103620 고 69754 2009 55899 수 54841 2008 49877 저 46713 지난 40253 kr 38759 co 38368 seoul 37869 한 37689 대통령 36856 서울 36258 한국 34117 정부 32053 대한 29792 씨 27762 그 27376 대표 26445 원 25405 하 25397 경기 24005 1 23754 의원 21790 미국 21777 당 21218 이날 20939 2 20767 뒤 20710 은행 20161 지난해 19926 때문 19720 때 19507 관련 19081 북한 18965 문제 18849 경제 18775 3 18259 〃 18014 만원 17979 금융 17673 회장 17628 시장 17503 기업 17103 김 16914 조사 16690 관계자 16601 경우 16326 지역 15895 나 15874 하지 15841 이상 15632 중 15594 이번 15460 연합 15443 뉴스 15387 이후 15329 달러 15232 우리 14962 삼성 14819 오전 14807 지원 14377 경찰 14303 한나라 14071 09 13825 04 13766 4 13744 05 13675 사업 13556 국회 13473 07 13412 국민 13363 08 13356 검찰 13354 03 13345 한나라당 13196 06 13105 상황 12998 말 12942 국내 12853 정책 12657 01 12593 10 12560 가운데 12513 02 12322 최근 12192 수사 12130 함 11998 두 11950 시간 11908 보 11887 사실 11843 이어 11704
  • 11. 의를 9864 특히 9833 사가 9813 혐 9805 정을 9778 점을 9769 쳐 9764 수는 9756 앙 9751 혐의 9727 0 억원 9707 들에 9702 주택 9702 라며 9692 찬 9687 부의 9683 않았 9676 탄 9670 80 9661 색 9650 이를 9646 주장 9635 첫 9585 d 9581 기관 9545 탈 9536 긴 9508 이들 9444 회사 9428 전문 9421 문이 9414 하겠다 9392 돈 9360 와대 9351 기준 9350 청와 9347 사건 9344 청와대 9344 예정 9340 넷 9333 가장 9332 설명 9332 성을 9329 스 2 9323 렸다 9321 이사 9300 객 9299 큰 9288 자리 9286 시작 9283 들을 9272 원들 9259 확인 9258 지를 9255 발표 9248 뉴스 2 9247 찰은 9240 연합뉴스 2 9217 00 만원 9196 스 20 9186 스 200 9182 페 9174 뉴스 20 9171 뉴스 200 9167 연합뉴스 20 9166 연합뉴스 200 9162 전자 9158 볼 9149 하며 9130 안을 9127 찾 9115 좋 9108 없는 9105 정에 9065 70 9062 지적 9058 이지 9017 31 8998 휴 8962 보인 8951 끝 8922 롯 8910 럼 8861 국의 8833 추진 8804 5 년 8804 이고 8803 열린 8800 인다 8781 적이 8772 기획 8749 등에 8744 압 8717 는다 8717 력을 8715 이명 8703 중앙 8687 p 8681 자금 8670 것을 8667
  • 12.
  • 13. Comparison Procedure maximal substrings words (supervised) document vectors document vectors document clustering document set document set document set
  • 14. Suffix Array “ abracadabra$” $ a$ ra$ bra$ abra$ dabra$ adabra$ cadabra$ acadabra$ racadabra$ bracadabra$ abracadabra$ $ a$ ra$ bra$ abra$ dabra$ adabra$ cadabra$ acadabra$ racadabra$ bracadabra$ abracadabra$ 12 11 10 9 8 7 6 5 4 3 2 1 12 11 8 1 4 6 9 2 5 7 10 3 SAIS [Nong et al. 08]
  • 15. BTW (Burrows-Wheeler Transform) “ abracadabra$” a r d * r c a a a a b b $ a$ ra$ bra$ abra$ dabra$ adabra$ cadabra$ acadabra$ racadabra$ bracadabra$ abracadabra$ $ a$ ra$ bra$ abra$ dabra$ adabra$ cadabra$ acadabra$ racadabra$ bracadabra$ abracadabra$
  • 16. Extracting Maximal Substrings ...... ...... .... .... ...... .......... . .... ....._...._......_..._.........._......_.... ..... ....... .. .... . ...... .... ..... ...._...._......_...._.. ..... ... .. .... .. ... . . ... ... .... ..... ..._.._...._...._....._...._..
  • 17.
  • 18.
  • 19.
  • 20.
  • 21. E step M step
  • 22.
  • 23. E step M step
  • 24.
  • 25.  
  • 26. n 1 = 978,789 n 1 = 243,772
  • 27.  
  • 28. n 1 = 265,254 n 1 = 262,769
  • 29.  
  • 30.
  • 31.
  • 32.
  • 33.