SlideShare a Scribd company logo
Submit Search
Upload
Login
Signup
Suffix Array@Solr勉強会
Report
nobu_k
Follow
Dec. 19, 2011
•
0 likes
•
3,957 views
1
of
26
Suffix Array@Solr勉強会
Dec. 19, 2011
•
0 likes
•
3,957 views
Download Now
Download to read offline
Report
第7回Solr勉強会での発表資料。
nobu_k
Follow
Recommended
Coqによる証明駆動開発
Hiroki Mizuno
3.1K views
•
12 slides
Coq to Rubyによる証明駆動開発@名古屋ruby会議02
Hiroki Mizuno
2.7K views
•
39 slides
Todos a aprender
iedoce
783 views
•
1 slide
Proyecto sexualidad
iedoce
1.9K views
•
5 slides
Parallel Computing in R
mickey24
1.5K views
•
42 slides
Py "Baseball" Data入門〜サービス(と野球)を支えるデータ分析基盤 #monotarotech
Shinichi Nakagawa
3.3K views
•
74 slides
More Related Content
Similar to Suffix Array@Solr勉強会
メドピアでの開発の裏側
Hiromichi Hirakawa
357 views
•
46 slides
Monitoring MongoDB (MongoSV)
Boxed Ice
2K views
•
43 slides
スマートフォン勉強会@関東 #11 どう考えてもdisconなものをiPhoneに移植してみた
Taro Matsuzawa
1.4K views
•
60 slides
20160708 データ処理のプラットフォームとしてのpython 札幌
Ryuji Tamagawa
3.3K views
•
36 slides
『繋がり』を見る: Cytoscapeと周辺ツールを使ったグラフデータ可視化入門
Keiichiro Ono
27.4K views
•
49 slides
20161004 データ処理のプラットフォームとしてのpythonとpandas 東京
Ryuji Tamagawa
3.2K views
•
39 slides
Similar to Suffix Array@Solr勉強会
(20)
メドピアでの開発の裏側
Hiromichi Hirakawa
•
357 views
Monitoring MongoDB (MongoSV)
Boxed Ice
•
2K views
スマートフォン勉強会@関東 #11 どう考えてもdisconなものをiPhoneに移植してみた
Taro Matsuzawa
•
1.4K views
20160708 データ処理のプラットフォームとしてのpython 札幌
Ryuji Tamagawa
•
3.3K views
『繋がり』を見る: Cytoscapeと周辺ツールを使ったグラフデータ可視化入門
Keiichiro Ono
•
27.4K views
20161004 データ処理のプラットフォームとしてのpythonとpandas 東京
Ryuji Tamagawa
•
3.2K views
MongoDB - Monitoring & queueing
Boxed Ice
•
1.1K views
MongoDB - Monitoring and queueing
Boxed Ice
•
695 views
ひけらかし会(visualization)
moai kids
•
763 views
Cassandra 分散データベース
あしたのオープンソース研究所
•
4.3K views
三角関数の加法定理はなぜ難しいのか
鉄次 尾形
•
1.1K views
Monitoring MongoDB (MongoUK)
Boxed Ice
•
841 views
Programming Contest Hacks
Kosei Moriyama
•
1.5K views
Mpa Ji Study Presentaton
robcoulthard
•
265 views
[DL輪読会]Tracking Emerges by Colorizing Videos
Deep Learning JP
•
1K views
Google Polymer in Action
Jeongkyu Shin
•
328 views
DevLove k8s nobusue 20180711
Nobuhiro Sue
•
1.8K views
バ、バカな...!ハッカソンの中で成長しているだと...!?
Kenji Tanaka
•
2.3K views
SendaiRubyKaigi02 LT
Hiroshi SHIBATA
•
751 views
証明駆動開発のたのしみ@名古屋reject会議
Hiroki Mizuno
•
1.3K views
More from nobu_k
Elasticsearchと機械学習を実際に連携させる
nobu_k
30K views
•
40 slides
機械学習を利用したちょっとリッチな検索
nobu_k
16.6K views
•
33 slides
4th PFI System reading
nobu_k
1.7K views
•
16 slides
Goraft and InfluxDB
nobu_k
10.4K views
•
22 slides
Transactional Information Systems入門
nobu_k
3.7K views
•
54 slides
Riak Source Code Reading #2: Erlang Client
nobu_k
1.3K views
•
25 slides
More from nobu_k
(8)
Elasticsearchと機械学習を実際に連携させる
nobu_k
•
30K views
機械学習を利用したちょっとリッチな検索
nobu_k
•
16.6K views
4th PFI System reading
nobu_k
•
1.7K views
Goraft and InfluxDB
nobu_k
•
10.4K views
Transactional Information Systems入門
nobu_k
•
3.7K views
Riak Source Code Reading #2: Erlang Client
nobu_k
•
1.3K views
Paxos
nobu_k
•
2.7K views
第一回MongoDBソースコードリーディング
nobu_k
•
1.2K views
Suffix Array@Solr勉強会
1.
Suffix Array Solr
2011/12/19 1
2.
•
(@nobu_k) • Preferred Infrastructure (PFI FI) • • • Sedue(2 ) 2
3.
Suffix Array •
Suffix Array(SA): • ( ) 1 • Sedue • SA • • +Sedue • ” - ” 3
4.
• •
• ( ) • n-gram(q-gram) • 4
5.
Suffix Array • • • n-gram
• • 5
6.
Suffix(
) 0: mississippi 1: ississippi 2: ssissippi 3: sissippi mississippi 4: issippi 5: ssippi 6: sippi 7: ippi 8: ppi 9: pi 10: i 6
7.
Suffix Array 0:
mississippi 10: i 1: ississippi 7: ippi 2: ssissippi 4: issippi 3: sissippi 1: ississippi 4: issippi 0: mississippi 5: ssippi 9: pi 6: sippi 8: ppi 7: ippi 6: sippi 8: ppi 3: sissippi 9: pi 5: ssippi 10: i 2: ssissippi 7
8.
10:
i 7: ippi • mississippi ’si’ 4: issippi 1: ississippi • ’si’ 0: mississippi 9: pi • 8: ppi 6: 3: sippi sissippi • 5: ssippi 2: ssissippi • 3 6 8
9.
10:
i SA[i]: 7: ippi 4: issippi 10 7 4 1 0 9 8 6 3 5 2 1: ississippi T[i]: 0: mississippi 9: pi m i s s i s s i p p i 8: ppi 6: sippi 3: sissippi 6 5: ssippi T[SA[6]] 2: ssissippi → T[8] → “ppi” 9
10.
(1/3) T[i]:
1 2 3 ... n SA SA[i] 10
11.
(2/3) RedBull
!! 1. RedBull *2 RedBull SA[i] 2. RedBull 1 2 3 ... n 11
12.
(3/3) 3.
RedBull 1 2 3 ... n 4. ( 1, 3), ( 2, 4), ( 3, 2),...,( n, 2) 12
13.
•
SA • + • /n-gram • SA • 13
14.
SA •
(n-gram ) • • n-gram • • • “THIS IS IT” • proximity 14
15.
SA •
• • • • HDD • ( ) • • 15
16.
• •
( ) • SAIS • • HDD • (dc3, dc7) • Sedue Haskell C++ • @tanakh++ 16
17.
•
( ) • • • 1 100GB/day • Sedue • SA n-gram • n-gram • SA n-gram • 17
18.
HDD •
HDD • OK • • • SSD • SSD • Sedue 20 (80MB) • SA[i] 18
19.
VS 1.
SA • 2. • SSD+ 500 3. • O(N) CPU 4. • • malloc 19
20.
•
Sedue 1 56 • : 40 • : 16 (UTF-16) • 2 3 • • = • • SSD • 20
21.
SA •
• 4(+1) • 2-gram • • % OK • • ” ” • 21
22.
•
• • • • 22
23.
: groonga • Sedue
groonga • • • Sedue groonga!! 23
24.
: • • •
(http://jubat.us/) • http://github.com/jubatus • @JubatusOfficial • with NTT PF 24
25.
: Fluentd •
Ruby • Treasure Data, Inc. • @frsyuki, @kzk_mover • Solr • gem install fluentd • Visit http://fluentd.org/doc/ now!! 25
26.
•
26
Editor's Notes
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n
\n