Your SlideShare is downloading. ×
0
[email_address] 検索 2009.7.21 Solr 勉強会
twitter 検索 (yats) の紹介 <ul><li>http://pcod.no-ip.org/yats / </li></ul><ul><li>3 億つぶやき以上を収集 </li></ul><ul><li>日本語ユーザーからの 550...
twitter 検索 (yats) の紹介 <ul><li>特徴: </li></ul><ul><ul><li>更新頻度が高い </li></ul></ul><ul><ul><li>1 件あたりの文章は短いが、件数が多い </li></ul><...
どうすれば速くなる? <ul><li>1. 更新頻度高い: </li></ul><ul><ul><li>インデックス更新にかかる時間を減らす </li></ul></ul><ul><li>2. 同じクエリが何度もくる </li></ul><ul...
インデックス更新の高速化 <ul><li>追加(更新)専用の Solr を作る! </li></ul><ul><ul><li>小さなインデックスに対してならば速度は良好 </li></ul></ul><ul><li>( zoie を参考にしまし...
キャッシュ <ul><li>ノイズの無い環境  ( 5 時間後-> 1 週間後) </li></ul><ul><li>キャッシュヒット率 :64%->77% </li></ul><ul><li>平均 (msec):128->68 </li></ul>
キャッシュを 5 倍にした <ul><li>キャッシュが足りていないように見えたので 5 倍にした。 </li></ul><ul><li>横軸は経過時間 </li></ul><ul><li>今後もう少しログをためて調べてみよう… </li></...
遅いクエリをはじく <ul><li>遅いクエリとは </li></ul><ul><ul><li>後ろの方のページ (50 ページ目とか ) </li></ul></ul><ul><ul><li>複雑な条件式 </li></ul></ul><ul...
あー、もっと速くしたい ...
SSD にした <ul><li>SSD にしたら 7 倍 くらいはやくなった。 </li></ul><ul><li>うるさくなくなった </li></ul><ul><li>CPU がボトルネックに </li></ul><ul><li>初回起動か...
まとめ <ul><li>1. 更新頻度高い: </li></ul><ul><ul><li>複数の Solr を準備する </li></ul></ul><ul><li>2. 同じクエリが何度もくる </li></ul><ul><ul><li>キャ...
ご清聴ありがとうございました
link Zoie : http://code.google.com/p/zoie /
以降は使わないかも
遅いクエリが処理時間に占める割合 5 秒以上
twitter 検索の構成 <ul><li>クローリング  + apache + mysql (+ Solr1,2) </li></ul><ul><ul><li>SC440 cpu:2GHz 2 コア (E4500) mem:3GB </li>...
Upcoming SlideShare
Loading in...5
×

Solr@twitter検索

3,460

Published on

2009/7/21 Solr勉強会にて

0 Comments
3 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
3,460
On Slideshare
0
From Embeds
0
Number of Embeds
5
Actions
Shares
0
Downloads
24
Comments
0
Likes
3
Embeds 0
No embeds

No notes for slide

Transcript of "Solr@twitter検索"

  1. 1. [email_address] 検索 2009.7.21 Solr 勉強会
  2. 2. twitter 検索 (yats) の紹介 <ul><li>http://pcod.no-ip.org/yats / </li></ul><ul><li>3 億つぶやき以上を収集 </li></ul><ul><li>日本語ユーザーからの 5500 万つぶやきを検索 </li></ul><ul><li>つぶやくと平均 60 秒で検索可能に。 </li></ul><ul><li>50 万 PV/ 月 , 270 万リクエスト / 月 </li></ul><ul><li>平均応答時間: 0.3 秒 </li></ul>
  3. 3. twitter 検索 (yats) の紹介 <ul><li>特徴: </li></ul><ul><ul><li>更新頻度が高い </li></ul></ul><ul><ul><li>1 件あたりの文章は短いが、件数が多い </li></ul></ul><ul><ul><li>日付ソート前提 </li></ul></ul>
  4. 4. どうすれば速くなる? <ul><li>1. 更新頻度高い: </li></ul><ul><ul><li>インデックス更新にかかる時間を減らす </li></ul></ul><ul><li>2. 同じクエリが何度もくる </li></ul><ul><ul><li>キャッシュを使う </li></ul></ul><ul><li>3. クエリの重さは均一ではない: </li></ul><ul><ul><li>遅いクエリをはじく </li></ul></ul>
  5. 5. インデックス更新の高速化 <ul><li>追加(更新)専用の Solr を作る! </li></ul><ul><ul><li>小さなインデックスに対してならば速度は良好 </li></ul></ul><ul><li>( zoie を参考にしました ) </li></ul>検索 更新 件数 間隔 所要時間 1 日分 40 万 100 秒 数秒 1 ヶ月分 1000 万 12 時間 数十秒 のこり 5000 万 30 日 数時間
  6. 6. キャッシュ <ul><li>ノイズの無い環境  ( 5 時間後-> 1 週間後) </li></ul><ul><li>キャッシュヒット率 :64%->77% </li></ul><ul><li>平均 (msec):128->68 </li></ul>
  7. 7. キャッシュを 5 倍にした <ul><li>キャッシュが足りていないように見えたので 5 倍にした。 </li></ul><ul><li>横軸は経過時間 </li></ul><ul><li>今後もう少しログをためて調べてみよう… </li></ul>※ 当日のスライドに含まれなかったスライドです
  8. 8. 遅いクエリをはじく <ul><li>遅いクエリとは </li></ul><ul><ul><li>後ろの方のページ (50 ページ目とか ) </li></ul></ul><ul><ul><li>複雑な条件式 </li></ul></ul><ul><ul><li>ヒット数が多い  etc... </li></ul></ul><ul><li>Solr にリクエストして待機する apache プロセスが増えていく->落ちる </li></ul><ul><li>5 秒で返ってこなかったらタイムアウト </li></ul><ul><li>->  過去 1 日分だけ検索(高速) </li></ul><ul><li>( 1% のクエリでこういう処理が走る) </li></ul>
  9. 9. あー、もっと速くしたい ...
  10. 10. SSD にした <ul><li>SSD にしたら 7 倍 くらいはやくなった。 </li></ul><ul><li>うるさくなくなった </li></ul><ul><li>CPU がボトルネックに </li></ul><ul><li>初回起動から高速 </li></ul><ul><ul><li>OS のキャッシュに載ってない状態から初めてお k </li></ul></ul>
  11. 11. まとめ <ul><li>1. 更新頻度高い: </li></ul><ul><ul><li>複数の Solr を準備する </li></ul></ul><ul><li>2. 同じクエリが何度もくる </li></ul><ul><ul><li>キャッシュを多く設定 </li></ul></ul><ul><li>3. クエリの重さは均一ではない: </li></ul><ul><ul><li>遅いクエリをタイムアウトさせる </li></ul></ul>
  12. 12. ご清聴ありがとうございました
  13. 13. link Zoie : http://code.google.com/p/zoie /
  14. 14. 以降は使わないかも
  15. 15. 遅いクエリが処理時間に占める割合 5 秒以上
  16. 16. twitter 検索の構成 <ul><li>クローリング + apache + mysql (+ Solr1,2) </li></ul><ul><ul><li>SC440 cpu:2GHz 2 コア (E4500) mem:3GB </li></ul></ul><ul><ul><li>HDD 80G, HDD 1TB </li></ul></ul><ul><li>Solr3 </li></ul><ul><ul><li>SC440 cpu:1.86GHz? 2 コア (E2100?) mem:3GB </li></ul></ul><ul><ul><li>HDD 80G, SSD 120G </li></ul></ul>
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×