Solr@twitter検索
Upcoming SlideShare
Loading in...5
×

Like this? Share it with your network

Share

Solr@twitter検索

  • 4,787 views
Uploaded on

2009/7/21 Solr勉強会にて

2009/7/21 Solr勉強会にて

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
4,787
On Slideshare
3,458
From Embeds
1,329
Number of Embeds
9

Actions

Shares
Downloads
23
Comments
0
Likes
3

Embeds 1,329

http://d.hatena.ne.jp 1,212
http://code46.hatenablog.com 85
http://www.slideshare.net 9
http://www.linkedin.com 8
http://triple-c.sakura.ne.jp 6
http://74.125.153.132 4
http://webcache.googleusercontent.com 3
http://www.freerss.net 1
http://cache.yahoofs.jp 1

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. [email_address] 検索 2009.7.21 Solr 勉強会
  • 2. twitter 検索 (yats) の紹介
    • http://pcod.no-ip.org/yats /
    • 3 億つぶやき以上を収集
    • 日本語ユーザーからの 5500 万つぶやきを検索
    • つぶやくと平均 60 秒で検索可能に。
    • 50 万 PV/ 月 , 270 万リクエスト / 月
    • 平均応答時間: 0.3 秒
  • 3. twitter 検索 (yats) の紹介
    • 特徴:
      • 更新頻度が高い
      • 1 件あたりの文章は短いが、件数が多い
      • 日付ソート前提
  • 4. どうすれば速くなる?
    • 1. 更新頻度高い:
      • インデックス更新にかかる時間を減らす
    • 2. 同じクエリが何度もくる
      • キャッシュを使う
    • 3. クエリの重さは均一ではない:
      • 遅いクエリをはじく
  • 5. インデックス更新の高速化
    • 追加(更新)専用の Solr を作る!
      • 小さなインデックスに対してならば速度は良好
    • ( zoie を参考にしました )
    検索 更新 件数 間隔 所要時間 1 日分 40 万 100 秒 数秒 1 ヶ月分 1000 万 12 時間 数十秒 のこり 5000 万 30 日 数時間
  • 6. キャッシュ
    • ノイズの無い環境  ( 5 時間後-> 1 週間後)
    • キャッシュヒット率 :64%->77%
    • 平均 (msec):128->68
  • 7. キャッシュを 5 倍にした
    • キャッシュが足りていないように見えたので 5 倍にした。
    • 横軸は経過時間
    • 今後もう少しログをためて調べてみよう…
    ※ 当日のスライドに含まれなかったスライドです
  • 8. 遅いクエリをはじく
    • 遅いクエリとは
      • 後ろの方のページ (50 ページ目とか )
      • 複雑な条件式
      • ヒット数が多い  etc...
    • Solr にリクエストして待機する apache プロセスが増えていく->落ちる
    • 5 秒で返ってこなかったらタイムアウト
    • ->  過去 1 日分だけ検索(高速)
    • ( 1% のクエリでこういう処理が走る)
  • 9. あー、もっと速くしたい ...
  • 10. SSD にした
    • SSD にしたら 7 倍 くらいはやくなった。
    • うるさくなくなった
    • CPU がボトルネックに
    • 初回起動から高速
      • OS のキャッシュに載ってない状態から初めてお k
  • 11. まとめ
    • 1. 更新頻度高い:
      • 複数の Solr を準備する
    • 2. 同じクエリが何度もくる
      • キャッシュを多く設定
    • 3. クエリの重さは均一ではない:
      • 遅いクエリをタイムアウトさせる
  • 12. ご清聴ありがとうございました
  • 13. link Zoie : http://code.google.com/p/zoie /
  • 14. 以降は使わないかも
  • 15. 遅いクエリが処理時間に占める割合 5 秒以上
  • 16. twitter 検索の構成
    • クローリング + apache + mysql (+ Solr1,2)
      • SC440 cpu:2GHz 2 コア (E4500) mem:3GB
      • HDD 80G, HDD 1TB
    • Solr3
      • SC440 cpu:1.86GHz? 2 コア (E2100?) mem:3GB
      • HDD 80G, SSD 120G