はてなブックマークのシステムについて

はてなブックマークのシステムについて株式会社はてな / {Shibuya, Kansai}.pm 伊藤直也

自己紹介株式会社はてな執行役員 CTO

アジェンダはてなブックマークのこれまでと現状各種機能の実現方法パフォーマンスに関する話

はてなブックマークのこれまでと現状

はてなブックマークのこれまで 2005/2 ベータ版リリース 2005/8 正式版リリース 2008/7 関連エントリー機能株式会社プリファードインフラストラクチャー　 (PFI) と共同開発 2008/11 はてなブックマーク 2 システムリニューアル全文検索 (w/ PFI) 、カテゴライズ etc 2009/4 Firefox 拡張 2009/5 はてなブックマークプラス有料オプション

現在の数字 300,000 ユーザー登録 400万セッション/月 (Google Analytics) 1,600万 URL / 4,700万ブックマーク

データの規模の例 mysql> select count(*) from relword; +-----------+ | count(*) | +-----------+ | 351277311 | +-----------+ 1 row in set (0.00 sec)

データの規模レコード数 1,600万エントリー 4,700万ブックマーク 5,000万タグデータサイズ (MySQL MyISAM) エントリー 3GB ブックマーク 5.5GB タグ 4.8GB HTML 200GB超 (zlib で圧縮済み)

中規模 ~ 大規模ウェブサービスサーバ台数 httpd mysqld そのほかコードの規模 Perl コード 10 万行弱 (WAF 等抜きで 45,000 行 ) .pm ファイル 1,200 個強 (600 個 ) Google, Yahoo!, Amazon が超大規模とすると中規模くらいレコード数千万件単位、データ規模は GB 単位

開発体制 8名体制ディレクター (マネージャ) 1名エンジニア 3名 +アルバイト 3名デザイナー 1名 +アルバイト 1名

システム構成基本は LAMP ウェブアプリ部分はオーソドックスな構成 Linux (Xen), Apache, MySQL, Perl 用途によってはサブシステムあり検索用サーバー群 (PFI の Sedue 、自社開発の検索サーバ ) カテゴライズサーバースペルミス修正サーバー非同期タスク用に TheSchwartz 分散ファイルシステムに MogileFS etc.

プログラミング言語 Perl 5.8 mod_perl WAF ･･･ Ridge ( 自社開発 ) O/R マッパ･･･ DBIx::MoCo JavaScript Ten.js ( 自社開発 ) C++ Thrift メモリ要件、速度要求が厳しい箇所

利用している主なソフトウェア Perl, JavaScript, C++ LAMP, Xen LVS + keepalived ロードバランサ Thrift 多言語 RPC フレームワーク (by Facebook) TheSchwartz MogileFS Lux IO Key Value Store Squid

HTML::ExtractContent はてなブックマーク2用に開発した本文抽出モジュール HTML から「良い感じ」に本文テキストを抽出 CPAN に公開済 JavaScript 版を現在開発中サイボウズ・ラボの中谷秀洋氏の Ruby 実装を Perl に移植後述の検索、カテゴライズの精度に大きく影響

HTML::ExtractContent の仕組み正規表現だけで高速にヒューリスティクスで " 本文らしさ " を判定 HTML を適当なブロック要素ごとに分割各ブロックにスコアリング本文っぽさでスコア増 ( 句読点、テキストノードの文字列長 etc) 本文っぽくなさでスコア減 ( リンクばかり並んでいる etc) つながっているブロックをまとめてクラスタにする高スコアが続いたらクラスタ、低スコアが来たら切れ目ブロックスコアの合計がクラスタのスコアスコアの一番高いクラスタが本文詳しくは : http://d.hatena.ne.jp/tarao/20090322#1237750634

HTML::LayeredExtractor ( 非公開 ) 新聞など･･･ ExtractContent で OK 一部のサイト･･･確実に抜き出せる別の方法  Web API ニコニコ動画、 YouTube 、 Amazon.co.jp 特定サイトはルールベースに処理自社サイト、大手サイトは XPath で、などフィードを利用複数試して一番良い結果を選択するメタエンジン Chain of Responsibility で順番に試して駄目なら ExtractContent に fallback

2 つの全文検索システム全登録文書からの全文検索 PFI の Sedue 自分のブックマークからの全文検索有料オプション限定の機能自社開発の Perl 検索エンジン

1. 全文書からの全文検索 Sedue http://preferred.jp/sedue/ 圧縮 Suffix Arrays スコアリングのアルゴリズムよく知られた幾つかのヒューリスティクスブックマーク数やブックマークされた時間を加味文書登録 , 更新ブックマークのタイミングに合わせて TheSchwartz で 1st ブックマークから数分後には検索可能

2. 個人のブックマークからの全文検索 "マイブックマーク全文検索" Perl で独自の全文検索システムを開発オーソドックスな転置インデックス方式ユーザー毎にインデックスを構築動的に更新可能 id:naoya プロトタイプ -> id:r_kurain ( 倉井龍太郎 ), id:tarao が中心に開発

転置インデックス辞書 -> 含む文書のID 列 (Postings List) の索引 ... perl => [1, 5, 20, 333, 350, 362 ...] python => [8, 10, 11, 52 ...] ruby => [1, 10, 21, 333, 350, 428 ...] ...

転置インデックスの構成二つのインデックス辞書が N-gram のインデックスノイズが少なく、且つ検索漏れして欲しくないデータ用のインデックスタイトル、コメント、タグ、 URL 文字列など辞書が形態素解析のインデックス本文テキスト (by ExtractContent) などノイズの多い箇所 MeCab ( はてなキーワード + MeCab 辞書 ) 検索は両者から行って、結果をマージ Postings List には文書 ID と単語出現位置を記録スニペットの表示やスコアリングに出現位置が必要 [ 10: 2, 100, 108, ... ]

転置インデックスの構成 ( 続き ) 転置インデックスの圧縮 Postings List の差分を取って VB 符号 ( 相当 ) Array::Gap http://d.hatena.ne.jp/naoya/20080906/1220685978 転置インデックスの保存に Lux IO Lux の KVS Perl バインディング Lux::IO (id:antipop) シンプルで高速ユーザー毎にファイルひとつ。本システムの運用に最適索引を作り直したかったらファイルを削除して再構築分散したいなら、ユーザー ID などでパーティショニング

検索結果のスコアリング本夏のインターンシップで開発 id:yaotti, id:nyanp

スコアリングの手法複数のヒューリスティクスの結果を重み付き線形和で (例) Score = 0.5 * TF-IDF + 0.2 * ブクマ数 + 0.3 * 新鮮度重みは適当本格的にやるなら正解データからの機械学習

スコアリングの手法の一部 ( 続き ) クエリがタイトル等に含まれているかどうか複数クエリ語の近傍度クエリの出現位置･･･前半であるほど良クエリのマッチの仕方 ( 単語境界かどうか etc) TF-IDF ブックマーク数文書の新鮮度文書の 1st ブックマーク日時特定の URL にボーナス Wikipedia, d.hatena.ne.jp/keyword などルートドキュメント

スコアリング今後 PageRank や HITS 的なリンク解析クリックストリームからのフィードバック学習

検索エンジンとアプリケーションのやりとり JSON-RPC で Web API アクセス制限などはウェブアプリケーション側で検索システムはあくまで検索結果を返すだけに専念 Web API は一般にも公開 google "マイブックマーク全文検索API"

Firefox 拡張 + マイブックマーク検索拡張から Web API で検索結果を取得

スペルミス修正機能もしかして

スペルミス修正サーバークエリ語に対して修正候補を返す C++ と Perl ･･･ Thrift スコアリングエンジンを C++ で、問い合わせは Perl でスペルミス修正のアルゴリズムはてなキーワードを辞書に補正 N-gram 索引を使って候補を絞り、 Jaro-Winkler 距離 ( 編集距離のようなもの ) で近似度を測定詳しくは google "Kansai.pm スペルミス "

レコメンドエンジン BSim PFI のレコメンドエンジンブックマークのタグを入力ほかも幾つか試したがタグの精度が圧倒的に良かったタグは記事推薦に非常に有効 Perl とのやりとり C++ で書かれたエンジンと Perl アプリ Thrift を利用して RPC で

文書分類エンジン BDog 自社開発の文書分類エンジン C++ で実装、 Thfirt で Perl から利用本文テキスト (by ExtractContent) から単語ベクトルを作って判定ベイジアンフィルタ Complement Naive Bayes http://d.hatena.ne.jp/tkng/20081217/1229475900 特定のクラスに偏りがある場合、 Naive Bayes よりも精度が向上動的な学習により精度向上ユーザーによるカテゴリ修正で ... 過学習防止のため対象は特定ユーザーに限定

そのほかブックマークスパム判定機能複数のルールベースを組合わせた判定エンジン例: 同一順で同一エントリをブックマークし続ける複数アカウントによるブックマーク特徴語抽出はてなキーワード TF-IDF 関連広告表示などにも利用

各所で TheSchwartz を活用 TheSchwartz Six Apart 社開発のジョブキューフレームワーク CPAN 検索、スパム判定などブックマーク追加後に各種更新処理が発生同期処理だとユーザーを待たせる TheSchwartz で非同期化 HTML を取得し本文抽出 / スパム判定 / カテゴリ判定 / Sedue への更新要求 / マイブックマーク検索エンジンへの更新要求 / はてなキーワード抽出 / リンク抽出 / favicon を取得 / AccountDiscovery / スクリーンショット撮影 ...

はてなブックマーク Firefox 拡張

Firefox 拡張 Firefox Add-ons XUL http://subtech.g.hatena.ne.jp/secondlife/20090402/1238661633 id:secondlife, id:nanto_vi が中心に開発オープンソース http://github.com/hatena/hatena-bookmark-xul はてなブックマークの各種機能を JSON API にして、 Firefox から利用拡張用に追加した API の一部は公開 API としてもリリース

雑感 Web + DB システムの一歩外の開発をここ一年ぐらいで色々した検索、レコメンド、Firefox拡張 ... なかなか楽しい新しい体験をエンドユーザーに提供できる

パフォーマンスに関する話

バックエンドのシステム構成定番の三層構造 LVS + KeepAlived で分散 lighttpd or Apache -> (Squid ->) mod_perl -> MySQL

バックエンドシステムの三層構造 proxy proxy LB LB app server app server app server app server LB DB DB LB LB LB

ハードウェア : 自作サーバー

データベースの構成オーソドックスな構成でスケーリング MySQL (MyISAM) メモリ 16GB 一部で SSD を試験マスタ・スレーブ構成データのサイズ、用途に合わせてテーブル単位で分割メイン (ユーザ情報、エントリ、ブックマーク) タグ、キーワード HTMLデータ etc.

島分け proxy AP bot / feed 通常のリクエスト DB 画像 API etc. proxy

Squid によるキャッシュ Squid Reverse Proxy でキャッシュゲスト向けコンテンツ bot 向けコンテンツ一部の API ○○ users 画像のバックエンドの API など

memcached によるキャッシュアプリケーションフレームワークに memcached キャッシュ機能ページを丸ごと memcached にキャッシュする機能ユーザー毎の設定パラメータをまとめて SHA1 キーを作り、同じ設定のユーザーには同じキャッシュを返す機能 Template::Plugin::Cache longtail はキャッシュしない ○○ users を閾値に

クライアント表示に関する工夫昨今では定番の手法を実施 gzip 圧縮静的ファイルの Expires を 1年に更新される可能性のあるものは別ディレクトリで管理 CSS, JavaScript ファイルは git の commit + path の SHA1 をクエリパラメータに例: /js/foo.js?sha1hogehoge 静的ファイルを別ドメイン -> Cookie 分の転送を削減

クライアント表示に関する工夫 ( 続き ) JavaScript による遅延ロード広告の遅延ロード広告表示でページ表示が待たされない Google の広告、自社広告

クライアント表示に関する工夫 ( 続き ) ユーザー毎に出し分ける部分を JS で遅延残った共通部分 (HTML) をキャッシュできる

雑感一般的な Web + DB システムの運用は苦労が減ったハードウェアの進歩、特にメモリ容量各種ノウハウがウェブや書籍等で公開されている JavaScript の遅延ロードをうまく使うと高速化に寄与できる箇所が多い RDBMS だけでは難しい規模 / 要件をどうするかが面白い検索エンジンを作る、レコメンドエンジンを作る、文書分類エンジンを作る ... etc.

まとめはてなブックマークのシステムの裏側を紹介したオーソドックスな Web + DB システムと幾つかのサブシステムを開発した検索、レコメンド、文書分類 etc RDBMS では難しい/面倒なことをどう解決していくかが今後もテーマに

はてなブックマークのシステムについて

More Related Content

What's hot

Viewers also liked

More from Naoya Ito

はてなブックマークのシステムについて