ツイートID生成とツイッターリアルタイム検索システムの話

PFIセミナー

ツイートID生成と
ツイッターリアルタイム検索
システムの話

Eiichiro Iwata

2012年 12月20日

自己紹介

l 岩田英一郎 (@eiichiroi)
l 元さいたまな人

l 経歴
l 2009年6月∼ アルバイト

l 2010年3月埼玉大学大学院理工学研究科修了

l 2010年8月∼ PFI入社

l 所属
l 製品開発部

l Sedueプロジェクト

l 仕事
l Sedue(検索エンジン)の開発

l コア∼運用ツールを幅広く
l 研究開発成果の取り込み
2

本日の内容

l ツイートID生成システムSnowflakeの解説
l ツイートIDの構造と生成方法

l リアルタイム検索システムEarlybirdの解説
l 5億ツイート/日(約6000ツイート/秒)で増え続けるツイートを即時

に検索できるシステム
l アーキテクチャの概要

l インデックスの構成

3

ツイッターIDの
生成方法を
知っていますか？
5

ツイートID生成システムSnowflakeとは

l ユニークなIDを生成するネットワークサービス
l ツイッターのツイートID(ステータスID)の割り当てに使われている

l ツイッター社がOSSで公開中 (*)

l 特徴
l 64 bitのIDを生成

l ざっくり時刻順
l 速い
l 10000 ID/秒のスピードでIDを生成できる(1プロセスあたり)
l レスポンス 2 ms (+ネットワークのレイテンシ)
l スケールする
l 複数のマシン・プロセスで協調動作しない
l 並べただけスケールする(はず)

(*) https://github.com/twitter/snowﬂake 8

Snowflakeが開発されるまで

l ツイートの流速増加とツイッターのシステム移行
l 5億ツイート/日(約6000ツイート/秒) (*1)

l 2012年10月時点
l MySQLからCassandraやGizzard(Sharded MySQL)への移行
l CassandraがID生成をデフォルトで提供していない
l ステータスIDの変遷 (*2, *3, *4)
l 2006年5月∼: 符号付き32bit

l 2009年6月∼: 符号無し32bit

l 2009年9月∼: 64bit

l 2010年11月∼: 64bit(現状のsnowflake)

l 要求
l スケールする(分散できる)
(*1) Report: Twitter hits half a billion tweets a day
(*2) Twitpocalypse - TwitterメッセージIDの64ビット科- いよいよ明日に実施
9
(*3) Status IDs are changing on 21st September
(*4) Announcing Snowﬂake

生成するIDの構造

41bit 10bit 12bit

時刻マシンID 連番

l 64bitを3つのブロックに分割
l 時刻(41bit、69年分)

l (おそらく)snowflakeの運用開始時刻からの経過時間(ミリ秒)
l 2010年11月4日...(epoch: 1288834974657)が基点
l マシンID(10bit、1024台分)
l データセンターID(上位5bit)、ワーカーID(下位5bit)
l 起動時にZookeeperか設定ファイルから取得
l 連番(12bit、4096個)
l 同時刻・同マシンでのID重複回避用、ワーカー別
l 参考: バルス砲 25088 ツイート/秒
10

ツイートIDのデコード(デモ)

l ツイートID = 279622981959970816
l 時刻 = 1355502288700 (2012-12-15 01:24:48 +0900)

l マシンID = 39

l データセンタID = 1
l ワーカーID = 7
l 連番 = 0
11

生成するIDの特徴

l 64bit整数
l ユニーク
l 時間とともにIDの値が増加する
l ステータスIDでざっくり時刻順にソートできる(k-sorted)

l 目標精度は1秒

l 1秒以内に投稿されたツイート間では順序を保証しない

l 実際の時刻順と逆になることもある

12

生成するIDの特徴 - k-sorted

l 系列α = (a1, ..., an) が k-sorted であるとは、
l 全ての 1 ≦ i, j ≦ n に対して、 i < j-k ならば ai ≦ aj
k
l 概要
a1 ... ai ... ai-k+1 ... an
l 0-sortedは普通のソートと等価

l 距離 k 以内の要素間での順序は不問

l 例: (2, 1, 3)は1-sorted
l k-sortedの性質 (*1, *2)
l 系列αとkが与えられたときに、k-soterdかどうかはO(n)で判定可能

l 系列αが与えられたときに、最も小さいkの値をO(n)で計算可能

l 2つのk-sorted系列が与えられたときに、それらをマージした1つの

k-sorted系列をO(n)で計算可能
l 系列αをk-sortedを満たすようにするには、O(n log k)で計算可能

(*1) Roughly Sorting: A Generalization of Sorting
13
(*2) Roughly Sorting: Sequential and Parallel Approach

生成するIDの特徴 - k-sortedのkの値

41bit 10bit 12bit

時刻マシンID 連番

l 複数のマシンで完全に同じ時刻を参照できたと仮定すると...
l 222 -sorted: 22bit = 10bit(マシンID)+12bit(連番)

l 精度: 1ミリ秒
l 232-sorted: 32bit = 約10bit(時刻)+10bit(マシンID)+12bit(連番)
l 精度: 1秒
l 実際にはマシンID、連番が疎なので k はそこまで大きくないはず
l 3000 ツイート/秒なら、連番は3くらい
l NTPの精度はミリ秒単位 (*)
l 現実的にはこちらの方が精度のネックになりそう

l kの値自体にあまり意味はないはず
14
(*) http://www2.nict.go.jp/aeri/sts/tsp/PubNtp/qa.html#q2-2

その他

l マシンIDや連番の実際の値 (*)

l データセンターIDは1

l ワーカーIDは0∼4

l 連番は0∼2

l モノトニックタイム
l 設定で変更できない単調増加な時刻

l linuxではclock_gettime()などで取得可能
l 時刻が巻き戻ると厄介
l IDの一意性を保証するのが面倒になる
l snowflakeでは巻き戻りが発生したときはエラー
l 最後にIDを生成した時刻を記憶しておくだけ
(*) はてな匿名ダイアリー snowﬂakeの実際
15

ツイートID生成システムSnowflakeとは(再掲)

l ユニークなIDを生成するネットワークサービス
l ツイッターのツイートID(ステータスID)の割り当てに使われている

l ツイッター社がOSSで公開中 (*)

l 特徴
l 64 bitのIDを生成

l ざっくり時刻順
l 速い
l 10000 ID/秒のスピードでIDを生成できる(1プロセスあたり)
l レスポンス 2 ms (+ネットワークのレイテンシ)
l スケールする
l 複数のマシン・プロセスで協調動作しない
l 並べただけスケールする(はず)

(*) https://github.com/twitter/snowﬂake 16

リアルタイム検索システムEarlybirdの概要

l ツイッターリアルタイム検索エンジン
l Java製

l オープンソースの全文検索ライブラリLuceneを魔改造

l 転置インデックス

l クエリ言語(Boolean query)

l AND/OR/NOT
l フレーズクエリ
l ワイルドカードクエリは未対応
l 2010年10月にMySQLベースの検索システムから移行
l 出典
l Earlybird: Real-Time Search at Twitter, ICDE 2012

l Michael Busch, Krishna Gade, Brian Larson, Patrick Lok,
Samuel Luckenbill, and Jimmy Lin
17

Earlybirdの性能の実績値

l ツイートの登録速度
l 3000 ツイート/秒 (2012年10月時点で6000 ツイート/秒)

l ツイート登録後すぐに検索可能に
l ∼10秒以内

l ※検索対象は6∼9日以内のツイートのみ

l 検索性能
l 低レイテンシ(平均50 ms)

l 高スループット(20億件/日 ≒ 2300qps)

18

Earlybirdのアーキテクチャ •

•
ツイートのトークナイズ
メタ情報(言語など)を付与

• 動的更新の通知
• リツイート数の更新
• お気に入りの更新
• ...
• 登録先のツイート
• ハッシュでパーティション
• ハッシュの方式は不明

• ツイートの検索
• クエリのパース
• ランキング
• 複数のEarlybirdへ問い合わせ
• リツイート数
• Userのローカルソーシャルグラフを渡す
• お気に入り数
• 問い合わせ結果のマージ
• ...
• Userのローカルソーシャルグラフ 19

• 更新するインデックスを限定
Earlybirdの構成 • 1億件/台
• 12インデックス/台
• マシンスペック
Earlybird • クアッドコア2つ
• RAM 72GB
• 64GBをJVMのヒープに割当

...

Optimized Index(11個) Active Index(1個)
• 検索(読込)専用 • 検索(読込)+文書登録(書込)
• 224 ≒ 1600万件/インデックス • 更新が速いデータ構造
• 圧縮(圧縮率55%程度) • 一杯になったら裏で最適化
• 1600万件で3.7GB程度 • 1600万件で6.7GB程度
20

辞書の構成(1/2)

l 辞書
l 単語とPosting List(その単語を含む文書IDのリスト)を紐付ける

l 自作ハッシュテーブルで実装
l オープンアドレス法をArrayで実装

l Java標準のHashMapはGCと相性が悪い

l チェーンで繋いだオブジェクト達の寿命が長い
l 辞書に含める情報
l (0) 単語ID

l (1) その単語のPosting Listの長さ

l (2) その単語のPosting Listの末尾へのポインタ

l ※それぞれ別々の配列で管理(詳細は次スライド)

l 単語IDを配列のインデックスとしてアクセスする
l 速度とメモリ効率を上げるため(Java...)
21

辞書の構成(2/2)
辞書
自作ハッシュテーブル
単語の数
単語単語ID
0 1 ...
pﬁseminar 0
(1) Posting Listの長さ 4 77 ...

なう 1
(2) 末尾へのポインタ ...
:
:

転置インデックス
4

「pﬁseminar」に対応するPosting List ... ... ... ...
77

「なう」に対応するPosting List ... ...

:
:
22

Active Index

l 要求
l 文書登録(書込)処理が高速 (全サーバで6000ツイート/秒)

l 検索(読込)処理も並列処理

l 時刻降順に検索したい (とにかく最近の情報が重要)

l 特徴
l (1) Posting Listは文書ID昇順

l (2) Postingは32bit整数

l (3) Posting Listのメモリはまとめて確保

l 削除の対応方法は不明
l 削除フラグを持ってフィルタリングしているとか？

23

Active Index - (1) Posting Listは文書ID昇順

l 利点
l 文書登録時には、Posting Listの末尾に追加するだけ
文書ID: 15

pfiseminar 2 7 11 15 pfiseminar
なう
l 検索時には、Posting Listの末尾から逆順にるだけ

pfiseminar 2 7 11 15 pfiseminar
l 欠点
l Posting Listの差分圧縮と相性が悪い

l 検索時にPosting Listを逆順にれる差分圧縮は複雑
‒ ブロックベースのPForDelataとか
l 文書登録のレイテンシが増加
l Active IndexでのPosting List圧縮は諦め

24

Active Index - (2) Postingは32bit整数
※ビットレイアウトは違うかも
8bit 24bit

単語位置文書ID

l 文書ID(24bit)
l 1インデックス辺り224(≒ 1600万)件が上限

l 単語位置(8bit)
l 140文字なので8bitで十分

l 1件にある単語が複数回出現するときは、別のPostingとして扱う

l 利点
l コンパクト

l Posting Listが整数配列になり、メモリの事前割り当てが容易

l ブロック単位でまとめて割り当てちゃう
l キャッシュにも優しい
25

Active Index - (3) Posting Listのメモリはまとめて

pool 3

pool 2
pool 1
pool 0

l 4種類のpool
l 1poolあたり215 posting(必要に応じて拡張)、複数のsliceからなる

l sliceのサイズが異なる(21, 24, 27, 211)

l sliceを繋げて長いPosting Listを実現

l sliceのサイズが小さい方から、slice単位で順に割り当てて行く
l sliceの最初の要素は、前のsliceの末尾へのポインタ(32bit)
l 文書集合中の単語の分布はジップの法則でモデル化している
l 長いPosting Listが少数、短いPosting Listが多数

l 工夫しないとメモリ効率が悪く速度が遅くなってしまう
26
l この実装では、Posting Listの拡張時にメモリコピーが発生しない

Active Index - (3) Posting Listのメモリはまとめて
※ビットレイアウトは違うかも
11bit 19bit 2bit

pool 3 offset in slice slice index 11

7bit 23bit 2bit

pool 2 offset in slice slice index 10

4bit 26bit 2bit

pool 1 offset slice index 01

1bit 29bit 2bit

pool 0 o slice index 00
pool index
l sliceのポインタ
27
l 32bitでpostingと同じサイズ

Optimized Index

l 要求
l 検索(読込)処理のみ

l 文書登録(書込)処理は受け付けない

l 特徴
l Active Indexが一杯(223件)になったら裏でOptimized Indexを構築

l Optimized Index構築後、スワップ(古いインデックスは削除)

l 短いPosting Listは時刻降順にソート

l 検索時には先頭から順方向にる
l 長いPosting List(長さ1000以上)はブロック単位で圧縮
l PForDeltaやSimple9と似たような感じ
l Active Indexの55%くらいのメモリ使用量
l 1600万件6.7GBが3.7GB程度に
28

Optimized Index - 長いPosting Listの圧縮
4byte 4byte 248byte 4byte 4byte

posting header (文書IDの差分, 単語位置)の組n個を圧縮したもの posting header ...

256byte/block
l 時刻降順のPosting Listを適当に区切ってブロック単位で圧縮
l 固定長ブロック256byteを複数並べたもの
l 先頭4byte: ブロックのスキップ用

l ブロック先頭の生posting1つ
l 次の4byte: ブロックのヘッダ(解凍時に必要)
l 圧縮されている文書数 n
l 圧縮のビット幅 b = ceil(max(gap)) + ceil(max(pos))
‒ n * (ceil(max(gap)) + ceil(max(pos))) <= 1984(= 248*8)
l 残り248byte: 圧縮
l n個の(文書IDの差分, 単語位置)の組を圧縮したもの
29

まとめ

l ツイートID生成システムSnowflakeの解説
l ツイートID構造と生成方法

l ざっくり時刻順、速い、スケール

l リアルタイム検索システムEarlybirdの解説
l 5億ツイート/日(約6000ツイート/秒)で増え続けるツイートを即時

に検索できるシステム
l アーキテクチャの概要

l インデックスの構成

l Active Index
l Optimized Index

30

ツイートID生成とツイッターリアルタイム検索システムの話

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

Similar to ツイートID生成とツイッターリアルタイム検索システムの話

Similar to ツイートID生成とツイッターリアルタイム検索システムの話 (20)

More from Preferred Networks

More from Preferred Networks (20)

Recently uploaded

Recently uploaded (16)

ツイートID生成とツイッターリアルタイム検索システムの話