古橋貞之
e
MessagePack
Project
gumiStudy#7
#gumilab
#msgpack @frsyuki
http://d.hatena.ne.jp/viver/
Manager
Gateway
Server
Application
Server
Manager
Gateway
Manager
冗長構成
Server
Server
Server
Server
Server
Application
Gateway
Application
Gateway...
Application
Gateway
Gateway
Application
Server Server Server
memcached protocol
MessagePack-RPC
・Hides cluster configuratio...
Tools
Written in Ruby
> automates operation tasks
> easy to implement
> easy to customize
kumoctl
kumostat
kumotop
Message...
MessagePack - 高速シリアライザ
> いつ/どこで MessagePack を使うか
> MessagePack の手法
背景
> シリアライザの設計手法と MessagePack の選択
> フォーマットと Embedded Ty...
MessagePack - 高速シリアライザ
> いつ/どこで MessagePack を使うか
> MessagePack の手法
背景
> シリアライザの設計手法と MessagePack の選択
> フォーマットと Embedded Ty...
背景
• 多言語でシステムを構築したい
> C++で分散KVSを実装 + Rubyで管理を自動化
> Rubyでプロトタイプ → 段階的にC++に移植
> Javaサーバ + Rubyクライアント
• スケールアウト時代に耐える通信システムが欲...
理想
Interface
C++
Interface
Java
Interface
Ruby
高速で多機能で使いやすい
オープンソースのライブラリ
各言語の利点を活かして
本質的な設計に集中
通信のパイプライン化や並列化などの
高速化手法をシン...
現実1 JSON+XML+HTTP/TCP
C++
Java Ruby
遅い/面倒なライブラリ+
通信部分は自作
各言語の利点は活かせるが、
オブジェクトの交換は面倒
Interface
Interface Interface
通信を並列化する...
現実2 SOAPやXML-RPC
C++
Java Ruby
遅くてトラフィックが大きく
仕様が複雑な通信ライブラリ
Interface
Interface Interface
遅い。トラフィックが大きい。
並列化はユーザー任せ。
標準化はされ...
Interface
Interface
現実3 同じ言語で固める
Java Ruby
後で別のシステムやモジュール
と接続したくなったときに困る
言語の短所に
付き合わされる
例:GCが遅い
Java
書きやすい言語でプロトタイピング →
効率...
従来の問題
• 多言語対応自体の実装が面倒で、本質的な機能の
実装に集中できない
• オーバーヘッドの大きいプログラムができあがる
> リソースの消費量が増え、サーバの台数が増える
• 並列化や非同期化が難しく、高負荷に対応しにくい
> 自前実...
従来の問題2
• 書きやすい言語でプロトタイピングしたい
→ 効率の良い言語で本番実装 を段階的に行いたい
> 例:サーバだけRubyからC++に移植
• プロトコルを後から(無停止で)更新したい
> サーバの一部を最新版に更新
> ↑繰り返し...
MessagePackによる解決
• 高速で多機能で多言語対応した通信システムを提供
> 本質的な機能の実装に集中できる
> 用途に合った言語を選択できる
> プロトタイピング→別の言語で本番実装 も容易
• データサイズやCPU負荷を削減して...
解決手法
• MessagePack:効率の良いシリアライザ
> 中間の型システム+型変換APIを導入
各言語の差異を吸収する
JSONとの相互変換が可能な型システム
> 高速化手法
ゼロコピー化
効率の良いバッファリング機能を内臓
 (ストリ...
解決手法
• MessagePack-RPC:高機能なRPC
> 並列化手法
非同期呼び出し
Parallel Pipelining
並列イベント駆動I/O
> 高速化手法
コネクションプーリング
> 使いやすいAPI:複雑な並列I/Oを隠蔽
...
MessagePackの用途
• サーバ間の通信
> 分散システムのプロトタイプの実装
> 新しいサーバプログラムの実装
管理ツールの実装
クライアントライブラリの実装
• シリアライザ単体で利用
> KVSやログに保存するレコードのシリアライ...
MessagePack - 高速シリアライザ
> いつ/どこで MessagePack を使うか
> MessagePack の手法
背景
> シリアライザの設計手法と MessagePack の選択
> フォーマットと Embedded Ty...
MessagePack - 高速シリアライザ
> いつ/どこで MessagePack を使うか
> MessagePack の手法
背景
> シリアライザの設計手法と MessagePack の選択
> フォーマットと Embedded Ty...
シリアライザ
• シリアライザの役割
> オブジェクトをバイト列に変換
> バイト列からオブジェクトを復元
• シリアライザの用途
> オブジェクトをDBやキャッシュに保存
> オブジェクトをネットワーク越しに転送
require 'msgpack' # gem install “msgpack"
raw = [1,2,3].to_msgpack #=> "x93x01x02x03"
MessagePack.unpack(raw) #=> [1,2,3]
...
シリアライザの設計方法
• バイナリかテキストか
> 人間には読めないが速い <-> 読めるが遅い
• シリアライズ後のデータに型情報を埋め込むか
> データサイズが大きくなる <-> 小さく済む
> バイト列だけから復元可能 <-> IDLが...
MessagePackの選択
• バイナリ形式のシリアライズフォーマット
> 大きなバイト列をゼロコピーで扱う
• 型情報をシリアライズ後のデータに埋め込む
> コンパクトに埋め込むエンコーディング手法
> JSONと互換性のある型システム
整...
フォーマット
JSON MessagePack
null
Integer
Array
String
Map
null c0
10 0a
[20] 91 14
“30” a2 ‘3’ ‘0’
{“40”:null} 81 a2 ‘4’ ‘0’ c0
フォーマット
JSON MessagePack
null
Integer
Array
String
Map
null c0
10 0a
[20] 91 14
“30” a2 ‘3’ ‘0’
{“40”:null} 81 a2 ‘4’ ‘0’ c...
Embedded type information
type body...
type + value
typevalue length
type + length
非コンテナ型 コンテナ型
よく使う(小さいデータ)は、
型情報+値/長さ を1...
Type information
0x00
0xc2
0xc3
0xca
0xcb
0xcc
0xcd
0xce
0xcf
0xdf
...
nil
false
true
float
double
uint8
uint16
uint32
uin...
Type information
Positive FixNum
Negative FixNum
FixMap
FixArray
FixRaw
0x00
0xc0
0x80
0x90
0xa0
0xe0
0x00
0xc2
0xc3
0xca
...
JSONとの比較
{“msgpack”:“json”, “hello”:“world”}
24%削減
MessagePack
26 bytes
JSON
34 bytes
別の事例:
ある日のTwitterのpublic_timeline:
J...
多言語対応の問題
• 言語間の差異を吸収する必要がある
> 型システムの違い
文字列とバイト列の区別がない
配列と連想配列の区別がない
クラスがない
> クラス名や変数名の命名規則が違う
MessagePackの型
• MessagePackの型 を導入
> JSON互換
整数, 浮動小数点数, Boolean, nil,
文字列, 配列, 連想配列
> MessagePackの型 を表現するクラスを導入
Java:Messag...
MessagePack
C++の型 Rubyの型
MessagePackの型
Javaの型
msgpack::object
MessagePackObject
多言語対応
高度な型変換
• テンプレート(Java版, C++版)
> デシリアライズされたオブジェクトの型を検査
> 型の変換や型チェックするコードが不要になる
• Optionalフィールド(Java版)
> クラスのデシリアライズ時に、値の省略を許...
Optionalフィールド
@MessagePackMessage
public static class MyClass {
public String str;
public double num;
@Optional
public int...
ストリーミング
require 'msgpack'
u = MessagePack::Unpacker.new($stdin)
u.each do |obj|
puts obj.to_json
end
msgpack json protobuf avro thrift
形式
型情報
スキーマ記述
ストリーミング
RPC
シリアライザ
単体で利用
binary text binary binary binary
埋め込み 埋め込み 外部
外部
...
MessagePack - 高速シリアライザ
> いつ/どこで MessagePack を使うか
> MessagePack の手法
背景
> シリアライザの設計手法と MessagePack の選択
> フォーマットと Embedded Ty...
MessagePack - 高速シリアライザ
> いつ/どこで MessagePack を使うか
> MessagePack の手法
背景
> シリアライザの設計手法と MessagePack の選択
> フォーマットと Embedded Ty...
プロトコル
JSON-RPCをベースにしたプロトコル設計
[0, msgid, method, params]
[1, msgid, error, result]
[2, method, params]
Request
Response
Not...
並列性
クライアント サーバ パイプライン化
応答が帰ってくる前に立て続け
に複数の要求を発行することで
高速化を図る
実装例:
・HTTP/1.1 pipelining
・Thrift
・SOAP
クライアント サーバ
並列性
重いタスク
軽いタスク
実装例:
・HTTP/1.1 pipelining
・Thrift
・SOAP
重いタスクが軽いタスクを待たせる
> 並列性が低下
順番を揃える
(キュー)
クライアント サーバ
並列性
実装例:
・MessagePack-RPC
応答の順番を揃える必要が無い
早く終わったタスクはすぐに返す
> 並列性が向上
> サーバのリソース消費量を削減
時間短縮
重いタスク
軽いタスク
並列性
ベンチマークテスト
並列性
• RPCの要求と応答に メッセージID を入れ、クラ
イアント側で要求と応答を対応付ける
> サーバで処理する順番は自由
> サーバの並列化が容易
全要求を自動的に並列化する(Java, C++版)
> 重いタスクが軽いタスクを待たせ...
MessagePack - 高速シリアライザ
> いつ/どこで MessagePack を使うか
> MessagePack の手法
背景
> シリアライザの設計手法と MessagePack の選択
> フォーマットと Embedded Ty...
イベント駆動I/O
サーバーサイド イベント駆動I/O
Dispatcher
Server
Client
Client
Loop
multi-threaded event-driven I/O
(C++, Java)
大量のクライアントと効率的...
イベント駆動I/O
Client
Session Loop Server
Client
ServerSession Loop
クライアントサイド イベント駆動I/O
イベント駆動I/O
shared
event loop
Client
Client
Server
Server
Loop
Session
Session
クライアントサイド イベント駆動I/O
並列して通信可能
イベント駆動I/O
Session Pool
Server
Server
pools these
connectionsLoop
Session
Session
connection
クライアントサイド イベント駆動I/O
Dispatcher
イベント駆動I/O
shared
event loop
Client
Server
Server
Loop
Session
Session
クライアントサイド イベント駆動I/O
Client
サーバとクライアントを同じ
...
shared
event looptimer, signal handler,
other protocol, etc...
Dispatcher
イベント駆動I/O
Client
Server
Loop
Session
クライアントサイド イ...
イベント駆動I/O
• スレッドを使わずにI/Oを並列化
> 多数のクライアントと効率よく通信できる
• クライアント側もイベント駆動
> 多数のサーバと効率よく通信できる
• 高度な分散システムを効率よく実装可能
> 例:多数のサーバ同士が通...
イベント駆動I/O
• サーバとクライアントのアーキテクチャが対称的
> 1つのイベントループに様々なイベントハンドラ
を追加のせてプログラムを構築できる
> サーバ/クライアント両方の特性を持つシステム
例:プロキシサーバ
• イベントループ...
MessagePack - 高速シリアライザ
> いつ/どこで MessagePack を使うか
> MessagePack の手法
背景
> シリアライザの設計手法と MessagePack の選択
> フォーマットと Embedded Ty...
Futureとセッション
• Future
> 「未来の結果」を表すオブジェクト
実際に参照されるまで結果の処理を遅延させる
> 非同期呼び出しを抽象化
> 並列イベント駆動I/Oを隠蔽
• セッション
> 「コネクション」の概念を隠蔽
> 接...
Future
非同期処理を抽象化
require 'msgpack/rpc'
loop = MessagePack::RPC::Loop.new
c1 = MessagePack::RPC::Client.new(host, port, loo...
Future
クライアント サーバ1 サーバ2
call_async(method1)
call_async(method2)
future1
future2
セッション
コネクションの隠蔽
shared
event loop
Server
Server
Loop
Session
Session
connection
セッション
コネクションの隠蔽
shared
event loop
Server
Server
Loop
Session
Session
connection
Future
Future
Future
Future
コネクションを隠蔽非同期処理...
セッション
コネクションの隠蔽
Session
Session
Future
Future
Future
Future
コネクションを隠蔽非同期処理を抽象化
セッション:
コネクションを直接制御させない
> 接続が切れたら自動的に再接続
> コ...
Future
非同期処理を抽象化
require 'msgpack/rpc'
loop = MessagePack::RPC::Loop.new
c1 = MessagePack::RPC::Client.new(host, port, loo...
MessagePack - 高速シリアライザ
> いつ/どこで MessagePack を使うか
> MessagePack の手法
背景
> シリアライザの設計手法と MessagePack の選択
> フォーマットと Embedded Ty...
MessagePack - 高速シリアライザ
> いつ/どこで MessagePack を使うか
> MessagePack の手法
背景
> シリアライザの設計手法と MessagePack の選択
> フォーマットと Embedded Ty...
事例
• Sedue Search Cloud
• Amebaなう
• kumofs
• Sekai Camera
• mycached
• Ficia
> kumofs での Data::Model の使い方 http://blog.yapp...
MessagePack - 高速シリアライザ
> いつ/どこで MessagePack を使うか
> MessagePack の手法
背景
> シリアライザの設計手法と MessagePack の選択
> フォーマットと Embedded Ty...
MessagePack - 高速シリアライザ
> いつ/どこで MessagePack を使うか
> MessagePack の手法
背景
> シリアライザの設計手法と MessagePack の選択
> フォーマットと Embedded Ty...
まとめ - MessagePack
• 高速なシリアライズ形式
> バイナリ形式のコンパクトなフォーマット
JSONと比べて約20%くらいデータサイズを削減
> 中間型システム + 型変換API により多言語に対応
> 型情報をデータに埋め込む...
まとめ - MessagePack-RPC
• 多機能なRPCシステム
> クライアントサイドイベント駆動I/O;
複数のコネクションで通信を並列化
> Parallel Pipelining;
1本のコネクション上でも通信を並列化
> Fut...
まとめ - The MessagePack Project
• 世界で利用拡大中
• コミッタ募集中
• 利用事例募集中
MessagePack
• C++
> Sadayuki Furuhashi
• Ruby
> Sadayuki Furuhashi
• Java
> Muga Nishizawa
• Python
> INADA Naoki
• Haskel...
MessagePack-RPC
• C++版 - Sadayuki Furuhashi
• Erlang版 - UENISHI Kota
• Haskell版 - Hideyuki Tanaka
• Java版 - Muga Nishizawa...
http://msgpack.org/ http://github.com/msgpack
Twitter: #msgpack msgpack@googlegroups
Gumi study7 messagepack
Gumi study7 messagepack
Gumi study7 messagepack
Gumi study7 messagepack
Gumi study7 messagepack
Gumi study7 messagepack
Gumi study7 messagepack
Gumi study7 messagepack
Gumi study7 messagepack
Upcoming SlideShare
Loading in …5
×

Gumi study7 messagepack

1,182 views

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,182
On SlideShare
0
From Embeds
0
Number of Embeds
3
Actions
Shares
0
Downloads
3
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Gumi study7 messagepack

  1. 1. 古橋貞之 e MessagePack Project gumiStudy#7 #gumilab #msgpack @frsyuki http://d.hatena.ne.jp/viver/
  2. 2. Manager Gateway Server
  3. 3. Application Server Manager Gateway Manager 冗長構成 Server Server Server Server Server Application Gateway Application Gateway レプリケーション Tokyo Cabinet
  4. 4. Application Gateway Gateway Application Server Server Server memcached protocol MessagePack-RPC ・Hides cluster configuration from applications. memcached server on localhost localhost:11211 Asynchronous RPC library
  5. 5. Tools Written in Ruby > automates operation tasks > easy to implement > easy to customize kumoctl kumostat kumotop MessagePack-RPC Asynchronous RPC library Cross-language RPC
  6. 6. MessagePack - 高速シリアライザ > いつ/どこで MessagePack を使うか > MessagePack の手法 背景 > シリアライザの設計手法と MessagePack の選択 > フォーマットと Embedded Type Information > MessagePack の型システムと型変換 MessagePack-RPC - 多機能RPC > プロトコル > 並列性 - Parallel Pipelining > 並列イベント駆動I/O 事例
  7. 7. MessagePack - 高速シリアライザ > いつ/どこで MessagePack を使うか > MessagePack の手法 背景 > シリアライザの設計手法と MessagePack の選択 > フォーマットと Embedded Type Information > MessagePack の型システムと型変換 MessagePack-RPC - 多機能RPC > プロトコル > 並列性 - Parallel Pipelining > 並列イベント駆動I/O 事例
  8. 8. 背景 • 多言語でシステムを構築したい > C++で分散KVSを実装 + Rubyで管理を自動化 > Rubyでプロトタイプ → 段階的にC++に移植 > Javaサーバ + Rubyクライアント • スケールアウト時代に耐える通信システムが欲しい > 多数のサーバやクライアントが並列して通信 > マルチコア環境でもスケールする並列性
  9. 9. 理想 Interface C++ Interface Java Interface Ruby 高速で多機能で使いやすい オープンソースのライブラリ 各言語の利点を活かして 本質的な設計に集中 通信のパイプライン化や並列化などの 高速化手法をシンプルに使える
  10. 10. 現実1 JSON+XML+HTTP/TCP C++ Java Ruby 遅い/面倒なライブラリ+ 通信部分は自作 各言語の利点は活かせるが、 オブジェクトの交換は面倒 Interface Interface Interface 通信を並列化するにはマルチスレッドorイベント駆動プロ グラミングが必要。パイプライン化などの高速化手法は実 装が難しい。バグりやすい。「高負荷になると固まる」 人間が読めるので、 デバッグはしやすい
  11. 11. 現実2 SOAPやXML-RPC C++ Java Ruby 遅くてトラフィックが大きく 仕様が複雑な通信ライブラリ Interface Interface Interface 遅い。トラフィックが大きい。 並列化はユーザー任せ。 標準化はされている
  12. 12. Interface Interface 現実3 同じ言語で固める Java Ruby 後で別のシステムやモジュール と接続したくなったときに困る 言語の短所に 付き合わされる 例:GCが遅い Java 書きやすい言語でプロトタイピング → 効率の良い言語で本番実装 は難しい 実はそんなに速くない(並列性が低い) スケールアウト時代の実装に使えない 言語の長所を活かせない
  13. 13. 従来の問題 • 多言語対応自体の実装が面倒で、本質的な機能の 実装に集中できない • オーバーヘッドの大きいプログラムができあがる > リソースの消費量が増え、サーバの台数が増える • 並列化や非同期化が難しく、高負荷に対応しにくい > 自前実装はバグの元 =「高負荷になると固まる」 > ネットワーク/マルチスレッド/イベント駆動には罠が多い
  14. 14. 従来の問題2 • 書きやすい言語でプロトタイピングしたい → 効率の良い言語で本番実装 を段階的に行いたい > 例:サーバだけRubyからC++に移植 • プロトコルを後から(無停止で)更新したい > サーバの一部を最新版に更新 > ↑繰り返して無停止で全サーバを更新 ローリングアップデート
  15. 15. MessagePackによる解決 • 高速で多機能で多言語対応した通信システムを提供 > 本質的な機能の実装に集中できる > 用途に合った言語を選択できる > プロトタイピング→別の言語で本番実装 も容易 • データサイズやCPU負荷を削減して、サーバの台 数を減らす • 互換性を保ったままプロトコルを拡張可能にする • 通信を並列性してマルチコア・スケールアウトに対応
  16. 16. 解決手法 • MessagePack:効率の良いシリアライザ > 中間の型システム+型変換APIを導入 各言語の差異を吸収する JSONとの相互変換が可能な型システム > 高速化手法 ゼロコピー化 効率の良いバッファリング機能を内臓  (ストリーミングAPI)
  17. 17. 解決手法 • MessagePack-RPC:高機能なRPC > 並列化手法 非同期呼び出し Parallel Pipelining 並列イベント駆動I/O > 高速化手法 コネクションプーリング > 使いやすいAPI:複雑な並列I/Oを隠蔽 Session Future
  18. 18. MessagePackの用途 • サーバ間の通信 > 分散システムのプロトタイプの実装 > 新しいサーバプログラムの実装 管理ツールの実装 クライアントライブラリの実装 • シリアライザ単体で利用 > KVSやログに保存するレコードのシリアライズ > JSONを置き換え
  19. 19. MessagePack - 高速シリアライザ > いつ/どこで MessagePack を使うか > MessagePack の手法 背景 > シリアライザの設計手法と MessagePack の選択 > フォーマットと Embedded Type Information > MessagePack の型システムと型変換 MessagePack-RPC - 多機能RPC > プロトコルと Parallel Pipelining > 並列イベント駆動I/O > FutureとSessionによる隠蔽 事例
  20. 20. MessagePack - 高速シリアライザ > いつ/どこで MessagePack を使うか > MessagePack の手法 背景 > シリアライザの設計手法と MessagePack の選択 > フォーマットと Embedded Type Information > MessagePack の型システムと型変換 MessagePack-RPC - 多機能RPC > プロトコルと Parallel Pipelining > 並列イベント駆動I/O > FutureとSessionによる隠蔽 事例
  21. 21. シリアライザ • シリアライザの役割 > オブジェクトをバイト列に変換 > バイト列からオブジェクトを復元 • シリアライザの用途 > オブジェクトをDBやキャッシュに保存 > オブジェクトをネットワーク越しに転送
  22. 22. require 'msgpack' # gem install “msgpack" raw = [1,2,3].to_msgpack #=> "x93x01x02x03" MessagePack.unpack(raw) #=> [1,2,3] public class Main { public static void main(String[] args) { byte[] raw = MessagePack.pack(new MyClass()); MyClass dst = MessagePack.unpack(raw, MyClass.class); } } int main() { msgpack::sbuffer raw; std::vector<int> src; std::vector<int> dst; msgpack::pack(raw, src); msgpack::unpack(raw.data(), raw.size())->convert(&dst); } Ruby Java C++
  23. 23. シリアライザの設計方法 • バイナリかテキストか > 人間には読めないが速い <-> 読めるが遅い • シリアライズ後のデータに型情報を埋め込むか > データサイズが大きくなる <-> 小さく済む > バイト列だけから復元可能 <-> IDLが必要 • 多言語に対応するか
  24. 24. MessagePackの選択 • バイナリ形式のシリアライズフォーマット > 大きなバイト列をゼロコピーで扱う • 型情報をシリアライズ後のデータに埋め込む > コンパクトに埋め込むエンコーディング手法 > JSONと互換性のある型システム 整数, 真偽値, 配列, 連想配列, ... • 多言語に対応 > MessagePackの型 と 言語の型 を相互に変換
  25. 25. フォーマット JSON MessagePack null Integer Array String Map null c0 10 0a [20] 91 14 “30” a2 ‘3’ ‘0’ {“40”:null} 81 a2 ‘4’ ‘0’ c0
  26. 26. フォーマット JSON MessagePack null Integer Array String Map null c0 10 0a [20] 91 14 “30” a2 ‘3’ ‘0’ {“40”:null} 81 a2 ‘4’ ‘0’ c0 4 bytes 1 byte 2 bytes 1 byte 4 bytes 2 bytes 4 bytes 3 bytes 11 bytes 5 bytes
  27. 27. Embedded type information type body... type + value typevalue length type + length 非コンテナ型 コンテナ型 よく使う(小さいデータ)は、 型情報+値/長さ を1バイトで保存 body...
  28. 28. Type information 0x00 0xc2 0xc3 0xca 0xcb 0xcc 0xcd 0xce 0xcf 0xdf ... nil false true float double uint8 uint16 uint32 uint64 int8 ... Types 0xc0 0xe0 Type information
  29. 29. Type information Positive FixNum Negative FixNum FixMap FixArray FixRaw 0x00 0xc0 0x80 0x90 0xa0 0xe0 0x00 0xc2 0xc3 0xca 0xcb 0xcc 0xcd 0xce 0xcf 0xdf ... nil false true float double uint8 uint16 uint32 uint64 int8 ... Type information Types
  30. 30. JSONとの比較 {“msgpack”:“json”, “hello”:“world”} 24%削減 MessagePack 26 bytes JSON 34 bytes 別の事例: ある日のTwitterのpublic_timeline: JSON 31KB => MessagePack 25KB(19%削減)
  31. 31. 多言語対応の問題 • 言語間の差異を吸収する必要がある > 型システムの違い 文字列とバイト列の区別がない 配列と連想配列の区別がない クラスがない > クラス名や変数名の命名規則が違う
  32. 32. MessagePackの型 • MessagePackの型 を導入 > JSON互換 整数, 浮動小数点数, Boolean, nil, 文字列, 配列, 連想配列 > MessagePackの型 を表現するクラスを導入 Java:MessagePackObject C++:msgpack::object > MessagePackの型 と 言語の型 を 相互に変換する機能をライブラリで実装
  33. 33. MessagePack C++の型 Rubyの型 MessagePackの型 Javaの型 msgpack::object MessagePackObject 多言語対応
  34. 34. 高度な型変換 • テンプレート(Java版, C++版) > デシリアライズされたオブジェクトの型を検査 > 型の変換や型チェックするコードが不要になる • Optionalフィールド(Java版) > クラスのデシリアライズ時に、値の省略を許し て、デフォルト値を使う • 高速化 > コンパイル時コード生成(C++版) > 実行時コード生成(Java版)
  35. 35. Optionalフィールド @MessagePackMessage public static class MyClass { public String str; public double num; @Optional public int flag = 0; }
  36. 36. ストリーミング require 'msgpack' u = MessagePack::Unpacker.new($stdin) u.each do |obj| puts obj.to_json end
  37. 37. msgpack json protobuf avro thrift 形式 型情報 スキーマ記述 ストリーミング RPC シリアライザ 単体で利用 binary text binary binary binary 埋め込み 埋め込み 外部 外部 (添付) 外部 コード内に記述 Thrift互換形式の IDLも実装中 JSON Schema? 必須 (独自DSL) 必須 (JSON形式) 必須 (独自DSL) 対応 できるはず 非対応 非対応 非対応 msgpack-rpc json-rpc (非公開) avro thrift 可能 可能 可能 可能 面倒
  38. 38. MessagePack - 高速シリアライザ > いつ/どこで MessagePack を使うか > MessagePack の手法 背景 > シリアライザの設計手法と MessagePack の選択 > フォーマットと Embedded Type Information > MessagePack の型システムと型変換 MessagePack-RPC - 多機能RPC > プロトコルと Parallel Pipelining > 並列イベント駆動I/O > FutureとSessionによる隠蔽 事例
  39. 39. MessagePack - 高速シリアライザ > いつ/どこで MessagePack を使うか > MessagePack の手法 背景 > シリアライザの設計手法と MessagePack の選択 > フォーマットと Embedded Type Information > MessagePack の型システムと型変換 MessagePack-RPC - 多機能RPC > プロトコルと Parallel Pipelining > 並列イベント駆動I/O > FutureとSessionによる隠蔽 事例
  40. 40. プロトコル JSON-RPCをベースにしたプロトコル設計 [0, msgid, method, params] [1, msgid, error, result] [2, method, params] Request Response Notify メッセージID →Parallel Pipelining
  41. 41. 並列性 クライアント サーバ パイプライン化 応答が帰ってくる前に立て続け に複数の要求を発行することで 高速化を図る 実装例: ・HTTP/1.1 pipelining ・Thrift ・SOAP
  42. 42. クライアント サーバ 並列性 重いタスク 軽いタスク 実装例: ・HTTP/1.1 pipelining ・Thrift ・SOAP 重いタスクが軽いタスクを待たせる > 並列性が低下 順番を揃える (キュー)
  43. 43. クライアント サーバ 並列性 実装例: ・MessagePack-RPC 応答の順番を揃える必要が無い 早く終わったタスクはすぐに返す > 並列性が向上 > サーバのリソース消費量を削減 時間短縮 重いタスク 軽いタスク
  44. 44. 並列性 ベンチマークテスト
  45. 45. 並列性 • RPCの要求と応答に メッセージID を入れ、クラ イアント側で要求と応答を対応付ける > サーバで処理する順番は自由 > サーバの並列化が容易 全要求を自動的に並列化する(Java, C++版) > 重いタスクが軽いタスクを待たせない
  46. 46. MessagePack - 高速シリアライザ > いつ/どこで MessagePack を使うか > MessagePack の手法 背景 > シリアライザの設計手法と MessagePack の選択 > フォーマットと Embedded Type Information > MessagePack の型システムと型変換 MessagePack-RPC - 多機能RPC > プロトコルと Parallel Pipelining > 並列イベント駆動I/O > FutureとSessionによる隠蔽 事例
  47. 47. イベント駆動I/O サーバーサイド イベント駆動I/O Dispatcher Server Client Client Loop multi-threaded event-driven I/O (C++, Java) 大量のクライアントと効率的に通信できる
  48. 48. イベント駆動I/O Client Session Loop Server Client ServerSession Loop クライアントサイド イベント駆動I/O
  49. 49. イベント駆動I/O shared event loop Client Client Server Server Loop Session Session クライアントサイド イベント駆動I/O 並列して通信可能
  50. 50. イベント駆動I/O Session Pool Server Server pools these connectionsLoop Session Session connection クライアントサイド イベント駆動I/O
  51. 51. Dispatcher イベント駆動I/O shared event loop Client Server Server Loop Session Session クライアントサイド イベント駆動I/O Client サーバとクライアントを同じ イベントループ上で動作
  52. 52. shared event looptimer, signal handler, other protocol, etc... Dispatcher イベント駆動I/O Client Server Loop Session クライアントサイド イベント駆動I/O Client サーバとクライアントを同じ イベントループ上で動作
  53. 53. イベント駆動I/O • スレッドを使わずにI/Oを並列化 > 多数のクライアントと効率よく通信できる • クライアント側もイベント駆動 > 多数のサーバと効率よく通信できる • 高度な分散システムを効率よく実装可能 > 例:多数のサーバ同士が通信しあう分散システム > 例:クラスタの一括制御ツール
  54. 54. イベント駆動I/O • サーバとクライアントのアーキテクチャが対称的 > 1つのイベントループに様々なイベントハンドラ を追加のせてプログラムを構築できる > サーバ/クライアント両方の特性を持つシステム 例:プロキシサーバ • イベントループをプールしてコネクションをプール > 何度もコネクションを張り直す負荷を削減 > 高負荷時でもポート番号が足りなくならない
  55. 55. MessagePack - 高速シリアライザ > いつ/どこで MessagePack を使うか > MessagePack の手法 背景 > シリアライザの設計手法と MessagePack の選択 > フォーマットと Embedded Type Information > MessagePack の型システムと型変換 MessagePack-RPC - 多機能RPC > プロトコルと Parallel Pipelining > 並列イベント駆動I/O > FutureとSessionによる隠蔽 事例
  56. 56. Futureとセッション • Future > 「未来の結果」を表すオブジェクト 実際に参照されるまで結果の処理を遅延させる > 非同期呼び出しを抽象化 > 並列イベント駆動I/Oを隠蔽 • セッション > 「コネクション」の概念を隠蔽 > 接続・再接続・接続維持を自動化
  57. 57. Future 非同期処理を抽象化 require 'msgpack/rpc' loop = MessagePack::RPC::Loop.new c1 = MessagePack::RPC::Client.new(host, port, loop) c2 = MessagePack::RPC::Client.new(host, port, loop) future1 = c1.call_async(:method1, arg) future2 = c2.call_async(:method2, arg) future2.get future1.get
  58. 58. Future クライアント サーバ1 サーバ2 call_async(method1) call_async(method2) future1 future2
  59. 59. セッション コネクションの隠蔽 shared event loop Server Server Loop Session Session connection
  60. 60. セッション コネクションの隠蔽 shared event loop Server Server Loop Session Session connection Future Future Future Future コネクションを隠蔽非同期処理を抽象化
  61. 61. セッション コネクションの隠蔽 Session Session Future Future Future Future コネクションを隠蔽非同期処理を抽象化 セッション: コネクションを直接制御させない > 接続が切れたら自動的に再接続 > コネクションプーリング Future: 非同期処理を直接記述させない > 記述を簡略化 > バックグラウンドで処理できる 通信は自動的に並列処理
  62. 62. Future 非同期処理を抽象化 require 'msgpack/rpc' loop = MessagePack::RPC::Loop.new c1 = MessagePack::RPC::Client.new(host, port, loop) c2 = MessagePack::RPC::Client.new(host, port, loop) future1 = c1.call_async(:method1, arg) future2 = c2.call_async(:method2, arg) future2.get future1.get
  63. 63. MessagePack - 高速シリアライザ > いつ/どこで MessagePack を使うか > MessagePack の手法 背景 > シリアライザの設計手法と MessagePack の選択 > フォーマットと Embedded Type Information > MessagePack の型システムと型変換 MessagePack-RPC - 多機能RPC > プロトコルと Parallel Pipelining > 並列イベント駆動I/O > FutureとSessionによる隠蔽 事例
  64. 64. MessagePack - 高速シリアライザ > いつ/どこで MessagePack を使うか > MessagePack の手法 背景 > シリアライザの設計手法と MessagePack の選択 > フォーマットと Embedded Type Information > MessagePack の型システムと型変換 MessagePack-RPC - 多機能RPC > プロトコルと Parallel Pipelining > 並列イベント駆動I/O > FutureとSessionによる隠蔽 事例
  65. 65. 事例 • Sedue Search Cloud • Amebaなう • kumofs • Sekai Camera • mycached • Ficia > kumofs での Data::Model の使い方 http://blog.yappo.jp/yappo/archives/000710.html • Cassandra?
  66. 66. MessagePack - 高速シリアライザ > いつ/どこで MessagePack を使うか > MessagePack の手法 背景 > シリアライザの設計手法と MessagePack の選択 > フォーマットと Embedded Type Information > MessagePack の型システムと型変換 MessagePack-RPC - 多機能RPC > プロトコルと Parallel Pipelining > 並列イベント駆動I/O > FutureとSessionによる隠蔽 事例
  67. 67. MessagePack - 高速シリアライザ > いつ/どこで MessagePack を使うか > MessagePack の手法 背景 > シリアライザの設計手法と MessagePack の選択 > フォーマットと Embedded Type Information > MessagePack の型システムと型変換 MessagePack-RPC - 多機能RPC > プロトコルと Parallel Pipelining > 並列イベント駆動I/O > FutureとSessionによる隠蔽 事例
  68. 68. まとめ - MessagePack • 高速なシリアライズ形式 > バイナリ形式のコンパクトなフォーマット JSONと比べて約20%くらいデータサイズを削減 > 中間型システム + 型変換API により多言語に対応 > 型情報をデータに埋め込む; 定義ファイルが不要 > JSONと相互に変換可能 > ストリーミング機能
  69. 69. まとめ - MessagePack-RPC • 多機能なRPCシステム > クライアントサイドイベント駆動I/O; 複数のコネクションで通信を並列化 > Parallel Pipelining; 1本のコネクション上でも通信を並列化 > Futureにより複雑な並列イベント駆動I/Oを隠蔽 > Sessionによりコネクションを隠蔽 コネクションの確立・維持・再接続を自動化
  70. 70. まとめ - The MessagePack Project • 世界で利用拡大中 • コミッタ募集中 • 利用事例募集中
  71. 71. MessagePack • C++ > Sadayuki Furuhashi • Ruby > Sadayuki Furuhashi • Java > Muga Nishizawa • Python > INADA Naoki • Haskell > Hideyuki Tanaka • Lua > Nobuyuki Kubota • Perl > tokuhirom, gfx, ... • Erlang > UENISHI Kota • Node.JS > Peter Griess • JavaScript > uupaa • PHP > advect • D > repeatedly 対応言語と開発者の一部
  72. 72. MessagePack-RPC • C++版 - Sadayuki Furuhashi • Erlang版 - UENISHI Kota • Haskell版 - Hideyuki Tanaka • Java版 - Muga Nishizawa • PHP版 - h0x10 • Python版 - INADA Naoki • Ruby版 - Sadayuki Furuhashi 対応言語と開発者の一部
  73. 73. http://msgpack.org/ http://github.com/msgpack Twitter: #msgpack msgpack@googlegroups

×