Jubatusハンズオン分散編
- 9. NNではモデル=点のハッシュ値リスト
まじめにやると大変なので確率的に判断する。例えば、
LSH(=距離が近ければ、値がかぶりやすい関数)を使
うと一致している数が多いものは距離も近い、ことを
使う。
01010100,
1010010,
010111
,0110101
01110100,
1010010,
010101
,0110101
01110100,
1011001,
110011
,0110101
01010100,
1010010,
110111
,0110101
01010100,
1101011,
010100
,0110101
01010100,
1010010,
010101
,0110101
01010100,
1010010,
010011
,0110101
01010100,
1010010,
011101
,
1101011
01111100,
1010100,
100011
,1101011
- 11. MIXで行われること:nearest
neighbor
12,
23,
34
,45
10,
30,
31,
50
10,
23,
30,
31
50,
52,
54,
60
80,
82,
90,
100
10,
12,
21,
25
12,
23,
30,
34
50,
52,
78,
90
75,
79,
80,
82
+
=
12,
23,
34
,45
10,
12,
21,
25
10,
30,
31,
50
10,
23,
30,
31
12,
23,
30,
34
50,
52,
78,
90
50,
52,
54,
60
75,
79,
80,
82
80,
82,
90,
100
モデル=点のハッシュ値なので、点ごとに持っていな
い
or
以前のデータを上書きすれば、全体のモデルに
なる。
- 12. MIXと精度
• タイミングによる精度のズレ
• タイミングにより失われるデータ
• MIXの精度を制御したいのであれば、ある程
度中のアルゴリズムと挙動を理解することが
必要
MIXはアルゴリズムごとに手法が異なる。
精度は、タスクの種類、MIXの頻度、データ入力のタイ
ミングなどにより変化する。
- 13. C/C++,
Java,
Python,
Ruby
などで書かれた、jubatus
にクエリーを投げるため
のクライアントライブラリ。
クライアントが分散を意識
しなくても利用できるよう
に、クエリーの分散、調停、
集計などを行うプロキシ
機械学習を実行するエン
ジン
言語に適した名前
juba[アルゴリズム名]
_proxy
juba[アルゴリズム名]
Jubatusの登場人物
Jubatus
Client
Jubatus
Proxy
クライアント プロキシ サーバ
Jubatus
Server