Jubatus tutorial

3,608 views

Published on

0 Comments
3 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
3,608
On SlideShare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
63
Comments
0
Likes
3
Embeds 0
No embeds

No notes for slide

Jubatus tutorial

  1. 1. Jubatus の使い方 小田 哲 NTT 情報流通プラットフォーム研究所
  2. 2. アジェンダ Hand on Jubatus をインストールする チュートリアルを動かす ストリーム処理に組み込む 応用例  詳細は次のセッション
  3. 3. インストール
  4. 4. インストール <ul><li>Jubatus はインストールがメンドクサイ </li></ul><ul><li>インストール手順をそのままスクリプト化 </li></ul><ul><ul><li>jubatus-installer </li></ul></ul><ul><li>とにかく気軽に試してみたい </li></ul><ul><ul><li>AMI(Amazon Machine Image) </li></ul></ul><ul><ul><ul><li>Tokyo region のコミュニティ AMI で” jubatus” で検索 </li></ul></ul></ul><ul><li>VM イメージ </li></ul><ul><ul><li>ご相談ください </li></ul></ul>Mac な環境 http://d.hatena.ne.jp/hjym_u/20111107/1320647557 Mac ports が出来ているらしい。
  5. 5. インストールのはまりどころ <ul><li>事前準備 </li></ul><ul><li>gcc*, make, git, python-dev( クライアント用 ) を最新化しておく </li></ul><ul><li>Python のバージョン </li></ul><ul><li>Cent OS 5.6 など python 2.4 では動かない </li></ul><ul><li>messagepack と pficommon </li></ul><ul><li>Pficommon は、 messagepack に依存しているため、インストールの順番を間違えると動かない。 </li></ul><ul><li>waf </li></ul><ul><li>Python ベースのビルドシステム </li></ul><ul><ul><li>./waf configure </li></ul></ul><ul><ul><li>./waf build </li></ul></ul><ul><ul><li>./waf install </li></ul></ul>
  6. 6. チュートリアル
  7. 7. 問題設定 20news の分類 20 の話題に対して投稿された 4 万件以上の文書がある。 ランダムに80%を学習用データ、残りの20%を分類用データ、とする。 <ul><li>手順 </li></ul><ul><ul><li>学習用データ  ( ラベル , 文書 ) の組を学習する。 </li></ul></ul><ul><ul><li>その後、分類用データ  ( 文書 ) からラベルを推定する。 </li></ul></ul><ul><ul><li>実際は、分類用データにもラベルが付いている(投稿された話題が設定されている)ため、それがどのぐらい正しかったかを後ほど評価することが出来る。 </li></ul></ul>学習用データ 分類用データ ラベル(話題)
  8. 8. プロセス構成 jubaclassifier tutorial.py jubatus-python-client ラベル(話題) ラベル(話題)
  9. 9. エラーが出た場合は・・・ socket.error: [Errno 99] Cannot assign requested address ローカル同士で短時間にコネクションを大量に張っていると、開放される前に socket を使い切ってしまう場合がある。 sudo /sbin/sysctl -w net.ipv4.tcp_tw_recycle=1
  10. 10. 複数台構成 jubaclassifier tutorial.py jubatus-python-client jubaclassifier jubakeeper zookeeper
  11. 11. ストリーム処理に組み込む classify.py queue ソース spam? jubaclassifier classify.py jubatus-python-client jubaclassifier jubakeeper zookeeper
  12. 12. 様々なソースを取り込む NW パケット センサー情報 人の入力 自然言語

×