More Related Content
PDF
日本のオープンデータプラットフォームをPythonでつくる PPTX
PDF
オープニングトーク - 創設の思い・目的・進行方針 -データマイニング+WEB勉強会@東京 PDF
DataProcessingInBuffettCode-20190213 PDF
PDF
PDF
[データマイニング+WEB勉強会][R勉強会] 創設の思い・目的・進行方針 PDF
What's hot
PPTX
PPT
PPTX
組合せ最適化を体系的に知ってPythonで実行してみよう PyCon 2015 PDF
「Data Infrastructure at Scale 」#yjdsw4 PPTX
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識 PDF
Hadoop~Yahoo! JAPANの活用について~ PPTX
PPTX
Webクローリング&スクレイピングの最前線 公開用 PDF
Prophet入門【Python編】Facebookの時系列予測ツール PPTX
PDF
ヤフー音声認識サービスでのディープラーニングとGPU利用事例 PDF
MapReduceによる大規模データ処理 at Yahoo! JAPAN PDF
Python 3.9からの新定番zoneinfoを使いこなそう PDF
PDF
More from Yuta Kashino
PDF
時系列データと確率的プログラミング tfp.sts PDF
PDF
PDF
PDF
PDF
私は如何にして心配するのを止めてPyTorchを愛するようになったか PDF
PDF
PDF
PDF
Wasserstein GAN Tfug2017 07-12 PDF
PDF
PyConJP2016: 週末サイエンティストのススメ PDF
PDF
深層学習ライブラリの環境問題Chainer Meetup2016 07-02 PDF
Chainer meetup2016 03-19pub PDF
"Automatic Variational Inference in Stan" NIPS2015_yomi2016-01-20 PDF
PDF
TensorFlow White Paperを読む PDF
PDF
Gunosy go2015 06-02
- 1.
- 2.
WHO
• バクフー株式会社 柏野 雄太
•大規模リアルタイムデータのPPPP (P4)
• preprocess /process /persistence /providing
Wednesday, June 3, 15
- 3.
- 4.
WHAT: データプラットフォーム
• 大規模・リアルタイム・オンタイム
リアルタイムデータ処理 ストア
API, 検索
ストリーミング
API, 検索
可視化 通知
API, 検索
ストリーミング
API, 検索
可視化
経済データ ES / redis /
s3
異常値検知
混雑データ ES / S3変換/分類
気象データ ES/S3変換/分類
ES/Solr/
mongoDB
自然言語処理/LDA/セ
ンチメント解析twitter
Wednesday, June 3, 15
- 5.
HOW: 支える技術
• 分散マイクロサービス
async
tornado(eposs/kqueue)
asyncio (gevent/libev/libuv...)
gevent/greenlet (libev+libio)
node.js (libuv)
messaging ZeroMQ
MQS
RQ + Redis
Celery + RabbitMQ
DB
Elasticsearch / Solr
Redis, MongoDB
HDFS, Cassandra
MySQL / PostgreSQL
S3
ML/Sci
Numpy/Scipyツールチェーン
vowpal_wabbit
Theano / keras / caffe
Wednesday, June 3, 15
- 6.
- 7.
- 8.
- 9.
感想: たしかに良い
• お気軽で速い(チューンなしで倍速)
• 単なるforが速い <- Pythonではforを使うと負け
• ただweb系サーバ自体の性能はほとんど変わらず…
• タイムスタンプとか普通に苦労しない
• cgoがある
• InfluxDBとか本格派フレームワークが登場してきた
Wednesday, June 3, 15
- 10.
感想: つらさも…
• 型がキツい
•goroutine/chanのスタイルがステキだが古くさい
• ジェネレータ的なコンカレントなスタイルが難しい
• zmqあればgorutineなくても別に困らない…
• ライブラリ等がカオス (awesome goはあるが…)
• 開発エコシステムがスケールしない?
Wednesday, June 3, 15
- 11.
感想: つらさも…2
• Go+ MeCab / Chasen... とかつらすぎる
• 結局cgoで自前バインディングという…
• といいますか,日本語の自然言語処理全般に無理すぎ
感が…
• 逆に必要なcのライブラリさえあれば,cgoがあれば,
自力で少ない努力でなんでもできるという面はある
Wednesday, June 3, 15
- 12.
感想: つらさも…3
• ML/科学計算エコシステムが未成熟
•pandasのようなデータフレームがない
• numpy/scipyのような
• ML特に深層学習などイケてる技術は壊滅…
• リアルタイムwebが未成熟
• websocketライブラリが… (net, gorilla)
Wednesday, June 3, 15
- 13.
- 14.