Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

イケてる分析基盤をつくる

1,120 views

Published on

イケてる分析基盤をつくる

Published in: Internet
  • Be the first to comment

  • Be the first to like this

イケてる分析基盤をつくる

  1. 1. イケてる分析基盤をつくる @gepuro
  2. 2. 動機 アクセス状況をリアルタイムに収集加工して、サイトに反映させたい。 2/11
  3. 3. 現在の分析基盤 3/11 blog google_analytics web_beacon article local_file text_mining sqlite
  4. 4. 完成予定 netflixとほぼ同じ・・・ 4/11 blog web_beacon article kafka spark_streaming S3 druid twitter kafka_manager panoramix flask API
  5. 5. kafka, kafka manager kafka kafka manager · 2011年にLinkedINが公開した分散メッセージングシステム 2M write / sec - - · kafkaの管理ツール ブラウザぽちぽち - - 5/11
  6. 6. druid ストリーミングデータに対応したデータベース Fast Scalable   * ペタバイトまでスケールする Built for Analytics · · 列指向- · 1M events / second でデータの挿入が可能- · SQLが書ける- Sql4D (yahoo incが開発してる)- 6/11
  7. 7. panoramix ダッシュボードのフレームワーク 構成 python2.7でしか動かない(python3では一部動く) まだベータ版かな · flask druid - - · · 7/11
  8. 8. webビーコン サーバ側 サイト側 · https://gist.github.com/anonymous/d02c6438813add79a387- · https://gist.github.com/anonymous/7c038e7b4e690c51409d- 8/11
  9. 9. ミドルウェアの構築 コードを残すためにdockerを利用 それぞれでは動作確認したけど、接続が出来ていない。 お手製のflask環境 お手製のpanoramix環境 https://hub.docker.com/_/memcached/ https://hub.docker.com/r/sheepkiller/kafka-manager/ https://github.com/laclefyoshi/druid_test/tree/master/druid https://github.com/mistercrunch/panoramix https://hub.docker.com/r/sequenceiq/spark/ · · · · · · · 9/11
  10. 10. dockerネットワーク 自分のブログで実験をするため、さくらVPS 1Gプランで動かしたい sparkがメモリを食うので、スワップ多発 kafkaもメモリを食う。。。 Sparkを別のホスト(自宅サーバ)で利用する。 http://weave.works/ · · · · 個人ユースで、AWSは高いです・・・orz- · 異なるホストで動かすdockerを接続させる デモ:https://www.youtube.com/watch?v=kihQCCT1ykE これで、Sparkを別ホストで動かせそう - - - 10/11
  11. 11. 次回? 各ミドルウェアを接続せさる。 順番 druidとpanoramix1. druidとkafka2. kafkaとSpark Streaming3. flaskとdruid4. その他5. 11/11

×