More Related Content
Similar to 2015 10 24_spark_osc15tk (20)
More from Junichi Noda (20)
2015 10 24_spark_osc15tk
- 8. 5. Sparkについて∼最近の情勢
• 2015年6月15日 IBMが開発者と研究者を3500人Spark関連プロ
ジェクトに投入 http://japan.zdnet.com/article/35065964/
• 2015年 6月15∼17日 Spark summit 2015 開催 (サンフランシスコ)
• NTTデータ社が定期的に勉強会を実施
• 国内のサービス実例は少ない
• 2大Hadoopディストリビューション CDHとHDPにはSparkが搭
載
• Spark1.4からはUIでモニタリングも行えるようになった。
http://qiita.com/AKB428/items/71900eecdf2350e1e45f
- 9. 6. Spark Streaming について
• Sparkサブシステムの一つでファイルからでなくリアルタイ
ムに流れてくるストリームソースに対しての集計を対象とし
ている。
• 直近1時間のツイート数を毎分集計する、直近3時間でアクセ
スが多いIPを集計する・・などのウィンドウ集計が可能。
- 10. 6. Spark Streaming ∼データソースについて
その他、ssc.socketTextStream(" localhost", 7777)
とするとローカルポートをソースにできるのでサーバーのログを流
し込んでリアルタイムにエラー、クラックIPの集計などが可能。
- 36. • Mikasa Twitter のデータ収集解析の2つのアプ
ローチについて
• ①Twitter Filter + ユーザー辞書のみの単語で絞る
• 1のメリット▶集計しやすい、後続の処理も設計し
やすい。
• 1のデメリット▶未知の単語を拾えない、ユーザー
辞書にひもづく別のワードを拾えない
• 結論:ある程度、解析対象のドメインが固定されて
いるものにはこのアプローチは有効
- 37. • ② Twitter Filter + ユーザー辞書を使いつつ全ての単語を集計
• メリット▶ 未知のワードが拾える、リアルなネットワーク
解析ができる。
• デメリット▶ ジャンクワードが多く出現するのでデータクレ
ンジングの作業にコストがかかる。
• 結論:解析対象が不明なドメインの場合、まずこのアプロー
チで回す。計測対象のネットワークが変動しやすいドメインの
場合はこのアプローチが有効。ある程度アプローチ2で回し
てアプローチ1に切り替える、もしくはアプローチ1を追加
した二段のサービスに設計する。
- 38. 4. Spark Streaming ∼ソースコード補足
• TwitterUtilは実体はJavaのTwitterライブラリで
あるtwitter4j
• Twitter解析にはTwitterAPI特有のAPIレートリ
ミット、単一IPによる高負荷時のアクセス制
限があるので注意
• Twitter開発者アカウントには電話番号が必須
になったので気軽に開発はできなくなりつつ
ある。
- 43. • 9. 参考文献紹介-4
• 「Software Design 2015年11月号」
• ConoHaを使ったHadoopクラスタの構成例と
SparkSQLをつかったデータ処理の実例が記載。
- 44. • 10. まとめ
• Twitterストリームのリアルタイムな集計にSpark
Streamingは最適だった。(SQLだとデータを一度DB
に格納し日付系の長いSQLを打つ必要がある。)
• 日本語データを解析するためには形態素解析ライブラ
リの使い方の把握、ユーザー辞書のチューニング、デー
タクレンジングが重要で、ある程度は時間がかかる。
• Hadoop界隈のトレンドは間違いなくSpark。クラスタ
設計をする場合はメモリに関しては潤沢に用意する必
要はある。・・が取り扱い幅が大きくないならスタン
ドアロンでも十分。