Submit Search
Upload
20131107 cwt2013-wdkz
•
4 likes
•
1,625 views
cyberagent
Follow
Report
Share
Report
Share
1 of 41
Download now
Download to read offline
Recommended
Hadoop Conference Japan 2013 Winterの資料です。Flume再起動時のIndex再構築の表現は若干補足修正しました。
Flumeを活用したAmebaにおける大規模ログ収集システム
Flumeを活用したAmebaにおける大規模ログ収集システム
Satoshi Iijima
2011年3月3日にオープンソースとしてリリースしたFlume-Cassandra Real Time Log Processorsの日本語プレゼン資料です
Flume cassandra real time log processing (日本語)
Flume cassandra real time log processing (日本語)
CLOUDIAN KK
Amebaソーシャルゲームにおけるr活用の体制と事例のご紹介
Amebaソーシャルゲームにおけるr活用の体制と事例のご紹介
Masanori Takano
http://www.zusaar.com/event/17397003
1000台規模のHadoopクラスタをHive/Tezアプリケーションにあわせてパフォーマンスチューニングした話
1000台規模のHadoopクラスタをHive/Tezアプリケーションにあわせてパフォーマンスチューニングした話
Yahoo!デベロッパーネットワーク
AmebaサービスでのHadoop活用事例を紹介させていただきました。
20130313 OSCA Hadoopセミナー
20130313 OSCA Hadoopセミナー
Ichiro Fukuda
第20回 Lucene/Solr勉強会 https://solr.doorkeeper.jp/events/59743 発表資料
Solrで多様なランキングモデルを活用するためのプラグイン開発 #SolrJP
Solrで多様なランキングモデルを活用するためのプラグイン開発 #SolrJP
Yahoo!デベロッパーネットワーク
Hadoopソースコードリーディング 第22回 での発表資料です。 https://www.eventbrite.com/e/hadoop-22-tickets-31987821435
最近のストリーム処理事情振り返り
最近のストリーム処理事情振り返り
Sotaro Kimura
SparkのMLlibを使ってレコメンドエンジンを作ってみました。
Sparkでレコメンドエンジンを作ってみた
Sparkでレコメンドエンジンを作ってみた
fujita_s
Recommended
Hadoop Conference Japan 2013 Winterの資料です。Flume再起動時のIndex再構築の表現は若干補足修正しました。
Flumeを活用したAmebaにおける大規模ログ収集システム
Flumeを活用したAmebaにおける大規模ログ収集システム
Satoshi Iijima
2011年3月3日にオープンソースとしてリリースしたFlume-Cassandra Real Time Log Processorsの日本語プレゼン資料です
Flume cassandra real time log processing (日本語)
Flume cassandra real time log processing (日本語)
CLOUDIAN KK
Amebaソーシャルゲームにおけるr活用の体制と事例のご紹介
Amebaソーシャルゲームにおけるr活用の体制と事例のご紹介
Masanori Takano
http://www.zusaar.com/event/17397003
1000台規模のHadoopクラスタをHive/Tezアプリケーションにあわせてパフォーマンスチューニングした話
1000台規模のHadoopクラスタをHive/Tezアプリケーションにあわせてパフォーマンスチューニングした話
Yahoo!デベロッパーネットワーク
AmebaサービスでのHadoop活用事例を紹介させていただきました。
20130313 OSCA Hadoopセミナー
20130313 OSCA Hadoopセミナー
Ichiro Fukuda
第20回 Lucene/Solr勉強会 https://solr.doorkeeper.jp/events/59743 発表資料
Solrで多様なランキングモデルを活用するためのプラグイン開発 #SolrJP
Solrで多様なランキングモデルを活用するためのプラグイン開発 #SolrJP
Yahoo!デベロッパーネットワーク
Hadoopソースコードリーディング 第22回 での発表資料です。 https://www.eventbrite.com/e/hadoop-22-tickets-31987821435
最近のストリーム処理事情振り返り
最近のストリーム処理事情振り返り
Sotaro Kimura
SparkのMLlibを使ってレコメンドエンジンを作ってみました。
Sparkでレコメンドエンジンを作ってみた
Sparkでレコメンドエンジンを作ってみた
fujita_s
関連URL:http://www.slideshare.net/lucidworks/learning-to-rank-in-solr-presented-by-michael-nilsson-diego-ceccarelli-bloomberg-lp
Lucene/Solr Revolution2015参加レポート
Lucene/Solr Revolution2015参加レポート
Yahoo!デベロッパーネットワーク
Hadoopソースコードリーディング 第24回での発表資料
Spark Structured Streaming with Kafka
Spark Structured Streaming with Kafka
Sotaro Kimura
2015-11-17 きちんと知りたいApache Spark ~機械学習とさまざまな機能群
2015-11-17 きちんと知りたいApache Spark ~機械学習とさまざまな機能群
2015-11-17 きちんと知りたいApache Spark ~機械学習とさまざまな機能群
Yu Ishikawa
ログ解析基盤におけるストリーム処理パイプラインについて
ログ解析基盤におけるストリーム処理パイプラインについて
ログ解析基盤におけるストリーム処理パイプラインについて
cyberagent
2015/09/09 Spark Meetup 2015での、堀越の講演資料になります
レコメンドバッチ高速化に向けたSpark/MapReduceの機械学習ライブラリ比較検証
レコメンドバッチ高速化に向けたSpark/MapReduceの機械学習ライブラリ比較検証
Recruit Technologies
JSUG 第2回 初心者向け勉強会
Spring3.1概要 AOP & MVC
Spring3.1概要 AOP & MVC
Yuichi Hasegawa
2015/5/21 Hadoopソースコードリーディング 第19回におけるリクルートテクノロジーズ堀越による発表資料になります
Spark/MapReduceの 機械学習ライブラリ比較検証
Spark/MapReduceの 機械学習ライブラリ比較検証
Recruit Technologies
株式会社ブレインパッドが行ったApache Sparkのパフォーマンス検証作業に関する資料です。詳細は、ブレインパッド公式ブログ「Platinum Data Blog」をご覧ください。URL:http://blog.brainpad.co.jp/
Sparkパフォーマンス検証
Sparkパフォーマンス検証
BrainPad Inc.
2016年11月18日のSpring Day 2016での発表に使用した資料です. 後半のReactive Webに関しては堅田さんに作成&発表頂いたものですが,ご本人の了承を得てまとめてアップしております.Thanks!
Spring 5に備えるリアクティブプログラミング入門
Spring 5に備えるリアクティブプログラミング入門
Takuya Iwatsuka
懇親会LTのスライドです。 http://hadoop.apache.jp/hcj2016-program/
Apache Kylinについて #hcj2016
Apache Kylinについて #hcj2016
Yahoo!デベロッパーネットワーク
「DataFrameとDatasetの内部をのぞいてみる」という内容の発表を、Hadoop / Spark Coference Japan 2019で行いました http://hadoop.apache.jp/hcj2019-program/
hscj2019_ishizaki_public
hscj2019_ishizaki_public
Kazuaki Ishizaki
Hadoop / Spark Conference Japan 2016 キーノート講演資料 『Sparkによる GISデータを題材とした時系列データ処理』 鈴木 由宇 (株式会社IHI) 土橋 昌 (株式会社NTTデータ) ▼イベントページ http://hadoop.apache.jp/hcj2016-program/ http://hcj2016.eventbrite.com/
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)
Hadoop / Spark Conference Japan
2021/11/30 第26回 Lucene/Solr勉強会 LIFULL HOME’SでのSolrの構成と運用の変遷 テクノロジー本部事業基盤ユニットプラットフォームグループ 磯野 圭輔
LIFULL HOME'SでのSolrの構成と運用の変遷
LIFULL HOME'SでのSolrの構成と運用の変遷
LIFULL Co., Ltd.
2011/12/15にお台場にて行われた第1回EMR勉強会で発表した資料です。
20111215_第1回EMR勉強会発表資料
20111215_第1回EMR勉強会発表資料
Kotaro Tsukui
Apache Kafka Meetup Japan #3での発表資料です。
Spark Structured StreamingでKafkaクラスタのデータをお手軽活用
Spark Structured StreamingでKafkaクラスタのデータをお手軽活用
Sotaro Kimura
Hadoop / Spark Conference Japan 2019 LT
スキーマ 付き 分散ストリーム処理 を実行可能な FlinkSQLClient の紹介
スキーマ 付き 分散ストリーム処理 を実行可能な FlinkSQLClient の紹介
Sotaro Kimura
What is Reactive Streams? What if a subscriber was very slow in asynchronous stream processing? In this talk we will briefly introduce you to the basics of Reactive Streams and the importance of back-pressure and then explain the architecture (implementations) of Spark Streaming back-pressure.
Is spark streaming based on reactive streams?
Is spark streaming based on reactive streams?
chibochibo
Hadoop Conference Japan 2014で発表した資料。
HBaseを用いたグラフDB「Hornet」の設計と運用
HBaseを用いたグラフDB「Hornet」の設計と運用
Toshihiro Suzuki
An overview of Spark MLlib
2016-02-08 Spark MLlib Now and Beyond@Spark Conference Japan 2016
2016-02-08 Spark MLlib Now and Beyond@Spark Conference Japan 2016
Yu Ishikawa
2016/05/31 Apache Kafka Meetup Japan #1 での発表資料
Kafkaを活用するためのストリーム処理の基本
Kafkaを活用するためのストリーム処理の基本
Sotaro Kimura
Abc2013 autumn fujiwara
Abc2013 autumn fujiwara
cyberagent
AmebaソーシャルゲームにおけるR活用の体制と事例のご紹介
AmebaソーシャルゲームにおけるR活用の体制と事例のご紹介
cyberagent
More Related Content
What's hot
関連URL:http://www.slideshare.net/lucidworks/learning-to-rank-in-solr-presented-by-michael-nilsson-diego-ceccarelli-bloomberg-lp
Lucene/Solr Revolution2015参加レポート
Lucene/Solr Revolution2015参加レポート
Yahoo!デベロッパーネットワーク
Hadoopソースコードリーディング 第24回での発表資料
Spark Structured Streaming with Kafka
Spark Structured Streaming with Kafka
Sotaro Kimura
2015-11-17 きちんと知りたいApache Spark ~機械学習とさまざまな機能群
2015-11-17 きちんと知りたいApache Spark ~機械学習とさまざまな機能群
2015-11-17 きちんと知りたいApache Spark ~機械学習とさまざまな機能群
Yu Ishikawa
ログ解析基盤におけるストリーム処理パイプラインについて
ログ解析基盤におけるストリーム処理パイプラインについて
ログ解析基盤におけるストリーム処理パイプラインについて
cyberagent
2015/09/09 Spark Meetup 2015での、堀越の講演資料になります
レコメンドバッチ高速化に向けたSpark/MapReduceの機械学習ライブラリ比較検証
レコメンドバッチ高速化に向けたSpark/MapReduceの機械学習ライブラリ比較検証
Recruit Technologies
JSUG 第2回 初心者向け勉強会
Spring3.1概要 AOP & MVC
Spring3.1概要 AOP & MVC
Yuichi Hasegawa
2015/5/21 Hadoopソースコードリーディング 第19回におけるリクルートテクノロジーズ堀越による発表資料になります
Spark/MapReduceの 機械学習ライブラリ比較検証
Spark/MapReduceの 機械学習ライブラリ比較検証
Recruit Technologies
株式会社ブレインパッドが行ったApache Sparkのパフォーマンス検証作業に関する資料です。詳細は、ブレインパッド公式ブログ「Platinum Data Blog」をご覧ください。URL:http://blog.brainpad.co.jp/
Sparkパフォーマンス検証
Sparkパフォーマンス検証
BrainPad Inc.
2016年11月18日のSpring Day 2016での発表に使用した資料です. 後半のReactive Webに関しては堅田さんに作成&発表頂いたものですが,ご本人の了承を得てまとめてアップしております.Thanks!
Spring 5に備えるリアクティブプログラミング入門
Spring 5に備えるリアクティブプログラミング入門
Takuya Iwatsuka
懇親会LTのスライドです。 http://hadoop.apache.jp/hcj2016-program/
Apache Kylinについて #hcj2016
Apache Kylinについて #hcj2016
Yahoo!デベロッパーネットワーク
「DataFrameとDatasetの内部をのぞいてみる」という内容の発表を、Hadoop / Spark Coference Japan 2019で行いました http://hadoop.apache.jp/hcj2019-program/
hscj2019_ishizaki_public
hscj2019_ishizaki_public
Kazuaki Ishizaki
Hadoop / Spark Conference Japan 2016 キーノート講演資料 『Sparkによる GISデータを題材とした時系列データ処理』 鈴木 由宇 (株式会社IHI) 土橋 昌 (株式会社NTTデータ) ▼イベントページ http://hadoop.apache.jp/hcj2016-program/ http://hcj2016.eventbrite.com/
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)
Hadoop / Spark Conference Japan
2021/11/30 第26回 Lucene/Solr勉強会 LIFULL HOME’SでのSolrの構成と運用の変遷 テクノロジー本部事業基盤ユニットプラットフォームグループ 磯野 圭輔
LIFULL HOME'SでのSolrの構成と運用の変遷
LIFULL HOME'SでのSolrの構成と運用の変遷
LIFULL Co., Ltd.
2011/12/15にお台場にて行われた第1回EMR勉強会で発表した資料です。
20111215_第1回EMR勉強会発表資料
20111215_第1回EMR勉強会発表資料
Kotaro Tsukui
Apache Kafka Meetup Japan #3での発表資料です。
Spark Structured StreamingでKafkaクラスタのデータをお手軽活用
Spark Structured StreamingでKafkaクラスタのデータをお手軽活用
Sotaro Kimura
Hadoop / Spark Conference Japan 2019 LT
スキーマ 付き 分散ストリーム処理 を実行可能な FlinkSQLClient の紹介
スキーマ 付き 分散ストリーム処理 を実行可能な FlinkSQLClient の紹介
Sotaro Kimura
What is Reactive Streams? What if a subscriber was very slow in asynchronous stream processing? In this talk we will briefly introduce you to the basics of Reactive Streams and the importance of back-pressure and then explain the architecture (implementations) of Spark Streaming back-pressure.
Is spark streaming based on reactive streams?
Is spark streaming based on reactive streams?
chibochibo
Hadoop Conference Japan 2014で発表した資料。
HBaseを用いたグラフDB「Hornet」の設計と運用
HBaseを用いたグラフDB「Hornet」の設計と運用
Toshihiro Suzuki
An overview of Spark MLlib
2016-02-08 Spark MLlib Now and Beyond@Spark Conference Japan 2016
2016-02-08 Spark MLlib Now and Beyond@Spark Conference Japan 2016
Yu Ishikawa
2016/05/31 Apache Kafka Meetup Japan #1 での発表資料
Kafkaを活用するためのストリーム処理の基本
Kafkaを活用するためのストリーム処理の基本
Sotaro Kimura
What's hot
(20)
Lucene/Solr Revolution2015参加レポート
Lucene/Solr Revolution2015参加レポート
Spark Structured Streaming with Kafka
Spark Structured Streaming with Kafka
2015-11-17 きちんと知りたいApache Spark ~機械学習とさまざまな機能群
2015-11-17 きちんと知りたいApache Spark ~機械学習とさまざまな機能群
ログ解析基盤におけるストリーム処理パイプラインについて
ログ解析基盤におけるストリーム処理パイプラインについて
レコメンドバッチ高速化に向けたSpark/MapReduceの機械学習ライブラリ比較検証
レコメンドバッチ高速化に向けたSpark/MapReduceの機械学習ライブラリ比較検証
Spring3.1概要 AOP & MVC
Spring3.1概要 AOP & MVC
Spark/MapReduceの 機械学習ライブラリ比較検証
Spark/MapReduceの 機械学習ライブラリ比較検証
Sparkパフォーマンス検証
Sparkパフォーマンス検証
Spring 5に備えるリアクティブプログラミング入門
Spring 5に備えるリアクティブプログラミング入門
Apache Kylinについて #hcj2016
Apache Kylinについて #hcj2016
hscj2019_ishizaki_public
hscj2019_ishizaki_public
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)
LIFULL HOME'SでのSolrの構成と運用の変遷
LIFULL HOME'SでのSolrの構成と運用の変遷
20111215_第1回EMR勉強会発表資料
20111215_第1回EMR勉強会発表資料
Spark Structured StreamingでKafkaクラスタのデータをお手軽活用
Spark Structured StreamingでKafkaクラスタのデータをお手軽活用
スキーマ 付き 分散ストリーム処理 を実行可能な FlinkSQLClient の紹介
スキーマ 付き 分散ストリーム処理 を実行可能な FlinkSQLClient の紹介
Is spark streaming based on reactive streams?
Is spark streaming based on reactive streams?
HBaseを用いたグラフDB「Hornet」の設計と運用
HBaseを用いたグラフDB「Hornet」の設計と運用
2016-02-08 Spark MLlib Now and Beyond@Spark Conference Japan 2016
2016-02-08 Spark MLlib Now and Beyond@Spark Conference Japan 2016
Kafkaを活用するためのストリーム処理の基本
Kafkaを活用するためのストリーム処理の基本
Viewers also liked
Abc2013 autumn fujiwara
Abc2013 autumn fujiwara
cyberagent
AmebaソーシャルゲームにおけるR活用の体制と事例のご紹介
AmebaソーシャルゲームにおけるR活用の体制と事例のご紹介
cyberagent
Cloudera World Tokyo 2014 CyberAgent
20141106_cwt-zenmyo-naito
20141106_cwt-zenmyo-naito
cyberagent
Dot_fes2013
Dot_fes2013
cyberagent
STF20131030chrome
STF20131030chrome
cyberagent
front_server20131218
front_server20131218
cyberagent
12 cyberagent
12 cyberagent
cyberagent
DSS2013CA
DSS2013CA
cyberagent
第95回数理モデル化と問題解決研究発表会 発表資料
進化ゲーム理論の枠組みを用いたソーシャルゲームにおけるユーザの利他的行動の分析
進化ゲーム理論の枠組みを用いたソーシャルゲームにおけるユーザの利他的行動の分析
cyberagent
2015年2月2日開催 「HBase徹底入門」刊行記念セミナー
刊行記念セミナー「HBase徹底入門」
刊行記念セミナー「HBase徹底入門」
cyberagent
Hadoop Conference Japan 2014 CyberAgent
Apache Flume 1.5を活⽤したAmebaにおけるログのシステム連携
Apache Flume 1.5を活⽤したAmebaにおけるログのシステム連携
cyberagent
presto meetup
Presto in my_use_case
Presto in my_use_case
wyukawa
2013年11月7日開催 「Cloudera World Tokyo 2013」 セッション発表資料 (株式会社サイバーエージェント)
Amebaにおけるログ解析基盤Patriotの活用事例
Amebaにおけるログ解析基盤Patriotの活用事例
cyberagent
2016年11月8日開催 Cloudera World Tokyo 2016 登壇資料
サイバーエージェントにおけるデータの品質管理について #cwt2016
サイバーエージェントにおけるデータの品質管理について #cwt2016
cyberagent
Presto 勉強会 at IPROS https://iprostm.doorkeeper.jp/events/23044
Presto As A Service - Treasure DataでのPresto運用事例
Presto As A Service - Treasure DataでのPresto運用事例
Taro L. Saito
Prestoの導入メリットのほか、HiveQLからPrestoへの書き換えTipsを紹介します
爆速クエリエンジン”Presto”を使いたくなる話
爆速クエリエンジン”Presto”を使いたくなる話
Kentaro Yoshida
2016年7月25日開催 「夏真っ盛り!Spark + Python + Data Science祭り」
Amebaにおけるレコメンデーションシステムの紹介
Amebaにおけるレコメンデーションシステムの紹介
cyberagent
Viewers also liked
(17)
Abc2013 autumn fujiwara
Abc2013 autumn fujiwara
AmebaソーシャルゲームにおけるR活用の体制と事例のご紹介
AmebaソーシャルゲームにおけるR活用の体制と事例のご紹介
20141106_cwt-zenmyo-naito
20141106_cwt-zenmyo-naito
Dot_fes2013
Dot_fes2013
STF20131030chrome
STF20131030chrome
front_server20131218
front_server20131218
12 cyberagent
12 cyberagent
DSS2013CA
DSS2013CA
進化ゲーム理論の枠組みを用いたソーシャルゲームにおけるユーザの利他的行動の分析
進化ゲーム理論の枠組みを用いたソーシャルゲームにおけるユーザの利他的行動の分析
刊行記念セミナー「HBase徹底入門」
刊行記念セミナー「HBase徹底入門」
Apache Flume 1.5を活⽤したAmebaにおけるログのシステム連携
Apache Flume 1.5を活⽤したAmebaにおけるログのシステム連携
Presto in my_use_case
Presto in my_use_case
Amebaにおけるログ解析基盤Patriotの活用事例
Amebaにおけるログ解析基盤Patriotの活用事例
サイバーエージェントにおけるデータの品質管理について #cwt2016
サイバーエージェントにおけるデータの品質管理について #cwt2016
Presto As A Service - Treasure DataでのPresto運用事例
Presto As A Service - Treasure DataでのPresto運用事例
爆速クエリエンジン”Presto”を使いたくなる話
爆速クエリエンジン”Presto”を使いたくなる話
Amebaにおけるレコメンデーションシステムの紹介
Amebaにおけるレコメンデーションシステムの紹介
Similar to 20131107 cwt2013-wdkz
Webdb2011 hadoop
Webdb2011 hadoop
Ichiro Fukuda
Yahoo! JAPAN Tech Conference 2018 A-1 セッションのスライドです。
YJTC18 A-1 大規模サーバの戦略
YJTC18 A-1 大規模サーバの戦略
Yahoo!デベロッパーネットワーク
Cake Matsuri Nanapi
Cake Matsuri Nanapi
Shuichi Wada
SENDAI X-TECH Innovation Project 2018-2019 「AbemaTVにおける推薦システム」の発表スライドです。
AbemaTVにおける推薦システム
AbemaTVにおける推薦システム
cyberagent
Hadoop conferencejapan2011
Hadoop conferencejapan2011
Ichiro Fukuda
楽天のHadoop利用事例(前半) 2009年11月13日に行われました、Hadoop Conference Japan 2009の発表資料です。
Hadoop Conference Japan 2009 #1
Hadoop Conference Japan 2009 #1
Rakuten Group, Inc.
DB Tech Showcase 2018 で発表した、Impalaパフォーマンスチューニングのスライドです。 https://www.db-tech-showcase.com/dbts/tokyo
Apache Impalaパフォーマンスチューニング #dbts2018
Apache Impalaパフォーマンスチューニング #dbts2018
Cloudera Japan
【RPAコミュニティ】AIHH紹介資料
AI Humming Headsご紹介資料 180927
AI Humming Headsご紹介資料 180927
ssuser30462b1
Bonfire Backend #2 ( https://yj-meetup.connpass.com/event/107235/ ) での発表資料です。
Apache Kafkaによるログ転送とパフォーマンスチューニング - Bonfire Backend #2 -
Apache Kafkaによるログ転送とパフォーマンスチューニング - Bonfire Backend #2 -
Yahoo!デベロッパーネットワーク
Stream Processing Casual Talks #1 at Yahoo! JAPAN の発表資料です http://connpass.com/event/35264/
Yahoo! JAPANにおけるオンライン機械学習実例 #streamctjp
Yahoo! JAPANにおけるオンライン機械学習実例 #streamctjp
Yahoo!デベロッパーネットワーク
Ahead-of-Time Compilation (AOT) というのは、 Javaアプリケーションを実行する前に、Java Bytecodeをマシン語にコンパイルしておくことです。つまり、Just-In-Time (JIT)コンパイル処理を実行時ではなく、実行する前にやっておくことが出来るようになります。実行時にこのJIT処理を避けることで、アプリケーションがより早く立ち上がるケースがあります。まだ実験的ですが、JDK 9でAOTを利用することが出来る場合があります。このセッションでは、デモや例を実施しながら、JDK 9のAOT機能の使い方や注意点などを簡単に紹介します。
Ahead-of-Time Compilation with JDK 9 [Java Day Tokyo 2017 D1-A1]
Ahead-of-Time Compilation with JDK 9 [Java Day Tokyo 2017 D1-A1]
David Buck
2017.07.05 Hadoopソースコードリーディング 第23回 「Apache BigData + DataWorks Summit報告会」 https://connpass.com/event/60047/
Apache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreading
Apache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreading
Yahoo!デベロッパーネットワーク
Yahoo! JAPAN Tech Conference 2018 A-1 セッションのスライドです。
YJTC18 A-1 データセンタネットワークの取り組み
YJTC18 A-1 データセンタネットワークの取り組み
Yahoo!デベロッパーネットワーク
Apache Pulsar Meetup Japan #2 発表資料 https://japan-pulsar-user-group.connpass.com/event/94276/
Go + Pulsar WebSocket APIの利用事例 #pulsarjp
Go + Pulsar WebSocket APIの利用事例 #pulsarjp
Yahoo!デベロッパーネットワーク
2017年12月18日に実施された、長崎大学工学部の大学院生向け講義での講義資料です。
【講義資料】Revornにおける研究開発とビッグデータについて
【講義資料】Revornにおける研究開発とビッグデータについて
REVORN Co., Ltd.
2014年6月4日(水)、Bashoジャパン株式会社主催「Riak Meetup Tokyo #04」内の、Yahoo! JAPANからの発表です。
Riakを利用したパーソナライズ事例
Riakを利用したパーソナライズ事例
Yahoo!デベロッパーネットワーク
冒頭ごあいさつです
Welcome Apex meetup2018#2
Welcome Apex meetup2018#2
Yosuke Arai
Japan Wrap Up reinvent2018
Japan Wrap Up re:Invent2018
Japan Wrap Up re:Invent2018
Kameda Harunobu
re:Invent 2018 Japan Wrapup
Japan wrapup reinvent2018
Japan wrapup reinvent2018
Amazon Web Services Japan
2014-04-22 Ques #4 Automation Testing of Mobage Platform
2014-04-22 Ques #4 Automation Testing of Mobage Platform
Masaki Nakagawa
Similar to 20131107 cwt2013-wdkz
(20)
Webdb2011 hadoop
Webdb2011 hadoop
YJTC18 A-1 大規模サーバの戦略
YJTC18 A-1 大規模サーバの戦略
Cake Matsuri Nanapi
Cake Matsuri Nanapi
AbemaTVにおける推薦システム
AbemaTVにおける推薦システム
Hadoop conferencejapan2011
Hadoop conferencejapan2011
Hadoop Conference Japan 2009 #1
Hadoop Conference Japan 2009 #1
Apache Impalaパフォーマンスチューニング #dbts2018
Apache Impalaパフォーマンスチューニング #dbts2018
AI Humming Headsご紹介資料 180927
AI Humming Headsご紹介資料 180927
Apache Kafkaによるログ転送とパフォーマンスチューニング - Bonfire Backend #2 -
Apache Kafkaによるログ転送とパフォーマンスチューニング - Bonfire Backend #2 -
Yahoo! JAPANにおけるオンライン機械学習実例 #streamctjp
Yahoo! JAPANにおけるオンライン機械学習実例 #streamctjp
Ahead-of-Time Compilation with JDK 9 [Java Day Tokyo 2017 D1-A1]
Ahead-of-Time Compilation with JDK 9 [Java Day Tokyo 2017 D1-A1]
Apache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreading
Apache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreading
YJTC18 A-1 データセンタネットワークの取り組み
YJTC18 A-1 データセンタネットワークの取り組み
Go + Pulsar WebSocket APIの利用事例 #pulsarjp
Go + Pulsar WebSocket APIの利用事例 #pulsarjp
【講義資料】Revornにおける研究開発とビッグデータについて
【講義資料】Revornにおける研究開発とビッグデータについて
Riakを利用したパーソナライズ事例
Riakを利用したパーソナライズ事例
Welcome Apex meetup2018#2
Welcome Apex meetup2018#2
Japan Wrap Up re:Invent2018
Japan Wrap Up re:Invent2018
Japan wrapup reinvent2018
Japan wrapup reinvent2018
2014-04-22 Ques #4 Automation Testing of Mobage Platform
2014-04-22 Ques #4 Automation Testing of Mobage Platform
More from cyberagent
WWW2019で見るモバイルコンピューティングの技術と動向 山本悠ニ
WWW2019で見るモバイルコンピューティングの技術と動向 山本悠ニ
WWW2019で見るモバイルコンピューティングの技術と動向 山本悠ニ
cyberagent
WWW2019 論文読み会 Web フィルタリング最前線: 「「検閲回避」回避」 角田孝昭
Web フィルタリング最前線: 「「検閲回避」回避」 角田孝昭
Web フィルタリング最前線: 「「検閲回避」回避」 角田孝昭
cyberagent
WWW2019 論文読み会 WebにおけるHuman Dynamics 武内慎
WebにおけるHuman Dynamics 武内慎
WebにおけるHuman Dynamics 武内慎
cyberagent
WWW2019 論文読み会 Webと経済学 數見拓朗
Webと経済学 數見拓朗
Webと経済学 數見拓朗
cyberagent
持続可能なデータ基盤のための データの多様性に対する取り組み 秋葉原ラボ
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
cyberagent
サイバーエージェントの技術者(エンジニア・クリエイター)向けカンファレンス『CA BASE CAMP 2019』 継続的な開発スタイル AbemaTVのiOSアプリを週1でリリースしている話 波戸 勇二
継続的な開発スタイル AbemaTVのiOSアプリを週1でリリースしている話
継続的な開発スタイル AbemaTVのiOSアプリを週1でリリースしている話
cyberagent
AbemaTV レコメンド開発エンジニアによる RecSys 2018 参加レポート
AbemaTV レコメンド開発エンジニアによる RecSys 2018 参加レポート
AbemaTV レコメンド開発エンジニアによる RecSys 2018 参加レポート
cyberagent
CA Data Engineering and Data Analysis(CADEDA)#7 機械学習エンジニアを見せたAWSの再:発明とは? 〜re:Invent 2018 参加レポート〜
機械学習エンジニアを見せたAWSの再:発明とは? 〜re:Invent 2018 参加レポート〜
機械学習エンジニアを見せたAWSの再:発明とは? 〜re:Invent 2018 参加レポート〜
cyberagent
プロジェクト・マネージャーカンファレンス2018 インターネットテレビ局「AbemaTV」プロダクトの変遷
インターネットテレビ局「AbemaTV」プロダクトの変遷
インターネットテレビ局「AbemaTV」プロダクトの変遷
cyberagent
2018年10月5日に開催されたData Engineering & Data Analysis WS#6での登壇資料です。 無料で楽しめるインターネットテレビ局AbemaTVでは、ユーザが視聴したいコンテンツと出会えるように番組宣伝手法として番組告知動画を利用しています。本発表は番組告知動画配信に関する分析事例について紹介しています。
番組宣伝に関するAbemaTV分析事例の紹介
番組宣伝に関するAbemaTV分析事例の紹介
cyberagent
2018年8月3日(金) 開催 「WWW2018 論文読み会」登壇資料
WWW2018 論文読み会 Webと経済学
WWW2018 論文読み会 Webと経済学
cyberagent
2018年8月3日(金) 開催 「WWW2018 論文読み会」登壇資料
WWW2018 論文読み会 WebにおけるHuman Dynamics
WWW2018 論文読み会 WebにおけるHuman Dynamics
cyberagent
2018年8月3日(金) 開催 「WWW2018 論文読み会」登壇資料
WWW2018 論文読み会 Web Search and Mining
WWW2018 論文読み会 Web Search and Mining
cyberagent
サイバーエージェントの機械学習エンジニアが体験したGoogle I/O 2018
サイバーエージェントの機械学習エンジニアが体験したGoogle I/O 2018
サイバーエージェントの機械学習エンジニアが体験したGoogle I/O 2018
cyberagent
Orion an integrated multimedia content moderation system for web services
Orion an integrated multimedia content moderation system for web services
Orion an integrated multimedia content moderation system for web services
cyberagent
Orion an integrated multimedia content moderation system for web services
Orion an integrated multimedia content moderation system for web services
Orion an integrated multimedia content moderation system for web services
cyberagent
「これ危ない設定じゃないでしょうか」とヒアリングするための仕組み @AWS Summit Tokyo 2018
「これ危ない設定じゃないでしょうか」とヒアリングするための仕組み @AWS Summit Tokyo 2018
「これ危ない設定じゃないでしょうか」とヒアリングするための仕組み @AWS Summit Tokyo 2018
cyberagent
2018年3月29日開催 サイバーエージェントにおけるデータ活用とその技術についての勉強会「春の機械学習祭り 〜Data Engineering & Data Analysis WS#4〜」での登壇資料 (秋葉原ラボ所属 藤坂祐介) https://cyberagent.connpass.com/event/80969/
"マルチメディア機械学習" の取り組み
"マルチメディア機械学習" の取り組み
cyberagent
2018年3月29日開催 サイバーエージェントにおけるデータ活用とその技術についての勉強会「春の機械学習祭り 〜Data Engineering & Data Analysis WS#4〜」での登壇資料 (秋葉原ラボ所属 内藤遥) https://cyberagent.connpass.com/event/80969/
推薦アルゴリズムの今までとこれから
推薦アルゴリズムの今までとこれから
cyberagent
Meetup in Tokyo #30 - HBase - にて登壇
サイバージェント 秋葉原ラボのHBase 活用事例
サイバージェント 秋葉原ラボのHBase 活用事例
cyberagent
More from cyberagent
(20)
WWW2019で見るモバイルコンピューティングの技術と動向 山本悠ニ
WWW2019で見るモバイルコンピューティングの技術と動向 山本悠ニ
Web フィルタリング最前線: 「「検閲回避」回避」 角田孝昭
Web フィルタリング最前線: 「「検閲回避」回避」 角田孝昭
WebにおけるHuman Dynamics 武内慎
WebにおけるHuman Dynamics 武内慎
Webと経済学 數見拓朗
Webと経済学 數見拓朗
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
継続的な開発スタイル AbemaTVのiOSアプリを週1でリリースしている話
継続的な開発スタイル AbemaTVのiOSアプリを週1でリリースしている話
AbemaTV レコメンド開発エンジニアによる RecSys 2018 参加レポート
AbemaTV レコメンド開発エンジニアによる RecSys 2018 参加レポート
機械学習エンジニアを見せたAWSの再:発明とは? 〜re:Invent 2018 参加レポート〜
機械学習エンジニアを見せたAWSの再:発明とは? 〜re:Invent 2018 参加レポート〜
インターネットテレビ局「AbemaTV」プロダクトの変遷
インターネットテレビ局「AbemaTV」プロダクトの変遷
番組宣伝に関するAbemaTV分析事例の紹介
番組宣伝に関するAbemaTV分析事例の紹介
WWW2018 論文読み会 Webと経済学
WWW2018 論文読み会 Webと経済学
WWW2018 論文読み会 WebにおけるHuman Dynamics
WWW2018 論文読み会 WebにおけるHuman Dynamics
WWW2018 論文読み会 Web Search and Mining
WWW2018 論文読み会 Web Search and Mining
サイバーエージェントの機械学習エンジニアが体験したGoogle I/O 2018
サイバーエージェントの機械学習エンジニアが体験したGoogle I/O 2018
Orion an integrated multimedia content moderation system for web services
Orion an integrated multimedia content moderation system for web services
Orion an integrated multimedia content moderation system for web services
Orion an integrated multimedia content moderation system for web services
「これ危ない設定じゃないでしょうか」とヒアリングするための仕組み @AWS Summit Tokyo 2018
「これ危ない設定じゃないでしょうか」とヒアリングするための仕組み @AWS Summit Tokyo 2018
"マルチメディア機械学習" の取り組み
"マルチメディア機械学習" の取り組み
推薦アルゴリズムの今までとこれから
推薦アルゴリズムの今までとこれから
サイバージェント 秋葉原ラボのHBase 活用事例
サイバージェント 秋葉原ラボのHBase 活用事例
20131107 cwt2013-wdkz
1.
AmebaにおけるRHadoopの活用事例 株式会社サイバーエージェント アメーバ事業本部 Ameba Technology Laboratory 和田
計也
2.
株式会社サイバーエージェント 本日の内容 • AmebaサービスとAmeba Technology
Laboratoryについて • ログ解析基盤Patriotについて • RHadoopを用いた分析事例について 2
3.
Amebaサービスと Ameba Technology Laboratory について
4.
株式会社サイバーエージェント Ameba事業 ー PC向けサービス 4
5.
株式会社サイバーエージェント Ameba事業 ー スマートフォンプラットフォーム 5
6.
株式会社サイバーエージェント Ameba事業 ー ソーシャルゲーム 6
7.
株式会社サイバーエージェント Ameba事業 ー コミュニティサービス 7
8.
株式会社サイバーエージェント Ameba Technology Laboratoryについて •
Amebaの大規模データを集約的に扱う組織 • 2011年4月に開設、現在約20名が所属 ログ解析 検索 データマイニング 大規模 分散処理 (ログ解析基盤) 推薦 フィルタリング 8
9.
ログ解析基盤Patriotについて
10.
10 Amebaのログ解析基盤:Patriot • Amebaのサービス共通のログ解析基盤 • Hadoopクラスタ上に構築 •
Hive/HBaseにデータを格納 • Hiveを用いた集計 • Flumeを用いたデータ収集 90,000lines/sec 1TB/day 11,000jobs/day
11.
株式会社サイバーエージェント 【Logサーバ】 ログの一時集約 ログ転送(SCP) MySQLレプリ システム構成 ログ整形 Hiveインポート Ameba サービス ログのリアルタイム転送 (Flume) HiveJobをキック 【Batchサーバ】 ワークフロー スケジューラ 集計サマリをPut (HBase) Hadoop クラスタ サマリView、 アドホックHiveクエリ (自作WebUI) 【外部連携サーバ】 サマリーデータ取得 Hiveクエリ実行 ジョブステータス取得 11
12.
株式会社サイバーエージェント Patriot利用実態 ゲームコンサル データマイニング エンジニア WebView サービス担当 エンジニア システム 連携 ゲーム/コミュニティ 課金統括部門 プロデューサ マーケティング部門 アドホッククエリ 12
13.
株式会社サイバーエージェント これまでのPatriotとCDHの経緯 • 2010年 7月: Patriot初期リリース
(CDH3b) • 2011年 3月: CDH3u0にアップグレード • 2012年 5月: スマートフォンプラットフォーム向けPatriotの構築 (CDH3u3) • 2013年 7月: PatriotのDC移設、CDHアップグレード(CDH4.3) 13
14.
RHadoopを用いた分析事例の話 〜はじめに〜 〜RHadoopで大規模なRandomForest〜 〜RHadoopで全サービスを一気に分析〜
15.
15 Rとは? • オープンソースでフリーソフトウェアの統計解析 向けプログラミング言語、及びその開発実行環境 • 最初の誕生は1993年 •
Version1.0は2000年 • 2013年11月現在Version 3.0.2 Ross Ihaka Robert Gentleman
16.
16 R利用率の高まり http://r4stats.com/articles/popularity/
17.
17 RHadoopとは? n RからHadoopを簡単に使うためのRライブラリ n rmr これ n
rhdfs n rhbase n plyrmr n Revolution Analytics社が開発 しているOSS n https://github.com/RevolutionAnalytics/RHadoop/wiki
18.
18 何でRHadoopの話かというと Cloudera社とRevolution Analytics社はパートナーシップ を結んでいるからです! http://www.cloudera.com/content/cloudera/en/solutions/partner/Revolution-analytics.html
19.
RHadoopを用いた分析事例の話 〜はじめに〜 〜RHadoopで大規模なRandomForest〜 〜RHadoopで全サービスを一気に分析〜
20.
20 RandomForestとは? n 分類器の一つ n 高速、大量変数可能、変数重要度算出可能、高分類能 n
ランダムにTreeモデルを多数生成 n 分類の場合は多数決 n 回帰の場合は平均値 http://opinions5.blogspot.jp/2013/08/random-forest-confidence.html
21.
21 大規模なデータをRandomForestしたい理由 n プラットフォーマーとしての分析 n ユーザ数が行数 n
全サービスのあらゆるアクションが説明変数 (列)になりうる n 確率分布を仮定しなくて良い n web系のログとかソシャゲのログとかちょい ちょい冪乗則 n MahoutのDecisionForest、大規模データ使えなかっ た….
22.
株式会社サイバーエージェント RHadoopを使ってHadoop上で動く RandomForestを実装する(model構築編) 巨大trainデータ 分割データ 決定木 model 複数の 決定木 model model を生成 データセット model ・ ・ ・ Map ・ ・ ・ ・ ・ ・ Reduce 22
23.
株式会社サイバーエージェント RHadoopを使ってHadoop上で動く RandomForestを実装する(predict編) 複数の 巨大testデータ 分割(block)データ mod models mod els els データセット ・ ・ ・ Map Reduce 予測結果 の多数決 23
24.
株式会社サイバーエージェント 24 実例)全ゲームでの、あるアクションがその後のプ ラットフォームでの継続行動に繋がりやすいか分析 #モデル構築用関数を読み込む source(“R/scaleRandomForest.R”) #アンバランスデータをweightで調整してモデル化 srf_midub <- scaleRandomForest(formula=doAction
~., data=train.data) #モデルをhdfsからローカルにコピー srfmdl_midub <- from.dfs(srf_midub$model_output) #変数重要度算出関数を読み込む source("R/scaleVarImportance.R") #変数重要度算出して上位10件をプロット plot.scaleVarImportance(model=srfmdl_midub, cl.tbl=cl.tbl, sel.y=1:10) #予測用関数を読み込む source("R/predict.scaleRandomForest.R") #予測結果を取得 colnames(test.data) <- cl.tbl[,2] prd.res <- predict.scaleRandomForest(model=srfmdl_midub$val, data=test.data, devide="none", modeln=500, is.rawReturn=F) #予測結果を表示 table(test.data$doPurchase, prd.res)
25.
株式会社サイバーエージェント 25 実例)分析の実行例 randomForest関数のように使うとMap-Reduceが走る
26.
株式会社サイバーエージェント 実例)上記例の結果 • 実測値と予測値のテーブル ←感度は49% • 変数(ゲーム)重要度 ゲームC ゲームA ゲームB 26
27.
RHadoopを用いた分析事例の話 〜はじめに〜 〜RHadoopで大規模なRandomForest〜 〜RHadoopで全サービスを一気に分析〜
28.
株式会社サイバーエージェント RHadoopで全サービスを⼀一気通貫分析 • イメージ図 分析 結果 1つの game Rで 分析 28
29.
株式会社サイバーエージェント RHadoopで全サービスを⼀一気通貫分析 • Map-Reduceのイメージ図 game毎のデータ 分結 析果 R の 関 数 分結 析果 分結 析果 Map keyがgame名で valueが各種データ Reduce 29
30.
株式会社サイバーエージェント 30 Rの分析例例 • あるゲームのKPIを、カードゲームのメインアクション から予測するモデルを作る • バトル数 •
クエスト数 • 進化数 • 強化数 • イベント参加有無 予測自体が目的ではなく、どのアクションを増やし たらどのくらいゲームのKPI が改善するかを知るこ とが主目的
31.
株式会社サイバーエージェント 作成したRの分析関数 イベント参加者/不参加者で (線形|非線形)単回帰 KPI = 関数(バトル) KPI
= 関数(クエスト) KPI = 関数(強化) KPI = 関数(進化) —― 線形関数 —― 指数関数 そして、モデル平均化 KPI(参加) = 0.25×重み×関数(バトル) + 0.25×重み×関数(クエスト) + 0.25×重み×関数(強化) + 0.25×重み×関数(進化) KPI = KPI(参加) + KPI(不参加) 31
32.
株式会社サイバーエージェント 実例例)作成した分析関数の実⾏行行結果例例 ①model構築関数__ mzd_nls(formula=KPI~., data) ②plot関数__plot(mzd_mdl) ③table関数__table(mzd_mdl) $guild value predict 2013-07-25
10.763097 10.168675 2013-08-16 100.60917 95.07407 2013-08-17 83.62791 96.37409 2013-09-22 12.298155 11.106690 2013-09-23 11.937966 13.163799 2013-09-24 11.428777 11.458499 $guildraid value predict 2013-09-24 11.428777 11.103995 2013-09-25 14.544114 11.850527 2013-09-26 10.306084 11.090633 2013-09-27 90.49583 89.18554 2013-09-28 10.026573 11.022452 2013-09-29 81.58785 103.74744 $raid value predict 2013-07-02 103.63821 75.67362 2013-07-03 89.26541 74.97935 32
33.
株式会社サイバーエージェント 33 実例例)作成した分析関数の実⾏行行結果例例 ④predict関数__predict(mzd_mdl, newdata) ⑤print_formula関数__print_formula(mzd_mdl) $etc $etc$on $etc$on$quest_avg $etc$on$quest_avg$formula [1] "y
~ a * exp(b * x)" $etc$on$upgrade_avg $etc$on$upgrade_avg$formula [1] "y ~ a * exp(b * x)" $etc$on$quest_avg$coef a b 60.267125203 0.008223505 $etc$on$upgrade_avg$coef a b 1.4530336 0.7347296 ・ ・ ・ ・ ・ ・
34.
株式会社サイバーエージェント RHadoopで全サービスを⼀一気通貫分析 • Map-Reduceのイメージ図 game毎のデータ これができた 分結 析果 R の 関 数 分結 析果 分結 析果 Map keyがgame名で valueが各種データ Reduce 34
35.
株式会社サイバーエージェント hdlapply関数の作成 • 目的 • 前述の分析関数をHadoopクラスタを使って 全サービス一気に適用するため •
入力 • list形式のRデータ • 使い方 • Rのlapplyと一緒 hdlapply(X, FUN, …) 35
36.
株式会社サイバーエージェント 36 RHadoopで全サービスを⼀一気通貫分析 • Map-Reduceのイメージ図 game毎のデータ これの仕組みができた 分結 析果 R の 関 数 分結 析果 分結 析果 Map keyがgame名で valueが各種データ Reduce
37.
株式会社サイバーエージェント 37 実例例)分析関数をhadoopクラスタで 並列列実⾏行行 lapplyのように使うとMap-Reduceが走る
38.
株式会社サイバーエージェント RHadoopで全サービスを⼀一気通貫分析 • Map-Reduceのイメージ図 game毎のデータ 分結 析果 R の 関 数 分結 析果 分結 析果 Map keyがgame名で valueが各種データ Reduce これが できた 38
39.
株式会社サイバーエージェント 実例例)サクっとmodel構築した結果はShinyで魅せる ゲームを 選んで KPI メイン アクション 値を入れて イベント 種別 選んで 39
40.
40 まとめ • RHadoopライブラリを使って以下のことを実現した • ScalableRandomForest関数により、Amebaプラットフォーム 全体での分析が可能になった •
hdlapply関数により、分析関数を用意すれば全サービス一 斉に同一関数を用いた分析を行うことが可能になった
41.
ご清聴ありがとうございました。
Download now