Submit Search
Upload
サイバーエージェントにおけるデータの品質管理について #cwt2016
•
12 likes
•
5,366 views
cyberagent
Follow
2016年11月8日開催 Cloudera World Tokyo 2016 登壇資料
Read less
Read more
Technology
Slideshow view
Report
Share
Slideshow view
Report
Share
1 of 48
Download now
Download to read offline
Recommended
The Twelve-Factor Appで考えるAWSのサービス開発
The Twelve-Factor Appで考えるAWSのサービス開発
Amazon Web Services Japan
AWSのログ管理ベストプラクティス
AWSのログ管理ベストプラクティス
Akihiro Kuwano
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
Amazon Web Services Japan
データ分析を支える技術 データ分析基盤再入門
データ分析を支える技術 データ分析基盤再入門
Satoru Ishikawa
[Aurora事例祭り]Amazon Aurora を使いこなすためのベストプラクティス
[Aurora事例祭り]Amazon Aurora を使いこなすためのベストプラクティス
Amazon Web Services Japan
Spring Boot の Web アプリケーションを Docker に載せて AWS ECS で動かしている話
Spring Boot の Web アプリケーションを Docker に載せて AWS ECS で動かしている話
JustSystems Corporation
マルチテナント化で知っておきたいデータベースのこと
マルチテナント化で知っておきたいデータベースのこと
Amazon Web Services Japan
「のどが渇いた」というユーザーに何を出す? ユーザーの「欲しい」に惑わされない、本当のインサイトを見つけるUXデザイン・UXリサーチ
「のどが渇いた」というユーザーに何を出す? ユーザーの「欲しい」に惑わされない、本当のインサイトを見つけるUXデザイン・UXリサーチ
Yoshiki Hayama
Recommended
The Twelve-Factor Appで考えるAWSのサービス開発
The Twelve-Factor Appで考えるAWSのサービス開発
Amazon Web Services Japan
AWSのログ管理ベストプラクティス
AWSのログ管理ベストプラクティス
Akihiro Kuwano
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
Amazon Web Services Japan
データ分析を支える技術 データ分析基盤再入門
データ分析を支える技術 データ分析基盤再入門
Satoru Ishikawa
[Aurora事例祭り]Amazon Aurora を使いこなすためのベストプラクティス
[Aurora事例祭り]Amazon Aurora を使いこなすためのベストプラクティス
Amazon Web Services Japan
Spring Boot の Web アプリケーションを Docker に載せて AWS ECS で動かしている話
Spring Boot の Web アプリケーションを Docker に載せて AWS ECS で動かしている話
JustSystems Corporation
マルチテナント化で知っておきたいデータベースのこと
マルチテナント化で知っておきたいデータベースのこと
Amazon Web Services Japan
「のどが渇いた」というユーザーに何を出す? ユーザーの「欲しい」に惑わされない、本当のインサイトを見つけるUXデザイン・UXリサーチ
「のどが渇いた」というユーザーに何を出す? ユーザーの「欲しい」に惑わされない、本当のインサイトを見つけるUXデザイン・UXリサーチ
Yoshiki Hayama
AWSが誕生するまでの秘話
AWSが誕生するまでの秘話
Yasuhiro Horiuchi
モノリスからマイクロサービスへの移行 ~ストラングラーパターンの検証~(Spring Fest 2020講演資料)
モノリスからマイクロサービスへの移行 ~ストラングラーパターンの検証~(Spring Fest 2020講演資料)
NTT DATA Technology & Innovation
君はyarn.lockをコミットしているか?
君はyarn.lockをコミットしているか?
Teppei Sato
45分間で「ユーザー中心のものづくり」ができるまで詰め込む
45分間で「ユーザー中心のものづくり」ができるまで詰め込む
Yoshiki Hayama
Dockerからcontainerdへの移行
Dockerからcontainerdへの移行
Kohei Tokunaga
はじめてのDynamoDBスキーマ設計
はじめてのDynamoDBスキーマ設計
Yoichi Toyota
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
Techon Organization
ログ管理のベストプラクティス
ログ管理のベストプラクティス
Akihiro Kuwano
オンプレミスRDBMSをAWSへ移行する手法
オンプレミスRDBMSをAWSへ移行する手法
Amazon Web Services Japan
DBワークロードのAWS化とデータベースサービス関連最新情報
DBワークロードのAWS化とデータベースサービス関連最新情報
Amazon Web Services Japan
マイクロにしすぎた結果がこれだよ!
マイクロにしすぎた結果がこれだよ!
mosa siru
SSRF対策としてAmazonから発表されたIMDSv2の効果と破り方
SSRF対策としてAmazonから発表されたIMDSv2の効果と破り方
Hiroshi Tokumaru
20210216 AWS Black Belt Online Seminar AWS Database Migration Service
20210216 AWS Black Belt Online Seminar AWS Database Migration Service
Amazon Web Services Japan
20200630 AWS Black Belt Online Seminar Amazon Cognito
20200630 AWS Black Belt Online Seminar Amazon Cognito
Amazon Web Services Japan
DMBOKをベースにしたデータマネジメント
DMBOKをベースにしたデータマネジメント
Kent Ishizawa
本当は恐ろしい分散システムの話
本当は恐ろしい分散システムの話
Kumazaki Hiroki
Elasticsearchインデクシングのパフォーマンスを測ってみた
Elasticsearchインデクシングのパフォーマンスを測ってみた
Ryoji Kurosawa
DXとかDevOpsとかのなんかいい感じのやつ 富士通TechLive
DXとかDevOpsとかのなんかいい感じのやつ 富士通TechLive
Tokoroten Nakayama
TLS, HTTP/2演習
TLS, HTTP/2演習
shigeki_ohtsu
20200303 AWS Black Belt Online Seminar AWS Cloud Development Kit (CDK)
20200303 AWS Black Belt Online Seminar AWS Cloud Development Kit (CDK)
Amazon Web Services Japan
データ活用を効率化するHadoop WebUIと権限管理改善事例
データ活用を効率化するHadoop WebUIと権限管理改善事例
Masahiro Kiura
大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016
Cloudera Japan
More Related Content
What's hot
AWSが誕生するまでの秘話
AWSが誕生するまでの秘話
Yasuhiro Horiuchi
モノリスからマイクロサービスへの移行 ~ストラングラーパターンの検証~(Spring Fest 2020講演資料)
モノリスからマイクロサービスへの移行 ~ストラングラーパターンの検証~(Spring Fest 2020講演資料)
NTT DATA Technology & Innovation
君はyarn.lockをコミットしているか?
君はyarn.lockをコミットしているか?
Teppei Sato
45分間で「ユーザー中心のものづくり」ができるまで詰め込む
45分間で「ユーザー中心のものづくり」ができるまで詰め込む
Yoshiki Hayama
Dockerからcontainerdへの移行
Dockerからcontainerdへの移行
Kohei Tokunaga
はじめてのDynamoDBスキーマ設計
はじめてのDynamoDBスキーマ設計
Yoichi Toyota
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
Techon Organization
ログ管理のベストプラクティス
ログ管理のベストプラクティス
Akihiro Kuwano
オンプレミスRDBMSをAWSへ移行する手法
オンプレミスRDBMSをAWSへ移行する手法
Amazon Web Services Japan
DBワークロードのAWS化とデータベースサービス関連最新情報
DBワークロードのAWS化とデータベースサービス関連最新情報
Amazon Web Services Japan
マイクロにしすぎた結果がこれだよ!
マイクロにしすぎた結果がこれだよ!
mosa siru
SSRF対策としてAmazonから発表されたIMDSv2の効果と破り方
SSRF対策としてAmazonから発表されたIMDSv2の効果と破り方
Hiroshi Tokumaru
20210216 AWS Black Belt Online Seminar AWS Database Migration Service
20210216 AWS Black Belt Online Seminar AWS Database Migration Service
Amazon Web Services Japan
20200630 AWS Black Belt Online Seminar Amazon Cognito
20200630 AWS Black Belt Online Seminar Amazon Cognito
Amazon Web Services Japan
DMBOKをベースにしたデータマネジメント
DMBOKをベースにしたデータマネジメント
Kent Ishizawa
本当は恐ろしい分散システムの話
本当は恐ろしい分散システムの話
Kumazaki Hiroki
Elasticsearchインデクシングのパフォーマンスを測ってみた
Elasticsearchインデクシングのパフォーマンスを測ってみた
Ryoji Kurosawa
DXとかDevOpsとかのなんかいい感じのやつ 富士通TechLive
DXとかDevOpsとかのなんかいい感じのやつ 富士通TechLive
Tokoroten Nakayama
TLS, HTTP/2演習
TLS, HTTP/2演習
shigeki_ohtsu
20200303 AWS Black Belt Online Seminar AWS Cloud Development Kit (CDK)
20200303 AWS Black Belt Online Seminar AWS Cloud Development Kit (CDK)
Amazon Web Services Japan
What's hot
(20)
AWSが誕生するまでの秘話
AWSが誕生するまでの秘話
モノリスからマイクロサービスへの移行 ~ストラングラーパターンの検証~(Spring Fest 2020講演資料)
モノリスからマイクロサービスへの移行 ~ストラングラーパターンの検証~(Spring Fest 2020講演資料)
君はyarn.lockをコミットしているか?
君はyarn.lockをコミットしているか?
45分間で「ユーザー中心のものづくり」ができるまで詰め込む
45分間で「ユーザー中心のものづくり」ができるまで詰め込む
Dockerからcontainerdへの移行
Dockerからcontainerdへの移行
はじめてのDynamoDBスキーマ設計
はじめてのDynamoDBスキーマ設計
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
ログ管理のベストプラクティス
ログ管理のベストプラクティス
オンプレミスRDBMSをAWSへ移行する手法
オンプレミスRDBMSをAWSへ移行する手法
DBワークロードのAWS化とデータベースサービス関連最新情報
DBワークロードのAWS化とデータベースサービス関連最新情報
マイクロにしすぎた結果がこれだよ!
マイクロにしすぎた結果がこれだよ!
SSRF対策としてAmazonから発表されたIMDSv2の効果と破り方
SSRF対策としてAmazonから発表されたIMDSv2の効果と破り方
20210216 AWS Black Belt Online Seminar AWS Database Migration Service
20210216 AWS Black Belt Online Seminar AWS Database Migration Service
20200630 AWS Black Belt Online Seminar Amazon Cognito
20200630 AWS Black Belt Online Seminar Amazon Cognito
DMBOKをベースにしたデータマネジメント
DMBOKをベースにしたデータマネジメント
本当は恐ろしい分散システムの話
本当は恐ろしい分散システムの話
Elasticsearchインデクシングのパフォーマンスを測ってみた
Elasticsearchインデクシングのパフォーマンスを測ってみた
DXとかDevOpsとかのなんかいい感じのやつ 富士通TechLive
DXとかDevOpsとかのなんかいい感じのやつ 富士通TechLive
TLS, HTTP/2演習
TLS, HTTP/2演習
20200303 AWS Black Belt Online Seminar AWS Cloud Development Kit (CDK)
20200303 AWS Black Belt Online Seminar AWS Cloud Development Kit (CDK)
Viewers also liked
データ活用を効率化するHadoop WebUIと権限管理改善事例
データ活用を効率化するHadoop WebUIと権限管理改善事例
Masahiro Kiura
大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016
Cloudera Japan
データ分析グループの組織編制とその課題 マーケティングにおけるKPI設計の失敗例 ABテストの活用と、機械学習の導入 #CWT2016
データ分析グループの組織編制とその課題 マーケティングにおけるKPI設計の失敗例 ABテストの活用と、機械学習の導入 #CWT2016
Tokoroten Nakayama
データファースト開発
データファースト開発
Katsunori Kanda
Amebaにおけるレコメンデーションシステムの紹介
Amebaにおけるレコメンデーションシステムの紹介
cyberagent
MapR Hadoop M7 in CyberAgent AdTech Studio
MapR Hadoop M7 in CyberAgent AdTech Studio
Ken Takao
How to work Tableau x Google Cloud Platform in CyberAgent AdTech Studio
How to work Tableau x Google Cloud Platform in CyberAgent AdTech Studio
Ken Takao
[db tech showcase Tokyo 2016] B15: サイバーエージェント アドテクスタジオの次世代データ分析基盤紹介 by 株式会社サイ...
[db tech showcase Tokyo 2016] B15: サイバーエージェント アドテクスタジオの次世代データ分析基盤紹介 by 株式会社サイ...
Insight Technology, Inc.
広告におけるビッグデータの分析事例
広告におけるビッグデータの分析事例
Ken Takao
Cookpad TechConf 2016 - DWHに必要なこと
Cookpad TechConf 2016 - DWHに必要なこと
Minero Aoki
20141106_cwt-zenmyo-naito
20141106_cwt-zenmyo-naito
cyberagent
ソーシャル系Webサービスのデータを用いた社会科学 資料
ソーシャル系Webサービスのデータを用いた社会科学 資料
Masanori Takano
How Do Newcomers Blend into a Group?: Study on a Social Network Game
How Do Newcomers Blend into a Group?: Study on a Social Network Game
Masanori Takano
社会関係の強さに基づく社会的グルーミング戦略の適応性
社会関係の強さに基づく社会的グルーミング戦略の適応性
Masanori Takano
データにまつわるWeb業界の仕事について
データにまつわるWeb業界の仕事について
Masanori Takano
サラリーマンのための計算社会科学
サラリーマンのための計算社会科学
Masanori Takano
みんなのウェディングのデータ分析基盤の作り方。
みんなのウェディングのデータ分析基盤の作り方。
Sunao Komuro
Flumeを活用したAmebaにおける大規模ログ収集システム
Flumeを活用したAmebaにおける大規模ログ収集システム
Satoshi Iijima
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
Recruit Technologies
【14-B-2】グリーを支えるデータ分析基盤の過去と現在(橋本泰一〔グリー〕)
【14-B-2】グリーを支えるデータ分析基盤の過去と現在(橋本泰一〔グリー〕)
Developers Summit
Viewers also liked
(20)
データ活用を効率化するHadoop WebUIと権限管理改善事例
データ活用を効率化するHadoop WebUIと権限管理改善事例
大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016
データ分析グループの組織編制とその課題 マーケティングにおけるKPI設計の失敗例 ABテストの活用と、機械学習の導入 #CWT2016
データ分析グループの組織編制とその課題 マーケティングにおけるKPI設計の失敗例 ABテストの活用と、機械学習の導入 #CWT2016
データファースト開発
データファースト開発
Amebaにおけるレコメンデーションシステムの紹介
Amebaにおけるレコメンデーションシステムの紹介
MapR Hadoop M7 in CyberAgent AdTech Studio
MapR Hadoop M7 in CyberAgent AdTech Studio
How to work Tableau x Google Cloud Platform in CyberAgent AdTech Studio
How to work Tableau x Google Cloud Platform in CyberAgent AdTech Studio
[db tech showcase Tokyo 2016] B15: サイバーエージェント アドテクスタジオの次世代データ分析基盤紹介 by 株式会社サイ...
[db tech showcase Tokyo 2016] B15: サイバーエージェント アドテクスタジオの次世代データ分析基盤紹介 by 株式会社サイ...
広告におけるビッグデータの分析事例
広告におけるビッグデータの分析事例
Cookpad TechConf 2016 - DWHに必要なこと
Cookpad TechConf 2016 - DWHに必要なこと
20141106_cwt-zenmyo-naito
20141106_cwt-zenmyo-naito
ソーシャル系Webサービスのデータを用いた社会科学 資料
ソーシャル系Webサービスのデータを用いた社会科学 資料
How Do Newcomers Blend into a Group?: Study on a Social Network Game
How Do Newcomers Blend into a Group?: Study on a Social Network Game
社会関係の強さに基づく社会的グルーミング戦略の適応性
社会関係の強さに基づく社会的グルーミング戦略の適応性
データにまつわるWeb業界の仕事について
データにまつわるWeb業界の仕事について
サラリーマンのための計算社会科学
サラリーマンのための計算社会科学
みんなのウェディングのデータ分析基盤の作り方。
みんなのウェディングのデータ分析基盤の作り方。
Flumeを活用したAmebaにおける大規模ログ収集システム
Flumeを活用したAmebaにおける大規模ログ収集システム
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
【14-B-2】グリーを支えるデータ分析基盤の過去と現在(橋本泰一〔グリー〕)
【14-B-2】グリーを支えるデータ分析基盤の過去と現在(橋本泰一〔グリー〕)
Similar to サイバーエージェントにおけるデータの品質管理について #cwt2016
トレジャーデータ株式会社について(for all Data_Enthusiast!!)
トレジャーデータ株式会社について(for all Data_Enthusiast!!)
Takahiro Inoue
AWS Blackbelt 2015シリーズ AWS Lambda
AWS Blackbelt 2015シリーズ AWS Lambda
Amazon Web Services Japan
堅牢性を高めるためのInfrastructure as Code
堅牢性を高めるためのInfrastructure as Code
Toru Makabe
sakura.io introduction 20171215
sakura.io introduction 20171215
さくらインターネット株式会社
Neo4j Stream, [RDB/NoSQL]Kafka Connector CDC(Change Data Captuer)の紹介
Neo4j Stream, [RDB/NoSQL]Kafka Connector CDC(Change Data Captuer)の紹介
昌桓 李
AzureとDatadogとこれからのモニタリング - Next Gen Monitoring with Azure and Datadog 20180922
AzureとDatadogとこれからのモニタリング - Next Gen Monitoring with Azure and Datadog 20180922
Masahiro Hattori
red-hat-forum-2017-openshift-baremetal-deployment
red-hat-forum-2017-openshift-baremetal-deployment
Tetsuya Sodo
[ビッグデータオールスターズ] クラウドサービス最新情報 機械学習/AIでこんなことまでできるんです! (Microsoft編)
[ビッグデータオールスターズ] クラウドサービス最新情報 機械学習/AIでこんなことまでできるんです! (Microsoft編)
Naoki (Neo) SATO
Movable type 6 Overview (2013.10.24)
Movable type 6 Overview (2013.10.24)
Daiji Hirata
Ext js 20100526
Ext js 20100526
Shinichi Tomita
【HinemosWorld2014】B1-4_NTTデータ先端技術のOpenStack Hinemosソリューション
【HinemosWorld2014】B1-4_NTTデータ先端技術のOpenStack Hinemosソリューション
Hinemos
Azure IoT 最前線!~ Microsoft Ignite 2019での発表と直近アップデート総まとめ ~
Azure IoT 最前線!~ Microsoft Ignite 2019での発表と直近アップデート総まとめ ~
IoTビジネス共創ラボ
SAP on Azure Cloud Workshop Material Japanese 20190221
SAP on Azure Cloud Workshop Material Japanese 20190221
Hitoshi Ikemoto
SORACOM UG 関西 x JAWS-UG 関西 IoT専門支部共催 | #あのボタン 開発のちょっといい話とSORACOM アップデート
SORACOM UG 関西 x JAWS-UG 関西 IoT専門支部共催 | #あのボタン 開発のちょっといい話とSORACOM アップデート
SORACOM,INC
API イントロダクション APIC-EM, Prime Infrastructure & CMX
API イントロダクション APIC-EM, Prime Infrastructure & CMX
npsg
データホテル・フルマネージドホスティング サービスを支えるOSSと、活用事例
データホテル・フルマネージドホスティング サービスを支えるOSSと、活用事例
NHN テコラス株式会社
デバイス + クラウドで実現するこれからのサービス~ Windows 8 + Windows Azure 編 ~
デバイス + クラウドで実現するこれからのサービス~ Windows 8 + Windows Azure 編 ~
Developer Camp 2012 Japan Fall
【de:code 2020】 Azure Synapse Analytics 技術編 ~ 最新の統合分析プラットフォームによる新しい価値の創出(後編)
【de:code 2020】 Azure Synapse Analytics 技術編 ~ 最新の統合分析プラットフォームによる新しい価値の創出(後編)
日本マイクロソフト株式会社
Parse触ってみた
Parse触ってみた
Naoya Harasawa
今話題のクラウドOSとは
今話題のクラウドOSとは
Kimihiko Kitase
Similar to サイバーエージェントにおけるデータの品質管理について #cwt2016
(20)
トレジャーデータ株式会社について(for all Data_Enthusiast!!)
トレジャーデータ株式会社について(for all Data_Enthusiast!!)
AWS Blackbelt 2015シリーズ AWS Lambda
AWS Blackbelt 2015シリーズ AWS Lambda
堅牢性を高めるためのInfrastructure as Code
堅牢性を高めるためのInfrastructure as Code
sakura.io introduction 20171215
sakura.io introduction 20171215
Neo4j Stream, [RDB/NoSQL]Kafka Connector CDC(Change Data Captuer)の紹介
Neo4j Stream, [RDB/NoSQL]Kafka Connector CDC(Change Data Captuer)の紹介
AzureとDatadogとこれからのモニタリング - Next Gen Monitoring with Azure and Datadog 20180922
AzureとDatadogとこれからのモニタリング - Next Gen Monitoring with Azure and Datadog 20180922
red-hat-forum-2017-openshift-baremetal-deployment
red-hat-forum-2017-openshift-baremetal-deployment
[ビッグデータオールスターズ] クラウドサービス最新情報 機械学習/AIでこんなことまでできるんです! (Microsoft編)
[ビッグデータオールスターズ] クラウドサービス最新情報 機械学習/AIでこんなことまでできるんです! (Microsoft編)
Movable type 6 Overview (2013.10.24)
Movable type 6 Overview (2013.10.24)
Ext js 20100526
Ext js 20100526
【HinemosWorld2014】B1-4_NTTデータ先端技術のOpenStack Hinemosソリューション
【HinemosWorld2014】B1-4_NTTデータ先端技術のOpenStack Hinemosソリューション
Azure IoT 最前線!~ Microsoft Ignite 2019での発表と直近アップデート総まとめ ~
Azure IoT 最前線!~ Microsoft Ignite 2019での発表と直近アップデート総まとめ ~
SAP on Azure Cloud Workshop Material Japanese 20190221
SAP on Azure Cloud Workshop Material Japanese 20190221
SORACOM UG 関西 x JAWS-UG 関西 IoT専門支部共催 | #あのボタン 開発のちょっといい話とSORACOM アップデート
SORACOM UG 関西 x JAWS-UG 関西 IoT専門支部共催 | #あのボタン 開発のちょっといい話とSORACOM アップデート
API イントロダクション APIC-EM, Prime Infrastructure & CMX
API イントロダクション APIC-EM, Prime Infrastructure & CMX
データホテル・フルマネージドホスティング サービスを支えるOSSと、活用事例
データホテル・フルマネージドホスティング サービスを支えるOSSと、活用事例
デバイス + クラウドで実現するこれからのサービス~ Windows 8 + Windows Azure 編 ~
デバイス + クラウドで実現するこれからのサービス~ Windows 8 + Windows Azure 編 ~
【de:code 2020】 Azure Synapse Analytics 技術編 ~ 最新の統合分析プラットフォームによる新しい価値の創出(後編)
【de:code 2020】 Azure Synapse Analytics 技術編 ~ 最新の統合分析プラットフォームによる新しい価値の創出(後編)
Parse触ってみた
Parse触ってみた
今話題のクラウドOSとは
今話題のクラウドOSとは
More from cyberagent
WWW2019で見るモバイルコンピューティングの技術と動向 山本悠ニ
WWW2019で見るモバイルコンピューティングの技術と動向 山本悠ニ
cyberagent
Web フィルタリング最前線: 「「検閲回避」回避」 角田孝昭
Web フィルタリング最前線: 「「検閲回避」回避」 角田孝昭
cyberagent
WebにおけるHuman Dynamics 武内慎
WebにおけるHuman Dynamics 武内慎
cyberagent
Webと経済学 數見拓朗
Webと経済学 數見拓朗
cyberagent
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
cyberagent
継続的な開発スタイル AbemaTVのiOSアプリを週1でリリースしている話
継続的な開発スタイル AbemaTVのiOSアプリを週1でリリースしている話
cyberagent
AbemaTVにおける推薦システム
AbemaTVにおける推薦システム
cyberagent
AbemaTV レコメンド開発エンジニアによる RecSys 2018 参加レポート
AbemaTV レコメンド開発エンジニアによる RecSys 2018 参加レポート
cyberagent
機械学習エンジニアを見せたAWSの再:発明とは? 〜re:Invent 2018 参加レポート〜
機械学習エンジニアを見せたAWSの再:発明とは? 〜re:Invent 2018 参加レポート〜
cyberagent
インターネットテレビ局「AbemaTV」プロダクトの変遷
インターネットテレビ局「AbemaTV」プロダクトの変遷
cyberagent
番組宣伝に関するAbemaTV分析事例の紹介
番組宣伝に関するAbemaTV分析事例の紹介
cyberagent
WWW2018 論文読み会 Webと経済学
WWW2018 論文読み会 Webと経済学
cyberagent
WWW2018 論文読み会 WebにおけるHuman Dynamics
WWW2018 論文読み会 WebにおけるHuman Dynamics
cyberagent
WWW2018 論文読み会 Web Search and Mining
WWW2018 論文読み会 Web Search and Mining
cyberagent
サイバーエージェントの機械学習エンジニアが体験したGoogle I/O 2018
サイバーエージェントの機械学習エンジニアが体験したGoogle I/O 2018
cyberagent
ログ解析基盤におけるストリーム処理パイプラインについて
ログ解析基盤におけるストリーム処理パイプラインについて
cyberagent
Orion an integrated multimedia content moderation system for web services
Orion an integrated multimedia content moderation system for web services
cyberagent
Orion an integrated multimedia content moderation system for web services
Orion an integrated multimedia content moderation system for web services
cyberagent
「これ危ない設定じゃないでしょうか」とヒアリングするための仕組み @AWS Summit Tokyo 2018
「これ危ない設定じゃないでしょうか」とヒアリングするための仕組み @AWS Summit Tokyo 2018
cyberagent
"マルチメディア機械学習" の取り組み
"マルチメディア機械学習" の取り組み
cyberagent
More from cyberagent
(20)
WWW2019で見るモバイルコンピューティングの技術と動向 山本悠ニ
WWW2019で見るモバイルコンピューティングの技術と動向 山本悠ニ
Web フィルタリング最前線: 「「検閲回避」回避」 角田孝昭
Web フィルタリング最前線: 「「検閲回避」回避」 角田孝昭
WebにおけるHuman Dynamics 武内慎
WebにおけるHuman Dynamics 武内慎
Webと経済学 數見拓朗
Webと経済学 數見拓朗
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
継続的な開発スタイル AbemaTVのiOSアプリを週1でリリースしている話
継続的な開発スタイル AbemaTVのiOSアプリを週1でリリースしている話
AbemaTVにおける推薦システム
AbemaTVにおける推薦システム
AbemaTV レコメンド開発エンジニアによる RecSys 2018 参加レポート
AbemaTV レコメンド開発エンジニアによる RecSys 2018 参加レポート
機械学習エンジニアを見せたAWSの再:発明とは? 〜re:Invent 2018 参加レポート〜
機械学習エンジニアを見せたAWSの再:発明とは? 〜re:Invent 2018 参加レポート〜
インターネットテレビ局「AbemaTV」プロダクトの変遷
インターネットテレビ局「AbemaTV」プロダクトの変遷
番組宣伝に関するAbemaTV分析事例の紹介
番組宣伝に関するAbemaTV分析事例の紹介
WWW2018 論文読み会 Webと経済学
WWW2018 論文読み会 Webと経済学
WWW2018 論文読み会 WebにおけるHuman Dynamics
WWW2018 論文読み会 WebにおけるHuman Dynamics
WWW2018 論文読み会 Web Search and Mining
WWW2018 論文読み会 Web Search and Mining
サイバーエージェントの機械学習エンジニアが体験したGoogle I/O 2018
サイバーエージェントの機械学習エンジニアが体験したGoogle I/O 2018
ログ解析基盤におけるストリーム処理パイプラインについて
ログ解析基盤におけるストリーム処理パイプラインについて
Orion an integrated multimedia content moderation system for web services
Orion an integrated multimedia content moderation system for web services
Orion an integrated multimedia content moderation system for web services
Orion an integrated multimedia content moderation system for web services
「これ危ない設定じゃないでしょうか」とヒアリングするための仕組み @AWS Summit Tokyo 2018
「これ危ない設定じゃないでしょうか」とヒアリングするための仕組み @AWS Summit Tokyo 2018
"マルチメディア機械学習" の取り組み
"マルチメディア機械学習" の取り組み
サイバーエージェントにおけるデータの品質管理について #cwt2016
1.
サイバーエージェントにおける データの品質管理について 2016 November 8th CyberAgent,
Inc. All Rights Reserved 株式会社 サイバーエージェント 技術本部 田中 克季 Cloudera World Tokyo 2016
2.
タイトル TITLE自己紹介 2 • 株式会社サイバーエージェント •
基盤系システムエンジニア • 主担当はデータ分析基盤開発運用やサービスの 分析コンサルや分析システムの導入 名前:田中克季
3.
タイトル TITLEサイバーエージェントの事業 インターネット広告事業 メディア事業
ゲーム事業 広告代理事業 自社広告商品 (アドテク) など など など 3
4.
タイトル TITLE事業の多様性 4
5.
タイトル TITLE事業の多様性 5 ガチャ回転率 課金・スペンド … view数 投稿数 視聴時間 … 新規登録数 DAU 継続率 …
6.
タイトル TITLEデータ分析基盤システム概要 6 • データ分析基盤
(Patriot) • Flume, HDFS, Hive, HBase • システム規模 : Hadoopクラスタ 73 node データ量 : 2PB (レプリケーション含む) ※2016年11月現在
7.
タイトル TITLEデータ分析基盤システム概要 7 • 一昨年はデータ分析基盤でのHBase活用事例に ついて紹介 http://www.slideshare.net/cyberagent/20141106cwtzenmyonaito-41840992 http://www.slideshare.net/cyberagent/cloudera-world-tokyo-2013 •
2013年にデータ分析基盤について紹介
8.
タイトル TITLE各サービスからのデータフロー 8 Amebaやスマフォプラットフォームなど 各サービスサーバ 分析データ 取得 データ分析基盤
9.
タイトル TITLEデータ集計環境における課題 9 • メディアサービスやゲームサービスのユーザ行動デー タ特性の多様化 •
各プラットフォームやサービスのデータ集計方法, ユーザ識別の複雑化 • データの品質劣化に伴う分析コストの増大 複雑さを解消し、データ品質の担保や管理の必要性
10.
タイトル TITLEデータ品質管理向上の注力ポイント 10 1.データ集計基盤一元化 2.データフォーマットの統一(スキーマ定義) 3.スキーマ定義に基づいたデータ検証 4.データ標準化
11.
タイトル TITLEデータ品質管理向上の注力ポイント 11 1.データ集計基盤一元化 2.データフォーマットの統一(スキーマ定義) 3.スキーマ定義に基づいたデータ検証 4.データ標準化
12.
タイトル TITLEデータ集計基盤の一元化 12 • 対象サービス管理の一元化 •
様々なデータ転送方式のサポート (https, flume, fluentd, Google Cloud Pub/Sub etc…) ・サービス毎のデータ転送コントロール Https
13.
タイトル TITLEデータ品質管理向上の注力ポイント 13 1.データ集計基盤一元化 2.データフォーマットの統一(スキーマ定義) 3.スキーマ定義に基づいたデータ検証 4.データ標準化
14.
タイトル TITLEデータフォーマットの統一 14 • データフォーマットはjson •
Snowplow の Canonical Event Modelを参考 に基本スキーマを定義 https://github.com/snowplow/snowplow/wiki/canonical- event-model • 1ユーザ1行動を1単位
15.
タイトル TITLEスキーマ定義 15 Header部 Contents部 { "uuid": "e8b507ee-a805-432b-a2cf-90aaed1fa1d1" "schema":
"like/1-2-0", "action_type": "like", "arrival_time": “2016-10-27T21:03:17.589+09:00", "mine_id": "rHTbhVAJ", "page": {}, "platform": "native", "time": "2016-10-27T21:03:15.731+09:00", "user": { "service_user_id": "6577109897303400875" }, "client": { "device_model": "SC-05G", "ip": "xx.98.1x3.98", "os": "Android", "os_version": "6.0.1", "useragent": "" }, "contents": { "like_type": "liked", "pass_num": 1, "super": false, "target_user_id": "4717712170393248212" } }
16.
タイトル TITLEスキーマ定義 16 Header部 Contents部 { "uuid": "e8b507ee-a805-432b-a2cf-90aaed1fa1d1" "schema":
"like/1-2-0", "action_type": "like", "arrival_time": “2016-10-27T21:03:17.589+09:00", "mine_id": "rHTbhVAJ", "page": {}, "platform": "native", "time": "2016-10-27T21:03:15.731+09:00", "user": { "service_user_id": "6577109897303400875" }, "client": { "device_model": "SC-05G", "ip": "xx.98.1x3.98", "os": "Android", "os_version": "6.0.1", "useragent": "" }, "contents": { "like_type": "liked", "pass_num": 1, "super": false, "target_user_id": "4717712170393248212" } } Header部はユー ザ識別子や環境、 状態を記述
17.
タイトル TITLEスキーマ定義 17 Header部 Contents部 { "uuid": "e8b507ee-a805-432b-a2cf-90aaed1fa1d1" "schema":
"like/1-2-0", "action_type": "like", "arrival_time": “2016-10-27T21:03:17.589+09:00", "mine_id": "rHTbhVAJ", "page": {}, "platform": "native", "time": "2016-10-27T21:03:15.731+09:00", "user": { "service_user_id": "6577109897303400875" }, "client": { "device_model": "SC-05G", "ip": "xx.98.1x3.98", "os": "Android", "os_version": "6.0.1", "useragent": "" }, "contents": { "like_type": "liked", "pass_num": 1, "super": false, "target_user_id": "4717712170393248212" } } Contents部は ユーザ行動毎の 詳細情報
18.
タイトル TITLEHeader部 18 { "uuid": "e8b507ee-a805-432b-a2cf-90aaed1fa1d1" "schema":
“like/1-2-0", "time": "2016-10-27T21:03:15.731+09:00", "arrival_time": "2016-10-27T21:03:17.589+09:00", "mine_id": "rHTbhVAJ", "client": { "device_model": "SC-05G", "ip": "xx.98.1x3.98", "os": "Android", "os_version": "6.0.1", "useragent": "" }, "platform": "native", "action_type": "like", "page": { "page_id": "top_page1", }, "user": { "service_user_id": "6577109897303400875" }, … uuid: ログ識別子
19.
タイトル TITLEHeader部 19 { "uuid": "e8b507ee-a805-432b-a2cf-90aaed1fa1d1" "schema":
"like/1-2-0", "time": "2016-10-27T21:03:15.731+09:00", "arrival_time": "2016-10-27T21:03:17.589+09:00", "mine_id": "rHTbhVAJ", "client": { "device_model": "SC-05G", "ip": "xx.98.1x3.98", "os": "Android", "os_version": "6.0.1", "useragent": "" }, "platform": "native", "action_type": "like", "page": { "page_id": "top_page1", }, "user": { "service_user_id": "6577109897303400875" }, … schema: ログ仕様バージョン
20.
タイトル TITLEHeader部 20 { "uuid": "e8b507ee-a805-432b-a2cf-90aaed1fa1d1" "schema":
"like/1-2-0", "time": "2016-10-27T21:03:15.731+09:00", "arrival_time": “2016-10-27T21:03:17.589+09:00", "mine_id": "rHTbhVAJ", "client": { "device_model": "SC-05G", "ip": "xx.98.1x3.98", "os": "Android", "os_version": "6.0.1", "useragent": "" }, "platform": "native", "action_type": "like", "page": { "page_id": "top_page1", }, "user": { "service_user_id": "6577109897303400875" }, … , time: 行動発生時間 arrival_time: データ到着時間 iso8601に準拠
21.
タイトル TITLEHeader部 21 { "uuid": "e8b507ee-a805-432b-a2cf-90aaed1fa1d1" "schema":
"like/1-2-0", "time": "2016-10-27T21:03:15.731+09:00", "arrival_time": "2016-10-27T21:03:17.589+09:00", "mine_id": "rHTbhVAJ", "client": { "device_model": "SC-05G", "ip": "xx.98.1x3.98", "os": "Android", "os_version": "6.0.1", "useragent": "" }, "platform": "native", "action_type": "like", "page": { "page_id": "top_page1", }, "user": { "service_user_id": "6577109897303400875" }, … mine_id: サービスID
22.
タイトル TITLEHeader部 22 { "uuid": "e8b507ee-a805-432b-a2cf-90aaed1fa1d1" "schema":
"like/1-2-0", "time": "2016-10-27T21:03:15.731+09:00", "arrival_time": "2016-10-27T21:03:17.589+09:00", "mine_id": "rHTbhVAJ", "client": { "device_model": "SC-05G", "ip": "xx.98.1x3.98", "os": "Android", "os_version": "6.0.1", "useragent": "" }, "platform": "native", "action_type": "like", "page": { "page_id": "top_page1", }, "user": { "service_user_id": "6577109897303400875" }, … client部: ユーザ行動発生時の端末 情報。IP, OS, UAなど
23.
タイトル TITLEHeader部 23 { "uuid": "e8b507ee-a805-432b-a2cf-90aaed1fa1d1" "schema":
"like/1-2-0", "time": "2016-10-27T21:03:15.731+09:00", "arrival_time": "2016-10-27T21:03:17.589+09:00", "mine_id": "rHTbhVAJ", "client": { "device_model": "SC-05G", "ip": "xx.98.1x3.98", "os": "Android", "os_version": "6.0.1", "useragent": "" }, "platform": "native", "action_type": "like", "page": { "page_id": "top_page1", }, "user": { "service_user_id": "6577109897303400875" }, … platform: 行動が発生したプラット フォーム(ブラウザ, ネイ ティブアプリ, TVなど)
24.
タイトル TITLEHeader部 24 { "uuid": "e8b507ee-a805-432b-a2cf-90aaed1fa1d1" "schema":
"like/1-2-0", "time": "2016-10-27T21:03:15.731+09:00", "arrival_time": "2016-10-27T21:03:17.589+09:00", "mine_id": "rHTbhVAJ", "client": { "device_model": "SC-05G", "ip": "xx.98.1x3.98", "os": "Android", "os_version": "6.0.1", "useragent": "" }, "platform": "native", "action_type": "like", "page": { "page_id": "top_page1", }, "user": { "service_user_id": "6577109897303400875" }, … action_type: ユーザ行動タイプ
25.
タイトル TITLEHeader部 25 { "uuid": "e8b507ee-a805-432b-a2cf-90aaed1fa1d1" "schema":
"like/1-2-0", "time": "2016-10-27T21:03:15.731+09:00", "arrival_time": "2016-10-27T21:03:17.589+09:00", "mine_id": "rHTbhVAJ", "client": { "device_model": "SC-05G", "ip": "xx.98.1x3.98", "os": "Android", "os_version": "6.0.1", "useragent": "" }, "platform": "native", "action_type": "like", "page": { "page_id": "top_page1", }, "user": { "service_user_id": "6577109897303400875" }, … page: ページ、view情報など
26.
タイトル TITLEHeader部 26 { "uuid": "e8b507ee-a805-432b-a2cf-90aaed1fa1d1" "schema":
"like/1-2-0", "time": "2016-10-27T21:03:15.731+09:00", "arrival_time": "2016-10-27T21:03:17.589+09:00", "mine_id": "rHTbhVAJ", "client": { "device_model": "SC-05G", "ip": "xx.98.1x3.98", "os": "Android", "os_version": "6.0.1", "useragent": "" }, "platform": "native", "action_type": "like", "page": { "page_id": "top_page1", }, "user": { "service_user_id": "6577109897303400875" }, … 26 user: ユーザ識別子などユーザ 情報
27.
タイトル TITLEContents部 27 { … "action_type": "like", … "contents":
{ "like_type": "liked", "pass_num": 1, "super": false, "target_user_id": "4717712170393248212" } } contents: 行動タイプに対応する行 動詳細情報
28.
タイトル TITLEデータ品質管理向上の注力ポイント 28 1.データ集計基盤一元化 2.データフォーマットの統一(スキーマ定義) 3.スキーマ定義に基づいたデータ検証 4.データ標準化
29.
タイトル TITLEデータ検証方法 29 • JsonSchemaによるデータ仕様の検証 •
http://json-schema.org/ • latest IETF published draft v4 検証内容の例: 必須/任意, データ型, FromTo, Enum, 固定 値, 相関チェック, URL形式, IP形式などなど
30.
タイトル TITLEJson Schema例 30 行動タイプregisterに対するJsonSchema抜粋 { "$schema"
: "http://json-schema.org/draft-04/schema#", "type" : "object", "properties" : { "action_type" : { "type" : "string","enum" : [ "register" ]}, "contents" : { "properties" : { "nickname" : { "type" : "string"}, "sex" : { "type" : "string", "enum" : [ "male", "female", "unknown" ] }, … }, … } action_typeは型がstring, 固定値"register"
31.
タイトル TITLEJson Schema例 31 行動タイプregisterに対するJsonSchema抜粋 { "$schema"
: "http://json-schema.org/draft-04/schema#", "type" : "object", "properties" : { "action_type" : { "type" : "string","enum" : [ "register" ]}, "contents" : { "properties" : { "nickname" : { "type" : "string"}, "sex" : { "type" : "string", "enum" : [ "male", "female", "unknown" ] }, … }, … } contents内部のnickname は型がstring, sexは型がstring, "male", "female", "unknown"の値 をとる
32.
タイトル TITLE違反検知例 32 行動タイプregisterのデータ検証違反 { "action_type": "register", "arrival_time":
"2016-11-01T21:00:14.536+09:00", "schema": "register/1-0–0”, "time": "2016-11-01T1:00:14.451+09:00", "contents": { "sex": "special" }, "mine_id": "hIHYdsma", "platform": "native", "user": { "active_user": true, "as_user_id": “8998897244" }, "uuid": "34350542-F01C-47B6-B434-E8365F7B5113" } ", 行動registerのsexキーは "male", "female", "unknown"しかとらない ので、"special"は異常と して検知する t e : 0 6 0 :00: . 5 09:00 , "contents": { "sex": "special" }, "mine id": "hIHYdsma"
33.
タイトル TITLEデータ仕様のversion管理 33 データ仕様はサービス施策や分析要件によって変 化していくため検証仕様も変化させる必要があり、 仕様のversion管理が必要 (GitHub管理) "schema":"register/1-0-0"g 対象の行動タイプ メジューバージョン、マイナーバー ジョン、リビジョン
34.
タイトル TITLEデータ検証の流れ 34 1. データ仕様決定 サービス分析担当
分析基盤管理 2. データ仕様(JsonSchema)登録 3. JsonSchemaデプロイ 5. データ検証 4. サービスデータ転送 6. エラーレポートの確認
35.
タイトル TITLEデータ検証の仕組み 35 検証UDF RAWデータ 正常データ 違反データ サービスからの ユーザ行動データ JsonSchema
36.
タイトル TITLEデータ検証の仕組み 36 検証UDF RAWデータ 正常データ 違反データ サービスからの ユーザ行動データ JsonSchema 違反データ 分析や集計は こちらを利用する
37.
タイトル TITLEエラーレポート 37 データ検証で検知された違反データのサマリーレ ポートを作成し、サービス側に提供 違反カテゴリ件数 カテゴリ毎のエラー件数 違反カテゴリ毎の違反詳細 検証違反データのピックアップ
38.
タイトル TITLEデータ品質管理向上の注力ポイント 38 1.データ集計基盤一元化 2.データフォーマットの統一(スキーマ定義) 3.スキーマ定義に基づいたデータ検証 4.データ標準化
39.
タイトル TITLEデータ標準化 39 ログ層 標準化層
集約層 Rawデータ格納 集計しやすい状態 にデータ整形 分析用途での データのサマリー 集計や積み上げ集 計の結果 Google BigQuery HBase Google SpreadSheet
40.
タイトル TITLEログ層 40 • 送信されたデータをそのまま保持する層 •
集計の大元データ 標準化層 • 送信されたログを集計しやすい形にし、格納す る層 • データ検証で一定のデータ品質を担保 • 日, サービス毎のパーティション
41.
タイトル TITLE集約層 41 • 標準化層データを日毎に集計した結果を格納 •
1日のアクセスメッシュ集計(アクティブユーザ やアクション別など) • ユーザ単位の行動記録のサマリー集計(初回アク セス日, アクセスデバイス, OSなど)
42.
タイトル TITLE集約層 42 • ユーザアクセスメッシュテーブル フィールド
データ型 説明 user_id string ユーザ識別子 access_mesh binary アクセスの1minメッシュ by_term Map<string, binary> デバイス/OS/クライアント毎のアクセ ス1minメッシュ service string サービス識別子(パーティション) dt string 集計対象日付(パーティション) 0000001111111100000000110…00011111111111100000 1minメッシュ 01 0111111110 11111111111110 0110 サービス滞在時間や視聴時間などの指標で利用できる
43.
タイトル TITLE集約層 43 • ユーザアクセス集約テーブル フィールド
データ型 説明 user_id string ユーザ識別子 first_access_date string 初回アクセス日 last_access_date string 最終アクセス日 access_dates_count bigint 通算アクセス日数 recent_access_dates array<string> 過去1ヶ月のアクセス日 recent_access_weeks array<string> 過去24週のアクセス週 recent_access_months array<string> 過去2年のアクセス月 service string サービス識別子(パーティション) dt string 集計対象日付(パーティション) DAU, 継続率, 呼び戻し率などのユーザの行動集約情報が必要な指標 積み上げ情報なので最新のパーティションに絞ることが可能
44.
タイトル TITLE取り組みから得られた結果 44 • これまで発生していたサービス毎の基本指標に 対する集計実装コストの大幅な削減 •
集計で問題が発生したときの調査コストの削減 • 集約テーブルから取得できる数値や指標のクエ リ実行時間の短縮
45.
タイトル TITLE取り組みから得られた結果 45 • 集約情報作成までの一連の流れが自動化されて いるので、基本指標においてはデータ送信した 翌日から分析担当は容易に取得可能に •
サービスエンジニアの分析用ログの品質への意 識が高まった
46.
タイトル TITLE今後の課題や展望 46 1.データ検証の向上 • 現在はJsonSchemaによる静的な検証のみ。集計データ の行動の順序性や行動間の情報整合性なども検証対象に •
ストリーミングデータで逐次的な検証 2.分析データ実装簡易化(サービスエンジニアに かかるデータ転送部分開発の負担軽減) 3.分析指標のセグメント設定
47.
さいごに Ameba Technology Laboratory
& 基盤システ ムグループでは分析基盤エンジニアを募集してい ます! Hadoop / データマイニング / 機会学習 / 検索 などに興味がある方はお声掛けください。 詳細はコーポレイトサイトにも掲載されています https://www.cyberagent.co.jp/recruit/career/jobs/
48.
ご静聴ありがとうございました
Download now