Submit Search
Upload
ログ解析基盤におけるストリーム処理パイプラインについて
•
1 like
•
3,467 views
cyberagent
Follow
ログ解析基盤におけるストリーム処理パイプラインについて
Read less
Read more
Engineering
Report
Share
Report
Share
1 of 28
Download now
Download to read offline
Recommended
最近のストリーム処理事情振り返り
最近のストリーム処理事情振り返り
Sotaro Kimura
分散システムについて語らせてくれ
分散システムについて語らせてくれ
Kumazaki Hiroki
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
NTT DATA Technology & Innovation
ストリーム処理を支えるキューイングシステムの選び方
ストリーム処理を支えるキューイングシステムの選び方
Yoshiyasu SAEKI
Python 3.9からの新定番zoneinfoを使いこなそう
Python 3.9からの新定番zoneinfoを使いこなそう
Ryuji Tsutsui
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTT DATA Technology & Innovation
Apache Airflow 概要(Airflowの基礎を学ぶハンズオンワークショップ 発表資料)
Apache Airflow 概要(Airflowの基礎を学ぶハンズオンワークショップ 発表資料)
NTT DATA Technology & Innovation
Apache Hadoopの新機能Ozoneの現状
Apache Hadoopの新機能Ozoneの現状
NTT DATA OSS Professional Services
Recommended
最近のストリーム処理事情振り返り
最近のストリーム処理事情振り返り
Sotaro Kimura
分散システムについて語らせてくれ
分散システムについて語らせてくれ
Kumazaki Hiroki
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
NTT DATA Technology & Innovation
ストリーム処理を支えるキューイングシステムの選び方
ストリーム処理を支えるキューイングシステムの選び方
Yoshiyasu SAEKI
Python 3.9からの新定番zoneinfoを使いこなそう
Python 3.9からの新定番zoneinfoを使いこなそう
Ryuji Tsutsui
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTT DATA Technology & Innovation
Apache Airflow 概要(Airflowの基礎を学ぶハンズオンワークショップ 発表資料)
Apache Airflow 概要(Airflowの基礎を学ぶハンズオンワークショップ 発表資料)
NTT DATA Technology & Innovation
Apache Hadoopの新機能Ozoneの現状
Apache Hadoopの新機能Ozoneの現状
NTT DATA OSS Professional Services
実運用して分かったRabbit MQの良いところ・気をつけること #jjug
実運用して分かったRabbit MQの良いところ・気をつけること #jjug
Yahoo!デベロッパーネットワーク
本当は恐ろしい分散システムの話
本当は恐ろしい分散システムの話
Kumazaki Hiroki
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Noritaka Sekiyama
初心者向けMongoDBのキホン!
初心者向けMongoDBのキホン!
Tetsutaro Watanabe
PFNのML/DL基盤を支えるKubernetesにおける自動化 / DevOpsDays Tokyo 2021
PFNのML/DL基盤を支えるKubernetesにおける自動化 / DevOpsDays Tokyo 2021
Preferred Networks
At least onceってぶっちゃけ問題の先送りだったよね #kafkajp
At least onceってぶっちゃけ問題の先送りだったよね #kafkajp
Yahoo!デベロッパーネットワーク
Cassandraのしくみ データの読み書き編
Cassandraのしくみ データの読み書き編
Yuki Morishita
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
NTT DATA Technology & Innovation
Amazon Redshift パフォーマンスチューニングテクニックと最新アップデート
Amazon Redshift パフォーマンスチューニングテクニックと最新アップデート
Amazon Web Services Japan
Dockerfile を書くためのベストプラクティス解説編
Dockerfile を書くためのベストプラクティス解説編
Masahito Zembutsu
Amazon SageMaker で始める機械学習
Amazon SageMaker で始める機械学習
Amazon Web Services Japan
[Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介 2018年9月6日 放送
[Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介 2018年9月6日 放送
Google Cloud Platform - Japan
Hadoop入門
Hadoop入門
Preferred Networks
地理分散DBについて
地理分散DBについて
Kumazaki Hiroki
MLOps に基づく AI/ML 実運用最前線 ~画像、動画データにおける MLOps 事例のご紹介~(映像情報メディア学会2021年冬季大会企画セッショ...
MLOps に基づく AI/ML 実運用最前線 ~画像、動画データにおける MLOps 事例のご紹介~(映像情報メディア学会2021年冬季大会企画セッショ...
NTT DATA Technology & Innovation
グラフ構造のデータモデルをPower BIで可視化してみた
グラフ構造のデータモデルをPower BIで可視化してみた
CData Software Japan
Presto ベースのマネージドサービス Amazon Athena
Presto ベースのマネージドサービス Amazon Athena
Amazon Web Services Japan
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
NTT DATA OSS Professional Services
機械学習モデルのサービングとは?
機械学習モデルのサービングとは?
Sho Tanaka
乗っ取れコンテナ!!開発者から見たコンテナセキュリティの考え方(CloudNative Days Tokyo 2021 発表資料)
乗っ取れコンテナ!!開発者から見たコンテナセキュリティの考え方(CloudNative Days Tokyo 2021 発表資料)
NTT DATA Technology & Innovation
EmbulkとDigdagとデータ分析基盤と
EmbulkとDigdagとデータ分析基盤と
Toru Takahashi
EmbulkとDigdagとデータ分析基盤と
EmbulkとDigdagとデータ分析基盤と
Toru Takahashi
More Related Content
What's hot
実運用して分かったRabbit MQの良いところ・気をつけること #jjug
実運用して分かったRabbit MQの良いところ・気をつけること #jjug
Yahoo!デベロッパーネットワーク
本当は恐ろしい分散システムの話
本当は恐ろしい分散システムの話
Kumazaki Hiroki
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Noritaka Sekiyama
初心者向けMongoDBのキホン!
初心者向けMongoDBのキホン!
Tetsutaro Watanabe
PFNのML/DL基盤を支えるKubernetesにおける自動化 / DevOpsDays Tokyo 2021
PFNのML/DL基盤を支えるKubernetesにおける自動化 / DevOpsDays Tokyo 2021
Preferred Networks
At least onceってぶっちゃけ問題の先送りだったよね #kafkajp
At least onceってぶっちゃけ問題の先送りだったよね #kafkajp
Yahoo!デベロッパーネットワーク
Cassandraのしくみ データの読み書き編
Cassandraのしくみ データの読み書き編
Yuki Morishita
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
NTT DATA Technology & Innovation
Amazon Redshift パフォーマンスチューニングテクニックと最新アップデート
Amazon Redshift パフォーマンスチューニングテクニックと最新アップデート
Amazon Web Services Japan
Dockerfile を書くためのベストプラクティス解説編
Dockerfile を書くためのベストプラクティス解説編
Masahito Zembutsu
Amazon SageMaker で始める機械学習
Amazon SageMaker で始める機械学習
Amazon Web Services Japan
[Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介 2018年9月6日 放送
[Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介 2018年9月6日 放送
Google Cloud Platform - Japan
Hadoop入門
Hadoop入門
Preferred Networks
地理分散DBについて
地理分散DBについて
Kumazaki Hiroki
MLOps に基づく AI/ML 実運用最前線 ~画像、動画データにおける MLOps 事例のご紹介~(映像情報メディア学会2021年冬季大会企画セッショ...
MLOps に基づく AI/ML 実運用最前線 ~画像、動画データにおける MLOps 事例のご紹介~(映像情報メディア学会2021年冬季大会企画セッショ...
NTT DATA Technology & Innovation
グラフ構造のデータモデルをPower BIで可視化してみた
グラフ構造のデータモデルをPower BIで可視化してみた
CData Software Japan
Presto ベースのマネージドサービス Amazon Athena
Presto ベースのマネージドサービス Amazon Athena
Amazon Web Services Japan
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
NTT DATA OSS Professional Services
機械学習モデルのサービングとは?
機械学習モデルのサービングとは?
Sho Tanaka
乗っ取れコンテナ!!開発者から見たコンテナセキュリティの考え方(CloudNative Days Tokyo 2021 発表資料)
乗っ取れコンテナ!!開発者から見たコンテナセキュリティの考え方(CloudNative Days Tokyo 2021 発表資料)
NTT DATA Technology & Innovation
What's hot
(20)
実運用して分かったRabbit MQの良いところ・気をつけること #jjug
実運用して分かったRabbit MQの良いところ・気をつけること #jjug
本当は恐ろしい分散システムの話
本当は恐ろしい分散システムの話
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
初心者向けMongoDBのキホン!
初心者向けMongoDBのキホン!
PFNのML/DL基盤を支えるKubernetesにおける自動化 / DevOpsDays Tokyo 2021
PFNのML/DL基盤を支えるKubernetesにおける自動化 / DevOpsDays Tokyo 2021
At least onceってぶっちゃけ問題の先送りだったよね #kafkajp
At least onceってぶっちゃけ問題の先送りだったよね #kafkajp
Cassandraのしくみ データの読み書き編
Cassandraのしくみ データの読み書き編
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
Amazon Redshift パフォーマンスチューニングテクニックと最新アップデート
Amazon Redshift パフォーマンスチューニングテクニックと最新アップデート
Dockerfile を書くためのベストプラクティス解説編
Dockerfile を書くためのベストプラクティス解説編
Amazon SageMaker で始める機械学習
Amazon SageMaker で始める機械学習
[Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介 2018年9月6日 放送
[Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介 2018年9月6日 放送
Hadoop入門
Hadoop入門
地理分散DBについて
地理分散DBについて
MLOps に基づく AI/ML 実運用最前線 ~画像、動画データにおける MLOps 事例のご紹介~(映像情報メディア学会2021年冬季大会企画セッショ...
MLOps に基づく AI/ML 実運用最前線 ~画像、動画データにおける MLOps 事例のご紹介~(映像情報メディア学会2021年冬季大会企画セッショ...
グラフ構造のデータモデルをPower BIで可視化してみた
グラフ構造のデータモデルをPower BIで可視化してみた
Presto ベースのマネージドサービス Amazon Athena
Presto ベースのマネージドサービス Amazon Athena
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
機械学習モデルのサービングとは?
機械学習モデルのサービングとは?
乗っ取れコンテナ!!開発者から見たコンテナセキュリティの考え方(CloudNative Days Tokyo 2021 発表資料)
乗っ取れコンテナ!!開発者から見たコンテナセキュリティの考え方(CloudNative Days Tokyo 2021 発表資料)
Similar to ログ解析基盤におけるストリーム処理パイプラインについて
EmbulkとDigdagとデータ分析基盤と
EmbulkとDigdagとデータ分析基盤と
Toru Takahashi
EmbulkとDigdagとデータ分析基盤と
EmbulkとDigdagとデータ分析基盤と
Toru Takahashi
AIの力で障害検知・解析をサポート!Loom(ログ解析ソリューション)のご紹介 - OpenStack最新情報セミナー 2017年7月
AIの力で障害検知・解析をサポート!Loom(ログ解析ソリューション)のご紹介 - OpenStack最新情報セミナー 2017年7月
VirtualTech Japan Inc.
[db tech showcase Tokyo 2014] L34: そのデータベース 5年後大丈夫ですか by 日本ヒューレット・パッカード株式会社 後藤宏
[db tech showcase Tokyo 2014] L34: そのデータベース 5年後大丈夫ですか by 日本ヒューレット・パッカード株式会社 後藤宏
Insight Technology, Inc.
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
NTT DATA OSS Professional Services
ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展
Recruit Technologies
ソフトウェアエンジニアと高位合成
ソフトウェアエンジニアと高位合成
Kenichiro MITSUDA
ビビッド・パワポ・オペレーションβ ~エンジニアのための、ゆるふわパワポ術~(qpstudy 2013.01 LT)
ビビッド・パワポ・オペレーションβ ~エンジニアのための、ゆるふわパワポ術~(qpstudy 2013.01 LT)
Masahito Zembutsu
hbstudy#6LTyuzorock
hbstudy#6LTyuzorock
yuzorock
Hadoop事始め
Hadoop事始め
You&I
20140120 presto meetup
20140120 presto meetup
Ogibayashi
OpenStack Object Storage; Usage
OpenStack Object Storage; Usage
irix_jp
ビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラム
Recruit Technologies
大規模ソーシャルゲームを支える技術~PHP+MySQLを使った高負荷対策~
大規模ソーシャルゲームを支える技術~PHP+MySQLを使った高負荷対策~
infinite_loop
MongoDBを用いたソーシャルアプリのログ解析 〜解析基盤構築からフロントUIまで、MongoDBを最大限に活用する〜
MongoDBを用いたソーシャルアプリのログ解析 〜解析基盤構築からフロントUIまで、MongoDBを最大限に活用する〜
Takahiro Inoue
WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料
Recruit Technologies
PostgreSQLのトラブルシューティング@第5回中国地方DB勉強会
PostgreSQLのトラブルシューティング@第5回中国地方DB勉強会
Shigeru Hanada
Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門
Tatsuya Tojima
DLR言語によるSilverlightプログラミング
DLR言語によるSilverlightプログラミング
terurou
Drupal補完計画
Drupal補完計画
Kuniyoshi Tone
Similar to ログ解析基盤におけるストリーム処理パイプラインについて
(20)
EmbulkとDigdagとデータ分析基盤と
EmbulkとDigdagとデータ分析基盤と
EmbulkとDigdagとデータ分析基盤と
EmbulkとDigdagとデータ分析基盤と
AIの力で障害検知・解析をサポート!Loom(ログ解析ソリューション)のご紹介 - OpenStack最新情報セミナー 2017年7月
AIの力で障害検知・解析をサポート!Loom(ログ解析ソリューション)のご紹介 - OpenStack最新情報セミナー 2017年7月
[db tech showcase Tokyo 2014] L34: そのデータベース 5年後大丈夫ですか by 日本ヒューレット・パッカード株式会社 後藤宏
[db tech showcase Tokyo 2014] L34: そのデータベース 5年後大丈夫ですか by 日本ヒューレット・パッカード株式会社 後藤宏
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展
ソフトウェアエンジニアと高位合成
ソフトウェアエンジニアと高位合成
ビビッド・パワポ・オペレーションβ ~エンジニアのための、ゆるふわパワポ術~(qpstudy 2013.01 LT)
ビビッド・パワポ・オペレーションβ ~エンジニアのための、ゆるふわパワポ術~(qpstudy 2013.01 LT)
hbstudy#6LTyuzorock
hbstudy#6LTyuzorock
Hadoop事始め
Hadoop事始め
20140120 presto meetup
20140120 presto meetup
OpenStack Object Storage; Usage
OpenStack Object Storage; Usage
ビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラム
大規模ソーシャルゲームを支える技術~PHP+MySQLを使った高負荷対策~
大規模ソーシャルゲームを支える技術~PHP+MySQLを使った高負荷対策~
MongoDBを用いたソーシャルアプリのログ解析 〜解析基盤構築からフロントUIまで、MongoDBを最大限に活用する〜
MongoDBを用いたソーシャルアプリのログ解析 〜解析基盤構築からフロントUIまで、MongoDBを最大限に活用する〜
WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料
PostgreSQLのトラブルシューティング@第5回中国地方DB勉強会
PostgreSQLのトラブルシューティング@第5回中国地方DB勉強会
Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門
DLR言語によるSilverlightプログラミング
DLR言語によるSilverlightプログラミング
Drupal補完計画
Drupal補完計画
More from cyberagent
WWW2019で見るモバイルコンピューティングの技術と動向 山本悠ニ
WWW2019で見るモバイルコンピューティングの技術と動向 山本悠ニ
cyberagent
Web フィルタリング最前線: 「「検閲回避」回避」 角田孝昭
Web フィルタリング最前線: 「「検閲回避」回避」 角田孝昭
cyberagent
WebにおけるHuman Dynamics 武内慎
WebにおけるHuman Dynamics 武内慎
cyberagent
Webと経済学 數見拓朗
Webと経済学 數見拓朗
cyberagent
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
cyberagent
継続的な開発スタイル AbemaTVのiOSアプリを週1でリリースしている話
継続的な開発スタイル AbemaTVのiOSアプリを週1でリリースしている話
cyberagent
AbemaTVにおける推薦システム
AbemaTVにおける推薦システム
cyberagent
AbemaTV レコメンド開発エンジニアによる RecSys 2018 参加レポート
AbemaTV レコメンド開発エンジニアによる RecSys 2018 参加レポート
cyberagent
機械学習エンジニアを見せたAWSの再:発明とは? 〜re:Invent 2018 参加レポート〜
機械学習エンジニアを見せたAWSの再:発明とは? 〜re:Invent 2018 参加レポート〜
cyberagent
インターネットテレビ局「AbemaTV」プロダクトの変遷
インターネットテレビ局「AbemaTV」プロダクトの変遷
cyberagent
番組宣伝に関するAbemaTV分析事例の紹介
番組宣伝に関するAbemaTV分析事例の紹介
cyberagent
WWW2018 論文読み会 Webと経済学
WWW2018 論文読み会 Webと経済学
cyberagent
WWW2018 論文読み会 WebにおけるHuman Dynamics
WWW2018 論文読み会 WebにおけるHuman Dynamics
cyberagent
WWW2018 論文読み会 Web Search and Mining
WWW2018 論文読み会 Web Search and Mining
cyberagent
サイバーエージェントの機械学習エンジニアが体験したGoogle I/O 2018
サイバーエージェントの機械学習エンジニアが体験したGoogle I/O 2018
cyberagent
Orion an integrated multimedia content moderation system for web services
Orion an integrated multimedia content moderation system for web services
cyberagent
Orion an integrated multimedia content moderation system for web services
Orion an integrated multimedia content moderation system for web services
cyberagent
「これ危ない設定じゃないでしょうか」とヒアリングするための仕組み @AWS Summit Tokyo 2018
「これ危ない設定じゃないでしょうか」とヒアリングするための仕組み @AWS Summit Tokyo 2018
cyberagent
"マルチメディア機械学習" の取り組み
"マルチメディア機械学習" の取り組み
cyberagent
推薦アルゴリズムの今までとこれから
推薦アルゴリズムの今までとこれから
cyberagent
More from cyberagent
(20)
WWW2019で見るモバイルコンピューティングの技術と動向 山本悠ニ
WWW2019で見るモバイルコンピューティングの技術と動向 山本悠ニ
Web フィルタリング最前線: 「「検閲回避」回避」 角田孝昭
Web フィルタリング最前線: 「「検閲回避」回避」 角田孝昭
WebにおけるHuman Dynamics 武内慎
WebにおけるHuman Dynamics 武内慎
Webと経済学 數見拓朗
Webと経済学 數見拓朗
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
継続的な開発スタイル AbemaTVのiOSアプリを週1でリリースしている話
継続的な開発スタイル AbemaTVのiOSアプリを週1でリリースしている話
AbemaTVにおける推薦システム
AbemaTVにおける推薦システム
AbemaTV レコメンド開発エンジニアによる RecSys 2018 参加レポート
AbemaTV レコメンド開発エンジニアによる RecSys 2018 参加レポート
機械学習エンジニアを見せたAWSの再:発明とは? 〜re:Invent 2018 参加レポート〜
機械学習エンジニアを見せたAWSの再:発明とは? 〜re:Invent 2018 参加レポート〜
インターネットテレビ局「AbemaTV」プロダクトの変遷
インターネットテレビ局「AbemaTV」プロダクトの変遷
番組宣伝に関するAbemaTV分析事例の紹介
番組宣伝に関するAbemaTV分析事例の紹介
WWW2018 論文読み会 Webと経済学
WWW2018 論文読み会 Webと経済学
WWW2018 論文読み会 WebにおけるHuman Dynamics
WWW2018 論文読み会 WebにおけるHuman Dynamics
WWW2018 論文読み会 Web Search and Mining
WWW2018 論文読み会 Web Search and Mining
サイバーエージェントの機械学習エンジニアが体験したGoogle I/O 2018
サイバーエージェントの機械学習エンジニアが体験したGoogle I/O 2018
Orion an integrated multimedia content moderation system for web services
Orion an integrated multimedia content moderation system for web services
Orion an integrated multimedia content moderation system for web services
Orion an integrated multimedia content moderation system for web services
「これ危ない設定じゃないでしょうか」とヒアリングするための仕組み @AWS Summit Tokyo 2018
「これ危ない設定じゃないでしょうか」とヒアリングするための仕組み @AWS Summit Tokyo 2018
"マルチメディア機械学習" の取り組み
"マルチメディア機械学習" の取り組み
推薦アルゴリズムの今までとこれから
推薦アルゴリズムの今までとこれから
Recently uploaded
今さら聞けない人のためのDevOps超入門 OSC2024名古屋 セミナー資料
今さら聞けない人のためのDevOps超入門 OSC2024名古屋 セミナー資料
Toru Miyahara
本の感想共有会「データモデリングでドメインを駆動する」本が突きつける我々の課題について
本の感想共有会「データモデリングでドメインを駆動する」本が突きつける我々の課題について
Masatsugu Matsushita
【登壇資料】スタートアップCTO経験からキャリアについて再考する CTO・VPoEに聞く by DIGGLE CTO 水上
【登壇資料】スタートアップCTO経験からキャリアについて再考する CTO・VPoEに聞く by DIGGLE CTO 水上
mizukami4
Linuxサーバー構築 学習のポイントと環境構築 OSC2024名古屋 セミナー資料
Linuxサーバー構築 学習のポイントと環境構築 OSC2024名古屋 セミナー資料
Toru Miyahara
今年こそ始めたい!SQL超入門 セミナー資料 2024年5月22日 富士通クラウドミートアップ
今年こそ始めたい!SQL超入門 セミナー資料 2024年5月22日 富士通クラウドミートアップ
Toru Miyahara
人的資本経営のための地理情報インテリジェンス 作業パターン分析と心身状態把握に関する実証事例
人的資本経営のための地理情報インテリジェンス 作業パターン分析と心身状態把握に関する実証事例
Kurata Takeshi
Recently uploaded
(6)
今さら聞けない人のためのDevOps超入門 OSC2024名古屋 セミナー資料
今さら聞けない人のためのDevOps超入門 OSC2024名古屋 セミナー資料
本の感想共有会「データモデリングでドメインを駆動する」本が突きつける我々の課題について
本の感想共有会「データモデリングでドメインを駆動する」本が突きつける我々の課題について
【登壇資料】スタートアップCTO経験からキャリアについて再考する CTO・VPoEに聞く by DIGGLE CTO 水上
【登壇資料】スタートアップCTO経験からキャリアについて再考する CTO・VPoEに聞く by DIGGLE CTO 水上
Linuxサーバー構築 学習のポイントと環境構築 OSC2024名古屋 セミナー資料
Linuxサーバー構築 学習のポイントと環境構築 OSC2024名古屋 セミナー資料
今年こそ始めたい!SQL超入門 セミナー資料 2024年5月22日 富士通クラウドミートアップ
今年こそ始めたい!SQL超入門 セミナー資料 2024年5月22日 富士通クラウドミートアップ
人的資本経営のための地理情報インテリジェンス 作業パターン分析と心身状態把握に関する実証事例
人的資本経営のための地理情報インテリジェンス 作業パターン分析と心身状態把握に関する実証事例
ログ解析基盤におけるストリーム処理パイプラインについて
1.
ログ解析基盤における ストリーム処理パイプラインについて 斎藤貴文 1
2.
自己紹介 ● 名前 ○ 斎藤貴文 ●
所属 ○ 株式会社サイバーエージェント秋葉原ラボ ● 担当案件 ○ データ転送管理基盤開発・運用 ○ 効果計測ツール開発・運用 ○ アクセス解析システム開発・運用 ○ ステートフルストリーム処理基盤開発 ○ ストリーム処理・データフローについて色々やっていたり 2
3.
はじめに 3 ● 今回の発表内容は初心者~中級者向けです ○ 実装の具体的な話はあまりしません ●
このスライドにはOSSがいくつか出てきますが、 OSS固有の話はしません ○ 皆さん馴染みのOSSに脳内変換して問題ございません ■ Flume → Fluentd, Logstash ■ Kafka → Kinesis Stream, Google Cloud Pub/Sub, Palser ■ Hive → Pig, BigQuery, Redshift, Presto, Impala ● CADEDAの発表から加筆修正しています
4.
目次 ● 背景 ○ ログ解析基盤Patriotについて ○
Patriotにおけるストリーム処理 ● ストリーム処理パイプライン ○ ストリーム処理パイプラインの変遷 ○ ストリーム処理パイプラインにおける遅延ログ問題 ● 現在の取り組み ○ ストリーム処理 ○ ストリーム処理以外 4
5.
目次 ● 背景 ○ ログ解析基盤Patriotについて ○
Patriotにおけるストリーム処理 ● ストリーム処理パイプライン ○ ストリーム処理パイプラインの変遷 ○ ストリーム処理パイプラインにおける遅延ログ問題 ● 現在の取り組み ○ ストリーム処理 ○ ストリーム処理以外 5
6.
Patriotについて ● メディアサービスのデータ解析基盤 ○ OSSベースのデータ解析基盤 ■
HDFS, YARN, Hive, Flume, Presto, Spark, HBase, etc. ○ 内製化したパッケージを利用 ● 過去の発表 ○ 内製パッケージによるHadoopデータ解析基盤の構築と運用 ○ 最新版Hadoopクラスタを運用して得られたもの ○ Presto on YARNの導入・運用 ○ サイバージェント 秋葉原ラボのHBase 活用事例 ■ PatriotにおけるHBaseの利用事例を紹介 6
7.
Patriotのシステム概要 7 システム構成 リアルタイム処理基盤 MySQL etc... 機械学習基盤 HTTP API / WebUI データ 転送管理 Log Patriot
8.
Patriotにおけるストリーム処理 ● ログの転送 ○ サービスにおけるユーザの行動ログを適切な場所に転送 ●
ログのフィルタリング ○ ログスキーマに則ったバリデーション等 ● ログの加工 ○ Online Joiner等 ● リアルタイム集計 ○ 秋葉原ラボのプロダクトとしてはZeroが担当 8
9.
目次 ● 背景 ○ ログ解析基盤Patriotについて ○
Patriotにおけるストリーム処理 ● ストリーム処理パイプライン ○ ストリーム処理パイプラインの変遷 ○ ストリーム処理パイプラインにおける遅延ログ問題 ● 現在の取り組み ○ ストリーム処理 ○ ストリーム処理以外の取り組み 9
10.
Apache Flumeの導入(2012~) ● Apache
Flume ○ ストリーミングでイベントを転送先にPushするミドルウェア ● Patriotのストリーム処理パイプライン ○ Webサーバに常駐するエージェントがログの追記毎にログを転送 ○ Aggregatorと呼ばれるFlumeサーバに集約し処理系に転送 ○ Aggregatorをつなげることでパイプラインを構築 ■ Patriot以外の社内処理基盤などに転送 処理系A 10 Aggragator Aggragator 処理系B
11.
Apache Flume導入直後の課題 ● Flumeの転送先増加に伴うパイプラインの硬直化 ○
Aggregatorに様々な条件の転送設定を追加 ○ 転送設定が複雑化し転送状況の把握や転送の変更が困難 ○ 扱える人間が限られて属人化 転送先 Aggragator 転送先 転送先 11
12.
転送管理システムの開発(2014~) ● ログの転送時にDBの転送設定を参照 ● オンラインで転送設定を変更可能 ○
管理画面から登録済み転送先を変更可能 ○ フィルタリング処理も可能 転送先 Aggragator 転送先 転送先 DB 12
13.
● さらなるパイプラインの拡大 ○ Zeroの登場などストリーム処理のニーズ増加 ○
パブリッククラウドへの転送 ● Flume(Push型転送)の問題が露呈 ○ Back Pressure問題 ■ Flume Aggregatorの処理が詰まると転送元のAggregatorも転送不能 ■ パイプラインが大きくなるとそれだけ影響範囲が拡大 ○ 転送先が更に増え管理コスト増加 転送管理システム導入後 転送できなくなるので 処理が詰まる 13
14.
Apache Kafkaの導入(2016~) ● Apache
Kafka ○ 分散Pub/Subシステム ● 転送先で処理が詰まっても転送元には影響は無い ○ Kafkaにデータが貯まるだけ ● 転送元で転送先の管理不要 ○ 転送先が必要なデータを取捨選択可能 転送先 必要なデータストリームを 転送先で選択可能 処理系が詰まっても転送 14
15.
現在 ● Apache Kafkaをデータハブとして活用 ○
データ転送中に容易にデータの加工が可能 ● ストリーム転送パイプラインは更に拡大 ○ 課題も増え戦いは続く。。。 転送先 15 Kafkaを経由してログの変換を実現
16.
目次 ● 背景 ○ ログ解析基盤Patriotについて ○
Patriotにおけるストリーム処理 ● ストリーム処理パイプライン ○ ストリーム処理パイプラインの変遷 ○ ストリーム処理パイプラインにおける遅延ログ問題 ● 現在の取り組み ○ ストリーム処理 ○ ストリーム処理以外の取り組み 16
17.
遅延ログ問題のあらすじ 17 ● ネイティブアプリの登場によってそれまで起こらなかった問題が発生 ○ 常に遅延したログが処理系に到着する状況の発生 ○
集計毎に入力データが変動し処理の冪等性を担保するのが困難 ○ 2015年ごろ ● 問題の詳細と解決策について紹介 処理系Webサーバ ストリーム処理 パイプライン バッチ処理で集計を実行 FlumeやKafkaなど転送を担う コンポーネントで構成 ログを受け取るサーバ パイプラインの入り口
18.
● ユーザの行動はWebサーバで処理されるためログはWebサーバで発生 ● 処理系は必要なログが全て到達してからバッチ処理を実行 ○
負荷高騰等によってパイプラインで遅延が発生することもある ○ パイプラインは管理下にあるので 遅延が解消されるまで待ってからバッチ処理を実行 処理系Webサーバ ネイティブアプリの登場以前 Webサービス ストリーム処理 パイプライン 18
19.
処理系Webサーバ ストリーム処理 パイプライン ● ネイティブアプリではユーザの行動をアプリで処理するため ログはユーザのデバイス上で発生 ● ネイティブアプリのログの転送タイミングはコントロール不可能 ネイティブアプリの登場 ((((( 19 00:00 ログ発生 01:30 発火
20.
処理系Webサーバ ストリーム処理 パイプライン ● 集計への影響 ○ ネイティブアプリのログの転送は管理できないので 常に遅延したログが届くという状況 ○
遅延したログが後で届いた場合、集計の結果が変動 ネイティブアプリの登場 ((((( 20 00:00 ログ発生 処理系 01:30 発火 01:00集計の0時台のカウントは0 02:00集計の0時台のカウントは1 ① ② ③ ④
21.
遅延ログによって生じる問題 21 ● 集計に冪等性が保てない ○ バッチ処理の集計とは一度だけではない ■
パイプラインで遅延が生じていたとき ■ ログをバックアップから再取り込みするとき ○ 冪等性を確保できないということは正確な集計ができないことと同義 ● 実行タイミングを決めることができない ○ 遅延ログが常に届くので集計時刻を遅らせた方が集計値は大きくなる ○ しかしログを待ち続けているといつまでも集計を開始できない → そのため集計の冪等性を保ちつつ 実行タイミングを適切に決定するための仕組みが必要
22.
解決策:2つの時刻の導入 ● ログの発生時刻だけではどこで遅延したのか判別不可能 ○ 管理可能な遅延と管理不可能な遅延が混在 ●
発生時刻に加えてパイプラインへの到着時刻をログに付与 ○ Webサービスの場合、発生時刻と到着時刻は等しい ○ ネイティブアプリのログはWebサーバに到着した時点の時刻を付与 ネイティブアプリ 発生時刻 ストリーム処理 パイプライン Webサービス 発生時刻=到着時 刻 到着時刻 22
23.
解決策:DataFlow Model*の導入 ● DataFlow
Modelを参考にデータの選定ルールを決定 ○ ログの発生時刻だけでなくwatermark(到着時刻の最新値)を 基準に入力データの範囲と処理開始時刻を決定 ● watermarkを導入することで集計の冪等性を実現し 実行タイミングを決定 ○ 入力データの範囲は発生時刻とwatermarkによって決定 ■ watermarkよりも後に到着したログは無視することで 処理のタイミングを問わず常に同じ結果を算出可能 ○ watermarkが規定の時刻に到達した時点で処理を開始 23* [The Dataflow Model: A Practical Approach to Balancing Correctness, Latency, and Cost in Massive-Scale, Unbounded, Out-of-Order Data Processing Akidau et al.,2015] 到着時刻に関係しないので watermarkには影響しない 遅延によって watermarkに影響が及ぶ
24.
解決策:実装編 ● ログフォーマットの統一 ○ 時刻の配置やネイティブアプリとWebサーバのログの識別等 ○
フォーマットについては過去にデータの品質管理で紹介 ● 到着時刻の付与 ○ Webサーバでログに変換するときに付与 ○ Flumeの転送中に付与 ■ Interceptorを追加するだけで実現 ● データの選定ルール ○ Hiveのクエリで実現 24 発生時刻(event_time)の範囲 watermarkの範囲 到着時刻+1時間まで許容
25.
目次 ● 背景 ○ ログ解析基盤Patriotについて ○
Patriotにおけるストリーム処理 ● ストリーム処理パイプライン ○ ストリーム処理パイプラインの変遷 ○ ストリーム処理パイプラインにおける遅延ログ問題 ● 現在の取り組み ○ ストリーム処理 ○ ストリーム処理以外の取り組み 25
26.
ストリーム処理に関する取り組み ● ステートフルストリーム処理基盤Phalanx ○ ストリーム処理でステートフルデータの変更を実現する際に CRDT*を利用することで更新操作を簡略的に表現可能 ○
DEIM 2018で発表 ● ストリーム処理パイプライン管理基盤 ○ パイプラインに必要な簡単な処理だけを提供 ■ ログの加工、ログの選択 ○ 誰でも容易にパイプライン処理の追加を可能にするのが目的 * [Conflict-free Replicated Data TypesShapiro et al.,2011] 26
27.
ストリーム処理以外の取り組み ● Zeppelin ○ Sparkなど分散処理環境へのアクセシビリティ向上 ○
解析方法・結果の共有を容易に ● Kudu ○ Fast Data処理向けに試験的に導入中 ● Hadoopクラスタ管理ツールの開発 ○ 各プロセスの開始・停止、Rolling Restart/Upgrade ○ Zookeeper経由でGitと連携し設定変更など ● バッチ系データフローのオープン化 ○ 誰でも自由にシステム横断してバッチ処理のデータフロー管理が可能 ○ 機械学習エンジニア・データ活用エンジニアの利用を想定 27
28.
終 28
Download now