Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadedaCloudera Japan
Data Engineering and Data Analysis Workshop #1 での有賀 (@chezou)の発表です。
https://cyberagent.connpass.com/event/58808/
Cloudera Data Science WorkbenchとPySparkを使い、Pythonで好きなライブラリを分散実行する方法についてです。日本語の形態素解析ライブラリMeCabをPySparkから実行します。
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadedaCloudera Japan
Data Engineering and Data Analysis Workshop #1 での有賀 (@chezou)の発表です。
https://cyberagent.connpass.com/event/58808/
Cloudera Data Science WorkbenchとPySparkを使い、Pythonで好きなライブラリを分散実行する方法についてです。日本語の形態素解析ライブラリMeCabをPySparkから実行します。
Cloudera World Tokyo 2015 で発表した資料です。
https://clouderaworld.tokyo/
概要
かつてHadoopによるビッグデータ基盤は HiveやPig、MapReduce、そしてHDFSだけで構成されるシンプルなシステムでした。しかし現在では、SparkやImpalaを始めとして、Kafka、HBase、Parquet、そしてKuduなどの新しいコンポーネントを組み合わせた複雑なシステムが次々に本番環境で稼働し始めています。
このセッションでは、データの取得、加工、提供までの流れがどのように変わっていったか、そして現在ではどのような基盤が主流なのか、最新のトレンドについて解説します。
Cloudera World Tokyo 2015 で発表した資料です。
https://clouderaworld.tokyo/
概要
かつてHadoopによるビッグデータ基盤は HiveやPig、MapReduce、そしてHDFSだけで構成されるシンプルなシステムでした。しかし現在では、SparkやImpalaを始めとして、Kafka、HBase、Parquet、そしてKuduなどの新しいコンポーネントを組み合わせた複雑なシステムが次々に本番環境で稼働し始めています。
このセッションでは、データの取得、加工、提供までの流れがどのように変わっていったか、そして現在ではどのような基盤が主流なのか、最新のトレンドについて解説します。
[db tech showcase Tokyo 2017] D33: Deep Learningや、Analyticsのワークロードを加速するには-Ten...Insight Technology, Inc.
Deep Learningでは、GPUを用いた、コンピューティング環境を用意される事が多いですが、こちらを加速させる足回りについてはあまり意識されてきていませんでした。また、SparkでのAnalyticsについても、Pipeline処理の高速化が可能となりました。ピュアストレージが最新のユースケースのご紹介も兼ねて、AI時代のワークロードを実現する方法をお伝えします。
This document summarizes 5 papers being presented at the WWW2019 research track on Mobile and Ubiquitous Computing. It also discusses trends in deep learning apps on Android smartphones based on an analysis of over 16,500 apps from Google Play. Key findings include an increase in deep learning apps from 166 in June 2018 to 211 in September 2018, with CNNs being the most common neural network used.
This document provides an overview and summary of the RecSys2018 conference that took place from October 2-7, 2018. It includes information about the keynote speakers, presented papers, and topics discussed. Some of the major topics covered include explainable recommendations, algorithmic confounding and homogeneity, offline evaluation of implicit feedback, calibrated recommendations, and using contextual bandits for artwork personalization at Netflix. The document also lists the dates and topics for each day of paper sessions and industry talks.
The document discusses Amazon Web Services' (AWS) machine learning and artificial intelligence services that were announced or highlighted at the 2018 re:Invent conference. It provides an overview of 1) AI services like Amazon Personalize and Amazon Forecast, 2) machine learning frameworks and infrastructure like Amazon SageMaker, Elastic Inference, and EC2 instances, and 3) machine learning services like Amazon Rekognition and Amazon Comprehend. It also summarizes new services announced at re:Invent like Amazon SageMaker Ground Truth, AWS Marketplace for ML/AI, and Amazon SageMaker Neo.
Orion an integrated multimedia content moderation system for web servicescyberagent
This document describes Orion, an integrated content moderation system developed by CyberAgent to moderate user generated content on their various social networking services and apps. The system combines automatic filtering using over 300 filters with manual review by human operators. It processes millions of posts daily. Since deploying Orion, the proportion of content requiring manual review has decreased by up to 5 times, and criminal activity on the company's services has sharply declined. The system provides reporting and monitoring to ensure a high quality of moderation.
Orion an integrated multimedia content moderation system for web servicescyberagent
This document describes Orion, an integrated content moderation system developed by CyberAgent to moderate user generated content on their various social networking services and apps. The system combines automatic filtering using over 300 filters with manual review by human operators. It processes millions of posts daily. Since deploying Orion, the percentage of content requiring manual review has decreased by up to 5 times, and criminal activity on the company's services has sharply declined. The system provides reporting to monitor operator performance and ensure high quality moderation.
17. ● Hive
○ HIVE-14029 : Update Spark version to 2.0.0
○ HIVE-14999 : SparkClientUtilities does not support viewFS
○ HIVE-15101 : Spark client process can be stuck when UNHEALTHY
NodeManager exists
○ HIVE-15237 : Propagate Spark job failure to Hive
○ HIVE-15239 : hive on spark combine equivalent work get wrong result
because of TS operation compare
○ HIVE-15513 : GroupByOperator should initialize GenericUDAFEvaluator
before AggregationBuffer (recurrence of HIVE-697)
○ HIVE-15580 : Eliminate unbounded memory usage for orderBy and
groupBy in Hive on Spark
適用しているパッチ
18. ● Flume
○ FLUME-3026 : Add Kafka 0.10 support for Flume
○ FLUME-3065 : Enable multiple monitoring types
○ FLUME-3100 : Support arbitrary header substitution for topic of Kafka
● Spark
○ SPARK-14958 : Failed task hangs if error is encountered when getting task
result
適用しているパッチ
24. 現在の取り組み
ステージング環境 本番環境開発環境
Hive on Tez
Hive on LLAP
Presto on
Yarn/Slider
Hadoop-2.8.0
● Hive on Tez
○ 省メモリバッチジョブのためのMapReduceの代替
● Hive on LLAP / Presto on Yarn/Slider
○ YARNでメモリ管理できる低レイテンシクエリエンジン
● Hadoop-2.8.0
○ 最新バージョンへの追従