データサイエンティストのための
Spark 入門
昨今、データサイエンティストの間で「Spark」の人気が高まっています。データをインメモリで高速に処理できるSparkを使うと、大規模なデータを扱う際にもストレスなく分析できます。
今回の第3回 Big Data University - 東京ミートアップでは、RStudioで作ったプログラムを Spark上で実行してみる方法を解説します。
また、合わせて、Rや Sparkとの対話環境である Data Scientist Workbench の使い方を紹介します。
こちらは前半資料となります。
データサイエンティストのための
Spark 入門
昨今、データサイエンティストの間で「Spark」の人気が高まっています。データをインメモリで高速に処理できるSparkを使うと、大規模なデータを扱う際にもストレスなく分析できます。
今回の第3回 Big Data University - 東京ミートアップでは、RStudioで作ったプログラムを Spark上で実行してみる方法を解説します。
また、合わせて、Rや Sparkとの対話環境である Data Scientist Workbench の使い方を紹介します。
こちらは前半資料となります。
PyconJP: Building a data preparation pipeline with Pandas and AWS LambdaFabian Dubois
Building a data preparation pipeline with Pandas and AWS Lambda
What is data preparation and why it is required.
How to prepare data with pandas.
How to set up a pipeline with AWS Lambda
https://youtu.be/pc0Xn0uAm34?t=9m15s
How to Apply Machine Learning with R, H20, Apache Spark MLlib or PMML to Real...Kai Wähner
"Big Data" is currently a big hype. Large amounts of historical data are stored in Hadoop or other platforms. Business Intelligence tools and statistical computing are used to draw new knowledge and to find patterns from this data, for example for promotions, cross-selling or fraud detection. The key challenge is how these findings can be integrated from historical data into new transactions in real time to make customers happy, increase revenue or prevent fraud.
"Fast Data" via stream processing is the solution to embed patterns - which were obtained from analyzing historical data - into future transactions in real-time. This session uses several real world success stories to explain the concepts behind stream processing and its relation to Hadoop and other big data platforms. The session discusses how patterns and statistical models of R, Spark MLlib and other technologies can be integrated into real-time processing using open source frameworks (such as Apache Storm, Spark or Flink) or products (such as IBM InfoSphere Streams or TIBCO StreamBase). A live demo shows the complete development lifecycle combining analytics, machine learning and stream processing.
JavaOne 2017 報告会 at Japan Java User Group
デモのコード:https://github.com/ykubota/jigsaw-sample_jp
イベントページ:https://jjug.doorkeeper.jp/events/66256
Stream: https://www.youtube.com/watch?v=XT2tIh9r6Eo
slideshareが自動的にPDFに変換するように仕様変更されていたため、ノート付きでアップロードができませんでした。お手数をおかけしますが、原稿(簡単ですが…)を読んでみたい方は筆者までTwitterでDMかメールなどでご連絡お願いします。