SlideShare a Scribd company logo
『データ分析に必要なスキルをつけるためのツール
~Jupyterノートブック、R連携、機械学習からSparkまで~』
Atsushi Tsuchiya
Technical Lead, Analytics Client Architect
IBM Analytics
@eatsushi
#datapalooza @bigdatau
Two Problems in Data Science:
Skills Tools
Commitment to Data Science Education
beta.bigdatauniversity.com
• MOOC community (sponsored by IBM)
• データサイエンス・ビッグデータに関するコース
• @yourpace, @yourplace
• 完了証明書 and badges
• 60+ コース
• ユーザが430,000人+
BigDataUniversity.com
What is Big Data University (BDU)?
• 5-5-5 rule
• 各コースに
• レッスンが5つ
• ビデオレクチャーが5つ
• ビデオレクチャーが5分間
• ハンズオン
BigDataUniversity.com
What is Big Data University (BDU)?
bit.ly/introtokyoR
6
bit.ly/introtokyoR
Meetups
www.bigdatauniversity.com/events
Event Recordings
bit.ly/introtokyoR
meetup.com/BDU-Tokyo
9
• 無償
• ハンズオン
Two Problems in Data Science:
Skills Tools
Commitment to Data Science Education
11
無償オンラインツールへの登録方法は、補
足資料をご覧ください。
bit.ly/introtokyoR ←登録後にアクセス可能
13
14
Go to(デモ):
bit.ly/introtokyoR
登録後にアクセス可能になります:
無償オンラインツールへの登録方法は、補足資料をご覧ください。
• Hadoopでやったこと+α
• バッチ(集計)、ストリーム(ミニバッチ)や、分析(SPSS,Rでできる事、グラフ処理)
• データストアは、HDFSに限定されない
• ファイルシステム、DBなどなど
• 言語は、SQL,R,Java,Scala,Pythonなどが使える
• インターラクティブな分析
• Jupyter notebook , Apache zeppelin
• Hadoopとは異なり、バッチが終わるまで待ち続けることはありません。
Apache Sparkでできること
インターラクティブ分析が可能に!
Packages
• Apache Sparkは、汎用的(多目
的)で柔軟性があります。
その理由は:
• 複数言語(SQL, R, Java,
Python, Scala)、HDFSだけで
はなく複数データストア、YARNと
の連携(MESOS)ができる
• Sparkコア・エンジンを利用して、
複数のエントリー・ポイント;
SQL, ストリーム処理, R,機械学
習, および、グラフ処理
Apache Sparkの構成
Apache Sparkの構成
Spark
R
Spark
core
Unified engine across diverse
workloads and environments
Sparkと周辺のエコシステム
現在まで:
フロント側の開発により力を
今後:
フロントに加え、バックエンド側も重視
【アプリケーション】
【実行環境】 【データソース】
• コマンドライン
• インターフェイス
• jupyter
• Apache Zeppelin
Sparkにどのようにアクセスするのか?
Standalone
Cluster
Zeppelin
※Laptopで試せます!
• 「Apache Spark入門 動かして学ぶ最新並列分散処理フレームワーク」で説明
されている内容に準じます;
Sparkクラスタの構成コンポーネント
■一般的には、各サーバにHDFSと
YARNのコンポーネント(DataNodeと
NodeManager)をインストールします。
これは、データ・ローカリティを活用す
るためにです。
■NameNodeとResourceManagerは、
可用性の観点や運用保守観点を考慮
し、同一マシーンにインストールする
ケース(ノード台数を減らせる)と、物
理的に異なるマシーン(ノード台数が
増える)ケースがあります。
■この左の図は、Sparkマスタノードに
NameNodeとResourceManagerを同居
させている例です。
• SPSSは、どうなるの?
• Spark MLlib(機械学習モジュール)との組み合わせです。
• 加工部分で威力があるかも。
Sparkの使いどころと、SPSSの関係
1.システム部から基幹
取引データをCSV
ファイルでもらう
2.文字コード変換する
(ホストからのデータ
の場合は注意が必
要)
3.不要なレコードを条
件抽出で排除
4.列と行を入れ替え
5. 顧客マスターを
CSVでもらう
6. また文字コード変
換、不要レコード、
列と行・・
7. 住所を
GoogleMapAP
Iを使って緯度経
度に変換
8. 緯度経度から最
寄り駅の距離を
算出する
Pythonのプログ
ラム
ここでやっと
アルゴリズム
データの型が
あわずエラー!
Sparkの使いどころ②
機械学習
最も手間がかかるのはデータの加工です。ビッグデータ分析の多くを占める処理は、実は「データ整形」です。
~作業の80%はデータ整備、それは基幹データが分析のために作られていないから、とも言われています。~
Sparkの使いどころ①
~SPSS(統計解析ミドルウェア)を利用した分析工程の内訳~
• Analytics serverコンポーネントは、
Hadoopクラスタ上で稼働し、
Sparkとの連結も可能
SPSS Analytics Server連携
SPSS Modeler Client
SPSS Analytic Server
Metadata
HCatalog
Resource Management
YARN / Platform Symphony
Distributed File System
HDFS / GPFS
Operations
Ambari
SQL
Hive
オンライン
HBase
Accumulo
バッチ
Map/Reduce
インメモリ
Spark
Analytic
Workbench
Hadoop Cluster
• BigInsights 4.1
• Hortonworks 2.3
SPSS Modeler Server
SPSS Analytics
Serverモジュールが
重要。Sparkだけでは
なく、Hadoopにもアク
セスができる仕組み
DB
• インストール、設定、メンテナンスは、Ambariを介して実施します。
SPSS Analytics Server連携
• Sparkを呼び出すことも可能(pythonから)
①Sparkの呼び出し
規定のアルゴリズム以
外はPythonからロ
ジックを実装することが
可能です
• Nine Algorithms for Big Data — Spark and/or MapReduce
②SPSSがあるのになぜSpark MLlib?
SPSS democratizes analytics, extending benefits to users who do not want
to program
Access to a broader library of analytic algorithms delivers solutions to more use cases
1.In addition to SPSS algorithms that now run in Spark, Data Scientists can utilize more
than 15 algorithms from Spark MLlib
2.Data Scientists can create new Modeler nodes to exploit MLlib algorithms & share
them with non-programmer Data Scientists
3.Via shared Modeler nodes, non-programmer Data Scientists leverage Spark
functionality in their own analytic workflows
SPSS Modelerにある9つのアルゴリズム
SPSSにはないアルゴリ
ズム、R連携ができる
ようになり、SPSSの使
い勝手は継承できる
• Using Modeler's Custom Dialog builder to abstract code behind a GUI makes Spark usable
for non-programmers.
③SPSS Modeler カスタム・ダイアログ・ビルダー
The Custom Dialog Builder – Python for Spark (The Custom Dialog Builder adds Python for Spark support )
Provides access to Spark & its machine learning library (MLlib)
Also provides access to other common Python libraries e.g.: Numpy, Scipy, Scikit-learn, Pandas
Data Scientists can create new Modeler nodes (extensions) that exploit algorithms from MLlib and other PySpark processes
• Github for SPSS http://ibmpredictiveanalytics.github.io/
SPSS Client
R
(R Studio IDE)
今までは・・・
データウェアハウス(PDA)SPSS Modeler Server
分析指示
分析結果表示
RDBデータリクエスト
分析指示
処理結果返信
ストリームイメージ
これからの”データレイク的な考え方”は・・・
SPSS Modeler
Client データウェアハウス(PDA)SPSS Modeler Server
SPSS Analytics ServerInfosphere BigInsights with SPSS Analytics Server
(Hadoop基盤)
分析指示
分析結果表示
Hadoopデータ
リクエスト
処理結果返信
処理結果返信
Hadoopデータ
分析指示
)BigInsights(Hadoop)
で分析処理実行
SPSSの処理を
Hadoop処理に変換
RDBデータリクエスト
分析指示
処理結果返信
FluidQuery連携
Hadoopデータを取り込む
ストリームイメージ
SPSS
Analytics
Server
Sparkは、
インメモリ処理に
なるので、
Hadoopクラスタ
と共存する場合
はリソース割り
当てに中が必要
です。
SPSS - R(SparkR)連携
SPSS Client
R
(R Studio IDE)
データウェアハウス(DB)SPSS Modeler Server
SPSS Analytics ServerInfosphere BigInsights with SPSS Analytics Server
(Hadoopクラスタ基盤)
分析指示
分析結果表示
Hadoopデータ
リクエスト
処理結果返信
処理結果返信
Hadoopデータ
分析指示
Rスクリプトを
Hadoopクラスタで実行(R),
もしくは
Sparkクラスタ(SparkR)で実行
RDBデータリクエスト
分析指示
処理結果返信
SPSS
Analytics
Server
Big R/SparkR
SPSSからRコード
を生成することも可能
データ待避
SilentLogアプリ特徴
1日の活動を自動で記録する手軽さから、高い継続率を得ています
■アプリケーション名:
SilentLog(サイレントログ) ※現在はiPhoneのみ対応
https://silentlog.com
■アプリケーションの特徴:
・移動手段、距離、時間、歩数を自動で記録し続ける
ライフログ(生活記録)アプリケーションです
・バッテリーの消費を国内外の競合アプリよりも抑えた上で
同程度以上の記録精度を確保しています
■利用者の傾向:
・30代男性を中心に、40代や50代の健康や記憶に関心の
高いユーザー様にご利用いただいています
・30日継続率が約30%と、ユーザー様の定着率が高いです
・ライフログ分野の代表的なアプリとして、複数の書籍や
雑誌、ウェブメディアで取り上げられております
・ユーザーレビュー平均評価4.5(Ver2.4.1/評価24人)
SDKにより収集された行動情報を分析することができます
SilentLog SDK
御社
ソリューション
・自家用車管理
・道路プローブ測定
・交通情報分析
・DSP連携(アドテク)
・顧客行動調査
・パネルリサーチ
・屋外広告の効果測定
・健康情報管理
・訪日外国人調査
・高齢者向けスマート
シティの設計
・労働者の遠隔管理
など
アクション
弊社アプリ
御社サービス
SilentLog SDKを
組み込んだアプリ
人工知能で行動を分析
行動情報群
弊社アプリ
統計データ
御社サービス
統計データ
オープンデータ
弊社追加データ
・行動情報(位置情報)
・個人属性データ
・アプリ利用データ
・人口・地価などの
公開済み動態情報
行動分析基盤
SilentLog
Analytics
・行動パターン推定
・属性の推定
・滞在情報の分析
・歩行情報の分析
・乗物情報の分析
行動情報データプラットフォーム
行動収集
行動情報
行動情報
通知
可視化
iOS, Android
SilentLog Analytics における、Spark(Bluemix)活用
弊社アプリ
御社サービス
SilentLog SDKを
組み込んだアプリ
行動情報群
弊社アプリ
統計データ
御社サービス
統計データ
オープンデータ
弊社追加データ
・行動情報(位置情報)
・個人属性データ
・アプリ利用データ
・人口・地価などの
公開済み動態情報
行動分析基盤
SilentLog Analytics
行動情報データプラットフォーム
行動情報
行動情報
データクレンジング
機械学習 / オンライン学習
推定結果
可視化
地図
グラフ
SilentLog SDK
アクション人工知能で行動を分析行動収集
33
SilentLog Analytics
行動情報を可視化。高い視点から人や物の動きが把握できます
同地区のヒートマップ表示
同地区の流入元表示
SilentLog SDK導入事例
株式会社イード様
e燃費アプリ
Two Problems in Data Science:
Skills Tools
Commitment to Data Science Education
bit.ly/introtokyoR
Is it Production READY?
© 2016 IBM Corporation36
IBM DATA SCIENCE EXPERIENCE
A L L Y O U R T O O L S I N O N E P L A C E
Data Science Experience (DSX)は、データサイエンティスト・データエンジニアが
必要とするデータ分析環境を1つにして提供をします。
© 2016 IBM Corporation37
ビルドインされた、簡
単なコースから、アド
バンスなチュートリアル
まで
学ぶ
オープンソールや付加
価値機能を統合した
データ分析ツール
作る
コラボレーションのための
コミュニティーと
ソーシャル機能
共創
IBM DATA SCIENCE EXPERIENCE
A L L Y O U R T O O L S I N O N E P L A C E
© 2016 IBM Corporation38
Data Science Experience
コミュニティー オープンソース 付加価値機能
- チュートリアル、データセットの探索
- データサイエンティストとの共創
- 質問をする – Ask Question
- 情報を収集する(記事、論文、技術情報)
- プロジェクトのフォークと共有
- Scala/Python/R/SQL
- Jupyter / Zeppelin* Notebooks
- RStudio IDE / Shinyアプリケーション
- Apache Spark
- その他のライブラリ
- データシェーピング/パイプラインUI *
- 自動データ準備(Auto-data prep)*
- 自動モデリング(Auto-modeling)*
- 高度なビジュアライゼーション*
- Model管理とデプロイメント*
- Well documented Model APIs*
IBM DATA SCIENCE EXPERIENCE
A L L Y O U R T O O L S I N O N E P L A C E
© 2016 IBM Corporation39
Shaping(シェーピング):
•Sparkling.Data APIs: Jupyterノートブック
(Python/Scala)
•チュートリアル(Python and Scala)
RStudio:
•Rstudio(オープンソースサーバ):16GB Memory/5GB領域
•Shiny: 分析WEBアプリの作成
•SparkR: Sparkサービスとの連携(Spark as a Service)
プロジェクト:
•共創(コラボ): プロジェクトへのユーザ追加
•ノートブックの共有/コネクション/ファイル管理
スケジューリング:
•CRON
•スケジューリングUI: スケジュールされたノートブック一覧、 前回/次
回実行予定、ステータス(初期版は機能制限あり)
コミュニティー:
• Analytics Exchange: コミュニティーによるオープン・
データとノートブック共有
• ソーシャルメディアによる共有機能
• ノートブックとデータのプリビュー機能
• ブログ(DSXブログ含む)
• チュートリアル (e.g., Big Data University)
ノートブック:
Jupyterノートブック
言語: Scala/Python/R
ライブラリ: Open Source and IBM
(Brunel/Prescriptive)
Import from File (*.ipynb)/URL/Templates
URLによる共有
IBM DATA SCIENCE EXPERIENCE
A L L Y O U R T O O L S I N O N E P L A C E
© 2016 IBM Corporation40
datascience.ibm.com
オープンβのリストを受け付けています
© 2016 IBM Corporation41
開催期間 :2016年8月1日~9月30日
※開催期間の変更がある場合もあります。
日本アイ・ビー・エム株式会社
懸賞金: 1位 30万 2位 20万 3位 10万
© 2016 IBM Corporation42
法人向け
個人向け
名刺を企業の資産に変える
© 2016 IBM Corporation43
※本コンペで扱う名刺画像に記載されている内容は実在の団体・個人とは一切関係ございません。
© 2016 IBM Corporation44
名刺をスキャン
年間1憶枚以上の名刺が、
オペレーターの入力によりデータ化されている
アプリケーションで活用
名刺の検索・閲覧・編集
お客様
© 2016 IBM Corporation45
名刺をスキャン
年間1憶枚以上の名刺が、
オペレーターの入力によりデータ化されている
アプリケーションで活用
名刺の検索・閲覧・編集
お客様
AI
© 2016 IBM Corporation46
数千枚の名刺画像を使って、
名刺の項目を推定するアルゴリズムを募集します。
© 2016 IBM Corporation47
ビルドインされた、簡
単なコースから、アド
バンスなチュートリアル
まで
学ぶ
オープンソールや付加
価値機能を統合した
データ分析ツール
作る
コラボレーションのための
コミュニティーと
ソーシャル機能
共創
IBM DATA SCIENCE EXPERIENCE
A L L Y O U R T O O L S I N O N E P L A C E
datascience.ibm.com
© 2016 IBM Corporation48
ご清聴ありがとうございました。
補足資料
49
DataScientistWorkbenchハンズオン
~始めに編~
本日の内容
▪ ユーザー登録
▪ Data Scientist Workbench
▪ (オプション)IBM Bluemix
▪ Data Scientist Workbenchとは
▪ ハンズオン(pyspark)
本日の内容
▪ ユーザー登録
▪ Data Scientist Workbench
▪ (オプション)IBM Bluemix
▪ Data Scientist Workbenchとは
▪ ハンズオン
DataScientistWorkbenchの登録
• https://datascientistworkbench.com/
IBM Bluemixへの登録
IBM Bluemixへの登録
IBM Bluemixへの登録
本日の内容
▪ ユーザー登録
▪ Data Scientist Workbench
▪ (オプション)IBM Bluemix
▪ Data Scientist Workbenchとは
▪ ハンズオン
データ分析のプロセス
データ収集
クレンジング
モデリング・
データ加工
アクション
レポーティング DataScientistWorkbenchで対応可能
Data Science Workbench© Copyright IBM Corp. 2016
特徴
• Spark環境構築済み
• Sparkを利用するためのプログラミング環境も用意
• インタラクティブかつ繰り返し実行可能
• コミュニティを通した知識の共有
• 継続的な機能追加
• 誰でも無料
“Making open source data science easy”
ログイン後の画面
データ操作および分析のためのツール
Data Science Workbenchのフォーラム、情報共有、リクエスト
①データ投入 ②データ整形
③データ整形と分析の実行
分析のためのデータ提供(Bluemixおよびpublicデータ)
ツール実行時の画面
Open Refine
Jupyter
Knowledge
blog, BDU
機能追加のため
の投票
seahouse
Apache
Zeppelin
アイコン化
My Data
Open Data
RStudio
①データ投入「My Data」
分析のためのデータの投入を行う
現在のディレクトリ構成
新規ディレクトリ作成
データのアップロード
アップロードしたファイルは分析ツールから利用可能
(Jupyter画面から利用が可能)
②データ整形「OpenRefine」
• Googleで開発されたGoogle Refineがベース
• 2010年11月にイニシャルリリース、2012年10月にOpenRefineとして
オープンソース化
• WebブラウザからのGUI操作のみでデータのクレンジングやフォー
マット変換が可能
• CSV, TSV, text files, XML, RDF, and JSON様々なファイルフォーマットに
対応
• 分析を実行する前のデータの準備を実行
OpenRefineによるデータの絞込やクレンジング
数値データの範囲をグラフで絞り込み
※日本語データへの対応はされていません。
OpenRefineによるデータの絞込やクレンジング
数値データの範囲をグラフで絞り込み
データのブレに対して
GUIでクレンジングが可能
「RStudio」
• Rを使いやすくするのための統合開発環境
• Rユーザーのデファクトスタンダード
• Data Scientist WorkbenchではBig Rも実行可能
• IBMの提供するライブラリ
• スケーラブルかつ高パフォーマンス
• Sparkに統合予定のSystemML
RStudio - RユーザーがSparkRを利用するためのIDE
Sparkと連携
BigRと連携済み、利用可能
https://www.ibm.com/support/knowledgecenter/SSPT3X_4.
1.0/com.ibm.swg.im.infosphere.biginsights.ref.doc/doc/refere
nce_icnav.html
「seahouse」
• DeepSense.ioにより2016年にver.1.0
• Sparkアプリケーションを作成するためのプラットフォーム
• WebGUIからアイコンを配置して機械学習やETLのプログラミング可能
Jupyter, Zeppelin はNotebook… “Notebook”とは?
•紙と鉛筆
• 紙と鉛筆は、これまで長い間、科学
者がメモや図面を通して進捗状況
を文書化するための重要なツール
である:
• 表現力
• 累積した情報
• コラボレーション
•Notebooks
• Notebooks は、これまでの紙と鉛
筆のデジタル版であり、再現性の
ある分析と文書化を可能にする:
• マークダウンとグラフ化
• 反復探索
• 共有が容易
③データ整形と分析の実行「Jupyter Notebook」
• リリース
• 2001年にリリースされたIPythonをベースに、2015年にJupyterとしてリリース
• ノートブック
• WebブラウザからのGUI操作可能
• コード実行、コメント記述、グラフの描画を実行可能
• カーネル
• Data Scientist Workbenchでは、Scala,Python, Rを実行可能
③データ整形と分析の実行「Zeppelin Notebook」
• リリース
• 2012年にCommercial Product、2013年にオープンソース、2014年にASFインキュ
ベーションプロダクト
• ノートブック
• WebブラウザからのGUI操作可能
• コード実行、コメント記述、グラフの描画を実行可能
• インタープリタ
• Scala, Python, SQL,shellコマンド など
ファイルサーチ& URL挿
入(ノートの共有)
「My Data」のファイル
コードに挿入可能
<参考>Jupyter 操作画面
<参考> Jupyterにおけるセル・コメント・コード
コメント
コード(実行中)
コード(未実行)
コメント
セルの種類
<参考>よく使うJupyterのアイコン
状態のセーブ・チェックポイントの作成
セルの削除
セルの順番入れ替え
セルの実行
セルの追加
<参考>修正したコード(セル)からの再実行
実行したセルに対して変更を加える
修正したセルから再実行可能
番号が下のセルより上がっている
<参考>修正したコード(セル)からの再実行
<参考>コード補完
Tabを押下することでコード補
完が行われる
<参考>キーボードショートカット
キーボードショートカットによるviライクな操作が可能 (j、kでセ ル間を移動)
Enterでセル毎の編集モードに入り、EscでNotebookへのコマンドモードに変更
<参考>
ユーザーインターフェースの
細かい解説を確認可能
<参考>Jupyterで新規Notebookを作成する
1.左側のアイコンリストからJupyterを選択
2.右上のNew Notebook TypeからPythonを選択
フィードバックと投票
実現してほしいアイデアの投稿、投票が可能
<参考>日本語化とデータセンター
• 画面左下のユーザーアイコンから
Profileの設定が可能
• 言語を「日本語」にすることで
UIの日本語化
• Tokyo データセンターも準備中
香港がもっとも近い場所
です(推奨)
非常に多くの機能がありますが
触りながら覚えて、育てていきましょう
本日の内容
▪ ユーザー登録
▪ Data Scientist Workbench
▪ (オプション)IBM Bluemix
▪ Sparkとは
▪ Data Scientist Workbenchとは
▪ ハンズオン(pyspark)
ハンズオンの内容
ハンズオン:JupyterでMLLibでクラスタリング
ハンズオン:IBM Bluemixとの連携・移行
ハンズオン:Spark MLLibでクラスタリング
JupyterでSpark MLLibを使った機械学習プログラムを体験します。
実行にはJupyterでPythonによるプログラムを実行します。
手順
1. シェアされているNotebookとデータを取得します。
Notebook> https://ibm.biz/BdrDnd
データ> https://ibm.biz/BdrDnD
2. Jupyter画面および「マイ・データ」画面でファイルが取得されていることを確
認します。
3. Notebookを実行してK-Meansによるクラスタリングを実行します。
ハンズオン:Bluemixとの連携・移行
IBM BluemixにもSpark環境が「Spark as a Service」とし
て用意されています。
DataScientistWorkbenchと比較して以下の利点があります。
• Enterprise向けのよりパワフルな実行環境と占有環境
• アプリケーション(spark-submit)の実行可能
• Bluemix上のサービスとの連携
手順
1. DSWBからJupyterノートブックのダウンロード
2. Spark as a Serviceからノートブックの読み込みと実行
“Apache Spark”
- Sparkサービス
- Jupyter
(Python・Scala・Rランタイム)
- サンプルコード
- Objectストレージ
BluemixのApache Spark(Spark as a Service)
に含まれる内容
ストレージ
(swiftベース)
Sparkサービス
(Jupyter)
<補足>ハンズオン
「Download」を選択してipynbファイルのシェアを実行
<補足>ハンズオン
「Bluemix Spark」からipynbファイルを読み込み
BluemixではNotebookの実行とバッ
チ実行モードが選択可能
今回はNotebookを選択
Create NotebookでFrom Fileを選択
<参考> Spark as a Service画面
データの投入および
ノートブックの共有可能DSWB同様
Jupyter利用可能
<参考>リファレンス
• Sparkプログラミングガイド (1.6.1)
http://spark.apache.org/docs/latest/programming-guide.html
• Pyspark APIドキュメント (1.6.1)
http://spark.apache.org/docs/latest/api/python/pyspark.html
• K-means(機械学習)のプログラミングガイド
http://spark.apache.org/docs/latest/mllib-clustering.html
* 日本語版も存在しますが現在最新バージョンではなく未翻訳があります
* 上記は1.6.1ですがDSWは1.5.1となります
ワークショップ、セッション、および資料は、IBMまたはセッション発表者によって準備され、それぞれ独自の見解を反映したものです。それらは情報提供の目的のみで提供されており、いかなる参加
者に対しても法律的またはその他の指導や助言を意図したものではなく、またそのような結果を生むものでもありません。本講演資料に含まれている情報については、完全性と正確性を期するよう
努力しましたが、「現状のまま」提供され、明示または暗示にかかわらずいかなる保証も伴わないものとします。本講演資料またはその他の資料の使用によって、あるいはその他の関連によって、
いかなる損害が生じた場合も、IBMは責任を負わないものとします。 本講演資料に含まれている内容は、IBMまたはそのサプライヤーやライセンス交付者からいかなる保証または表明を引きだすこ
とを意図したものでも、IBMソフトウェアの使用を規定する適用ライセンス契約の条項を変更することを意図したものでもなく、またそのような結果を生むものでもありません。
本講演資料でIBM製品、プログラム、またはサービスに言及していても、IBMが営業活動を行っているすべての国でそれらが使用可能であることを暗示するものではありません。本講演資料で言及
している製品リリース日付や製品機能は、市場機会またはその他の要因に基づいてIBM独自の決定権をもっていつでも変更できるものとし、いかなる方法においても将来の製品または機能が使用
可能になると確約することを意図したものではありません。本講演資料に含まれている内容は、参加者が開始する活動によって特定の販売、売上高の向上、またはその他の結果が生じると述べる、
または暗示することを意図したものでも、またそのような結果を生むものでもありません。 パフォーマンスは、管理された環境において標準的なIBMベンチマークを使用した測定と予測に基づいてい
ます。ユーザーが経験する実際のスループットやパフォーマンスは、ユーザーのジョブ・ストリームにおけるマルチプログラミングの量、入出力構成、ストレージ構成、および処理されるワークロード
などの考慮事項を含む、数多くの要因に応じて変化します。したがって、個々のユーザーがここで述べられているものと同様の結果を得られると確約するものではありません。
記述されているすべてのお客様事例は、それらのお客様がどのようにIBM製品を使用したか、またそれらのお客様が達成した結果の実例として示されたものです。実際の環境コストおよびパフォー
マンス特性は、お客様ごとに異なる場合があります。
IBM、IBM ロゴ、ibm.com、[以下当該情報に関連し商標リスト中に掲載されたIBMブランドやIBMの製品名称があれば追加する]は、 世界の多くの国で登録されたInternational Business Machines
Corporationの商標です。他の製品名およびサービス名等は、それぞれIBMまたは各社の商標である場合があります。現時点での IBM の商標リストについては、
www.ibm.com/legal/copytrade.shtmlをご覧ください。
Adobe, Adobeロゴ, PostScript, PostScriptロゴは、Adobe Systems Incorporatedの米国およびその他の国における登録商標または商標です。
IT Infrastructure LibraryはAXELOS Limitedの登録商標です。
インテル, Intel, Intelロゴ, Intel Inside, Intel Insideロゴ, Centrino, Intel Centrinoロゴ, Celeron, Xeon, Intel SpeedStep, Itanium, およびPentium は Intel Corporationまたは子会社の米国およびその他の
国における商標または登録商標です。
Linuxは、Linus Torvaldsの米国およびその他の国における登録商標です。
PowerLinux is a trademark of International Business Machines Corp. The registered trademark Linux is used pursuant to a sublicense from LMI, the exclusive licensee of Linus Torvalds, owner of the
mark on a world-wide basis.
Microsoft, Windows, Windows NT および Windowsロゴは Microsoft Corporationの米国およびその他の国における商標です。
ITILはAXELOS Limitedの登録商標です。
UNIXはThe Open Groupの米国およびその他の国における登録商標です。
Cell Broadband Engineは、Sony Computer Entertainment, Inc.の米国およびその他の国における商標であり、同社の許諾を受けて使用しています。
JavaおよびすべてのJava関連の商標およびロゴは Oracleやその関連会社の米国およびその他の国における商標または登録商標です。
Linear Tape-Open, LTO, LTOロゴ, UltriumおよびUltriumロゴは、HP, IBM Corp.およびQuantumの米国およびその他の国における商標です。

More Related Content

What's hot

PostgreSQLをKubernetes上で活用するためのOperator紹介!(Cloud Native Database Meetup #3 発表資料)
PostgreSQLをKubernetes上で活用するためのOperator紹介!(Cloud Native Database Meetup #3 発表資料)PostgreSQLをKubernetes上で活用するためのOperator紹介!(Cloud Native Database Meetup #3 発表資料)
PostgreSQLをKubernetes上で活用するためのOperator紹介!(Cloud Native Database Meetup #3 発表資料)
NTT DATA Technology & Innovation
 
Apache Avro vs Protocol Buffers
Apache Avro vs Protocol BuffersApache Avro vs Protocol Buffers
Apache Avro vs Protocol Buffers
Seiya Mizuno
 
GraphQLのsubscriptionで出来ること
GraphQLのsubscriptionで出来ることGraphQLのsubscriptionで出来ること
GraphQLのsubscriptionで出来ること
Shingo Fukui
 
AWS で Presto を徹底的に使いこなすワザ
AWS で Presto を徹底的に使いこなすワザAWS で Presto を徹底的に使いこなすワザ
AWS で Presto を徹底的に使いこなすワザ
Noritaka Sekiyama
 
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
NTT DATA Technology & Innovation
 
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)
NTT DATA Technology & Innovation
 
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
NTT DATA Technology & Innovation
 
DBpedia Japaneseとは?
DBpedia Japaneseとは?DBpedia Japaneseとは?
DBpedia Japaneseとは?
National Institute of Informatics (NII)
 
Hiveを高速化するLLAP
Hiveを高速化するLLAPHiveを高速化するLLAP
Hiveを高速化するLLAP
Yahoo!デベロッパーネットワーク
 
Amazon Redshiftによるリアルタイム分析サービスの構築
Amazon Redshiftによるリアルタイム分析サービスの構築Amazon Redshiftによるリアルタイム分析サービスの構築
Amazon Redshiftによるリアルタイム分析サービスの構築
Minero Aoki
 
Redisの特徴と活用方法について
Redisの特徴と活用方法についてRedisの特徴と活用方法について
Redisの特徴と活用方法について
Yuji Otani
 
[JAWS DAYS 2019] Amazon DocumentDB(with MongoDB Compatibility)入門
[JAWS DAYS 2019] Amazon DocumentDB(with MongoDB Compatibility)入門[JAWS DAYS 2019] Amazon DocumentDB(with MongoDB Compatibility)入門
[JAWS DAYS 2019] Amazon DocumentDB(with MongoDB Compatibility)入門
Shuji Kikuchi
 
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
NTT DATA Technology & Innovation
 
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
NTT DATA OSS Professional Services
 
AWSで作る分析基盤
AWSで作る分析基盤AWSで作る分析基盤
AWSで作る分析基盤
Yu Otsubo
 
どうやって決める?kubernetesでのシークレット管理方法(Cloud Native Days 2020 発表資料)
どうやって決める?kubernetesでのシークレット管理方法(Cloud Native Days 2020 発表資料)どうやって決める?kubernetesでのシークレット管理方法(Cloud Native Days 2020 発表資料)
どうやって決める?kubernetesでのシークレット管理方法(Cloud Native Days 2020 発表資料)
NTT DATA Technology & Innovation
 
root権限無しでKubernetesを動かす
root権限無しでKubernetesを動かす root権限無しでKubernetesを動かす
root権限無しでKubernetesを動かす
Akihiro Suda
 
Apache Bigtop3.2 (仮)(Open Source Conference 2022 Online/Hiroshima 発表資料)
Apache Bigtop3.2 (仮)(Open Source Conference 2022 Online/Hiroshima 発表資料)Apache Bigtop3.2 (仮)(Open Source Conference 2022 Online/Hiroshima 発表資料)
Apache Bigtop3.2 (仮)(Open Source Conference 2022 Online/Hiroshima 発表資料)
NTT DATA Technology & Innovation
 
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
Amazon Web Services Japan
 
[Aurora事例祭り]Amazon Aurora を使いこなすためのベストプラクティス
[Aurora事例祭り]Amazon Aurora を使いこなすためのベストプラクティス[Aurora事例祭り]Amazon Aurora を使いこなすためのベストプラクティス
[Aurora事例祭り]Amazon Aurora を使いこなすためのベストプラクティス
Amazon Web Services Japan
 

What's hot (20)

PostgreSQLをKubernetes上で活用するためのOperator紹介!(Cloud Native Database Meetup #3 発表資料)
PostgreSQLをKubernetes上で活用するためのOperator紹介!(Cloud Native Database Meetup #3 発表資料)PostgreSQLをKubernetes上で活用するためのOperator紹介!(Cloud Native Database Meetup #3 発表資料)
PostgreSQLをKubernetes上で活用するためのOperator紹介!(Cloud Native Database Meetup #3 発表資料)
 
Apache Avro vs Protocol Buffers
Apache Avro vs Protocol BuffersApache Avro vs Protocol Buffers
Apache Avro vs Protocol Buffers
 
GraphQLのsubscriptionで出来ること
GraphQLのsubscriptionで出来ることGraphQLのsubscriptionで出来ること
GraphQLのsubscriptionで出来ること
 
AWS で Presto を徹底的に使いこなすワザ
AWS で Presto を徹底的に使いこなすワザAWS で Presto を徹底的に使いこなすワザ
AWS で Presto を徹底的に使いこなすワザ
 
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
 
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)
 
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
 
DBpedia Japaneseとは?
DBpedia Japaneseとは?DBpedia Japaneseとは?
DBpedia Japaneseとは?
 
Hiveを高速化するLLAP
Hiveを高速化するLLAPHiveを高速化するLLAP
Hiveを高速化するLLAP
 
Amazon Redshiftによるリアルタイム分析サービスの構築
Amazon Redshiftによるリアルタイム分析サービスの構築Amazon Redshiftによるリアルタイム分析サービスの構築
Amazon Redshiftによるリアルタイム分析サービスの構築
 
Redisの特徴と活用方法について
Redisの特徴と活用方法についてRedisの特徴と活用方法について
Redisの特徴と活用方法について
 
[JAWS DAYS 2019] Amazon DocumentDB(with MongoDB Compatibility)入門
[JAWS DAYS 2019] Amazon DocumentDB(with MongoDB Compatibility)入門[JAWS DAYS 2019] Amazon DocumentDB(with MongoDB Compatibility)入門
[JAWS DAYS 2019] Amazon DocumentDB(with MongoDB Compatibility)入門
 
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
 
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
 
AWSで作る分析基盤
AWSで作る分析基盤AWSで作る分析基盤
AWSで作る分析基盤
 
どうやって決める?kubernetesでのシークレット管理方法(Cloud Native Days 2020 発表資料)
どうやって決める?kubernetesでのシークレット管理方法(Cloud Native Days 2020 発表資料)どうやって決める?kubernetesでのシークレット管理方法(Cloud Native Days 2020 発表資料)
どうやって決める?kubernetesでのシークレット管理方法(Cloud Native Days 2020 発表資料)
 
root権限無しでKubernetesを動かす
root権限無しでKubernetesを動かす root権限無しでKubernetesを動かす
root権限無しでKubernetesを動かす
 
Apache Bigtop3.2 (仮)(Open Source Conference 2022 Online/Hiroshima 発表資料)
Apache Bigtop3.2 (仮)(Open Source Conference 2022 Online/Hiroshima 発表資料)Apache Bigtop3.2 (仮)(Open Source Conference 2022 Online/Hiroshima 発表資料)
Apache Bigtop3.2 (仮)(Open Source Conference 2022 Online/Hiroshima 発表資料)
 
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
 
[Aurora事例祭り]Amazon Aurora を使いこなすためのベストプラクティス
[Aurora事例祭り]Amazon Aurora を使いこなすためのベストプラクティス[Aurora事例祭り]Amazon Aurora を使いこなすためのベストプラクティス
[Aurora事例祭り]Amazon Aurora を使いこなすためのベストプラクティス
 

Similar to データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~

Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しようMicrosoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
Hideo Takagi
 
Data Scientist Workbench - dots0729
Data Scientist Workbench - dots0729Data Scientist Workbench - dots0729
Data Scientist Workbench - dots0729
s. kaijima
 
Deep Dive into Spark SQL with Advanced Performance Tuning
Deep Dive into Spark SQL with Advanced Performance TuningDeep Dive into Spark SQL with Advanced Performance Tuning
Deep Dive into Spark SQL with Advanced Performance Tuning
Takuya UESHIN
 
新しいソフトウェアエンジニアリングのためのパターンランゲージに向けて
新しいソフトウェアエンジニアリングのためのパターンランゲージに向けて新しいソフトウェアエンジニアリングのためのパターンランゲージに向けて
新しいソフトウェアエンジニアリングのためのパターンランゲージに向けて
Hironori Washizaki
 
Spark Summit 2014 の報告と最近の取り組みについて
Spark Summit 2014 の報告と最近の取り組みについてSpark Summit 2014 の報告と最近の取り組みについて
Spark Summit 2014 の報告と最近の取り組みについて
Recruit Technologies
 
データサイエンティスト協会 セミナー2016 第2回 2016年7月19日
データサイエンティスト協会 セミナー2016 第2回 2016年7月19日データサイエンティスト協会 セミナー2016 第2回 2016年7月19日
データサイエンティスト協会 セミナー2016 第2回 2016年7月19日
Atsushi Tsuchiya
 
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadedaCloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera Japan
 
Machine Learning Operations (MLOps): Overview, Definition, and Architecture
Machine Learning Operations (MLOps): Overview, Definition, and ArchitectureMachine Learning Operations (MLOps): Overview, Definition, and Architecture
Machine Learning Operations (MLOps): Overview, Definition, and Architecture
Takuya Minagawa
 
Deep Learning Lab - Microsoft Machine Learning meetup 2018/06/27 - 推論編
Deep Learning Lab - Microsoft Machine Learning meetup 2018/06/27 - 推論編Deep Learning Lab - Microsoft Machine Learning meetup 2018/06/27 - 推論編
Deep Learning Lab - Microsoft Machine Learning meetup 2018/06/27 - 推論編
Daiyu Hatakeyama
 
基本から学ぶ ビッグデータ / データ分析 / 機械学習 サービス群
基本から学ぶ ビッグデータ / データ分析 / 機械学習 サービス群基本から学ぶ ビッグデータ / データ分析 / 機械学習 サービス群
基本から学ぶ ビッグデータ / データ分析 / 機械学習 サービス群
Google Cloud Platform - Japan
 
[DDBJing31] 軽量仮想環境を用いてNGSデータの解析再現性を担保する
[DDBJing31] 軽量仮想環境を用いてNGSデータの解析再現性を担保する[DDBJing31] 軽量仮想環境を用いてNGSデータの解析再現性を担保する
[DDBJing31] 軽量仮想環境を用いてNGSデータの解析再現性を担保する
DNA Data Bank of Japan center
 
Qiita x Microsoft - 機械学習セミナー Microsoft AI Platform
Qiita x Microsoft - 機械学習セミナー Microsoft AI PlatformQiita x Microsoft - 機械学習セミナー Microsoft AI Platform
Qiita x Microsoft - 機械学習セミナー Microsoft AI Platform
Daiyu Hatakeyama
 
M06_DX を担うエンジニア向け Data & AI Analytics プラットフォームの最適解 ~ Azure Synapse 最新機能ご紹介 ~ ...
M06_DX を担うエンジニア向け Data & AI Analytics プラットフォームの最適解 ~ Azure Synapse 最新機能ご紹介 ~ ...M06_DX を担うエンジニア向け Data & AI Analytics プラットフォームの最適解 ~ Azure Synapse 最新機能ご紹介 ~ ...
M06_DX を担うエンジニア向け Data & AI Analytics プラットフォームの最適解 ~ Azure Synapse 最新機能ご紹介 ~ ...
日本マイクロソフト株式会社
 
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
LINE Corp.
 
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識PythonとRによるデータ分析環境の構築と機械学習によるデータ認識
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識
Katsuhiro Morishita
 
Synapse lakedatabase
Synapse lakedatabaseSynapse lakedatabase
Synapse lakedatabase
Ryoma Nagata
 
dots. 7/7 DSWBハンズオン資料
dots. 7/7 DSWBハンズオン資料dots. 7/7 DSWBハンズオン資料
dots. 7/7 DSWBハンズオン資料
s. kaijima
 
技術者として抑えておきたい Power BI アーキテクチャ
技術者として抑えておきたい Power BI アーキテクチャ技術者として抑えておきたい Power BI アーキテクチャ
技術者として抑えておきたい Power BI アーキテクチャ
Yugo Shimizu
 
Ibm data science experience
Ibm data science experienceIbm data science experience
Ibm data science experience
IBM Analytics Japan
 
AI-first Code Editor 「Cursor」の機能紹介
AI-first Code Editor 「Cursor」の機能紹介AI-first Code Editor 「Cursor」の機能紹介
AI-first Code Editor 「Cursor」の機能紹介
ssuser39314d
 

Similar to データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~ (20)

Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しようMicrosoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
 
Data Scientist Workbench - dots0729
Data Scientist Workbench - dots0729Data Scientist Workbench - dots0729
Data Scientist Workbench - dots0729
 
Deep Dive into Spark SQL with Advanced Performance Tuning
Deep Dive into Spark SQL with Advanced Performance TuningDeep Dive into Spark SQL with Advanced Performance Tuning
Deep Dive into Spark SQL with Advanced Performance Tuning
 
新しいソフトウェアエンジニアリングのためのパターンランゲージに向けて
新しいソフトウェアエンジニアリングのためのパターンランゲージに向けて新しいソフトウェアエンジニアリングのためのパターンランゲージに向けて
新しいソフトウェアエンジニアリングのためのパターンランゲージに向けて
 
Spark Summit 2014 の報告と最近の取り組みについて
Spark Summit 2014 の報告と最近の取り組みについてSpark Summit 2014 の報告と最近の取り組みについて
Spark Summit 2014 の報告と最近の取り組みについて
 
データサイエンティスト協会 セミナー2016 第2回 2016年7月19日
データサイエンティスト協会 セミナー2016 第2回 2016年7月19日データサイエンティスト協会 セミナー2016 第2回 2016年7月19日
データサイエンティスト協会 セミナー2016 第2回 2016年7月19日
 
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadedaCloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
 
Machine Learning Operations (MLOps): Overview, Definition, and Architecture
Machine Learning Operations (MLOps): Overview, Definition, and ArchitectureMachine Learning Operations (MLOps): Overview, Definition, and Architecture
Machine Learning Operations (MLOps): Overview, Definition, and Architecture
 
Deep Learning Lab - Microsoft Machine Learning meetup 2018/06/27 - 推論編
Deep Learning Lab - Microsoft Machine Learning meetup 2018/06/27 - 推論編Deep Learning Lab - Microsoft Machine Learning meetup 2018/06/27 - 推論編
Deep Learning Lab - Microsoft Machine Learning meetup 2018/06/27 - 推論編
 
基本から学ぶ ビッグデータ / データ分析 / 機械学習 サービス群
基本から学ぶ ビッグデータ / データ分析 / 機械学習 サービス群基本から学ぶ ビッグデータ / データ分析 / 機械学習 サービス群
基本から学ぶ ビッグデータ / データ分析 / 機械学習 サービス群
 
[DDBJing31] 軽量仮想環境を用いてNGSデータの解析再現性を担保する
[DDBJing31] 軽量仮想環境を用いてNGSデータの解析再現性を担保する[DDBJing31] 軽量仮想環境を用いてNGSデータの解析再現性を担保する
[DDBJing31] 軽量仮想環境を用いてNGSデータの解析再現性を担保する
 
Qiita x Microsoft - 機械学習セミナー Microsoft AI Platform
Qiita x Microsoft - 機械学習セミナー Microsoft AI PlatformQiita x Microsoft - 機械学習セミナー Microsoft AI Platform
Qiita x Microsoft - 機械学習セミナー Microsoft AI Platform
 
M06_DX を担うエンジニア向け Data & AI Analytics プラットフォームの最適解 ~ Azure Synapse 最新機能ご紹介 ~ ...
M06_DX を担うエンジニア向け Data & AI Analytics プラットフォームの最適解 ~ Azure Synapse 最新機能ご紹介 ~ ...M06_DX を担うエンジニア向け Data & AI Analytics プラットフォームの最適解 ~ Azure Synapse 最新機能ご紹介 ~ ...
M06_DX を担うエンジニア向け Data & AI Analytics プラットフォームの最適解 ~ Azure Synapse 最新機能ご紹介 ~ ...
 
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
 
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識PythonとRによるデータ分析環境の構築と機械学習によるデータ認識
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識
 
Synapse lakedatabase
Synapse lakedatabaseSynapse lakedatabase
Synapse lakedatabase
 
dots. 7/7 DSWBハンズオン資料
dots. 7/7 DSWBハンズオン資料dots. 7/7 DSWBハンズオン資料
dots. 7/7 DSWBハンズオン資料
 
技術者として抑えておきたい Power BI アーキテクチャ
技術者として抑えておきたい Power BI アーキテクチャ技術者として抑えておきたい Power BI アーキテクチャ
技術者として抑えておきたい Power BI アーキテクチャ
 
Ibm data science experience
Ibm data science experienceIbm data science experience
Ibm data science experience
 
AI-first Code Editor 「Cursor」の機能紹介
AI-first Code Editor 「Cursor」の機能紹介AI-first Code Editor 「Cursor」の機能紹介
AI-first Code Editor 「Cursor」の機能紹介
 

More from The Japan DataScientist Society

学生から見たデータサイエンティスト
学生から見たデータサイエンティスト学生から見たデータサイエンティスト
学生から見たデータサイエンティスト
The Japan DataScientist Society
 
データサイエンティストの就労意識
データサイエンティストの就労意識データサイエンティストの就労意識
データサイエンティストの就労意識
The Japan DataScientist Society
 
AI・データ利活用継続の鍵はビジネススキル
AI・データ利活用継続の鍵はビジネススキルAI・データ利活用継続の鍵はビジネススキル
AI・データ利活用継続の鍵はビジネススキル
The Japan DataScientist Society
 
コニカミノルタにおけるデータドリブンPLMの取り組み
コニカミノルタにおけるデータドリブンPLMの取り組みコニカミノルタにおけるデータドリブンPLMの取り組み
コニカミノルタにおけるデータドリブンPLMの取り組み
The Japan DataScientist Society
 
企業が求めるデータサイエンティスト人材像-データサイエンティスト 国内企業動向調査(2019)より
企業が求めるデータサイエンティスト人材像-データサイエンティスト 国内企業動向調査(2019)より企業が求めるデータサイエンティスト人材像-データサイエンティスト 国内企業動向調査(2019)より
企業が求めるデータサイエンティスト人材像-データサイエンティスト 国内企業動向調査(2019)より
The Japan DataScientist Society
 
データサイエンティストのリアル-2015年~2019年 一般(個人)会員アンケートより
データサイエンティストのリアル-2015年~2019年 一般(個人)会員アンケートよりデータサイエンティストのリアル-2015年~2019年 一般(個人)会員アンケートより
データサイエンティストのリアル-2015年~2019年 一般(個人)会員アンケートより
The Japan DataScientist Society
 
エントリー層向けセミナー#04『はじめての最適化』
エントリー層向けセミナー#04『はじめての最適化』エントリー層向けセミナー#04『はじめての最適化』
エントリー層向けセミナー#04『はじめての最適化』
The Japan DataScientist Society
 
基礎から学ぶ! インダストリアルIoTの実現に必須のセンサ計測と予知保全の動向
基礎から学ぶ! インダストリアルIoTの実現に必須のセンサ計測と予知保全の動向基礎から学ぶ! インダストリアルIoTの実現に必須のセンサ計測と予知保全の動向
基礎から学ぶ! インダストリアルIoTの実現に必須のセンサ計測と予知保全の動向
The Japan DataScientist Society
 
機械学習の先端センシングへの適用と展望
機械学習の先端センシングへの適用と展望機械学習の先端センシングへの適用と展望
機械学習の先端センシングへの適用と展望
The Japan DataScientist Society
 
『機械学習による故障予測・異常検知 事例紹介とデータ分析プロジェクト推進ポイント』
『機械学習による故障予測・異常検知 事例紹介とデータ分析プロジェクト推進ポイント』『機械学習による故障予測・異常検知 事例紹介とデータ分析プロジェクト推進ポイント』
『機械学習による故障予測・異常検知 事例紹介とデータ分析プロジェクト推進ポイント』
The Japan DataScientist Society
 
データサイエンティスト協会 会員制度説明資料
データサイエンティスト協会 会員制度説明資料データサイエンティスト協会 会員制度説明資料
データサイエンティスト協会 会員制度説明資料
The Japan DataScientist Society
 
スキルチェックリスト 2017年版
スキルチェックリスト 2017年版スキルチェックリスト 2017年版
スキルチェックリスト 2017年版
The Japan DataScientist Society
 
データサイエンティスト協会スキル委員会4thシンポジウム講演資料
データサイエンティスト協会スキル委員会4thシンポジウム講演資料データサイエンティスト協会スキル委員会4thシンポジウム講演資料
データサイエンティスト協会スキル委員会4thシンポジウム講演資料
The Japan DataScientist Society
 
コグニティブ・ファクトリーの実像とIoT時代に求められるデータ・サイエンティストとは?ー製造業の視点からー
コグニティブ・ファクトリーの実像とIoT時代に求められるデータ・サイエンティストとは?ー製造業の視点からーコグニティブ・ファクトリーの実像とIoT時代に求められるデータ・サイエンティストとは?ー製造業の視点からー
コグニティブ・ファクトリーの実像とIoT時代に求められるデータ・サイエンティストとは?ー製造業の視点からー
The Japan DataScientist Society
 
製造現場におけるAI×IoT導入と利活用~IoTによる設備のモニタリングとAIによる設備監視の高度化~
製造現場におけるAI×IoT導入と利活用~IoTによる設備のモニタリングとAIによる設備監視の高度化~製造現場におけるAI×IoT導入と利活用~IoTによる設備のモニタリングとAIによる設備監視の高度化~
製造現場におけるAI×IoT導入と利活用~IoTによる設備のモニタリングとAIによる設備監視の高度化~
The Japan DataScientist Society
 
基礎から学ぶ!インダストリアルIoTの実現に必須のセンサ計測とエッジコンピューティング
基礎から学ぶ!インダストリアルIoTの実現に必須のセンサ計測とエッジコンピューティング基礎から学ぶ!インダストリアルIoTの実現に必須のセンサ計測とエッジコンピューティング
基礎から学ぶ!インダストリアルIoTの実現に必須のセンサ計測とエッジコンピューティング
The Japan DataScientist Society
 
データサイエンスの全体像とデータサイエンティスト
データサイエンスの全体像とデータサイエンティストデータサイエンスの全体像とデータサイエンティスト
データサイエンスの全体像とデータサイエンティスト
The Japan DataScientist Society
 
分析せよ!と言われて困っているあなたへの処方箋
分析せよ!と言われて困っているあなたへの処方箋分析せよ!と言われて困っているあなたへの処方箋
分析せよ!と言われて困っているあなたへの処方箋
The Japan DataScientist Society
 
データサイエンス業務と「ツール」
データサイエンス業務と「ツール」データサイエンス業務と「ツール」
データサイエンス業務と「ツール」
The Japan DataScientist Society
 
データサイエンスの全体像
データサイエンスの全体像データサイエンスの全体像
データサイエンスの全体像
The Japan DataScientist Society
 

More from The Japan DataScientist Society (20)

学生から見たデータサイエンティスト
学生から見たデータサイエンティスト学生から見たデータサイエンティスト
学生から見たデータサイエンティスト
 
データサイエンティストの就労意識
データサイエンティストの就労意識データサイエンティストの就労意識
データサイエンティストの就労意識
 
AI・データ利活用継続の鍵はビジネススキル
AI・データ利活用継続の鍵はビジネススキルAI・データ利活用継続の鍵はビジネススキル
AI・データ利活用継続の鍵はビジネススキル
 
コニカミノルタにおけるデータドリブンPLMの取り組み
コニカミノルタにおけるデータドリブンPLMの取り組みコニカミノルタにおけるデータドリブンPLMの取り組み
コニカミノルタにおけるデータドリブンPLMの取り組み
 
企業が求めるデータサイエンティスト人材像-データサイエンティスト 国内企業動向調査(2019)より
企業が求めるデータサイエンティスト人材像-データサイエンティスト 国内企業動向調査(2019)より企業が求めるデータサイエンティスト人材像-データサイエンティスト 国内企業動向調査(2019)より
企業が求めるデータサイエンティスト人材像-データサイエンティスト 国内企業動向調査(2019)より
 
データサイエンティストのリアル-2015年~2019年 一般(個人)会員アンケートより
データサイエンティストのリアル-2015年~2019年 一般(個人)会員アンケートよりデータサイエンティストのリアル-2015年~2019年 一般(個人)会員アンケートより
データサイエンティストのリアル-2015年~2019年 一般(個人)会員アンケートより
 
エントリー層向けセミナー#04『はじめての最適化』
エントリー層向けセミナー#04『はじめての最適化』エントリー層向けセミナー#04『はじめての最適化』
エントリー層向けセミナー#04『はじめての最適化』
 
基礎から学ぶ! インダストリアルIoTの実現に必須のセンサ計測と予知保全の動向
基礎から学ぶ! インダストリアルIoTの実現に必須のセンサ計測と予知保全の動向基礎から学ぶ! インダストリアルIoTの実現に必須のセンサ計測と予知保全の動向
基礎から学ぶ! インダストリアルIoTの実現に必須のセンサ計測と予知保全の動向
 
機械学習の先端センシングへの適用と展望
機械学習の先端センシングへの適用と展望機械学習の先端センシングへの適用と展望
機械学習の先端センシングへの適用と展望
 
『機械学習による故障予測・異常検知 事例紹介とデータ分析プロジェクト推進ポイント』
『機械学習による故障予測・異常検知 事例紹介とデータ分析プロジェクト推進ポイント』『機械学習による故障予測・異常検知 事例紹介とデータ分析プロジェクト推進ポイント』
『機械学習による故障予測・異常検知 事例紹介とデータ分析プロジェクト推進ポイント』
 
データサイエンティスト協会 会員制度説明資料
データサイエンティスト協会 会員制度説明資料データサイエンティスト協会 会員制度説明資料
データサイエンティスト協会 会員制度説明資料
 
スキルチェックリスト 2017年版
スキルチェックリスト 2017年版スキルチェックリスト 2017年版
スキルチェックリスト 2017年版
 
データサイエンティスト協会スキル委員会4thシンポジウム講演資料
データサイエンティスト協会スキル委員会4thシンポジウム講演資料データサイエンティスト協会スキル委員会4thシンポジウム講演資料
データサイエンティスト協会スキル委員会4thシンポジウム講演資料
 
コグニティブ・ファクトリーの実像とIoT時代に求められるデータ・サイエンティストとは?ー製造業の視点からー
コグニティブ・ファクトリーの実像とIoT時代に求められるデータ・サイエンティストとは?ー製造業の視点からーコグニティブ・ファクトリーの実像とIoT時代に求められるデータ・サイエンティストとは?ー製造業の視点からー
コグニティブ・ファクトリーの実像とIoT時代に求められるデータ・サイエンティストとは?ー製造業の視点からー
 
製造現場におけるAI×IoT導入と利活用~IoTによる設備のモニタリングとAIによる設備監視の高度化~
製造現場におけるAI×IoT導入と利活用~IoTによる設備のモニタリングとAIによる設備監視の高度化~製造現場におけるAI×IoT導入と利活用~IoTによる設備のモニタリングとAIによる設備監視の高度化~
製造現場におけるAI×IoT導入と利活用~IoTによる設備のモニタリングとAIによる設備監視の高度化~
 
基礎から学ぶ!インダストリアルIoTの実現に必須のセンサ計測とエッジコンピューティング
基礎から学ぶ!インダストリアルIoTの実現に必須のセンサ計測とエッジコンピューティング基礎から学ぶ!インダストリアルIoTの実現に必須のセンサ計測とエッジコンピューティング
基礎から学ぶ!インダストリアルIoTの実現に必須のセンサ計測とエッジコンピューティング
 
データサイエンスの全体像とデータサイエンティスト
データサイエンスの全体像とデータサイエンティストデータサイエンスの全体像とデータサイエンティスト
データサイエンスの全体像とデータサイエンティスト
 
分析せよ!と言われて困っているあなたへの処方箋
分析せよ!と言われて困っているあなたへの処方箋分析せよ!と言われて困っているあなたへの処方箋
分析せよ!と言われて困っているあなたへの処方箋
 
データサイエンス業務と「ツール」
データサイエンス業務と「ツール」データサイエンス業務と「ツール」
データサイエンス業務と「ツール」
 
データサイエンスの全体像
データサイエンスの全体像データサイエンスの全体像
データサイエンスの全体像
 

データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~