SlideShare a Scribd company logo
Submit Search
Upload
Login
Signup
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
Report
Cloudera Japan
Follow
Country Manager at Cloudera Japan
Jul. 25, 2016
•
0 likes
•
19,383 views
1
of
21
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
Jul. 25, 2016
•
0 likes
•
19,383 views
Download Now
Download to read offline
Report
Technology
「夏真っ盛り!Spark + Python + Data Science祭り」で @chezou が発表した資料です http://connpass.com/event/34680/
Cloudera Japan
Follow
Country Manager at Cloudera Japan
Recommended
MLOpsの概要と初学者が気をつけたほうが良いこと
Sho Tanaka
971 views
•
16 slides
Ml system in_python
yusuke shibui
11.6K views
•
58 slides
型安全性入門
Akinori Abe
7.3K views
•
19 slides
PlaySQLAlchemy: SQLAlchemy入門
泰 増田
21K views
•
91 slides
Pythonによる黒魔術入門
大樹 小倉
44.2K views
•
35 slides
なぜ統計学がビジネスの 意思決定において大事なのか?
Takashi J OZAKI
13.5K views
•
41 slides
More Related Content
What's hot
ナレッジグラフとオントロジー
University of Tsukuba
5.2K views
•
46 slides
MLOpsはバズワード
Tetsutaro Watanabe
6K views
•
15 slides
情報抽出入門 〜非構造化データを構造化させる技術〜
Yuya Unno
37.8K views
•
52 slides
Data-Centric AIの紹介
Kazuyuki Miyazawa
3.7K views
•
39 slides
固有表現抽出と適用例のご紹介
Core Concept Technologies
2.6K views
•
13 slides
フロー効率性とリソース効率性について #xpjug
Itsuki Kuroda
104.7K views
•
62 slides
What's hot
(20)
ナレッジグラフとオントロジー
University of Tsukuba
•
5.2K views
MLOpsはバズワード
Tetsutaro Watanabe
•
6K views
情報抽出入門 〜非構造化データを構造化させる技術〜
Yuya Unno
•
37.8K views
Data-Centric AIの紹介
Kazuyuki Miyazawa
•
3.7K views
固有表現抽出と適用例のご紹介
Core Concept Technologies
•
2.6K views
フロー効率性とリソース効率性について #xpjug
Itsuki Kuroda
•
104.7K views
実践 Amazon Mechanical Turk ※下記の注意点をご覧ください(回答の質の悪化・報酬額の相場の変化・仕様変更)
Ayako_Hasegawa
•
24.1K views
単語の分散表現と構成性の計算モデルの発展
Naoaki Okazaki
•
35.4K views
それはYAGNIか? それとも思考停止か?
Yoshitaka Kawashima
•
29K views
Amazon SageMakerでカスタムコンテナを使った学習
西岡 賢一郎
•
668 views
DSIRNLP#1 ランキング学習ことはじめ
sleepy_yoshi
•
33.8K views
Glibc malloc internal
Motohiro KOSAKI
•
61.6K views
【DL輪読会】Toolformer: Language Models Can Teach Themselves to Use Tools
Deep Learning JP
•
1.6K views
協調フィルタリング入門
hoxo_m
•
45.7K views
学習時に使ってはいないデータの混入「リーケージを避ける」
西岡 賢一郎
•
1.7K views
SQLアンチパターン 幻の第26章「とりあえず削除フラグ」
Takuto Wada
•
147.3K views
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
RyuichiKanoh
•
25.1K views
GoによるWebアプリ開発のキホン
Akihiko Horiuchi
•
60.9K views
工学系大学4年生のための論文の読み方
ychtanaka
•
51.4K views
全力解説!Transformer
Arithmer Inc.
•
9.1K views
Similar to Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
Cloudera Japan
3K views
•
15 slides
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera Japan
3.7K views
•
28 slides
#cwt2016 Apache Kudu 構成とテーブル設計
Cloudera Japan
10.2K views
•
62 slides
Cloud Native Hadoop #cwt2016
Cloudera Japan
5.5K views
•
21 slides
Strata + Hadoop World 2014 レポート #cwt2014
Cloudera Japan
2.2K views
•
37 slides
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014
Cloudera Japan
2.7K views
•
34 slides
Similar to Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
(20)
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
Cloudera Japan
•
3K views
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera Japan
•
3.7K views
#cwt2016 Apache Kudu 構成とテーブル設計
Cloudera Japan
•
10.2K views
Cloud Native Hadoop #cwt2016
Cloudera Japan
•
5.5K views
Strata + Hadoop World 2014 レポート #cwt2014
Cloudera Japan
•
2.2K views
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014
Cloudera Japan
•
2.7K views
HBase活用事例 #hbase_ca
Cloudera Japan
•
3.2K views
祝★AWSスタンダードコンサルティングパートナーに認定されました
Core Concept Technologies
•
447 views
Hadoopの標準GUI Hueの最新情報2
Cloudera Japan
•
2K views
大規模データに対するデータサイエンスの進め方 #CWT2016
Cloudera Japan
•
19.5K views
機械学習の定番プラットフォームSparkの紹介
Cloudera Japan
•
3.4K views
Impala概要 道玄坂LT祭り 20150312 #dogenzakalt
Cloudera Japan
•
6.3K views
Databricks の始め方
Ryoma Nagata
•
369 views
Developer Summit_20140214
samemoon
•
1.8K views
ITインフラsummit 2017発表資料
Masayuki Hyugaji
•
251 views
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
Cloudera Japan
•
3K views
Hue 4.0 / Hue Meetup Tokyo #huejp
Cloudera Japan
•
3.5K views
Oracle APEXユーザー会の紹介
Nakakoshi Yuji
•
448 views
PCIコンプライアンスに向けたビジネス指針〜MasterCardの事例〜 #cwt2015
Cloudera Japan
•
1.3K views
MySQL製品概要
yoyamasaki
•
3.1K views
More from Cloudera Japan
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Cloudera Japan
3.2K views
•
67 slides
HDFS Supportaiblity Improvements
Cloudera Japan
2.6K views
•
45 slides
分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは
Cloudera Japan
3K views
•
59 slides
Apache Impalaパフォーマンスチューニング #dbts2018
Cloudera Japan
4.8K views
•
123 slides
Apache Hadoop YARNとマルチテナントにおけるリソース管理
Cloudera Japan
11.6K views
•
65 slides
HBase Across the World #LINE_DM
Cloudera Japan
1.9K views
•
45 slides
More from Cloudera Japan
(20)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Cloudera Japan
•
3.2K views
HDFS Supportaiblity Improvements
Cloudera Japan
•
2.6K views
分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは
Cloudera Japan
•
3K views
Apache Impalaパフォーマンスチューニング #dbts2018
Cloudera Japan
•
4.8K views
Apache Hadoop YARNとマルチテナントにおけるリソース管理
Cloudera Japan
•
11.6K views
HBase Across the World #LINE_DM
Cloudera Japan
•
1.9K views
Cloudera のサポートエンジニアリング #supennight
Cloudera Japan
•
3.3K views
Train, predict, serve: How to go into production your machine learning model
Cloudera Japan
•
3.9K views
Apache Kuduを使った分析システムの裏側
Cloudera Japan
•
8.5K views
Cloudera in the Cloud #CWT2017
Cloudera Japan
•
4.2K views
先行事例から学ぶ IoT / ビッグデータの始め方
Cloudera Japan
•
5.1K views
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
Cloudera Japan
•
5.1K views
How to go into production your machine learning models? #CWT2017
Cloudera Japan
•
4.6K views
Apache Kudu - Updatable Analytical Storage #rakutentech
Cloudera Japan
•
7.5K views
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Cloudera Japan
•
23K views
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloudera Japan
•
3.1K views
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
Cloudera Japan
•
2.8K views
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
Cloudera Japan
•
9.8K views
基調講演: 「データエコシステムへの挑戦」 #cwt2015
Cloudera Japan
•
1.4K views
基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015
Cloudera Japan
•
1.2K views
Recently uploaded
ヒアラブルデバイスにおける音漏れ信号を用いた空中ジェスチャ認識
sugiuralab
83 views
•
1 slide
2023情報処理学会関西支部大会-G12.pdf
KoseiShimoda1
113 views
•
11 slides
拡散する画像生成.pdf
NTTDOCOMO-ServiceInnovation
226 views
•
38 slides
インフラチームとCCoEの関係.pptx
ssuser5c7ee4
72 views
•
18 slides
遠征ドルヲタのための便利サイトを作ってみた
Kenta Fujimoto
91 views
•
24 slides
骨抜きアジャイルの骨を生み出す 〜私(スクラムマスター)のXP学習記録〜(XP祭り2023 発表資料)
NTT DATA Technology & Innovation
321 views
•
44 slides
Recently uploaded
(13)
ヒアラブルデバイスにおける音漏れ信号を用いた空中ジェスチャ認識
sugiuralab
•
83 views
2023情報処理学会関西支部大会-G12.pdf
KoseiShimoda1
•
113 views
拡散する画像生成.pdf
NTTDOCOMO-ServiceInnovation
•
226 views
インフラチームとCCoEの関係.pptx
ssuser5c7ee4
•
72 views
遠征ドルヲタのための便利サイトを作ってみた
Kenta Fujimoto
•
91 views
骨抜きアジャイルの骨を生み出す 〜私(スクラムマスター)のXP学習記録〜(XP祭り2023 発表資料)
NTT DATA Technology & Innovation
•
321 views
磁石内臓イヤリングによる磁力変化を利用したジェスチャ識別
sugiuralab
•
90 views
画像生成AIの問題点
iPride Co., Ltd.
•
127 views
CatBoost on GPU のひみつ
Takuji Tahara
•
982 views
GraphQLはどんな時に使うか
Yutaka Tachibana
•
137 views
MLOps Course Slides_JP(配布用).pdf
Yuya Yamamoto
•
245 views
指側面を入力インタフェース化するリング型デバイス
sugiuralab
•
5 views
PostgreSQLのバグとの付き合い方 ~バグの調査からコミュニティへの報告、修正パッチ投稿まで~(Open Source Conference 202...
NTT DATA Technology & Innovation
•
32 views
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
1.
1© Cloudera, Inc.
All rights reserved. Ibis: すごいpandas ⼤規模データ分析もらっくらく 有賀康顕, Cloudera 2016/7/25 Spark + Python + Data Science祭り
2.
2© Cloudera, Inc.
All rights reserved. ⾃⼰紹介 • 有賀 康顕(ありが みちあき) • セールスエンジニア • お客様がCloudera製品を活⽤できるように⼀緒に議論するのが主な仕事 • メーカーの研究所で⾃然⾔語処理/機械学習の研究開発の後、 クックパッドで機械学習を活⽤したプロダクト開発を⾏ってきた email: ariga@cloudera.com chezou
3.
3© Cloudera, Inc.
All rights reserved. http://chezou.hatenablog.com/entry/2016/05/05/222046
4.
4© Cloudera, Inc.
All rights reserved. http://rebuild.fm/145/
5.
5© Cloudera, Inc.
All rights reserved. ClouderaとData Science • Clouderaとは? • Hadoop/Sparkを中⼼とした ビッグデータ基盤を提供 • 社内にData Science teamを持つ • 皆さんもお世話になってるかも • 「Sparkによる実践データ解析」の 著者陣は現/元Cloudera社員 https://www.oreilly.co.jp/books /9784873117508/ Director of Data Science Sean Owen
6.
6© Cloudera, Inc.
All rights reserved. Jupyter notebook使ってますか?
7.
7© Cloudera, Inc.
All rights reserved. http://techlife.cookpad.com/entry/write-once-share-anywhare
8.
8© Cloudera, Inc.
All rights reserved. Jupyter notebookを⽀えるpandas • PythonでDataFrameを扱うライブラリ • 表形式のデータをプログラマブルに処理できる • グラフ描画との連携が容易 • 作者はClouderaのエンジニア Creator of pandas Wes McKinney http://www.oreilly.co.jp/books/ 9784873116556/
9.
9© Cloudera, Inc.
All rights reserved. pandasの例 http://goo.gl/vTh3mJ より抜粋 SQLを使わずにフィルター、集計ができる
10.
10© Cloudera, Inc.
All rights reserved. pandasの課題 • データを全部メモリに載せてしまう • ⼤規模データに対しては、SQLでデータを絞ってから処理を⾏うことに なる
11.
11© Cloudera, Inc.
All rights reserved. pandasの課題 • データを全部メモリに載せてしまう • ⼤規模データに対しては、SQLでデータを絞ってから処理を⾏うことに なる データの抽出の試⾏錯誤こそ プログラマブルにやりたかったのに・・・
12.
12© Cloudera, Inc.
All rights reserved. pandasをカバーするIbis
13.
13© Cloudera, Inc.
All rights reserved. Ibis • PythonとBig Dataをつなぐライブラリ • ⼤規模なデータに対しても pandas like に対話的な処理を可能にする • pandasとSQLエンジンを橋渡しすることで実現 • Impala / SQLite / PostgreSQL に対応 • Redshift / Presto / Vertica にも今後対応予定
14.
14© Cloudera, Inc.
All rights reserved. CSV Big Data Before Ibis プログラマブル メモリに乗らないので SQLで絞込 pandas Impala Redshift Presto pandas
15.
15© Cloudera, Inc.
All rights reserved. After Ibis プログラマブル pandas Ibis Impala Big Data CSVpandas プログラマブル Redshift, Prestoなどにも 今後対応予定
16.
16© Cloudera, Inc.
All rights reserved. Impalaとは? • Apache Impala (incubating) • ビッグデータに特化した • インタラクティブな • 分析SQL • 15TBに対して4.4秒で処理できる!
17.
17© Cloudera, Inc.
All rights reserved. Demo • Ibis を使って Movie Lens 20M (2千万⾏)のデータを可視化 • scikit-learn で好みの映画を分類するモデルを学習 • バックエンドは Impala • impaladの動くサーバの21050ポート/NNの50070ポートを開ける • 今⽇の notebook • https://github.com/chezou/ibis-demo/
18.
18© Cloudera, Inc.
All rights reserved. Demo pip install ibis-framework よりはじめよう
19.
19© Cloudera, Inc.
All rights reserved. PySparkとはどう違うの? • 設定が簡単 • DBのコネクションの設定 + port開放だけ • 速い • 7倍速ければ7倍試⾏錯誤ができる • 速度の変化は質の変化を⽣み出す • データ規模に応じて使い分け • ⼤規模データ全体の機械学習ならSpark + MLlib • ターゲティングしたデータの機械学習にはIbis + scikit-learn • NetflixはグローバルのモデルはSpark、国・地域はRと使い分け http://goo.gl/UA8PXzより引⽤(2016/02時点)
20.
20© Cloudera, Inc.
All rights reserved. Further more • Redshift, Presto, Vertica, Spark SQLは今後対応予定 • Redshift は array_agg(), substr() など PostgreSQLと関数名が異なる部分でうまくいかない • https://github.com/databricks/spark-sklearn • Sparkを使って並列でパラメータチューニングできる • ⼀部アルゴリズムはSpark MLlib向けにモデルを変換可能
21.
21© Cloudera, Inc.
All rights reserved. Letʼs pip install ibis-framework ariga@cloudera.com