SlideShare a Scribd company logo
1 of 7
Pandas / Dask / Vaex
はんなりPython #23 LT
Hideyuki Ogawa
Who ?
• はんなりPython 運営
• PyConJP 2019 スピーカー
• PyCon China 北京 スピーカー
• 合同会社 長目 Founder & CEO
Pandas
• Pythonのデータ分析において欠かせないツール
• データの前処理、可視化などのカギとなる
• しかしいろいろ問題あり
• Apache Arrow and the 10 things I hate about Pandas
• https://wesmckinney.com/blog/apache-arrow-pandas-
internals/
• メモリたくさん食うし、1個のコアしか使えない
Dask
• 並列処理でガガっと
• Numpy、Pandas、scikit learnの並列処理版もある
• タスクのスケジューリングなどもしてくれる
• 一台のコンピュータだけでなく、たくさんのコンピュータで並
列処理してくれる
• すげー
• だがしかし・・・
Vaex
• Library for Lazy Out-of-Core DataFrames
• 巨大な表形式のデータセット向けデータ探索ツール
• 計算、可視化
• 遅延評価
• メモリを効率的に使用
Talk is cheap, Show me the code!
参考資料
• Vaex Documents: https://vaex.readthedocs.io/en/latest/
• Vaex: A DataFrame with super strings https://towardsdatascience.com/vaex-a-dataframe-
with-super-strings-789b92e8d861
• Vaex 入門: https://blog.ikedaosushi.com/entry/2019/04/14/173307
• 遅延評価(IBM): https://www.ibm.com/developerworks/jp/linux/library/l-lazyprog.html
• Dask Documents: https://dask.org/
• Dask: https://docs.google.com/presentation/d/e/2PACX-
1vSTH2kAR0DCR0nw8pFBe5kuYbOk3inZ9cQfZbzOIRjyzQoVaOoMfI2JONGBz-
qsvG_P6g050ddHxSXT/pub?start=false&loop=false&delayms=60000&slide=id.p
• Dask Gateway: http://jcrist.github.io/talks/pydata_austin_2019/slides.html#1
• Dask: Pythonでの並列処理:
https://drive.google.com/file/d/1GDMjbggAv4gMekT2IBEDNSU4kU0W69Bu/view
• Pandas Documents: https://pandas.pydata.org/index.html
• Apache Arrow and the “10 things I hate about pandas”:
https://wesmckinney.com/blog/apache-arrow-pandas-internals/
• Pandas Road Map: https://pandas.pydata.org/pandas-docs/stable/development/roadmap.html

More Related Content

What's hot

強化学習初心者が強化学習でニューラルネットワークの設計を自動化してみたい
強化学習初心者が強化学習でニューラルネットワークの設計を自動化してみたい強化学習初心者が強化学習でニューラルネットワークの設計を自動化してみたい
強化学習初心者が強化学習でニューラルネットワークの設計を自動化してみたいTakuma Wakamori
 
Elasticsearch 2014/04/21 勉強会資料 「Couchbase と Elasticsearch が手を結んだら」
Elasticsearch 2014/04/21 勉強会資料 「Couchbase と Elasticsearch が手を結んだら」Elasticsearch 2014/04/21 勉強会資料 「Couchbase と Elasticsearch が手を結んだら」
Elasticsearch 2014/04/21 勉強会資料 「Couchbase と Elasticsearch が手を結んだら」Masahiro Satake
 
Python と Xpath で ウェブからデータをあつめる
Python と Xpath で ウェブからデータをあつめるPython と Xpath で ウェブからデータをあつめる
Python と Xpath で ウェブからデータをあつめるShuhei Iitsuka
 
Cache-Oblivious データ構造入門 @DSIRNLP#5
Cache-Oblivious データ構造入門 @DSIRNLP#5Cache-Oblivious データ構造入門 @DSIRNLP#5
Cache-Oblivious データ構造入門 @DSIRNLP#5Takuya Akiba
 
Hadoop Source Code Reading #17
Hadoop Source Code Reading #17Hadoop Source Code Reading #17
Hadoop Source Code Reading #17Shingo Furuyama
 
メモリアロケーションからみた拡張ライブラリに大切なこと
メモリアロケーションからみた拡張ライブラリに大切なことメモリアロケーションからみた拡張ライブラリに大切なこと
メモリアロケーションからみた拡張ライブラリに大切なことMasaya TARUI
 
Web技術勉強会 20120609
Web技術勉強会 20120609Web技術勉強会 20120609
Web技術勉強会 20120609龍一 田中
 
グラフデータベース入門
グラフデータベース入門グラフデータベース入門
グラフデータベース入門Masaya Dake
 
SwiftのWebフレームワークVaporを触ってみる
SwiftのWebフレームワークVaporを触ってみるSwiftのWebフレームワークVaporを触ってみる
SwiftのWebフレームワークVaporを触ってみるYuya Oka
 
Electron + Mithril Async File Search
Electron + Mithril Async File SearchElectron + Mithril Async File Search
Electron + Mithril Async File Search和晃 西澤
 

What's hot (10)

強化学習初心者が強化学習でニューラルネットワークの設計を自動化してみたい
強化学習初心者が強化学習でニューラルネットワークの設計を自動化してみたい強化学習初心者が強化学習でニューラルネットワークの設計を自動化してみたい
強化学習初心者が強化学習でニューラルネットワークの設計を自動化してみたい
 
Elasticsearch 2014/04/21 勉強会資料 「Couchbase と Elasticsearch が手を結んだら」
Elasticsearch 2014/04/21 勉強会資料 「Couchbase と Elasticsearch が手を結んだら」Elasticsearch 2014/04/21 勉強会資料 「Couchbase と Elasticsearch が手を結んだら」
Elasticsearch 2014/04/21 勉強会資料 「Couchbase と Elasticsearch が手を結んだら」
 
Python と Xpath で ウェブからデータをあつめる
Python と Xpath で ウェブからデータをあつめるPython と Xpath で ウェブからデータをあつめる
Python と Xpath で ウェブからデータをあつめる
 
Cache-Oblivious データ構造入門 @DSIRNLP#5
Cache-Oblivious データ構造入門 @DSIRNLP#5Cache-Oblivious データ構造入門 @DSIRNLP#5
Cache-Oblivious データ構造入門 @DSIRNLP#5
 
Hadoop Source Code Reading #17
Hadoop Source Code Reading #17Hadoop Source Code Reading #17
Hadoop Source Code Reading #17
 
メモリアロケーションからみた拡張ライブラリに大切なこと
メモリアロケーションからみた拡張ライブラリに大切なことメモリアロケーションからみた拡張ライブラリに大切なこと
メモリアロケーションからみた拡張ライブラリに大切なこと
 
Web技術勉強会 20120609
Web技術勉強会 20120609Web技術勉強会 20120609
Web技術勉強会 20120609
 
グラフデータベース入門
グラフデータベース入門グラフデータベース入門
グラフデータベース入門
 
SwiftのWebフレームワークVaporを触ってみる
SwiftのWebフレームワークVaporを触ってみるSwiftのWebフレームワークVaporを触ってみる
SwiftのWebフレームワークVaporを触ってみる
 
Electron + Mithril Async File Search
Electron + Mithril Async File SearchElectron + Mithril Async File Search
Electron + Mithril Async File Search
 

Similar to Pandas / Dask / Vaex

採用LT「まだお祈りデプロイで消耗してるの?」
採用LT「まだお祈りデプロイで消耗してるの?」採用LT「まだお祈りデプロイで消耗してるの?」
採用LT「まだお祈りデプロイで消耗してるの?」Takayuki Fukumoto
 
High performance python computing for data science
High performance python computing for data scienceHigh performance python computing for data science
High performance python computing for data scienceTakami Sato
 
TOPPERS as an IoT OS(kernel)
TOPPERS as an IoT OS(kernel)TOPPERS as an IoT OS(kernel)
TOPPERS as an IoT OS(kernel)Kiyoshi Ogawa
 
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識PythonとRによるデータ分析環境の構築と機械学習によるデータ認識
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識Katsuhiro Morishita
 
20161027 hadoop summit Generating Recommendations at Amazon Scale with Apach...
20161027 hadoop summit  Generating Recommendations at Amazon Scale with Apach...20161027 hadoop summit  Generating Recommendations at Amazon Scale with Apach...
20161027 hadoop summit Generating Recommendations at Amazon Scale with Apach...Amazon Web Services Japan
 
受託開発でAnsibleを導入した話
受託開発でAnsibleを導入した話受託開発でAnsibleを導入した話
受託開発でAnsibleを導入した話Yuto Matsukubo
 
【デブサミ福岡B5】コードレビューの進め方~全員で行う品質の維持~
【デブサミ福岡B5】コードレビューの進め方~全員で行う品質の維持~【デブサミ福岡B5】コードレビューの進め方~全員で行う品質の維持~
【デブサミ福岡B5】コードレビューの進め方~全員で行う品質の維持~Developers Summit
 
Cloudn PaaSチームのChatOps実践
Cloudn PaaSチームのChatOps実践Cloudn PaaSチームのChatOps実践
Cloudn PaaSチームのChatOps実践Kazuto Kusama
 
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識 第3版
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識 第3版PythonとRによるデータ分析環境の構築と機械学習によるデータ認識 第3版
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識 第3版Katsuhiro Morishita
 
211120 他人の書いたPythonスクリプトをステップ実行で理解する
211120 他人の書いたPythonスクリプトをステップ実行で理解する211120 他人の書いたPythonスクリプトをステップ実行で理解する
211120 他人の書いたPythonスクリプトをステップ実行で理解するTakuya Nishimoto
 
S03 t1 python_learningdiary#3
S03 t1 python_learningdiary#3S03 t1 python_learningdiary#3
S03 t1 python_learningdiary#3Takeshi Akutsu
 
Dokkuの活用と内部構造
Dokkuの活用と内部構造Dokkuの活用と内部構造
Dokkuの活用と内部構造修平 富田
 
足を地に着け落ち着いて考える
足を地に着け落ち着いて考える足を地に着け落ち着いて考える
足を地に着け落ち着いて考えるRyuji Tamagawa
 
鹿駆動勉強会 青江発表資料
鹿駆動勉強会 青江発表資料鹿駆動勉強会 青江発表資料
鹿駆動勉強会 青江発表資料Takashi Aoe
 
EmbulkとDigdagとデータ分析基盤と
EmbulkとDigdagとデータ分析基盤とEmbulkとDigdagとデータ分析基盤と
EmbulkとDigdagとデータ分析基盤とToru Takahashi
 
EmbulkとDigdagとデータ分析基盤と
EmbulkとDigdagとデータ分析基盤とEmbulkとDigdagとデータ分析基盤と
EmbulkとDigdagとデータ分析基盤とToru Takahashi
 

Similar to Pandas / Dask / Vaex (20)

採用LT「まだお祈りデプロイで消耗してるの?」
採用LT「まだお祈りデプロイで消耗してるの?」採用LT「まだお祈りデプロイで消耗してるの?」
採用LT「まだお祈りデプロイで消耗してるの?」
 
High performance python computing for data science
High performance python computing for data scienceHigh performance python computing for data science
High performance python computing for data science
 
Hadoop事始め
Hadoop事始めHadoop事始め
Hadoop事始め
 
TOPPERS as an IoT OS(kernel)
TOPPERS as an IoT OS(kernel)TOPPERS as an IoT OS(kernel)
TOPPERS as an IoT OS(kernel)
 
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識PythonとRによるデータ分析環境の構築と機械学習によるデータ認識
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識
 
20161027 hadoop summit Generating Recommendations at Amazon Scale with Apach...
20161027 hadoop summit  Generating Recommendations at Amazon Scale with Apach...20161027 hadoop summit  Generating Recommendations at Amazon Scale with Apach...
20161027 hadoop summit Generating Recommendations at Amazon Scale with Apach...
 
受託開発でAnsibleを導入した話
受託開発でAnsibleを導入した話受託開発でAnsibleを導入した話
受託開発でAnsibleを導入した話
 
Apache Sparkの紹介
Apache Sparkの紹介Apache Sparkの紹介
Apache Sparkの紹介
 
【デブサミ福岡B5】コードレビューの進め方~全員で行う品質の維持~
【デブサミ福岡B5】コードレビューの進め方~全員で行う品質の維持~【デブサミ福岡B5】コードレビューの進め方~全員で行う品質の維持~
【デブサミ福岡B5】コードレビューの進め方~全員で行う品質の維持~
 
Cloudn PaaSチームのChatOps実践
Cloudn PaaSチームのChatOps実践Cloudn PaaSチームのChatOps実践
Cloudn PaaSチームのChatOps実践
 
Hadoopとは
HadoopとはHadoopとは
Hadoopとは
 
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識 第3版
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識 第3版PythonとRによるデータ分析環境の構築と機械学習によるデータ認識 第3版
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識 第3版
 
211120 他人の書いたPythonスクリプトをステップ実行で理解する
211120 他人の書いたPythonスクリプトをステップ実行で理解する211120 他人の書いたPythonスクリプトをステップ実行で理解する
211120 他人の書いたPythonスクリプトをステップ実行で理解する
 
S03 t1 python_learningdiary#3
S03 t1 python_learningdiary#3S03 t1 python_learningdiary#3
S03 t1 python_learningdiary#3
 
Dokkuの活用と内部構造
Dokkuの活用と内部構造Dokkuの活用と内部構造
Dokkuの活用と内部構造
 
足を地に着け落ち着いて考える
足を地に着け落ち着いて考える足を地に着け落ち着いて考える
足を地に着け落ち着いて考える
 
鹿駆動勉強会 青江発表資料
鹿駆動勉強会 青江発表資料鹿駆動勉強会 青江発表資料
鹿駆動勉強会 青江発表資料
 
EmbulkとDigdagとデータ分析基盤と
EmbulkとDigdagとデータ分析基盤とEmbulkとDigdagとデータ分析基盤と
EmbulkとDigdagとデータ分析基盤と
 
EmbulkとDigdagとデータ分析基盤と
EmbulkとDigdagとデータ分析基盤とEmbulkとDigdagとデータ分析基盤と
EmbulkとDigdagとデータ分析基盤と
 
私とOSSの25年
私とOSSの25年私とOSSの25年
私とOSSの25年
 

More from hide ogawa

アラフォーでプログラミングをはじめて思ったこと
アラフォーでプログラミングをはじめて思ったことアラフォーでプログラミングをはじめて思ったこと
アラフォーでプログラミングをはじめて思ったことhide ogawa
 
Metamaskでアカウントを作って、nftを投げ合おう
Metamaskでアカウントを作って、nftを投げ合おうMetamaskでアカウントを作って、nftを投げ合おう
Metamaskでアカウントを作って、nftを投げ合おうhide ogawa
 
位置データ活用 経済センサスのデータを使ってみよう
位置データ活用 経済センサスのデータを使ってみよう位置データ活用 経済センサスのデータを使ってみよう
位置データ活用 経済センサスのデータを使ってみようhide ogawa
 
KKD(勘・経験・度胸)に 位置データを加えよう!
KKD(勘・経験・度胸)に 位置データを加えよう!KKD(勘・経験・度胸)に 位置データを加えよう!
KKD(勘・経験・度胸)に 位置データを加えよう!hide ogawa
 
国勢調査をマーケティングに活かそう!
国勢調査をマーケティングに活かそう! 国勢調査をマーケティングに活かそう!
国勢調査をマーケティングに活かそう! hide ogawa
 
位置データもPythonで!!!
位置データもPythonで!!!位置データもPythonで!!!
位置データもPythonで!!!hide ogawa
 
なぜデータをインタラクティブに可視化したいのか?
なぜデータをインタラクティブに可視化したいのか?なぜデータをインタラクティブに可視化したいのか?
なぜデータをインタラクティブに可視化したいのか?hide ogawa
 
Pythonインタラクティブ・データビジュアライゼーション入門という本を共著で書きました
Pythonインタラクティブ・データビジュアライゼーション入門という本を共著で書きましたPythonインタラクティブ・データビジュアライゼーション入門という本を共著で書きました
Pythonインタラクティブ・データビジュアライゼーション入門という本を共著で書きましたhide ogawa
 
Unagipy pysuruga202010
Unagipy pysuruga202010Unagipy pysuruga202010
Unagipy pysuruga202010hide ogawa
 
中小企業のDXはオープンデータとPythonで!
中小企業のDXはオープンデータとPythonで!中小企業のDXはオープンデータとPythonで!
中小企業のDXはオープンデータとPythonで!hide ogawa
 

More from hide ogawa (11)

アラフォーでプログラミングをはじめて思ったこと
アラフォーでプログラミングをはじめて思ったことアラフォーでプログラミングをはじめて思ったこと
アラフォーでプログラミングをはじめて思ったこと
 
Metamaskでアカウントを作って、nftを投げ合おう
Metamaskでアカウントを作って、nftを投げ合おうMetamaskでアカウントを作って、nftを投げ合おう
Metamaskでアカウントを作って、nftを投げ合おう
 
位置データ活用 経済センサスのデータを使ってみよう
位置データ活用 経済センサスのデータを使ってみよう位置データ活用 経済センサスのデータを使ってみよう
位置データ活用 経済センサスのデータを使ってみよう
 
KKD(勘・経験・度胸)に 位置データを加えよう!
KKD(勘・経験・度胸)に 位置データを加えよう!KKD(勘・経験・度胸)に 位置データを加えよう!
KKD(勘・経験・度胸)に 位置データを加えよう!
 
国勢調査をマーケティングに活かそう!
国勢調査をマーケティングに活かそう! 国勢調査をマーケティングに活かそう!
国勢調査をマーケティングに活かそう!
 
位置データもPythonで!!!
位置データもPythonで!!!位置データもPythonで!!!
位置データもPythonで!!!
 
なぜデータをインタラクティブに可視化したいのか?
なぜデータをインタラクティブに可視化したいのか?なぜデータをインタラクティブに可視化したいのか?
なぜデータをインタラクティブに可視化したいのか?
 
Pythonインタラクティブ・データビジュアライゼーション入門という本を共著で書きました
Pythonインタラクティブ・データビジュアライゼーション入門という本を共著で書きましたPythonインタラクティブ・データビジュアライゼーション入門という本を共著で書きました
Pythonインタラクティブ・データビジュアライゼーション入門という本を共著で書きました
 
Ha llo dx
Ha llo dxHa llo dx
Ha llo dx
 
Unagipy pysuruga202010
Unagipy pysuruga202010Unagipy pysuruga202010
Unagipy pysuruga202010
 
中小企業のDXはオープンデータとPythonで!
中小企業のDXはオープンデータとPythonで!中小企業のDXはオープンデータとPythonで!
中小企業のDXはオープンデータとPythonで!
 

Pandas / Dask / Vaex

  • 1. Pandas / Dask / Vaex はんなりPython #23 LT Hideyuki Ogawa
  • 2. Who ? • はんなりPython 運営 • PyConJP 2019 スピーカー • PyCon China 北京 スピーカー • 合同会社 長目 Founder & CEO
  • 3. Pandas • Pythonのデータ分析において欠かせないツール • データの前処理、可視化などのカギとなる • しかしいろいろ問題あり • Apache Arrow and the 10 things I hate about Pandas • https://wesmckinney.com/blog/apache-arrow-pandas- internals/ • メモリたくさん食うし、1個のコアしか使えない
  • 4. Dask • 並列処理でガガっと • Numpy、Pandas、scikit learnの並列処理版もある • タスクのスケジューリングなどもしてくれる • 一台のコンピュータだけでなく、たくさんのコンピュータで並 列処理してくれる • すげー • だがしかし・・・
  • 5. Vaex • Library for Lazy Out-of-Core DataFrames • 巨大な表形式のデータセット向けデータ探索ツール • 計算、可視化 • 遅延評価 • メモリを効率的に使用
  • 6. Talk is cheap, Show me the code!
  • 7. 参考資料 • Vaex Documents: https://vaex.readthedocs.io/en/latest/ • Vaex: A DataFrame with super strings https://towardsdatascience.com/vaex-a-dataframe- with-super-strings-789b92e8d861 • Vaex 入門: https://blog.ikedaosushi.com/entry/2019/04/14/173307 • 遅延評価(IBM): https://www.ibm.com/developerworks/jp/linux/library/l-lazyprog.html • Dask Documents: https://dask.org/ • Dask: https://docs.google.com/presentation/d/e/2PACX- 1vSTH2kAR0DCR0nw8pFBe5kuYbOk3inZ9cQfZbzOIRjyzQoVaOoMfI2JONGBz- qsvG_P6g050ddHxSXT/pub?start=false&loop=false&delayms=60000&slide=id.p • Dask Gateway: http://jcrist.github.io/talks/pydata_austin_2019/slides.html#1 • Dask: Pythonでの並列処理: https://drive.google.com/file/d/1GDMjbggAv4gMekT2IBEDNSU4kU0W69Bu/view • Pandas Documents: https://pandas.pydata.org/index.html • Apache Arrow and the “10 things I hate about pandas”: https://wesmckinney.com/blog/apache-arrow-pandas-internals/ • Pandas Road Map: https://pandas.pydata.org/pandas-docs/stable/development/roadmap.html