Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Pyladies Tokyo meet up #6

PyLadies Tokyo meetup #6 「Python + Data = PyData ! PyLadies Tokyo データ祭!」 (http://pyladies-tokyo.connpass.com/event/15114/) の発表で用いた資料です。

  • Be the first to comment

Pyladies Tokyo meet up #6

  1. 1. PyData基本のキ + 解析をするにあたって覚えておくと役立つ いくつかのこと かたやなぎ のぶこ PyLadies Tokyo meetup #6 Python + Data = PyData ! PyLadies Tokyo データ祭! 2015年6月20日(土)
  2. 2. 自己紹介 @nobolis @nobolispy かたやなぎ のぶこ 農水省系研究機関 研究員(ポスドク)
  3. 3. 研究テーマ 生態系の物質循環を予測するモデルを用いた 土壌由来温室効果ガスの定量 土壌表面からのガスを測定 モデルを使って排出量推定 3 大学院生時代 現在
  4. 4. 今日の話題に入る前に質問です。
  5. 5. プログラミング初心者?
  6. 6. データ解析はあまりしたことがない?
  7. 7. 今日の話題 1. PyDataについての基本的な話 自分が始めたときにこまったこと 2. 解析をするにあたって覚えておくと役立つこと
  8. 8. 1. PyDataについての基本的な話
  9. 9. PyData = Python + Data 私の用途: 1. データ処理 – ファイルの分割、欠測値補完、値抽出、etc. 2. 数値計算 – 統計解析、分析、 etc.
  10. 10. PyDataの基本ツール Python 2.x系/3.x系 お好きな方を。 1. NumPy 多次元配列が扱える。 2. Pandas DataFrameが便利。データベースっぽい使い方ができる。 3. matplotlib データの可視化。グラフ描きツール。 4. IPython ・Ipython notebook・Jupiter 対話型シェルと ブラウザでの操作ツール 5. Sympy 記号計算。方程式を解いたりできる。 6. Scikit-Learn 機械学習 7. SciPy Numpyより高度な科学計算(特殊関数、積分、統計、etc.)
  11. 11. PyLadies Tokyo #3 Python for Beginners
  12. 12. プログラミング初心者・Python初心者 だった私がPythonでデータ解析を 始めようと思ったときに困ったこと
  13. 13. データ解析ツールがいろいろあることはわかったけど、 どうやったら使えるんだろう???
  14. 14. パッケージを入手してimport
  15. 15. ipython notebook demo Import宣言 https://github.com/nobolis/PyLadiesTokyo_6_demo/blob /master/PyLadies6_demo_v1.ipynb
  16. 16. パッケージとライブラリ • パッケージ – サードパーティ製パッケージ • Numpy, Scipy, etc. – Pythonとは別に入手が必要 • ライブラリ – Python標準ライブラリ – Pythonにもとから同梱されているライブラリ • 使うときはいずれもimport宣言して利用 – 組み込み関数・定数・型を除く 参考: Pythonエンジニア養成読本
  17. 17. パッケージの入手(インストール) Mac・Linux pip install numpy pip install scipy pip install pandas pip install scikit-learn pip install matplotlib pip install ipython # ipython notebookに必要な異存ライブラリ pip install pyzmq pip install jinja2 pip install tornado
  18. 18. パッケージの入手(インストール) Windows  pipでインストールしようとするとエラーが出るパッケージあり  非公式ビルド版/ディストリビューションがおすすめ 非公式ビルド版 Unofficial Windows Binaries for Python Extension Packages ディストリビューション Anaconda, Enthought Canopy, Python(x, y), WnPython, Pyzo どうしたらいい?
  19. 19. 2. 解析をするにあたって 覚えておくと役立つこと
  20. 20. 解析をするにあたって覚えておくと 役に立つかもしれない5つのこと 1. データには背景がある。 2. データの俯瞰が大切。 3. 統計値は必ずしも正しくない。 4. 数式はこわくない。 5. 解析は楽しい。
  21. 21. 2.1 データには背景がある。 2. 解析にあたって覚えておくと役立つこと
  22. 22. 大学院生時代 現在 データを集める人 集められたデータを 解析する人 土壌表面からのガスを測定 モデルを使って排出量推定
  23. 23. データを集める仕事と集められたデータを解析することの利点 • データがどうやってとられたのかを知っているため、 データの確からしさについての勘が働く – はずれ値は • ほんとうに現象としてあった? • 計算時のミス? • 分析時のミス? • 観測の作業ミス?
  24. 24. 覚えておくと役立つこと1 データには背景がある。 • 可能な場合は解析する前にデータがどのようにと られたか確認しよう • 確認が出来ない場合は現場の状況をできるだけ 想像してみよう 意味のない 解析の回避 適切な 欠損値補完
  25. 25. 2.2 データの俯瞰が大切。 2. 解析にあたって覚えておくと役立つこと
  26. 26. データを集める仕事と集められたデータを解析することの欠点 現場での詳細なプロセス・依存関係について知っ ているため、詳細な点に気をとられてしまう 俯瞰的な視点を持たずに解析をおこなうと、整 合性のとれない解析をおこなってしまう
  27. 27. 覚えておくと役立つこと2 データの俯瞰が大切。 部分を意識しつつ、全体のことを忘れない!
  28. 28. データを俯瞰する いきなり解析しない まずざっくりした絵をかいてみる 分布型・データの傾向を確認 外れ値をチェックする グループ化せずに値を見る etc.
  29. 29. ipython notebook demo データの俯瞰 https://github.com/nobolis/PyLadiesTokyo_6_demo/blob /master/PyLadies6_demo_v1.ipynb
  30. 30. 2.3 統計値は必ずしも正しくない。 2. 解析にあたって覚えておくと役立つこと
  31. 31. 覚えておくと役立つこと3 統計値は必ずしも正しくない。 解析をすれば統計値自体は得られるが、適用した 手法が不適切ならば、その値が正しいとはいえない。
  32. 32. ipython notebook demo 線形回帰 https://github.com/nobolis/PyLadiesTokyo_6_demo/blob /master/PyLadies6_demo_v1.ipynb
  33. 33. 2.4 数式はこわくない。 2. 解析にあたって覚えておくと役立つこと
  34. 34. 覚えておくと役立つこと4 数式はこわくない! • 数式は簡潔に変数間の関係を表すもの • 慣れれば文字よりも速やかに書いてあることが理 解できるようになる • 見た瞬間に「ぎゃーーー」となっても、次の瞬間に は冷静さを取り戻して一つ一つ理解していこう
  35. 35. ipython notebook demo 数式 https://github.com/nobolis/PyLadiesTokyo_6_demo/blob /master/PyLadies6_demo_v1.ipynb
  36. 36. 2.5 解析は楽しい 2. 解析にあたって覚えておくと役立つこと
  37. 37. 覚えておくと役立つこと4 解析は楽しい • 練習ばかりしてても楽しくない • 自分が知りたいと思うデータの解析をすれば、 コードを学ぶのも楽しくなる • 仕事で解析するならばそのデータに興味を持って 解析しよう • 仕事ではないならば、自分の知りたいことを知る ために解析しよう
  38. 38. 楽しいデータ解析
  39. 39. 気象庁 各種データ・資料 http://www.jma.go.jp/jma/menu/menureport.html
  40. 40. 国連食糧農業機関 FAO の統計量データベース http://faostat3.fao.org/home/E
  41. 41. 政府統計の総合窓口 e-Stat http://www.e-stat.go.jp/SG1/estat/eStatTopPortal.do
  42. 42. 野球データ http://shinyorke.hatenablog.com/entry/2015/05/04/022627 @shinyorke
  43. 43. Kaggle https://www.kaggle.com/
  44. 44. 競技プログラミング http://cocodrips.hateblo.jp/entry/2014/09/16/134759@cocodrips
  45. 45. http://cocodrips.hateblo.jp/entry/2014/09/16/134759
  46. 46. 解析をするにあたって覚えておくと 役に立つかもしれない5つのこと 1. データには背景がある。 2. データの俯瞰が大切。 3. 統計値は必ずしも正しくない。 4. 数式はこわくない。 5. 解析は楽しい。
  47. 47. Thank you for your attention !

×