More Related Content
Similar to JupyterLabを中心とした快適な分析生活 (20)
JupyterLabを中心とした快適な分析生活
- 1. Copyright © 2019 Classi Corp. All Rights Reserved. 1
JupyterLabを中心とした快適な分析生活
Classi株式会社 データAI部 小原
- 2. Copyright © 2019 Classi Corp. All Rights Reserved.
● 自己紹介
● 今年の振り返り
● JupyterLabとは
● JupyterLabを中心とした快適な分析生活
● まとめ
アジェンダ
- 3. Copyright © 2019 Classi Corp. All Rights Reserved.
● 名前: 小原陽介(Twitter: @deerto_herajika)
● 所属: Classi株式会社 データAI部
○ 学校教育現場をICT活用で支援する会社です
● 職業: DataScientist
○ 元データ整備職人
○ 普段の業務: 能力値推定に関する分析 / DWHや可視化環境の構築/ etc
○ 主な使用ツール: Python / GCP / Tableau
○ 今年R→Pythonにチェンジしました
● 趣味: 牡蠣の食べ歩き/ 中国由来の闇のゲーム
自己紹介
- 4. Copyright © 2019 Classi Corp. All Rights Reserved.
今日の発表について
● どういう方向け?
○ データ分析の文脈でPythonを使いたい方
■ システム開発での文脈の話はしません
○ 低実装コストでデータ分析を行いたい方
■ フルスタックで実装するのではなく、既存のサービスを組み合せてデータ
分析を行うことの提案です
■ 「Pythonでしかできないことに実装時間を割くために、色々なツールを組
み合せて使おう」というメッセージを伝えたいです
- 5. Copyright © 2019 Classi Corp. All Rights Reserved.
テーマが「今年の振り返り」ということで・・・
今日の発表について
- 6. Copyright © 2019 Classi Corp. All Rights Reserved.
今年の振り返り ~去年までの分析環境~
● 処理が重過ぎてフリーズした…
● 前作ったグラフ、分析結果更新したか
ら作り直さないと…
● 前に出した分析結果、掘り起こすの大
変…
- 7. Copyright © 2019 Classi Corp. All Rights Reserved.
今年の振り返り ~今年の分析環境~
● 重い処理は夜中のうちに実行!!
○ 分析経過のログは次の日に確認
● 分析結果やデータの管理が楽になっ
た!!
● 分析結果の可視化も楽になった!!
- 8. Copyright © 2019 Classi Corp. All Rights Reserved.
今年の振り返り ~今年の分析環境~
● 具体的にはこんな感じの環境です
○ 後半で詳しく話します
- 9. Copyright © 2019 Classi Corp. All Rights Reserved.
● 自己紹介
● 今年の振り返り
● JupyterLabとは
● JupyterLabを中心とした快適な分析生活
● まとめ
アジェンダ
- 10. Copyright © 2019 Classi Corp. All Rights Reserved.
● JupyterNotebookの後継機にあたるIDEであり、進化版
■ ①: UIの改良
■ ②: GoogleCloudPlatformとの相性
■ ③: 豊富なExtension
JupyterLabとは?
- 11. Copyright © 2019 Classi Corp. All Rights Reserved.
JupyterLabの良さ ~①: UIの改良~
● ディレクトリ/ファイル(.ipynb/.py/.txt/…)/ターミナルを1画面に表示可能
- 12. Copyright © 2019 Classi Corp. All Rights Reserved.
JupyterLabの良さ ~①: UIの改良~
● 各画面の配置も自由に設定可能
- 13. Copyright © 2019 Classi Corp. All Rights Reserved.
JupyterLabの良さ ~①: UIの改良~
● ドラッグアンドドロップでセルを自由に移動可能
- 14. Copyright © 2019 Classi Corp. All Rights Reserved.
● 簡単にVMインスタンス上にノートブックを作成できる
○ VMインスタンス作成後、「AIプラットフォーム >- ノートブックインスタンスを表
示 >- 新しいインスタンス」
JupyterLabの良さ ~②: GoogleCloudPlatformとの相性~
- 15. Copyright © 2019 Classi Corp. All Rights Reserved.
● 処理の重さをメモリ/CPU数でリカバリー可能
● GCPの他機能が使いやすいことも魅力的
○ Eg. 処理を夜中に回し、StackdriverLoggingでログを蓄積し次の日に確認
JupyterLabの良さ ~②: GoogleCloudPlatformとの相性~
- 16. Copyright © 2019 Classi Corp. All Rights Reserved.
JupyterLabの良さ ~③: 豊富なExtension~
● 画面左の「Extension Manager」からExtensionをインストール可能
- 17. Copyright © 2019 Classi Corp. All Rights Reserved.
JupyterLabの良さ ~③: 豊富なExtension~
● Extensionの例: Variable Inspector
○ ノートブック内で定義した変数を一覧で表示する機能
variableInspectorの
githubから引用
- 18. Copyright © 2019 Classi Corp. All Rights Reserved.
● 自己紹介
● 今年の振り返り
● JupyterLabとは
● JupyterLabを中心とした快適な分析生活
● まとめ
アジェンダ
- 19. Copyright © 2019 Classi Corp. All Rights Reserved.
JupyterLabを中心とした分析環境
● GCPを軸足に分析環境を構築
○ 可視化: Tableau, 分析コード管理: Github
- 20. Copyright © 2019 Classi Corp. All Rights Reserved.
JupyterLabを中心とした分析環境 ~DWHの活用~
● GCPを軸足に分析環境を構築
○ 可視化: Tableau, 分析コード管理: Github
- 21. Copyright © 2019 Classi Corp. All Rights Reserved.
● pandasのread_gbq, to_gbqモジュールで簡単にBigQueryと連携可能
○ 「read_gbq→アルゴリズム適用→ to_gbq」で分析コードを型化
● 前処理は可能な限りread_gbq時のクエリで実行
○ 処理の高速化
○ リファクタリングコストやレビューコストを低減
■ 共同開発がしやすい
JupyterLabを中心とした分析環境 ~DWHの活用~
pandas.read_gbq
pandas.to_gbq
- 22. Copyright © 2019 Classi Corp. All Rights Reserved.
JupyterLabを中心とした分析環境 ~BIの活用~
● GCPを軸足に分析環境を構築
○ 可視化: Tableau, 分析コード管理: Github
- 23. Copyright © 2019 Classi Corp. All Rights Reserved.
● matplotlibのコード書くこと自体が大変
○ レポート用にキレイに可視化しようとしても出来ないことがある
● 分析結果が更新された場合、再度グラフを出し直す必要がある
JupyterLabを中心とした分析環境 ~BIの活用~
matplotlibによる可視化
- 24. Copyright © 2019 Classi Corp. All Rights Reserved.
JupyterLabを中心とした分析環境 ~BIの活用~
● 可視化が簡単 & 見た目もきれい
● ダッシュボード化することで、インタラクティブにデータの確認ができる
● BigQueryと直接繋げるので、分析結果が更新されるとグラフが自動的に反映
- 25. Copyright © 2019 Classi Corp. All Rights Reserved.
● JupyterLabがおすすめ
○ UIの改良 / GoogleCloudPlatformとの相性/ 豊富なExtension
● JupyterLabを中心にGCPやBIツールを上手く組み合せて使うことで、 低実装
コストで分析環境が構築できる
○ 分析結果やログの蓄積・管理: GCP
■ 管理のストレスがなくなる
■ 前処理をBigQueryに寄せることができる
○ 分析結果の可視化: BIツール
■ matplotlibを書く時間をなくすことができる
○ Pythonでしかできない実装(機械学習とか)に集中できる
まとめ
- 27. Copyright © 2019 Classi Corp. All Rights Reserved.
まとめ
快適な分析生活だー
Auto◯Lさん
今の快適さに甘えず、高効率/高付加価値な仕組みを考えます(自戒)
- 28. Copyright © 2019 Classi Corp. All Rights Reserved.
We are Hiring!
Classiでは一緒に働く仲間を募集しています
● Pythonエンジニア/データサイエンティスト/データエンジニア/…
● 興味ある方、ぜひお声がけください!!
● 詳細は採用ページにて https://hrmos.co/pages/classi