MLOps Course Slides_JP(配布用).pdf

Yuya Yamamoto
Yuya YamamotoI'm a materials chemist, DataScientist and Kaggle Master
1
W&Bハンズオンウェビナー
山本 祐也 (Yuya YAMAMOTO)
● 機械学習エンジニア
- Customer Success@W&B
● Kaggle Competitions Grandmaster
○ ID: nejumi
Weights & Biasesのサインアップとインストール
こちらからサインアップして
ください
URLはこちら
:https://www.wandb.j
p/
Team Background | チームの出身会社
Lukas Biewald, CEO
Co-Founder & CEO
Figure Eight, Powerset, OpenAI
Chris Van Pelt, CISO
Co-Founder & CISO
Figure Eight, Powerset
Shawn Lewis, CTO
Co-Founder & CTO
Beep, Google
● OpenAI
● Google
● Waymo
● Microsoft
● DataRobot
● Stanford
● Harvard
● Berkeley
● Twitter
● Databricks
Figure Eight (acquired by Appen)
● Meta
● Github
● Domino
● JP Morgan
● Alteryx
$200m in Funding | $200Mを超える資金調達
Angels & Advisors | アドバイザー
Richard Socher — Chief Scientist, Salesforce
Greg Brockman — CTO, OpenAI
Nat Friedman — CEO, GitHub
Tom Preston-Werner — Founder, GitHub
Anthony Goldbloom — Founder and CEO, Kaggle
Vladlen Koltun — Chief Scientist, Intel
W&Bは2017年にSFで創業
W&B日本展開
MLエンジニアのためのミートアップを毎月開催
(https://wandb.connpass.com)
2023年
3月 ● 東京-京橋を拠点に日本法人を設立
4月 ● JDLA協会正会員に
5月 ● AI Expoに出展ドキュメンテーションな
どを日本語化
6月 ● 人工知能学会大会をスポンサー
7月 ● llm-jpに参画
8月 ● 日本語タスクLLMリーダーボード
が国内最大規模に
私たちのお客様は機械学習で
あらゆるインダストリーを変革しています
TRIではコンピュータビジョンを使って
完全自動運転車の開発を進めてい
ます
「W&Bは早いペースで最先端の開発
を大規模に行うチームにはなくては
ならないインフラです。」
Adrien Gaidon
Toyota Research Institute
OpenAIは深層学習と自然言語処理を
使って、超高性能なチャットボットを開
発しています
「W&Bは、一人の研究者のインサイトを
チームに波及させ、一台のマシンに閉
じ込めず、何千台にスケールさせること
ができます。」
WOJCIECH ZAREMBA
Co-founder of OpenAI
Genentechは深層学習を使って感染
病に有効な新しい抗生物質を
探しています
「W&Bのおかげで、私たちは意味の
ある科学研究により多くの時間を費
やすことができます。」
Stephen Ra
Machine Learning Lead
データ収集
探索的解析
データ準備
モデリング・
チューニング
結果の共有と
評価
モデル・サービス
監視
異常・ドリフト
検知
ビジネス評価
モニタリング
データサイ
エンティスト
MLエンジニア
プロダクト
マネージャー
プロダクト
マネージャー
データ
エンジニア
システム実装
結合テスト
サービスイン
システム
エンジニア
MLOps
エンジニア
推論API実装
リスク評価
モデルリリース
評価・デプロイメント
サーバー
エンジニア
プロダクト
マネージャー
監査担当
モデル開発
監査担当
バージョン管理と継続開発
モデルライフサイクルを支えるWeights & Biases
Tables
Sweeps
Artifacts
Experiments
Reports Prompt
Launch Models Weave Monitoring
Automation
W&B Courses
8
W&Bの基本的な使い方に関する
初心者向けコース
W&Bを用いてMLプロジェクトに
取り組むコアとなるコース
LLM特化コース
https://www.wandb.courses/
W&B Coursesで一番人気のコースをギュッと圧縮
9
EDA
Data
Prep
Create
Baseline
Refactoring
Team
Collaboration
Hyperparam
Optimization
Evaluation Best
Practices
Model
Versioning
Model
Evaluation and
Diagnostics
Lesson 1 Lesson 2 Lesson 3
EDA
Data
Prep
Create
Baseline
Refactoring Team
Collaboration
Hyperparam
Optimization
オリジナルコース
本コース(日本語ダイジェスト)
+解説 +解説
Effective MLOps
Model Development and
Evaluation
Lesson 1 - End-To-Endプロトタイプの構築
11
Agenda - End-to-Endプロトタイプの構築
アーティファ
クト
実験管理 レポート
テーブル
ビジネス
コンテクストを
理解する
Data Science
課題に
落とし込む
自身のデータを
探索し
理解する
ベースライン指
標とモデルを構
築する
チームと
結果を共有する
12
ケーススタディ - 自動運転における認識技術
BDD100Kデータセットにおける
セマンティックセグメンテーション
は、予測、動きの計画などのよ
り多くのサブタスクを含むより大
きな自動運転システムを構成す
るタスク群のうちの一つです
W&B テーブル
● モデルの予測を視覚化し分析
する
● 探索的データ分析を一元化す
る
● データセットから目的行を素早く
特定する
# Quickly log your first table
wandb.log({“table”: my_dataframe})
W&B レポート
● ライブダッシュボードでの共同分析
● チームメイトとの情報共有
● リアルタイムでのコメント機能、実
験結果の説明、作業のスナップ
ショットの取得
● LaTeXまたはPDFにエクスポート
W&B アーティファクト
● 軽量なデータセットとモデルの
バージョン管理機能
● パイプラインの各ステップを保
存
● モデルのトラッキングとモデル
のリネージ追跡
● 手軽な監視可能性(オブザーバ
ビリティ)
● データアクセス制御
# Log an artifact
artifact = wandb.Artifact('mnist',
type='dataset')
artifact.add_dir('mnist/')
wandb.log_artifact(artifact)
# Use artifact in your pipeline
artifact = run.use_artifact(mnist:v1')
artifact_dir = artifact.download()
W&B 実験管理
● モデル訓練の記録システム
● 全実験の視覚化と比較
● 以前のモデルのチェックポイン
トを素早く見つけて再実行
● 計算リソースの監視する
● リアルタイムでパフォーマンスを
デバッグ
# Integrate with any Python script
import wandb
# 1. Start a W&B run
wandb.init(project=’gpt3’)
# 2. Save model inputs and hyperparams
config = wandb.config
config.learning_rate = 0.01
# Model training here
# 3. Log metrics over time to visualize
performance
wandb.log({“loss”: loss})
Training (学習)
Validation (検定),
多くの場合CVする
Holdout (ホールドアウト)
17
データのパーティショニング
一般的なルールとして、データを以下
の3つに分割する
しかしながら、いくつかのハマりポイントがあ
り、以下に気をつける必要がある :
これらのパーティションは同じ分布か
ら取得しますが、特に validationとtest
はデプロイ後に想定される分布になっ
ているべき
パーティション間でリーケー
ジが無いようにする
いくつか例を見てみましょう
18
Data Partitioning: グループパーティショニング
多くのケースで、データは真
に独立ではありません
例:運転データセットでは、一部の写真が同
じカメラからわずかな時間隔で撮影されてい
る
Train
Lemon 2
Validation Holdout
そのため、データをランダムに
分割してはならない
カメラ 3 カメラ 4
カメラ 1 カメラ 2
19
Combining Concepts: 層化抽出 + グループパーティショニング
Validation
Train Holdout
同一パーティション内では同一カメラ
由来の画像が複数含まれるのを許容
する
同じカメラからの画像がパーティションを跨いで出現しないようにする
各パーティションでクラス比を同等にする (例: 歩行
者)
リーケージ防止 + 各fold間でクラス比が略同等になるようにする
20
Code: 層化パーティショニング
ファイル名のprefixでグルーピングする
10分割もいらないので、 testとvalid以外の残りは全てtrainにする
21
Effective MLOps
Model
Development
July 2022
Lesson 2 - ハイパーパラメータ最適化とモデルトレーニ
ングにおけるチームコラボレーション
Back from vacation
22
23
ハイパーパラメータ最適化とモデルトレーニングにおける
チームコラボレーション
LESSON 2
実験を
実施する
実験結果を
分析する
実験のために
コードを整理する
結果をチームと共
有し、チームでブレ
ストする
実験管理 レポート スイープ
リファクタリング
24
1 セルを関数にリファクタする
2 ノートブックをスクリプトにリファクタする
3 コマンドラインで使えるように argparseを追加する
スイープ
25
● 最適なハイパーパラメータを探索する
● パラメータの変数重要度を理解し、相
関をプロットする
● 多数のマシンを跨いでスイープを実行
する
● ランダムサーチ、グリッドサーチ、ベイ
ズ最適化から選択
● さらにOptunaとの連携により、より高度
な最適化も簡単かつスケーラブルに可
能
実験結果の分析
26
ダッシュボード
● Runsのフィルターやグルーピング、ソートが簡単にできる
● 新しいプロットも簡単に作成できる
レポート
● サマライズして、あなたが見出したインサイトをチームと共有する
アンケートにご協力ください
日本語ワークスペースができました!
W&B Japan
コミュニティー
wandb.me/jp-slack
https://note.com/wandb_jp
日本語の記事を投稿しています
是非フォローしてください!
MLOps Course Slides_JP(配布用).pdf
MLOps Course Slides_JP(配布用).pdf
1 of 31

Recommended

初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか by
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのかTechon Organization
887 views28 slides
LT.22 機械学習におけるPDCAを回せる環境構築の話 by
LT.22 機械学習におけるPDCAを回せる環境構築の話 LT.22 機械学習におけるPDCAを回せる環境構築の話
LT.22 機械学習におけるPDCAを回せる環境構築の話 GIG inc.
1.8K views26 slides
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み by
リクルートのビッグデータ活用基盤とデータ活用に向けた取組みリクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組みRecruit Technologies
8.7K views46 slides
いま、UXについて世界の最先端で起こっていることを学ぶ 先生:長谷川 敦士/井登 友一 by
いま、UXについて世界の最先端で起こっていることを学ぶ 先生:長谷川 敦士/井登 友一いま、UXについて世界の最先端で起こっていることを学ぶ 先生:長谷川 敦士/井登 友一
いま、UXについて世界の最先端で起こっていることを学ぶ 先生:長谷川 敦士/井登 友一schoowebcampus
5.3K views77 slides
To be sn agile enterprise by
To be sn agile enterpriseTo be sn agile enterprise
To be sn agile enterpriseRakuten Group, Inc.
1.4K views36 slides
How to organize data science project (データサイエンスプロジェクトの始め方101) by
How to organize data science project (データサイエンスプロジェクトの始め方101)How to organize data science project (データサイエンスプロジェクトの始め方101)
How to organize data science project (データサイエンスプロジェクトの始め方101)Yasuyuki Kataoka
585 views25 slides

More Related Content

Similar to MLOps Course Slides_JP(配布用).pdf

アジャイルマネジメントとは? by
アジャイルマネジメントとは?アジャイルマネジメントとは?
アジャイルマネジメントとは?Kiro Harada
4.4K views62 slides
DRIVE CHARTを支えるAI技術 by
DRIVE CHARTを支えるAI技術DRIVE CHARTを支えるAI技術
DRIVE CHARTを支えるAI技術Yusuke Uchida
2.3K views44 slides
第15回ピク活IT勉強会 ピクト図解入門(01 ピクト図解入門 20140328_公開用) by
第15回ピク活IT勉強会 ピクト図解入門(01 ピクト図解入門 20140328_公開用)第15回ピク活IT勉強会 ピクト図解入門(01 ピクト図解入門 20140328_公開用)
第15回ピク活IT勉強会 ピクト図解入門(01 ピクト図解入門 20140328_公開用)Hidehiko Akasaka
2.7K views91 slides
Intalio japan special cloud workshop by
Intalio japan special cloud workshopIntalio japan special cloud workshop
Intalio japan special cloud workshopDaisuke Sugai
725 views46 slides
データ分析チームの振り返り by
データ分析チームの振り返りデータ分析チームの振り返り
データ分析チームの振り返りSatoshi Noto
5K views38 slides
ビッグデータ活用支援フォーラム by
ビッグデータ活用支援フォーラムビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラムRecruit Technologies
3.4K views53 slides

Similar to MLOps Course Slides_JP(配布用).pdf(20)

アジャイルマネジメントとは? by Kiro Harada
アジャイルマネジメントとは?アジャイルマネジメントとは?
アジャイルマネジメントとは?
Kiro Harada4.4K views
DRIVE CHARTを支えるAI技術 by Yusuke Uchida
DRIVE CHARTを支えるAI技術DRIVE CHARTを支えるAI技術
DRIVE CHARTを支えるAI技術
Yusuke Uchida2.3K views
第15回ピク活IT勉強会 ピクト図解入門(01 ピクト図解入門 20140328_公開用) by Hidehiko Akasaka
第15回ピク活IT勉強会 ピクト図解入門(01 ピクト図解入門 20140328_公開用)第15回ピク活IT勉強会 ピクト図解入門(01 ピクト図解入門 20140328_公開用)
第15回ピク活IT勉強会 ピクト図解入門(01 ピクト図解入門 20140328_公開用)
Hidehiko Akasaka2.7K views
Intalio japan special cloud workshop by Daisuke Sugai
Intalio japan special cloud workshopIntalio japan special cloud workshop
Intalio japan special cloud workshop
Daisuke Sugai725 views
データ分析チームの振り返り by Satoshi Noto
データ分析チームの振り返りデータ分析チームの振り返り
データ分析チームの振り返り
Satoshi Noto5K views
巨大なサービスと膨大なデータを支えるプラットフォーム
 by Tetsutaro Watanabe
巨大なサービスと膨大なデータを支えるプラットフォーム
巨大なサービスと膨大なデータを支えるプラットフォーム

巨大なサービスと膨大なデータを支えるプラットフォーム

Tetsutaro Watanabe1.7K views
Big data解析ビジネス by Mie Mori
Big data解析ビジネスBig data解析ビジネス
Big data解析ビジネス
Mie Mori3.5K views
20181206 Jazug DataScience TeamBuilding and DevOps by Yukako Shimizu
20181206 Jazug DataScience TeamBuilding and DevOps20181206 Jazug DataScience TeamBuilding and DevOps
20181206 Jazug DataScience TeamBuilding and DevOps
Yukako Shimizu292 views
データ分析を支える技術 DWH再入門 by Satoru Ishikawa
データ分析を支える技術 DWH再入門データ分析を支える技術 DWH再入門
データ分析を支える技術 DWH再入門
Satoru Ishikawa3.9K views
Offshore Agile Development in XP by Kenji Hiranabe
Offshore Agile Development in XPOffshore Agile Development in XP
Offshore Agile Development in XP
Kenji Hiranabe1.9K views
Iot algyan jhirono 20190111 by Hirono Jumpei
Iot algyan jhirono 20190111Iot algyan jhirono 20190111
Iot algyan jhirono 20190111
Hirono Jumpei861 views
とりあえず30分でひととおり分かった気にはなれるアジャイル入門 by 陽一 滝川
とりあえず30分でひととおり分かった気にはなれるアジャイル入門とりあえず30分でひととおり分かった気にはなれるアジャイル入門
とりあえず30分でひととおり分かった気にはなれるアジャイル入門
陽一 滝川14.1K views
アジャイルソフトウェア開発の道具箱 by Koichi ITO
アジャイルソフトウェア開発の道具箱アジャイルソフトウェア開発の道具箱
アジャイルソフトウェア開発の道具箱
Koichi ITO5.8K views
Google のクラウド サービスを利用する前に 注意すべきこと by Compare GW
Google のクラウド サービスを利用する前に 注意すべきことGoogle のクラウド サービスを利用する前に 注意すべきこと
Google のクラウド サービスを利用する前に 注意すべきこと
Compare GW423 views
Microsoft 365 を使い、よりよい業務環境の在り方と仕事への向き合い方を考えよう by Ai Hirano
Microsoft 365 を使い、よりよい業務環境の在り方と仕事への向き合い方を考えようMicrosoft 365 を使い、よりよい業務環境の在り方と仕事への向き合い方を考えよう
Microsoft 365 を使い、よりよい業務環境の在り方と仕事への向き合い方を考えよう
Ai Hirano1.5K views
POWA50 - Power Apps と Power Automate の大規模な管理とサポート by Taiki Yoshida
POWA50 - Power Apps と Power Automate の大規模な管理とサポートPOWA50 - Power Apps と Power Automate の大規模な管理とサポート
POWA50 - Power Apps と Power Automate の大規模な管理とサポート
Taiki Yoshida555 views

More from Yuya Yamamoto

Wandb Monthly Meetup August 2023.pdf by
Wandb Monthly Meetup August 2023.pdfWandb Monthly Meetup August 2023.pdf
Wandb Monthly Meetup August 2023.pdfYuya Yamamoto
805 views59 slides
W&BであらゆるML関連データを可視化.pdf by
W&BであらゆるML関連データを可視化.pdfW&BであらゆるML関連データを可視化.pdf
W&BであらゆるML関連データを可視化.pdfYuya Yamamoto
109 views30 slides
Wandb LLM Webinar May 30 2023 (配布用).pdf by
Wandb LLM Webinar May 30 2023 (配布用).pdfWandb LLM Webinar May 30 2023 (配布用).pdf
Wandb LLM Webinar May 30 2023 (配布用).pdfYuya Yamamoto
260 views23 slides
DataRobotを用いた要因分析 (Causal Analysis by DataRobot) by
DataRobotを用いた要因分析 (Causal Analysis by DataRobot)DataRobotを用いた要因分析 (Causal Analysis by DataRobot)
DataRobotを用いた要因分析 (Causal Analysis by DataRobot)Yuya Yamamoto
4.9K views73 slides
Optimization and simulation with DataRobot by
Optimization and simulation with DataRobotOptimization and simulation with DataRobot
Optimization and simulation with DataRobotYuya Yamamoto
2.3K views55 slides
DataRobotによる予測モデルを用いた シミュレーションと最適化(事前準備) by
DataRobotによる予測モデルを用いた シミュレーションと最適化(事前準備)DataRobotによる予測モデルを用いた シミュレーションと最適化(事前準備)
DataRobotによる予測モデルを用いた シミュレーションと最適化(事前準備)Yuya Yamamoto
1.9K views21 slides

More from Yuya Yamamoto(7)

Wandb Monthly Meetup August 2023.pdf by Yuya Yamamoto
Wandb Monthly Meetup August 2023.pdfWandb Monthly Meetup August 2023.pdf
Wandb Monthly Meetup August 2023.pdf
Yuya Yamamoto805 views
W&BであらゆるML関連データを可視化.pdf by Yuya Yamamoto
W&BであらゆるML関連データを可視化.pdfW&BであらゆるML関連データを可視化.pdf
W&BであらゆるML関連データを可視化.pdf
Yuya Yamamoto109 views
Wandb LLM Webinar May 30 2023 (配布用).pdf by Yuya Yamamoto
Wandb LLM Webinar May 30 2023 (配布用).pdfWandb LLM Webinar May 30 2023 (配布用).pdf
Wandb LLM Webinar May 30 2023 (配布用).pdf
Yuya Yamamoto260 views
DataRobotを用いた要因分析 (Causal Analysis by DataRobot) by Yuya Yamamoto
DataRobotを用いた要因分析 (Causal Analysis by DataRobot)DataRobotを用いた要因分析 (Causal Analysis by DataRobot)
DataRobotを用いた要因分析 (Causal Analysis by DataRobot)
Yuya Yamamoto4.9K views
Optimization and simulation with DataRobot by Yuya Yamamoto
Optimization and simulation with DataRobotOptimization and simulation with DataRobot
Optimization and simulation with DataRobot
Yuya Yamamoto2.3K views
DataRobotによる予測モデルを用いた シミュレーションと最適化(事前準備) by Yuya Yamamoto
DataRobotによる予測モデルを用いた シミュレーションと最適化(事前準備)DataRobotによる予測モデルを用いた シミュレーションと最適化(事前準備)
DataRobotによる予測モデルを用いた シミュレーションと最適化(事前準備)
Yuya Yamamoto1.9K views
DataRobotによる予測モデルを用いた シミュレーションと最適化(抜粋) by Yuya Yamamoto
DataRobotによる予測モデルを用いた シミュレーションと最適化(抜粋)DataRobotによる予測モデルを用いた シミュレーションと最適化(抜粋)
DataRobotによる予測モデルを用いた シミュレーションと最適化(抜粋)
Yuya Yamamoto1.6K views

Recently uploaded

01Booster Studio ご紹介資料 by
01Booster Studio ご紹介資料01Booster Studio ご紹介資料
01Booster Studio ご紹介資料ssusere7a2172
220 views19 slides
マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料) by
マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料)マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料)
マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料)NTT DATA Technology & Innovation
217 views33 slides
JJUG CCC.pptx by
JJUG CCC.pptxJJUG CCC.pptx
JJUG CCC.pptxKanta Sasaki
6 views14 slides
さくらのひやおろし2023 by
さくらのひやおろし2023さくらのひやおろし2023
さくらのひやおろし2023法林浩之
83 views58 slides
概念モデリングワークショップ 基礎編 by
概念モデリングワークショップ 基礎編概念モデリングワークショップ 基礎編
概念モデリングワークショップ 基礎編Knowledge & Experience
19 views71 slides
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化 by
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化Knowledge & Experience
8 views34 slides

Recently uploaded(8)

01Booster Studio ご紹介資料 by ssusere7a2172
01Booster Studio ご紹介資料01Booster Studio ご紹介資料
01Booster Studio ご紹介資料
ssusere7a2172220 views
マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料) by NTT DATA Technology & Innovation
マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料)マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料)
マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料)
さくらのひやおろし2023 by 法林浩之
さくらのひやおろし2023さくらのひやおろし2023
さくらのひやおろし2023
法林浩之83 views
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化 by Knowledge & Experience
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料) by NTT DATA Technology & Innovation
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)

MLOps Course Slides_JP(配布用).pdf