機械学習デザインパターン: 再現性パターン

再現性パターン
吉岡信和
早稲田大学
@スマートエスイーセミナー
2021年11月10日
1
『機械学習デザインパターン ―データ準備、モデル構築、MLOpsの実践上の問題と解決』Lakshmananら著, 鷲崎ら訳, オライリージャパン, 2021

再現性パターン • 決定的な出力を得やすく、訓練・開発効率
2
パターン問題解決
変換
Transform
訓練時と推論時で前処理に一貫
性がなくなる
変換・前処理の仕方を保存再利用、訓練・
推論時で一貫
繰り返し可能な分割
Repeatable Splitting
ランダムな訓練、検証、テスト
用分割では再現困難
関係を用いたい変数をハッシュ化し剰余に
よりデータ分割
スキーマブリッジ
Bridged Schema
入力データのスキーマが運用後
に変更
古いデータを確率的な方法で新データス
キーマへ変換
ウィンドウ推論
Windowed Inference
訓練・運用間の歪みを避けられ
るよう一定の時間枠ごと集約
モデルの状態を外部記録、時間依存の方法
で集約計算された特徴量の一貫利用
ワークフローパイプラ
イン Workflow Pipeline
単一ファイルではスケールせず各ステップを分けてサービス化
特徴量ストア
Feature Store
アドホックな特徴量エンジニア
リング
プロジェクトやチームを超えた特徴量共有
モデルバージョニング
Model Versioning
モデル更新時の後方互換性困難モデルバージョンを異なるエンドポイント
提供、比較
{現金|カード}
{現金|ギフトカード|デビットカード|クレジットカード}
変換スキーマブリッジ
機械学習ならではの再現性の問題
• 訓練時と運用の一貫性
• ランダム性
• トライアンドエラー

変換(Transform)パターン
3
訓練時運用時
訓練済みモデル
同じ変換でなければ誤った推論になる
アドホックな記述は訓練・運用間の歪みに！
ライブラリ・環境（言語設定、カレンダ設定）の違いに注意！
水曜
“3”
(月曜始まり)
水曜
“4”
(日曜始まり)
変換(TRANSFORM)を明示的に定義
・訓練のたびに変換 ⇒ 訓練回数が増えるとコスト大
 最初に変換、特徴量として保存
前処理済
みデータ
元データ訓練
変換
【問題】
【解決】
【トレードオフと代替案】

(Repeatable Splitting)パターン
4
訓練
検証
テスト
ランダムに分割
データセット
あとから同じ分割を再現できない！
関連があるデータを分割してしまう
（情報の漏れ）
訓練検証テスト
相互に関係のあるカラム（日付など）
をハッシュにより分割
・常に同じ計算結果（同じ分割）
・関連のあるカラム（日付）が同じデータ
セットに入る訓練テスト
日付のハッシュ
の剰余で分割
【問題】
【解決】

(Repeatable Splitting)パターン
• データ行の間に関連がない場合
行全体のデータを文字列に変換してからハッシュ
• 複数のカラムに関して関係がある場合
• 例）日付と空港の両方が関係
関連があるカラムを連結してハッシュ
• 画像などの非構造化データ
撮影日などをメタデータを利用
5

(Bridged Schema)パターン
6
機械学習
モデル
チップ額
支払額
種類:{現金,カード}
機械学習
モデル
チップ額
支払額
種類:{現金,
ギフトカード,
デビットカード,
クレジットカード}
決算システムがアップグレード
再訓練のための新しい情報が少ない
古い情報
新しい情報
新しい形式
に変換
（ブリッジ）
カード
訓練
{ギフト|デビット|クレジット}
{ギフト|デビット|クレジット}
10% 30% 60%
出現確率で
書き換え
どれくらいブリッジした
らよい？
【問題】
【解決】

ブリッジする古いデータ数
7
古い情報
新しい情報
ブリッジ
訓練
古いサンプルはできるだけ少なく
新しいサンプルだけでは性能
が悪い！
5,000サンプル
100万サンプル
評価
2,400サンプル
様々な評価サイズで評価指標の変動（標準偏差）
を調べる
性能が安定
グリードサーチで評価指標が安定
する数を探す
2万
2,500

(Bridged Schema)パターン
• 新しい特徴量が追加された場合、古いデータを以下の方
針で補完
• 新しい特徴量が数値
• 正規分布 ⇒ 平均値
• 分布が偏っている、外れ値が多い ⇒ 中央値
• 新しい特徴量がカテゴ型
• ソートできる場合 ⇒ 中央値
• ソートできない場合 ⇒ 最頻値（モード）
• 新しい特徴量が真偽値 ⇒ 真になる頻度
• 新しいデータで精度が向上した場合
• 浮動小数点の場合は、ブリッジは不要
• 元のデータ：0.3 ⇒ 新しいデータ: 0.30
8

(Windowed Inference)パターン
9
機械学習
モデル
?
どこまでの履歴を入力とす
ればよいか不明
• 過去のすべての履歴を入力とするのは現実的ではない！
• 運用時に利用できる履歴（データ容量）は限られている！
フライトの異常遅延
の検出
遅延が異常かどうかは
過去の状況に依存
朝は少しの遅延
でも異常
夕方以降は遅延
が通常
【問題】

10
機械学習
モデル
スライディングウィンドウ
１０分ごとに２時間分のデータを特徴
量に変換
２時間分のフライト履歴を使
って訓練・推論
10分刻み２時間のデータで訓練
フライトごとに推論
過去２時間分
の特徴量
推論パイプライン
特徴量
【解決】
フライトの異常遅延
の検出
遅延が異常かどうかは
過去の状況に依存

• ウィンドウ毎に特徴量を計算するのは計算オーバーヘッ
ドが大きい、高スループットが必要
入力データが更新されるたびに特徴量を計算
11
データ更新毎に
計算
特徴量
遅延の平均、データ数、
分散など
機械学習
モデル
高スループットを確保
特徴量計算のための最低限の
情報のみ保持

12
ワークフローパイプライン
（Workflow Pipeline）パターン
• トライアンドエラーの訓練のコードの再利用性・可読性が低い
• 訓練と推論で異なった前処理をしてしまう（訓練・運用間の歪み）
各ステップをコンテナ化
パイプラインで連結してワークフローを定義
ツール:
Cloud AI Platform Piplines, TFX,
KFP, MLflow, Apache Airflow
特徴量ストア
（Feature Store）
パターン
訓練・運用の
一貫性
（運用時）低遅延アクセス
（訓練時）大容量、バッチ処
理アクセス
Forestフレームワークなど

機械学習デザインパターン: 再現性パターン

Recommended

Recommended

More Related Content

Similar to 機械学習デザインパターン: 再現性パターン

Similar to 機械学習デザインパターン: 再現性パターン (20)

More from Nobukazu Yoshioka

More from Nobukazu Yoshioka (14)

機械学習デザインパターン: 再現性パターン