1
WeaveでWandbotをよくしてみた
2
ディープなデータ活用
の世界を支える・先導する
● Deep Learning / 生成AI
● ヘルスケア / タンパク質言語モデル
サイエンスの中でのデータ分析の
ポテンシャルを探求
● 動物実験
● 生体信号処理
新しいコンセプトのデータ活用を
普及させる
● 因果推論
● オフラインABテスト
Keisuke Kamata
ヘルスケア業界における
幅広いデータ活用から社会を支える
● 機械学習
● ヘルスケア/コロナ対策
@olachinkei
工学部・情報学研究科
Engagement Manager
Lead Data Scientist
Healthcare team lead
Machine Learning Engineer
3
wandbot
WandB JP Users
wandbjp.slack.com
4
生成AI appをProductionで運用し続けるのは難しい
1
2
3
4
性能に自信がない
出力が悪いとわかっていても複雑なシステムで
debugすることが難しい
APIの仕様が変更されると、それに基づいて作り直す
必要がある。どこでどのようなアウトプットが出ている
かdebugしながら進めるのが大変
定期的にモニタリングをし、評価・改善を行う必要が
ある
評価
開発
再開発
モニタリング・評価
5
生成AI appをProductionで運用し続けるのは難しい
1
2
3
4
性能に自信がない
出力が悪いとわかっていても複雑なシステムで
debugすることが難しい
APIの仕様が変更されると、それに基づいて作り直す
必要がある。どこでどのようなアウトプットが出ている
かdebugしながら進めるのが大変
定期的にモニタリングをし、評価・改善を行う必要が
ある
評価
開発
再開発
モニタリング・評価
Wandbotにおいても ...
実際、日本語に
対する評価はしばらく行
われていなかった...
6
共通の悩みを解決する GenAI Ops
生成AIモデル・ App構築
のPain Point / Blocker
基盤モデル構築
継続事前学習
ファインチューニング
推論最適化
App構築 / 評価
Pain
GenAIOps “生成IA開発のbest practiceの集積
体”
どんどんPain Point / Blockerが特定され、解決のための
GenAIOps(Best PracticeやTool)が提案されている
GenAIOpsに乗っかると、先人が構築した
ベストプラクティスを踏襲できる
生成AIに着手をしようとしても、大小様々な障壁・
必要とされる労力によって前に進まない
生成AI開発が早く進む・質が向上し、生成AIをサー
ビス化・業務適応できる
むしろやることが多すぎてベストプラク
ティスに乗っからないとついていけな
い。“車輪の再開発”している場合ではな
い...
Appモニタリング
7
共通の悩みを解決する GenAI Ops
基盤モデル構築
継続事前学習
ファインチューニング
推論最適化
App構築
Pain
GenAIOps “生成IA開発のbest practiceの集積
体”
GenAIOpsに乗っかると、先人が構築した
ベストプラクティスを踏襲できる
生成AIに着手をしようとしても、大小様々な障壁・
必要とされる労力によって前に進まない
どんどんPain Point / Blockerが特定され、解決の
ためのBest PracticeやToolが提案されている
生成AI開発が早く進む・質が向上し、生成AIをサー
ビス化・業務適応できる
むしろやることが多すぎてベストプラク
ティスに乗っからないとついていけな
い。“車輪の再開発”している場合では
ない
生成AIモデル・ App構築
のPain Point / Blocker
8
共通の悩みを解決する GenAI Ops
生成AIモデル・ App構築
のPain Point / Blocker
基盤モデル構築
継続事前学習
ファインチューニング
推論最適化
App構築
Pain
GenAIOps “生成IA開発のbest practiceの集積
体”
GenAIOpsに乗っかると、先人が構築した
ベストプラクティスを踏襲できる
生成AIに着手をしようとしても、大小様々な障壁・
必要とされる労力によって前に進まない
どんどんPain Point / Blockerが特定され、解決の
ためのBest PracticeやToolが提案されている
生成AI開発が早く進む・質が向上し、生成AIをサー
ビス化・業務適応できる
むしろやることが多すぎてベストプラク
ティスに乗っからないとついていけな
い。“車輪の再開発”している場合では
ない
Weights & Biases: AI開発プラットフォーム
10
WandbotのSystematicな評価
● いくつかのケースをPick upして性能を
確認したとしても、従来解決できていた
課題が解決できていないことがある
● 評価データセットを構築・管理し、
包括的・定量的な評価をしたい
評価データセットや評価方法については
WandB Reportで知見 (clustering, human feedback…)を公開
● “How to Evaluate an LLM, Part 1: Building an Evaluation
Dataset for our LLM System”
● “How to Evaluate an LLM, Part 2: Manual Evaluation of
Wandbot, our LLM-Powered Docs Assistant”
● “How to evaluate an LLM Part 3: LLMs evaluating LLMs”
● “Building Advanced Query Engine and Evaluation with
LlamaIndex and W&B”
11
🔍 Weave Wandb
Let’s be the first 🐧!
Let’s share your
practice🗒

WandbotをWeaveでモニタリング・評価する by 鎌田 啓輔 (@olachinkei)