10
WandbotのSystematicな評価
● いくつかのケースをPick upして性能を
確認したとしても、従来解決できていた
課題が解決できていないことがある
●評価データセットを構築・管理し、
包括的・定量的な評価をしたい
評価データセットや評価方法については
WandB Reportで知見 (clustering, human feedback…)を公開
● “How to Evaluate an LLM, Part 1: Building an Evaluation
Dataset for our LLM System”
● “How to Evaluate an LLM, Part 2: Manual Evaluation of
Wandbot, our LLM-Powered Docs Assistant”
● “How to evaluate an LLM Part 3: LLMs evaluating LLMs”
● “Building Advanced Query Engine and Evaluation with
LlamaIndex and W&B”