ウェビナー：Nejumiリーダーボードを使った自社LLMモデルの独自評価.pdf

1
ウェビナー：
Nejumiリーダーボードを使った
自社LLMモデルの独自評価

山本祐也 (Yuya YAMAMOTO)
● 機械学習エンジニア
- Customer Success@W&B
● Kaggle Competitions Grandmaster
○ ID: nejumi

1. 会社紹介
2. Nejumi LLMリーダーボードとは？
3. リーダーボードのコピー / インポート
a. SaaS版をご利用の場合
b. それ以外の場合（Dedicated Cloud等）
4. 自社モデルの評価結果の追加方法
5. 独自評価データによる評価項目の追加方法
a. 一問一答形式
b. 会話形式
6. Q&A
本日のアジェンダ

Weights & Biasesとは
AIの専門家が創業
W&Bの創業者は 2つのMLカテゴリーを創出
業界を代表するVCが出資 (総額$250M以上)
MLコミュニティーの中核
世界で70万人以上のML実践者が信頼
グローバル企業のための製品
~1000 を超えるエンタープライズ企業が利用
2万を超えるフレームワーク・リポジトリと統合
業界を代表するパートナー企業

W&Bアジア展開
2023年
3月東京-京橋を拠点に日本法人を設立
4月日本ディープラーニング協会正会員
5月 AI Expoに出展
マニュアル日本語化
ホワイトペーパー出版
6月人工知能学会大会をスポンサー
7月 llm-jpに参画
8月日本語タスクLLMリーダーボードが国内最大規模
に
9月経産省検討委員会に委員参加
日鉄ソリューションズとパートナーシップ締結
NVIDIAと共同でエグゼクティブラウンドテーブルを
開催
韓国Leaders Systems社とのパートナーシップ締
結
10月日本初ユーザーカンファレンスに
300人が参加
韓国で初のプロダクトセミナー開催

私たちのお客様は機械学習で
あらゆるインダストリーを変革しています
TRIではコンピュータビジョンを使って
完全自動運転車の開発を進めてい
ます
「W&Bは早いペースで最先端の開発
を大規模に行うチームにはなくては
ならないインフラです。」
Adrien Gaidon
Toyota Research Institute
OpenAIは深層学習と自然言語処理を
使って、超高性能なチャットボットを開
発しています
「W&Bは、一人の研究者のインサイトを
チームに波及させ、一台のマシンに閉
じ込めず、何千台にスケールさせること
ができます。」
WOJCIECH ZAREMBA
Co-founder of OpenAI
Genentechは深層学習を使って感染
病に有効な新しい抗生物質を
探しています
「W&Bのおかげで、私たちは意味の
ある科学研究により多くの時間を費
やすことができます。」
Stephen Ra
Machine Learning Lead

W&Bをご活用されている日本のお客様・ユーザー様
生成AIを開発する上でWeights &
Biasesプラットフォームは必要不可
欠なサービスとなっています。性
能のモニタリング/チーム内での共
有のような実験管理から、
LLMア
プリケーションのための検証まで、
様々な役立つ機能が提供されて
おり、生成AI開発における羅針盤
のような役割を果たしています。
WandBは、生成AI開発において効
率化と高速化を実現する優れたプ
ラットフォームであり、その採用に
より、富士通のAI開発のさらなる
加速を目指します。特に、スー
パーコンピュータ「富岳」を活用し
た大規模言語モデルの分散並列
学習手法の開発においては、
WandBが大規模言語モデルの開
発・運用・管理を効率化すること
で、イノベーションの創出に大きく
貢献すると期待しています。
...
毎朝、起床してWandBを開くのが
楽しみで仕方ありません。
...
WandBを用いると、複数の学習の
過程を比較したり、チーム内で議
論したりといった分析が容易にな
るため、より優れた実験の計画を
立て、効果的に試行することがで
きます。このように、
Stability AIに
おける生成基盤モデルの構築に
あたって、WandBはなくてはならな
い存在です。
機械学習エンジニア
石上亮介氏
執行役員EVP 富士通研究所長
岡本青史氏
Senior Research Scientist
秋葉拓哉氏
Woven by Toyotaでは、W&Bの
テーブルをリーダーボードのように
使うことで、クロスファンクション
で、誰が何をしていて、どの方法
がうまく機能しているかをみること
ができ、どのチームがどの成果を
出しているかがみれる仕組みを
作っています。
Woven By Toyota
Evan Cushing氏
国内実績43社から主要企業を抜粋

Nejumi LLMリーダーボー
ドとは？

リーダーボードとは？
⇨ ベンチマークタスクで評価
した成績の順位表

Nejumi LLM Leaderboard Neo
● Jasterを使用して、評価ベンチマーク
データセットを拡張 💪
● MT-bench (JP)を用いて、生成タスクに対
する評価も追加 🚀
● 結果の可視化も強化 👁
Release with Stability AI!
nejumi.ai

Nejumi LLM Leaderboard Neo
Release with Stability AI!
nejumi.ai
● Jasterを使用して、評価ベンチマーク
データセットを拡張 💪
● MT-bench (JP)を用いて、生成タスクに対
する評価も追加 🚀
● 結果の可視化も強化 👁
一問一答形式
会話形式
複数のアプローチを組み合わせて
多面的に評価！

llm-jp-eval (Jaster)とは？
https://github.com/llm-jp/llm-jp-eval
Llm-jp-evalは、llm-jp勉強会で構築された日本語の
大規模言語モデルを自動評価するツール
● JSICK
● JSQuAD
● JSTS
● NIILC
● chABSA
● Wikipedia Annotated Corpus
(複数)
● Jamp
● JaNLI
● JCommonsenseQA
● JEMHopQA
● JNLI
● JSeM
JCommonsenseQAの例
instruction:
質問と回答の選択肢を入力として受け取り、
選択肢から回答を選択してください。なお、
回答は選択肢の番号（例：0）でするものとし
ます。回答となる数値をint型で返し、他には
何も含めないことを厳守してください。
input:
質問：電子機器で使用される最も主要な電
子回路基板の事をなんと言う？
選択肢：0.掲示板,1.パソコン,2.マザーボー
ド,3.ハードディスク,4.まな板
● 既存の日本語評価データを利用し、テキスト生成タスクの評価データセッ
トに変換
● 複数データセットを横断して大規模言語モデルの評価を実行
● 評価データのプロンプトと同形式のインストラクションデータ (jaster) を生
成

Classiﬁcation vs Text generation
https://huggingface.co/blog/evaluating-mmlu-leaderboard
尤度選択式テキスト生成式
● 択一式や抜き出し問題であっても、全ボキャブラリから生成させたテキストに対し
て評価を行う
５択問題の与えられた選択肢の中だけで評価するある種の手助け同じ５択だが、選択肢にない別の解を返したら不正解

MT-benchとは？
llm-sysによって開発されたマルチターンの質問を含む、 LLMの
ベンチマーク
● LLMがマルチターンダイアログのモデルの会話の流れと指示に従う
能力の評価を目的としており、「一般的なユースケース」と「挑戦的
な指示」の両方が含まれている
● 2つのモデルの対決 or 単体モデルの絶対評価の2通りができる
● デフォルトはgpt-4で評価する
● Stability AIが日本語タスクを作成し、公開している
● 質問の数は80問であり、8つのカテゴリに分類をされる
https://github.com/lm-sys/FastChat
https://github.com/Stability-AI/FastChat
● Math
● Coding
● Knowledge I (STEM)
● Knowledge II
(humanities/social science)
● Writing
● Roleplay
● Extraction
● Reasoning
Writingの例
1st turn
新入社員へのビジネスメールのエチケットに
ついての指導書を作成してください。敬語の
正しい使い方や、日本のビジネス文化での
注意点を取り入れてください。
2nd turn
自分の作成した指導書を客観的に評価し、
改善点があれば指摘してください。

リーダーボードの
コピー / インポート

自分/自社専用の非公開リーダーボードを作ろう！
Nejumiリーダーボードの作り込
まれたアセットと網羅的な評価
結果をそのままコピーして自分
だけの非公開ページを作ること
ができる！

リーダーボード用のプロジェクトを作成する（任意）
リーダーボードを格納するプロジェクトを作成す
る
（既存のプロジェクトを用いる場合は不要）

リーダーボード用のプロジェクトを作成する（任意）
プロジェクト名とentity
（個人ないしチーム）を
指定する

Nejumiリーダーボードを複製する
「··· 」アイコンをクリックして
Make a copyを選択
コピー先のentity/projectを
指定してClone report

それ以外の場合
（Dedicated Cloud等）
注意：本スクリプトは製品サポート対象外のサンプルです

Wandb 0.15.6と必要なライブラリをインストールする
● 本サンプルコードは0.15.6でのみ動作します
● Nejumiリーダーボードのインポートのみを対象としています

WandbParquetImporterを使用してSaaSからインポート
importer = WandbParquetImporter(
src_base_url="https://api.wandb.ai",# SaaSのBase_URL
src_api_key="your-saas-api-key-here",# SaaSのAPI Key
dst_base_url="https://your-dedicated-cloud.wandb.io",# import先のBase_URL
dst_api_key="your-dedicated-cloud-apy-key-here",# import先のAPI Key
)
src_entity = "wandb-japan"#importしたいプロジェクトを含むentity,
src_project = "llm-leaderboard"#importしたいプロジェクト
dst_entity = "your-dedicated-cloud-entity"#import先のentity
dst_project = "your-project-name"#import先のプロジェクト
tag = "leaderboard"#import対象のRUNをtagで絞り込む
runs = importer.collect_runs(src_entity)
for run in runs:
if tag in run.tags():
importer.import_run(run, overrides={"entity": dst_entity, "project":dst_project})

Nejumiリーダーボードを参考にレポートを編集しよう！

自社モデルの評価結果の
追加方法

各種環境変数の設定を行う
# 環境変数の設定
export WANDB_API_KEY=<your WANDB_API_KEY>
export OPENAI_API_KEY=<your OPENAI_API_KEY>
# 必要に応じて、以下の APIキーも設定してください
export ANTHROPIC_API_KEY=<your ANTHROPIC_API_KEY>
export GOOGLE_API_KEY=<your GOOGLE_API_KEY>
export COHERE_API_KEY=<your COHERE_API_KEY>
export MISTRAL_API_KEY=<your MISTRAL_API_KEY>
# Bedrock用のAWS認証情報が必要な場合は設定してください
export AWS_ACCESS_KEY_ID=<your AWS_ACCESS_KEY_ID>
export AWS_SECRET_ACCESS_KEY=<your AWS_SECRET_ACCESS_KEY>
export AWS_DEFAULT_REGION=<your AWS_DEFAULT_REGION>
# 必要に応じて、 huggingfaceにログインしてください
huggingface-cli login
# 必要に応じて
export LANG=ja_JP.UTF-8
OPENAI_API_KEYとWANDB_API_KEY
以外は使うもののみで OK

# LLMリーダーボードリポジトリのクローン
git clone https://github.com/wandb/llm-leaderboard.git
cd llm-leaderboard
# config/config.yamlを用意しておく
cp configs/config_template.yaml configs/config.yaml
# Python仮想環境のセットアップと依存関係のインストール
python3 -m venv llmjp
source llmjp/bin/activate
pip install -r requirements.txt
# LLM評価の実行
python3 scripts/run_eval.py
llm-leaderboardのセットアップと評価実行

wandb:
log: True
entity: "wandb-japan"
project: "llm-leaderboard"
run_name: 'mistralai/Mistral-7B-Instruct-v0.2' # use run_name defined above
github_version: v2.0.0 #for recording
testmode: true
# if you don't use api, please set "api" as "false"
# if you use api, please select from "openai", "anthoropic", "google", "cohere"
api: false
model:
use_wandb_artifacts: false
artifacts_path: ""
pretrained_model_name_or_path: 'mistralai/Mistral-7B-Instruct-v0.2' #if you use openai api, put the name of
model
trust_remote_code: true
device_map: "auto"
load_in_8bit: false
load_in_4bit: false
generator:
top_p: 1.0
top_k: 0
temperature: 0.1
repetition_penalty: 1.0
tokenizer:
use_wandb_artifacts: false
artifacts_path: ""
pretrained_model_name_or_path: "mistralai/Mistral-7B-Instruct-v0.2"
use_fast: true
conﬁg.yamlの設定（概要、モデルとトークナイザ）

# for llm-jp-eval
max_seq_length: 2048
dataset_artifact: "wandb-japan/llm-leaderboard/jaster:v3" #if you use artifacts, please fill here (if not, fill
null)
dataset_dir: "/jaster/1.1.0/evaluation/test"
target_dataset: "all" # {all, jamp, janli, jcommonsenseqa, jemhopqa, jnli, jsem, jsick, jsquad, jsts, niilc,
chabsa}
log_dir: "./logs"
torch_dtype: "bf16" # {fp16, bf16, fp32}
custom_prompt_template: "<s> [INST] {instruction}n{input}[/INST]"
custom_fewshots_template: null
# Please include {input} and {output} as variables
# example of fewshots template
# "n### 入力：n{input}n### 回答：n{output}"
metainfo:
basemodel_name: "mistralai/Mistral-7B-Instruct-v0.2"
model_type: "open llm" # {open llm, commercial api}
instruction_tuning_method: "None" # {"None", "Full", "LoRA", ...}
instruction_tuning_data: ["None"] # {"None", "jaster", "dolly_ja", "oasst_ja", ...}
num_few_shots: 0
llm-jp-eval-version: "1.1.0"
conﬁg.yamlの設定（llm-jp-eval）

# for mtbench
mtbench:
question_artifacts_path: 'wandb-japan/llm-leaderboard/mtbench_ja_question:v0' # if testmode is true, small
dataset will be used
referenceanswer_artifacts_path: 'wandb-japan/llm-leaderboard/mtbench_ja_referenceanswer:v0' # if testmode is
true, small dataset will be used
judge_prompt_artifacts_path: 'wandb-japan/llm-leaderboard/mtbench_ja_prompt:v1'
bench_name: 'japanese_mt_bench'
model_id: null # cannot use '<', '>', ':', '"', '/', '', '|', '?', '*', '.'
question_begin: null
question_end: null
max_new_token: 1024
num_choices: 1
num_gpus_per_model: 1
num_gpus_total: 1
max_gpu_memory: null
dtype: bfloat16 # None or float32 or float16 or bfloat16
# for gen_judgment
judge_model: 'gpt-4'
mode: 'single'
baseline_model: null
parallel: 1
first_n: null
# for conv template # added
custom_conv_template: true
# the following variables will be used when custom_conv_template is set as true
conv_name: "custom"
conv_system_message: ""
conv_roles: "('[INST]', '[/INST]')"
conv_sep: "</s> "
conv_stop_token_ids: "[2]"
conv_stop_str: "</s> "
conv_role_message_separator: " "
conv_role_only_separator: " "
conﬁg.yamlの設定（Japanese MT-Bench）

conﬁg.yamlは過去実行分が全てキャプチャされている
公開されているnejumi.aiのプロジェクトか
ら過去実行分のconfig.yamlも全部見れる
ので、参考にすると良い

キューの設定
① Launchから Create a queueをクリック
② Queueを紐づけるentityとリソース、
Configuraitonを設定する。

エージェントの実行
① 作成したキューのAgents画面からAdd
an agentをクリックする
② 表示されたコマンドをジョブを実行する
計算機環境上で実行する

ジョブの実行
① Jobsをクリック
② For Launchをク
リック
③ configをやりたい
内容に編集する
④ キューを選択する
⑤ 実行する

自社モデルの評価結果の
追加方法

評価データセットのArtifactに独自評価データを追加
import wandb
run = wandb.init(entity='wandb-japan',
project='llm-leaderboard-add_dataset')
# jasterデータセットのアーティファクトを取得する
artifact = run.use_artifact('wandb-japan/llm-leaderboard/jaster:v3',
type='dataset')
artifact_dir = artifact.download()
# artifact_dir内にオリジナルデータセットを追加する(dev, test以外にtrainも必須)
# 保存する
artifact_new = wandb.Artifact(name='jaster-custom', type='dataset')
artifact_new.add_dir(artifact_dir)
run.log_artifact(artifact_new)
run.finish()
*MT-Benchに追加したい場合は同様に以下をカスタマイズする
'wandb-japan/llm-leaderboard/mtbench_ja_question:v0'
'wandb-japan/llm-leaderboard/mtbench_ja_referenceanswer:v0'

utils.pyの後処理と集計に関する部分を修正する (nice to have)

conﬁg.yamlにアップデートしたアーティファクトを反映
# for llm-jp-eval
max_seq_length: 2048
dataset_artifact: "wandb-japan/llm-leaderboard-add_dataset/jaster-custom:v1" #url of wandb
reference artifacts
dataset_dir: "/jaster/1.1.0/evaluation/test"
target_dataset: "wandb"
log_dir: "./logs"
torch_dtype: "bf16" # {fp16, bf16, fp32}
custom_prompt_template: null

W&Bが提供する充実したアセット
ドキュメント
クイックスタートから詳細な
APIの使い方の説明
が記載されています
コース
W&Bだけではなく、ML・DLのベストプラクティス
を学べるいくつかのコースを無料で提供していま
す。
Wand community / WandBot
Wandbはcommunity チャネルを運用していま
す
wandb.me/jp-slack
そこではLLMを用いたWandBotも使用すること
ができます
Github
wandbのgithubではコード例なども共有されて
います
Fully Connected
様々な公開レポートや業界のリーダーと対談し
たPodcastが集約されています

ウェビナー：Nejumiリーダーボードを使った自社LLMモデルの独自評価.pdf

ウェビナー：Nejumiリーダーボードを使った自社LLMモデルの独自評価.pdf

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to ウェビナー：Nejumiリーダーボードを使った自社LLMモデルの独自評価.pdf

Similar to ウェビナー：Nejumiリーダーボードを使った自社LLMモデルの独自評価.pdf (20)

More from Yuya Yamamoto

More from Yuya Yamamoto (7)

Recently uploaded

Recently uploaded (15)

ウェビナー：Nejumiリーダーボードを使った自社LLMモデルの独自評価.pdf