SlideShare a Scribd company logo
Measuring Metrics
Watabe Hiroaki
名前:渡部 裕晃
職歴:2017卒
- 大和総研
- データサイエンティスト
- サイバーエージェント アドテクスタジオ
- サーバーサイドエンジニア
- サイバーエージェント 秋葉原ラボ
- MLエンジニア
趣味:筋トレ,スノボ,ウェイク,バスケ,FPS
自己紹介
アウトライン
1. やっていること
2. Trustworthy Online Controlled Experiments の紹介
3. Measuring Metrics の紹介
やっていること
- ABEMAの検索機能の改善
- どんな本?
- オンラインABテストについての本
- 実践向き
- Google, LinkedIn, Microsoftなどの具体例がいっぱい
- 著者
- Ron Khavi (Airbnb, Microsoft, Amazon, Stanford)
- Diane Tang (Google, Stanford)
- Ya Xu (LinkedIn, Stanford)
Trustworthy Online Controlled Experiments の紹介
- カバ本でメトリクスが満たすべき条件の一つとして掲げている「Sensitivity」に
言及する際に引用している論文.
- CIKM 2016 で発表された.
- MicrosoftのBingで5年以上使われているメトリクス評価システムを紹介.
- 著者はMicrosoftの2名
Measuring Metrics の紹介
- メトリクスとは
- 組織で目標を設定し、顧客にどの新しい製品や機能を提供すべきか、どの新しいテストを実施す
べきか、どれくらいリソースの割り当てるべきかを決定する強力なツール.
- 主要なメトリクスへの貢献を目指し,各チームがパフォーマンス目標を設定する.
- Bing や Googleなどの検索エンジンの場合,主要なメトリクスはNDCG[1].
- クロールやインデックス作成,ランキングなどを担当する各チームはNDCGの改善を目指
す
- 会社の長期的な利益に繋がるメトリクスの作成は難しい
- 企業は,success,delight,loyality,eagagement,life-time valuleなどの抽象的なかつ主観的な
概念捉えようとするが,これらを定義する標準的な方法はない.でも定義して計測していかない
といけない.
- 検索エンジンにおける「成功」とは?
はじめに
検索エンジンにおけるシナリオ
- ユーザーが必要な情報を見つけることができた頻度を「成功」の指標とする
- ユーザーが検索結果をクリックしてからの滞在時間を加味.
- 捉えきれないシナリオ
- ユーザが何もクリックせずに検索エンジンの結果ページからクエリへの回答を直接取得する
シナリオ(good abandonment).
- 例:「サンディエゴ 時間」
- ユーザーがエンジンの結果ページを素早く閲覧し、必ずしも単一の回答を求めていない探索
的なシナリオ.
- 例:「新しい映画」
- 「もしかして」「クエリ補完」に対するクリックの扱い.
- 画像やビデオ検索に遷移するクリックの扱い.
- ユーザの検索体験が向上しそうな機能を追加しても「成功」の指標が低下する
可能性がある
- すべてのシナリオを計測できる優れた「成功」を示すメトリクスを作成するのは難しい.
検索エンジンにおけるシナリオ
優れたメトリクスを設計するための鍵
- 優れたメトリクスを設計するためには...
- メトリクスの品質を測定する能力
- メトリクスを比較する能力
- この論文の貢献
- Bingにおいて優れたメトリクスの重要な特性(メタメトリクス)を定義して,どのように形式化
されているかを紹介.
- メトリクスの品質を評価するために,データの品質,スケーラビリティ,パフォーマンスの
問題を対処することができるシステムアーキテクチャの紹介.
- 提案するフレームワークをいくつかの一般的な検索に関する指標に適用して、より適切でよ
り感度の高いメトリクスを取得する方法.
- フレームワークを適用してメトリクス改善のアイデアを評価する3つの実例.
- Metrics to evaluate
- 評価したいメトリクス.Bingでは新しいメトリクスの場合,用意しておいた構文を使って定
義してあげる必要がある.
- Dataset(Experiment Corpus)
- これまでのA/Bテストのデータセット.
- Computation Engine(Metrics Lab)
- Dataset を使って各A/Bテストの各メトリクスの統計量を効率的に計算する.
- 検索エンジンのログからデータを抽出して指標を計算する,
- Analysis and Reporting
- 計算された各メトリクスの統計値を,いくつかの品質基準(メタメトリック)に従って評価
し,各メトリクスの個々のパフォーマンスおよびメトリクス比較のレポートを生成する.
Metric Evaluation Framework
- 多角的な評価のための2種類のコーパス
- 無作為抽出コーパス(randomly selected sample corpus)
- 過去に実行されたA/Bテストのデータセット.
- 例:機能の追加のA/Bテストやランキングアルゴリズムの変更のA/Bテストなど.
- お手製ポジネガコーパス(manually constructed based on experiment “interestingness” corpus)
- 各A/Bテストに “positive” または “negative” のラベルがついたA/Bテストのデータセット.
- 例:「この機能によりユーザはBingでの検索体験が向上しましたか?」
Dataset (Experiment Corpus)
- 無作為抽出コーパス
- 過去に実行されたA/Bテストのデータセット.
- 例:機能の追加のA/Bテストやランキングアルゴリズムの変更のA/Bテストなど
- 誤った設計のA/Bテストやサンプル数を確保できず検出力不足のA/Bテストを除外するための
仕組みが必要.
- 「妥当な」範囲内にメトリクスが収まっているかフィルターを用意する.
- A/Bテストによって収益が2倍になった→ほぼ確実に設計ミス
- 検出力分析をする.
Dataset (Experiment Corpus)
Experiment 1 Experiment 2 Experiment N
Treatment Control Treatment Control Treatment Control・・・
Dataset (Experiment Corpus)
- お手製ポジネガコーパス
- 各A/Bテストに “positive” または “negative” のラベルをつける.
- 例:「この機能によりユーザはBingでの検索体験が向上しましたか?」
- このラベルを使ってユーザに提供するか判断するわけではない.
- そもそもA/Bテスト自体,ユーザの行動を理解することだけを目的としているのであって
ユーザに提供することを意図しているわけではない.
- Bingでは,A/Bテストの実施者が専門家と一緒に候補となる実験をレビューする.
- 既存のメトリクス
- その機能に関するユーザの研究
- その機能に関するユーザのフィードバック
- その他の利用可能なデータ
- アナリストが定性的な分析を行ってメトリクスの変化を引き起こした原因を特定しメトリクス
をさらに改善する方法について仮説が立てられるくらい実験について詳細に記述されている.
- お手製ポジネガコーパスを作るプロセスは本質的に偏っている.
- お手製ポジネガコーパス
- 各A/Bテストに “positive” または “negative” のラベルをつける.
- 例:「この機能によりユーザはBingでの検索体験が向上しましたか?」
- このラベルを使ってユーザに提供するか判断するわけではない.
- そもそもA/Bテスト自体,ユーザの行動を理解することだけを目的としているのであって
ユーザに提供することを意図しているわけではない.
Dataset (Experiment Corpus)
Experiment 1 Experiment 2 Experiment N
Treatment Control Treatment Control Treatment Control・・・
or or or
- 優れたメトリクスの2つの特性[2]
a. 個々のチームがその指標に直接影響を与えることができる.
b. その指標を改善することで会社を長期的な望ましい結果に導くことができる.
- 自動車会社の例
- 営業チーム:収益やマージン
- 商品開発チーム:ユーザ満足度や開発サイクル時間や開発コスト,製造ラインにおける他プロダ
クトとのシナジー
- 研究チーム:トップカンファレンスへの論文投稿数
Metric Evaluation
- メタメトリクスの種類
- 感度に関するメタメトリクス
- 無作為抽出コーパス使用
- ユーザ価値に関するメタメトリクス
- お手製ポジネガコーパス使用
Metric Evaluation
e_1 e_N
Treatment Control Treatment Control
・・・
感度に関する
メタメトリクス
算出
メトリクスの感度とは
- 2つの要素から成る[3]
- 変動確率(Movement probability)
- テストしたい変更(機能追加など)がメトリクスに影響を与える頻度.真の効果があった
としてもいつ効果を観測できるか分からない.
- 例:ユーザ当たりのセッション数をメトリックとした場合,どんなに良い機能追加だった
としてもすぐに影響を受けない.
- 検出力(Statistical power)
- 機能の変更によりメトリクスを動かす真の効果があった場合、その効果を検出できるか.
- 例:ユーザ当たりの収益をメトリックとした場合,分散が大きく統計的検出力が低いため,
影響を受けない.
感度の高いメトリクスを使うと
- 小さな変更をより早く検出できるため,実験の実行に必要な時間が短縮され,
実験と意思決定の俊敏性が向上する.
- どのメトリックに焦点を当てるかを決定するときに考慮する必要があるのは感度だけではな
い.
- 感度軸でメトリックを比較すると,有益な洞察が得られる
感度の特性
- メトリクスの感度は3つの要因に依存する(使用する検定を変更しないと仮定)
- データの量(Bingではユーザ数やクエリ数)
- メトリクスの分散
- 効果量の差
- 効果量の差はA/Bテストの種類に依存する
- ページの視覚的な機能の追加/削除を伴うA/Bテストの場合
- ページ読み込み時間は非常に感度の良いメトリックになる可能性がある.
- ランキングアルゴリズムの変更を伴うA/Bテストの場合
- ページ読み込み時間クエリのクリック率
- コーパスがこのコンテキストを判断しているらしい → A/Bテストにメトリクスが紐づいている(?)
感度に関するメタメトリクス
- Sensitivity
- m をあるメトリック,{e_1, e_2, …, e_N} をコーパス内の実験セットとする.t_i を実験 e_i
のメトリック m に統計検定を適用して得られる統計検定量として,abs(t_i) をその絶対値と
する.
- 検定統計量が大きいほど,p値は小さくなってより敏感になる.
- コーパス全体の感度スコアが大きいほど,そのメトリックは様々な種類のA/Bテストでより感
度が高く,より多くのチームがそのメトリックに影響を与えることができる.
- 優れたメトリックの望ましい性質の1つ.
感度に関するメタメトリクス
e_1 e_2 e_N
Treatment Control
t_1
Treatment Control Treatment Control
t_2 t_N
・・・
・・・
N
- BinarySensitivity
- さらに,メトリックが統計的に有意であるかを決定するために使用される検定統計量の閾値
を t として,l(a) をaがtrueの場合は1,そうでない場合は0を示す指示関数とする.
- 異常値に対してロバストであり、解釈が容易.
- p値を0.05としたとき,t=1.96となる.
感度に関するメタメトリクス
感度に関するメタメトリクス
I( t_1 < t ) ・・・
N
I( t_2 < t ) I( t_N < t )
e_1 e_2 e_N
Treatment Control Treatment Control Treatment Control・・・
感度に関するメタメトリクス
ユーザに発生したイベントを数えるだけのメトリックは感度が良くない
感度に関するメタメトリクス
正規化による分散の減少
(外れ値の排除することで分散を減らす手法もある[4])
感度に関するメタメトリクス
Queries per User < Queries per Session
- ユーザ当たりのクエリ数(Queries per User)よりセッション
当たりのクエリ数(Queries per Session)の方が感度が良い
Queries with Clicks per User < Overall Query Click Rate
- ユーザ当たりのクリックが発生したクエリ数(Queries with Clicks
per User)よりクエリのクリック率(Overall Query Click Rate)の方
が感度が良い
Web Results Click Rate
- クリックをページのある領域から別の領域に変えるA/Bテ
ストは比較的簡単だが,全体的なクリック数を増やすこと
は難しい[4].
感度に関するメタメトリクス
Related Searches Click Rate
- 検索の品質向上によりクエリの再構成が減少するため,
”Reated searches” のエンゲージメントに影響を与える.
- あるページ上の特定の機能を追加するA/Bテストを実施し
たとき,その機能のエンゲージメントが向上したことを成
功とみなしてしまうA/Bテストのあるあるに注意.
ユーザ価値に関するメタメトリクス
- LabelAgreement
- をメトリック m が統計的に有意かつ効果量とラベルの正負が一致するコーパス内の実験の数
(効果量が正でラベルが正,効果量が負でラベルが負), をメトリック m が統計的に有意か
つ効果量とラベルの正負が不一致のコーパス内の実験の数とすると,
- w1とw2は合計が1になる非負の重み.
- たいていの場合,MAX演算子は一致した数をカウントし,MIN演算子は不一致の数をカウント.
- LabelAgreement
- Bingでの運用の結果,ラベルとの不一致の数は既知の理由(ページの読み込み時間など)で発生
するため,下記のスコアが使われる.
- LabelAgreementは,メトリックが統計的に有意であることが前提.
ユーザ価値に関するメタメトリクス
Queries per User (-)
Queries per Session (-)
- 通常,検索結果の品質を向上させることは,ユーザがクエ
リを再発行しないため,セッションごと及びユーザごとで
のクエリ数は少なくなる.
「メトリック名 (+ / -) 」
- (+) だとメトリックの値とLabel Agreementが正の相関, (-
) だと負の相関があることを意味する.
ユーザ価値に関するメタメトリクス
Ads Click Rate (-)
- 広告へのユーザエンゲージメントを増加させる変更はユー
ザの価値を低下させる.
- 逆に,検索結果の品質を低下させると広告へのユーザエン
ゲージメントを高める.
ユーザ価値に関するメタメトリクス
Sessions per User (+)
- 直感的には良い機能やアルゴリズムを追加すればユーザがサ
イトにアクセスする頻度が高くなりそう.
- 多くの場合,主要なメトリックとして扱われたり,日次アク
ティブユーザーや月次アクティブユーザーとして使われる.
- しかし実際には,この指標をA/Bテストで改善することは非
常に難しいことが分かる.
- 例:ユーザのウェブ検索に対するニーズが一定であると仮定
すると,この指標は事実上別の検索エンジンから検索シェア
を奪うことを意味する.A/Bテストの短い期間にこの変化を
観測できるほどの影響をユーザに与えるのは困難.
Web Results Click Rate (+)
- 検索結果の品質を改善したり,ユーザが簡単にアクセスで
きるようにしたり,検索結果を評価しやすくしたりできる
ように変更を加えると,ユーザの価値は向上する.
- 最も感度が高く簡単なメトリクスの一つ.
- Bingでは,検索結果のクリック率より優れた指標があるら
しい(しかも,LabelAgreementが最も高い).
ユーザ価値に関するメタメトリクス
Lag Record Size (+)
Page Load Time (-)
- 検索エンジンのシステムレベルのメトリクス.
- 敏感だがLabelAgreementはかなり低い.
ユーザ価値に関するメタメトリクス
- 膨大な計算量
- 例:Experiment Corpus に100のA/Bテストがあり,各実験が2週間実施されたとして,これら
の実験のデータを生の検索エンジンのログから1つずつ単純に抽出するとすると,14(日) x
100 (A/Bテスト) / 365(日) ≈ 4年相当のログデータ,Bingの場合は数十ペタバイト(圧縮済み)の
ログデータを読みとる必要がある.
- 階層型キャッシュ構造による解決
- Metric Lab は階層型キャッシュを保有し,最適なキャッシュ階層を選ぶことで自動的にメト
リクス評価ジョブを最適化する.
- 上記の100A/Bテストのコーパスの場合,Full Log Dataのみを使用したメトリクス評価
ジョブの平均処理時間は最大で100時間ほど掛かる.
- Extracted Experiment Data キャッシュは,A/Bテストにおけるユーザのデータだけをキ
ャッシュし,これを用いて処理すると約10時間に短縮される.
- ほとんどのジョブではトリガーされたユーザのみが必要で,Triggered Experiment Data
がそのデータをキャッシュし,約7時間に短縮される.
- 再計算するのではなくPrecomputed Standard Metrics を使うと5時間まで短縮される.
Computation Engine (Metrics Lab)
- アナリストによるメトリクス評価ジョブのプロセス
- 自分のジョブのプロファイルを作成し,評価するメトリクスの名前,実行するExperiment
corpusのサブセット,及びその他運用パラメータを指定する.
- SQLに似た言語を使用して,新しいメトリックの計算ロジックを定義する.
- ほとんどの場合,類似の標準メトリクスの定義をコピーして編集して済むが,複雑な定
義が可能なほど言語は強力らしい.
- ジョブを実行する.
- Metrics Labはアクセスする必要のあるキャッシュ階層を自動的に決定して,一連のスクリプ
トを生成し,データが保存されているクラウドクラスタに送信する.
- スクリプトが完了するとアナリストは,結果をダウンロード,マージ,評価基準の計算,レ
ポートの生成を行う分析スクリプトを実行する.
アナリストによるレポートの作成
自動化
- Metrics Lab における自動化
- 全てのメタメトリクスを含むレポートを自動で生成する.
- アナリストが比較したいペアのメトリクスを指定して,双方のメトリクスにおいてA/Bテスト
の結果が一致しない実験の一覧を生成する.
- A/Bテストで最も頻繁に影響を受けるクエリのメトリクスなどのデバッグ情報も生成する.
experiment 1 experiment 2 experiment 3 ・・・
メトリックA positive positive p > 0.05 ・・・
メトリックB negative p > 0.05 negative ・・・
Case Study 1:重複クエリの扱い
- 重複クエリとは
- 同じセッション内でユーザが続けて2回発行した同じ内容のクエリのこと.
- 全てのクエリの10%近く占める
- ユーザが実際に入力したクエリもあれば,ブラウザのキャッシュの削除,意図しないダブル
クリック,サードパーティシステムからの呼び出しのエラーなどが原因
- 課題設定
- メトリックの計算に全てのクエリを使用すべきか
- 重複するクエリはマージしてクリックやホバーなどのユーザ行動を結合することで最初に重
複排除するべきか
- 観点
- 非ユーザが発行した重複クエリからノイズを取り除くことができる
- ユーザが実際に入力した重複クエリから得られるシグナルが失われる可能性がある
クエリごとのクリック数など検索エンジンの主要なメトリクスに使われるので重要
従来のアプローチ
- ラベル付きデータの収集による従来のアプローチ
- ユーザなのか非ユーザなのか判断するのは非常に難しい.
- できたとしても,ノイズを減らすこととユーザからのシグナルを失うことのトレードオフを
正しく評価することはできない.
- でも,大丈夫.そう,Metric Evaluation Frameworkならね.
- 3つのメトリクスについて,重複があるバージョンとないバージョンのそれぞれで計測する.
- クエリのクリック率(Query Click Rate)
- クリック後に一定時間滞在したクリック率(Query Long Click Rate),
- 直帰率(Quickback Rate)
結果
- Sensitivity,LabelAgreement,LabelDisagreementの差の絶対値で判断
- 重複除外したメトリックのパフォーマンスが良い場合は緑,逆は赤.
- 重複除外したメトリックの方がほとんどの評価基準で良いパフォーマンスを示した.
- デバッグツールによる調査
- Sensitivityの差が2であったが,ツールを使うと9つの実験において結果が一致していなかった.
experiment 1 experiment 2 experiment 3 ・・・ experiment 9
メトリックA positive positive positive ・・・ negative
メトリックB negative p > 0.05 negative ・・・ p > 0.05
- 多くのメトリクスは閾値を設けている
- 例:クリックされた検索エンジンの結果がユーザのニーズを満たしたかどうかを判断するた
めに,クリック後の滞在時間を計測する[5].
- 課題設定
- クリック後の滞在時間の閾値の変化がメトリクスの品質に与える影響を理解する.
- 15秒,30秒,60秒
Case Study 2:メトリクスの閾値の変更
- ラベル付きデータの収集による従来のアプローチ
- クリックのログにユーザ自身もしくは他の人の判断によって,”success” ラベルもしく
は, ”failure”ラベルをつける.そのラベルと閾値によって生成されたラベルを比較して最適な
閾値を決める[5].
- 学習データの取得にコストが掛かるし,判断難しいし,バイアスが入る.
- クリックの成功の定義の正確さを評価するだけで,この定義に基づいてメトリックがどの程
度改善されたか分からない.
- でも,大丈夫.そう,Metric Evaluation Frameworkならね.
- 5つのメトリクスについて15秒,30秒,60秒の閾値のバージョンを実装する.
- メトリクスは非公開
- Metric Lab を使うと1~2日以内に結果が分かる.
従来のアプローチ
結果
- 30秒をベースラインとして,LabelAgreementの差で判断
- 60秒のバージョン
- 全てのメトリクスにおいてベースラインと同等かそれ以下.
- 15秒のバージョン
- 全体的に良いわけではなく,コーパス内の100以上のA/Bテストを使って評価が行われ
たと考えると,絶対的な差は非常に小さい.
- 閾値がメタメトリクスに強い影響を与えることはほとんどなかった
- セッションの非アクティブを検出する閾値(30分間がベースライン)についても同様の調査を
行ったが,妥当な範囲内でだった.
Metrics Experiment 1 Experiment 2 Experiment 3 ・・・ Experiment N
15 ver.
M1 positive positive positive ・・・ p > 0.05
M2 negative p > 0.05 negative ・・・ positive
・・・ ・・・ ・・・ ・・・ ・・・ ・・・
30 ver.
M1 positive p > 0.05 p > 0.05 ・・・ p > 0.05
M2 negative positive negative ・・・ positive
・・・ ・・・ ・・・ ・・・ ・・・ ・・・
60 ver.
M1 positive p > 0.05 p > 0.05 ・・・ p > 0.05
M2 negative positive negative ・・・ positive
・・・ ・・・ ・・・ ・・・ ・・・ ・・・
結果
Case Study 3:ユーザの労力に関するメトリクス
- ユーザがお目当ての情報を手に入れるまでの労力を計測する
- 例:ユーザセッションの開始(最初のクエリ)から最初の結果のクリックまでの時間(Time to
Click)[6].
- 課題設定
- ユーザがクリック後少なくとも30秒間検索エンジンに戻らないクリックまでの時間(Time to
Long Click)を定義する.
- Time to Click と Time to Long Click のどちらがメトリクスとして優れているか.
- Time to Long Click に切り替えたことによりメトリックの品質が向上
- Sensitivity はほぼ2倍,Label Agreement は3倍,Label Disagreement は同じ.
- 検索結果の品質,ユーザインターフェースの改善,広告などほぼ全ての機能において有意とな
っていた.
- Time to Click と Time to Long Click で判定が一致しないケースもあった.
- どちらも統計的に有意だが,Time to Long Click が正しく,Time to Click が誤っていた.
(どうやって確認した?)
結果
まとめ
- A/Bテストに対する姿勢に誠実さが垣間見えた
- A/Bテストはユーザの行動を理解することだけを目的としているのであってユーザに提供するこ
とを意図しているわけではない.
- 誤った設計のA/Bテストやサンプル数を確保できず検出力不足のA/Bテストがある前提.
- フレームワーク側で除外するための仕組みを実装.
- プロダクトのビジョンがあるからこそコーパスを作ることができる
- プロダクトがユーザに提供したい価値を自分たちで定義できるからこそ,バイアスを受け入れた
上でラベリングができるのだと思った.
- 一方で,コーパス内のデータセットとメトリクスの対応づけをどのように定めているか気になっ
た.
- これぞデータドリブンな組織
- Microsoftすごい
引用論文
[1] Jarvelin, K. and Kekalainen, J. Cumulated gain-based evaluation of IR techniques. ACM
Transactions on Information Systems 20(4), 422–446, 2002.
[2] Hauser, J. and Katz, G. Metrics: you are what you measure! European Management
Journal, 1998.
[3] Somit Gupta, Xiaolin Shi, Pavel Dmitriev, Xin Fu, Avijit Mukherijee. Challenges, Best
Practices and Pitfalls in Evaluating Results of Online Controlled Experiments. WSDM, 2020
[4] Kohavi, R., Deng, A., Longbotham, R. and Xu, Y. Seven Rules of Thumb for Web Site
Experimenters. Conference on Knowledge Discovery and Data Mining, 2014.
[5] Kelly, D. and Teevan, J. Implicit feedback for inferring user preference: A bibliography.
ACM SIGIR Forum, 37(2), pp. 18-28, 2003.
[6] Sadeghi, S., Blanco, R., Mika, P., Sanderson, M., Scholer, F., and Vallet, D. Predicting
Re-Finding Activity and Difficulty. European Conference on Information Retrieval, 2015.

More Related Content

Recently uploaded

FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdfFIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance
 
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
Matsushita Laboratory
 
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdfFIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance
 
This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.
chiefujita1
 
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
Fukuoka Institute of Technology
 
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
Matsushita Laboratory
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
CRI Japan, Inc.
 
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdfFIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
harmonylab
 
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
Toru Tamaki
 
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdfFIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance
 
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさJSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
0207sukipio
 
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdfFIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance
 
CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料
Yuuitirou528 default
 

Recently uploaded (14)

FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdfFIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
 
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
 
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdfFIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
 
This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.
 
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
 
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
 
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdfFIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
 
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
 
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdfFIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
 
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさJSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
 
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdfFIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdf
 
CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料
 

Featured

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
Marius Sescu
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
Expeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
Pixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
ThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
marketingartwork
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
Skeleton Technologies
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
SpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Lily Ray
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
Rajiv Jayarajah, MAppComm, ACC
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
Christy Abraham Joy
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
Vit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
MindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
RachelPearson36
 

Featured (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

Measuring Metrics

  • 2. 名前:渡部 裕晃 職歴:2017卒 - 大和総研 - データサイエンティスト - サイバーエージェント アドテクスタジオ - サーバーサイドエンジニア - サイバーエージェント 秋葉原ラボ - MLエンジニア 趣味:筋トレ,スノボ,ウェイク,バスケ,FPS 自己紹介
  • 3. アウトライン 1. やっていること 2. Trustworthy Online Controlled Experiments の紹介 3. Measuring Metrics の紹介
  • 5. - どんな本? - オンラインABテストについての本 - 実践向き - Google, LinkedIn, Microsoftなどの具体例がいっぱい - 著者 - Ron Khavi (Airbnb, Microsoft, Amazon, Stanford) - Diane Tang (Google, Stanford) - Ya Xu (LinkedIn, Stanford) Trustworthy Online Controlled Experiments の紹介
  • 6. - カバ本でメトリクスが満たすべき条件の一つとして掲げている「Sensitivity」に 言及する際に引用している論文. - CIKM 2016 で発表された. - MicrosoftのBingで5年以上使われているメトリクス評価システムを紹介. - 著者はMicrosoftの2名 Measuring Metrics の紹介
  • 7. - メトリクスとは - 組織で目標を設定し、顧客にどの新しい製品や機能を提供すべきか、どの新しいテストを実施す べきか、どれくらいリソースの割り当てるべきかを決定する強力なツール. - 主要なメトリクスへの貢献を目指し,各チームがパフォーマンス目標を設定する. - Bing や Googleなどの検索エンジンの場合,主要なメトリクスはNDCG[1]. - クロールやインデックス作成,ランキングなどを担当する各チームはNDCGの改善を目指 す - 会社の長期的な利益に繋がるメトリクスの作成は難しい - 企業は,success,delight,loyality,eagagement,life-time valuleなどの抽象的なかつ主観的な 概念捉えようとするが,これらを定義する標準的な方法はない.でも定義して計測していかない といけない. - 検索エンジンにおける「成功」とは? はじめに
  • 8. 検索エンジンにおけるシナリオ - ユーザーが必要な情報を見つけることができた頻度を「成功」の指標とする - ユーザーが検索結果をクリックしてからの滞在時間を加味. - 捉えきれないシナリオ - ユーザが何もクリックせずに検索エンジンの結果ページからクエリへの回答を直接取得する シナリオ(good abandonment). - 例:「サンディエゴ 時間」 - ユーザーがエンジンの結果ページを素早く閲覧し、必ずしも単一の回答を求めていない探索 的なシナリオ. - 例:「新しい映画」 - 「もしかして」「クエリ補完」に対するクリックの扱い. - 画像やビデオ検索に遷移するクリックの扱い.
  • 10. 優れたメトリクスを設計するための鍵 - 優れたメトリクスを設計するためには... - メトリクスの品質を測定する能力 - メトリクスを比較する能力 - この論文の貢献 - Bingにおいて優れたメトリクスの重要な特性(メタメトリクス)を定義して,どのように形式化 されているかを紹介. - メトリクスの品質を評価するために,データの品質,スケーラビリティ,パフォーマンスの 問題を対処することができるシステムアーキテクチャの紹介. - 提案するフレームワークをいくつかの一般的な検索に関する指標に適用して、より適切でよ り感度の高いメトリクスを取得する方法. - フレームワークを適用してメトリクス改善のアイデアを評価する3つの実例.
  • 11. - Metrics to evaluate - 評価したいメトリクス.Bingでは新しいメトリクスの場合,用意しておいた構文を使って定 義してあげる必要がある. - Dataset(Experiment Corpus) - これまでのA/Bテストのデータセット. - Computation Engine(Metrics Lab) - Dataset を使って各A/Bテストの各メトリクスの統計量を効率的に計算する. - 検索エンジンのログからデータを抽出して指標を計算する, - Analysis and Reporting - 計算された各メトリクスの統計値を,いくつかの品質基準(メタメトリック)に従って評価 し,各メトリクスの個々のパフォーマンスおよびメトリクス比較のレポートを生成する. Metric Evaluation Framework
  • 12. - 多角的な評価のための2種類のコーパス - 無作為抽出コーパス(randomly selected sample corpus) - 過去に実行されたA/Bテストのデータセット. - 例:機能の追加のA/Bテストやランキングアルゴリズムの変更のA/Bテストなど. - お手製ポジネガコーパス(manually constructed based on experiment “interestingness” corpus) - 各A/Bテストに “positive” または “negative” のラベルがついたA/Bテストのデータセット. - 例:「この機能によりユーザはBingでの検索体験が向上しましたか?」 Dataset (Experiment Corpus)
  • 13. - 無作為抽出コーパス - 過去に実行されたA/Bテストのデータセット. - 例:機能の追加のA/Bテストやランキングアルゴリズムの変更のA/Bテストなど - 誤った設計のA/Bテストやサンプル数を確保できず検出力不足のA/Bテストを除外するための 仕組みが必要. - 「妥当な」範囲内にメトリクスが収まっているかフィルターを用意する. - A/Bテストによって収益が2倍になった→ほぼ確実に設計ミス - 検出力分析をする. Dataset (Experiment Corpus) Experiment 1 Experiment 2 Experiment N Treatment Control Treatment Control Treatment Control・・・
  • 14. Dataset (Experiment Corpus) - お手製ポジネガコーパス - 各A/Bテストに “positive” または “negative” のラベルをつける. - 例:「この機能によりユーザはBingでの検索体験が向上しましたか?」 - このラベルを使ってユーザに提供するか判断するわけではない. - そもそもA/Bテスト自体,ユーザの行動を理解することだけを目的としているのであって ユーザに提供することを意図しているわけではない. - Bingでは,A/Bテストの実施者が専門家と一緒に候補となる実験をレビューする. - 既存のメトリクス - その機能に関するユーザの研究 - その機能に関するユーザのフィードバック - その他の利用可能なデータ - アナリストが定性的な分析を行ってメトリクスの変化を引き起こした原因を特定しメトリクス をさらに改善する方法について仮説が立てられるくらい実験について詳細に記述されている. - お手製ポジネガコーパスを作るプロセスは本質的に偏っている.
  • 15. - お手製ポジネガコーパス - 各A/Bテストに “positive” または “negative” のラベルをつける. - 例:「この機能によりユーザはBingでの検索体験が向上しましたか?」 - このラベルを使ってユーザに提供するか判断するわけではない. - そもそもA/Bテスト自体,ユーザの行動を理解することだけを目的としているのであって ユーザに提供することを意図しているわけではない. Dataset (Experiment Corpus) Experiment 1 Experiment 2 Experiment N Treatment Control Treatment Control Treatment Control・・・ or or or
  • 16. - 優れたメトリクスの2つの特性[2] a. 個々のチームがその指標に直接影響を与えることができる. b. その指標を改善することで会社を長期的な望ましい結果に導くことができる. - 自動車会社の例 - 営業チーム:収益やマージン - 商品開発チーム:ユーザ満足度や開発サイクル時間や開発コスト,製造ラインにおける他プロダ クトとのシナジー - 研究チーム:トップカンファレンスへの論文投稿数 Metric Evaluation
  • 17. - メタメトリクスの種類 - 感度に関するメタメトリクス - 無作為抽出コーパス使用 - ユーザ価値に関するメタメトリクス - お手製ポジネガコーパス使用 Metric Evaluation e_1 e_N Treatment Control Treatment Control ・・・ 感度に関する メタメトリクス 算出
  • 18. メトリクスの感度とは - 2つの要素から成る[3] - 変動確率(Movement probability) - テストしたい変更(機能追加など)がメトリクスに影響を与える頻度.真の効果があった としてもいつ効果を観測できるか分からない. - 例:ユーザ当たりのセッション数をメトリックとした場合,どんなに良い機能追加だった としてもすぐに影響を受けない. - 検出力(Statistical power) - 機能の変更によりメトリクスを動かす真の効果があった場合、その効果を検出できるか. - 例:ユーザ当たりの収益をメトリックとした場合,分散が大きく統計的検出力が低いため, 影響を受けない.
  • 20. 感度の特性 - メトリクスの感度は3つの要因に依存する(使用する検定を変更しないと仮定) - データの量(Bingではユーザ数やクエリ数) - メトリクスの分散 - 効果量の差 - 効果量の差はA/Bテストの種類に依存する - ページの視覚的な機能の追加/削除を伴うA/Bテストの場合 - ページ読み込み時間は非常に感度の良いメトリックになる可能性がある. - ランキングアルゴリズムの変更を伴うA/Bテストの場合 - ページ読み込み時間クエリのクリック率 - コーパスがこのコンテキストを判断しているらしい → A/Bテストにメトリクスが紐づいている(?)
  • 21. 感度に関するメタメトリクス - Sensitivity - m をあるメトリック,{e_1, e_2, …, e_N} をコーパス内の実験セットとする.t_i を実験 e_i のメトリック m に統計検定を適用して得られる統計検定量として,abs(t_i) をその絶対値と する. - 検定統計量が大きいほど,p値は小さくなってより敏感になる. - コーパス全体の感度スコアが大きいほど,そのメトリックは様々な種類のA/Bテストでより感 度が高く,より多くのチームがそのメトリックに影響を与えることができる. - 優れたメトリックの望ましい性質の1つ.
  • 22. 感度に関するメタメトリクス e_1 e_2 e_N Treatment Control t_1 Treatment Control Treatment Control t_2 t_N ・・・ ・・・ N
  • 23. - BinarySensitivity - さらに,メトリックが統計的に有意であるかを決定するために使用される検定統計量の閾値 を t として,l(a) をaがtrueの場合は1,そうでない場合は0を示す指示関数とする. - 異常値に対してロバストであり、解釈が容易. - p値を0.05としたとき,t=1.96となる. 感度に関するメタメトリクス
  • 24. 感度に関するメタメトリクス I( t_1 < t ) ・・・ N I( t_2 < t ) I( t_N < t ) e_1 e_2 e_N Treatment Control Treatment Control Treatment Control・・・
  • 27. 正規化による分散の減少 (外れ値の排除することで分散を減らす手法もある[4]) 感度に関するメタメトリクス Queries per User < Queries per Session - ユーザ当たりのクエリ数(Queries per User)よりセッション 当たりのクエリ数(Queries per Session)の方が感度が良い Queries with Clicks per User < Overall Query Click Rate - ユーザ当たりのクリックが発生したクエリ数(Queries with Clicks per User)よりクエリのクリック率(Overall Query Click Rate)の方 が感度が良い
  • 28. Web Results Click Rate - クリックをページのある領域から別の領域に変えるA/Bテ ストは比較的簡単だが,全体的なクリック数を増やすこと は難しい[4]. 感度に関するメタメトリクス Related Searches Click Rate - 検索の品質向上によりクエリの再構成が減少するため, ”Reated searches” のエンゲージメントに影響を与える. - あるページ上の特定の機能を追加するA/Bテストを実施し たとき,その機能のエンゲージメントが向上したことを成 功とみなしてしまうA/Bテストのあるあるに注意.
  • 29. ユーザ価値に関するメタメトリクス - LabelAgreement - をメトリック m が統計的に有意かつ効果量とラベルの正負が一致するコーパス内の実験の数 (効果量が正でラベルが正,効果量が負でラベルが負), をメトリック m が統計的に有意か つ効果量とラベルの正負が不一致のコーパス内の実験の数とすると, - w1とw2は合計が1になる非負の重み. - たいていの場合,MAX演算子は一致した数をカウントし,MIN演算子は不一致の数をカウント.
  • 30. - LabelAgreement - Bingでの運用の結果,ラベルとの不一致の数は既知の理由(ページの読み込み時間など)で発生 するため,下記のスコアが使われる. - LabelAgreementは,メトリックが統計的に有意であることが前提. ユーザ価値に関するメタメトリクス
  • 31. Queries per User (-) Queries per Session (-) - 通常,検索結果の品質を向上させることは,ユーザがクエ リを再発行しないため,セッションごと及びユーザごとで のクエリ数は少なくなる. 「メトリック名 (+ / -) 」 - (+) だとメトリックの値とLabel Agreementが正の相関, (- ) だと負の相関があることを意味する. ユーザ価値に関するメタメトリクス Ads Click Rate (-) - 広告へのユーザエンゲージメントを増加させる変更はユー ザの価値を低下させる. - 逆に,検索結果の品質を低下させると広告へのユーザエン ゲージメントを高める.
  • 32. ユーザ価値に関するメタメトリクス Sessions per User (+) - 直感的には良い機能やアルゴリズムを追加すればユーザがサ イトにアクセスする頻度が高くなりそう. - 多くの場合,主要なメトリックとして扱われたり,日次アク ティブユーザーや月次アクティブユーザーとして使われる. - しかし実際には,この指標をA/Bテストで改善することは非 常に難しいことが分かる. - 例:ユーザのウェブ検索に対するニーズが一定であると仮定 すると,この指標は事実上別の検索エンジンから検索シェア を奪うことを意味する.A/Bテストの短い期間にこの変化を 観測できるほどの影響をユーザに与えるのは困難.
  • 33. Web Results Click Rate (+) - 検索結果の品質を改善したり,ユーザが簡単にアクセスで きるようにしたり,検索結果を評価しやすくしたりできる ように変更を加えると,ユーザの価値は向上する. - 最も感度が高く簡単なメトリクスの一つ. - Bingでは,検索結果のクリック率より優れた指標があるら しい(しかも,LabelAgreementが最も高い). ユーザ価値に関するメタメトリクス
  • 34. Lag Record Size (+) Page Load Time (-) - 検索エンジンのシステムレベルのメトリクス. - 敏感だがLabelAgreementはかなり低い. ユーザ価値に関するメタメトリクス
  • 35. - 膨大な計算量 - 例:Experiment Corpus に100のA/Bテストがあり,各実験が2週間実施されたとして,これら の実験のデータを生の検索エンジンのログから1つずつ単純に抽出するとすると,14(日) x 100 (A/Bテスト) / 365(日) ≈ 4年相当のログデータ,Bingの場合は数十ペタバイト(圧縮済み)の ログデータを読みとる必要がある. - 階層型キャッシュ構造による解決 - Metric Lab は階層型キャッシュを保有し,最適なキャッシュ階層を選ぶことで自動的にメト リクス評価ジョブを最適化する. - 上記の100A/Bテストのコーパスの場合,Full Log Dataのみを使用したメトリクス評価 ジョブの平均処理時間は最大で100時間ほど掛かる. - Extracted Experiment Data キャッシュは,A/Bテストにおけるユーザのデータだけをキ ャッシュし,これを用いて処理すると約10時間に短縮される. - ほとんどのジョブではトリガーされたユーザのみが必要で,Triggered Experiment Data がそのデータをキャッシュし,約7時間に短縮される. - 再計算するのではなくPrecomputed Standard Metrics を使うと5時間まで短縮される. Computation Engine (Metrics Lab)
  • 36. - アナリストによるメトリクス評価ジョブのプロセス - 自分のジョブのプロファイルを作成し,評価するメトリクスの名前,実行するExperiment corpusのサブセット,及びその他運用パラメータを指定する. - SQLに似た言語を使用して,新しいメトリックの計算ロジックを定義する. - ほとんどの場合,類似の標準メトリクスの定義をコピーして編集して済むが,複雑な定 義が可能なほど言語は強力らしい. - ジョブを実行する. - Metrics Labはアクセスする必要のあるキャッシュ階層を自動的に決定して,一連のスクリプ トを生成し,データが保存されているクラウドクラスタに送信する. - スクリプトが完了するとアナリストは,結果をダウンロード,マージ,評価基準の計算,レ ポートの生成を行う分析スクリプトを実行する. アナリストによるレポートの作成
  • 37. 自動化 - Metrics Lab における自動化 - 全てのメタメトリクスを含むレポートを自動で生成する. - アナリストが比較したいペアのメトリクスを指定して,双方のメトリクスにおいてA/Bテスト の結果が一致しない実験の一覧を生成する. - A/Bテストで最も頻繁に影響を受けるクエリのメトリクスなどのデバッグ情報も生成する. experiment 1 experiment 2 experiment 3 ・・・ メトリックA positive positive p > 0.05 ・・・ メトリックB negative p > 0.05 negative ・・・
  • 38. Case Study 1:重複クエリの扱い - 重複クエリとは - 同じセッション内でユーザが続けて2回発行した同じ内容のクエリのこと. - 全てのクエリの10%近く占める - ユーザが実際に入力したクエリもあれば,ブラウザのキャッシュの削除,意図しないダブル クリック,サードパーティシステムからの呼び出しのエラーなどが原因 - 課題設定 - メトリックの計算に全てのクエリを使用すべきか - 重複するクエリはマージしてクリックやホバーなどのユーザ行動を結合することで最初に重 複排除するべきか - 観点 - 非ユーザが発行した重複クエリからノイズを取り除くことができる - ユーザが実際に入力した重複クエリから得られるシグナルが失われる可能性がある クエリごとのクリック数など検索エンジンの主要なメトリクスに使われるので重要
  • 39. 従来のアプローチ - ラベル付きデータの収集による従来のアプローチ - ユーザなのか非ユーザなのか判断するのは非常に難しい. - できたとしても,ノイズを減らすこととユーザからのシグナルを失うことのトレードオフを 正しく評価することはできない. - でも,大丈夫.そう,Metric Evaluation Frameworkならね. - 3つのメトリクスについて,重複があるバージョンとないバージョンのそれぞれで計測する. - クエリのクリック率(Query Click Rate) - クリック後に一定時間滞在したクリック率(Query Long Click Rate), - 直帰率(Quickback Rate)
  • 40. 結果 - Sensitivity,LabelAgreement,LabelDisagreementの差の絶対値で判断 - 重複除外したメトリックのパフォーマンスが良い場合は緑,逆は赤. - 重複除外したメトリックの方がほとんどの評価基準で良いパフォーマンスを示した. - デバッグツールによる調査 - Sensitivityの差が2であったが,ツールを使うと9つの実験において結果が一致していなかった. experiment 1 experiment 2 experiment 3 ・・・ experiment 9 メトリックA positive positive positive ・・・ negative メトリックB negative p > 0.05 negative ・・・ p > 0.05
  • 41. - 多くのメトリクスは閾値を設けている - 例:クリックされた検索エンジンの結果がユーザのニーズを満たしたかどうかを判断するた めに,クリック後の滞在時間を計測する[5]. - 課題設定 - クリック後の滞在時間の閾値の変化がメトリクスの品質に与える影響を理解する. - 15秒,30秒,60秒 Case Study 2:メトリクスの閾値の変更
  • 42. - ラベル付きデータの収集による従来のアプローチ - クリックのログにユーザ自身もしくは他の人の判断によって,”success” ラベルもしく は, ”failure”ラベルをつける.そのラベルと閾値によって生成されたラベルを比較して最適な 閾値を決める[5]. - 学習データの取得にコストが掛かるし,判断難しいし,バイアスが入る. - クリックの成功の定義の正確さを評価するだけで,この定義に基づいてメトリックがどの程 度改善されたか分からない. - でも,大丈夫.そう,Metric Evaluation Frameworkならね. - 5つのメトリクスについて15秒,30秒,60秒の閾値のバージョンを実装する. - メトリクスは非公開 - Metric Lab を使うと1~2日以内に結果が分かる. 従来のアプローチ
  • 43. 結果 - 30秒をベースラインとして,LabelAgreementの差で判断 - 60秒のバージョン - 全てのメトリクスにおいてベースラインと同等かそれ以下. - 15秒のバージョン - 全体的に良いわけではなく,コーパス内の100以上のA/Bテストを使って評価が行われ たと考えると,絶対的な差は非常に小さい. - 閾値がメタメトリクスに強い影響を与えることはほとんどなかった - セッションの非アクティブを検出する閾値(30分間がベースライン)についても同様の調査を 行ったが,妥当な範囲内でだった.
  • 44. Metrics Experiment 1 Experiment 2 Experiment 3 ・・・ Experiment N 15 ver. M1 positive positive positive ・・・ p > 0.05 M2 negative p > 0.05 negative ・・・ positive ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ 30 ver. M1 positive p > 0.05 p > 0.05 ・・・ p > 0.05 M2 negative positive negative ・・・ positive ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ 60 ver. M1 positive p > 0.05 p > 0.05 ・・・ p > 0.05 M2 negative positive negative ・・・ positive ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ 結果
  • 45. Case Study 3:ユーザの労力に関するメトリクス - ユーザがお目当ての情報を手に入れるまでの労力を計測する - 例:ユーザセッションの開始(最初のクエリ)から最初の結果のクリックまでの時間(Time to Click)[6]. - 課題設定 - ユーザがクリック後少なくとも30秒間検索エンジンに戻らないクリックまでの時間(Time to Long Click)を定義する. - Time to Click と Time to Long Click のどちらがメトリクスとして優れているか.
  • 46. - Time to Long Click に切り替えたことによりメトリックの品質が向上 - Sensitivity はほぼ2倍,Label Agreement は3倍,Label Disagreement は同じ. - 検索結果の品質,ユーザインターフェースの改善,広告などほぼ全ての機能において有意とな っていた. - Time to Click と Time to Long Click で判定が一致しないケースもあった. - どちらも統計的に有意だが,Time to Long Click が正しく,Time to Click が誤っていた. (どうやって確認した?) 結果
  • 47. まとめ - A/Bテストに対する姿勢に誠実さが垣間見えた - A/Bテストはユーザの行動を理解することだけを目的としているのであってユーザに提供するこ とを意図しているわけではない. - 誤った設計のA/Bテストやサンプル数を確保できず検出力不足のA/Bテストがある前提. - フレームワーク側で除外するための仕組みを実装. - プロダクトのビジョンがあるからこそコーパスを作ることができる - プロダクトがユーザに提供したい価値を自分たちで定義できるからこそ,バイアスを受け入れた 上でラベリングができるのだと思った. - 一方で,コーパス内のデータセットとメトリクスの対応づけをどのように定めているか気になっ た. - これぞデータドリブンな組織 - Microsoftすごい
  • 48. 引用論文 [1] Jarvelin, K. and Kekalainen, J. Cumulated gain-based evaluation of IR techniques. ACM Transactions on Information Systems 20(4), 422–446, 2002. [2] Hauser, J. and Katz, G. Metrics: you are what you measure! European Management Journal, 1998. [3] Somit Gupta, Xiaolin Shi, Pavel Dmitriev, Xin Fu, Avijit Mukherijee. Challenges, Best Practices and Pitfalls in Evaluating Results of Online Controlled Experiments. WSDM, 2020 [4] Kohavi, R., Deng, A., Longbotham, R. and Xu, Y. Seven Rules of Thumb for Web Site Experimenters. Conference on Knowledge Discovery and Data Mining, 2014. [5] Kelly, D. and Teevan, J. Implicit feedback for inferring user preference: A bibliography. ACM SIGIR Forum, 37(2), pp. 18-28, 2003. [6] Sadeghi, S., Blanco, R., Mika, P., Sanderson, M., Scholer, F., and Vallet, D. Predicting Re-Finding Activity and Difficulty. European Conference on Information Retrieval, 2015.