より多く、より良く、より早く「重複する実験インフラ」

より多く、より良く、より早く
「重複する実験インフラ」
最高のサービスを作るために試行を繰り返す

概要
● Web実験を行うための重要な3つの軸: More, Better, Faster
● 既存のWeb実験で行われているSingle layerの実験とMulti-
factorialの実験から重複した(Overlapping)実験へ

書誌情報
● タイトル：Overlapping Experiment Infrastructure: More, Better, Faster
Experimentation
● 著者：D. Tang, A. Agarwal, D. O’Brien, M. Meyer（←Googleの人たち）
● カンファレンス：KDD’10
● 出版年：2010
● 引用数：249 (2021/6 現在）

UXに影響がある変化はすべて評価
● Googleはどんな意思決定をするにせよ、データで決める会社
● ユーザーの体験 (UX) に影響を与える可能性のあるほとんどすべての変更を
評価している
● イノベーションのスピードについていくために、Web実験を行うサ
イクルを整えたい！3つの軸 (More, Better, Faster)をベースに考える
● サイクルを加速化させるために必要なものがOverlapping Experiment
Infrastructure (重複した実験インフラ)
● この論文はGoogle ウェブ検索について話しているが、取り掛かっている問題
は他の大規模な実験でも当てはまる問題

More, Better, Faster
● More
○ 多くの実験を同時に行うためのscalabilityと実験ごとの細かい条件分岐やサ
イズ変更ができるようなflexibilityが必要
● Better
○ 実環境で実験を行うので、妥当性ある実験かつ実環境に悪影響となる実
験はしない
○ 実験結果は標準化された指標で正しく評価
● Faster
○ 簡単かつ迅速に実験し、すぐに評価
○ エンジニアでなくてもコードを書かずに実験ができるようにする

一般的な実験の仕組み
● 実験対象を2種類にわける
○ 統制群（control）：デフォルトのまま
○ 介入群（target）：あるパラメータの値をデフォルトから変える
● 注目する（介入した）パラメータ以外の条件が同じなら、
targetとcontrolの結果の違いは、パラメータを変えたことによ
るものだと特定できる
● そのために、ランダム配置を行うことが不可欠

Web実験の仕組み：single layer バージョン
● 全体の中で、一つのパラメータだけを実験する
● 例えば、検索結果を並べるアルゴリズム:AとBを比較したい場合。
○ 検索クエリをランダムに半分に分け、それぞれ、A or Bを使って検索結果を
返す
○ 他のパラメータには介入しない。
● シンプルで心配が少ない！
● ただし、スケールアップしない

Web実験の仕組み：multi-factorial バージョン
● 実験したいパラメータ全てを同時に実験
● 例えば、①検索結果を並べるアルゴリズム:AとB、②検索結果の背景色、
③検索結果の文字色、の3つ全てを実験したい場合
○ 検索クエリをランダムに半分に分け、①についてcontrol群とtarget群にする。
○ ②・③についても同様のことを行う。ただし、①②③の分け方は直行するようにする。
● 1回の試行で最大パラメータ数を同時に実験
● ただし、互いに依存するパラメータを同時に変えたら不具合が起こる
○ 例えば、背景色と文字色をともに灰色にするセットができてしまうと、全く読めない
画面を返すことになってしまう！

Web実験の仕組み：【New】overlapping バージョン
● 実験したいパラメータのうち、依存関係のないセットを同時に実験
● 例えば、①検索結果を並べるアルゴリズム、②検索結果の背景色、③検索結
果の文字色、の3つ全てを実験したい場合
○ ②と③は互いに影響するので、同じレイヤー。（つまり、①のレイヤーaと②・③のレイヤー
bの、2つのレイヤーができる）
○ 検索クエリをランダムに半分に分け、①（レイヤーa）について介入群と統制群にする。
○ レイヤーbについても同様のことを行う。ただし、②or③のどちらかしか実験できない。
● 1回の試行で、最大レイヤー数を同時に実験
● 言われてみると単純だが、このアイディアが論文の肝

Web実験の仕組み：その他の論点
● 依存関係の見つけ方
○ バイナリに注目, 実験記録から逆算
● 各レイヤーの実験を直交させる、トラフィックを分割
○ → f(cookie, layer)のmodをとる
● 実験するトラフィックを限定する方法
○ 例えば、漢字のフォントを変えるか検討するために、中国・日本からの検索クエリのみを対
象とする実験をしたい場合。
○ → 分割した後で、条件分岐をできるように設計する。
● 条件分岐で使われなかったトラフィックは、他の実験に再利用できるか
○ → バイアスがかかる
● 関連するツールや教育プロセス
もっと詳しく知りたい方は元論文をぜひ読んでみてください

実験解析ツールとして重要なこと
● 正確性や完全性以外に実験解析ツールとして重要なこと
○ 信頼区間まで算出
○ 良いUIで表示
○ スライシングでの結果も見えるようにする
○ カスタムメトリクスやスライシングの追加が容易

まとめ
● More, Better, Fasterを考慮した実験インフラを構築する
○ スケーラブルで柔軟性が高く、実環境で悪影響がなく正しく評価
でき、迅速かつ簡単に実験ができるようにする
● Single layerの実験とMulti-factorialの実験を拡張し、重複した
(Overlapping)実験を提案
○ 依存関係のあるパラメータを同じレイヤーにいれることで、実環
境への悪影響とならないようにしつつ、多くの実験をする
● YAGNI (You ain't gonna need it) の原則を守りつつ、利便性や拡張性
を考慮した実験インフラを意識しておくことが大事

チャンネル紹介
● チャンネル名: 【経営xデータサイエンスx開発】西岡賢一郎のチャンネル
● URL: https://www.youtube.com/channel/UCpiskjqLv1AJg64jFCQIyBg
● チャンネルの内容
○ 経営・データサイエンス・開発に関する情報を発信しています。
○ 例: アジャイル開発、データパイプライン構築、AIで使われるアルゴリズム4種類など
● noteでも情報発信しています → https://note.com/kenichiro

Abstractからの抜粋
● Googleでは、ユーザーの体験に影響を与える可能性のあるほとんどすべての変更を評価するため、実験は事実上のマントラと
なっている。実験の対象となる変更には、ユーザーインターフェースのようなユーザーの目に見える明らかな箇所だけでなく、
ランキングやコンテンツ選択に影響を与える可能性のある機械学習アルゴリズムのような、より微妙な箇所も含まれる。実験
に対する飽くなき欲求から、私たちは、より多くの実験を行うにはどうしたらよいか、より良い判断をもたらす実験を行うに
はどうしたらよいか、より速く実験を行うにはどうしたらよいか、という問題に取り組んでいる。
● 本論文では、これらの目標（More・Better・Faster）を達成するための重要な要素である、GoogleのOverlapping
Experiment Infrastructureについて説明する。また、実験インフラだけにとどまらず、それを効果的に利用するために必要
な関連ツールや教育プロセスについても紹介する。最後に、これらの実験環境が成功していることを示す傾向をデータから説
明する。本稿では、特にGoogleで実施している実験システムと実験プロセスについて説明しているが、検索エンジンやその他
のウェブアプリケーションを改善するために実験を利用したいと考えている企業であれば、一般化して適用できる内容だろう。

背後の仕組み（ユーザーからのクエリの処理）
● ユーザーから”クエリ”（例えば
「『大リーグ結果』で検索」・「URLをクリ
ック」）を受け取り、いくつかの”バイナリ”での
処理を経て、ユーザー画面への応答を返す。
● ”バイナリ”は、例えば「検索結果の表示順を決め
る」「表示する広告を決める」などの機能ごと
に分かれていて、それぞれ”パラメータ”（文字色
から推薦アルゴリズムのハイパーパラメータま
で）をたくさん持っている。
引用: https://storage.googleapis.com/pub-tools-public-publication-data/pdf/36500.pdf

教育プロセス
1. Experimental Council
● 実験を行う人は、簡単なチェックリストに事前に回答する
○ 検証したい仮説は？
○ 対象にするトラフィックの条件は？
○ どの指標を分析に用いる予定か？ etc
● エンジニアで構成された”council”がレビューする
1. Discussion Forum
● 実験結果を持ってきて、統計や実装に通じた専門家と議論できる場所
○ 実験結果は妥当か？
○ いくつかの指標を総合的にどう解釈すべきか？ etc

Googleでの実験の増加
● 2007年にスタート
● 左：実施された実験の数
● 真ん中：実験を実施した従業員の人数
● 右：実験を経てローンチされた機能の数
全て、めっちゃ右肩上がり。
引用: https://storage.googleapis.com/pub-tools-public-publication-data/pdf/36500.pdf

Overlappingにおける依存関係
● パラメータの依存関係をどう見つける？
1. バイナリに注目
異なるバイナリで使われているパラメータは依存関係にな
いはず。
2. 調べる
・過去の実験記録から逆算する
・シンプルに考える

より多く、より良く、より早く「重複する実験インフラ」

Recommended

Recommended

More Related Content

Similar to より多く、より良く、より早く「重複する実験インフラ」

Similar to より多く、より良く、より早く「重複する実験インフラ」 (20)

More from 西岡賢一郎

More from 西岡賢一郎 (20)