SlideShare a Scribd company logo
1 of 90
Download to read offline
評価実験の設計と
論文での結果報告:
きちんとやっていますか?
酒井 哲也 (早稲田大学)
@tetsuyasakai
December 22, 2016@IPSJ SIGNL 229
講演概要
1. 自己紹介・バックグラウンド
2. 本の露骨な宣伝
3. 古典的統計学: 誤解・限界・結果の報告の仕方
4. 初期データから適切なサンプルサイズの評価用データを設計する
5. 論文を読んでより適切なサンプルサイズの実験を設計する
6. まとめ
自己紹介・バックグラウンド (1)
• 在英経験6.5年
子供の頃 ロンドン 5年
2000-2001 英ケンブリッジ大学 1.5年
(Karen Sparck Jones + Stephen Robertsonに師事)
• 在中経験4.5年
2009-2013 Microsoft Research Asia (北京)
• 2000年に論文ドクター取得 (早稲田大学 平澤茂一先生)
• 企業経験約20年
• 2013年9月より大学教員
「帰国中年」
VSL = The Virtual Sakai Lab
RSL = The Real Sakai Lab
sakailab.com
自己紹介・バックグラウンド (2)
• 帰国中年なので、なんとなく機械翻訳の仕事をしたいと思い、
(株)東芝 研究開発センターの自然言語処理グループに予約配属。
• 入社してみたら、何故か情報検索のグループに。あれっ
• (株)ニューズウォッチ(当時)のための情報フィルタリングシステムの
開発・評価を担当。博士論文はこの仕事をまとめたもの。
• 英ケンブリッジ大から戻ったのち、東芝を辞めて何故か(株)ニューズ
ウォッチ(当時)に転職、自然言語処理研究室長。
http://kotochu.fresheye.com/ を考案。
自己紹介・バックグラウンド (3)
• 東芝時代からNTCIRのタスクに毎年参加 (1999~)。
• いつのまにかタスクオーガナイザ
• いつのまにかジェネラルチェア
with 神門典子先生 (NTCIR創始者) +Charles L.A. Clarke
• NTCIRの経験を通じ、システムの適切な評価方法について興味をも
つようになった。
• 評価方法の研究は地味だが、「メタな研究」であり極めて重要。
もし研究コミュニティが不適切な評価方法を採用していたら、
そこでの研究は全部無駄になるかも!?
自己紹介・バックグラウンド (4)
• 現在の活動
- NTCIR general co-chair
- Information Retrieval Journal (Springer) editor-in-chief
(with Charles L.A. Clarke and Arjen de Vries)
- 早稲田大学 情報理工学科 教授
- 早稲田大学 情報企画部 副部長
- NII 客員教授
- ACM SIGIR 2017 general co-chair
(with 神門典子先生 + 上保秀夫先生)
http://www.cs.waseda.ac.jp/faculty/
SIGIR 日本初上陸! ご投稿・ご支援・ご参加を!
http://sigir.org/sigir2017/ Full paper 締切まであとひと月ちょい
講演概要
1. 自己紹介・バックグラウンド
2. 本の露骨な宣伝
3. 古典的統計学: 誤解・限界・結果の報告の仕方
4. 初期データから適切なサンプルサイズの評価用データを設計する
5. 論文を読んでより適切なサンプルサイズの実験を設計する
6. まとめ
学生曰く「高い」
1950年代ごろから始まった
図書館の本の「検索」の話など。
評価実験の黎明期
“The proof of the pudding is in the eating.”
Google translate (as of Nov 29, 2016):
「プディングの証拠は食べている」
「適合率」はrelevance ratioの訳語。
「精度」はprecisionの訳語。
Relevance ratioは後にprecisionと
呼ばれるようになった。
正解データが不完全な場合
のランクつきリストの評価
[Sakai07SIGIR]
適合性と多様性を考慮した
ウェブサーチエンジンの評価指標
[Sakai+11SIGIR][Sakai13IRJ]
テキスト中のナゲットの
位置情報を活用した
評価指標
[Sakai+11CIKM]
[Sakai+13SIGIR]
本日さらっと
カバーするトピック
[Sakai06SIGIR]
本日さらっと
カバーするトピック
本日さらっと
カバーするトピック
[Sakai16IRJ]
複雑な評価指標が、
より直観的で単純な評価指標と
どれくらい挙動が似ているか調べる
[Sakai12WWW]
今日の話は以下の話ともoverlapあり
[Sakai16SIGIR] Sakai, T.: Statistical Significance, Power, and Sample
Sizes: A Systematic Review of SIGIR and TOIS, 2006-2015, Proceedings
of ACM SIGIR 2016, pp.5-14, 2016.
http://www.slideshare.net/TetsuyaSakai/sigir2016
[Sakai16ICTIRtutorial] Sakai, T.: Topic Set Size Design and Power
Analysis in Practice (Tutorial Abstract), ACM ICTIR 2016, pp.9-10, 2016.
http://www.slideshare.net/TetsuyaSakai/ictir2016tutorial-65845256
(スライド200ページ!)
講演概要
1. 自己紹介・バックグラウンド
2. 本の露骨な宣伝
3. 古典的統計学: 誤解・限界・結果の報告の仕方
4. 初期データから適切なサンプルサイズの評価用データを設計する
5. 論文を読んでより適切なサンプルサイズの実験を設計する
6. まとめ
評価実験でよくやること: 平均値の比較 (1)
• 評価データを使ってm個のシステムを比較する。
• 各システムのn個の評価値 (例えば再現率) の平均を論文中の表に
載せる。nは例えば評価データ中のトピック (クエリ) の数。
システム 平均再現率
提案システム 0.501
従来システム 0.489
システム 平均再現率
提案システム 0.501
従来システム1 0.489
従来システム2 0.461
m = 2 m = 3
評価実験でよくやること: 平均値の比較 (2)
• 評価データを使ってm個のシステムを比較する。
• 各システムのn個の評価値 (例えば再現率) の平均を論文中の表に
載せる。nは例えば評価データ中のトピック (クエリ) の数。
システム 平均再現率
提案システム 0.501
従来システム 0.489
システム 平均再現率
提案システム 0.501
従来システム1 0.489
従来システム2 0.461
m = 2 m = 3
この差って
意味あるの?
標本と母集団
• 表で示した平均再現率は、たまたま手元にあったn個のデータ
(この集合を標本、サンプルという) に基づく標本平均。
• 別の標本を採れば、また別の標本平均が得られる。
• 本当に知りたいのは、標本の背後にある
母集団の平均に差があるかどうか。
• 標本平均は標本を採るたびに違う
確率変数。
• 古典的統計学では母平均は定数。
ランダムサンプリング
を仮定
cf. Bayes統計学
平均値の比較のための(パラメトリックな)
統計的検定
システム 平均再現率
提案システム 0.501
従来システム 0.489
システム 平均再現率
提案システム 0.501
従来システム1 0.489
従来システム2 0.461
m = 2 m = 3
この差って
意味あるの?
• 対応がある場合のt検定
• 2標本t検定
(Student, Welch [Sakai16SIGIRshort] )
• 繰り返しのない二元配置分散分析
(two-way ANOVA without replication)
• 一元配置分散分析 (one-way ANOVA)
母集団が、パラメタ (母平均、母分散など) をもつ
正規分布などの分布に従うと仮定するもの
拡張
平均値の差の検定の原理 (1)
• 帰無仮説H0 :とりあえず母平均が等しいと仮定
• データから検定統計量を計算する。もしH0が正しいなら、検定統計
量 (例: t0) はある分布 (例: t分布) に従うことが知られている。
• 上記分布の確率密度関数のもとで、得られた検定統計量もしくはそ
れよりもさらに珍しい値が得られる確率 (p-value) を求める。
• P-valueが小さい ⇒ 極めて珍しいことが起こった。予め決めた値α
(例: 5%) よりも小さければ、そもそも検定統計量は上記分布に従っ
ていないのでは、つまりH0 が正しいと仮定したことが間違いなので
は、と考え H0 を棄却する (たぶん母平均は等しくない)。
検定統計量
平均値の差の検定の原理 (2)
• 帰無仮説H0 :とりあえず母平均が等しいと仮定
• データから検定統計量を計算する。もしH0が正しいなら、検定統計
量 (例: t0) はある分布 (例: t分布) に従うことが知られている。
• 上記分布の確率密度関数のもとで、得られた検定統計量もしくはそ
れよりもさらに珍しい値が得られる確率 (p-value) を求める。
• P-valueが小さい ⇒ 極めて珍しいことが起こった。予め決めた値α
(例: 5%) よりも小さければ、そもそも検定統計量は上記分布に従っ
ていないのでは、つまりH0 が正しいと仮定したことが間違いなので
は、と考え H0 を棄却する (たぶん母平均は等しくない)。
p-value
平均値の差の検定の原理 (3)
• 帰無仮説H0 :とりあえず母平均が等しいと仮定
• データから検定統計量を計算する。もしH0が正しいなら、検定統計
量 (例: t0) はある分布 (例: t分布) に従うことが知られている。
• 上記分布の確率密度関数のもとで、得られた検定統計量もしくはそ
れよりもさらに珍しい値が得られる確率 (p-value) を求める。
• P-valueが小さい ⇒ 極めて珍しいことが起こった。予め決めた値α
(例: 5%) よりも小さければ、そもそも検定統計量は上記分布に従っ
ていないのでは、つまりH0 が正しいと仮定したことが間違いなので
は、と考え H0 を棄却する (たぶん母平均は等しくない)。
α/2 α/2
あわて者α、ぼんやり者β、検出力
H0 採択 H0 棄却
H0 は正しい
(母平均は等しい)
正しい結論
(1-α)
第1種の誤り
α
H0 は正しくない
(母平均は等しくない)
第2種の誤り
β
正しい結論
(1-β)
検出力:
本当に差がある
ときに差があると
いえる確率
真
実
われわれの決断
あわて者
ぼんやり者
α, βは問題に即して決定されるべきだが、一般的なのはα=5%, β=20%
(第1種の誤りが第2種の誤りより4倍深刻であるという設定) [Cohen88]
対応がある場合のt検定 (1)
システム 平均再現率
提案システム 0.501
従来システム 0.489
システム 平均再現率
提案システム 0.501
従来システム1 0.489
従来システム2 0.461
m = 2 m = 3
この差って
意味あるの?
• 対応がある場合のt検定
• 2標本t検定
(Student, Welch [Sakai16SIGIRshort] )
• 繰り返しのない二元配置分散分析
(two-way ANOVA without replication)
• 一元配置分散分析 (one-way ANOVA)
拡張
対応がある場合のt検定 (2)
スコア: 0.32 スコア: 0.28
スコア: 0.67 スコア: 0.69
スコア: 0.46 スコア: 0.39
システムB システムG
例えば検索システムX, Yにn個のトピック (クエリ) を与え、検索結果の
再現率の値 を得たとする。
トピック毎の差の標本平均をもとに、母平均を議論したい。
前提:
は独立で
このとき
対応がある場合のt検定 (3)
⇒
⇒
⇒
は の不偏推定量、すなわち
自由度n-1のt分布。
自由度はVの「精度」
対応がある場合のt検定 (4)
母分散は不明なので
標本分散で代用
帰無仮説H0 と対立仮説H1
さきほどの議論より
なので が正しければ
のはず。
システムX, Yの母平均は等しい
両側検定の場合
対応がある場合のt検定 (5)
0
test statistic t0
p-value
帰無仮説H0 と対立仮説H1
が正しければ のはず。
P-value <= α なら
(⇔ なら)
そんなt0 は極端すぎる、
おそらくt(n-1)に
従ってはいない、
H0 を棄却!
対応がある場合のt検定 (6)
test statistic t0critical t value t(n-1; α)
α/2 α/2
0
対応がある場合のt検定 (7)
test statistic t0critical t value t(n-1; α)
α/2 α/2
0
MS Excelでt検定をやるには (TTESTという関数もあるけれど…):
P-value = TDIST(|t0|, n-1, 2) = T.DIST.2T(|t0|, n-1) <= α のときH0 を棄却。
(⇔ = TINV(α, n-1) = T.INV.2T(α, n-1) のときH0 を棄却。)
詳しくは
[Sakai16ICTIRtutorial]
母平均の差の信頼区間 (1)
t検定の前提より
⇒
critical t value t(n-1; α)
α/2 α/2
0
t obeys t(n-1)
母平均の差の信頼区間 (2)
t検定の前提より
⇒
⇒
ここで .
よって母平均の差の95%信頼区間(CI)は
Margin of
Error
異なる標本から異なる信頼区間が得られる。このうち95%が真の母平均 (定数) を捉えている
一元配置分散分析 (1)
システム 平均再現率
提案システム 0.501
従来システム 0.489
システム 平均再現率
提案システム 0.501
従来システム1 0.489
従来システム2 0.461
m = 2 m = 3
この差って
意味あるの?
• 対応がある場合のt検定
• 2標本t検定
(Student, Welch [Sakai16SIGIRshort] )
• 繰り返しのない二元配置分散分析
(two-way ANOVA without replication)
• 一元配置分散分析 (one-way ANOVA)
拡張
一元配置分散分析 (2)
スコア: 0.32
スコア: 0.46
スコア: 0.78
スコア: 0.25
スコア: 0.58
スコア: 0.61
スコア: 0.23
スコア: 0.44
スコア: 0.33
スコア: 0.88
システムB システムG システムY
一元配置分散分析 (3)
System Observed scores
1 x11, x12, … , x1n
2 x21, x22, … , x1n
3 x31, x32, … , x3n
i=1, … , m
j=1, … , n
: i番目のシステムのj番目のスコア
前提: は独立で
言い換えると
とおくと
となる。
母集団の全平均 i番目のシステム効果
等分散性
μ
a1
a2
a3
am
...
帰無仮説H0 と対立仮説H1
: ゼロでないシステム効果がひとつ以上ある
とおくと
が成り立つ。
一元配置分散分析 (4)
システム母平均は
全て等しい
スコアと
全平均の差
システム平均と
全平均の差
スコアと
システム平均の差
標本の全平均 標本のシステム平均
同様に ST = SA + SE が成り立つ! System Observed scores
1 x11, x12, … , x1n
2 x21, x22, … , x1n
3 x31, x32, … , x3n
一元配置分散分析 (5)
全変動
システム間
変動
システム内
変動
ST = SA + SE
に関する前提のもとでは
(a)
⇒
(b) .
⇒ H0 (ai = 0 for 1 <= i <= m) が真なら
φE =m(n-1)
φA =m-1
φT =mn-1
= φA + φE
自由度:
平方和の精度
一元配置分散分析 (6)
詳しくは
[Nagata03]
カイ2乗分布
ST = SA + SE φT = φA + φE
[H0のもとで]
⇒ しつこいけど H0 のもとで
システム間変動が
システム内変動に比べて
どれくらい大きいか見ている
一元配置分散分析 (7)
φE = m(n-1)
φA = m-1
F分布: 2つの自由度をパラメタにもつ
一元配置分散分析 (8)
m=3,n=10 m=5, n=10 m=20, n=10
帰無仮説H0 と対立仮説H1
:ゼロでないシステム効果がひとつ以上ある
検定統計量:
P-value <= α なら
(⇔ F0 >= F(φA,φE;α) なら)
H0 を棄却。
Critical F value
F(φA,φE;α)
F0
α
0
φE = m(n-1)
φA = m-1
平方和 自由度 不偏分散 F0
システム
間
SA φA = m-1 VA = SA/φA =
SA/(m-1)
VA/VE =
m(n-1)SA
(m-1)SE
システム
内
SE φE = m(n-1) VE = SE/φE =
SE/m(n-1)
合計 ST φT = mn-1
MS Excelの場合
P-value = F.DIST.RT(F0,φA,φE) <= α のときH0 を棄却
(⇔ F0 >= F(φA,φE;α) = F.INV.RT(φA,φE,α) のときH0 を棄却)
一元配置分散分析 (9)
nがシステムによって
異なる場合
φE = (全スコア数) – m.
一元配置分散分析 (10)
P-value = F.DIST.RT(F0,φA,φE) <= α のときH0 を棄却
H0 を棄却したということは
「ゼロでないシステム効果がひとつ以上ある」
と結論づけたことになるが、
…どのシステムが違うの?
ランダム化Tukey HSD 検定
• 分散分析で有意差が得られても、「m個のシステムの少なくともどれ
か1つがなんか違う」ということしかわからず、そのあとにさらなる検
定が必要!
• n x m の評価値行列があり、最初から全システム対の平均値の差に
興味があるのなら、ANOVAはすっとばして (例えば) ランダム化Tukey
HSD 検定をすればよい。t検定を何度も繰り返すのは一般にはNG!
• http://research.nii.ac.jp/ntcir/tools/discpower-en.html に行列を食べ
させれば全システム対のp-valueが簡単に得られる。
• 詳細は [Sakai15book]
正規性・等分散性などの仮定必要ナシ!
よくある間違い
×「P-valueは、帰無仮説が正しくない確率である」
×「信頼区間の95%とは、確率的に動く母数がその範囲内に落ちる確
率である」
古典的検定は70年代から「炎上」している
[Johnson99]
• Deming (1975) commented that the reason students have problems
understanding hypothesis tests is that they may be trying to think.
• Carver (1978) recommended that statistical significance testing
should be eliminated; it is not only useless, it is also harmful because
it is interpreted to mean something else.
• Cohen (1994:997) noted that statistical testing of the null hypothesis
"does not tell us what we want to know, and we so much want to
know what we want to know that, out of desperation, we
nevertheless believe that it does!"
何がいけないのか (1)
• 通常、研究者が知りたいのはP(H|D)。だが、古典的検定では
P(D|H)的なもの=p-value しか得られない。
(Bayes統計学の話はまた別の機会に)
• P-valueを見ずにα=0.05で有意差がある(H0を棄却) か否かのみ議論
⇒ p=0.049は有意差あり! p=0.051は有意差なし!という二元論
• 例えp-valueをきちんと報告してもまだ不充分!
p-value = f( サンプルサイズ, 効果量 )
効果量が大きくなると ⇒ p-valueは小さくなるが
サンプルサイズを大きくしても ⇒ p-valueを小さくできる
H: Hypothesis, D: Data
どんな実験でも、サンプルサイズを大きくすれば有意差は出る
何がいけないのか (2)
• 通常、研究者が知りたいのはP(H|D)。だが、古典的検定では
P(D|H)的なもの=p-value しか得られない。
(Bayes統計学の話はまた別の機会に)
• P-valueを見ずにα=0.05で有意差がある(H0を棄却) か否かのみ議論
⇒ p=0.049は有意差あり! p=0.051は有意差なし!という二元論
• 例えp-valueをきちんと報告してもまだ不充分!
p-value = f( サンプルサイズ, 効果量 )
効果量が大きくなると ⇒ p-valueは小さくなるが
サンプルサイズを大きくしても ⇒ p-valueを小さくできる
H: Hypothesis, D: Data
どんな実験でも、サンプルサイズを大きくすれば有意差は出る
何がいけないのか (3)
• 通常、研究者が知りたいのはP(H|D)。だが、古典的検定では
P(D|H)的なもの=p-value しか得られない。
(Bayes統計学の話はまた別の機会に)
• P-valueを見ずにα=0.05で有意差がある(H0を棄却) か否かのみ議論
⇒ p=0.049は有意差あり! p=0.051は有意差なし!という二元論
• 例えp-valueをきちんと報告してもまだ不十分!
p-value = f( サンプルサイズ, 効果量 )
効果量が大きくなると ⇒ p-valueは小さくなるが
サンプルサイズを大きくしても ⇒ p-valueを小さくできる
H: Hypothesis, D: Data
どんな実験でも、サンプルサイズを大きくすれば有意差は出る
対応のあるt検定の場合の効果量
“サンプルサイズ=n, システムX,Yの差の平均 =AAA, 差の不偏分散V=BBB,
p-value=CCC, 効果量 = DDD, 差の95%CI [EEE,FFF]”
のようになるべく詳しく報告すべし!
サンプルサイズ
(対応のあるスコア対の数)
効果量
2つのシステムの差は、差の標準偏差いくつぶんか
(これをp-valueと共に報告すれば、サンプルサイズに
直接左右されない本質的な差の大きさを議論できる)
分散分析の効果量については
[Sakai16ICTIRtutorial]
古典的統計学を
受け入れるなら
情報検索研究コミュニティはちゃんと報告しているか(1)
[Sakai16SIGIR]
情報検索研究コミュニティはちゃんと報告しているか(2)
[Sakai16SIGIR]
情報検索研究コミュニティはちゃんと報告しているか(3)
[Sakai16SIGIR]
講演概要
1. 自己紹介・バックグラウンド
2. 本の露骨な宣伝
3. 古典的統計学: 誤解・限界・結果の報告の仕方
4. 初期データから適切なサンプルサイズの評価用データを設計する
5. 論文を読んでより適切なサンプルサイズの実験を設計する
6. まとめ
例えばこんなテストコレクションを作りたいとき
検索対象とする
文書コレクション
トピック 適合性判定 (適合・非適合文書)
トピック 適合性判定 (適合・非適合文書)
トピック 適合性判定 (適合・非適合文書)
: :nは
いくつに
すべき?
n個のトピックについてシステム評価値を平均する。
このトピック集合は母集団からのサンプルであると見なす。
トピック数設計 [Sakai16IRJ]
前提とする統計的手法 必要な入力
対応のあるt検定 α (第1種の誤り確率), β (第2種の誤り確率),
minDt ((1-β)%検出力を保証する最小のシステム母平均差)
(システム間差の分散の推定値)
一元配置分散分析 α (第1種の誤り確率), β (第2種の誤り確率),
m (分散分析で一度に比較するシステム数),
minD ((1-β)%検出力を保証する最小のシステム母平均範囲),
(各システムの分散の推定値。等分散性を仮定)
差の信頼区間 α (第1種の誤り確率),
δ (信頼区間幅の上限),
(システム間差の分散の推定値)
[Nagata03] をテストコレクションに
適用しただけ
最高のシステムと
最低のシステムの
母平均差
とするのが簡単
http://www.f.waseda.jp/tetsuya/tools.html にあるExcelファイルで簡単
に計算できる
例えば一元配置分散分析でm=3システムの比較を想定する
場合。α=5%とし, = 0.25 なる評価指標のもとで
最高・最低システムの母平均差がminD=0.5以上のとき
検出力80% (β=20%) を保証するトピック数nは?
:
n=20でOK!
なぜそうなるのか? 概要 (1)
分散分析の手順より、H0 を棄却する確率は常に
ここで、H0 が真なら
F0 はF分布に従う。
一方、H0 が偽なら
F0 は非心F分布に従う。
α
0
なぜそうなるのか? 概要 (2)
分散分析の手順より、H0 を棄却する確率は常に
H0 採択 H0 棄却
H0 は正しい
(母平均は等しい)
正しい結論
(1-α)
第1種の誤り
α
H0 は正しくない
(母平均は等しくない)
第2種の誤り
β
正しい結論
(1-β)
真
実
われわれの決断
H0 が真⇒
F0 はF分布に従い、
上記確率がまさにα。
なぜそうなるのか? 概要 (3)
分散分析の手順より、H0 を棄却する確率は常に
H0 採択 H0 棄却
H0 は正しい
(母平均は等しい)
正しい結論
(1-α)
第1種の誤り
α
H0 は正しくない
(母平均は等しくない)
第2種の誤り
β
正しい結論
(1-β)
真
実
われわれの決断
H0 が偽⇒
F0 は非心F分布に従い、
上記確率は検出力(1-β)。
なぜそうなるのか? 概要 (4)
分散分析の手順より、H0 が偽のとき、検出力は
非心F分布はφA, φEの他にパラメタλをもつ。
上記検出力はn, m, Δより近似的に求めることができる。
非心F分布に従う
分散を単位とし
てシステム効果
を図った効果量
の一種
なぜそうなるのか? 概要 (5)
ここで と定義すると Δ >= minΔ が成り立つ。
つまり検出力(1-β)を保証するための最高・最低システム間の差minD
を定めてもΔは一意には定まらないが、最悪の場合minΔとなる。
よって最悪の場合のサンプルサイズは
自由度φA を用いて近似できる
これは近似値なのでnとminΔを検出力の式に代入し、求める検出力が達成されることを
確認する。必要に応じnをincrement (Excelが自動でやってくれる)。
システム分散 の推定方法 (1)
• 試験的なデータからスコアの行列を作っておき、これより分散分析
のVE を計算する。これはシステム母分散 の不偏推定量。
• 試験的なデータが複数ある場合 (例えば類似の既存テストコレクショ
ンが複数ある場合)、各データCから得られた分散をプールする。
• 試験的なデータは小規模でOK。以後、完成したテストコレクションか
ら新たなVE を計算して推定精度を高めていけばよい
• = DEVSQ(A1:A20)
+ DEVSQ(B1:B20)
+ DEVSQ(C1:C20) = 0.650834
φE = m(n-1) = 3(20-1)= 57
= = VE = SE / φE = 0.011
0.4695 0.3732 0.3575
0.2813 0.3783 0.2435
0.3914 0.3868 0.3167
0.6884 0.5896 0.6024
0.6121 0.4725 0.4766
0.3266 0.233 0.2429
0.5605 0.4328 0.4066
0.5916 0.5073 0.4707
0.4385 0.3889 0.3384
0.5821 0.5551 0.4597
0.2871 0.3274 0.2769
0.5186 0.5066 0.4066
0.5188 0.5198 0.3859
0.5019 0.4981 0.4568
0.4702 0.3878 0.3437
0.329 0.4387 0.2649
0.4758 0.4946 0.4045
0.3028 0.34 0.3253
0.3752 0.4895 0.3205
0.2796 0.2335 0.224
A
20 topics
B C
システム分散 の推定方法 (2)
トピック数設計適用事例 (1)
NTCIR-12
最大のタスク:
中国語サブタスクに
44システムが参加
トピック数設計適用事例 (2)
次回タスクで分散がnG@1 と同程度の(正規分布に従うと見なしてよい)評価指標を使うなら:
・n=120とすればm=20, minD=0.20のシステム比較において80%検出力(5%有意水準)を保証
・n= 90とすればm=10, minD=0.20のシステム比較において80%検出力(5%有意水準)を保証
次回のタスクに向けて
テストコレクションの
設計を改善できる!
決定したnの統計的
意義を説明できる!
一般に
• 有意水準α
• 検出力 (1-β)
• 効果量
• サンプルサイズn
のうち3つを決めると残りの1つが定まる[Ellis10]。
小さい効果について調べたいなら大きなサンプルが必要!
講演概要
1. 自己紹介・バックグラウンド
2. 本の露骨な宣伝
3. 古典的統計学: 誤解・限界・結果の報告の仕方
4. 初期データから適切なサンプルサイズの評価用データを設計する
5. 論文を読んでより適切なサンプルサイズの実験を設計する
6. まとめ
ちゃんとした論文ならば
以下の記述があるはず:
• どの検定手法を使ったか
• サンプルサイズ
• 検定統計量 and/or p-value
以上より
• 標本効果量
• 論文における実験の検出力
• 検出力(1-β)を達成するために必要なサンプルサイズ
がRのpwrライブラリを使うと簡単に求められる[Toyoda09]。
https://waseda.box.com/SIGIR2016PACK [Sakai16SIGIR]
[Toyoda09] で提供されているRスクリプトを少し書き換えたもの
future.sample.pairedt 対応のあるt検定用
future.sample.unpairedt 対応のないt検定用
future.sample.1wayanova 一元配置分散分析用
future.sample.2waynorep 繰り返しのない二元配置分散分析
future.sample.2wayanova2 二元配置分散分析用
future.sample.pairedt 使用例
SIGIR 2012 のある論文にこう書いてある:
“t(27)=0.953 with (two-sided) paired t-test”
⇒ t = 0.953, n = 28 (φ = n-1 = 27)
[Sakai16SIGIR] 分析結果Excelファイル270行目より
サンプルサイズが小さいため検出力が小さい
本質的な差を見逃す確率が極めて高く、実験の意義が小さい
この実験の効果量で検出力80%を達成するに
必要なサンプルサイズ
効果量
future.sample.1wayanova 使用例
φA = m-1, φE = m(n-1)
SIGIR 2008 のある論文にこう書いてある:
“m=3 groups, n=12 subjects per group,
F(2, 33)=1.284 with (one-way) ANOVA”
(φA = m-1 = 2, φE = m(n-1) = 3*(12-1) = 33)
[Sakai16SIGIR] 分析結果Excelファイル616行目より
サンプルサイズが小さいため検出力が小さい
本質的な差を見逃す確率が極めて高く、実験の意義が小さい
この実験の効果量で検出力80%を達成するに
必要なサンプルサイズ
効果量の
一種
検出力が極端に低い論文、極端に高い論文 (1)
[Sakai16SIGIR]
サンプルサイズ比 (Sample Size Ratio)
= 実験で用いたサンプルサイズn/検出力(1-β)に必要なサンプルサイズn’
SSR が大 ⇔ 検出力が極端に高い (必要以上にリソースを使っている)
SSR が小 ⇔ 検出力が極端に低い (検出したい差を検出できない可能性が
高い)
前述の過去10年間のSIGIR+TOIS論文のうちt検定 or 分散分析を用いており、
かつ必要な情報をきちんと報告している133件の論文に対しRスクリプトを
適用 (t検定106件; 分散分析27件)
検出力が極端に低い論文、極端に高い論文 (2)
[Sakai16SIGIR]
検索エンジン会社によるpersonalisationの論文。対応のあるt検定で
t=16.00, n=5,352,460, 効果量=0.007, 検出力=1
検出力80%を達成するためのサンプルサイズn’=164,107
効果量は非常に小さい (が大量ユーザを扱う会社にとっては意味があるかも)
検出力が極端に低い論文、極端に高い論文 (3)
[Sakai16SIGIR]
大企業はデータをふんだんに使った実験ができるが、p-valueより効果量を議論すべき。
検出力が極端に低い論文、極端に高い論文 (4)
[Sakai16SIGIR]
商用social media applicationのデータによる一元配置分散分析。
F=243.42, m=3, グループ毎のサンプルサイズn=2551, 検出力=1,
検出力80%を達成するためのサンプルサイズn’=52
検出力が極端に低い論文、極端に高い論文 (5)
[Sakai16SIGIR]
講演概要
1. 自己紹介・バックグラウンド
2. 本の露骨な宣伝
3. 古典的統計学: 誤解・限界・結果の報告の仕方
4. 初期データから適切なサンプルサイズの評価用データを設計する
5. 論文を読んでより適切なサンプルサイズの実験を設計する
6. まとめ
とどのつまり
• 評価方法を理解し、正しい評価をしよう
×みんなが使ってるから、よくわかってないけど自分もこの評価方法を使う
○自分の研究目的にあった評価方法を選んで、もしくは設計して使う
• 古典的統計学を使って結果の分析をするのであれば
- 評価データのサンプルサイズについて検討しよう
- 論文を書くときは p-value、効果量、信頼区間などを適切に報告しよう
- 過去の文献をもとに、適切な検出力の実験を設計しよう
• 研究コミュニティ全体が上記のような習慣をつければ、個々の成果
が有機的につながり大きな知見となる
cf. Bayes統計学
学生さんには高いかも知れませんが、先生に
お願いすれば研究室でn冊購入してくださるはず (n >> 1)
Springerから本を出します
Laboratory Experiments in Information Retrieval:
Sample Sizes, Effect Sizes, and Statistical Power
2017年中に書きあげます。たぶん
謝辞+文献
• 永田靖先生 (早稲田大学) に
はサンプルサイズの設計につ
いて個人的にいろいろ教えて
いただきました。
• 豊田秀樹先生(早稲田大学)
には[Sakai16SIGIR]の発表に
伴い、「検定力分析入門」のR
のコードを流用して配布する
許可をいただきました。
• 大変ありがとうございました!
文献(酒井)
[Sakai06SIGIR] Sakai, T.: Evaluating Evaluation Metrics based on the Bootstrap, ACM SIGIR 2006, pp.525-532.
[Sakai07SIGIR] Sakai, T.: Alternatives to Bpref, ACM SIGIR 2007, pp.71-78, July 2007.
[Sakai+11CIKM] Sakai, T., Kato, M.P. and Song, Y.-I.: Click the Search Button and Be Happy: Evaluating Direct and Immediate
Information Access, ACM CIKM 2011, pp.621-630.
[Sakai+11SIGIR] Sakai, T. and Song, R., Evaluating Diversified Search Results Using Per-Intent Graded Relevance, ACM SIGIR 2011,
pp.1043-1052.
[Sakai12WWW] Sakai, T.: Evaluation with Informational and Navigational Intents, WWW 2012, pp.499-508.
[Sakai13IRJ] Sakai, T. and Song, R.: Diversified Search Evaluation: Lessons from the NTCIR-9 INTENT Task, Information Retrieval, 16(4),
pp.504-529, Springer, 2013.
[Sakai+13SIGIR] Sakai, T., Dou, Z.: Summaries, Ranked Retrieval and Sessions: A Unified Framework for Information Access Evaluation,
ACM SIGIR 2013, pp.473-482.
[Sakai15book] 酒井哲也: 情報アクセス評価方法論: 検索エンジンの進歩のために, コロナ社, 2015.
[Sakai16IRJ] Sakai, T.: Topic Set Size Design, Information Retrieval Journal, 19(3), pp. 256-283, Springer, 2016.
http://link.springer.com/content/pdf/10.1007%2Fs10791-015-9273-z.pdf (open access)
[Sakai16SIGIR] Sakai, T.: Statistical Significance, Power, and Sample Sizes: A Systematic Review of SIGIR and TOIS, 2006-2015, ACM
SIGIR 2016, pp.5-14.
[Sakai16SIGIRshort] Sakai, T.: Two Sample T-tests for IR Evaluation: Student or Welch?, Proceedings of ACM SIGIR 2016, pp.1045-1048.
[Sakai16ICTIRtutorial] Sakai, T.: Topic Set Size Design and Power Analysis in Practice (Tutorial Abstract), ACM ICTIR 2016, pp.9-10.
文献(その他)
[Cohen88] Cohen. J.: Statistical Power Analysis for the Behavioral
Sciences (Second Edition), Psychology Press, 1988.
[Ellis10] Ellis, P. D.: The Essential Guide to Effect Sizes, Cambridge, 2010.
[Johnson99] Johnson, D. H.: The Insignificance of Statistical Significance
Testing, Journal of Wildlife Management, 63(3), 1999.
[永田03] 永田靖: サンプルサイズの決め方, 朝倉書店, 2003.
[豊田09] 豊田秀樹: 検定力分析入門, 東京図書, 2009.

More Related Content

What's hot

Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築Tatsuya Tojima
 
ランダムフォレスト
ランダムフォレストランダムフォレスト
ランダムフォレストKinki University
 
データ解析1 ベクトルの復習
データ解析1 ベクトルの復習データ解析1 ベクトルの復習
データ解析1 ベクトルの復習Hirotaka Hachiya
 
Playgroundでディープラーニングを勉強しよう
Playgroundでディープラーニングを勉強しようPlaygroundでディープラーニングを勉強しよう
Playgroundでディープラーニングを勉強しようHiroyuki Yoshida
 
AI2018 8 ニューラルネットワークの基礎
AI2018 8 ニューラルネットワークの基礎AI2018 8 ニューラルネットワークの基礎
AI2018 8 ニューラルネットワークの基礎Hirotaka Hachiya
 
Yamadai.Rデモンストレーションセッション
Yamadai.RデモンストレーションセッションYamadai.Rデモンストレーションセッション
Yamadai.Rデモンストレーションセッション考司 小杉
 
Interpreting Tree Ensembles with inTrees
Interpreting Tree Ensembles with  inTreesInterpreting Tree Ensembles with  inTrees
Interpreting Tree Ensembles with inTreesSatoshi Kato
 
Introduction of featuretweakR package
Introduction of featuretweakR packageIntroduction of featuretweakR package
Introduction of featuretweakR packageSatoshi Kato
 
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on TwitterKDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twittersleepy_yoshi
 
10分でわかるRandom forest
10分でわかるRandom forest10分でわかるRandom forest
10分でわかるRandom forestYasunori Ozaki
 
アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法Satoshi Hara
 
人工知能10 サポートベクトルマシン
人工知能10 サポートベクトルマシン人工知能10 サポートベクトルマシン
人工知能10 サポートベクトルマシンHirotaka Hachiya
 
[DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions [DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions Deep Learning JP
 
正則化による尤度比推定法を応用した多値分類器の改良
正則化による尤度比推定法を応用した多値分類器の改良正則化による尤度比推定法を応用した多値分類器の改良
正則化による尤度比推定法を応用した多値分類器の改良MasatoKikuchi4
 
距離とクラスタリング
距離とクラスタリング距離とクラスタリング
距離とクラスタリング大貴 末廣
 
How to use in R model-agnostic data explanation with DALEX & iml
How to use in R model-agnostic data explanation with DALEX & imlHow to use in R model-agnostic data explanation with DALEX & iml
How to use in R model-agnostic data explanation with DALEX & imlSatoshi Kato
 
Stan で欠測データの相関係数を推定してみた
Stan で欠測データの相関係数を推定してみたStan で欠測データの相関係数を推定してみた
Stan で欠測データの相関係数を推定してみたhoxo_m
 

What's hot (20)

201803NC
201803NC201803NC
201803NC
 
Random Forestsとその応用
Random Forestsとその応用Random Forestsとその応用
Random Forestsとその応用
 
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
 
ランダムフォレスト
ランダムフォレストランダムフォレスト
ランダムフォレスト
 
データ解析1 ベクトルの復習
データ解析1 ベクトルの復習データ解析1 ベクトルの復習
データ解析1 ベクトルの復習
 
Playgroundでディープラーニングを勉強しよう
Playgroundでディープラーニングを勉強しようPlaygroundでディープラーニングを勉強しよう
Playgroundでディープラーニングを勉強しよう
 
AI2018 8 ニューラルネットワークの基礎
AI2018 8 ニューラルネットワークの基礎AI2018 8 ニューラルネットワークの基礎
AI2018 8 ニューラルネットワークの基礎
 
Yamadai.Rデモンストレーションセッション
Yamadai.RデモンストレーションセッションYamadai.Rデモンストレーションセッション
Yamadai.Rデモンストレーションセッション
 
Interpreting Tree Ensembles with inTrees
Interpreting Tree Ensembles with  inTreesInterpreting Tree Ensembles with  inTrees
Interpreting Tree Ensembles with inTrees
 
Introduction of featuretweakR package
Introduction of featuretweakR packageIntroduction of featuretweakR package
Introduction of featuretweakR package
 
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on TwitterKDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
 
10分でわかるRandom forest
10分でわかるRandom forest10分でわかるRandom forest
10分でわかるRandom forest
 
アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法
 
Random forest の解説
Random forest の解説Random forest の解説
Random forest の解説
 
人工知能10 サポートベクトルマシン
人工知能10 サポートベクトルマシン人工知能10 サポートベクトルマシン
人工知能10 サポートベクトルマシン
 
[DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions [DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions
 
正則化による尤度比推定法を応用した多値分類器の改良
正則化による尤度比推定法を応用した多値分類器の改良正則化による尤度比推定法を応用した多値分類器の改良
正則化による尤度比推定法を応用した多値分類器の改良
 
距離とクラスタリング
距離とクラスタリング距離とクラスタリング
距離とクラスタリング
 
How to use in R model-agnostic data explanation with DALEX & iml
How to use in R model-agnostic data explanation with DALEX & imlHow to use in R model-agnostic data explanation with DALEX & iml
How to use in R model-agnostic data explanation with DALEX & iml
 
Stan で欠測データの相関係数を推定してみた
Stan で欠測データの相関係数を推定してみたStan で欠測データの相関係数を推定してみた
Stan で欠測データの相関係数を推定してみた
 

Similar to NL20161222invited

ベイズ統計によるデータ解析
ベイズ統計によるデータ解析ベイズ統計によるデータ解析
ベイズ統計によるデータ解析Kunihiro Hisatsune
 
統計学における相関分析と仮説検定の基本的な考え方とその実践
統計学における相関分析と仮説検定の基本的な考え方とその実践統計学における相関分析と仮説検定の基本的な考え方とその実践
統計学における相関分析と仮説検定の基本的な考え方とその実践id774
 
LET関西メソ研20140915公開版
LET関西メソ研20140915公開版LET関西メソ研20140915公開版
LET関西メソ研20140915公開版youwatari
 
データ解析4 確率の復習
データ解析4 確率の復習データ解析4 確率の復習
データ解析4 確率の復習Hirotaka Hachiya
 
ネットワークメタ分析入門
ネットワークメタ分析入門ネットワークメタ分析入門
ネットワークメタ分析入門Senshu University
 
明日から読める無作為化比較試験: 行動療法研究に求められる統計学
明日から読める無作為化比較試験: 行動療法研究に求められる統計学明日から読める無作為化比較試験: 行動療法研究に求められる統計学
明日から読める無作為化比較試験: 行動療法研究に求められる統計学Yasuyuki Okumura
 
forestFloorパッケージを使ったrandomForestの感度分析
forestFloorパッケージを使ったrandomForestの感度分析forestFloorパッケージを使ったrandomForestの感度分析
forestFloorパッケージを使ったrandomForestの感度分析Satoshi Kato
 
理科教育学研究のための統計分析入門
理科教育学研究のための統計分析入門理科教育学研究のための統計分析入門
理科教育学研究のための統計分析入門Hiroshi Unzai
 
Foundations of Statistical Natural Language Processing (chapter 5)
Foundations of Statistical Natural Language Processing (chapter 5)Foundations of Statistical Natural Language Processing (chapter 5)
Foundations of Statistical Natural Language Processing (chapter 5)Akira Miyazawa
 
Analysis of clinical trials using sas 勉強用 isseing333
Analysis of clinical trials using sas 勉強用 isseing333Analysis of clinical trials using sas 勉強用 isseing333
Analysis of clinical trials using sas 勉強用 isseing333Issei Kurahashi
 
量子アニーリングを用いたクラスタ分析 (QIT32)
量子アニーリングを用いたクラスタ分析 (QIT32)量子アニーリングを用いたクラスタ分析 (QIT32)
量子アニーリングを用いたクラスタ分析 (QIT32)Shu Tanaka
 
2016年12月18日AITC女子会 データ分析勉強会第7回「Rを使ったデータ分析の基礎・分析手法について知る」
2016年12月18日AITC女子会 データ分析勉強会第7回「Rを使ったデータ分析の基礎・分析手法について知る」2016年12月18日AITC女子会 データ分析勉強会第7回「Rを使ったデータ分析の基礎・分析手法について知る」
2016年12月18日AITC女子会 データ分析勉強会第7回「Rを使ったデータ分析の基礎・分析手法について知る」aitc_jp
 
K070 点推定
K070 点推定K070 点推定
K070 点推定t2tarumi
 
K070k80 点推定 区間推定
K070k80 点推定 区間推定K070k80 点推定 区間推定
K070k80 点推定 区間推定t2tarumi
 
傾向スコアの概念とその実践
傾向スコアの概念とその実践傾向スコアの概念とその実践
傾向スコアの概念とその実践Yasuyuki Okumura
 
「生物統計学」演習問題集
「生物統計学」演習問題集「生物統計学」演習問題集
「生物統計学」演習問題集Keiji Miura
 
基本統計量について
基本統計量について基本統計量について
基本統計量についてwada, kazumi
 

Similar to NL20161222invited (20)

ベイズ統計によるデータ解析
ベイズ統計によるデータ解析ベイズ統計によるデータ解析
ベイズ統計によるデータ解析
 
統計学における相関分析と仮説検定の基本的な考え方とその実践
統計学における相関分析と仮説検定の基本的な考え方とその実践統計学における相関分析と仮説検定の基本的な考え方とその実践
統計学における相関分析と仮説検定の基本的な考え方とその実践
 
LET関西メソ研20140915公開版
LET関西メソ研20140915公開版LET関西メソ研20140915公開版
LET関西メソ研20140915公開版
 
データ解析4 確率の復習
データ解析4 確率の復習データ解析4 確率の復習
データ解析4 確率の復習
 
ネットワークメタ分析入門
ネットワークメタ分析入門ネットワークメタ分析入門
ネットワークメタ分析入門
 
明日から読める無作為化比較試験: 行動療法研究に求められる統計学
明日から読める無作為化比較試験: 行動療法研究に求められる統計学明日から読める無作為化比較試験: 行動療法研究に求められる統計学
明日から読める無作為化比較試験: 行動療法研究に求められる統計学
 
forestFloorパッケージを使ったrandomForestの感度分析
forestFloorパッケージを使ったrandomForestの感度分析forestFloorパッケージを使ったrandomForestの感度分析
forestFloorパッケージを使ったrandomForestの感度分析
 
理科教育学研究のための統計分析入門
理科教育学研究のための統計分析入門理科教育学研究のための統計分析入門
理科教育学研究のための統計分析入門
 
Dbda chapter15
Dbda chapter15Dbda chapter15
Dbda chapter15
 
因果推論の基礎
因果推論の基礎因果推論の基礎
因果推論の基礎
 
Foundations of Statistical Natural Language Processing (chapter 5)
Foundations of Statistical Natural Language Processing (chapter 5)Foundations of Statistical Natural Language Processing (chapter 5)
Foundations of Statistical Natural Language Processing (chapter 5)
 
Analysis of clinical trials using sas 勉強用 isseing333
Analysis of clinical trials using sas 勉強用 isseing333Analysis of clinical trials using sas 勉強用 isseing333
Analysis of clinical trials using sas 勉強用 isseing333
 
量子アニーリングを用いたクラスタ分析 (QIT32)
量子アニーリングを用いたクラスタ分析 (QIT32)量子アニーリングを用いたクラスタ分析 (QIT32)
量子アニーリングを用いたクラスタ分析 (QIT32)
 
2016年12月18日AITC女子会 データ分析勉強会第7回「Rを使ったデータ分析の基礎・分析手法について知る」
2016年12月18日AITC女子会 データ分析勉強会第7回「Rを使ったデータ分析の基礎・分析手法について知る」2016年12月18日AITC女子会 データ分析勉強会第7回「Rを使ったデータ分析の基礎・分析手法について知る」
2016年12月18日AITC女子会 データ分析勉強会第7回「Rを使ったデータ分析の基礎・分析手法について知る」
 
K070 点推定
K070 点推定K070 点推定
K070 点推定
 
K070k80 点推定 区間推定
K070k80 点推定 区間推定K070k80 点推定 区間推定
K070k80 点推定 区間推定
 
傾向スコアの概念とその実践
傾向スコアの概念とその実践傾向スコアの概念とその実践
傾向スコアの概念とその実践
 
「生物統計学」演習問題集
「生物統計学」演習問題集「生物統計学」演習問題集
「生物統計学」演習問題集
 
基本統計量について
基本統計量について基本統計量について
基本統計量について
 
4thNLPDL
4thNLPDL4thNLPDL
4thNLPDL
 

More from Tetsuya Sakai (20)

NTCIR15WWW3overview
NTCIR15WWW3overviewNTCIR15WWW3overview
NTCIR15WWW3overview
 
sigir2020
sigir2020sigir2020
sigir2020
 
ipsjifat201909
ipsjifat201909ipsjifat201909
ipsjifat201909
 
sigir2019
sigir2019sigir2019
sigir2019
 
assia2019
assia2019assia2019
assia2019
 
ntcir14centre-overview
ntcir14centre-overviewntcir14centre-overview
ntcir14centre-overview
 
evia2019
evia2019evia2019
evia2019
 
ecir2019tutorial-finalised
ecir2019tutorial-finalisedecir2019tutorial-finalised
ecir2019tutorial-finalised
 
ecir2019tutorial
ecir2019tutorialecir2019tutorial
ecir2019tutorial
 
WSDM2019tutorial
WSDM2019tutorialWSDM2019tutorial
WSDM2019tutorial
 
sigir2018tutorial
sigir2018tutorialsigir2018tutorial
sigir2018tutorial
 
Evia2017unanimity
Evia2017unanimityEvia2017unanimity
Evia2017unanimity
 
Evia2017assessors
Evia2017assessorsEvia2017assessors
Evia2017assessors
 
Evia2017dialogues
Evia2017dialoguesEvia2017dialogues
Evia2017dialogues
 
Evia2017wcw
Evia2017wcwEvia2017wcw
Evia2017wcw
 
sigir2017bayesian
sigir2017bayesiansigir2017bayesian
sigir2017bayesian
 
AIRS2016
AIRS2016AIRS2016
AIRS2016
 
Nl201609
Nl201609Nl201609
Nl201609
 
ictir2016
ictir2016ictir2016
ictir2016
 
ICTIR2016tutorial
ICTIR2016tutorialICTIR2016tutorial
ICTIR2016tutorial
 

Recently uploaded

デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 

Recently uploaded (8)

デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 

NL20161222invited