若手研究者のための招待講演会

Cover 先生と私準備 Cover 先生が提起した未解決問題ユニバーサルな予測の一般化まとめ

[招待講演] Cover 先生の研究室で思い出に残っているテーマ
∼ 定常エルゴードな系列に対してのユニバーサルな予測 ∼

鈴木譲

大阪大学

2012 年 12 月 11 日
SITA 2012 (別府)

[招待講演] Cover 先生の研究室で思い出に残っているテーマ, ∼ 定常エルゴードな系列に対してのユニバーサルな予測 ∼
1 / 30


Road Map

1 Cover 先生と私

2 準備

3 Cover 先生が提起した未解決問題

4 ユニバーサルな予測の一般化

5 まとめ

2 / 30


予測とは?

x n := (x1 , · · · , xn ) ∈ {0, 1}n から、xn+1 ∈ {0, 1} を予測
.
x n のもとでの xn+1 の確率の推定値 Q(xn+1 |x n ) を構成

たとえば、 .
1 1
1 Q(xn+1 |x n ) = ( , )
2 2

.
n−c c
2 c を x n での xn+1 の頻度として、Q(xn+1 |x n ) = ( , )
n n
. n−c +1 c +1
3 Q(xn+1 |x n ) = ( , )
n+2 n+2

ねらい: 真の確率 P(xn+1 |x n ) に収束させたい
. Q(xn+1 |x n ) −→ P(xn+1 |x n ) (n → ∞)

3 / 30


符号化・符号語・一意復号可能

A: 有限集合 (有限アルファベット)
φ : An → {0, 1}∗ 符号化

l : An → N+ が φ の長さ
n)
符号語 φ(x n ) ∈ {0, 1}l(x となるときの、x n → l(x n ) の対応

l が一意復号可能な符号化の長さ .
⇐⇒ l∑が瞬時復号可能な符号化の長さ
2−l(x ) ≤ 1
n
⇐⇒ .
x n ∈An
(→ Elements of Information Theory)

4 / 30


エントロピー

P n : x n ∈ An の確率 (定常エルゴード)
1∑
H := lim −P(x n ) log P(x n ) (エントロピー)
n→∞ n n
x

Shannon-McMillan-Breiman の定理
1
確率 1 で、− log P n (x n ) → H (n → ∞)
n
証明 (独立のときのみ): P n (x n ) = P(x1 ) · · · P(xn )
.
1∑
n
1
− log P (x ) =
n n
− log P(xi ) → E [− log P(X )] = H
n n
i=1
.
(大数の強法則)

5 / 30


ユニバーサルデータ圧縮

例: l(x n ) := ⌈− log P n (x n )⌉
∑
2−l(x
n
)
≤1
x n ∈An

l(x n )
→H
n
は、確率 P n が未知だと、長さ l を構成できない。
ユニバーサルデータ圧縮
P n が未知でも、l(x n ) := − log Q n (x n ) が上記 2 条件を満足

6 / 30


例: Bayes 符号
2 進アルファベット A = {0, 1}、独立情報源、0 ≤ θ ≤ 1 として
∫
Q n (x n ) = w (θ)P(x n |θ)dθ

a, b > 0, c を x n ∈ An における xi = 1 の頻度として、

Γ(a + b) a−1
w (θ) = θ (1 − θ)b−1 , P(x n |θ) = θc (1 − θ)n−c
Γ(a)Γ(b)
Γ(a + b) Γ(c + a)Γ(n − c + b)
⇐⇒ Q(x n ) = ·
Γ(a)Γ(b) Γ(n + a + b)

a = b = 1/2 (Krichevsky-Troﬁmov) と Stirling の公式から、

1
− log Q n (x n ) → H
n

7 / 30


ユニバーサル性

1
− log P n (x n ) → H
n
1
− log Q n (x n ) → H
n

Q n がユニバーサルな Bayes 測度
すべての P n について、

1 P n (x n )
log n n → 0
n Q (x )

有限アルファベット A = {0, 1, · · · , m − 1}
情報源が定常エルゴード
.
8 / 30


1975 年にモスクワで、Cover 先生が提起した未解決問題
1 ドル賭けて、勝てば 2 ドル、負ければ戻ってこない

A = {0, 1}, P n は未知
1 1 を、(Q(0|x 0 ), Q(1|x 0 )) で賭ける

. 2 x1 = 0
3 1 → 2Q(0|x 0 ) を、(Q(0|x 1 ), Q(1|x 1 )) で賭ける

. 4 x2 = 1
5 2Q(0|x 0 ) → 2Q(0|x 0 ) · 2Q(1|x 1 ) を、(Q(0|x 2 ), Q(1|x 2 )) で賭ける

. 6 ···

2Q(x1 |x 0 ) · 2Q(x2 |x 1 ) · · · 2Q(xn |x n−1 ) = 2n Q n (x n )
.
P n を知っている人は、2n P n (x n )

. [招待講演] Cover 先生の研究室で思い出に残っているテーマ, ∼ 定常エルゴードな系列に対してのユニバーサルな予測 ∼
9 / 30


未解決問題 1

ユニバーサルな賭けの存在
どのような定常エルゴードな (未知の)P n についても

1 1
log[2n Q n (x n )] → log[2n P n (x n )]
n n
(n → ∞) となるような計算可能な Q n は存在するか。 .

存在する:

P n を知らなくても、P n を知っている人と同程度に勝てる
(ユニバーサルデータ圧縮)

.

10 / 30


未解決問題 2

ユニバーサルな予測の存在 (その 1)
どのような定常エルゴードな (未知の)P についても、
各 x0 ∈ {0, 1} について、
−1 −1
Q(x0 |x−n ) → P(x0 |x−∞ )

(n → ∞) となるような Q は存在するか。 .
存在する:
Ornstein 1978 (有限アルファベット)
Algoet 1992 (一般)

.
11 / 30


証明: (Morvai, Yakowitz, Gy¨rfy, 1996)
o

0 = λ0 → τ1 → λ1 → τ2 → · · ·

· · · X−λj−1 −τj · · · X−1−τj X−τj · · · X−λj−1 · · · X−1 X0
λj−1 λj−1

τj

λj :=λj−1 +τj

1∑
k
−1
X−τj → Q(X0 = 1|X−∞ )
k
j=1

12 / 30


未解決問題 2

ユニバーサルな予測の存在 (その 2)
どのような定常エルゴードな (未知の)P についても、
各 xn+1 ∈ {0, 1} について、

Q(xn+1 |x n ) → P(xn+1 |x n )

(n → ∞) となるような Q は存在するか。 .
存在しない:
Shields, 1991 (Cutting and Stacking)
Algoet, 1997

.
13 / 30


証明

s

状態 s: · · · 1 0 · · · 0 xn+1
xn

q(s): 状態 s に初めて到達したときの Q(1|s)
{
3/4 (q(s) ≤ 1/2)
P(1|s) :=
1/4 (q(s) > 1/2)

確率 1 でどの状態 s も生じるので、

|P(xn+1 |x n ) − Q(xn+1 |x n )| ≥ 1/4

が確率 1 で無限回生じる。

14 / 30


未解決問題 3: ポートフォリオ (賭けの一般化)
(X0 , X1 ): 非負の値をとる確率変数の組
(0) (1) (0) (1)
bi = (bi , bi ), bi + bi = 1
(0) (0) (1) (1)
(bi , Xi ) := bi Xi + bi Xi
∏
bi : x i−1 に基づいて決めた戦略 =⇒ Sn := n (bi , Xi∏
ˆ ˆ
i=1
ˆ )
bi∗ = b : X n の分布に基づいた最適な戦略 =⇒ S ∗ := n ∗
i n i=1 (bi , Xi )

問題 3: ユニバーサルなポートフォリオの存在
どのような定常エルゴードな (未知の)X n の分布についても、

1 1 ∗
log Sn → log Sn
ˆ
n n
(n → ∞) となるような (b1 , · · · , bn ) は存在するか。
ˆ ˆ

存在する (→ Elements of Information Theory)
15 / 30


ユニバーサルな予測の Bayes 的方法

(c0 , c1 ) := (n − c, c) (x n での (0, 1) の頻度)

Γ(a + b) Γ(c + a)Γ(n − c + b)
Q n (x n ) = ·
Γ(a)Γ(b) Γ(n + a + b)

Γ(x + 1) = xΓ(x), x > 0 より、a = b = 1/2 のとき

n−c +a c +a c0 + 1/2 c1 + 1/2
(Q(0|x n ), Q(1|x n )) = ( , )=( , )
n+a+b n+a+b n+1 n+1
一般には、A = {0, 1, · · · , m − 1} として、

c0 + 1/2 cm−1 + 1/2
(Q(0|x n ), · · · , Q(m − 1|x n )) = ( ,··· , )
n + m/2 n + m/2

独立でなく、定常エルゴードの場合に拡張することは可能

16 / 30


ユニバーサルな Bayes 測度
確率変数が有限個の値をとる場合
∑
Q n (x n ) ≤ 1
x n ∈An

1 P n (x n )
log n n → 1
n Q (x )

一般の確率変数の場合
ユニバーサルな Bayes 測度は、どのようになるのか。

x n が連続の場合や、離散でも連続でもない場合は、
どのようにして、xn+1 を予測するのか

(簡単のため、独立な情報源のみを扱うが、拡張はいつでも可能)
.
17 / 30
.


X が確率密度関数 f をもつとき (Ryabko の方法)
X : X の取りうる値
x n = x1 · · · xn ∈ X n
f を複数のヒストグラム f1 , f2 , · · · でそれぞれ近似
各ヒストグラム Aj を、X を細分化した区間の集合で表現。
f を近似した fj で、fj (x1 ) · · · fj (xn ) を計算。
.
A0 := {X }
Aj+1 が Aj の細分
.
例 1: A0 = {[0, 1)} のとき、下記はこの条件を満足する:
A1 = {[0, 1/2), [1/2, 1)}
A2 = {[0, 1/4), [1/4, 1/2), [1/2, 3/4), [3/4, 1)}
...
Aj = {[0, 2−(j−1) ), [2−(j−1) , 2 · 2−(j−1) ), · · · , [(2j−1 − 1)2−(j−1) , 1)}
...
18 / 30


B: R の Borel 集合全体
λ : B → R (Lebesgue 測度, B ∋ a = [b, c) =⇒ λ(a) = c − b)

ヒストグラム Aj で、
X n ∋ (x1 , · · · , xn ) ∈ (a1 , · · · , an ) ∈ An のとき、
j

 f n (x n ) := f (x ) · · · f (x ) = Pj (a1 ) · · · Pj (an )
 j
 j 1 j n
λ(a1 ) . . . λ(an )
 n n Qjn (a1 , · · · , an )
 g (x ) :=
 j
λ(a1 ) · · · λ(an )

19 / 30


∑
{ωj }∞ :
j=1 ωj = 1, ωj > 0,
∞
∑
n n
g (x ) := ωj gjn (x n )
j=1

{Aj } をどのような f についても、j → ∞ で
∫
h(f ) := −f (x) log f (x)dλ(x)

として、h(fj ) → h(f ) となるように選ぶと、

1 f n (x n )
log n n → 0
n g (x )
B. Ryabko. IEEE Trans. on Inform. Theory, 55, 9, 2009.

20 / 30


確率変数 X に確率密度関数が存在するための必要十分条件

µ(D): D ∈ B の確率

確率密度関数が存在する必要十分条件
以下は、同値 (µ ≪ λ)
各 D ∈ B で、λ(D) = 0 =⇒ µ(D) = 0
∫
dµ
µ(D) = f (t)dλ(t) なる B 可測な := f が存在
D dλ

.
参考: f : R → R が B 可測
⇐⇒ 各 D ∈ B について、{x ∈ R|f (x) ∈ D} ∈ B
(Lebesgue 積分を適用する条件)

.
21 / 30


一般化確率密度関数の推定

Radon-Nikodym の定理
以下は同値 (µ ≪ η):
各 D ∈ B で、η(D) = 0 =⇒ µ(D) = 0
∫
dµ .
µ(D) = f (t)dη(t) なる F 可測な := f が存在
D dη
1
例 2: µ({k}) > 0, η({k}) := , k ∈ Y := {1, 2, · · · }
k(k + 1)
∑
µ(D) = f (k)η({k}) , D ⊆ Y .
k∈D

dµ µ({k})
µ ≪ η =⇒ (k) = f (k) = = k(k + 1)µ({k})
dη η({k})

22 / 30


B1 := {{1}, {2, 3, · · · }}
B2 := {{1}, {2}, {3, 4, · · · }}
...
Bk := {{1}, {2}, · · · , {k}, {k + 1, k + 2, · · · }}
...
ヒストグラム Bk で、
Y n ∋ (y1 , · · · , yn ) ∈ (b1 , · · · , bn ) ∈ Bk のとき、
n


 f (y ) := fk (y1 ) · · · fk (yn ) = Pk (b1 ) · · · Pk (bn )
 n n
 k
η(b1 ) . . . η(bn )
 n n
 Qk (b1 , · · · , bn )
n
 gk (y ) :=
λ(b1 ) · · · λ(bn )

23 / 30


{Bk } をどのような f についても、k → ∞ で (fk ) → h(f ) となる
ように選ぶと、
1 f n (y n )
log n n → 0
n g (y )

g n (y n )η({y1 }) · · · η({yn }) が、
P(y n ) = f n (y n )η({y1 }) · · · η({yn }) の推定になる

24 / 30


有限アルファベットの場合も特種ケースとして含まれる
例 3: Z := {0, 1, · · · , m − 1}

C0 = {Z}, C1 = C2 = · · · = {{0}, {1}, · · · , {m − 1}}

η({0}) = · · · η({m − 1}) = 1/m
とおけば、µ ≪ η

z n ∈ C n ⇐⇒ c n ∈ C1 = C2 = · · ·
n n
 n n
 n n
 f (z ) = P (c ) ,

 (1/m)n
∞
 g n (z n ) = g n (z n ) = · · · = g n (z n ) = ∑ ω g n (z n ) = Q (c )
=⇒ n n
 1

 2 l l
(1/m)n
l=1
1 f n (z n ) 1 P n (c n )
=⇒ log n n = log n n → 0
n g (z ) n Q (c )

25 / 30


(X , Y ) ∈ X × Y
例 4: 例 1 と例 2 の {Aj }, {Bk } から、{Aj × Bk } を構成

Qjk : (Aj × Bk )n の予測確率
n

 n n n
 fj,k (x , y ) := fj,k (x1 , y1 ) · · · fj,k (xn , yn )


 Pj,k (a1 , b1 ) · · · Pj,k (an , bn )

=
λ(a1 ) . . . λ(an )η(b1 ) . . . η(bn )

 Qjk ((a1 , b1 ) · · · , (an , bn ))
n
 n n n
 g (x , y ) :=
 jk
λ(a1 ) · · · λ(an )η(b1 ) · · · η(bn )
∑
jk ωjk = 1, ωjk > 0,
∞
∑
g n (x n , y n ) := ωjk gjk (x n , y n )
n

k=1

1 f n (x n , y n )
log n n n → 0
n g (x , y )
26 / 30


離散や連続を仮定しないユニバーサルな予測
Suzuki, 2011
µ ≪ η のとき、ヒストグラムの列 {Aj } をもつ Bayes 測度 g を構
成すると、h(fj ) → h(f ) を満足する任意の f に対して、

1 f n (u n ) .
log n n → 0
n g (u )

一般化されたユニバーサルな Bayes 測度
g n+1 (x n+1 ) f n+1 (x n+1 )
g (xn+1 |x n ) = → f (xn+1 |x n ) = .
g n (x n ) f n (x n )

各 D ∈ B について
∫
ν(D|x n ) = g (x|x n )dη(x)
D

[招待講演] Cover 先生の研究室で思い出に残っているテーマ, ∼ 定常エルゴードな系列に対してのユニバーサルな予測 ∼ .
27 / 30


その他の応用例: Bayesian ネットワークの構造推定

X X X
(1)
(2)
(3)
u
e

若手研究者のための招待講演会

Recommended

Recommended

More Related Content

What's hot

What's hot (17)

Similar to 若手研究者のための招待講演会

Similar to 若手研究者のための招待講演会 (20)

More from Joe Suzuki

More from Joe Suzuki (20)

若手研究者のための招待講演会