2007 IEEE ICDM DMC task1 result

IEEE ICDM DMC 2007

@知的獲得システム論課題報告会
能見大河

課題
• 1.コンテストと同じ条件でテストデータのグリッドを
推定
• 2.「グリッドの位置関係」の情報を利用して，テスト
データのグリッドを推定
• 3.グリッド番号ではなく2次元位置座標を直接推定
• 4.100個のアクセスポイントの位置を推定

テストデータのグリッド推定
（課題1）

1:半教師ありK-means
• 1.ラベル有りデータでクラスタ中心を決定
• 2.各ラベル無しデータを最近傍クラスタに分類
• 3.クラスタ中心を再計算
• 4.各ラベル無しデータを最近傍クラスタに分類
• 5.クラスタリングが収束するまで3.～4.を繰り返し

K-means
• 信号強度の類似度のみを用いてクラスタリング
• Norm < 1
– 信号がノイジー
• 同じ場所でも受信する信号強度はばらつく
• 受信しえない距離からの信号は必ず0
• 信号の数値より数値の組み合わせが大事

Example
Access Point 1 2 3 4 5 6
Label A 0 0 0 10 0 10
A?B? 0 0 0 20 0 5
Label B 5 5 0 20 0 0
4 1
A B
2
6 ??

0.5-NormだとBよりもAに近い
→感覚に合致
2-NormだとBのほうが近い
→NG

結果
• 1623/2137(75.96%) with K=1, Norm=1/3
• 1575/2137(73.70%) with K=3, Norm=1/3
• 1469/2137(68.74%) with K=1, Norm=1/2

• …微妙？
• 信号Vector上で各ラベルのデータが超球を形成し
ていればK-meansは効果を発揮するはずだが、今
回はノルムを振っても良い結果は出ず
• ラベル重心を計算するときに、ラベルが多い訓練
データとそうでないデータでベクトルの要素数がば
らついてしまうのも悪影響？

2:最尤伝播
• IBMチームの手法をまねっこ
– 最尤のラベル有りデータから伝搬させて学習
– テストデータについてはi番目データのcっぽさ
（尤度関数）fi(c)を計算し，最もfが大きくなるcを
正解とする
• 簡単のため，ひとまず信号のみでSimilarityを計算

結果
• 1604/2137(75.06%) With Norm=1/3
• そんなに良くないような
• 最近傍のラベルを貰うだけなのがよくない？
– Ｋ－近傍で多数決を取っても改善しない（むし
ろ悪化）
– 尤度と近傍度の積和を取ってもやっぱり改善し
ない

どう改善する？
• 改善する→今まで使っていない情報を何か使う
• 時間データを用いていない
– 同一トレース内では前後の情報が有効
• 各ステップの尤度関数を都度破棄している
– 正解と不正解のときで尤度の分布が明らかに
違うので，これを利用できないか？
1000
不正解データ
800
データ数

正解データ
600

400
200
0

1～
01

1

01

1
1

～
00

0.
0.
00

～
0.

～
0.

～
～

尤度

改善1/3: 時間データの利用
• テストデータの時系列を組みこむ
– 同一トレース内で3ステップ前までの推定値を尤
度関数に加算
– k-3:+=0.1, k-2:+=0.3, k-1:+=0.5
– 怪しかった推定結果(f<0.01)は破棄する

Example

ステップ k-3 k-2 k-1 k
10 10 194 ?
0.6 0.007 0.3
推定値
尤度f

fk(194) += 0.5

fが小さいので
加算しない

fk(10) += 0.1

改善2/3: Graph Based Weighting
• トレーニング/テストデータは同じ地図上を動く
• ある場所cに居るとき，次のステップで移動可能な
場所は限られている
• 学習中に推定ラベル遷移から部屋の構造を推定
– ノード1..247を配置
– 尤度がしきい値(0.1)を超えたペアの間に
branchを張っていく
• 学習中に間違った推定をすると正答率を悪化させ
る可能性

Example
ラベル 10 10 194 4 20 2

尤度 0.4 0.2 0.1 0.5 0.8 0.003

194
20
10
尤度が低いので
枝を張らない
2
4

改善3/3：うろつきの禁止
• （自明では無いが）同一トレース内で10→ 10→
194→ 194→ 194→10→ 10→ 194→…のような
動きは余りしないのでは無いか
• ある尤度以上で一定回数以上推定した場所は、
同一トレース内での再訪に対しペナルティを課す
• ラベルが変化した場合でも、尤度が小さい場合は
ペナルティを課さない

Example

推定 10 10 10 10 5 5 109 5 5
尤度 0.3 0.4 0.5 0.5 0.7 0.4 0.01 0.4 0.9

これ以降はf(10) を0.4倍

109は尤度が小さいので
f(5)はペナルティなし

結果
• 工夫無し(1604/2137, 75.06%)
↓ 5.8%
• 時間情報の利用(1728/2137, 80.86%)
↓1.45%
• 部屋の構造推定(1759/2137, 82.31%)
↓0.19%
• うろつき禁止(1763/2137, 82.50%)

3：bayonを使う
• bayon:mixiのエンジニアがリリースした高速なクラ
スタリングツール
• Repeated Bisection法
– 以下の手順でクラスタの2分割を繰り返していく
• 1．最もまとまりが悪いクラスタAを選択し，そ
の中のランダムな2要素を代表としたクラス
タB,Cを作成
• 2.Aの各要素を代表との類似度に沿ってB,C
どちらかに割り振る
• 3.B,C間で要素の移動を行って集合を洗練

準備
• 主に教師なしクラスタリングに使うツールだが、ラ
ベル中心ベクトルを入力することで教師ありのクラ
スタリングもできる
– この場合単に類似度評価であってR-Bのような
イタレーションはやっていない気がする（良く分
かってない…）
• ラベルありデータの信号強度のみを用いて推定
• とてもお手軽だった
– インストール5分
– 入力データフォーマットの整形1分
– クラスタリング2秒

結果
• 正解率 1291/2137(60.4%)
• タブ区切りでIDとKey-Valueペアを入力するとさっく
りクラスタリングしてくれて，いろいろ遊べそう

地図情報を利用した推定
（課題2）

手法
• 先のGraph Based Weightingが再利用できる
– 今度はラベル無しデータではなく，座標セット
（map_coordinates.txt）を用いてグラフを生成
– グラフの重みを強め、実質的に1ステップ前の
推定ラベル自身とその隣にしか移動できない
ように
• 一旦間違った方向に入ると泥沼に入る可
能性
• 尤度関数の情報を用いて重みを都度調整
– 1ステップ前の尤度が弱い場合は尤度
が強いステップまで巻き戻り、その近傍
に対しても重みをつけてやる

Example
ラベル 10 10 210 184 120
尤度 0.8 0.7 0.001 0.4 0.05

210
10 10
10 184
10 120
10

結果
• 1832/2137(85.73%)
• 確かに良くなった。
• 余り試行錯誤していないのでまだ改善できそう

まとめ
手法結果
K-means 75.96%
ラベル伝搬 82.50%
bayon 60.4%
地図情報利用 85.73%

・いろいろ試行錯誤の結果、とりあえずIBMの
結果は超えるものが出た
・使っていない情報は何か考えて実装するプロセスを
楽しんでやれた
・bayonもっと使いたい

2007 IEEE ICDM DMC task1 result

Recommended

Recommended

More Related Content

Recently uploaded

Recently uploaded (9)

Featured

Featured (20)

2007 IEEE ICDM DMC task1 result