SlideShare a Scribd company logo
IEEE ICDM DMC 2007

@知的獲得システム論 課題報告会
能見大河
課題
• 1.コンテストと同じ条件でテストデータのグリッドを
  推定
• 2.「グリッドの位置関係」の情報を利用して,テスト
  データのグリッドを推定
• 3.グリッド番号ではなく2次元位置座標を直接推定
• 4.100個のアクセスポイントの位置を推定
テストデータのグリッド推定
(課題1)
1:半教師ありK-means
• 1.ラベル有りデータでクラスタ中心を決定
• 2.各ラベル無しデータを最近傍クラスタに分類
• 3.クラスタ中心を再計算
• 4.各ラベル無しデータを最近傍クラスタに分類
• 5.クラスタリングが収束するまで3.~4.を繰り返し
K-means
• 信号強度の類似度のみを用いてクラスタリング
• Norm < 1
  – 信号がノイジー
     • 同じ場所でも受信する信号強度はばらつく
     • 受信しえない距離からの信号は必ず0
     • 信号の数値より数値の組み合わせが大事
Example
 Access Point 1   2    3       4            5   6
 Label A      0   0    0       10           0   10
 A?B?        0    0    0       20           0   5
 Label B     5    5    0       20           0   0
                  4                 1
              A            B
                                        2
              6   ??

  0.5-NormだとBよりもAに近い
  →感覚に合致
  2-NormだとBのほうが近い
  →NG
結果
• 1623/2137(75.96%) with K=1, Norm=1/3
• 1575/2137(73.70%) with K=3, Norm=1/3
• 1469/2137(68.74%) with K=1, Norm=1/2


• …微妙?
• 信号Vector上で各ラベルのデータが超球を形成し
  ていればK-meansは効果を発揮するはずだが、今
  回はノルムを振っても良い結果は出ず
• ラベル重心を計算するときに、ラベルが多い訓練
  データとそうでないデータでベクトルの要素数がば
  らついてしまうのも悪影響?
2:最尤伝播
• IBMチームの手法をまねっこ
  – 最尤のラベル有りデータから伝搬させて学習
  – テストデータについてはi番目データのcっぽさ
    (尤度関数)fi(c)を計算し,最もfが大きくなるcを
    正解とする
• 簡単のため,ひとまず信号のみでSimilarityを計算
結果
• 1604/2137(75.06%) With Norm=1/3
• そんなに良くないような
• 最近傍のラベルを貰うだけなのがよくない?
  – K-近傍で多数決を取っても改善しない(むし
    ろ悪化)
  – 尤度と近傍度の積和を取ってもやっぱり改善し
    ない
どう改善する?
• 改善する→今まで使っていない情報を何か使う
• 時間データを用いていない
 – 同一トレース内では前後の情報が有効
• 各ステップの尤度関数を都度破棄している
 – 正解と不正解のときで尤度の分布が明らかに
   違うので,これを利用できないか?
             1000
                          不正解データ
              800
      データ数




                          正解データ
              600

              400
              200
                0




                                                       1~
                     01



                                 1


                                       01




                                                   1
                                              1


                                                  ~
                             00




                                             0.
                                      0.
                    00




                                            ~
                            0.


                                     ~
                0.


                           ~
               ~




                                            尤度
改善1/3: 時間データの利用
• テストデータの時系列を組みこむ
 – 同一トレース内で3ステップ前までの推定値を尤
   度関数に加算
 – k-3:+=0.1, k-2:+=0.3, k-1:+=0.5
 – 怪しかった推定結果(f<0.01)は破棄する
Example


 ステップ k-3    k-2       k-1          k
       10    10        194          ?
       0.6   0.007     0.3
 推定値
 尤度f

                   fk(194) += 0.5

             fが小さいので
              加算しない

               fk(10) += 0.1
改善2/3: Graph Based Weighting
• トレーニング/テストデータは同じ地図上を動く
• ある場所cに居るとき,次のステップで移動可能な
  場所は限られている
• 学習中に推定ラベル遷移から部屋の構造を推定
  – ノード1..247を配置
  – 尤度がしきい値(0.1)を超えたペアの間に
    branchを張っていく
• 学習中に間違った推定をすると正答率を悪化させ
  る可能性
Example
ラベル   10         10     194   4        20    2

尤度    0.4        0.2    0.1   0.5      0.8   0.003



                       194
                                  20
            10
                                       尤度が低いので
                                        枝を張らない
                                        2
                         4
改善3/3:うろつきの禁止
• (自明では無いが)同一トレース内で10→ 10→
  194→ 194→ 194→10→ 10→ 194→…のような
  動きは余りしないのでは無いか
• ある尤度以上で一定回数以上推定した場所は、
  同一トレース内での再訪に対しペナルティを課す
• ラベルが変化した場合でも、尤度が小さい場合は
  ペナルティを課さない
Example


推定   10   10   10   10 5   5   109 5   5
尤度   0.3 0.4 0.5 0.5 0.7 0.4 0.01 0.4 0.9


                      これ以降はf(10) を0.4倍



                      109は尤度が小さいので
                         f(5)はペナルティなし
結果
• 工夫無し(1604/2137, 75.06%)
  ↓ 5.8%
• 時間情報の利用(1728/2137, 80.86%)
  ↓1.45%
• 部屋の構造推定(1759/2137, 82.31%)
  ↓0.19%
• うろつき禁止(1763/2137, 82.50%)
3:bayonを使う
• bayon:mixiのエンジニアがリリースした高速なクラ
  スタリングツール
• Repeated Bisection法
  – 以下の手順でクラスタの2分割を繰り返していく
     • 1.最もまとまりが悪いクラスタAを選択し,そ
       の中のランダムな2要素を代表としたクラス
       タB,Cを作成
     • 2.Aの各要素を代表との類似度に沿ってB,C
       どちらかに割り振る
     • 3.B,C間で要素の移動を行って集合を洗練
準備
• 主に教師なしクラスタリングに使うツールだが、ラ
  ベル中心ベクトルを入力することで教師ありのクラ
  スタリングもできる
 – この場合単に類似度評価であってR-Bのような
   イタレーションはやっていない気がする(良く分
   かってない…)
• ラベルありデータの信号強度のみを用いて推定
• とてもお手軽だった
 – インストール5分
 – 入力データフォーマットの整形1分
 – クラスタリング2秒
結果
• 正解率 1291/2137(60.4%)
• タブ区切りでIDとKey-Valueペアを入力するとさっく
  りクラスタリングしてくれて,いろいろ遊べそう
地図情報を利用した推定
(課題2)
手法
• 先のGraph Based Weightingが再利用できる
  – 今度はラベル無しデータではなく,座標セット
    (map_coordinates.txt)を用いてグラフを生成
  – グラフの重みを強め、実質的に1ステップ前の
    推定ラベル自身とその隣にしか移動できない
    ように
    • 一旦間違った方向に入ると泥沼に入る可
      能性
    • 尤度関数の情報を用いて重みを都度調整
       – 1ステップ前の尤度が弱い場合は尤度
         が強いステップまで巻き戻り、その近傍
         に対しても重みをつけてやる
Example
ラベル    10    10         210   184   120
尤度     0.8   0.7        0.001 0.4   0.05




      210
       10          10
                   10         184
                               10          120
                                            10
結果
• 1832/2137(85.73%)
• 確かに良くなった。
• 余り試行錯誤していないのでまだ改善できそう
まとめ
      手法        結果
      K-means   75.96%
      ラベル伝搬     82.50%
      bayon     60.4%
      地図情報利用 85.73%

・いろいろ試行錯誤の結果、とりあえずIBMの
結果は超えるものが出た
・使っていない情報は何か考えて実装するプロセスを
楽しんでやれた
・bayonもっと使いたい

More Related Content

Recently uploaded

ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
Matsushita Laboratory
 
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援しますキンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
Takayuki Nakayama
 
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
Toru Tamaki
 
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
t m
 
This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.
chiefujita1
 
Generating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language ModelsGenerating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language Models
harmonylab
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
CRI Japan, Inc.
 
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
Toru Tamaki
 
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさJSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
0207sukipio
 

Recently uploaded (9)

ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
 
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援しますキンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
 
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
 
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
 
This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.
 
Generating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language ModelsGenerating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language Models
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
 
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
 
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさJSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
 

Featured

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
Marius Sescu
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
Expeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
Pixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
ThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
marketingartwork
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
Skeleton Technologies
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
SpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Lily Ray
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
Rajiv Jayarajah, MAppComm, ACC
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
Christy Abraham Joy
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
Vit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
MindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
RachelPearson36
 

Featured (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

2007 IEEE ICDM DMC task1 result

  • 1. IEEE ICDM DMC 2007 @知的獲得システム論 課題報告会 能見大河
  • 2. 課題 • 1.コンテストと同じ条件でテストデータのグリッドを 推定 • 2.「グリッドの位置関係」の情報を利用して,テスト データのグリッドを推定 • 3.グリッド番号ではなく2次元位置座標を直接推定 • 4.100個のアクセスポイントの位置を推定
  • 4. 1:半教師ありK-means • 1.ラベル有りデータでクラスタ中心を決定 • 2.各ラベル無しデータを最近傍クラスタに分類 • 3.クラスタ中心を再計算 • 4.各ラベル無しデータを最近傍クラスタに分類 • 5.クラスタリングが収束するまで3.~4.を繰り返し
  • 5. K-means • 信号強度の類似度のみを用いてクラスタリング • Norm < 1 – 信号がノイジー • 同じ場所でも受信する信号強度はばらつく • 受信しえない距離からの信号は必ず0 • 信号の数値より数値の組み合わせが大事
  • 6. Example Access Point 1 2 3 4 5 6 Label A 0 0 0 10 0 10 A?B? 0 0 0 20 0 5 Label B 5 5 0 20 0 0 4 1 A B 2 6 ?? 0.5-NormだとBよりもAに近い →感覚に合致 2-NormだとBのほうが近い →NG
  • 7. 結果 • 1623/2137(75.96%) with K=1, Norm=1/3 • 1575/2137(73.70%) with K=3, Norm=1/3 • 1469/2137(68.74%) with K=1, Norm=1/2 • …微妙? • 信号Vector上で各ラベルのデータが超球を形成し ていればK-meansは効果を発揮するはずだが、今 回はノルムを振っても良い結果は出ず • ラベル重心を計算するときに、ラベルが多い訓練 データとそうでないデータでベクトルの要素数がば らついてしまうのも悪影響?
  • 8. 2:最尤伝播 • IBMチームの手法をまねっこ – 最尤のラベル有りデータから伝搬させて学習 – テストデータについてはi番目データのcっぽさ (尤度関数)fi(c)を計算し,最もfが大きくなるcを 正解とする • 簡単のため,ひとまず信号のみでSimilarityを計算
  • 9. 結果 • 1604/2137(75.06%) With Norm=1/3 • そんなに良くないような • 最近傍のラベルを貰うだけなのがよくない? – K-近傍で多数決を取っても改善しない(むし ろ悪化) – 尤度と近傍度の積和を取ってもやっぱり改善し ない
  • 10. どう改善する? • 改善する→今まで使っていない情報を何か使う • 時間データを用いていない – 同一トレース内では前後の情報が有効 • 各ステップの尤度関数を都度破棄している – 正解と不正解のときで尤度の分布が明らかに 違うので,これを利用できないか? 1000 不正解データ 800 データ数 正解データ 600 400 200 0 1~ 01 1 01 1 1 ~ 00 0. 0. 00 ~ 0. ~ 0. ~ ~ 尤度
  • 11. 改善1/3: 時間データの利用 • テストデータの時系列を組みこむ – 同一トレース内で3ステップ前までの推定値を尤 度関数に加算 – k-3:+=0.1, k-2:+=0.3, k-1:+=0.5 – 怪しかった推定結果(f<0.01)は破棄する
  • 12. Example ステップ k-3 k-2 k-1 k 10 10 194 ? 0.6 0.007 0.3 推定値 尤度f fk(194) += 0.5 fが小さいので 加算しない fk(10) += 0.1
  • 13. 改善2/3: Graph Based Weighting • トレーニング/テストデータは同じ地図上を動く • ある場所cに居るとき,次のステップで移動可能な 場所は限られている • 学習中に推定ラベル遷移から部屋の構造を推定 – ノード1..247を配置 – 尤度がしきい値(0.1)を超えたペアの間に branchを張っていく • 学習中に間違った推定をすると正答率を悪化させ る可能性
  • 14. Example ラベル 10 10 194 4 20 2 尤度 0.4 0.2 0.1 0.5 0.8 0.003 194 20 10 尤度が低いので 枝を張らない 2 4
  • 15. 改善3/3:うろつきの禁止 • (自明では無いが)同一トレース内で10→ 10→ 194→ 194→ 194→10→ 10→ 194→…のような 動きは余りしないのでは無いか • ある尤度以上で一定回数以上推定した場所は、 同一トレース内での再訪に対しペナルティを課す • ラベルが変化した場合でも、尤度が小さい場合は ペナルティを課さない
  • 16. Example 推定 10 10 10 10 5 5 109 5 5 尤度 0.3 0.4 0.5 0.5 0.7 0.4 0.01 0.4 0.9 これ以降はf(10) を0.4倍 109は尤度が小さいので f(5)はペナルティなし
  • 17. 結果 • 工夫無し(1604/2137, 75.06%) ↓ 5.8% • 時間情報の利用(1728/2137, 80.86%) ↓1.45% • 部屋の構造推定(1759/2137, 82.31%) ↓0.19% • うろつき禁止(1763/2137, 82.50%)
  • 18. 3:bayonを使う • bayon:mixiのエンジニアがリリースした高速なクラ スタリングツール • Repeated Bisection法 – 以下の手順でクラスタの2分割を繰り返していく • 1.最もまとまりが悪いクラスタAを選択し,そ の中のランダムな2要素を代表としたクラス タB,Cを作成 • 2.Aの各要素を代表との類似度に沿ってB,C どちらかに割り振る • 3.B,C間で要素の移動を行って集合を洗練
  • 19. 準備 • 主に教師なしクラスタリングに使うツールだが、ラ ベル中心ベクトルを入力することで教師ありのクラ スタリングもできる – この場合単に類似度評価であってR-Bのような イタレーションはやっていない気がする(良く分 かってない…) • ラベルありデータの信号強度のみを用いて推定 • とてもお手軽だった – インストール5分 – 入力データフォーマットの整形1分 – クラスタリング2秒
  • 20. 結果 • 正解率 1291/2137(60.4%) • タブ区切りでIDとKey-Valueペアを入力するとさっく りクラスタリングしてくれて,いろいろ遊べそう
  • 22. 手法 • 先のGraph Based Weightingが再利用できる – 今度はラベル無しデータではなく,座標セット (map_coordinates.txt)を用いてグラフを生成 – グラフの重みを強め、実質的に1ステップ前の 推定ラベル自身とその隣にしか移動できない ように • 一旦間違った方向に入ると泥沼に入る可 能性 • 尤度関数の情報を用いて重みを都度調整 – 1ステップ前の尤度が弱い場合は尤度 が強いステップまで巻き戻り、その近傍 に対しても重みをつけてやる
  • 23. Example ラベル 10 10 210 184 120 尤度 0.8 0.7 0.001 0.4 0.05 210 10 10 10 184 10 120 10
  • 24. 結果 • 1832/2137(85.73%) • 確かに良くなった。 • 余り試行錯誤していないのでまだ改善できそう
  • 25. まとめ 手法 結果 K-means 75.96% ラベル伝搬 82.50% bayon 60.4% 地図情報利用 85.73% ・いろいろ試行錯誤の結果、とりあえずIBMの 結果は超えるものが出た ・使っていない情報は何か考えて実装するプロセスを 楽しんでやれた ・bayonもっと使いたい