SlideShare a Scribd company logo
1 of 25
Download to read offline
IEEE ICDM DMC 2007

@知的獲得システム論 課題報告会
能見大河
課題
• 1.コンテストと同じ条件でテストデータのグリッドを
  推定
• 2.「グリッドの位置関係」の情報を利用して,テスト
  データのグリッドを推定
• 3.グリッド番号ではなく2次元位置座標を直接推定
• 4.100個のアクセスポイントの位置を推定
テストデータのグリッド推定
(課題1)
1:半教師ありK-means
• 1.ラベル有りデータでクラスタ中心を決定
• 2.各ラベル無しデータを最近傍クラスタに分類
• 3.クラスタ中心を再計算
• 4.各ラベル無しデータを最近傍クラスタに分類
• 5.クラスタリングが収束するまで3.~4.を繰り返し
K-means
• 信号強度の類似度のみを用いてクラスタリング
• Norm < 1
  – 信号がノイジー
     • 同じ場所でも受信する信号強度はばらつく
     • 受信しえない距離からの信号は必ず0
     • 信号の数値より数値の組み合わせが大事
Example
 Access Point 1   2    3       4            5   6
 Label A      0   0    0       10           0   10
 A?B?        0    0    0       20           0   5
 Label B     5    5    0       20           0   0
                  4                 1
              A            B
                                        2
              6   ??

  0.5-NormだとBよりもAに近い
  →感覚に合致
  2-NormだとBのほうが近い
  →NG
結果
• 1623/2137(75.96%) with K=1, Norm=1/3
• 1575/2137(73.70%) with K=3, Norm=1/3
• 1469/2137(68.74%) with K=1, Norm=1/2


• …微妙?
• 信号Vector上で各ラベルのデータが超球を形成し
  ていればK-meansは効果を発揮するはずだが、今
  回はノルムを振っても良い結果は出ず
• ラベル重心を計算するときに、ラベルが多い訓練
  データとそうでないデータでベクトルの要素数がば
  らついてしまうのも悪影響?
2:最尤伝播
• IBMチームの手法をまねっこ
  – 最尤のラベル有りデータから伝搬させて学習
  – テストデータについてはi番目データのcっぽさ
    (尤度関数)fi(c)を計算し,最もfが大きくなるcを
    正解とする
• 簡単のため,ひとまず信号のみでSimilarityを計算
結果
• 1604/2137(75.06%) With Norm=1/3
• そんなに良くないような
• 最近傍のラベルを貰うだけなのがよくない?
  – K-近傍で多数決を取っても改善しない(むし
    ろ悪化)
  – 尤度と近傍度の積和を取ってもやっぱり改善し
    ない
どう改善する?
• 改善する→今まで使っていない情報を何か使う
• 時間データを用いていない
 – 同一トレース内では前後の情報が有効
• 各ステップの尤度関数を都度破棄している
 – 正解と不正解のときで尤度の分布が明らかに
   違うので,これを利用できないか?
             1000
                          不正解データ
              800
      データ数




                          正解データ
              600

              400
              200
                0




                                                       1~
                     01



                                 1


                                       01




                                                   1
                                              1


                                                  ~
                             00




                                             0.
                                      0.
                    00




                                            ~
                            0.


                                     ~
                0.


                           ~
               ~




                                            尤度
改善1/3: 時間データの利用
• テストデータの時系列を組みこむ
 – 同一トレース内で3ステップ前までの推定値を尤
   度関数に加算
 – k-3:+=0.1, k-2:+=0.3, k-1:+=0.5
 – 怪しかった推定結果(f<0.01)は破棄する
Example


 ステップ k-3    k-2       k-1          k
       10    10        194          ?
       0.6   0.007     0.3
 推定値
 尤度f

                   fk(194) += 0.5

             fが小さいので
              加算しない

               fk(10) += 0.1
改善2/3: Graph Based Weighting
• トレーニング/テストデータは同じ地図上を動く
• ある場所cに居るとき,次のステップで移動可能な
  場所は限られている
• 学習中に推定ラベル遷移から部屋の構造を推定
  – ノード1..247を配置
  – 尤度がしきい値(0.1)を超えたペアの間に
    branchを張っていく
• 学習中に間違った推定をすると正答率を悪化させ
  る可能性
Example
ラベル   10         10     194   4        20    2

尤度    0.4        0.2    0.1   0.5      0.8   0.003



                       194
                                  20
            10
                                       尤度が低いので
                                        枝を張らない
                                        2
                         4
改善3/3:うろつきの禁止
• (自明では無いが)同一トレース内で10→ 10→
  194→ 194→ 194→10→ 10→ 194→…のような
  動きは余りしないのでは無いか
• ある尤度以上で一定回数以上推定した場所は、
  同一トレース内での再訪に対しペナルティを課す
• ラベルが変化した場合でも、尤度が小さい場合は
  ペナルティを課さない
Example


推定   10   10   10   10 5   5   109 5   5
尤度   0.3 0.4 0.5 0.5 0.7 0.4 0.01 0.4 0.9


                      これ以降はf(10) を0.4倍



                      109は尤度が小さいので
                         f(5)はペナルティなし
結果
• 工夫無し(1604/2137, 75.06%)
  ↓ 5.8%
• 時間情報の利用(1728/2137, 80.86%)
  ↓1.45%
• 部屋の構造推定(1759/2137, 82.31%)
  ↓0.19%
• うろつき禁止(1763/2137, 82.50%)
3:bayonを使う
• bayon:mixiのエンジニアがリリースした高速なクラ
  スタリングツール
• Repeated Bisection法
  – 以下の手順でクラスタの2分割を繰り返していく
     • 1.最もまとまりが悪いクラスタAを選択し,そ
       の中のランダムな2要素を代表としたクラス
       タB,Cを作成
     • 2.Aの各要素を代表との類似度に沿ってB,C
       どちらかに割り振る
     • 3.B,C間で要素の移動を行って集合を洗練
準備
• 主に教師なしクラスタリングに使うツールだが、ラ
  ベル中心ベクトルを入力することで教師ありのクラ
  スタリングもできる
 – この場合単に類似度評価であってR-Bのような
   イタレーションはやっていない気がする(良く分
   かってない…)
• ラベルありデータの信号強度のみを用いて推定
• とてもお手軽だった
 – インストール5分
 – 入力データフォーマットの整形1分
 – クラスタリング2秒
結果
• 正解率 1291/2137(60.4%)
• タブ区切りでIDとKey-Valueペアを入力するとさっく
  りクラスタリングしてくれて,いろいろ遊べそう
地図情報を利用した推定
(課題2)
手法
• 先のGraph Based Weightingが再利用できる
  – 今度はラベル無しデータではなく,座標セット
    (map_coordinates.txt)を用いてグラフを生成
  – グラフの重みを強め、実質的に1ステップ前の
    推定ラベル自身とその隣にしか移動できない
    ように
    • 一旦間違った方向に入ると泥沼に入る可
      能性
    • 尤度関数の情報を用いて重みを都度調整
       – 1ステップ前の尤度が弱い場合は尤度
         が強いステップまで巻き戻り、その近傍
         に対しても重みをつけてやる
Example
ラベル    10    10         210   184   120
尤度     0.8   0.7        0.001 0.4   0.05




      210
       10          10
                   10         184
                               10          120
                                            10
結果
• 1832/2137(85.73%)
• 確かに良くなった。
• 余り試行錯誤していないのでまだ改善できそう
まとめ
      手法        結果
      K-means   75.96%
      ラベル伝搬     82.50%
      bayon     60.4%
      地図情報利用 85.73%

・いろいろ試行錯誤の結果、とりあえずIBMの
結果は超えるものが出た
・使っていない情報は何か考えて実装するプロセスを
楽しんでやれた
・bayonもっと使いたい

More Related Content

Recently uploaded

論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 

Recently uploaded (14)

論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 

Featured

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by HubspotMarius Sescu
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTExpeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsPixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 

Featured (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

2007 IEEE ICDM DMC task1 result

  • 1. IEEE ICDM DMC 2007 @知的獲得システム論 課題報告会 能見大河
  • 2. 課題 • 1.コンテストと同じ条件でテストデータのグリッドを 推定 • 2.「グリッドの位置関係」の情報を利用して,テスト データのグリッドを推定 • 3.グリッド番号ではなく2次元位置座標を直接推定 • 4.100個のアクセスポイントの位置を推定
  • 4. 1:半教師ありK-means • 1.ラベル有りデータでクラスタ中心を決定 • 2.各ラベル無しデータを最近傍クラスタに分類 • 3.クラスタ中心を再計算 • 4.各ラベル無しデータを最近傍クラスタに分類 • 5.クラスタリングが収束するまで3.~4.を繰り返し
  • 5. K-means • 信号強度の類似度のみを用いてクラスタリング • Norm < 1 – 信号がノイジー • 同じ場所でも受信する信号強度はばらつく • 受信しえない距離からの信号は必ず0 • 信号の数値より数値の組み合わせが大事
  • 6. Example Access Point 1 2 3 4 5 6 Label A 0 0 0 10 0 10 A?B? 0 0 0 20 0 5 Label B 5 5 0 20 0 0 4 1 A B 2 6 ?? 0.5-NormだとBよりもAに近い →感覚に合致 2-NormだとBのほうが近い →NG
  • 7. 結果 • 1623/2137(75.96%) with K=1, Norm=1/3 • 1575/2137(73.70%) with K=3, Norm=1/3 • 1469/2137(68.74%) with K=1, Norm=1/2 • …微妙? • 信号Vector上で各ラベルのデータが超球を形成し ていればK-meansは効果を発揮するはずだが、今 回はノルムを振っても良い結果は出ず • ラベル重心を計算するときに、ラベルが多い訓練 データとそうでないデータでベクトルの要素数がば らついてしまうのも悪影響?
  • 8. 2:最尤伝播 • IBMチームの手法をまねっこ – 最尤のラベル有りデータから伝搬させて学習 – テストデータについてはi番目データのcっぽさ (尤度関数)fi(c)を計算し,最もfが大きくなるcを 正解とする • 簡単のため,ひとまず信号のみでSimilarityを計算
  • 9. 結果 • 1604/2137(75.06%) With Norm=1/3 • そんなに良くないような • 最近傍のラベルを貰うだけなのがよくない? – K-近傍で多数決を取っても改善しない(むし ろ悪化) – 尤度と近傍度の積和を取ってもやっぱり改善し ない
  • 10. どう改善する? • 改善する→今まで使っていない情報を何か使う • 時間データを用いていない – 同一トレース内では前後の情報が有効 • 各ステップの尤度関数を都度破棄している – 正解と不正解のときで尤度の分布が明らかに 違うので,これを利用できないか? 1000 不正解データ 800 データ数 正解データ 600 400 200 0 1~ 01 1 01 1 1 ~ 00 0. 0. 00 ~ 0. ~ 0. ~ ~ 尤度
  • 11. 改善1/3: 時間データの利用 • テストデータの時系列を組みこむ – 同一トレース内で3ステップ前までの推定値を尤 度関数に加算 – k-3:+=0.1, k-2:+=0.3, k-1:+=0.5 – 怪しかった推定結果(f<0.01)は破棄する
  • 12. Example ステップ k-3 k-2 k-1 k 10 10 194 ? 0.6 0.007 0.3 推定値 尤度f fk(194) += 0.5 fが小さいので 加算しない fk(10) += 0.1
  • 13. 改善2/3: Graph Based Weighting • トレーニング/テストデータは同じ地図上を動く • ある場所cに居るとき,次のステップで移動可能な 場所は限られている • 学習中に推定ラベル遷移から部屋の構造を推定 – ノード1..247を配置 – 尤度がしきい値(0.1)を超えたペアの間に branchを張っていく • 学習中に間違った推定をすると正答率を悪化させ る可能性
  • 14. Example ラベル 10 10 194 4 20 2 尤度 0.4 0.2 0.1 0.5 0.8 0.003 194 20 10 尤度が低いので 枝を張らない 2 4
  • 15. 改善3/3:うろつきの禁止 • (自明では無いが)同一トレース内で10→ 10→ 194→ 194→ 194→10→ 10→ 194→…のような 動きは余りしないのでは無いか • ある尤度以上で一定回数以上推定した場所は、 同一トレース内での再訪に対しペナルティを課す • ラベルが変化した場合でも、尤度が小さい場合は ペナルティを課さない
  • 16. Example 推定 10 10 10 10 5 5 109 5 5 尤度 0.3 0.4 0.5 0.5 0.7 0.4 0.01 0.4 0.9 これ以降はf(10) を0.4倍 109は尤度が小さいので f(5)はペナルティなし
  • 17. 結果 • 工夫無し(1604/2137, 75.06%) ↓ 5.8% • 時間情報の利用(1728/2137, 80.86%) ↓1.45% • 部屋の構造推定(1759/2137, 82.31%) ↓0.19% • うろつき禁止(1763/2137, 82.50%)
  • 18. 3:bayonを使う • bayon:mixiのエンジニアがリリースした高速なクラ スタリングツール • Repeated Bisection法 – 以下の手順でクラスタの2分割を繰り返していく • 1.最もまとまりが悪いクラスタAを選択し,そ の中のランダムな2要素を代表としたクラス タB,Cを作成 • 2.Aの各要素を代表との類似度に沿ってB,C どちらかに割り振る • 3.B,C間で要素の移動を行って集合を洗練
  • 19. 準備 • 主に教師なしクラスタリングに使うツールだが、ラ ベル中心ベクトルを入力することで教師ありのクラ スタリングもできる – この場合単に類似度評価であってR-Bのような イタレーションはやっていない気がする(良く分 かってない…) • ラベルありデータの信号強度のみを用いて推定 • とてもお手軽だった – インストール5分 – 入力データフォーマットの整形1分 – クラスタリング2秒
  • 20. 結果 • 正解率 1291/2137(60.4%) • タブ区切りでIDとKey-Valueペアを入力するとさっく りクラスタリングしてくれて,いろいろ遊べそう
  • 22. 手法 • 先のGraph Based Weightingが再利用できる – 今度はラベル無しデータではなく,座標セット (map_coordinates.txt)を用いてグラフを生成 – グラフの重みを強め、実質的に1ステップ前の 推定ラベル自身とその隣にしか移動できない ように • 一旦間違った方向に入ると泥沼に入る可 能性 • 尤度関数の情報を用いて重みを都度調整 – 1ステップ前の尤度が弱い場合は尤度 が強いステップまで巻き戻り、その近傍 に対しても重みをつけてやる
  • 23. Example ラベル 10 10 210 184 120 尤度 0.8 0.7 0.001 0.4 0.05 210 10 10 10 184 10 120 10
  • 24. 結果 • 1832/2137(85.73%) • 確かに良くなった。 • 余り試行錯誤していないのでまだ改善できそう
  • 25. まとめ 手法 結果 K-means 75.96% ラベル伝搬 82.50% bayon 60.4% 地図情報利用 85.73% ・いろいろ試行錯誤の結果、とりあえずIBMの 結果は超えるものが出た ・使っていない情報は何か考えて実装するプロセスを 楽しんでやれた ・bayonもっと使いたい