SlideShare a Scribd company logo
1 of 29
Download to read offline
问题是什么?
                          问题抽象
                      Ranking SVM
                          实验结果
                {Most amazing part}



.
                                                                                             .
     Optimizing Search Engines using Clickthrough
.                                Data
..                                                                                       .




                                                                                             .
                    Presented by: 孔庆超                 1

               Paper by: Thorsten Joachims2

                         1   中国科学院自动化所

                 2 Department     of Computer Science
                             Cornell University


                       2011 年 11 月 1 日
                                                       .       .      .       .      .           .

               孔庆超 - ranking SVM        Optimizing Search Engines using Clickthrough Data
问题是什么?
                              问题抽象
                          Ranking SVM
                              实验结果
                    {Most amazing part}




. 目录

          .
       . . 问题是什么?
         1


          .
       . . 问题抽象
         2


          .
       . . Ranking SVM
         3


          .
       . . 实验结果
         4


          .
       . . {Most amazing part}
         5

                                                         .       .      .       .      .      .

                    孔庆超 - ranking SVM     Optimizing Search Engines using Clickthrough Data
问题是什么?
                       问题抽象
                                   搜索结果排序
                   Ranking SVM
                                   优化排序算法
                       实验结果
             {Most amazing part}




   .
. . 问题是什么?
  1

     搜索结果排序
     优化排序算法

   .
. . 问题抽象
  2


   .
. . Ranking SVM
  3


   .
. . 实验结果
  4


   .
. . {Most amazing part}
  5

                                                  .       .      .       .      .      .

             孔庆超 - ranking SVM     Optimizing Search Engines using Clickthrough Data
问题是什么?
                         问题抽象
                                     搜索结果排序
                     Ranking SVM
                                     优化排序算法
                         实验结果
               {Most amazing part}




. 搜索结果排序是个大问题


   搜索引擎的核心竞争力
     Inktomi
     Google
     百度

   构建更好的搜索引擎
     收录网页数量:增加服务器
     速度:增加带宽
     搜索准确度:排序算法构成搜索引擎的主要差距


                                                    .       .      .       .      .      .

               孔庆超 - ranking SVM     Optimizing Search Engines using Clickthrough Data
问题是什么?
                         问题抽象
                                     搜索结果排序
                     Ranking SVM
                                     优化排序算法
                         实验结果
               {Most amazing part}




. 搜索结果排序是个大问题


   搜索引擎的核心竞争力
     Inktomi
     Google
     百度

   构建更好的搜索引擎
     收录网页数量:增加服务器
     速度:增加带宽
     搜索准确度:排序算法构成搜索引擎的主要差距


                                                    .       .      .       .      .      .

               孔庆超 - ranking SVM     Optimizing Search Engines using Clickthrough Data
问题是什么?
                     问题抽象
                                 搜索结果排序
                 Ranking SVM
                                 优化排序算法
                     实验结果
           {Most amazing part}




. 如何优化排序算法?



   依靠用户反馈是否可行?
   潜在的“用户反馈“:用户行为
   Clickthrough data(点击行为数据) 特点:易获取、数据量大
   如何获取数据:代理




                                                .       .      .       .      .      .

           孔庆超 - ranking SVM     Optimizing Search Engines using Clickthrough Data
问题是什么?
                     问题抽象
                                 搜索结果排序
                 Ranking SVM
                                 优化排序算法
                     实验结果
           {Most amazing part}




. 如何优化排序算法?



   依靠用户反馈是否可行?
   潜在的“用户反馈“:用户行为
   Clickthrough data(点击行为数据) 特点:易获取、数据量大
   如何获取数据:代理




                                                .       .      .       .      .      .

           孔庆超 - ranking SVM     Optimizing Search Engines using Clickthrough Data
问题是什么?
                     问题抽象
                                 搜索结果排序
                 Ranking SVM
                                 优化排序算法
                     实验结果
           {Most amazing part}




. 如何优化排序算法?



   依靠用户反馈是否可行?
   潜在的“用户反馈“:用户行为
   Clickthrough data(点击行为数据) 特点:易获取、数据量大
   如何获取数据:代理




                                                .       .      .       .      .      .

           孔庆超 - ranking SVM     Optimizing Search Engines using Clickthrough Data
问题是什么?
                     问题抽象
                                 搜索结果排序
                 Ranking SVM
                                 优化排序算法
                     实验结果
           {Most amazing part}




. 如何优化排序算法?



   依靠用户反馈是否可行?
   潜在的“用户反馈“:用户行为
   Clickthrough data(点击行为数据) 特点:易获取、数据量大
   如何获取数据:代理




                                                .       .      .       .      .      .

           孔庆超 - ranking SVM     Optimizing Search Engines using Clickthrough Data
问题是什么?
                                     为 Clickthrough data 建模
                         问题抽象
                                     搜索结果排序没有看起来那么简单
                     Ranking SVM
                                     我们离最好的结果还差多远?
                         实验结果
                                     问题还没有解决
               {Most amazing part}




   .
. . 问题是什么?
  1


   .
. . 问题抽象
  2

     为 Clickthrough data 建模
       搜索结果排序没有看起来那么简单
       我们离最好的结果还差多远?
       问题还没有解决

   .
. . Ranking SVM
  3


   .
. . 实验结果
  4

                                                    .       .      .       .      .      .


..
5    {Most amazing part}
              孔庆超 - ranking SVM      Optimizing Search Engines using Clickthrough Data
问题是什么?
                                       为 Clickthrough data 建模
                           问题抽象
                                       搜索结果排序没有看起来那么简单
                       Ranking SVM
                                       我们离最好的结果还差多远?
                           实验结果
                                       问题还没有解决
                 {Most amazing part}




. 为 Clickthrough data 建模



       使用三元组 (q, r, c) 建模
          q 表示搜索关键词
          r 表示排序函数
          c 表示用户点击的链接的集合(不包含顺序信息)

       搜索举例




                                                      .       .      .       .      .      .

                孔庆超 - ranking SVM      Optimizing Search Engines using Clickthrough Data
问题是什么?
                                       为 Clickthrough data 建模
                           问题抽象
                                       搜索结果排序没有看起来那么简单
                       Ranking SVM
                                       我们离最好的结果还差多远?
                           实验结果
                                       问题还没有解决
                 {Most amazing part}




. 为 Clickthrough data 建模



       使用三元组 (q, r, c) 建模
          q 表示搜索关键词
          r 表示排序函数
          c 表示用户点击的链接的集合(不包含顺序信息)

       搜索举例




                                                      .       .      .       .      .      .

                孔庆超 - ranking SVM      Optimizing Search Engines using Clickthrough Data
问题是什么?
                                      为 Clickthrough data 建模
                          问题抽象
                                      搜索结果排序没有看起来那么简单
                      Ranking SVM
                                      我们离最好的结果还差多远?
                          实验结果
                                      问题还没有解决
                {Most amazing part}




. 搜索”support vector machine”




                                                     .       .      .       .      .      .

                孔庆超 - ranking SVM     Optimizing Search Engines using Clickthrough Data
问题是什么?
                                       为 Clickthrough data 建模
                           问题抽象
                                       搜索结果排序没有看起来那么简单
                       Ranking SVM
                                       我们离最好的结果还差多远?
                           实验结果
                                       问题还没有解决
                 {Most amazing part}




. 排序的相对性


    对于排序函数相差很大的搜索引擎,用户点击产生的“平均
    排序“值大致相同
    排序结果的相对性
    最优的排序结果 <r∗
      link3 <r∗ link2
      link7 <r∗ link2 , link7 <r∗ link4 , link7 <r∗ link5 ,
      link7 <r∗ link6



                                                      .       .      .       .      .      .

                孔庆超 - ranking SVM      Optimizing Search Engines using Clickthrough Data
问题是什么?
                                       为 Clickthrough data 建模
                           问题抽象
                                       搜索结果排序没有看起来那么简单
                       Ranking SVM
                                       我们离最好的结果还差多远?
                           实验结果
                                       问题还没有解决
                 {Most amazing part}




. 排序的相对性


    对于排序函数相差很大的搜索引擎,用户点击产生的“平均
    排序“值大致相同
    排序结果的相对性
    最优的排序结果 <r∗
      link3 <r∗ link2
      link7 <r∗ link2 , link7 <r∗ link4 , link7 <r∗ link5 ,
      link7 <r∗ link6



                                                      .       .      .       .      .      .

                孔庆超 - ranking SVM      Optimizing Search Engines using Clickthrough Data
问题是什么?
                                       为 Clickthrough data 建模
                           问题抽象
                                       搜索结果排序没有看起来那么简单
                       Ranking SVM
                                       我们离最好的结果还差多远?
                           实验结果
                                       问题还没有解决
                 {Most amazing part}




. 排序的相对性


    对于排序函数相差很大的搜索引擎,用户点击产生的“平均
    排序“值大致相同
    排序结果的相对性
    最优的排序结果 <r∗
      link3 <r∗ link2
      link7 <r∗ link2 , link7 <r∗ link4 , link7 <r∗ link5 ,
      link7 <r∗ link6



                                                      .       .      .       .      .      .

                孔庆超 - ranking SVM      Optimizing Search Engines using Clickthrough Data
问题是什么?
                                            为 Clickthrough data 建模
                                问题抽象
                                            搜索结果排序没有看起来那么简单
                            Ranking SVM
                                            我们离最好的结果还差多远?
                                实验结果
                                            问题还没有解决
                      {Most amazing part}




. 从点击数据中抽取偏好反馈

  .
  Algorithm 1. Extracting preference feedback from clickthrough                                  .
  data
 ..
  For a ranking(link1 , link2 , link3 , ...) and a set C containing the
  ranks of the clicked-on links, extract a preference example

                                 linki <r∗ linkj

  for all pairs 1 ≤ j < i, with i ∈ C and j ∈ C.
  .                                         /
  ..                                                                                         .




                                                                                                 .
                                                           .       .      .       .      .           .

                      孔庆超 - ranking SVM     Optimizing Search Engines using Clickthrough Data
问题是什么?
                                        为 Clickthrough data 建模
                            问题抽象
                                        搜索结果排序没有看起来那么简单
                        Ranking SVM
                                        我们离最好的结果还差多远?
                            实验结果
                                        问题还没有解决
                  {Most amazing part}




. 差距描述:Kendall’s τ




      返回的网页集合 D = {d1 , d2 , ..., dm }
      排序结果 r, 定义 r ⊂ D × D
      如果 di <r dj ,那么有序对 (di , dj ) ∈ r,否则 (di , dj ) ∈ r
                                                      /




                                                       .       .      .       .      .      .

                  孔庆超 - ranking SVM     Optimizing Search Engines using Clickthrough Data
问题是什么?
                                              为 Clickthrough data 建模
                                  问题抽象
                                              搜索结果排序没有看起来那么简单
                              Ranking SVM
                                              我们离最好的结果还差多远?
                                  实验结果
                                              问题还没有解决
                        {Most amazing part}




. 差距描述:Kendall’s τ
      对于两个不同的排序结果 ra 和 rb ,定义 P 为两个排序结果
      中排序一致的网页对数, Q 为两个排序结果中不一致的网
      页对数。
      举例
            ra : d1 < d2 < d3 < d4 < d5
            rb : d3 < d2 < d1 < d4 < d5
            其中,不一致的排序对数 Q 为 3 {(d2 , d3 ), (d1 , d2 ), (d1 , d3 )},
            P 为 7.
                       P−Q
      τ (ra , rb ) =   P+Q

      τ 越大, ra 和 rb 两者之间的差距排序差距越小
                                                             .       .      .       .      .      .

                        孔庆超 - ranking SVM     Optimizing Search Engines using Clickthrough Data
问题是什么?
                                              为 Clickthrough data 建模
                                  问题抽象
                                              搜索结果排序没有看起来那么简单
                              Ranking SVM
                                              我们离最好的结果还差多远?
                                  实验结果
                                              问题还没有解决
                        {Most amazing part}




. 差距描述:Kendall’s τ
      对于两个不同的排序结果 ra 和 rb ,定义 P 为两个排序结果
      中排序一致的网页对数, Q 为两个排序结果中不一致的网
      页对数。
      举例
            ra : d1 < d2 < d3 < d4 < d5
            rb : d3 < d2 < d1 < d4 < d5
            其中,不一致的排序对数 Q 为 3 {(d2 , d3 ), (d1 , d2 ), (d1 , d3 )},
            P 为 7.
                       P−Q
      τ (ra , rb ) =   P+Q

      τ 越大, ra 和 rb 两者之间的差距排序差距越小
                                                             .       .      .       .      .      .

                        孔庆超 - ranking SVM     Optimizing Search Engines using Clickthrough Data
问题是什么?
                                              为 Clickthrough data 建模
                                  问题抽象
                                              搜索结果排序没有看起来那么简单
                              Ranking SVM
                                              我们离最好的结果还差多远?
                                  实验结果
                                              问题还没有解决
                        {Most amazing part}




. 差距描述:Kendall’s τ
      对于两个不同的排序结果 ra 和 rb ,定义 P 为两个排序结果
      中排序一致的网页对数, Q 为两个排序结果中不一致的网
      页对数。
      举例
            ra : d1 < d2 < d3 < d4 < d5
            rb : d3 < d2 < d1 < d4 < d5
            其中,不一致的排序对数 Q 为 3 {(d2 , d3 ), (d1 , d2 ), (d1 , d3 )},
            P 为 7.
                       P−Q
      τ (ra , rb ) =   P+Q

      τ 越大, ra 和 rb 两者之间的差距排序差距越小
                                                             .       .      .       .      .      .

                        孔庆超 - ranking SVM     Optimizing Search Engines using Clickthrough Data
问题是什么?
                                          为 Clickthrough data 建模
                          问题抽象
                                          搜索结果排序没有看起来那么简单
                      Ranking SVM
                                          我们离最好的结果还差多远?
                          实验结果
                                          问题还没有解决
                {Most amazing part}




. 问题还没有解决


   给定关键词 qi 和与之相对应的最优排序结果 r∗ ;另外记对
                           i
   于排序函数 f(qi ) 所产生的排序结果为 rf(qi )
   我们只需要最大化

                                      1∑
                                         n
                      τS (f) =           τ (rf(qi ) , r∗ )
                                                       i
                                      n
                                        i=1

   其中, S 为样品集合 {(q1 , r∗ ), (q2 , r∗ ), ..., (qn , r∗ )}, n 为样
                       1           2                n
   品中的样品数(也就是搜索关键词的数目),f 为排序函数。

                                                         .       .      .       .      .      .

                孔庆超 - ranking SVM         Optimizing Search Engines using Clickthrough Data
问题是什么?
                       问题抽象        问题转化
                   Ranking SVM     又见 SVM
                       实验结果        最优结果的模拟
             {Most amazing part}




   .
. . 问题是什么?
  1


   .
. . 问题抽象
  2


   .
. . Ranking SVM
  3

      问题转化
     又见 SVM
     最优结果的模拟

   .
. . 实验结果
  4


   .
. . {Most amazing part}
  5
                                                  .       .      .       .      .      .

             孔庆超 - ranking SVM     Optimizing Search Engines using Clickthrough Data
问题是什么?
                          问题抽象        问题转化
                      Ranking SVM     又见 SVM
                          实验结果        最优结果的模拟
                {Most amazing part}




. 问题转化



           (di , dj ) ∈ fw(q) ⇔ w · Φ(q, di ) > w · Φ(q, dj )
                         ⃗      ⃗               ⃗

    其中, w 为权向量, Φ(q, d) 将 (q, d) 映射成为一个属性
        ⃗
    (feature) 向量。
    属性向量描述搜索关键词 q 和返回结果 d 之间的关联属性。
    例如,关键词和返回结果之间具有的相同的单词的个数等。



                                                     .       .      .       .      .      .

               孔庆超 - ranking SVM      Optimizing Search Engines using Clickthrough Data
问题是什么?
                                问题抽象        问题转化
                            Ranking SVM     又见 SVM
                                实验结果        最优结果的模拟
                      {Most amazing part}




. 又见 SVM


                       1          ∑
               w ⃗
         min V(⃗ , ξ) = w · w + C
                         ⃗ ⃗        ξi,j,k
                       2
         s.t.
              ∀(di , dj ) ∈ r∗ : w · Φ(q1 , di ) ≥ w · Φ(q1 , dj ) + 1 − ξi,j,1
                             1 ⃗                   ⃗
   ···
              ∀(di , dj ) ∈ r∗ : w · Φ(qn , di ) ≥ w · Φ(qn , dj ) + 1 − ξi,j,n
                             n ⃗                   ⃗
              ∀i, ∀j, ∀k : ξi,j,k ≥ 0

                                                           .       .      .       .      .      .

                     孔庆超 - ranking SVM      Optimizing Search Engines using Clickthrough Data
问题是什么?
                               问题抽象        问题转化
                           Ranking SVM     又见 SVM
                               实验结果        最优结果的模拟
                     {Most amazing part}




. 最优结果的模拟


                      1          ∑
              w ⃗
        min V(⃗ , ξ) = w · w + C
                        ⃗ ⃗        ξi,j,k
                      2
        s.t.
             ∀(di , dj ) ∈ r′ : w · Φ(q1 , di ) ≥ w · Φ(q1 , dj ) + 1 − ξi,j,1
                            1 ⃗                   ⃗
  ···
             ∀(di , dj ) ∈ r′ : w · Φ(qn , di ) ≥ w · Φ(qn , dj ) + 1 − ξi,j,n
                            n ⃗                   ⃗
             ∀i, ∀j, ∀k : ξi,j,k ≥ 0

  其中, r′ 为从系统日志中得到的“训练数据“。
                                                          .       .      .       .      .      .

                    孔庆超 - ranking SVM      Optimizing Search Engines using Clickthrough Data
问题是什么?
                       问题抽象
                   Ranking SVM
                       实验结果
             {Most amazing part}




   .
. . 问题是什么?
  1


   .
. . 问题抽象
  2


   .
. . Ranking SVM
  3


   .
. . 实验结果
  4

     离线实验
     在线交互实验

   .
. . {Most amazing part}
  5

                                                  .       .      .       .      .      .

             孔庆超 - ranking SVM     Optimizing Search Engines using Clickthrough Data
问题是什么?
                     问题抽象
                 Ranking SVM
                     实验结果
           {Most amazing part}




. 最优化问题的求解哲学



   假设存在最优解 s∗
   设置求解变量 s
   描述最优化目标:最小化 s 和 s∗ 之间的差距
   采用可以获得的 s′ 模拟 s∗
   构建最优化模型,使用最优化方法求解 s∗




                                                .       .      .       .      .      .

           孔庆超 - ranking SVM     Optimizing Search Engines using Clickthrough Data
问题是什么?
                     问题抽象
                 Ranking SVM
                     实验结果
           {Most amazing part}




. Q&A




        Thank you
        and any questions?

                                                .       .      .       .      .      .

           孔庆超 - ranking SVM     Optimizing Search Engines using Clickthrough Data

More Related Content

Featured

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by HubspotMarius Sescu
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTExpeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsPixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 

Featured (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

Ranking SVM

  • 1. 问题是什么? 问题抽象 Ranking SVM 实验结果 {Most amazing part} . . Optimizing Search Engines using Clickthrough . Data .. . . Presented by: 孔庆超 1 Paper by: Thorsten Joachims2 1 中国科学院自动化所 2 Department of Computer Science Cornell University 2011 年 11 月 1 日 . . . . . . 孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data
  • 2. 问题是什么? 问题抽象 Ranking SVM 实验结果 {Most amazing part} . 目录 . . . 问题是什么? 1 . . . 问题抽象 2 . . . Ranking SVM 3 . . . 实验结果 4 . . . {Most amazing part} 5 . . . . . . 孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data
  • 3. 问题是什么? 问题抽象 搜索结果排序 Ranking SVM 优化排序算法 实验结果 {Most amazing part} . . . 问题是什么? 1 搜索结果排序 优化排序算法 . . . 问题抽象 2 . . . Ranking SVM 3 . . . 实验结果 4 . . . {Most amazing part} 5 . . . . . . 孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data
  • 4. 问题是什么? 问题抽象 搜索结果排序 Ranking SVM 优化排序算法 实验结果 {Most amazing part} . 搜索结果排序是个大问题 搜索引擎的核心竞争力 Inktomi Google 百度 构建更好的搜索引擎 收录网页数量:增加服务器 速度:增加带宽 搜索准确度:排序算法构成搜索引擎的主要差距 . . . . . . 孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data
  • 5. 问题是什么? 问题抽象 搜索结果排序 Ranking SVM 优化排序算法 实验结果 {Most amazing part} . 搜索结果排序是个大问题 搜索引擎的核心竞争力 Inktomi Google 百度 构建更好的搜索引擎 收录网页数量:增加服务器 速度:增加带宽 搜索准确度:排序算法构成搜索引擎的主要差距 . . . . . . 孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data
  • 6. 问题是什么? 问题抽象 搜索结果排序 Ranking SVM 优化排序算法 实验结果 {Most amazing part} . 如何优化排序算法? 依靠用户反馈是否可行? 潜在的“用户反馈“:用户行为 Clickthrough data(点击行为数据) 特点:易获取、数据量大 如何获取数据:代理 . . . . . . 孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data
  • 7. 问题是什么? 问题抽象 搜索结果排序 Ranking SVM 优化排序算法 实验结果 {Most amazing part} . 如何优化排序算法? 依靠用户反馈是否可行? 潜在的“用户反馈“:用户行为 Clickthrough data(点击行为数据) 特点:易获取、数据量大 如何获取数据:代理 . . . . . . 孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data
  • 8. 问题是什么? 问题抽象 搜索结果排序 Ranking SVM 优化排序算法 实验结果 {Most amazing part} . 如何优化排序算法? 依靠用户反馈是否可行? 潜在的“用户反馈“:用户行为 Clickthrough data(点击行为数据) 特点:易获取、数据量大 如何获取数据:代理 . . . . . . 孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data
  • 9. 问题是什么? 问题抽象 搜索结果排序 Ranking SVM 优化排序算法 实验结果 {Most amazing part} . 如何优化排序算法? 依靠用户反馈是否可行? 潜在的“用户反馈“:用户行为 Clickthrough data(点击行为数据) 特点:易获取、数据量大 如何获取数据:代理 . . . . . . 孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data
  • 10. 问题是什么? 为 Clickthrough data 建模 问题抽象 搜索结果排序没有看起来那么简单 Ranking SVM 我们离最好的结果还差多远? 实验结果 问题还没有解决 {Most amazing part} . . . 问题是什么? 1 . . . 问题抽象 2 为 Clickthrough data 建模 搜索结果排序没有看起来那么简单 我们离最好的结果还差多远? 问题还没有解决 . . . Ranking SVM 3 . . . 实验结果 4 . . . . . . .. 5 {Most amazing part} 孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data
  • 11. 问题是什么? 为 Clickthrough data 建模 问题抽象 搜索结果排序没有看起来那么简单 Ranking SVM 我们离最好的结果还差多远? 实验结果 问题还没有解决 {Most amazing part} . 为 Clickthrough data 建模 使用三元组 (q, r, c) 建模 q 表示搜索关键词 r 表示排序函数 c 表示用户点击的链接的集合(不包含顺序信息) 搜索举例 . . . . . . 孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data
  • 12. 问题是什么? 为 Clickthrough data 建模 问题抽象 搜索结果排序没有看起来那么简单 Ranking SVM 我们离最好的结果还差多远? 实验结果 问题还没有解决 {Most amazing part} . 为 Clickthrough data 建模 使用三元组 (q, r, c) 建模 q 表示搜索关键词 r 表示排序函数 c 表示用户点击的链接的集合(不包含顺序信息) 搜索举例 . . . . . . 孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data
  • 13. 问题是什么? 为 Clickthrough data 建模 问题抽象 搜索结果排序没有看起来那么简单 Ranking SVM 我们离最好的结果还差多远? 实验结果 问题还没有解决 {Most amazing part} . 搜索”support vector machine” . . . . . . 孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data
  • 14. 问题是什么? 为 Clickthrough data 建模 问题抽象 搜索结果排序没有看起来那么简单 Ranking SVM 我们离最好的结果还差多远? 实验结果 问题还没有解决 {Most amazing part} . 排序的相对性 对于排序函数相差很大的搜索引擎,用户点击产生的“平均 排序“值大致相同 排序结果的相对性 最优的排序结果 <r∗ link3 <r∗ link2 link7 <r∗ link2 , link7 <r∗ link4 , link7 <r∗ link5 , link7 <r∗ link6 . . . . . . 孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data
  • 15. 问题是什么? 为 Clickthrough data 建模 问题抽象 搜索结果排序没有看起来那么简单 Ranking SVM 我们离最好的结果还差多远? 实验结果 问题还没有解决 {Most amazing part} . 排序的相对性 对于排序函数相差很大的搜索引擎,用户点击产生的“平均 排序“值大致相同 排序结果的相对性 最优的排序结果 <r∗ link3 <r∗ link2 link7 <r∗ link2 , link7 <r∗ link4 , link7 <r∗ link5 , link7 <r∗ link6 . . . . . . 孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data
  • 16. 问题是什么? 为 Clickthrough data 建模 问题抽象 搜索结果排序没有看起来那么简单 Ranking SVM 我们离最好的结果还差多远? 实验结果 问题还没有解决 {Most amazing part} . 排序的相对性 对于排序函数相差很大的搜索引擎,用户点击产生的“平均 排序“值大致相同 排序结果的相对性 最优的排序结果 <r∗ link3 <r∗ link2 link7 <r∗ link2 , link7 <r∗ link4 , link7 <r∗ link5 , link7 <r∗ link6 . . . . . . 孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data
  • 17. 问题是什么? 为 Clickthrough data 建模 问题抽象 搜索结果排序没有看起来那么简单 Ranking SVM 我们离最好的结果还差多远? 实验结果 问题还没有解决 {Most amazing part} . 从点击数据中抽取偏好反馈 . Algorithm 1. Extracting preference feedback from clickthrough . data .. For a ranking(link1 , link2 , link3 , ...) and a set C containing the ranks of the clicked-on links, extract a preference example linki <r∗ linkj for all pairs 1 ≤ j < i, with i ∈ C and j ∈ C. . / .. . . . . . . . . 孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data
  • 18. 问题是什么? 为 Clickthrough data 建模 问题抽象 搜索结果排序没有看起来那么简单 Ranking SVM 我们离最好的结果还差多远? 实验结果 问题还没有解决 {Most amazing part} . 差距描述:Kendall’s τ 返回的网页集合 D = {d1 , d2 , ..., dm } 排序结果 r, 定义 r ⊂ D × D 如果 di <r dj ,那么有序对 (di , dj ) ∈ r,否则 (di , dj ) ∈ r / . . . . . . 孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data
  • 19. 问题是什么? 为 Clickthrough data 建模 问题抽象 搜索结果排序没有看起来那么简单 Ranking SVM 我们离最好的结果还差多远? 实验结果 问题还没有解决 {Most amazing part} . 差距描述:Kendall’s τ 对于两个不同的排序结果 ra 和 rb ,定义 P 为两个排序结果 中排序一致的网页对数, Q 为两个排序结果中不一致的网 页对数。 举例 ra : d1 < d2 < d3 < d4 < d5 rb : d3 < d2 < d1 < d4 < d5 其中,不一致的排序对数 Q 为 3 {(d2 , d3 ), (d1 , d2 ), (d1 , d3 )}, P 为 7. P−Q τ (ra , rb ) = P+Q τ 越大, ra 和 rb 两者之间的差距排序差距越小 . . . . . . 孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data
  • 20. 问题是什么? 为 Clickthrough data 建模 问题抽象 搜索结果排序没有看起来那么简单 Ranking SVM 我们离最好的结果还差多远? 实验结果 问题还没有解决 {Most amazing part} . 差距描述:Kendall’s τ 对于两个不同的排序结果 ra 和 rb ,定义 P 为两个排序结果 中排序一致的网页对数, Q 为两个排序结果中不一致的网 页对数。 举例 ra : d1 < d2 < d3 < d4 < d5 rb : d3 < d2 < d1 < d4 < d5 其中,不一致的排序对数 Q 为 3 {(d2 , d3 ), (d1 , d2 ), (d1 , d3 )}, P 为 7. P−Q τ (ra , rb ) = P+Q τ 越大, ra 和 rb 两者之间的差距排序差距越小 . . . . . . 孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data
  • 21. 问题是什么? 为 Clickthrough data 建模 问题抽象 搜索结果排序没有看起来那么简单 Ranking SVM 我们离最好的结果还差多远? 实验结果 问题还没有解决 {Most amazing part} . 差距描述:Kendall’s τ 对于两个不同的排序结果 ra 和 rb ,定义 P 为两个排序结果 中排序一致的网页对数, Q 为两个排序结果中不一致的网 页对数。 举例 ra : d1 < d2 < d3 < d4 < d5 rb : d3 < d2 < d1 < d4 < d5 其中,不一致的排序对数 Q 为 3 {(d2 , d3 ), (d1 , d2 ), (d1 , d3 )}, P 为 7. P−Q τ (ra , rb ) = P+Q τ 越大, ra 和 rb 两者之间的差距排序差距越小 . . . . . . 孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data
  • 22. 问题是什么? 为 Clickthrough data 建模 问题抽象 搜索结果排序没有看起来那么简单 Ranking SVM 我们离最好的结果还差多远? 实验结果 问题还没有解决 {Most amazing part} . 问题还没有解决 给定关键词 qi 和与之相对应的最优排序结果 r∗ ;另外记对 i 于排序函数 f(qi ) 所产生的排序结果为 rf(qi ) 我们只需要最大化 1∑ n τS (f) = τ (rf(qi ) , r∗ ) i n i=1 其中, S 为样品集合 {(q1 , r∗ ), (q2 , r∗ ), ..., (qn , r∗ )}, n 为样 1 2 n 品中的样品数(也就是搜索关键词的数目),f 为排序函数。 . . . . . . 孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data
  • 23. 问题是什么? 问题抽象 问题转化 Ranking SVM 又见 SVM 实验结果 最优结果的模拟 {Most amazing part} . . . 问题是什么? 1 . . . 问题抽象 2 . . . Ranking SVM 3 问题转化 又见 SVM 最优结果的模拟 . . . 实验结果 4 . . . {Most amazing part} 5 . . . . . . 孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data
  • 24. 问题是什么? 问题抽象 问题转化 Ranking SVM 又见 SVM 实验结果 最优结果的模拟 {Most amazing part} . 问题转化 (di , dj ) ∈ fw(q) ⇔ w · Φ(q, di ) > w · Φ(q, dj ) ⃗ ⃗ ⃗ 其中, w 为权向量, Φ(q, d) 将 (q, d) 映射成为一个属性 ⃗ (feature) 向量。 属性向量描述搜索关键词 q 和返回结果 d 之间的关联属性。 例如,关键词和返回结果之间具有的相同的单词的个数等。 . . . . . . 孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data
  • 25. 问题是什么? 问题抽象 问题转化 Ranking SVM 又见 SVM 实验结果 最优结果的模拟 {Most amazing part} . 又见 SVM 1 ∑ w ⃗ min V(⃗ , ξ) = w · w + C ⃗ ⃗ ξi,j,k 2 s.t. ∀(di , dj ) ∈ r∗ : w · Φ(q1 , di ) ≥ w · Φ(q1 , dj ) + 1 − ξi,j,1 1 ⃗ ⃗ ··· ∀(di , dj ) ∈ r∗ : w · Φ(qn , di ) ≥ w · Φ(qn , dj ) + 1 − ξi,j,n n ⃗ ⃗ ∀i, ∀j, ∀k : ξi,j,k ≥ 0 . . . . . . 孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data
  • 26. 问题是什么? 问题抽象 问题转化 Ranking SVM 又见 SVM 实验结果 最优结果的模拟 {Most amazing part} . 最优结果的模拟 1 ∑ w ⃗ min V(⃗ , ξ) = w · w + C ⃗ ⃗ ξi,j,k 2 s.t. ∀(di , dj ) ∈ r′ : w · Φ(q1 , di ) ≥ w · Φ(q1 , dj ) + 1 − ξi,j,1 1 ⃗ ⃗ ··· ∀(di , dj ) ∈ r′ : w · Φ(qn , di ) ≥ w · Φ(qn , dj ) + 1 − ξi,j,n n ⃗ ⃗ ∀i, ∀j, ∀k : ξi,j,k ≥ 0 其中, r′ 为从系统日志中得到的“训练数据“。 . . . . . . 孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data
  • 27. 问题是什么? 问题抽象 Ranking SVM 实验结果 {Most amazing part} . . . 问题是什么? 1 . . . 问题抽象 2 . . . Ranking SVM 3 . . . 实验结果 4 离线实验 在线交互实验 . . . {Most amazing part} 5 . . . . . . 孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data
  • 28. 问题是什么? 问题抽象 Ranking SVM 实验结果 {Most amazing part} . 最优化问题的求解哲学 假设存在最优解 s∗ 设置求解变量 s 描述最优化目标:最小化 s 和 s∗ 之间的差距 采用可以获得的 s′ 模拟 s∗ 构建最优化模型,使用最优化方法求解 s∗ . . . . . . 孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data
  • 29. 问题是什么? 问题抽象 Ranking SVM 实验结果 {Most amazing part} . Q&A Thank you and any questions? . . . . . . 孔庆超 - ranking SVM Optimizing Search Engines using Clickthrough Data