SlideShare a Scribd company logo
1 of 35
The Cranfield Tests on
Index Language Devices

     課程:資訊學研討
     報告人:鍾士芳
     日期: 2008.12.1
                           1
書目資料
   Author :
       Cyril Cleverdon
   Title :
       The Cranfield Tests on Index Language Devices
   Citation :
       ASLIB Proceedings.19:6 (1967): 173-194




                                                        2
大綱
 Cranfield 第一期計畫
 Cranfield 第二期計畫
 SMART 系統
 Cranfield 33 種索引語言測試
 Comment




                         3
Cranfield 第一期計畫
   研究操作執行四種不同索引系統
       Universal Decimal Classification 國際十進分類法
       Facet Classification 層面分類法
       Alphabetical subject catalogue 按字母順排列的主題索
        引
       Uniterm system of co-ordinate indexing 單詞組合索引
        系統
   背景
       Western Reserve University 館藏
       主題:冶金術文獻
       數量: 1100 篇文件
                                                    4
Cranfield 第一期計畫
   測量方式
       Recall ratio 回收率
       Precision ratio 精確率
   設備
       Recall devices 回收設備
            可能增加取得更多相關文件
            例如:回收設備可以群組同義字,混合字的形式,形成各類相
             關字詞
       Precision devices 精確率設備
            確認非相關文件不會取得
            例如:精確設備是 co-ordination 組合 ( 不管是 pre-co-
             ordination 前組合或 post-co-ordination 後組合 ) , links 連結
             和 roles 角色                                            5
Cranfield 第一期計畫
 以 Universal Decimal Classification 國際十進分
  類法為例
 透過字母順序排列的索引
       Air Cushion Vehicles     629.137
       Ground-effect machines   629.137
       Hovercraft               629.137
   文字形式也帶來字母順序排列的索引
       Weld         621.791
       Welded       621.791
       Welding      621.791

                                             6
Cranfield 第一期計畫
   一般關係呈現在清單清單 (schedules) 中
       662     Beverages
       662.3   Wines
   前組合詞彙經常發生在清單 (schedules) 中
       s33.6.071           Wind tunnels
       s33.6.071.4         Wind tunnel instruments
   二者擇一地,組合可以獲得使用冒號或括號
       338:633.1     Cereal production
       942(42)       English history


                                                      7
Cranfield 第一期計畫
   連結也以冒號顯示
       669.71 : 621.791   Welding of aluminium
   角色是表明背景清單 (schedules)
       Input Wood(fuel)         662.63
       Output Wood(forestry)    634.08




                                                  8
Cranfield 第二期計畫
   目的
       第二期 Cranfield 計畫主要設計研究隔離 index
        language device 索引語言設備,並且企圖測量每個設
        備執行效果
   背景
       數量:測試館藏建立了 1400 篇研究文章
       主題:主要在航空動力學領域。




                                           9
Cranfield 第二期計畫
   建立方式
       每份文件以三種不同方式索引 ( 圖 1)




                               10
Cranfield 第二期計畫
   建立方式
       221 個問題是從一些作者的研究論文而來並提供作為
        測試。決定館藏中針對每個問題每篇文件的相關度。
        這個相關決定將會由詢問者決定,並給予 1-4 的等級
        ,並且必須符合以下需求:
           參考文獻可以完整回答問題
           參考文獻有高度相關,缺少任何一方讓研究不能實行或有相
            當數量的額外作品結果
           參考文獻是有用的,無論是作為一般背景的作品
           參考文獻最低興趣,例如:有包含從歷史的觀點



                                     11
Cranfield 第二期計畫
   測量方式
       在標準的檢索中,文件收藏被分為兩個群組取得和未被取得,這
        些群組可被分為哪些是相關和不相關的文件 ( 圖 2)




                                       12
Cranfield 第二期計畫
   測量方式
       recall ratio 回收率
       precision ratio 精確率
       fallout ratio 誤檢率




                              13
Cranfield 第二期計畫
   Index Language 索引語言類型
       Single Terms 單一詞彙 ( 圖 3)




                                   14
Cranfield 第二期計畫
   Index Language 索引語言類型
       Index Language concept 索引語言概念 ( 圖 4)




                                               15
Cranfield 第二期計畫
   Index Language 索引語言類型
       Controlled Term 控制詞彙 ( 圖 5)




                                      16
Cranfield 第二期計畫
   範例: Small deflection theory of simple
    supported cylinders 小撓度理論的簡支氣瓶
       I.1
       比對所有 6 個詞彙, 3 個文件取得
       比對任何 5 個詞彙, 10 個文件取得
       比對任何 4 個詞彙, 14 個文件取得
       比對任何 3 個詞彙, 43 個文件取得
       比對任何 2 個詞彙, 177 個文件取得
       比對任何 1 個詞彙, 722 個文件取得


                                            17
Cranfield 第二期計畫
   範例: Small deflection theory of simple
    supported cylinders 小撓度理論的簡支氣瓶
       I.6
       比對 6 個詞彙, 4 個文件被取得
       比對 5 個詞彙, 14 個文件被取得
       比對 4 個詞彙, 38 個文件被取得
       比對 3 個詞彙, 123 個文件被取得




                                            18
Cranfield 第二期計畫
   圖 6 表現索引語言 I.1 的結果,使用單一詞彙在自然語言




                                     19
Cranfield 第二期計畫
   圖 7 表現索引語言 I.6 的結果,單一詞彙分類成
    synonyms 同義字、 word forms 文字形式、 quasi-
    synonyms 類同義字




                                            20
Cranfield 第二期計畫
   圖8:
    匯整圖 6 和圖
    7 的回收率與
    精確率




                  21
Cranfield 第二期計畫
   圖9
    顯示某些檢索
    規則的影響




                  22
Cranfield 第二期計畫
   圖 10
    顯示 4 種不同相
    關程度所造成的影
    響 ( 回收率和誤檢
    率)




                  23
Salton 的 SMART 系統
 SMART 系統 V.S. Cranfield 研究
 相似處
       兩者都希望比較使用不同的機制所產生的影響
   不同處
       Salton 的 SMART 系統使用大量電腦運算
       Cranfield 使用簡單卻需人工分類的技術




                                    24
Salton 的 SMART 系統
   SMART 研究會將結果排序後輸出 ( 圖 11) ,這種方式基
    於每個組合階層中相關和不相關文件的檢索,計算出
    Normalized recall ratio 常態化回收率。




                                       25
Salton 的 SMART 系統
   從 Cranfield 檢索模擬輸出
   方法是根據檢索的相關性和非相關性文件在每個組合層
   審議結果從 Q 100 檢索 200 份文件收藏




                               26
Salton 的 SMART 系統
   圖 12




                    27
Salton 的 SMART 系統
   圖 13




                    28
 Salton 的 SMART 系統評估研究使用了 Cranfield
  II 計畫中所蒐集的實驗性館藏,因此兩者採用之
  方法是可對照的。
 對照結果顯示 Cranfield Normalized recall ratio
  常態化回收率之排序表現和原先 SMART 測量的
  結果非常相近。
 因此, Cranfield 研究又針對 33 種不同的檢索方
  式結果重新計算其 Normalized recall ratio 常態化
  回收率。

                                         29
Cranfield 33 種索引語言測試
   圖 14
    呈現在
    Cranfield 33
    種索引語言測
    試,並依據常
    態回收率排序




                       30
Cranfield 33 種索引語言測試
 每個索引語言的詳細關係在圖 3 、 4 、 5 有詳細
  描述。
 本研究結果發現
       單一詞彙語言( single term index languages )整個的
        表現最佳
       簡單概念索引語言( simple concept index
        languages )的表現墊底
       控制詞彙索引( controlled term index languages )則
        在兩者之間


                                                 31
Cranfield 33 種索引語言測試
   策劃 normalized recall ratio 常態化回收率對比一些索引語
    言詞彙,並且結果呈現在圖 15




                                           32
Cranfield 33 種索引語言測試
   圖 16 呈現 5 個詳盡層次詞彙平均數和 normalized recall
    ratio 常態化回收率




                                              33
Cranfield 33 種索引語言測試
   圖 17 呈現圖 16 數據的曲線圖




                         34
Comment
 recall ratio 回收率 V.S precision ratio 精確率
 Index Language 索引語言
 SMART V.S. Cranfield
 Cranfield 33 種索引語言測試
 系統評估現在與未來




                                             35

More Related Content

Featured

PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Applitools
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at WorkGetSmarter
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...DevGAMM Conference
 
Barbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationBarbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationErica Santiago
 

Featured (20)

PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
 
Barbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationBarbie - Brand Strategy Presentation
Barbie - Brand Strategy Presentation
 

The Cranfield Tests On Index Language Devices

  • 1. The Cranfield Tests on Index Language Devices 課程:資訊學研討 報告人:鍾士芳 日期: 2008.12.1 1
  • 2. 書目資料  Author :  Cyril Cleverdon  Title :  The Cranfield Tests on Index Language Devices  Citation :  ASLIB Proceedings.19:6 (1967): 173-194 2
  • 3. 大綱  Cranfield 第一期計畫  Cranfield 第二期計畫  SMART 系統  Cranfield 33 種索引語言測試  Comment 3
  • 4. Cranfield 第一期計畫  研究操作執行四種不同索引系統  Universal Decimal Classification 國際十進分類法  Facet Classification 層面分類法  Alphabetical subject catalogue 按字母順排列的主題索 引  Uniterm system of co-ordinate indexing 單詞組合索引 系統  背景  Western Reserve University 館藏  主題:冶金術文獻  數量: 1100 篇文件 4
  • 5. Cranfield 第一期計畫  測量方式  Recall ratio 回收率  Precision ratio 精確率  設備  Recall devices 回收設備  可能增加取得更多相關文件  例如:回收設備可以群組同義字,混合字的形式,形成各類相 關字詞  Precision devices 精確率設備  確認非相關文件不會取得  例如:精確設備是 co-ordination 組合 ( 不管是 pre-co- ordination 前組合或 post-co-ordination 後組合 ) , links 連結 和 roles 角色 5
  • 6. Cranfield 第一期計畫  以 Universal Decimal Classification 國際十進分 類法為例  透過字母順序排列的索引  Air Cushion Vehicles 629.137  Ground-effect machines 629.137  Hovercraft 629.137  文字形式也帶來字母順序排列的索引  Weld 621.791  Welded 621.791  Welding 621.791 6
  • 7. Cranfield 第一期計畫  一般關係呈現在清單清單 (schedules) 中  662 Beverages  662.3 Wines  前組合詞彙經常發生在清單 (schedules) 中  s33.6.071 Wind tunnels  s33.6.071.4 Wind tunnel instruments  二者擇一地,組合可以獲得使用冒號或括號  338:633.1 Cereal production  942(42) English history 7
  • 8. Cranfield 第一期計畫  連結也以冒號顯示  669.71 : 621.791 Welding of aluminium  角色是表明背景清單 (schedules)  Input Wood(fuel) 662.63  Output Wood(forestry) 634.08 8
  • 9. Cranfield 第二期計畫  目的  第二期 Cranfield 計畫主要設計研究隔離 index language device 索引語言設備,並且企圖測量每個設 備執行效果  背景  數量:測試館藏建立了 1400 篇研究文章  主題:主要在航空動力學領域。 9
  • 10. Cranfield 第二期計畫  建立方式  每份文件以三種不同方式索引 ( 圖 1) 10
  • 11. Cranfield 第二期計畫  建立方式  221 個問題是從一些作者的研究論文而來並提供作為 測試。決定館藏中針對每個問題每篇文件的相關度。 這個相關決定將會由詢問者決定,並給予 1-4 的等級 ,並且必須符合以下需求:  參考文獻可以完整回答問題  參考文獻有高度相關,缺少任何一方讓研究不能實行或有相 當數量的額外作品結果  參考文獻是有用的,無論是作為一般背景的作品  參考文獻最低興趣,例如:有包含從歷史的觀點 11
  • 12. Cranfield 第二期計畫  測量方式  在標準的檢索中,文件收藏被分為兩個群組取得和未被取得,這 些群組可被分為哪些是相關和不相關的文件 ( 圖 2) 12
  • 13. Cranfield 第二期計畫  測量方式  recall ratio 回收率  precision ratio 精確率  fallout ratio 誤檢率 13
  • 14. Cranfield 第二期計畫  Index Language 索引語言類型  Single Terms 單一詞彙 ( 圖 3) 14
  • 15. Cranfield 第二期計畫  Index Language 索引語言類型  Index Language concept 索引語言概念 ( 圖 4) 15
  • 16. Cranfield 第二期計畫  Index Language 索引語言類型  Controlled Term 控制詞彙 ( 圖 5) 16
  • 17. Cranfield 第二期計畫  範例: Small deflection theory of simple supported cylinders 小撓度理論的簡支氣瓶  I.1  比對所有 6 個詞彙, 3 個文件取得  比對任何 5 個詞彙, 10 個文件取得  比對任何 4 個詞彙, 14 個文件取得  比對任何 3 個詞彙, 43 個文件取得  比對任何 2 個詞彙, 177 個文件取得  比對任何 1 個詞彙, 722 個文件取得 17
  • 18. Cranfield 第二期計畫  範例: Small deflection theory of simple supported cylinders 小撓度理論的簡支氣瓶  I.6  比對 6 個詞彙, 4 個文件被取得  比對 5 個詞彙, 14 個文件被取得  比對 4 個詞彙, 38 個文件被取得  比對 3 個詞彙, 123 個文件被取得 18
  • 19. Cranfield 第二期計畫  圖 6 表現索引語言 I.1 的結果,使用單一詞彙在自然語言 19
  • 20. Cranfield 第二期計畫  圖 7 表現索引語言 I.6 的結果,單一詞彙分類成 synonyms 同義字、 word forms 文字形式、 quasi- synonyms 類同義字 20
  • 21. Cranfield 第二期計畫  圖8: 匯整圖 6 和圖 7 的回收率與 精確率 21
  • 22. Cranfield 第二期計畫  圖9 顯示某些檢索 規則的影響 22
  • 23. Cranfield 第二期計畫  圖 10 顯示 4 種不同相 關程度所造成的影 響 ( 回收率和誤檢 率) 23
  • 24. Salton 的 SMART 系統  SMART 系統 V.S. Cranfield 研究  相似處  兩者都希望比較使用不同的機制所產生的影響  不同處  Salton 的 SMART 系統使用大量電腦運算  Cranfield 使用簡單卻需人工分類的技術 24
  • 25. Salton 的 SMART 系統  SMART 研究會將結果排序後輸出 ( 圖 11) ,這種方式基 於每個組合階層中相關和不相關文件的檢索,計算出 Normalized recall ratio 常態化回收率。 25
  • 26. Salton 的 SMART 系統  從 Cranfield 檢索模擬輸出  方法是根據檢索的相關性和非相關性文件在每個組合層  審議結果從 Q 100 檢索 200 份文件收藏 26
  • 27. Salton 的 SMART 系統  圖 12 27
  • 28. Salton 的 SMART 系統  圖 13 28
  • 29.  Salton 的 SMART 系統評估研究使用了 Cranfield II 計畫中所蒐集的實驗性館藏,因此兩者採用之 方法是可對照的。  對照結果顯示 Cranfield Normalized recall ratio 常態化回收率之排序表現和原先 SMART 測量的 結果非常相近。  因此, Cranfield 研究又針對 33 種不同的檢索方 式結果重新計算其 Normalized recall ratio 常態化 回收率。 29
  • 30. Cranfield 33 種索引語言測試  圖 14 呈現在 Cranfield 33 種索引語言測 試,並依據常 態回收率排序 30
  • 31. Cranfield 33 種索引語言測試  每個索引語言的詳細關係在圖 3 、 4 、 5 有詳細 描述。  本研究結果發現  單一詞彙語言( single term index languages )整個的 表現最佳  簡單概念索引語言( simple concept index languages )的表現墊底  控制詞彙索引( controlled term index languages )則 在兩者之間 31
  • 32. Cranfield 33 種索引語言測試  策劃 normalized recall ratio 常態化回收率對比一些索引語 言詞彙,並且結果呈現在圖 15 32
  • 33. Cranfield 33 種索引語言測試  圖 16 呈現 5 個詳盡層次詞彙平均數和 normalized recall ratio 常態化回收率 33
  • 34. Cranfield 33 種索引語言測試  圖 17 呈現圖 16 數據的曲線圖 34
  • 35. Comment  recall ratio 回收率 V.S precision ratio 精確率  Index Language 索引語言  SMART V.S. Cranfield  Cranfield 33 種索引語言測試  系統評估現在與未來 35