The Cranfield Tests on
Index Language Devices

     課程:資訊學研討
     報告人:鍾士芳
     日期: 2008.12.1
                           1
書目資料
   Author :
       Cyril Cleverdon
   Title :
       The Cranfield Tests on Index Language Devices
   Citation :
       ASLIB Proceedings.19:6 (1967): 173-194




                                                        2
大綱
 Cranfield 第一期計畫
 Cranfield 第二期計畫
 SMART 系統
 Cranfield 33 種索引語言測試
 Comment




                         3
Cranfield 第一期計畫
   研究操作執行四種不同索引系統
       Universal Decimal Classification 國際十進分類法
       Facet Classification 層面分類法
       Alphabetical subject catalogue 按字母順排列的主題索
        引
       Uniterm system of co-ordinate indexing 單詞組合索引
        系統
   背景
       Western Reserve University 館藏
       主題:冶金術文獻
       數量: 1100 篇文件
                                                    4
Cranfield 第一期計畫
   測量方式
       Recall ratio 回收率
       Precision ratio 精確率
   設備
       Recall devices 回收設備
            可能增加取得更多相關文件
            例如:回收設備可以群組同義字,混合字的形式,形成各類相
             關字詞
       Precision devices 精確率設備
            確認非相關文件不會取得
            例如:精確設備是 co-ordination 組合 ( 不管是 pre-co-
             ordination 前組合或 post-co-ordination 後組合 ) , links 連結
             和 roles 角色                                            5
Cranfield 第一期計畫
 以 Universal Decimal Classification 國際十進分
  類法為例
 透過字母順序排列的索引
       Air Cushion Vehicles     629.137
       Ground-effect machines   629.137
       Hovercraft               629.137
   文字形式也帶來字母順序排列的索引
       Weld         621.791
       Welded       621.791
       Welding      621.791

                                             6
Cranfield 第一期計畫
   一般關係呈現在清單清單 (schedules) 中
       662     Beverages
       662.3   Wines
   前組合詞彙經常發生在清單 (schedules) 中
       s33.6.071           Wind tunnels
       s33.6.071.4         Wind tunnel instruments
   二者擇一地,組合可以獲得使用冒號或括號
       338:633.1     Cereal production
       942(42)       English history


                                                      7
Cranfield 第一期計畫
   連結也以冒號顯示
       669.71 : 621.791   Welding of aluminium
   角色是表明背景清單 (schedules)
       Input Wood(fuel)         662.63
       Output Wood(forestry)    634.08




                                                  8
Cranfield 第二期計畫
   目的
       第二期 Cranfield 計畫主要設計研究隔離 index
        language device 索引語言設備,並且企圖測量每個設
        備執行效果
   背景
       數量:測試館藏建立了 1400 篇研究文章
       主題:主要在航空動力學領域。




                                           9
Cranfield 第二期計畫
   建立方式
       每份文件以三種不同方式索引 ( 圖 1)




                               10
Cranfield 第二期計畫
   建立方式
       221 個問題是從一些作者的研究論文而來並提供作為
        測試。決定館藏中針對每個問題每篇文件的相關度。
        這個相關決定將會由詢問者決定,並給予 1-4 的等級
        ,並且必須符合以下需求:
           參考文獻可以完整回答問題
           參考文獻有高度相關,缺少任何一方讓研究不能實行或有相
            當數量的額外作品結果
           參考文獻是有用的,無論是作為一般背景的作品
           參考文獻最低興趣,例如:有包含從歷史的觀點



                                     11
Cranfield 第二期計畫
   測量方式
       在標準的檢索中,文件收藏被分為兩個群組取得和未被取得,這
        些群組可被分為哪些是相關和不相關的文件 ( 圖 2)




                                       12
Cranfield 第二期計畫
   測量方式
       recall ratio 回收率
       precision ratio 精確率
       fallout ratio 誤檢率




                              13
Cranfield 第二期計畫
   Index Language 索引語言類型
       Single Terms 單一詞彙 ( 圖 3)




                                   14
Cranfield 第二期計畫
   Index Language 索引語言類型
       Index Language concept 索引語言概念 ( 圖 4)




                                               15
Cranfield 第二期計畫
   Index Language 索引語言類型
       Controlled Term 控制詞彙 ( 圖 5)




                                      16
Cranfield 第二期計畫
   範例: Small deflection theory of simple
    supported cylinders 小撓度理論的簡支氣瓶
       I.1
       比對所有 6 個詞彙, 3 個文件取得
       比對任何 5 個詞彙, 10 個文件取得
       比對任何 4 個詞彙, 14 個文件取得
       比對任何 3 個詞彙, 43 個文件取得
       比對任何 2 個詞彙, 177 個文件取得
       比對任何 1 個詞彙, 722 個文件取得


                                            17
Cranfield 第二期計畫
   範例: Small deflection theory of simple
    supported cylinders 小撓度理論的簡支氣瓶
       I.6
       比對 6 個詞彙, 4 個文件被取得
       比對 5 個詞彙, 14 個文件被取得
       比對 4 個詞彙, 38 個文件被取得
       比對 3 個詞彙, 123 個文件被取得




                                            18
Cranfield 第二期計畫
   圖 6 表現索引語言 I.1 的結果,使用單一詞彙在自然語言




                                     19
Cranfield 第二期計畫
   圖 7 表現索引語言 I.6 的結果,單一詞彙分類成
    synonyms 同義字、 word forms 文字形式、 quasi-
    synonyms 類同義字




                                            20
Cranfield 第二期計畫
   圖8:
    匯整圖 6 和圖
    7 的回收率與
    精確率




                  21
Cranfield 第二期計畫
   圖9
    顯示某些檢索
    規則的影響




                  22
Cranfield 第二期計畫
   圖 10
    顯示 4 種不同相
    關程度所造成的影
    響 ( 回收率和誤檢
    率)




                  23
Salton 的 SMART 系統
 SMART 系統 V.S. Cranfield 研究
 相似處
       兩者都希望比較使用不同的機制所產生的影響
   不同處
       Salton 的 SMART 系統使用大量電腦運算
       Cranfield 使用簡單卻需人工分類的技術




                                    24
Salton 的 SMART 系統
   SMART 研究會將結果排序後輸出 ( 圖 11) ,這種方式基
    於每個組合階層中相關和不相關文件的檢索,計算出
    Normalized recall ratio 常態化回收率。




                                       25
Salton 的 SMART 系統
   從 Cranfield 檢索模擬輸出
   方法是根據檢索的相關性和非相關性文件在每個組合層
   審議結果從 Q 100 檢索 200 份文件收藏




                               26
Salton 的 SMART 系統
   圖 12




                    27
Salton 的 SMART 系統
   圖 13




                    28
 Salton 的 SMART 系統評估研究使用了 Cranfield
  II 計畫中所蒐集的實驗性館藏,因此兩者採用之
  方法是可對照的。
 對照結果顯示 Cranfield Normalized recall ratio
  常態化回收率之排序表現和原先 SMART 測量的
  結果非常相近。
 因此, Cranfield 研究又針對 33 種不同的檢索方
  式結果重新計算其 Normalized recall ratio 常態化
  回收率。

                                         29
Cranfield 33 種索引語言測試
   圖 14
    呈現在
    Cranfield 33
    種索引語言測
    試,並依據常
    態回收率排序




                       30
Cranfield 33 種索引語言測試
 每個索引語言的詳細關係在圖 3 、 4 、 5 有詳細
  描述。
 本研究結果發現
       單一詞彙語言( single term index languages )整個的
        表現最佳
       簡單概念索引語言( simple concept index
        languages )的表現墊底
       控制詞彙索引( controlled term index languages )則
        在兩者之間


                                                 31
Cranfield 33 種索引語言測試
   策劃 normalized recall ratio 常態化回收率對比一些索引語
    言詞彙,並且結果呈現在圖 15




                                           32
Cranfield 33 種索引語言測試
   圖 16 呈現 5 個詳盡層次詞彙平均數和 normalized recall
    ratio 常態化回收率




                                              33
Cranfield 33 種索引語言測試
   圖 17 呈現圖 16 數據的曲線圖




                         34
Comment
 recall ratio 回收率 V.S precision ratio 精確率
 Index Language 索引語言
 SMART V.S. Cranfield
 Cranfield 33 種索引語言測試
 系統評估現在與未來




                                             35

The Cranfield Tests On Index Language Devices

  • 1.
    The Cranfield Testson Index Language Devices 課程:資訊學研討 報告人:鍾士芳 日期: 2008.12.1 1
  • 2.
    書目資料  Author :  Cyril Cleverdon  Title :  The Cranfield Tests on Index Language Devices  Citation :  ASLIB Proceedings.19:6 (1967): 173-194 2
  • 3.
    大綱  Cranfield 第一期計畫 Cranfield 第二期計畫  SMART 系統  Cranfield 33 種索引語言測試  Comment 3
  • 4.
    Cranfield 第一期計畫  研究操作執行四種不同索引系統  Universal Decimal Classification 國際十進分類法  Facet Classification 層面分類法  Alphabetical subject catalogue 按字母順排列的主題索 引  Uniterm system of co-ordinate indexing 單詞組合索引 系統  背景  Western Reserve University 館藏  主題:冶金術文獻  數量: 1100 篇文件 4
  • 5.
    Cranfield 第一期計畫  測量方式  Recall ratio 回收率  Precision ratio 精確率  設備  Recall devices 回收設備  可能增加取得更多相關文件  例如:回收設備可以群組同義字,混合字的形式,形成各類相 關字詞  Precision devices 精確率設備  確認非相關文件不會取得  例如:精確設備是 co-ordination 組合 ( 不管是 pre-co- ordination 前組合或 post-co-ordination 後組合 ) , links 連結 和 roles 角色 5
  • 6.
    Cranfield 第一期計畫  以Universal Decimal Classification 國際十進分 類法為例  透過字母順序排列的索引  Air Cushion Vehicles 629.137  Ground-effect machines 629.137  Hovercraft 629.137  文字形式也帶來字母順序排列的索引  Weld 621.791  Welded 621.791  Welding 621.791 6
  • 7.
    Cranfield 第一期計畫  一般關係呈現在清單清單 (schedules) 中  662 Beverages  662.3 Wines  前組合詞彙經常發生在清單 (schedules) 中  s33.6.071 Wind tunnels  s33.6.071.4 Wind tunnel instruments  二者擇一地,組合可以獲得使用冒號或括號  338:633.1 Cereal production  942(42) English history 7
  • 8.
    Cranfield 第一期計畫  連結也以冒號顯示  669.71 : 621.791 Welding of aluminium  角色是表明背景清單 (schedules)  Input Wood(fuel) 662.63  Output Wood(forestry) 634.08 8
  • 9.
    Cranfield 第二期計畫  目的  第二期 Cranfield 計畫主要設計研究隔離 index language device 索引語言設備,並且企圖測量每個設 備執行效果  背景  數量:測試館藏建立了 1400 篇研究文章  主題:主要在航空動力學領域。 9
  • 10.
    Cranfield 第二期計畫  建立方式  每份文件以三種不同方式索引 ( 圖 1) 10
  • 11.
    Cranfield 第二期計畫  建立方式  221 個問題是從一些作者的研究論文而來並提供作為 測試。決定館藏中針對每個問題每篇文件的相關度。 這個相關決定將會由詢問者決定,並給予 1-4 的等級 ,並且必須符合以下需求:  參考文獻可以完整回答問題  參考文獻有高度相關,缺少任何一方讓研究不能實行或有相 當數量的額外作品結果  參考文獻是有用的,無論是作為一般背景的作品  參考文獻最低興趣,例如:有包含從歷史的觀點 11
  • 12.
    Cranfield 第二期計畫  測量方式  在標準的檢索中,文件收藏被分為兩個群組取得和未被取得,這 些群組可被分為哪些是相關和不相關的文件 ( 圖 2) 12
  • 13.
    Cranfield 第二期計畫  測量方式  recall ratio 回收率  precision ratio 精確率  fallout ratio 誤檢率 13
  • 14.
    Cranfield 第二期計畫  Index Language 索引語言類型  Single Terms 單一詞彙 ( 圖 3) 14
  • 15.
    Cranfield 第二期計畫  Index Language 索引語言類型  Index Language concept 索引語言概念 ( 圖 4) 15
  • 16.
    Cranfield 第二期計畫  Index Language 索引語言類型  Controlled Term 控制詞彙 ( 圖 5) 16
  • 17.
    Cranfield 第二期計畫  範例: Small deflection theory of simple supported cylinders 小撓度理論的簡支氣瓶  I.1  比對所有 6 個詞彙, 3 個文件取得  比對任何 5 個詞彙, 10 個文件取得  比對任何 4 個詞彙, 14 個文件取得  比對任何 3 個詞彙, 43 個文件取得  比對任何 2 個詞彙, 177 個文件取得  比對任何 1 個詞彙, 722 個文件取得 17
  • 18.
    Cranfield 第二期計畫  範例: Small deflection theory of simple supported cylinders 小撓度理論的簡支氣瓶  I.6  比對 6 個詞彙, 4 個文件被取得  比對 5 個詞彙, 14 個文件被取得  比對 4 個詞彙, 38 個文件被取得  比對 3 個詞彙, 123 個文件被取得 18
  • 19.
    Cranfield 第二期計畫  圖 6 表現索引語言 I.1 的結果,使用單一詞彙在自然語言 19
  • 20.
    Cranfield 第二期計畫  圖 7 表現索引語言 I.6 的結果,單一詞彙分類成 synonyms 同義字、 word forms 文字形式、 quasi- synonyms 類同義字 20
  • 21.
    Cranfield 第二期計畫  圖8: 匯整圖 6 和圖 7 的回收率與 精確率 21
  • 22.
    Cranfield 第二期計畫  圖9 顯示某些檢索 規則的影響 22
  • 23.
    Cranfield 第二期計畫  圖 10 顯示 4 種不同相 關程度所造成的影 響 ( 回收率和誤檢 率) 23
  • 24.
    Salton 的 SMART系統  SMART 系統 V.S. Cranfield 研究  相似處  兩者都希望比較使用不同的機制所產生的影響  不同處  Salton 的 SMART 系統使用大量電腦運算  Cranfield 使用簡單卻需人工分類的技術 24
  • 25.
    Salton 的 SMART系統  SMART 研究會將結果排序後輸出 ( 圖 11) ,這種方式基 於每個組合階層中相關和不相關文件的檢索,計算出 Normalized recall ratio 常態化回收率。 25
  • 26.
    Salton 的 SMART系統  從 Cranfield 檢索模擬輸出  方法是根據檢索的相關性和非相關性文件在每個組合層  審議結果從 Q 100 檢索 200 份文件收藏 26
  • 27.
    Salton 的 SMART系統  圖 12 27
  • 28.
    Salton 的 SMART系統  圖 13 28
  • 29.
     Salton 的SMART 系統評估研究使用了 Cranfield II 計畫中所蒐集的實驗性館藏,因此兩者採用之 方法是可對照的。  對照結果顯示 Cranfield Normalized recall ratio 常態化回收率之排序表現和原先 SMART 測量的 結果非常相近。  因此, Cranfield 研究又針對 33 種不同的檢索方 式結果重新計算其 Normalized recall ratio 常態化 回收率。 29
  • 30.
    Cranfield 33 種索引語言測試  圖 14 呈現在 Cranfield 33 種索引語言測 試,並依據常 態回收率排序 30
  • 31.
    Cranfield 33 種索引語言測試 每個索引語言的詳細關係在圖 3 、 4 、 5 有詳細 描述。  本研究結果發現  單一詞彙語言( single term index languages )整個的 表現最佳  簡單概念索引語言( simple concept index languages )的表現墊底  控制詞彙索引( controlled term index languages )則 在兩者之間 31
  • 32.
    Cranfield 33 種索引語言測試  策劃 normalized recall ratio 常態化回收率對比一些索引語 言詞彙,並且結果呈現在圖 15 32
  • 33.
    Cranfield 33 種索引語言測試  圖 16 呈現 5 個詳盡層次詞彙平均數和 normalized recall ratio 常態化回收率 33
  • 34.
    Cranfield 33 種索引語言測試  圖 17 呈現圖 16 數據的曲線圖 34
  • 35.
    Comment  recall ratio回收率 V.S precision ratio 精確率  Index Language 索引語言  SMART V.S. Cranfield  Cranfield 33 種索引語言測試  系統評估現在與未來 35