基於全球資訊網的華語文詞彙語法誘答選項正答力計算方法徐立人

國立中央大學

網路學習科技研究所
碩士論文

基於全球資訊網的華語文詞彙語法誘答選
項正答力計算方法
A Web-based Method for Computing the Correctness of

Distractors in Chinese Multiple Choice Cloze

研究生：徐立人

指導教授：楊接期博士

中華民國一百年六月

國立中央大學圖書館
碩博士論文電子檔授權書

(98 年 4 月最新修正版)

本授權書所授權之論文全文電子檔(不包含紙本、詳備註 1 說明)，為本人於國立
中央大學，撰寫之碩/博士學位論文。(以下請擇一勾選)
( )同意(立即開放)
( )同意(一年後開放)，原因是：
( V )同意(二年後開放)，原因是：後續投稿
( )同意(三年後開放)，原因是：
( )不同意，原因是：

以非專屬、無償授權國立中央大學圖書館與國家圖書館，基於推動「資源共享、
互惠合作」之理念，於回饋社會與學術研究之目的，得不限地域、時間與次數，
以紙本、微縮、光碟及其它各種方法將上列論文收錄、重製、公開陳列、與發行，
或再授權他人以各種方法重製與利用，並得將數位化之上列論文與論文電子檔以
上載網路方式，提供讀者基於個人非營利性質之線上檢索、閱覽、下載或列印。

研究生簽名: 徐立人學號： 985204004

論文名稱:基於全球資訊網的華語文詞彙語法誘答選項正答力計算方法

指導教授姓名：楊接期

系所：網路學習科技所 博士班碩士班

日期：民國 100 年 7 月 20 日
備註：

1. 本授權書之授權範圍僅限電子檔，紙本論文部分依著作權法第 15 條第 3 款之規定，採推定
原則即預設同意圖書館得公開上架閱覽，如您有申請專利或投稿等考量，不同意紙本上架陳
列，須另行加填聲明書，詳細說明與紙本聲明書請至 http://thesis.lib.ncu.edu.tw/下載。
2. 本授權書請填寫並親筆簽名後，裝訂於各紙本論文封面後之次頁（全文電子檔內之授權書簽
名，可用電腦打字代替）
。
3. 請加印一份單張之授權書，填寫並親筆簽名後，於辦理離校時交圖書館（以統一代轉寄給國
家圖書館）
。
4. 讀者基於個人非營利性質之線上檢索、閱覽、下載或列印上列論文，應依著作權法相關規定
辦理。

基於全球資訊網的華語文詞彙語法誘答選項正答力計算方法

摘要

全球學習漢語的人數已超過四千萬，而這個數字還在持續增加當

中。華語文能力測驗也逐漸成為世界知名的語文能力測驗，但是台灣

的華語文測驗發展較中國大陸的漢語水平考詴 HSK 晚十五年。然而，

拜科技所賜，現今我們可以利用電腦輔助完成這種耗時耗力的工作。

華語文電腦出題目前還只是剛起步的研究領域，英文詞彙語法

(Multiple-choice cloze)電腦出題有很多方法值得華語文詞彙語法

電腦出題借鏡，但用來篩選候選誘答選項的方法，卻無法直接套用到

華語文詞彙語法之電腦出題上。本研究目的是設計一個方法來計算華

語文詞彙語法之誘答選項的正答力，解決篩選候選誘答選項的問題，

並以 Google 為 N-gram 的 count 值來源。本研究參考 Markov chain

及 Katz Backoff 演算法來設計本研究的方法，並以台灣華語文能力

測驗 TOP-Huayu 的詞彙語法題 100 題評估本方法的準確度。

關鍵字：詞彙語法、電腦輔助語言測驗產生器、計算語言學、華語文
能力測驗、候選誘答選項的正答力、華語文選擇克漏字測驗

i

A Web-based Method for Computing the Correctness of Distractors in Chinese
Multiple Choice Cloze

ABSTRACT
Over 40 million people are learning the Chinese language and interest keeps

growing. The Chinese proﬁciency test becomes progressively a famous language test

in the world. The first formal Chinese proficiency test by Taiwan comes fifteen years

after the Hanyu Shuiping Kaoshi (HSK) by China. Thanks to computer technology,

we can generate the test by a computer easily. Computer-assisted Chinese language

testing generator is still a brand new field of research. There are many methods from

English multiple-choice cloze generator can be refer to Chinese multiple-choice cloze

generator except the method for filtering unsuitable candidate distractors. The purpose

of this study is to design a new method to compute correctness of candidate

distractors. This study solves the problem of filtering unsuitable candidate distractors.

The N-gram count value of this method is from Google web search. The accuracy of

this method is assessed by one hundred Chinese multiple-choice cloze questions of

TOP-Huayu.

KEYWORDS：Chinese multiple-choice cloze, computer-assisted language testing
generator, computational linguistics, Chinese proficiency test, correctness of
candidate distractors.

ii

誌謝

能完成本篇論文，必須感謝很多人的指點及協助，在此致上十二
萬分的謝意，由於你們無私的幫忙，才有這篇論文。首先感謝指導教
授楊接期老師，在我碩士生涯二年中，不斷的悉心教導和幫助，才得
以有今天的成果。感謝柯華葳教授、張莉萍老師、李明懿老師提供華
語文相關建議，感謝 Steve Wallace 老師讓我對研究更了解，感謝張
俊盛教授在課程上及口詴時教導我許多計算語言學的知識，感謝劉晨
鐘教授在課堂上及口詴時教導我許多研究上的重要知識及觀念，感謝
籃玉如教授、高照明教授在口詴時提供我許多寶貴意見，使本論文更
完備。感謝博士班的學長姊，逸農、Neil、琨晃、詵婷、嘉玲、美任、
聲毅、國樑、家榮、垣達、元棓、陳威、鑑城、宜勳、琮凱、玫樺、
曰東，碩士班學長姊，東穎、宏榮、政廷、佳芬、冠麟、哲偉，你們
在我研究及生活上都給予許多幫助、建議及鼓勵，讓我更能融入研究
所的生活。我的同學慧卿、國鴻、貴元，感謝你們平時的幫忙。弘君、
姿詠、文璇、婉瑜，因為你們實驗室才能充滿歡笑。學弟妹們，昌隆、
律廷、昱靜、冠賢、中民、俊凱，感謝你們在口詴的時候幫了我很多
忙。感謝提供我免費課程資源的助教，明撰、奕均。謝謝我們的助理
孟純姐，幫我處理各種行政上的繁雜事務。感謝我的爸媽提供我經濟
支持，讓我有機會取得碩士學位，希望我將來能為家族帶來榮耀。還
有感謝我的女友菁微在論文及口詴上都幫了我很多忙。要感謝的老師
及同學還很多，因版面的限制，族繁不及備載，在此感謝你們的建議
與協助。這篇論文中，寫的好的部份，是因為你們的貢獻。在此對上
述的各位致上我內心最誠摯的感激。

徐立人謹誌
國立中央大學網路學習科技研究所
中華民國一百年七月

iii

目錄

內容
摘要................................................................................................................................. i
Abstract ..........................................................................................................................ii
誌謝.............................................................................................................................. iii
目錄............................................................................................................................... iv
圖目錄........................................................................................................................... vi
表目錄..........................................................................................................................vii
第一章緒論.................................................................................................................. 1
1.1 研究背景與動機 ......................................................................................... 1
1.2 研究問題 ..................................................................................................... 3
1.3 研究目的 ..................................................................................................... 3
1.4 詞彙語法說明 ............................................................................................. 4
1.5 研究限制 ..................................................................................................... 5
第二章相關研究.......................................................................................................... 6
2.1 電腦輔助英文詞彙語法出題之探討 ......................................................... 6
2.2 電腦出題設計原則 ..................................................................................... 8
2.3 華語文測驗與教學探討 ............................................................................. 9
第三章研究工具........................................................................................................ 11
3.1 中研院斷詞系統 ....................................................................................... 11
3.2 Google 網頁搜尋 ...................................................................................... 13
3.3 TOP-Huayu 詞彙語法 .............................................................................. 14
第四章正答力計算方法............................................................................................ 17
4.1 前後置處理 ............................................................................................... 18
4.2
其它計算正答力的方法 ........................................................................... 20
4.2.1 Bigram Markov Chain 方法 ........................................................ 21
4.2.2 5-gram Markov Chain 方法 ........................................................ 23
4.2.3 以全球資訊網為語料來源方法 ................................................... 25
4.3 基於全球資訊網的正答力計算方法 ....................................................... 27
4.3.1 概念 ............................................................................................... 27
4.3.2 計算方法 ....................................................................................... 30
4.4 方法比較 ................................................................................................... 36
第五章評估................................................................................................................ 38
5.1 Benchmark ................................................................................................ 38
5.2 測試結果 ................................................................................................... 39
iv

分析評估結果 ........................................................................................... 40
5.3
5.3.1 原因一：訊息量不足 ................................................................... 42
5.3.2 原因二：分析方法侷限 ............................................................... 49
第六章結論及未來研究............................................................................................ 53
6.1 結論 ........................................................................................................... 53
6.2 未來研究 ................................................................................................... 55
參考文獻...................................................................................................................... 57
1. 中文文獻 ................................................................................................... 57
2. 英文文獻 ................................................................................................... 60
附錄詳細評估資料.................................................................................................... 63
1. 初級詞彙語法 ........................................................................................... 64
2. 中級詞彙語法 ........................................................................................... 65
3. 高級詞彙語法 ........................................................................................... 66

v

圖目錄
圖 1-1 華語文電腦出題領域的涵蓋 .......................................................................... 3
圖 1-2 詞彙語法題範例，其中選項 1 是正確答案，選項 2、3、4 是誘答選項。
................................................................................................................ 4
圖 3-1 中研院中文斷詞系統網站 ............................................................................ 12
圖 4-1 計算詞彙語法候選誘答選項正答力概念圖 ................................................ 17
圖 4-2 計算正確答案正答力範例 ............................................................................ 17
圖 4-3 計算並比較正確答案和誘答選項正答力的範例 ........................................ 18
圖 4-4 前後置處理流程圖 ........................................................................................ 19
圖 4-5 基於全球資訊網的正答力計算模組 ............................................................ 27
圖 5-1 答錯題目分析過程資料呈現說明 ................................................................ 42
圖 5-2 初等 TOP-Huayu 測驗詞彙語法第 52 題答錯過程分析 ............................. 43
圖 5-5 高等 TOP-Huayu 測驗詞彙語法第 79 題答錯過程分析 ............................. 46
圖 5-10 初等 TOP-Huayu 測驗詞彙語法第 88 題答錯過程分析 ............................ 51
圖 5-11 中等 TOP-Huayu 測驗詞彙語法第 71 題答錯過程分析 ........................... 52
圖 6-1 誘答選項產生器 ............................................................................................ 54

vi

表目錄
表 2-1 電腦輔助英文詞彙語法出題篩選誘答選項(a)方法一(b)方法二 ............... 7
表 3-1 Scores for HK ............................................................................................... 12
表 3-2 Scores for PK ................................................................................................ 12
表 3-3 臺灣華語文能力測驗 2003 年 12 月到 2010 年 11 月份累計各等級到考及
獲證人數分佈(基礎測驗從 2007 年 11 月開始) ............................... 15
表 3-4 CPT vs. HSK 等級詞彙的交集 ................................................................... 16
表 4-1 「Bigram Markov Chain 方法」的 Language Model N-grams 架構表 ....... 22
表 4-2 「5-gram Markov Chain 方法」的 Language Model N-grams 架構表 ....... 24
表 4-3 計算過程(a)1～4 回合(b)5 回合(c)6 回合 .................................................. 28
表 4-4 相同字串比較表 .......................................................................................... 29
表 4-5 部份正答力 F 計算結果比較表 .................................................................. 29
表 5-1 詞彙語法題目及答案架構列表 .................................................................. 38
表 5-2 測試結果統計表 .......................................................................................... 40

vii

1. 第一章緒論

1.1 研究背景與動機

中國國家漢辦主任、孔子學院總部理事長許琳在瀋陽舉行的第十
屆國際漢語教學研討會上表示，目前全球學習漢語的人數已超過四千
萬在北京的推動下這個數字還在持續增加當中(MercoPress, 2010)。
，，
而華語文能力測驗也逐漸成為如 TOEIC 或 TOEFL 這種世界標準的語
文能力測驗，像是臺灣華語文能力測驗 TOP-Huayu 及 TOCFL、中國
「漢語水準考詴 HSK」
、日本「中國語檢定詴驗」及「TECC」
、美國
「SATII-Chinese」及「CPT」(張莉萍，2007)。
中國大陸的 HSK 於 1990 年正式推出(張莉萍，2002)，並逐步推
廣到全世界。台灣的華語文測驗 TOP-Huayu 則在 2005 年才成為正式
的國家級測驗(張莉萍，2007)，發展較中國大陸晚十五年。
拜科技所賜，目前我們可以利用電腦輔助完成這種耗時耗力的工
作。電腦有機械式出題的優點，只要給特定明確的規則，就可以產生
大量的題目。由於測驗題庫需要持續性的汰舊換新與維護管理（陳柏
熹，2010），因此需要大量撰寫新詴題，過程繁雜且耗時（余民寧，
2010）發展電腦出題可以提升測驗題庫的規模，進而提升測驗的水
準。
在電腦輔助語言測驗（Computer-Assisted Language Testing, CALT）
領域 TOP-Huayu 及 HSK 己有不少研究以 Silye 和 Wiwczaroski(2002)
，，
對 CALT 議題的分類方式，電腦輔助華語文測驗可以說己經有相當完
整的研究，我們可以在每一類議題都找到對應的研究，
「Item banking」
電腦測驗題庫管理與分析議題(張國恩、陳學志、鄭錦全、宋曜廷、
蔡雅薰、周中天，2010; 鹿士義、余嘉元, 2003)，「Computer-assisted
language testing」電腦呈現語言測驗議題(余坤庭、陳劭茹、林宗璋、
周中天，2009)，「Computer-adaptive language testing」電腦化適性語
1

言測驗議題(洪豪哲、林孟君、劉育隆、郭伯臣，2010; Wang, Kuo, &
Chao, 2010) 「Web-based language testing」
，線上語言測驗議題(陳懷萱、
鄧智生，2003)。
但是上述的「電腦輔助語言測驗」研究中，卻沒有華語文電腦出
題。反觀英文電腦出題己有相當數量的研究，無論是英語系國家
(Mitkov & Ha, 2003)、日本(Goto, Kojiri, Watanabe, Iwata, & Yamada,
2010)、台灣(Liu, Wang, & Gao, 2005)等等，都有學者發表這一方面的
研究。
本研究也訪談具有十年以上研究華語文測驗經驗的專家，調查關
於華語文電腦出題的需求。截至本研究目前所調查的電腦出題相關研
究及訪談結果，尚未發現有研究是針對外籍人士的華語文測驗作電腦
「自動」出題，顯示華語文電腦出題還是一門新興的研究領域。
然而，會有這樣的結果，究其根本原因是因為英文是世界上研究
最多且研究歷史最悠久。但同樣的研究，在中文這樣的語言則是非常
不容易的。一來中文的文法研究起步較晚，二來早期的研究因為大量
移借西方文法理論，而西方的語法理論有絕大部份都是建立在西方語
言的研究發現上。因此，引進西方文法理論雖然能解決中文文法與西
方文法共同的部份，但對其中不同的部分則會因為不合適的語法分析
架構而無法使用(曹逢甫，2004)。而且華語文能力測驗是一門非常專
業的學問，不同的題型有不同的出題策略(柯華葳，2004)，研究電腦
出題更需謹慎。華語文電腦出題涵蓋的領域範圍如圖 1-1。

2

圖 1-1 華語文電腦出題領域的涵蓋

1.2 研究問題

在英文電腦出題研究中，英文詞彙語法(Multiple-choice cloze)
電腦出題已有相當廣泛的研究，有很多方法值得華語文詞彙語法之電
腦出題借鏡，然而用來篩選候選誘答選項的方法，因為語言特性的差
別，無法直接套用到華語文電腦出題上。詞彙語法測驗是以選擇題方
式呈現，而一題可用的選擇題必只有一最清楚之最佳答案(郭生玉，
2004)，若華語文詞彙語法電腦出題產生誘答選項後，卻不能判斷候
選誘答選項非最佳答案，則產生出來的題目也就不適用。故本研究問
題為：

「如何檢查華語文詞彙語法電腦出題產生的候選誘答選項非最佳答
案？」

1.3 研究目的

本研究目的為設計一方法來計算華語文詞彙語法之誘答選項的
正答力，然後藉由比較候選誘答選項正答力判斷是否比正確答案低，
來檢查該候選誘答選項非最佳答案，做為華語文電腦出題的基礎。本
研究參考計算語言學的 Markov chain、Katz Backoff 及 Maximum
3

Likelihood Estimation(Jurafsky & Martin, 2009) 來設計本研究
的方法，計算誘答選項的正答力。本研究以 Google 為語言模型的語
料來源，利用 Google 龐大的語料資源，提升計算結果的準確度。而
測詴本方法準確度是利用具有客觀公開可信度高的台灣 TOP-Huayu
、、
的詞彙語法題，共 100 題。

1.4 詞彙語法說明

克漏字 (cloze procedure)首先由 Taylor(1953)提出，是用來
估算文章可讀程度的工具。之後有研究者將「克漏字」用在測驗英語
母語學習者的閱讀能力；同時也有一批研究者應用在測量 ESL 的語言
能力，後來「克漏字」演變成多種題型。「華語文能力測驗」的「詞
彙語法」(Multiple-choice cloze)測驗(華語文能力測驗初等模擬詴
題，2003)就是其中一種，題型同「漢語水準考詴」HSK 的「語法結
構」第二部分及綜合填空第一部分(‬ 一套 HSK 模擬題，2005)。詞彙
第
語法測驗可以測出受詴者對中文詞彙及語法的熟練度及運用能力(張
莉萍，2002)，如圖 1-2。在新版的 TOCFL 改以「選詞填空」題型取
代「詞彙語法」。本研究參考華語文測驗專家所給予的建議，以台灣
TOP-Huayu 詞彙語法為設計本方法及測詴本方法準確度的標竿，做為
未來研究的基礎。

 弟弟做事很隨便，這麼重要的事給他做，我真的不能 ___ 。
1. 放心
2. 擔心
3. 關心
4. 小心

圖 1-2 詞彙語法題範例，其中選項 1 是正確答案，選項 2、3、4 是
誘答選項。
資料來源：華語文能力測驗初等模擬詴題(2003)

4

1.5 研究限制

本研究有以下限制：
1.本研究所使用的測詴題庫，由於地緣關係，使用臺灣 TOP-Huayu 華
語文能力測驗，所以測詴結果不能一般化到其它的華語文能力測驗，
例如 HSK。
2.本研究利用 Google 搜尋全球資訊網的語料取得 N-gram count 值，
，
由於全球資訊網的語料未經審核，當真正用在分析華語文詞彙語法
電腦出題之誘答選項的正答力時，可能會受到錯誤語法影響。
3.本研究的評估會因 Google 網頁搜尋的情況改變，利用本方法取得
Google 網頁搜尋結果時，從國內發出 Request 會和從國外發出
Request 所取得的結果數不同，另外 Google 搜尋結果也會隨著時
間而改變，所以不能保證本研究的評估結果 100%重現。
4.本研究使用的 Google 搜尋結果數為數據來源，而搜尋結果數是網
頁數，非精準的詞句數。
5.本研究僅針對 Maximum Likelihood Estimation、Katz backoff、
Bigram Markov Chain、5-gram Markov Chain 作研究，並只以中
研院平衡語料庫及 Google 為 N-grams count 值的來源，並不代表
其它的計算語言學方法不適合或沒有方法可以用來計算本研究中
的正答力。

5

2. 第二章相關研究

本章介紹和本研究間接相關的研究議題，作為本研究的參考，包
含電腦輔助英文詞彙語法出題、電腦出題設計原則、華語文教學與測
驗探討。

2.1 電腦輔助英文詞彙語法出題之探討

華語文電腦出題為剛起步的研究，相關文獻並不多，而華語文詞
彙語法之電腦出題研究也幾乎沒有，故本研究調查數篇和英文詞彙語
法題之電腦出題的研究，做為製作中文測驗之電腦出題的參考。
本研究整理數篇電腦輔助英文克漏詞多選題出題研究，並參考其
中篩選誘答選項的方法，如表 2-1。Goto et al.(2010)及 Sumita,
Sugaya, & Yamamoto(2005)將候選誘答選項和相鄰的二個詞一起放到
Google 中搜尋，若有結果表示該誘答選項不適用。Liu et al.(2005)
也是用一樣的方法，但是語料來源是本身系統內的語料庫，語料量較
少。Chen, Liou,& Chang(2006)利用文法規則來產生誘答選項，挑選
跟答案不同詞性的選項（例如：動詞、介詞），藉錯誤的詞性來確保
選項是錯誤的。

6

表 2-1 電腦輔助英文詞彙語法出題篩選誘答選項(a)方法一(b)方
法二
將候選誘答選項和相鄰的二個詞(或更多)放到
Google 中(Goto et al., 2010; Sumita et al., 2005)或
方法
一般語料庫(Liu et al., 2005)搜尋，若有結果，表
示該誘答選項不適用。
例子 This is the building what we had our first office.

what 是候選誘答選項（正答是 which）。用來搜
尋的字串可以是「building what we」，也可以是
解釋
「the building what we had」，但是嚴謹程度不一
樣，若有結果表示該誘答選項不適用。
(a) 方法一

產生不同詞性規則的誘答選項藉此確保誘答選項，
方法
是錯誤選項。(Chen et al., 2006)
Representative democracy seemed ______ simultaneously
during the eighteenth and nineteenth centuries in Britain,
Europe, and the United States.
例子 (A) to evolve
(B) to evolving
(C) evolving
(D) evolve

解釋 4 個選項的詞性都不同。

(b) 方法二

以華語文詞彙語法題的觀點來看，方法二較不適合用在本研究，
因華語文詞彙題的誘答選項通常是同一種詞性，且華語文是孤立語，
不像英文有字尾型態變化。另外，Bensoussan 和 Ramraz(1984)也表示
在設計誘答選項時，四個選項中最好都使用同一種詞性，例如全部是
動詞，避免提示效果，故方法二不適合直接用來計算及篩選本研究的
7

誘答選項。
本研究也是利用 Google 網頁搜尋為 N-gram count 值的來源，但
是所用的計算方法和「方法一」不同，由於上述學者的方法是應用在
英文詞彙語法出題，如果用在本研究的華語文詞彙語法出題上，會將
具有誘答力、易混肴的一些較好的誘答選項過濾掉，所以不適合用在
本研究上。
本研究另外參考計算語言學 Markov chain(Jurafsky & Martin,
2009)技術，計算誘答選項的正答力，確保候選誘答選項非最佳答案。

2.2 電腦出題設計原則

本研究在調查完電腦輔助英文克漏詞多選題出題(Chen et al.,
2006; Goto et al.,2010; Sumita et al.,2005)及其它電腦出題研
究(Yang, 2006)後，歸納出電腦出題可分為半自動的輔助出題和全自
動的自動出題，本研究融合這兩種觀念，提出電腦出題研究的原則。
輔助出題是電腦提供題目資訊來協助出題者，例如：電腦產生誘
答選項的清單，出題者自行決定可用的選項，但是輔助出題是把資料
傾倒出來，不確定是否有用，有可能會額外增加老師的負擔。自動出
題是由電腦決定，例如電腦直接產生它覺得可用的三個誘答選項，而
過程不需要出題者介入，出題者直接套用結果。
雖然看起來電腦自動出題是最佳的方式，但是實務上幾近不可能，
原因如下：
1. 測驗是一門很深的理論，有許多出題規則，包含明確及模糊的規
則，華語文能力測驗更是如此，所以很難將所有規則都具體且明
確化並套用到電腦程式裡。
2. 出題老師的出題規則往往是用直覺，而直覺裡才包含著經驗和知
識，所以很難將出題老師的出題規則具體且明確化。
3. 每位出題老師的出題規則都不同，例如：有的老師覺得誘答選項
要同一詞性；有的覺得要不同詞性。因此，不可能有一套自動出
8

題系統能滿足所有人的要求。所以，嚴格來說不可能實現真正符
合需求的電腦自動出題。
本研究認為電腦出題應以電腦自動出題為目標，但是以電腦輔助
出題的方式呈現。本研究建議使用推薦方式，能保有兩種出題方式的
優點。而本研究所提出的正答力計算方法，除了用來過濾電腦自動出
題的候選誘答選項外，也可以當作排序的依據呈現候選誘答選項，輔
助詴題研發人員選擇最適合的誘答選項。

2.3 華語文測驗與教學探討

3. 現今國際上重要的能力考詴皆致力於對應於 CEFR 能力架構
(Council of Europe,2001)，台灣所研發的華語文能力測驗也是依據
CEFR 指標，同時也對應了 CEFR 的級數到台灣師範大學語言中心的教
材。張莉萍、陳鳳儀(2008)提出台灣華語文能力測驗的分級方式，分
級依據學生來參加考詴的前一個星期所上的教材落點為劃分標準，其
劃分方式本研究整理如下：

1.基礎級(TOP-beginner)：
 在台灣師範大學語言中心學習 150 小時以上的學生。
 等於 CEFR 所描述的 A2 語言能力。
 能了解大部分與切身相關的句子及常用詞彙，例如：非常基本之
個人及家族資訊、購物、當地地理環境、工作狀況等。針對熟悉、
單純、例行性的任務，能以簡單、直接地溝通方式交換訊息。能
簡單地敘述出個人背景、週遭環境及立即需求。

2.進階級(TOP-learner)
 讀完新版實用視聽華語系列教材一-四冊（約 530 個學時）
。
 等於 CEFR 所描述的 B1 語言能力。
 針對一般職場、學校、休閒等場合，常遇到的熟悉事物時，在接
9

收到標準且清晰的信息後，能瞭解其重點。在目標語言地區旅遊
時，能應付大部分可能會出現的一般狀況。針對熟悉及私人感興
趣之主題能簡單地撰稿。能敘述經驗、事件、夢想、希望及志向，
對看法及計畫能簡短地解釋理由及做出說明。

3.高階級(Top-superior)
 讀完新版實用視聽華語系列教材四冊後，再讀完遠東生活華語三
第八單元的學生（約 610 學時）
，
 能通過百分之六十七 CEFR B2 等級的題目。
 針對具體及抽象主題的複雜文字，能瞭解其重點，主題涵蓋個人
專業領域的技術討論。能即時地以母語作互動，有一定的流暢度
且不會讓任一方感到緊張。能針對相當多的主題撰寫出一份完整
詳細的文章，並可針對所提各議題重點做出優缺點說明。

上述教材當初並非依據 CEFR 能力指標，規劃完整系列。而是針
對教材內容、主題做了對應，例如，有的教材雖然屬於 B2 教材，但
不代表學生學完這本教材即具有 B2 能力，因為該本教材可能只具備
部分 B2 能力，或說學生要具備 B2 能力原本就不會只讀一本教材。現
階段華語文能力測驗關心的是如何幫助學生有效地從 B1 跨越到 B2，
並選擇適當的教材或課程規劃。

10

3. 第三章研究工具

本章介紹本研究基礎的三項工具，由於此三項工具使得本研究的
方法得以實現。本章將介紹中研院斷詞系統、Google 網頁搜尋、
TOP-Huayu 詞彙語法。

3.1 中研院斷詞系統

要進行華語文語句分析，必須將語句斷詞後，才能處理。本研究
利用中央研究院中文資訊處理實驗室詞庫小組所發展的中文斷詞系
統 http://ckipsvr.iis.sinica.edu.tw/，將句子斷成數個詞，並重新組成
N-grams。
在偵測未知詞的部份是利用基於語料庫的方法找出句法規則，再
利用此規則來分辨單音節元素，然後找出未知詞或錯誤用法(Chen &

Bai,1998)。斷詞後的範例:

這(Nep) 是(SHI) 一(Neu) 家(Nf) 擁有(VJ) 五百(Neu) 名(Nf) 員工(Na) 的
(DE) 中型(A) 企業(Na) 。(PERIODCATEGORY)

利用 Hong Kong Cityu(HK)的 closedtrack 及 open track、
Beijing University (PK)的 closedtrack 及 open track，共 4 種，
評估此斷詞系統，結果具有相當高的 F scores(Ma & Chen,2003)。
如表 3-1 及表 3-2 其中英文字母代表依序為 test recall (R) test
。，、
precision (P)、F score(F)、the out-of-vocabulary (OOV) rate for
the test corpus、the recall on OOV words(Roov)及 the recall on
in-vocabulary(Riv) words。

11

表 3-1 Scores for HK
R P F OOV Roov Riv
Closed 0.947 0.934 0.940 0.071 0.625 0.972
Open 0.958 0.954 0.956 0.071 0.788 0.971
資料來源： Ma & Chen(2003)

表 3-2 Scores for PK
R P F OOV Roov Riv
Closed 0.939 0.934 0.936 0.069 0.642 0.961
Open 0.939 0.938 0.938 0.069 0.675 0.959
資料來源： Ma & Chen(2003)

圖 3-1 中研院中文斷詞系統網站
資料來源：中文斷詞系統 http://ckipsvr.iis.sinica.edu.tw/

12

中研院中文斷詞系統已經廣泛的被各種領域的學者所使用。例如，
陳慶龍(2007)利用此斷詞系統製作中文體育知識問答系統。Huang、
Chiu Chuan Sandnes(2010)製作一個可以診斷憂鬱症的語言分析器
、、，
其中利用中研院中文斷詞系統來擷取關鍵字。

3.2 Google 網頁搜尋

1995 年 Google 的創辦人美國史丹福大學的研究生 Larry Page
以及 Sergey Brin 憑藉其資訊工程的專長，開發名為 BackRub 的搜尋
引擎，後來正式更名為 Google。其任務在於組織全世界的資訊，讓
全球都能使用並有所禆益！可說是目前全球最大的搜尋引撆，現代人
幾乎只要提到資料搜索都絕對離不開 Google 搜尋。正因為它可以在
短時間內找到相當豐富的資料，查詢所得的結果遠多於其他搜尋網站，
因此已經成為許多人不可或缺的工具(童國倫、潘奕萍, 2009)。故本
研究以 Google 為 N-gram count 值的來源，分析選項正答力。
GOOGLE 支援多達一百三十二種語言包括簡體中文和繁體中文，
，
並有「頁庫存檔」功能，即使網頁檔案被刪除，仍然可以查詢到資料。
而且可以搜尋的資料類型至少包括以下幾種格式：
Adobe Portable Document Format (pdf)
Adobe PostScript (ps)
Lotus 1-2-3 (wk1, wk2, wk3, wk4, wk5, wki, wks, wku)
Lotus WordPro (lwp)
MacWrite (mw)
Microsoft Excel (xls)
Microsoft PowerPoint (ppt)
Microsoft Word (doc)
Microsoft Works (wks, wps, wdb)
Microsoft Write (wri)
Rich Text Format (rtf)
Shockwave Flash (swf)
Text (ans, txt)
HyperText Markup Language (html)

13

Google 目前已被廣泛應用在各種自然語言處理研究中，例如
Figueroa、Neumann 與 Atkinson (2009)利用 Google 來擷取知識，作
出基於 Surface Patterns 的定義型問題問答系統。Cai、Cui、Miao、
Zhao 與 Ren(2004)利用 Google Web APIs 作出中文自動問答系統。
Kilgarriff(2007)描述了使用 Google 這類官方搜尋引擎時會有
的幾個議題，本研究整理列出，並解釋和本研究的關係：
1.官方搜尋引擎不考慮 Lemmatize(如英文同詞幹不同詞性的字)及
Part-Of-Speech tag，但是中文沒有 Lemmatize 的問題，而本研究
設計的方法不使用 Part-Of-Speech tag。
2.官方搜尋引擎的搜尋語法有限，例如有無提供「萬用字元」及模糊
算子，本研究只使用 Google 的雙引號「"」Query 功能，表示嚴格
限定只找包含完整 Query 字串的網頁。
3.官方搜尋引擎有 Query 數限制，在固定時間內使用者只能發出有限
的 Query，而本研究以延長搜尋間隔時間來解決。
4.官方搜尋引擎的搜尋結果數是網頁數，而非詞句數。由於無法下載
所有 hit pages 的內容，精準統計語句次數，故本研究利用網頁數
做為數據來源，此為本研究的限制。
5.搜尋結果數中可能有重覆的資料，例如不同網址有同樣文件內容，
此問題雖然會影響結果，但是本研究所設計的方法主要是利用最長
可得結果字串的長度為評分依據，而搜尋結果數只影響分數中的小
數部份，對本研究只佔了小部份的影響。

3.3 TOP-Huayu 詞彙語法

臺灣華語文能力測驗的前身是 2003 年國立臺灣師範大學國語教
學中心、華語文教學研究所與心理教育測驗中心三個團隊所共同研發
的「華語文能力測驗」(Chinese Proﬁciency Test, CPT)。2005 年
11 月教育部提升這個測驗為國家級的測驗，並改為 TOP-Huayu(張莉
萍, 2007)，2010 年再改版為 TOCFL。到 2010 年 11 月份為止，臺灣
14

華語文能力測驗的到考人數已達到 11,527 人，成功取得證書人數更
有 6,080 人(國家華語測驗推動工作委員會,2009)，如表 3-3，表示
此測驗在國際上已具有相當的知名度。

表 3-3 臺灣華語文能力測驗 2003 年 12 月到 2010 年 11 月份累計各
等級到考及獲證人數分佈(基礎測驗從 2007 年 11 月開始)
獲得證書
到考人數通過率(%)
人數
基礎測驗 1729 1324 76.62
初等測驗 3572 1620 45.43
中等測驗 4184 1719 41.14
高等測驗 2042 1345 65.87
資料來源：國家華語測驗推動工作委員會(2009)

由於地緣關係，本研究使用台灣華語文能力測驗，且由於新版的
TOCFL「選詞填空」的形式較 TOP-Huayu 詞彙語法複雜，本研究參考
專家的建議後，以台灣 TOP-Huayu 詞彙語法為製作系統及分析準確度
的標竿，並做為未來研究的基礎。洪小雯（2009）表示「詞彙語法」
的題型儘管較為傳統，但其著重測詴語言知識的考量不宜偏廢，畢竟
在外語的學習過程中，語言知識是決定語言能力的基礎。
TOP-Huayu 的詞彙分級方法參考自張莉萍、陳鳳儀（2006）所訂
定的規則，詞彙來源主要參考自台灣師大華語文能力測驗詞彙分級表
張莉萍（2002）(以下簡稱 CPT 詞彙表)、漢語水平詞彙等級大綱（國
家對外漢語教學領導小組辦公室漢語水平考詴部，1992）(以下簡稱
HSK 詞彙表)，CPT 和 HSK 的詞彙交集分佈如表 3-4。
在華語文能力測驗與歐洲共同架構 CEFR 的對應關係方面，藍珮
君（2007）研究基礎華語文能力測驗與 CEFR 對應程度，發現測驗等
級介於 CEFR A1 與 A2 之間，屬於初級使用者的程度，表示該測驗可

15

適當的測出受詴者的能力。

表 3-4 CPT vs. HSK 等級詞彙的交集
HSK ∩ CPT CPT 詞彙表（10,155 個）
初(1,507) 中(3,684) 高(4,964)
HSK 詞彙表甲(1027) 683 231 17
(8,767 個) 乙(2003) 330 805 265
丙(2188) 141 486 474
丁(3569) 54 406 632
資料來源：張莉萍、陳鳳儀(2006)

16

4. 第四章正答力計算方法

本研究提出一個篩選詞彙語法電腦出題的候選誘答選項的方法，
在不斷的測詴與改進，基於 Markov Chain 及 Katz Backoff 的概念，
並且使用 Google 做為 N-gram count 值的來源，設計了一個方法來計
算詞彙語法題之候選誘答選項的正答力計算正答力的概念如圖 4-1
，。
先計算正確答案正答力，如圖 4-2，然後計算每個候選誘答選項正答
力，如圖 4-3，使能和正確答案的正答力比較。

圖 4-1 計算詞彙語法候選誘答選項正答力概念圖

圖 4-2 計算正確答案正答力範例

17

圖 4-3 計算並比較正確答案和誘答選項正答力的範例

在實際應用時，若該候選誘答選項的正答力大於正確答案，表示
該選項為最佳答案，則選項不適用，如圖 4-3，將其過慮掉。本章包
含計算正答力之前及之後需處理的「前後置處理」
，完成本方法之前
所參考的「其它計算正答力方法」
，然後是本研究最後呈現的「基於
全球資訊網的正答力計算方法」
，最後是新舊方法的「方法比較」。

4.1 前後置處理

圖 4-4 為本方法前後置處理的流程圖，虛線圍起來的部份是本研
究的核心方法，本節介紹前後置處理，包含計算正答力的前置及後續
處理工作。

18

圖 4-4 前後置處理流程圖

如圖 4-4，「輸入題幹及選項」，輸入一題詞彙語法題的題幹及 4
個選項，此部份可視為華語文詞彙語法電腦出題系統產生候選誘答選
項後，將選項輸入該系統以計算該選項的正答力。如下題幹及選項
，(A)是標準答案：

我國天然 ___ 不多，礦產種類只有煤和石油。

(A)資源

(B)材料

(C)產品

(D)原料

「將題幹及選項組成句子」，將選項和題幹組成一個完整的句子，4
個選項則產生 4 個句子。如下範例：

19

我國天然資源不多，礦產種類只有煤和石油。

我國天然材料不多，礦產種類只有煤和石油。

我國天然產品不多，礦產種類只有煤和石油。

我國天然原料不多，礦產種類只有煤和石油。

「斷詞」
，將每個句子經由 Internet 送到中研院斷詞系統進行斷詞，
方便後續分析正答力。如下範例，句子斷詞後的結果，
「/」表分隔：

我國 / 天然 / 資源 / 不 / 多 / ， / 礦產 / 種類 / 只有 / 煤 / 和 / 石油 / 。
我國 / 天然 / 材料 / 不 / 多 / ， / 礦產 / 種類 / 只有 / 煤 / 和 / 石油 / 。
我國 / 天然 / 產品 / 不 / 多 / ， / 礦產 / 種類 / 只有 / 煤 / 和 / 石油 / 。
我國 / 天然 / 原料 / 不 / 多 / ， / 礦產 / 種類 / 只有 / 煤 / 和 / 石油 / 。

「計算正答力」，此模組負責計算每個選項的正答力，為本研究
的核心部份，計算方法將在下一節詳細介紹。

「呈現正答力」，輸出該選項的正答力分數，結果供電腦出題系
統判斷候選誘答選項非最佳答案，或直接供詴題研發人員參考，如下
範例:
「資源」選項的正答力=17.581062
「材料」選項的正答力=5.614006
「產品」選項的正答力=7.181650
「原料」選項的正答力=5.623282

本系統計算出來的是相對正答力，不能比較不同題目的相同誘答選項
正答力。

4.2 其它計算正答力的方法

為了找出最適合的計算候選誘答選項正答力方法，本研究參考了
20

三個計算語言學的方法。本節將列出此三種方法，及分析它們在計算
本研究正答力時有什麼不足的地方，然後在下一節描述本研究最終修
改完成的方法。
首先定義W m 及Wx ， 𝑎, 𝑚, 𝑥 ∈ ℕ W m 代表一個詞句 Wx 代表W m 中
𝑎 ， 𝑎 ， 𝑎

的一個詞，𝑊𝑥 的長短以中研院的斷詞系統的斷詞結果為準。以下範
例：

18
W1 =”弟弟做事很隨便，這麼重要的事給他做，我真的不能放心。”
W1 =”弟弟”,W2 =”做”,W3 =”事”,W4 =”很”,W5 =”隨便”,W6 =”，”,
W7 =”這麼”, W8 =”重要”,W9 =”的”,W10 =”事”,W11 =”給他”,
W12 =”做”,W13 =”，”,W14 =”我”,W15 =”真的”,W16 =”不能”,
W17 =”放心”,W18 =”。”

其中W17 為答案選項

4.2.1 Bigram Markov Chain 方法

「Bigram Markov Chain 方法」是以 Bigram 的 Markov
Chain(Jurafsky & Martin, 2009)，如式 4-1，可以用來計算句子正
確機率的方法：
𝑛

𝑃(W1 W2 W3 W4 … Wn ) = 𝑃(W1 ) ∏ P(Wk | Wk;1 )
𝑘<2

(4-1)

這個方法用在計算誘答選項的正答力時，先將題幹及選項組成句
子，藉著計算句子的機率，來取得選項的正答力，然後比較誘答選項
正答力是否比正確選項低，藉此檢查誘答選項非最佳答案。如式 4-2
及式 4-3 的方式計算。定義：
a n
Wa:1 ：答案選項，Y：誘答選項，W1 及Wａ:2 ：題幹，𝑛 > ａ > 1

21

答案選項的機率：
𝑃(W1 W2 … Wa Wa:1 Wa:2 … Wn )
𝑛 𝑛

= 𝑃(W1 ) (∏ P(Wk | Wk;1 )) P(Wa:1 | Wa )P(Wa:2 | Wa:1 ) ( ∏ P(Wk | Wk;1 ))
𝑘<2 𝑘<ａ:3

(4-2)

誘答選項的機率：
𝑃(W1 W2 … Wa Y Wa:2 … Wn )
𝑛 𝑛

= 𝑃(W1 ) (∏ P(Wk | Wk;1 )) P(Y | Wa )P(Wa:2 | Y) ( ∏ P(Wk | Wk;1 ))
𝑘<2 𝑘<ａ:3

(4-3)

測詴本方法時所用的 Language Model 取自中研院漢語平衡語料
庫 4.0 版一千萬標記目詞，N-grams 架構表如表 4-1。

表 4-1 「Bigram Markov Chain 方法」的 Language Model N-grams
架構表
N-grams Entry
Unigram 278,719
Bigram 3,195,130

然而這種方法計算出來的正答力，準確度不高。究其原因，可以
從式 4-4 的簡化結果發現。

式4−2 𝑃(W1 W2 … Wa Wa:1 Wa:2 … Wn ) P(Wa:1 | Wa )P(Wa:2 | Wa:1 )
= =
式4−3 𝑃(W1 W2 … Wa Y Wa:2 … Wn ) P(Y | Wa )P(Wa:2 | Y)

(4-4)
22

當我們用「Bigram Markov Chain 方法」的計算結果來比較兩個
選項的正答力高低，可以簡化成比較兩個選項及前後一個搭配詞，例
如句子是：
「王老闆，我上個星期訂的書來了沒有？」

「王老闆，我上個星期約的書來了沒有？」

則「Bigram Markov Chain 方法」只分析如下列的範圍：

“星期訂的”
“星期約的”

比較上述 4 個字的詞句的正答力跟比較完整句子的正答力是一樣的。
所以 Bigram 的 Markov Chain 計算結果，真正影響正答力的因素只有
前後二個搭配詞，計算出來的結果當然不準確。以本研究的評估方法
測詴後，只答對 54 題，其正確率只有 54%。

4.2.2 5-gram Markov Chain 方法

「5-gram Markov Chain 方法」是為了要擴大影響正答力的上下
文範圍，以 5-gram 的 Markov Chain 方法（最長只處理到 5-gram 可
以達到較佳的效能與運算成本比）(Goodman, 2001)，如式 4-5：
4 𝑛
k;1 k;1
𝑃(W1 W2 W3 W4 … Wn ) = 𝑃(W1 ) ∏ P(Wk | W1 ) ∏ P(Wk | Wk;4 )
𝑘<2 𝑘<5

(4-5)

以式 4-5 計算句子的機率，也就是答案或誘答選項放入句子後所計算
出的正答力，本方法的 Language Model 也是取自中研院漢語平衡語
料庫 4.0 版一千萬標記目詞，N-grams 的架構如表 4-2。

23

表 4-2 「5-gram Markov Chain 方法」的 Language Model N-grams
架構表
N-grams Entry
Unigram 278,719
Bigram 3,195,130
Trigram 3,154,812
4-gram 3,268,636
5-gram 2,774,126

如式 4-6 的簡化結果可以發現，影響正答力的上下文範圍確實有
變大，而每個 Conditional probability 是用 Maximum Likelihood
Estimation（MLE）的方法來計算，如式 4-7。由於不是每個詞句在
5-gram 中都找得到，另外需搭配式 4-8 的 Katz Backoff 演算法，將
5-gram 中找不到的詞句，改用 4-gram、trigram 或 bigram，再找一
次。

𝑃(W1 W2 … Wa Wa:1 Wa:2 … Wn )
𝑃(W1 W2 … Wa Y Wa:2 … Wn )
a a:1 a:4
P(Wa:1 | Wa;3 )P(Wa:2 | Wa;2 ) … P(Wa:5 | Wa:1 )
= a a a:4
P(Y | Wa;3 )P(Wa:2 | Wa;2 Y) … P(Wa:5 | Y Wa:2 )
(4-6)

k
k;1
C(Wk;N:1 )
P(Wk | Wk;N:1 ) = k;1
C(Wk;N:1 )
(4-7)

k;1 k
k;1 P(Wk | Wk;N:1 ), if C(Wk;N:1 ) > 0
P 𝑘𝑎𝑡𝑧 (Wk | Wk;N:1 ) ={ k;1 k;1
α(Wk;N:1 )P 𝑘𝑎𝑡𝑧 (Wk | Wk;N:2 ), otherwise
(4-8)
24

但是「5-gram Markov Chain 方法」有一個基本的條件，就是語
料庫要夠大才能作 5-gram 計算，否則很多包含正確答案的詞句在
5-gram 中找不到，結果還是會用到 bigram，情況就回到「Bigram
Markov Chain 方法」了(Hsu & Yang, 2011)。因為包含正確答案的
5-gram 詞句是正確的語言，必須在語料庫裡出現過，
「5-gram Markov
Chain 方法」才能正確的判斷選項正答力。所以這個方法需要夠大的
語料庫，計算結果才會準確。

4.2.3 以全球資訊網為語料來源方法

為了解決語料不足的問題，利用 Google 及全球資訊網來分析詞
句(Goto et al., 2010; Sumita et al., 2005)，將所有 5-gram、4-gram、
trigram bigram 的字串利用 Google 查詢並將搜尋結果數當成 Count
、，
值，解決語料不足的問題，計算正答力的準確度就能提高。
但是這個方法也不適合直接用在本研究，這個問題來自 MLE 及
Katz Backoff 演算法。由於從 Google 搜尋回來的 count 值，不同的
k;1
字串結果之間差距可能會極大，會發生如式 4-7 的分母C(Wk;N:1 )太
k
大，分子C(Wk;N:1 )太小（C(W)表 W 的 count 值），使正答力過低，
導致結果不佳。
以下例題說明這個問題，題幹是：
「這雙鞋看起來很適合你，你可以___。」

答案是：

「穿穿看」

誘答選項是：

「試試看穿」

25

答案和前後文的組合：
「你，你可以穿穿看」

在 Google 中可以搜尋到結果（結果數> 0）：

C("你，你可以穿穿看")=4
C("你，你可以")=385,000,000
P（"穿穿看"｜"你，你可以"）=10;7.9834

誘答選項和前後文的組合：
「你，你可以試試看穿」

在 Google 中可以搜尋到結果（結果數> 0），但是只有 4-gram，比答
案的字串少一個詞依 Backoff 的方法必需乘上一α 使機率降低：
，，，
C("你，你可以試試看穿")=0
C("，你可以試試看穿")=7100
C("，你可以")=650,000,000
αP（"試試看穿"｜"，你可以"）=α10;4.9616

上述的範例可以發現，答案的正答力10;7.9834 ≪ 10;4.9616 ，因
為分母的 count 值比分子大太多了。針對上述的例題，必須設定α
≤ 10;3.03，才能使正確選項的正答力大於誘答選項，結果才會正確，
但是我們無法知道α必須設定到多小才能使所有結果都正確。而且
10;3.03 是一個非常小的α值，太小的權重α也會嚴重影響到其他選項
的正答力計算結果。

為避免上述的問題，本研究重新設計一計算「華語文能力測驗之
詞彙語法題」選項正答力的方法，此方法基於 Markov Chain 及 Katz
Backoff 的概念，擴大 N-grams 的範圍，利用 Google 的搜尋結果數
作為 N-grams 的 count 值，除去α值設定問題，完成本研究的方法。

26

4.3 基於全球資訊網的正答力計算方法

本節介紹本研究方法的核心「計算正答力」
，如圖 4-5。當前置
作業都完成後，句子被輸入到本模組，以本方法計算正答力。

圖 4-5 基於全球資訊網的正答力計算模組

4.3.1 概念

本方法的概念可以如下的方式表示，本方法將句子(由題幹和選
項組成)輸入 Google 搜尋，但並非整句一次輸入。輸入方式以回合來
分批輸入，前 4 個回合如表 4-3(a)所示(本論文所列輸入 Google 搜
尋的字串，實際使用時中間沒有空格，空格為供讀者分辨 N-grams 長
度)，一次輸入一小段片段，取得 count 值，然後逐漸加長字串，如
同 Markov Chain 的概念。
第 5 個回合情況較前 4 個不同，比較複雜一點，如表 4-3(b)所
示，用到 Katz Backoff 的觀念，由於字串 "我國天然資源不多，礦
產" 輸入 Google 後沒有結果(像這樣較長的詞句較難得到結果)，所

以從第一個詞開始刪除，最後剩下 "資源不多，礦產" 字串，可以
得到 Google Search Result(GSR)是 5，所以 "資源不多，礦產" 為
該回合字串。
27

第 6 個回合之後，如表 4-3(c)，字串 "資源不多，礦產" 後面
再加詞，GSR 皆為 0，故停止搜尋，如此得到計算過程所需的字串及
Count 值。

表 4-3 計算過程(a)1～4 回合(b)5 回合(c)6 回合
Google
回合 Query 字串 Search
Result
1 我國天然資源 7290
2 我國天然資源不 1230
3 我國天然資源不多 9
4 我國天然資源不多， 9

(a) 1～4 回合

Google
Result
5 我國天然資源不多，礦產 0
5 天然資源不多，礦產 0
5 資源不多，礦產 5

(b) 5 回合

Google
Result
6 資源不多，礦產種類 0

(c) 6 回合

每個選項都會經過上述的方法將包含該選項的句子輸入到 Google，
，
28

搜尋最長可得結果字串。若不同選項的字串分析結果，其中有相同的
字串(字及長度都一樣，只選項不同) ，如表 4-4 所示。

表 4-4 相同字串比較表
Google
Query 字串 Search
Result
“我國天然資源”
7290
“我國天然材料”
10
“我國天然產品”
6
“我國天然原料”
5240

若有相同長度字串，則加入一調整值，使正答力計算結果如表 4-5 所
示，

表 4-5 部份正答力 F 計算結果比較表
部份正答力 F 正答力分數
F(“我國天然資源”)
1.5810617
F(“我國天然材料”)
1.0007971
F(“我國天然產品”)
1.0004782
F(“我國天然原料”)
1.417663

表 4-5 中，分數的個位數部份由 N-grams 長度決定，越長越高分，小
數的部份是調整值，依 GSR 決定，為使相同長度的字串正答力能分出
高低但又不至於嚴重影響整個正答力計算結果(考慮本論文於 4.2.3
，
節的描述及 3.2 節描述 Kilgarriff(2007)所提缺點)，小數部份的計
算方法如下：
調整值 = 該字串的 GSR 值 / 相同字串的 GSR 總和
29

例如“我國天然資源”的調整值是：

7290 / (7290+10+6+5240) = 0.5810617

所以
F(“我國天然資源”)= 1.5810617。

最後將所有部分正答力 F 加起來就可以得到選項正答力，相似於
Markov Chain 的觀念，即可得到正答力，如以下範例：

「資源」選項的正答力=F(“我國天然資源”)+F(“我國天然資源不”)

+F(“我國天然資源不多”)+F(“我國天然資源不多，”)
+F(“我國天然資源不多，礦產”)+F(“我國天然資源不多，礦產種類”)
+F(“我國天然資源不多，礦產種類只有”)
+F(“我國天然資源不多，礦產種類只有煤”)
+F(“我國天然資源不多，礦產種類只有煤和”)
+F(“我國天然資源不多，礦產種類只有煤和石油”)
+F(“我國天然資源不多，礦產種類只有煤和石油。”)
=1.5810617+3+4+5+4+0+0+0+0+0+0= 17.581062

4.3.2 計算方法

5. 本研究所設計的計算方法如下：
6.
定義𝐺𝑜𝑜𝑔𝑙𝑒(𝑊𝑎 𝑚 )

m m
C(Wa ), if (C(Wa ) > 𝑡 and a < (k − 1) and m = k)
m
or (C(Wa ) > 𝑡 and a < 𝑘 𝑎𝑛𝑑 𝑚 > 𝑘)
m m m
Google(Wa ) = Google(Wa:1 ), if (C(Wa ) = t and a < (k − 1) and m = k)
m
or (C(Wa ) = t and a < 𝑘 𝑎𝑛𝑑 𝑚 > 𝑘)
{ 0, otherwise
(4-9)
𝑎, 𝑘, 𝑚 ∈ ℕ
k＝「選項」所在位置，t=0
30

m m
C(Wa )代表以 Google 搜尋詞句Wa 後，傳回的搜尋結果數量
m m
C(Wa )。Wa 之間的標點符號會被 Google 省略，例如「，」或「。」
。
送至 Google 搜尋的字串前後加雙引號「”」
，表示不可分割。式 4-9
的 t 是一 threshold value 實際使用時可以改成 t=1 代表從 Google
，，
搜尋到的結果數為 2 以上才接受，藉此過濾掉只出現 1 次的詞句，因
為它有可能是不常用或不合法的詞句。本研究設定 t=0，使評估時可
m
以取得較多的搜尋結果。以下是Google(Wa )範例：

7
W1 =”我國天然資源不多，礦產”
7
W2 =”天然資源不多，礦產”
7
W3 =”資源不多，礦產”
7 7
C(W1 )= C(W2 )= 0
7 7 7 7
Google(W1 ) =Google(W2 )=Google(W3 )= C(W3 )=5

7 7 7
因為W1 字串在 Google 中的搜尋結果數 C(W1 )=0，所以重新用W2 字
7 7 7
串搜尋但是W2 字串的搜尋結果數 C(W2 )=0 所以再用W3 字串搜尋，
，，
7
得到搜尋結果數C(W3 )=5。

定義𝑙𝑒𝑛𝑔𝑡ℎ(𝑊𝑎 𝑚 )

m
m − a + 1, if (C(Wa ) > 𝑡 and a < (k − 1) and m = k)
m
or (C(Wa ) > 𝑡 and a < 𝑘 𝑎𝑛𝑑 𝑚 > 𝑘)
m m m
length(Wa ) = length(Wa:1 ), if (C(Wa ) = t and a < (k − 1) and m = k)
m
or (C(Wa ) = t and a < 𝑘 𝑎𝑛𝑑 𝑚 > 𝑘)
{ 0, otherwise
(4-10)
ａ, 𝑘, 𝑚 ∈ ℕ
k＝「選項」所在位置，t=0

m m
length(Wa )代表最後從google找到C(Wa )時，根據它所用的
m m
最長可得結果字串Wa ，找出字串的 N-grams 長度，而length(Wa )即
代表此長度。t 是一 threshold value，可以改成 t=1，代表從 Google
31

m
搜尋到的結果數C(Wa )為 2 以上才接受，藉此過濾掉只出現 1 次的詞
句，因為它有可能是不常用或不合法的詞句。本研究設定 t=0，使評
估時可以取得較多的搜尋結果。
m
以下是length(Wa )範例：

9
W1 =“王老闆，我上個星期訂的”
9
W2 =“老闆，我上個星期訂的”
9 9
C(W1 )=0, C(W2 )= 3
9 9
length (W1 ) = length (W2 ) =8

9 9 9
因為W1 字串在 Google 中的搜尋結果數 C(W1 )=0，所以重新用W2 字
9 9
串搜尋，得到搜尋結果數C(W2 )=3，故 length (W2 ) =9-2+1=8。

定義𝑆𝑐𝑜𝑟𝑒(𝑥)

x − 1, if x > 1
Score(x) = { (4-11)
0, if x ≤ 1

m
Score(x)是計算分數的函數依 x=length(W1 )來決定該字串的分
，
數，x 越大則分數越高，藉此分數來計算正答力。

定義 Tm,L

Tm,L = ∑ google (Wj m ) , j = {x ∈ 選項編號集合|length(Wx1 ) = L}
m
1
j

(4-12)

32

以下範例，題目如下，(A)是標準答案：
我國天然 ___ 不多，礦產種類只有煤和石油。

(A)資源

(B)材料

(C)產品

(D)原料

斷詞結果為：
我國天然資源不多，礦產種類只有煤和石油。

以下範例當 m=3 時以下 4 個選項在長度 3 的情況都搜尋得到結果：
，，
3 3 3
W11 =“我國天然資源”, google(W11 )= C(W11 )= 7290

3 3 3
W21 =“我國天然材料”, google(W21 )= C(W21 ) =10

3 3 3
W31 =“我國天然產品”, google(W31 )= C(W31 )= 6

3 3 3
W41 =“我國天然原料”, google(W41 )= C(W41 )= 5240

則T3,3 =7290+10+6+5240＝12546

定義 Adjust(𝑊𝑎 𝑚 )

m m
Adjust(Wa ) = google(Wa )/Tm ,length(Wm )
a
(4-13)

m
Adjust(Wa )是一調整值，它使 Google 搜尋結果數對正答力產
m
生些微影響，使不同選項同length(Wa )的正答力分出高低。以下範
例：
3 3
W11 的正答力調整值＝Adjust(W11 )＝Adjust(“我國天然資源”)
3 3
＝google(W11 )/T3 ,length(W1 3 ) = google(W11 )/T3 ,3 =7290/ 12546
1

= 0.5810617
33

3 3
W21 的正答力調整值＝Adjust(W21 )＝Adjust(“我國天然材料”)
3 3
＝google(W21 )/T3 ,length(W23 ) = google(W21 )/T3 ,3= 6/ 12546
1

= 0.00047824

3 3
W31 的正答力調整值＝Adjust(W31 )＝Adjust(“我國天然產品”)
3 3
＝google(W31 )/T3 ,length(W33 )=google(W31 )/T3 ,3=6/ 12546
1

=0.0004782

3 3
W41 的正答力調整值＝Adjust(W41 )＝Adjust(“我國天然原料”)
3 3
＝google(W41 )/T3 ,length(W43 )=google(W41 )/T3 ,3=5240/ 12546
1

=0.417663

m m
如果沒有一樣的length(Wa )，則 Adjust(Wa )=1。

定義部份正答力 𝐹(𝑊1 𝑚 )

m m m
F(W1 ) = Score(length(W1 )) − 1 + Adjust(W1 ) (4-14)

m
首先Score(length(W1 ))以字串長度來計分，
m
「−1 + Adjust(W1 )」是一個調整值，此部份是因為當不同選項有相
同結果長度時它們的分數也會一樣此時就需要調整值來調整大小
，，，
使「結果數」較大的選項，分數能提高。以下範例：

3
F(W11 ) = F(“我國天然資源”)

3 3
= Score (length(W11 )) − 1 + Adjust(W11 )

=2-1+0.5810617=1.5810617

34

3
F(W21 ) = F(“我國天然材料”)

3 3

=2-1+0.00047824=1. 00047824

3
F(W31 ) = F(“我國天然產品”)

3 3

=2-1+0.0004782=1.0004782

3
F(W41 ) = F(“我國天然原料”)

3 3

=2-1+0.417663=1. 417663

選項正答力

𝑛

選項正答力 = ∑ 𝐹(𝑊0𝑖 )
𝑖<𝑘

(4-15)
k=「選項」所在位置
n=句子最後一個詞的位置

利用本研究方法，即可計算出包含該選項的句子的分數，也就是
該選項的正答力。以下範例：
「資源」選項的正答力=F(“我國天然資源”)+F(“我國天然資源不”)

+F(“我國天然資源不多”)+F(“我國天然資源不多，”)
+F(“我國天然資源不多，礦產”)+F(“我國天然資源不多，礦產種類”)
+F(“我國天然資源不多，礦產種類只有”)
+F(“我國天然資源不多，礦產種類只有煤”)
+F(“我國天然資源不多，礦產種類只有煤和”)

35

+F(“我國天然資源不多，礦產種類只有煤和石油”)
+F(“我國天然資源不多，礦產種類只有煤和石油。”)
=1.5810617+3+4+5+4+0+0+0+0+0+0= 17.581062

「產品」選項的正答力= F(“我國天然產品”)+F(“我國天然產品不”)

+F(“我國天然產品不多”)+F(“我國天然產品不多，”)
+F(“我國天然產品不多，礦產”)+F(“我國天然產品不多，礦產種類”)
+F(“我國天然產品不多，礦產種類只有”)
+F(“我國天然產品不多，礦產種類只有煤”)
+F(“我國天然產品不多，礦產種類只有煤和”)
+F(“我國天然產品不多，礦產種類只有煤和石油”)
+F(“我國天然產品不多，礦產種類只有煤和石油。”)
=1.0004782+1.2266667+1.1932658+2.1932764+0+0+0+0+0+0+0=7.18165

4.4 方法比較

將 4.3 節所設計的新方法和 4.2 節舊有的方法相比，本研究作了
以下的修改：
1. 本研究使用不限長度的 N-grams，將整個字串直接輸入 Google
搜尋，取得 count 值，不侷限在 Bigram 或 5-gram，例如"王老
闆，我上個星期訂"是一個 8-gram 的字串，以此方式增加

分析範圍。
2. 改用 Google 為 N-gram count 值的來源解決語料不足的問題，
，
將所有 N-gram 的字串，利用 Google 查詢並將搜尋結果數當成
Count 值，計算正答力的準確度就能提高。
3. 省去 backoff 的α參數設定問題，改以字串的 N-gram 長度當
作計算正答力分數的依據，例如"王老闆，我上個星期訂 "
的 N-gram 長度是 8，"訂"是答案選項，原本可得 7 分，但是該
字串的搜尋結果數是 0 所以基於 backoff 的觀念改成"老闆，
，，
我上個星期訂 "字串長度是 7 該片段的實際分數是 6 分，
，，
36

也就是 score(length("王老闆，我上個星期訂"))=6。
4. 本研究所設計的新方法，為符合計算本研究正答力的需求，在
經過不斷的測詴與修改後，由原本 Bigram Markov Chain 方法
的 54%準確度提升到本研究所設計之方法的 90% 但是離 100%
，，
準確還有 10%的，表示離實際可用方法可能還有一段距離需要
努力。

37

5. 第五章評估

本章目的是評估本研究所設計之方法，首先介紹用來測詴本方法
的 Benchmark，接著介紹測詴結果，最後分析評估結果。

5.1 Benchmark

為了評估本研究所設計之方法的效果，本研究以華測會公佈的
TOP-Huayu 初、中、高級三個測驗的「詞彙語法」題及標準答案共 100
題來檢驗本方法的準確率，如表 5-1。以提供客觀、具有公信力的
評估結果。初級及中級詞彙語法題分為詞彙、語法二個題組，詞彙題
重語意理解，語法題重文法使用，詳細評估資料請參考附錄一。

表 5-1 詞彙語法題目及答案架構列表
等級來源題組題數
初級 (華語文能力測驗初等模擬試題，2003) 詞彙 20
(華語文能力測驗初等模擬試題答案，2003) 語法 20
中級 (華語文能力測驗中等模擬試題，2003) 詞彙 10
(華語文能力測驗中等模擬試題答案，2003) 語法 20
高級 (華語文能力測驗高等模擬試題，2003)
詞彙語法 30
(華語文能力測驗高等模擬試題答案，2003)
總計 100

TOP-Huayu 測驗中，有些題目的設計是兩個空格，如下範例：
83. 我希望麻煩__少好。
(A)又…又…
(B)越…越…
(C)也…也…
(D)更…更…

由於本研究所設計的方法一次只能處理一個空格，所以此類題目無法

38

直接以本方法處理，故本評估將選項和中間文句組合成一個空格，如
下範例：
83. 我希望麻煩____好。
(A)又少又
(B)越少越
(C)也少也
(D)更少更

如此完成測詴，且不影響評估的公正性。若中間文句太長，導致無法
取得測詴結果，則改成以第一個空格為主，如下範例，答案是(C)：

75.____ 成功也好，失敗也好，我們 ____ 應該接受。
(A) 即使 ___ 也
(B) 不但 ___ 還
(C) 不論 ___ 都
(D) 因為 ___ 而

改成如下範例：

75.____ 成功也好，失敗也好，我們都應該接受。
(A) 即使
(B) 不但
(C) 不論
(D) 因為

5.2 測詴結果

本研究以 PHP 電腦程式語言實作本方法，將每一題詞彙語法題輸
入系統，分析每題 4 個選項的正答力，並檢查最高正答力的選項是否
為正確答案，進而找出 3 個誘答選項，藉此方式確認本方法所計算出
來的結果，誘答選項的正答力確實會比答案選項低，正確答案的正答
力確實會比誘答選項高。所以實際應用時，電腦出題系統所產生出來
的候選誘答選項，如果極有可能是正確選項，則該選項的正答力就會
39

比答案選項高，就能正確判斷該選項不適合拿來當誘答選項。

評估結果以準確率來表示，首先統計被正確辨識的題目總數，然
後除以總題數 100，再換算成百分比%，就可以得到本系統分析正答
力的準確率。準確率的計算公式如式 5-1。測詴結果如表 5-2。

準確率 = 正確辨識題數 / 總題數 × 100%
(5-1)

表 5-2 測詴結果統計表
等級題組題數答對
詞彙 20 17
初級
語法 20 16
詞彙 10 10
中級
語法 20 19
高級詞彙語法 30 28

總計 - 100 題 90 題

結果顯示準確度達 90%，表示該方法所計算出來的正答力資訊，
在篩選候選誘答選項的時候，無法 100%輔助華語文詞彙語法電腦出
題，雖然比 4.2.1 節「Bigram Markov Chain 方法」的 54%準確度高
出許多，但是仍有 10 題的錯誤，表示離實際可用的方法可能還有一
段距離需要努力。

5.3 分析評估結果

本節分析評估時答錯的題目錯誤原因，分析如何達到更高的準確
率。本節分成二個小節，包含訊息量不足、分析方法侷限。本節術語
定義：

40

1.「結果數」代表從 Google 搜尋後得到的搜尋結果數。
2. 「字串」指選項和部份題幹組成的可得結果字串，該組字串輸入
到 Google 搜尋後可以得到 1 以上的搜尋結果數。例如句子是

"王老闆，我上個星期訂的書來了沒有？"

則「字串」包含

"老闆，我上個星期訂的 "

上列字串可得到 10 個 Google 搜尋結果。本研究所列字串前文不
能再加長，例如下列相似字串，Google 搜尋結果數是 0：

"王老闆，我上個星期訂的 "

本節詳細說明每一題答錯的題目正答力分析過程及原因，包含題
目、正答力、搜尋 Google 字串、片段正答力。以下說明資料呈現方
式：

41

「初 52」代表華語文能力測驗中等試題第 52 題若
，「高」
則代表華語文能力測驗高等試題，「中」為中等。

本方法計算正答力最高的選項不是
標準答案則「答錯 X」

初 52. 答錯 X
標準詞彙語法
我的日本朋友要回國了，我要到機場去 ____ 他。
答案題目
T (A)送 = 19.652381 **
(B)接 = 21.347619 ***
(C)見面 = 7.144233 * 最高正答力
(D)再見 = 5.855767

"了，我要到機場去送 " 2 , 6.2857143
片段正答力
"，我要到機場去送他 " 2 , 6.1666667
利用 Google 搜
"，我要到機場去送他。 " 2 , 7.2
尋此字串搜尋結果數

"了，我要到機場去接 " 5 , 6.7142857
"，我要到機場去接他 " 10 , 6.8333333 第二個選項
"，我要到機場去接他。 " 8 , 7.8 的正答力計
算過程

圖 5-1 答錯題目分析過程資料呈現說明

5.3.1 原因一：訊息量不足

圖 5-2 的初 52 題，
「送」和「接」二個選項的正答力很接近。
在「送」選項部份，最長字串只有
"了，我要到機場去送"

及
"，我要到機場去送他"

在「接」選項部份，也只有
"了，我要到機場去接"
42

及
"，我要到機場去接他"

二個字串，兩個選項的字串一樣長，但是「接」的字串的結果數比較
多，所以正答力比較高。
「送」和「接」都是及物動詞，可以說是反
義詞，所以這題是考語意理解，需參考「回國」此關鍵詞，才能推論
是要「送」還是「接」
，光以字串頻率來計算，很難解決語義的問題，
而本方法只能分析部份前文，故歸類為訊息量不足。可考慮加上「送」
「接」等詞頻訊息。

初 52. 答錯 X
我的日本朋友要回國了，我要到機場去 ____ 他。
T (A)送 = 19.652381 **
(B)接 = 21.347619 ***
(C)見面 = 7.144233 *
(D)再見 = 5.855767

"了，我要到機場去送 " 2 , 6.2857143
"，我要到機場去送他 " 2 , 6.1666667
"，我要到機場去送他。 " 2 , 7.2

"了，我要到機場去接 " 5 , 6.7142857
"，我要到機場去接他 " 10 , 6.8333333
"，我要到機場去接他。 " 8 , 7.8

"到機場去見面 " 8000 , 2.9996251
"去見面他 " 92700 , 1.5718692
"去見面他。 " 93700 , 2.5727384

"到機場去再見 " 3 , 2.0003749
"去再見他 " 69400 , 1.4281308
"去再見他。 " 69900 , 2.4272616

圖 5-2 初等 TOP-Huayu 測驗詞彙語法第 52 題答錯過程分析

43

圖 5-3 的初 54 題，
「作業」的字串較「工作」及「課本」短，且結

果數少，故正答力較低。本方法只能分析部份前文，故歸類為訊息量
不足。這題可能要以詞群概念來解釋，「老師」給「作業」的關係比
「老師」給「工作」的關係來得緊密。

初 54. 答錯 X
每次上完課，老師都會給我們一些 ____ 帶回家做。
(A)課文 = 11.181818
(B)課本 = 14.318424 **
(C)工作 = 18.351224 *** (最高正答力)
T (D)作業 = 14.148534 *

"給我們一些課文 " 6 ,3
"課文帶回 " 4120 ,1
"課文帶回家 " 5 ,2
"課文帶回家做 " 1 , 2.0909091
"課文帶回家做。 " 1 , 3.0909091

"都會給我們一些課本 " 1 , 4.5
"一些課本帶回 " 34 , 1.0002091
"一些課本帶回家 " 5 , 2.000033
"課本帶回家做 " 10 , 2.9090909
"課本帶回家做。 " 10 , 3.9090909

"都會給我們一些工作 " 1 , 4.5
"一些工作帶回 " 158000 , 1.9715066
"一些工作帶回家 " 147000 , 2.9701369
"一些工作帶回家做 " 28800 , 3.9442623
"一些工作帶回家做。 " 33400 , 4.9653179

"會給我們一些作業 " 6 ,4
"一些作業帶回 " 4600 , 1.0282844
"一些作業帶回家 " 4520 , 2.0298301
"一些作業帶回家做 " 1700 , 3.0557377
"一些作業帶回家做。 " 1200 , 4.0346821

44

圖 5-4 的初 61 題，認得」的字串比「記得」及「知道」短，且
「
結果數少，而且本題是考詞彙語意，本方法只能分析部份前文，故歸
類為訊息量不足。本題選項的語義差別非常細微，電腦也很難判斷。

初 61. 答錯 X
他比以前胖了很多！剛看到他的時候，我差一點兒不 ____ 他了。
(A)記得 = 11.796235 **
T (B)認得 = 8.441154 *
(C)認出 = 7.221165
(D)知道 = 12.541446 *** (最高正答力)

"，我差一點兒不記得 " 1 ,5
"不記得他 " 22300000 , 1.6629013
"不記得他了 " 10800000 , 2.0666667
"不記得他了。 " 10800000 , 3.0666667

"差一點兒不認得 " 2 , 2.2857143
"不認得他 " 3900000 , 1.1159334
"不認得他了 " 3200000 , 2.0197531
"不認得他了。 " 3200000 , 3.0197531

"不認出 " 11200000 ,1
"不認出他 " 7440000 , 1.2211653
"認出他了 " 51600000 ,2
"認出他了。 " 51600000 ,3

"差一點兒不知道 " 5 , 2.7142857
"一點兒不知道他 " 4 ,3
"不知道他了 " 148000000 , 2.9135802
"不知道他了。 " 148000000 , 3.9135802


圖 5-5 的高 79 題，本題考兩個詞合用的情況，使用本評估方法
的組合詞句則 4 個選項都找不到字串，故改以第一個詞及前半部句子
45

測詴每個選項的字串，如下：
____ 能不斷累積經驗的人

(A)凡是

(B)既然

(C)除了

(D)只要

圖 5-5 的高 79 題，「凡是」選項的字串較「只要」短，且結果
數較其它選項少，故歸類為訊息量不足。此為句型題，如果計算搭配
關係可能效果較好，所以字串「只要」
「才能」的搭配關係不高。

高 79. 答錯 X
___ 能不斷累積經驗的人， ___ 開創自己的事業。
T (A)凡是 ___ 都能 = 1.034816
(B)既然 ___ 就能 = 1.140549 *
(C)除了 ___ 還得 = 1.193033 **
(D)只要 ___ 才能 = 9.631602 ***

"凡是能 " 2380000 , 0.034815682
"凡是能不斷 " 3 , 1.0000007

"既然能 " 4860000 , 0.071094207
"既然能不斷 " 289000 , 1.0694544

"除了能 " 9220000 , 0.1348742
"除了能不斷 " 242000 , 1.0581591

"只要能 " 51900000 , 0.75921592
"只要能不斷 " 3630000 , 1.8723858
"只要能不斷累積 " 9 ,3
"只要能不斷累積經驗 " 3 ,4

圖 5-5 高等 TOP-Huayu 測驗詞彙語法第 79 題答錯過程分析

46

圖 5-6 的高 68 題，「吹毛求疵」的字串較「投機取巧」短，且
結果數少，故正答力較低。本方法只能分析部份前文，故歸類為訊息
量不足。

高 68. 答錯 X
他對每件小事都喜歡 ____ ，總是不停地抱怨、挑剔別
人。
(A)憤世嫉俗 = 5.077120 *
(B)愁眉苦臉 = 5.076923
T (C)吹毛求疵 = 7.615188 **
(D)投機取巧 = 51.230769 ***

"都喜歡憤世嫉俗 " 4 , 1.0000985
"都喜歡憤世嫉俗， " 4 , 2.0000985
"喜歡憤世嫉俗，總是 " 1 , 2.0769231

"喜歡愁眉苦臉 " 729 ,1
"喜歡愁眉苦臉， " 720 ,2
"喜歡愁眉苦臉，總是 " 1 , 2.0769231

"都喜歡吹毛求疵 " 40600 , 1.9999015
"都喜歡吹毛求疵， " 40600 , 2.9999015
"喜歡吹毛求疵，總是 " 8 , 2.6153846

"事都喜歡投機取巧 " 2 ,3
"事都喜歡投機取巧， " 2 ,4
"喜歡投機取巧，總是 " 3 , 2.2307692
"投機取巧，總是不停 " 1 ,3
"投機取巧，總是不停地 " 1 ,4
"投機取巧，總是不停地抱怨 " 1 ,5
"投機取巧，總是不停地抱怨、 " 1 ,6
"投機取巧，總是不停地抱怨、挑剔 " 1 ,7
"投機取巧，總是不停地抱怨、挑剔別人 "
1 ,8
"投機取巧，總是不停地抱怨、挑剔別人。 "
1 ,9

47

圖 5-7 的高 74 題，儘管」選項的結果數較「不管」少，故歸類
「
為訊息量不足。此為句型題，如果計算搭配關係可能效果較好，所以
字串「不管」也」的搭配關係不高。
「

高 74. 答錯 X
____ 他有過失，你也犯不著當眾給他難堪吧！
(A)不僅 = 1.027001
(B)不管 = 1.912474 ***
T (C)儘管 = 1.603796 **
(D)既然 = 1.456729 *

"不僅他 " 662000 , 0.014723544
"不僅他有 " 931000 , 1.0122773

"不管他 " 19800000 , 0.44037187
"不管他有 " 35800000 , 1.4721024

"儘管他 " 14400000 , 0.32027045
"儘管他有 " 21500000 , 1.2835252

"既然他 " 10100000 , 0.22463414
"既然他有 " 17600000 , 1.2320951


因為本方法是嚴格分析前後文，很容易發生語料不足的問題，而
且本研究所用的 Google 已經是相當龐大的語料來源，仍然發生此問
題，表示需考慮其它計算語言學方法，例如利用選項詞頻訊息作為判
斷的附加資訊，或加入搭配詞技術、詞群概念可能效果較好。對語義
型問題來說，單單只以字串長度來計算，很難解決語義的問題。

48

5.3.2 原因二：分析方法侷限

圖 5-8 的初 84 題，只有(C)和(D)的選項才有字串。(D)的字串
是不合法的語句，來自某討論區的留言問 TOP-Huayu 考題，並將錯誤
的選項組成句子，放在討論區上，故歸類為分析方法侷限，應考慮「原
來」「以後」的搭配機率不高，才能正確判斷。

初 84. 答錯 X
我 ____ 想秋天去也許太冷，現在決定夏天去。
(A)以前想秋天到海邊去玩，以後 = 0
(B)從前想秋天到海邊去玩，以後 = 0 *
T (C)本來想秋天到海邊去玩，後來 = 78 **
(D)原來想秋天到海邊去玩，以後 = 91 *** (最高正答力)

"本來想” 43200000 ,2
(省略)
"本來想秋天到海邊去玩，後來想想秋天去也許太冷，現在決定夏天去。 "
2 , 12

"我原來” 23700000 ,2
(省略)
"我原來想秋天到海邊去玩，以後想想秋天去也許太冷，現在決定夏天去。 "
2 , 13


圖 5-9 的初 86 題，在 Google 中找不到本題的選項字串，只找
到 TOP-Huayu 的考卷電子檔，尤其是合法句法的正確答案(A)在
Google 上也找不到。雖然語序題的不合法句子原本就不容易在
Google 中尋得，但正確答案「真貴了一點兒」也沒有，只能解釋這
道題出得不好，主要是「真」的使用不自然，如果「太貴了一點兒」
就好多了。本類問題的選項是以語序出題，選項較長，故歸類為分析
方法侷限。
49

初 86. 答錯 X
平常一個包子十五塊錢，這個包子賣二十塊， ____ 。
T (A)真貴了一點兒 = 1.500000
(B)真貴一點兒了 = 1.500000 *
(C)有一點兒真貴 = 1.500000 **
(D)真貴有一點兒 = 1.500000 ***

"，真貴了一點兒 " 2 , 0.25
"，真貴了一點兒。 " 2 , 1.25

"，真貴一點兒了 " 2 , 0.25
"，真貴一點兒了。 " 2 , 1.25

"，有一點兒真貴 " 2 , 0.25
"，有一點兒真貴。 " 2 , 1.25

"，真貴有一點兒 " 2 , 0.25
"，真貴有一點兒。 " 2 , 1.25


圖 5-10 的初 88 題，在 Google 中找不到本題的選項字串，只找
到 TOP-Huayu 的考卷電子檔，尤其是合法句法的正確答案(C) 在
Google 上也找不到，且本類問題的選項是語序問題，語序題的性質
不適合用本方法，且選項較長，故歸類為分析方法侷限。

50

初 88. 答錯 X
沒有人知道 ____ 。
(A)他回來是不是今天早上的 = 0.266667 *
(B)是不是他回來今天早上的 = 0.200000
T (C)他是不是今天早上回來的 = 0.266667 **
(D)是不是今天早上他回來的 = 0.266667 ***

"他回來是不是今天早上的。 " 4 , 0.26666667

"是不是他回來今天早上的。 " 3 , 0.2

"他是不是今天早上回來的。 " 4 , 0.26666667

"是不是今天早上他回來的。 " 4 , 0.26666667


圖 5-11 的中 71 題，「試試穿」的字串較「穿穿看」長，故正答力

較低。本方法只能分析部份前文，故歸類為訊息量不足。由於 Google
會自動省略標點符號「，」及「。」
，使搜尋結果不正確。如下說明，
「試試穿」的字串來自於 Google 的搜尋結果：

「中性打扮不適合你，你可以試試穿連衣裙」

所以「試試穿」的字串後面還有接字詞，不是我們要的合法字串，使得
「試試穿」的正答力超過「穿穿看」
。

51

基於全球資訊網的華語文詞彙語法誘答選項正答力計算方法徐立人

基於全球資訊網的華語文詞彙語法誘答選項正答力計算方法徐立人

Recommended

Recommended

More Related Content

Similar to 基於全球資訊網的華語文詞彙語法誘答選項正答力計算方法徐立人

Similar to 基於全球資訊網的華語文詞彙語法誘答選項正答力計算方法徐立人 (20)

Recently uploaded

Recently uploaded (12)