Ch4語料庫建設及其統計手段和原理

第四章語料庫建設及其基本
統計手段和原理
• 語料庫已經被廣泛應用於語言相關的各領
域，如語言學研究、語言教學與研究、自
然語言處理和語言工程等，並在其中發揮
日益重要的作用。
• 語料庫的產生使定性與定量相結合的語言
研究成為可能。

• 本章先討論語料庫的代表性問題和預加工
問題。
• 然後介紹當前用於語料分析的幾個主要的
統計手段及其原理。

1.1語料庫建設
• 語料庫的代表性和預加工就是兩個重要問
題。
• 20世紀30年代計算機尚未問世之時，一些
語言學家開始建立一定規模的非機讀語料
庫並開始進行人工詞頻統計。這種研究方
法以實證性而贏得了語言學家的讚譽，並
在50年代蓬勃發展。

• 然而，這種發展在50年代末受到了重創。
• 喬姆斯基（1957）《句法結構》的發表標
誌著以布隆菲爾德（L.Bloomfied）為代表
的結構主義時代的結束，也標誌著轉換生
成語法的開始。

• 喬姆斯基對語料庫的批評歸納起來主要有
三點：
（1）語料庫模擬的是語言的使用
（performance）而不是能力
（competence）；
（2）語料庫試圖列舉無限的自然語言；
（3）語料庫往往完全避開內省
（introspection）。

• 20世紀60年代和70年代是喬姆斯基語言學
的鼎盛時期。語料庫方法與喬姆斯基語言
學相比只是一個微不足道的支流。
• 這個時期三個著名的機讀語料庫---
BROWN、LLC、LOB相繼問世。
• 從80年代開始，語料庫的語言學研究得到
了迅速發展。

• 到了90年代，大型的機讀語料庫如BNC
（British National Corpus）、Bank of
English等以建立並投入實際使用吸引了大
批的語言學家投身於語料庫語言學研究。
語料庫語言學變得愈益重要。
• 有人把喬姆斯基出現之前的語料庫研究稱
為早期語料庫語言學參閱。

• 喬姆斯基對早期語料庫所做的批評不能說
全無道理，但沒有哪一點批評是真正致命
的。
• 就第一點批評而言，喬姆斯基認為語料庫
因為模擬的是語言的使用而非能力，因此
不是研究語言的最好材料。
• 這一觀點是建立在對能力和使用的區分之
上的。
• 但是倫敦學派的語言學家，認為能力和使
用不是兩個事物，是不能截然分開的。

• 所以語料庫反映語言使用不是什麼不正常
的事。語料庫反應的就是人們實際使用中
的真實語言。
• 第二點批評，是語料庫無法列舉無限的語
言，但是，對無限的總體進行抽樣調查早
已證明是行之有效的科學方法。語料庫是
無限語言的樣本，用它研究語言是無可厚
非的。

• 第三點批評，當前多數語言學家並沒有否
認內省的價值和意義，只是認為內省的證
據需要實證。
• 從現在的角度看，這三點批評中需要考慮
的是第二點，它向語料庫語言學家提出了
如何解決語料庫代表性的問題。

• 語料庫是否具有代表性直接關係到在語料
庫基礎上所做出的研究及其結論的可靠性
和普遍性。
• 這裡需要考慮三個問題，
1.語料庫的代表總體。
2.語料庫的規模。
3.語料庫的內容。

• 1.1.1語料庫代表的總體
• 一個語料庫是否有代表性首先要看該語料
庫所代表的總體。
• 在多數情況下，語料庫代表的往往是無限
的總體。

• 1.1.2語料庫的規模
• 如果語料庫要代表一個無限的或者非常大
的總體，那麼就有一個採樣或抽樣的問題
，樣本越大代表性越好。

• 1.1.3語料庫的內容
• 語料庫的規模和內容是一體兩面的，前者
是量的問題，後者是質的問題。
• 對於內容，最根本的要求是：真實。
• 真實有兩層意思：一是要收集實際使用中
的文本（不能是杜撰的文本），二是要收
集符合條件的文本。但是，真實並非是代
表性的唯一標準。

• 除了真實以外，還要考慮收入語料庫各類
型文本的比例。
• 至於各部分之間的比例安排問題，最好能
找到一些較為客觀的外部標準。
• 收集完整的文本也是對語料內容的一種要
求，雖然適當取捨也未嘗不可。

• 1.1.4建設
• 建庫時內容和規模應該兼顧。
• 在規模上，越大越好。
• 在內容上，除了採集真實語言，還要進行
必要的文本分類，並按客觀的標準確定各
類的比例。
• 語言本身是動態發展的，語料庫也應該是
動態的，可以不斷擴充的。
• 簡言之，每一篇文本都應獨立標識，需要
時可以按各種不同的標準進行歸類。

• 1.2語料庫的預加工
• 文本輸入計算機之後，一般需要進行一些
預加工，主要包括語料的標識和語料的賦
碼
• 註：賦碼也可以看做是一種特殊的標識。

• 1.2.1語料庫的標識
• 主要分為兩類：
一類是對文本的性質和特徵進行標識，
另一類是對文本中符號、格式等進行標
識。
• 不管語料將來作什麼用，類標識是必要
的，它可以對文本進行必要的分類。為靈
活提取進行各類目的研究提供了大的便
利。

• 1.2.2語料庫的賦碼
• 語料庫的賦碼主要分為兩類：
一類是詞類碼，又稱語法碼。
另一類是句法碼，一般稱為句法分析。
• 詞類賦碼就是對文本中每一個單詞賦予相
應的詞類碼，包括對標點符號的賦碼。
• 詞類碼代表一個詞的語法特徵，所以也稱
做語法碼。

• 在賦碼操作中，需要解決的問題是區分一
個詞不同的詞類，而對具體的詞義不做區
分，因為這不是賦詞類碼的主要目的。
• 這裡所講的詞類賦碼是計算機自動賦碼。
語料庫建設者可開發一系列軟件用於識別
和區分不同詞類。

• 不管是詞典還是概率矩陣都要依賴於一個
已賦好碼的語料庫。
• 沒有賦好碼的語料庫就無法知道當一個詞
有一個以上詞類時候跟某一詞類的概率是
多少。

• 通常的作法是先對小規模語料庫用手工賦
碼，求出初步的詞類相鄰碼渡越概率信息
矩陣，用於處理規模大一些的語料庫，根
據處理結果，修正詞類相鄰碼渡越概率如
此循環，直道德到穩定的詞類相鄰碼渡越
概率信息為止。
• 若已有成熟的詞類相鄰碼渡越概率信息，
則當然可以借用。

• 序列概率的計算方法如下：
• 先計算一個語法碼後面跟另一個語法碼的
渡越概率，其公式如下：

• 最後經過下面公式的計算就可以求出每一
序列的概率：

• 以上是CLAWS系統解決一詞多碼問題的基
本方法。

• CLAWS賦碼系統分五個步驟對文本進行賦
碼。它們依次是：
a）預編輯（pre-editing）；
b）配碼（tag assignment）；
c）習語賦碼（idiom-tagging）；
d）解決歧異碼（tag disambiguation）
e）後編輯（post-editing），
其中b）c）d）是賦詞類碼的核心步驟（參見
Garside 1987）。

• 預編輯是由一個叫做PREEDIT的程序來完
成的，其主要目的是為語料庫中的每一個
詞或標點創建單獨的一行，把詞和標點放
在這一行中規定的標準位置，並用字母和
數字標出該詞或標點在語料庫中所屬的文
本類型、所在的文本、所在的行、行中的
位置。

• 配碼就是前面提到的通過查詢預先編好的
詞類詞典，把可能的詞類碼配給每一個單
詞的過程。
• 習語賦碼是非常關鍵的一部，用於對一組
一組的詞進行賦碼，以除去一些明顯的錯
誤。

• 解決歧異碼，主要任務就是通過上下文確
定各詞類碼的可能性，一般情況下，可能
性最大的詞類是正確的詞類碼。
• 後編輯就是人工檢查CHAINPROBS計算的
可能性最大的詞類是否是正確的詞類，並
去除多餘的詞類碼。

• 1.2.2.2句法分析
• 句法分析又稱為句法賦碼，就是對文本中
的每一個句子進行句法標註。
• 句法賦碼建立在詞類賦碼基礎之上，即詞
類賦碼的輸出正式句法賦碼的輸入。
• 這裡主要介紹UCREL小組的概率句法賦碼
系統。

• 句法賦碼系統主要分三個步驟。
• 第一步是對文本中每一個詞賦以可能的句
法符。
• 第二步是尋找一些特殊的語法碼形式和句
法片段並對句法結構作必要的修改。
• 第三步主要的任務就是確定這些成分的結
束位置。

• 1.2.2.3對當前賦碼技術的評價
• 自動詞類賦碼技術準確率超過96%~97%，達
到了實際研究和應用的需要。
• 目前詞類賦碼和句法賦碼存在的問題：
(1)各系統的詞類碼和句法碼不統一。
(2)對詞類及句法單位的劃分沒有客觀的標準。
(3)把詞類分析作為句法分析的低一層次的分析
，這在一定程度上隔離了詞彙和句法的關係
。

2.語料庫的基本統計手段和原理
2.1文本總體統計特徵

• 文件的字節數 • 句子數
• 形符數 • 平均句長數
• 類符數 • 句長標準差
• 類符形符比 • 段落數
• 標準化類符形符比 • 平均段落長
• 平均詞長 • 段落長標準差

• 2.2詞頻統計
• 詞頻統計是語料庫研究的一個統計手段。
• 做詞頻統計後，一般可以產生兩個詞頻
表，一個以詞的字母順序排列，一個以詞
的頻率大小排列。
• 因此詞頻統計與其說是在計算詞的頻率還
不如說是在計算詞形的頻率。

• 2.3搭配詞記搭配力的計算
• 據辛克萊的定義，搭配是“兩個或兩個以上
的詞在文本中很短的距離內的共現”
• 但單從共現的次數看兩個詞的搭配是否有
意義還不能確定反映實際狀況。因此需同
時考慮該詞在文本中的使用頻率，由此也
就產生了“搭配力”這個概念。
‧搭配力越大，搭配的意義就越大；反之，
就越小。搭配力一般以Z值（Z-score）或T
值（T-score）表示。

要計算Z值，需要知道五個數據：

• 被研究詞或節點詞的 • 以及整個文本的長度
頻數N， W。
• 跨距S， • 根據這些數據，可以
• 搭配詞在整個文本中計算小文本的長度
的頻數C， M，搭配詞占整個文
本的比率P，搭配詞在
• 搭配詞在小文本中的
頻數C’ 小文本中的期望數E，
其標準差及最終的Z值
• 以及整個文本的長度或Z分數。
W。

• 它們的計算公事分別是：
• M=(2S+1)N
• P=C/W
• E=P×M
• SD=
• Z=(C’-E)/SD

• 2.4關鍵詞及關鍵性的計算
• 關鍵詞，指的是跟某一標準相比其頻率顯
著偏高的詞，偏高的程度就是該關鍵詞的
“關鍵性”。
• 關鍵詞頻率的偏高程度可用兩種方法計
算，其一是值，其二是對數或然率。

的計算方法並不複雜，它牽涉到四個變量，
即某個詞在文中的頻數a，所在文本中的長度
b，該詞在參照語料庫中的頻數c，參照語料
庫的長度d

• 計算公式如下：

（註：N是a、b、c、d的總和）

• 3.結束語
• 語料庫的預加工為更深層次的分析創造了
條件。經過預加工的語料為語言的研究提
供了方便。
• 語料庫研究需要的是一個開放的思路，而
不是固步自封，應不斷去嘗試和探詢更好
的研究方法和手段。

Ch4語料庫建設及其統計手段和原理

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (6)

Similar to Ch4語料庫建設及其統計手段和原理

Similar to Ch4語料庫建設及其統計手段和原理 (17)

More from ungian iunn

More from ungian iunn (20)

Recently uploaded

Recently uploaded (6)

Ch4語料庫建設及其統計手段和原理