More Related Content
Similar to Ch4語料庫建設及其統計手段和原理
Similar to Ch4語料庫建設及其統計手段和原理 (17)
More from ungian iunn (20)
Ch4語料庫建設及其統計手段和原理
- 1. 第四章 語料庫建設及其基本
統計手段和原理
• 語料庫已經被廣泛應用於語言相關的各領
域,如語言學研究、語言教學與研究、自
然語言處理和語言工程等,並在其中發揮
日益重要的作用。
• 語料庫的產生使定性與定量相結合的語言
研究成為可能。
- 5. • 喬姆斯基對語料庫的批評歸納起來主要有
三點:
(1)語料庫模擬的是語言的使用
(performance)而不是能力
(competence);
(2)語料庫試圖列舉無限的自然語言;
(3)語料庫往往完全避開內省
(introspection)。
- 6. • 20世紀60年代和70年代是喬姆斯基語言學
的鼎盛時期。語料庫方法與喬姆斯基語言
學相比只是一個微不足道的支流。
• 這個時期三個著名的機讀語料庫---
BROWN、LLC、LOB相繼問世。
• 從80年代開始,語料庫的語言學研究得到
了迅速發展。
- 7. • 到了90年代,大型的機讀語料庫如BNC
(British National Corpus)、Bank of
English等以建立並投入實際使用吸引了大
批的語言學家投身於語料庫語言學研究。
語料庫語言學變得愈益重要。
• 有人把喬姆斯基出現之前的語料庫研究稱
為早期語料庫語言學參閱 。
- 8. • 喬姆斯基對早期語料庫所做的批評不能說
全無道理,但沒有哪一點批評是真正致命
的。
• 就第一點批評而言,喬姆斯基認為語料庫
因為模擬的是語言的使用而非能力,因此
不是研究語言的最好材料。
• 這一觀點是建立在對能力和使用的區分之
上的。
• 但是倫敦學派的語言學家,認為能力和使
用不是兩個事物,是不能截然分開的。
- 9. • 所以語料庫反映語言使用不是什麼不正常
的事。語料庫反應的就是人們實際使用中
的真實語言。
• 第二點批評,是語料庫無法列舉無限的語
言,但是,對無限的總體進行抽樣調查早
已證明是行之有效的科學方法。語料庫是
無限語言的樣本,用它研究語言是無可厚
非的。
- 10. • 第三點批評,當前多數語言學家並沒有否
認內省的價值和意義,只是認為內省的證
據需要實證。
• 從現在的角度看,這三點批評中需要考慮
的是第二點,它向語料庫語言學家提出了
如何解決語料庫代表性的問題。
- 15. • 除了真實以外,還要考慮收入語料庫各類
型文本的比例。
• 至於各部分之間的比例安排問題,最好能
找到一些較為客觀的外部標準。
• 收集完整的文本也是對語料內容的一種要
求,雖然適當取捨也未嘗不可。
- 16. • 1.1.4建設
• 建庫時內容和規模應該兼顧。
• 在規模上,越大越好。
• 在內容上,除了採集真實語言,還要進行
必要的文本分類,並按客觀的標準確定各
類的比例。
• 語言本身是動態發展的,語料庫也應該是
動態的,可以不斷擴充的。
• 簡言之,每一篇文本都應獨立標識,需要
時可以按各種不同的標準進行歸類。
- 18. • 1.2.1語料庫的標識
• 主要分為兩類:
一類是對文本的性質和特徵進行標識,
另一類是對文本中符號、格式等進行標
識。
• 不管語料將來作什麼用,類標識是必要
的,它可以對文本進行必要的分類。為靈
活提取進行各類目的研究提供了大的便
利。
- 20. • 在賦碼操作中,需要解決的問題是區分一
個詞不同的詞類,而對具體的詞義不做區
分,因為這不是賦詞類碼的主要目的。
• 這裡所講的詞類賦碼是計算機自動賦碼。
語料庫建設者可開發一系列軟件用於識別
和區分不同詞類。
- 22. • 通常的作法是先對小規模語料庫用手工賦
碼,求出初步的詞類相鄰碼渡越概率信息
矩陣,用於處理規模大一些的語料庫,根
據處理結果,修正詞類相鄰碼渡越概率如
此循環,直道德到穩定的詞類相鄰碼渡越
概率信息為止。
• 若已有成熟的詞類相鄰碼渡越概率信息,
則當然可以借用。
- 24. • CLAWS賦碼系統分五個步驟對文本進行賦
碼。它們依次是:
a)預編輯(pre-editing);
b)配碼(tag assignment);
c)習語賦碼(idiom-tagging);
d)解決歧異碼(tag disambiguation)
e)後編輯(post-editing),
其中b)c)d)是賦詞類碼的核心步驟(參見
Garside 1987)。
- 25. • CLAWS賦碼系統分五個步驟對文本進行賦
碼。它們依次是:
a)預編輯(pre-editing);
b)配碼(tag assignment);
c)習語賦碼(idiom-tagging);
d)解決歧異碼(tag disambiguation)
e)後編輯(post-editing),
其中b)c)d)是賦詞類碼的核心步驟(參見
Garside 1987)。
- 26. • 預編輯是由一個叫做PREEDIT的程序來完
成的,其主要目的是為語料庫中的每一個
詞或標點創建單獨的一行,把詞和標點放
在這一行中規定的標準位置,並用字母和
數字標出該詞或標點在語料庫中所屬的文
本類型、所在的文本、所在的行、行中的
位置。
- 28. • 解決歧異碼,主要任務就是通過上下文確
定各詞類碼的可能性,一般情況下,可能
性最大的詞類是正確的詞類碼。
• 後編輯就是人工檢查CHAINPROBS計算的
可能性最大的詞類是否是正確的詞類,並
去除多餘的詞類碼。
- 34. • 2.3搭配詞記搭配力的計算
• 據辛克萊的定義,搭配是“兩個或兩個以上
的詞在文本中很短的距離內的共現”
• 但單從共現的次數看兩個詞的搭配是否有
意義還不能確定反映實際狀況。因此需同
時考慮該詞在文本中的使用頻率,由此也
就產生了“搭配力”這個概念。
‧搭配力越大,搭配的意義就越大;反之,
就越小。搭配力一般以Z值(Z-score)或T
值(T-score)表示。
- 35. 要計算Z值,需要知道五個數據:
• 被研究詞或節點詞的 • 以及整個文本的長度
頻數N, W。
• 跨距S, • 根據這些數據,可以
• 搭配詞在整個文本中 計算小文本的長度
的頻數C, M,搭配詞占整個文
本的比率P,搭配詞在
• 搭配詞在小文本中的
頻數C’ 小文本中的期望數E,
其標準差及最終的Z值
• 以及整個文本的長度 或Z分數。
W。
- 36. • 它們的計算公事分別是:
• M=(2S+1)N
• P=C/W
• E=P×M
• SD=
• Z=(C’-E)/SD