More Related Content
Similar to ch2語料庫與學習者語料庫 (20)
More from ungian iunn (20)
ch2語料庫與學習者語料庫
- 1. 第二章 語料庫與學習者語料庫
報告人:
台文所碩二
3897002 陳郁芬
- 2. 1. 緒論
語料庫的定義
是指按照一定的語言學原則,運用
隨機抽樣方式,收集自然出現的連
續的語言運用文本或話語片段而建
成的具有一定容量的大型電子文庫
。
現代語料庫是指大型的以電子文檔
為主要構成的計算機語料庫。
- 5. 2. 基本特徵
具有七個特徵
1. 語料庫的設計和建設是在系統的理論
語言具有明確而具體的研究目標,語
料庫的開發具有明確而具體的研究目
標。
2. 語料庫語料的構成和取樣是按照明確
的語言學原則並採取隨機抽樣方法收
集語料的,而不是簡單的堆積語料。
- 7. 4. 語料庫語料以電子文本形式儲存並且
是通過計算機自動處理的。
5. 對於語料庫的研究以量化研究為基礎
,以概率統計為基本手段,以「數位
化」為基本理念。
6. 語料庫既是一種研究方法,又代表著
一種新的研究思維,並以當代先進的
計算機技術為技術方式。
7. 語料文本是一連續的文本或話語片斷
而不是孤立的句子和詞彙。
- 11. 4. 語料庫的發展
大致可分為三個階段
(1) 初始階段─ 18 世紀開始至 20 世紀
50
年代的各種手工語料庫
(2) 復興階段─ 以電子資料庫的興起為
主要特徵
(3) 壯大階段─ 第二代超大計算機語料
庫開始出現
- 17. CLEC 語料庫的設計原則
(1) 首先建立原型。
(2) 對錯誤類型的劃分可按不同層次進
行,如詞法、句法、搭配、語義以
及語篇等。
(3) 分析結果可作為大學英語考試作文
部分給分的客觀依據。
(4) 建成後的語料庫應能實現在網上資
源共享。
(5) 可對作文中道地的表達和特徵進行
編碼。
- 18. 標註及編碼
編碼方案制定的重要原則:
(1) 每個編碼應能表達最大信息量,並
與所表達的錯誤類型直接聯繫起來
。
(2) 編碼方案應便於操作及修改。
(3) 編碼的複雜度與編碼效率平衡起來
。
(4) 應保證單個編碼者前後的一致性和
多個編碼者之間的一致性。
- 19. 編碼校對與一致性檢驗
(1) 在初步編碼完成後,重新校對所有
編碼,並利用統計手段檢驗編碼的
一致性。
(2) 同一編碼者在不同時間或不同編
碼者對某種錯誤類型的主觀判斷與
分類存在差異,往往造成編碼的偏
差。為避免此類問題產生,編碼者
要經常對不同時間的編碼進行比較
和矯正。不同編碼者應盡量多討
論,取得一致意見。
- 25. (3) 語料庫準備,步驟包括語料整理、
語料分割、詞語編碼、詞義編碼
等。
(4) 備檢文件製作,每一個語料庫都應
該有自己的備檢文件。
(5) 語料庫的發布和應用,可考慮通過
CD-ROM 或 INTERNET 發布建成的
語
料庫。
- 26. 目前尚存問題
(1) 語料來源和輸入。
(2) 廣大外語教師尚未完全理解語料庫
的意義,對語料庫在外語教學中
的
應用缺乏必要的心理準備和技術
培
訓,難以推廣。
(3) 隨著語料庫的發展,需要開發針對
中國學習者英語資料庫的索引軟