More Related Content
Similar to 第九章千年之際展望語料庫語言學 佩娟15
Similar to 第九章千年之際展望語料庫語言學 佩娟15 (20)
More from ungian iunn (20)
第九章千年之際展望語料庫語言學 佩娟15
- 1. 第九章
千年之際展望語料庫語
言學
辛克萊 (J. S inc lair) 撰
衛乃興譯
佩娟 15
- 3. 2. 分類
• 語料庫選取的文本 : 單一時段 vs 定期取樣
• 語料庫文本分類:
外部標準 ( 來自使用文本的社會 ) 與
內部標準 ( 依文本的語言特點而定的語言學標準 )
前者成為分類的基礎。
內部標准 --- 諸如題材與文體,目前較難加以確定。
- 4. 3. 標記與注釋
• 一 . 所有的格式注釋都將由自動化方式進行
。
克里爾 (J. Clear) :目前的危險是
標記部分極易“溜入”解釋部分。
• 二 . 未來的注釋部分將與文本本身隔開。
• 三 . 文本預處理和文本描述時採用的兩種明
顯
不同的方法趨於一致。
這些方法可稱為“標識方法” (annotation approach)
與”實時方法” (real time approach).
- 5. 3. 標記與注釋
• 研究的工作涉及三個變量 :
• 1. 增加的內容是由人工來做還是靠自動程序。
• 2.” 未標注文本”是否保存 ?
非文本信息是作為注釋保存在連續文本中,
還是保存在另外的相關資料中。
• 3. 解釋性工作是預先做好還是應需而做 ( 實時 ) 。
過去是“人工 + 注 釋 文 本 + 預先”。
使用軟體以”實時方式,”迅速又高效地做大部分工作。
” 自動 + 未標注文本 + 實時”之模式很可能會普遍盛行。
- 7. 5. 結構分析
• 對語言進行詞類賦碼 ( 稱為詞法句法分析 ) ,
其中制約語法 (constraint grammar) 的句
法分析方法已達到幾乎自動化的程度,並
相當準確。
其他各類分析 - 語義、語用和語篇分析仍
處於初期和不確定的發展階段。
- 8. 6 基於語料庫與語料庫驅
動
• 托格尼尼一布納里 (E. Tognini-Bonelli) 區
分運用語料進行語言學研究時兩種截然不同
的方法:
• 第一種基於語料庫 (corpus-based) 的研究
• 第二種進行語料庫驅動 (corpus-driven) 式的研究