SlideShare a Scribd company logo
1 of 12
第九章
       千年之際展望語料庫語
言學
          辛克萊 (J. S inc lair) 撰
衛乃興譯




                        佩娟 15
1. 引語

• 語料庫將由自動化程序建立 ; 直接對語
  言輸入進行操作的完全自動化軟體將使
  用戶能夠獲得語料。
• 語料庫在急速地變大,需要開發可靠的
  自動化程序。
2. 分類
• 語料庫選取的文本 : 單一時段 vs 定期取樣

• 語料庫文本分類:
   外部標準 ( 來自使用文本的社會 ) 與
   內部標準 ( 依文本的語言特點而定的語言學標準 )

  前者成為分類的基礎。
  內部標准 --- 諸如題材與文體,目前較難加以確定。
3. 標記與注釋
• 一 . 所有的格式注釋都將由自動化方式進行
  。
    克里爾 (J. Clear) :目前的危險是
    標記部分極易“溜入”解釋部分。
• 二 . 未來的注釋部分將與文本本身隔開。
• 三 . 文本預處理和文本描述時採用的兩種明
  顯
    不同的方法趨於一致。

 這些方法可稱為“標識方法” (annotation approach)
 與”實時方法” (real time approach).
3. 標記與注釋
• 研究的工作涉及三個變量 :
• 1. 增加的內容是由人工來做還是靠自動程序。
• 2.” 未標注文本”是否保存 ?
     非文本信息是作為注釋保存在連續文本中,
     還是保存在另外的相關資料中。
• 3. 解釋性工作是預先做好還是應需而做 ( 實時 ) 。

過去是“人工 + 注 釋 文 本 + 預先”。
使用軟體以”實時方式,”迅速又高效地做大部分工作。
” 自動 + 未標注文本 + 實時”之模式很可能會普遍盛行。
4. 工具
• 重點將由注釋轉向工具,所有的工具可
  參照上述建議的”最小文本”標準相互連
  繫起來。
• 在未標注文本模式下標示時,恢復最小
  文本並將其與自動工具分別保存。
5. 結構分析
• 對語言進行詞類賦碼 ( 稱為詞法句法分析 ) ,
 其中制約語法 (constraint grammar) 的句
 法分析方法已達到幾乎自動化的程度,並
 相當準確。

 其他各類分析 - 語義、語用和語篇分析仍
 處於初期和不確定的發展階段。
6 基於語料庫與語料庫驅
             動
• 托格尼尼一布納里 (E. Tognini-Bonelli) 區
  分運用語料進行語言學研究時兩種截然不同
  的方法:
• 第一種基於語料庫 (corpus-based) 的研究
• 第二種進行語料庫驅動 (corpus-driven) 式的研究
7. 多語語料庫
• 翻譯語料庫,或者叫“平行語料庫”被用作未來
  詞典編撰的資料源,它們有可能變得太大,難
  以進行人工處理,但需要開發完全自動化的軟
  體。
• 重點移轉到比較語料庫。
• 語料庫的分類標準是由具體的文化限定的,外
  部標準研究對多語和單語工作同樣重要。
8 口語
• 口語語料庫與書面語料庫應當一起發展
  ,數字化錄音和聲波分析自動化工具的
  出現使我們愈加可能發現語言與文字間
  的進一步的相關性。由於其實用性,這
  個及時到來的研究方向應受到鼓勵。
9. 詞典
未來十年中,建立新的詞典模式極為必要。
這些新模式要用來處理搭配、語法共選、語義和
 諧與態度意義等方面的信息。
語料庫研究首先研究的幾類結構模式。
1. 新詞典的特徵將是詞彙語法式的,不先對句法
   和詞彙進行區分,而是將句法說明視為詞彙描
   述中的較為抽象的表述。
2. 語料庫研究表明,詞或詞組的意義對選擇與其
   共處一環境的其他詞與詞組有著深刻的影響。
3. 將詞作為意義單位是低效率的做法。新的詞典
   很可能基本上以詞群為單位,伴之以大量的內
   部結構變化。
10 總述
– 語料庫中的文本最好不加標示。
– 應當對新文本進行操作或者操作別的工具的輸
  出。
– 在語料準備過程中或工具使用中不應當再有人
  工干預。
– 目前的詞典模式將被限制在學術語領域內使用
  。

More Related Content

Similar to 第九章千年之際展望語料庫語言學 佩娟15

全文搜尋引擎的進階實作與應用
全文搜尋引擎的進階實作與應用全文搜尋引擎的進階實作與應用
全文搜尋引擎的進階實作與應用建興 王
 
Ch4語料庫建設及其統計手段和原理
Ch4語料庫建設及其統計手段和原理Ch4語料庫建設及其統計手段和原理
Ch4語料庫建設及其統計手段和原理ungian iunn
 
Ch4語料庫建設及其統計手段和原理
Ch4語料庫建設及其統計手段和原理Ch4語料庫建設及其統計手段和原理
Ch4語料庫建設及其統計手段和原理ungian iunn
 
构建可维护的Javascript 小米网
构建可维护的Javascript 小米网构建可维护的Javascript 小米网
构建可维护的Javascript 小米网yang alex
 
自然語言處理簡介
自然語言處理簡介自然語言處理簡介
自然語言處理簡介Mark Chang
 
09 文档管理实施步骤与案例
09 文档管理实施步骤与案例09 文档管理实施步骤与案例
09 文档管理实施步骤与案例Yeong-Long Chen
 
Elastic stack day-1
Elastic stack day-1Elastic stack day-1
Elastic stack day-1YI-CHING WU
 
IT445_Week_9.pdf
IT445_Week_9.pdfIT445_Week_9.pdf
IT445_Week_9.pdfAiondBdkpt
 
Langchain and Azure ML and Open AI
Langchain and Azure ML and Open AILangchain and Azure ML and Open AI
Langchain and Azure ML and Open AIKo Ko
 
10. 進入瀏覽器
10. 進入瀏覽器10. 進入瀏覽器
10. 進入瀏覽器Justin Lin
 
ch2語料庫與學習者語料庫
ch2語料庫與學習者語料庫ch2語料庫與學習者語料庫
ch2語料庫與學習者語料庫ungian iunn
 
運用MMLSpark 來加速Spark 上 機器學習專案
運用MMLSpark 來加速Spark 上機器學習專案運用MMLSpark 來加速Spark 上機器學習專案
運用MMLSpark 來加速Spark 上 機器學習專案Herman Wu
 
無瑕的程式碼 Clean Code 心得分享
無瑕的程式碼 Clean Code 心得分享無瑕的程式碼 Clean Code 心得分享
無瑕的程式碼 Clean Code 心得分享Win Yu
 
The Power of Variable Names
The Power of Variable NamesThe Power of Variable Names
The Power of Variable NamesRoy Chen
 
Sphinx 全文检索实践指南
Sphinx 全文检索实践指南Sphinx 全文检索实践指南
Sphinx 全文检索实践指南Shaoning Pan
 
Q con shanghai2013-[刘海锋]-[京东文件系统简介]
Q con shanghai2013-[刘海锋]-[京东文件系统简介]Q con shanghai2013-[刘海锋]-[京东文件系统简介]
Q con shanghai2013-[刘海锋]-[京东文件系统简介]Michael Zhang
 
語法操作平臺操作流程
語法操作平臺操作流程語法操作平臺操作流程
語法操作平臺操作流程Popa Huang
 

Similar to 第九章千年之際展望語料庫語言學 佩娟15 (20)

全文搜尋引擎的進階實作與應用
全文搜尋引擎的進階實作與應用全文搜尋引擎的進階實作與應用
全文搜尋引擎的進階實作與應用
 
Ch4語料庫建設及其統計手段和原理
Ch4語料庫建設及其統計手段和原理Ch4語料庫建設及其統計手段和原理
Ch4語料庫建設及其統計手段和原理
 
Ch4語料庫建設及其統計手段和原理
Ch4語料庫建設及其統計手段和原理Ch4語料庫建設及其統計手段和原理
Ch4語料庫建設及其統計手段和原理
 
构建可维护的Javascript 小米网
构建可维护的Javascript 小米网构建可维护的Javascript 小米网
构建可维护的Javascript 小米网
 
自然語言處理簡介
自然語言處理簡介自然語言處理簡介
自然語言處理簡介
 
09 文档管理实施步骤与案例
09 文档管理实施步骤与案例09 文档管理实施步骤与案例
09 文档管理实施步骤与案例
 
Elastic stack day-1
Elastic stack day-1Elastic stack day-1
Elastic stack day-1
 
IT445_Week_9.pdf
IT445_Week_9.pdfIT445_Week_9.pdf
IT445_Week_9.pdf
 
Langchain and Azure ML and Open AI
Langchain and Azure ML and Open AILangchain and Azure ML and Open AI
Langchain and Azure ML and Open AI
 
10. 進入瀏覽器
10. 進入瀏覽器10. 進入瀏覽器
10. 進入瀏覽器
 
OPM
OPMOPM
OPM
 
ch2語料庫與學習者語料庫
ch2語料庫與學習者語料庫ch2語料庫與學習者語料庫
ch2語料庫與學習者語料庫
 
運用MMLSpark 來加速Spark 上 機器學習專案
運用MMLSpark 來加速Spark 上機器學習專案運用MMLSpark 來加速Spark 上機器學習專案
運用MMLSpark 來加速Spark 上 機器學習專案
 
無瑕的程式碼 Clean Code 心得分享
無瑕的程式碼 Clean Code 心得分享無瑕的程式碼 Clean Code 心得分享
無瑕的程式碼 Clean Code 心得分享
 
The Power of Variable Names
The Power of Variable NamesThe Power of Variable Names
The Power of Variable Names
 
Statistical computing 00
Statistical computing 00Statistical computing 00
Statistical computing 00
 
Sphinx 全文检索实践指南
Sphinx 全文检索实践指南Sphinx 全文检索实践指南
Sphinx 全文检索实践指南
 
Q con shanghai2013-[刘海锋]-[京东文件系统简介]
Q con shanghai2013-[刘海锋]-[京东文件系统简介]Q con shanghai2013-[刘海锋]-[京东文件系统简介]
Q con shanghai2013-[刘海锋]-[京东文件系统简介]
 
主題檢索
主題檢索主題檢索
主題檢索
 
語法操作平臺操作流程
語法操作平臺操作流程語法操作平臺操作流程
語法操作平臺操作流程
 

More from ungian iunn

雙語讀寫佮語言科技: 台華雙語冊ê翻譯佮教學
雙語讀寫佮語言科技: 台華雙語冊ê翻譯佮教學雙語讀寫佮語言科技: 台華雙語冊ê翻譯佮教學
雙語讀寫佮語言科技: 台華雙語冊ê翻譯佮教學ungian iunn
 
華台雙語讀本製作實務及延伸學習探討
華台雙語讀本製作實務及延伸學習探討華台雙語讀本製作實務及延伸學習探討
華台雙語讀本製作實務及延伸學習探討ungian iunn
 
資訊管理系基本資料表 95年
資訊管理系基本資料表 95年資訊管理系基本資料表 95年
資訊管理系基本資料表 95年ungian iunn
 
20英語致謝詞的詞彙形式和社會制約因素初探17號雅芬
20英語致謝詞的詞彙形式和社會制約因素初探17號雅芬20英語致謝詞的詞彙形式和社會制約因素初探17號雅芬
20英語致謝詞的詞彙形式和社會制約因素初探17號雅芬ungian iunn
 
22英語會話中簡短反饋語言研究17號雅芬
22英語會話中簡短反饋語言研究17號雅芬22英語會話中簡短反饋語言研究17號雅芬
22英語會話中簡短反饋語言研究17號雅芬ungian iunn
 
Ch1語料庫語言學概述 汪女嫈
Ch1語料庫語言學概述 汪女嫈Ch1語料庫語言學概述 汪女嫈
Ch1語料庫語言學概述 汪女嫈ungian iunn
 
Ch8學術英語中的語義韻研究 Huilian
Ch8學術英語中的語義韻研究 HuilianCh8學術英語中的語義韻研究 Huilian
Ch8學術英語中的語義韻研究 Huilianungian iunn
 
Ch7語料庫語言學與學術英語語體研究概述 Unhoa
Ch7語料庫語言學與學術英語語體研究概述 UnhoaCh7語料庫語言學與學術英語語體研究概述 Unhoa
Ch7語料庫語言學與學術英語語體研究概述 Unhoaungian iunn
 
04 Ui1945年以前e台語羅馬字文獻看宜蘭地區e發展
04  Ui1945年以前e台語羅馬字文獻看宜蘭地區e發展04  Ui1945年以前e台語羅馬字文獻看宜蘭地區e發展
04 Ui1945年以前e台語羅馬字文獻看宜蘭地區e發展ungian iunn
 
03 台語華語句型差異分析-以金安版國民小學台語課本為例
03 台語華語句型差異分析-以金安版國民小學台語課本為例03 台語華語句型差異分析-以金安版國民小學台語課本為例
03 台語華語句型差異分析-以金安版國民小學台語課本為例ungian iunn
 
04 Ui1945年以前E台語羅馬字文獻看宜蘭地區E發展
04 Ui1945年以前E台語羅馬字文獻看宜蘭地區E發展04 Ui1945年以前E台語羅馬字文獻看宜蘭地區E發展
04 Ui1945年以前E台語羅馬字文獻看宜蘭地區E發展ungian iunn
 
02 國民小學台語教科書詞彙比較分析
02 國民小學台語教科書詞彙比較分析02 國民小學台語教科書詞彙比較分析
02 國民小學台語教科書詞彙比較分析ungian iunn
 
05 台語文學及非文學類詞彙差異分析
05 台語文學及非文學類詞彙差異分析05 台語文學及非文學類詞彙差異分析
05 台語文學及非文學類詞彙差異分析ungian iunn
 
06 第二、三批教育部台灣閩南語推薦用字-建議用字與異用字之分析比較研究
06 第二、三批教育部台灣閩南語推薦用字-建議用字與異用字之分析比較研究06 第二、三批教育部台灣閩南語推薦用字-建議用字與異用字之分析比較研究
06 第二、三批教育部台灣閩南語推薦用字-建議用字與異用字之分析比較研究ungian iunn
 
Ch3 語料庫證據支援的詞語搭配研究
Ch3 語料庫證據支援的詞語搭配研究Ch3 語料庫證據支援的詞語搭配研究
Ch3 語料庫證據支援的詞語搭配研究ungian iunn
 
Ch7 語料庫語言學與學術英語語體研究概述
Ch7 語料庫語言學與學術英語語體研究概述Ch7 語料庫語言學與學術英語語體研究概述
Ch7 語料庫語言學與學術英語語體研究概述ungian iunn
 
Ch6 英語詞語搭配的種類
Ch6 英語詞語搭配的種類Ch6 英語詞語搭配的種類
Ch6 英語詞語搭配的種類ungian iunn
 
Ch1 語料庫語言學概述
Ch1 語料庫語言學概述Ch1 語料庫語言學概述
Ch1 語料庫語言學概述ungian iunn
 
Ch8 學術英語中的語義韻研究
Ch8 學術英語中的語義韻研究Ch8 學術英語中的語義韻研究
Ch8 學術英語中的語義韻研究ungian iunn
 
ch46 基於英語課堂語料庫的詞彙教學課段分析
ch46 基於英語課堂語料庫的詞彙教學課段分析ch46 基於英語課堂語料庫的詞彙教學課段分析
ch46 基於英語課堂語料庫的詞彙教學課段分析ungian iunn
 

More from ungian iunn (20)

雙語讀寫佮語言科技: 台華雙語冊ê翻譯佮教學
雙語讀寫佮語言科技: 台華雙語冊ê翻譯佮教學雙語讀寫佮語言科技: 台華雙語冊ê翻譯佮教學
雙語讀寫佮語言科技: 台華雙語冊ê翻譯佮教學
 
華台雙語讀本製作實務及延伸學習探討
華台雙語讀本製作實務及延伸學習探討華台雙語讀本製作實務及延伸學習探討
華台雙語讀本製作實務及延伸學習探討
 
資訊管理系基本資料表 95年
資訊管理系基本資料表 95年資訊管理系基本資料表 95年
資訊管理系基本資料表 95年
 
20英語致謝詞的詞彙形式和社會制約因素初探17號雅芬
20英語致謝詞的詞彙形式和社會制約因素初探17號雅芬20英語致謝詞的詞彙形式和社會制約因素初探17號雅芬
20英語致謝詞的詞彙形式和社會制約因素初探17號雅芬
 
22英語會話中簡短反饋語言研究17號雅芬
22英語會話中簡短反饋語言研究17號雅芬22英語會話中簡短反饋語言研究17號雅芬
22英語會話中簡短反饋語言研究17號雅芬
 
Ch1語料庫語言學概述 汪女嫈
Ch1語料庫語言學概述 汪女嫈Ch1語料庫語言學概述 汪女嫈
Ch1語料庫語言學概述 汪女嫈
 
Ch8學術英語中的語義韻研究 Huilian
Ch8學術英語中的語義韻研究 HuilianCh8學術英語中的語義韻研究 Huilian
Ch8學術英語中的語義韻研究 Huilian
 
Ch7語料庫語言學與學術英語語體研究概述 Unhoa
Ch7語料庫語言學與學術英語語體研究概述 UnhoaCh7語料庫語言學與學術英語語體研究概述 Unhoa
Ch7語料庫語言學與學術英語語體研究概述 Unhoa
 
04 Ui1945年以前e台語羅馬字文獻看宜蘭地區e發展
04  Ui1945年以前e台語羅馬字文獻看宜蘭地區e發展04  Ui1945年以前e台語羅馬字文獻看宜蘭地區e發展
04 Ui1945年以前e台語羅馬字文獻看宜蘭地區e發展
 
03 台語華語句型差異分析-以金安版國民小學台語課本為例
03 台語華語句型差異分析-以金安版國民小學台語課本為例03 台語華語句型差異分析-以金安版國民小學台語課本為例
03 台語華語句型差異分析-以金安版國民小學台語課本為例
 
04 Ui1945年以前E台語羅馬字文獻看宜蘭地區E發展
04 Ui1945年以前E台語羅馬字文獻看宜蘭地區E發展04 Ui1945年以前E台語羅馬字文獻看宜蘭地區E發展
04 Ui1945年以前E台語羅馬字文獻看宜蘭地區E發展
 
02 國民小學台語教科書詞彙比較分析
02 國民小學台語教科書詞彙比較分析02 國民小學台語教科書詞彙比較分析
02 國民小學台語教科書詞彙比較分析
 
05 台語文學及非文學類詞彙差異分析
05 台語文學及非文學類詞彙差異分析05 台語文學及非文學類詞彙差異分析
05 台語文學及非文學類詞彙差異分析
 
06 第二、三批教育部台灣閩南語推薦用字-建議用字與異用字之分析比較研究
06 第二、三批教育部台灣閩南語推薦用字-建議用字與異用字之分析比較研究06 第二、三批教育部台灣閩南語推薦用字-建議用字與異用字之分析比較研究
06 第二、三批教育部台灣閩南語推薦用字-建議用字與異用字之分析比較研究
 
Ch3 語料庫證據支援的詞語搭配研究
Ch3 語料庫證據支援的詞語搭配研究Ch3 語料庫證據支援的詞語搭配研究
Ch3 語料庫證據支援的詞語搭配研究
 
Ch7 語料庫語言學與學術英語語體研究概述
Ch7 語料庫語言學與學術英語語體研究概述Ch7 語料庫語言學與學術英語語體研究概述
Ch7 語料庫語言學與學術英語語體研究概述
 
Ch6 英語詞語搭配的種類
Ch6 英語詞語搭配的種類Ch6 英語詞語搭配的種類
Ch6 英語詞語搭配的種類
 
Ch1 語料庫語言學概述
Ch1 語料庫語言學概述Ch1 語料庫語言學概述
Ch1 語料庫語言學概述
 
Ch8 學術英語中的語義韻研究
Ch8 學術英語中的語義韻研究Ch8 學術英語中的語義韻研究
Ch8 學術英語中的語義韻研究
 
ch46 基於英語課堂語料庫的詞彙教學課段分析
ch46 基於英語課堂語料庫的詞彙教學課段分析ch46 基於英語課堂語料庫的詞彙教學課段分析
ch46 基於英語課堂語料庫的詞彙教學課段分析
 

Recently uploaded

EDUC6506_ClassPresentation_TC330277 (1).pptx
EDUC6506_ClassPresentation_TC330277 (1).pptxEDUC6506_ClassPresentation_TC330277 (1).pptx
EDUC6506_ClassPresentation_TC330277 (1).pptxmekosin001123
 
EDUC6506(001)_ClassPresentation_2_TC330277 (1).pptx
EDUC6506(001)_ClassPresentation_2_TC330277 (1).pptxEDUC6506(001)_ClassPresentation_2_TC330277 (1).pptx
EDUC6506(001)_ClassPresentation_2_TC330277 (1).pptxmekosin001123
 
educ6506presentationtc3302771-240427173057-06a46de5.pptx
educ6506presentationtc3302771-240427173057-06a46de5.pptxeduc6506presentationtc3302771-240427173057-06a46de5.pptx
educ6506presentationtc3302771-240427173057-06a46de5.pptxmekosin001123
 
泽兰应用科学大学毕业证制作/定制国外大学录取通知书/购买一个假的建国科技大学硕士学位证书
泽兰应用科学大学毕业证制作/定制国外大学录取通知书/购买一个假的建国科技大学硕士学位证书泽兰应用科学大学毕业证制作/定制国外大学录取通知书/购买一个假的建国科技大学硕士学位证书
泽兰应用科学大学毕业证制作/定制国外大学录取通知书/购买一个假的建国科技大学硕士学位证书jakepaige317
 
1.🎉“入侵大学入学考试中心修改成绩”来袭!ALEVEL替考大揭秘,轻松搞定考试成绩! 💥你还在为无法进入大学招生系统而烦恼吗?想知道如何通过技术手段更改...
1.🎉“入侵大学入学考试中心修改成绩”来袭!ALEVEL替考大揭秘,轻松搞定考试成绩! 💥你还在为无法进入大学招生系统而烦恼吗?想知道如何通过技术手段更改...1.🎉“入侵大学入学考试中心修改成绩”来袭!ALEVEL替考大揭秘,轻松搞定考试成绩! 💥你还在为无法进入大学招生系统而烦恼吗?想知道如何通过技术手段更改...
1.🎉“入侵大学入学考试中心修改成绩”来袭!ALEVEL替考大揭秘,轻松搞定考试成绩! 💥你还在为无法进入大学招生系统而烦恼吗?想知道如何通过技术手段更改...黑客 接单【TG/微信qoqoqdqd】
 
哪里可以购买日本筑波学院大学学位记/做个假的文凭可认证吗/仿制日本大学毕业证/意大利语CELI证书定制
哪里可以购买日本筑波学院大学学位记/做个假的文凭可认证吗/仿制日本大学毕业证/意大利语CELI证书定制哪里可以购买日本筑波学院大学学位记/做个假的文凭可认证吗/仿制日本大学毕业证/意大利语CELI证书定制
哪里可以购买日本筑波学院大学学位记/做个假的文凭可认证吗/仿制日本大学毕业证/意大利语CELI证书定制jakepaige317
 

Recently uploaded (6)

EDUC6506_ClassPresentation_TC330277 (1).pptx
EDUC6506_ClassPresentation_TC330277 (1).pptxEDUC6506_ClassPresentation_TC330277 (1).pptx
EDUC6506_ClassPresentation_TC330277 (1).pptx
 
EDUC6506(001)_ClassPresentation_2_TC330277 (1).pptx
EDUC6506(001)_ClassPresentation_2_TC330277 (1).pptxEDUC6506(001)_ClassPresentation_2_TC330277 (1).pptx
EDUC6506(001)_ClassPresentation_2_TC330277 (1).pptx
 
educ6506presentationtc3302771-240427173057-06a46de5.pptx
educ6506presentationtc3302771-240427173057-06a46de5.pptxeduc6506presentationtc3302771-240427173057-06a46de5.pptx
educ6506presentationtc3302771-240427173057-06a46de5.pptx
 
泽兰应用科学大学毕业证制作/定制国外大学录取通知书/购买一个假的建国科技大学硕士学位证书
泽兰应用科学大学毕业证制作/定制国外大学录取通知书/购买一个假的建国科技大学硕士学位证书泽兰应用科学大学毕业证制作/定制国外大学录取通知书/购买一个假的建国科技大学硕士学位证书
泽兰应用科学大学毕业证制作/定制国外大学录取通知书/购买一个假的建国科技大学硕士学位证书
 
1.🎉“入侵大学入学考试中心修改成绩”来袭!ALEVEL替考大揭秘,轻松搞定考试成绩! 💥你还在为无法进入大学招生系统而烦恼吗?想知道如何通过技术手段更改...
1.🎉“入侵大学入学考试中心修改成绩”来袭!ALEVEL替考大揭秘,轻松搞定考试成绩! 💥你还在为无法进入大学招生系统而烦恼吗?想知道如何通过技术手段更改...1.🎉“入侵大学入学考试中心修改成绩”来袭!ALEVEL替考大揭秘,轻松搞定考试成绩! 💥你还在为无法进入大学招生系统而烦恼吗?想知道如何通过技术手段更改...
1.🎉“入侵大学入学考试中心修改成绩”来袭!ALEVEL替考大揭秘,轻松搞定考试成绩! 💥你还在为无法进入大学招生系统而烦恼吗?想知道如何通过技术手段更改...
 
哪里可以购买日本筑波学院大学学位记/做个假的文凭可认证吗/仿制日本大学毕业证/意大利语CELI证书定制
哪里可以购买日本筑波学院大学学位记/做个假的文凭可认证吗/仿制日本大学毕业证/意大利语CELI证书定制哪里可以购买日本筑波学院大学学位记/做个假的文凭可认证吗/仿制日本大学毕业证/意大利语CELI证书定制
哪里可以购买日本筑波学院大学学位记/做个假的文凭可认证吗/仿制日本大学毕业证/意大利语CELI证书定制
 

第九章千年之際展望語料庫語言學 佩娟15

  • 1. 第九章 千年之際展望語料庫語 言學 辛克萊 (J. S inc lair) 撰 衛乃興譯 佩娟 15
  • 2. 1. 引語 • 語料庫將由自動化程序建立 ; 直接對語 言輸入進行操作的完全自動化軟體將使 用戶能夠獲得語料。 • 語料庫在急速地變大,需要開發可靠的 自動化程序。
  • 3. 2. 分類 • 語料庫選取的文本 : 單一時段 vs 定期取樣 • 語料庫文本分類: 外部標準 ( 來自使用文本的社會 ) 與 內部標準 ( 依文本的語言特點而定的語言學標準 ) 前者成為分類的基礎。 內部標准 --- 諸如題材與文體,目前較難加以確定。
  • 4. 3. 標記與注釋 • 一 . 所有的格式注釋都將由自動化方式進行 。 克里爾 (J. Clear) :目前的危險是 標記部分極易“溜入”解釋部分。 • 二 . 未來的注釋部分將與文本本身隔開。 • 三 . 文本預處理和文本描述時採用的兩種明 顯 不同的方法趨於一致。 這些方法可稱為“標識方法” (annotation approach) 與”實時方法” (real time approach).
  • 5. 3. 標記與注釋 • 研究的工作涉及三個變量 : • 1. 增加的內容是由人工來做還是靠自動程序。 • 2.” 未標注文本”是否保存 ? 非文本信息是作為注釋保存在連續文本中, 還是保存在另外的相關資料中。 • 3. 解釋性工作是預先做好還是應需而做 ( 實時 ) 。 過去是“人工 + 注 釋 文 本 + 預先”。 使用軟體以”實時方式,”迅速又高效地做大部分工作。 ” 自動 + 未標注文本 + 實時”之模式很可能會普遍盛行。
  • 6. 4. 工具 • 重點將由注釋轉向工具,所有的工具可 參照上述建議的”最小文本”標準相互連 繫起來。 • 在未標注文本模式下標示時,恢復最小 文本並將其與自動工具分別保存。
  • 7. 5. 結構分析 • 對語言進行詞類賦碼 ( 稱為詞法句法分析 ) , 其中制約語法 (constraint grammar) 的句 法分析方法已達到幾乎自動化的程度,並 相當準確。 其他各類分析 - 語義、語用和語篇分析仍 處於初期和不確定的發展階段。
  • 8. 6 基於語料庫與語料庫驅 動 • 托格尼尼一布納里 (E. Tognini-Bonelli) 區 分運用語料進行語言學研究時兩種截然不同 的方法: • 第一種基於語料庫 (corpus-based) 的研究 • 第二種進行語料庫驅動 (corpus-driven) 式的研究
  • 9. 7. 多語語料庫 • 翻譯語料庫,或者叫“平行語料庫”被用作未來 詞典編撰的資料源,它們有可能變得太大,難 以進行人工處理,但需要開發完全自動化的軟 體。 • 重點移轉到比較語料庫。 • 語料庫的分類標準是由具體的文化限定的,外 部標準研究對多語和單語工作同樣重要。
  • 10. 8 口語 • 口語語料庫與書面語料庫應當一起發展 ,數字化錄音和聲波分析自動化工具的 出現使我們愈加可能發現語言與文字間 的進一步的相關性。由於其實用性,這 個及時到來的研究方向應受到鼓勵。
  • 11. 9. 詞典 未來十年中,建立新的詞典模式極為必要。 這些新模式要用來處理搭配、語法共選、語義和 諧與態度意義等方面的信息。 語料庫研究首先研究的幾類結構模式。 1. 新詞典的特徵將是詞彙語法式的,不先對句法 和詞彙進行區分,而是將句法說明視為詞彙描 述中的較為抽象的表述。 2. 語料庫研究表明,詞或詞組的意義對選擇與其 共處一環境的其他詞與詞組有著深刻的影響。 3. 將詞作為意義單位是低效率的做法。新的詞典 很可能基本上以詞群為單位,伴之以大量的內 部結構變化。
  • 12. 10 總述 – 語料庫中的文本最好不加標示。 – 應當對新文本進行操作或者操作別的工具的輸 出。 – 在語料準備過程中或工具使用中不應當再有人 工干預。 – 目前的詞典模式將被限制在學術語領域內使用 。