SlideShare a Scribd company logo
1 of 30
智慧英文評分系統
07施O廷 08丁O紜 15鄭O文 17江O婷 19楊O役
大綱
• 動機&目標
• 系統架構
• 實現方法 - 模型訓練
• 實現方法 - 系統介面
4. 實現方法 -系統介面
3. 實現方法 - 模型訓練
2. 系統架構
1. 動機&目標
動機&目標
Chapter 1
動機
• 非選擇題批改不易&費時
• 人工評分的標準不易維持
4. 實現方法 -系統介面
3. 實現方法 - 模型訓練
2. 系統架構
1. 動機&目標
目標
• 訓練評分模型,根據問題與作答預測分數
• 提供評分網頁介面,即時回饋作答狀況
4. 實現方法 -系統介面
3. 實現方法 - 模型訓練
2. 系統架構
1. 動機&目標
系統架構
Chapter 2
4. 實現方法 -系統介面
3. 實現方法 - 模型訓練
2. 系統架構
1. 動機&目標
4. 實現方法 -系統介面
3. 實現方法 - 模型訓練
2. 系統架構
1. 動機&目標
實現方法 - 模型訓練
Chapter 3
4. 實現方法 -系統介面
3. 實現方法 - 模型訓練
2. 系統架構
1. 動機&目標
1 2
STEP
選擇適合語意組合與轉換
並結合數值迴歸預測的模型
ML & DL 模型
選擇、組合
3 4 5
STEP
包含資料清理、從原始
資料延伸新特徵
特徵工程
STEP
文章相關內容、實際學
生作答、教師評分結果
資料檢視
STEP
評估指標:MCRMSE
訓練、評估
預測結果
STEP
調整特徵、模型參數與
組合
優化模型
表現
4. 實現方法 -系統介面
3. 實現方法 - 模型訓練
2. 系統架構
1. 動機&目標
prompt (共 4 篇文章)
• 4 欄位
⚬ prompt_id:文章編號
⚬ prompt_title:文章標題
⚬ prompt_text:文章內容
⚬ prompt_question:摘要目標
4. 實現方法 -系統介面
3. 實現方法 - 模型訓練
2. 系統架構
1. 動機&目標
STEP 1 - 資料檢視
summaries (共 7165 位學生)
• 5 欄位
⚬ student_id:學生編號
⚬ prompt_id:摘要的文章編號
⚬ text:摘要內容
⚬ content:內容組織 (target 1)
⚬ wording:語意邏輯 (target 2)
4. 實現方法 -系統介面
3. 實現方法 - 模型訓練
2. 系統架構
1. 動機&目標
STEP 1 - 資料檢視
原特徵 延伸特徵
• 文章標題
• 摘要目標
• 文章內容
• 學生摘要內容
Content 相關:
• 文章字數
• 摘要字數
• 更正錯字後摘要
• 文章&摘要相似度
Wording 相關:
• 錯字數量
• 停用字
(stopwords)字數
• 文字豐富度
4. 實現方法 -系統介面
3. 實現方法 - 模型訓練
2. 系統架構
1. 動機&目標
約20項
STEP 2 - 特徵工程
4. 實現方法 -系統介面
3. 實現方法 - 模型訓練
2. 系統架構
1. 動機&目標
文章&摘要相似度
• 以文章用字 (A)、摘要用字 (B) 的聯集、交集數量計算
• 數值愈高,相似程度愈高
文字豐富度
• 找出摘要中用了多少種單字
• 數值愈高,豐富程度愈高
STEP 2 - 特徵工程 e.g.
4. 實現方法 -系統介面
3. 實現方法 - 模型訓練
2. 系統架構
1. 動機&目標
Embeddin
g
Feature
Engineeri
ng
Regress
or
Regress
or
原特徵
延伸特徵
STEP 3 - ML & DL 模型選擇、組合
STEP 3 - ML & DL 模型選擇、組合
Embedding Regressor Feature Filter
• BERT
• DeBERTaV3
• Random Forest
• XGBoosting
• CatBoosting
• LGBM
• Lasso
4. 實現方法 -系統介面
3. 實現方法 - 模型訓練
2. 系統架構
1. 動機&目標
4. 實現方法 -系統介面
3. 實現方法 - 模型訓練
2. 系統架構
1. 動機&目標
BERT
• 每個字
= Word(Segment) + Position
DeBERTa
• 每個字
= Word、Relative Position
• 輸出 Prediction 前加入 Absolute Position
STEP 3 - ML & DL 模型選擇、組合
4. 實現方法 -系統介面
3. 實現方法 - 模型訓練
2. 系統架構
1. 動機&目標
原特徵 +
BERT
多特徵
+DeBERTaV3+LGBM
多特徵
+DeBERTaV3+LGBM+La
sso
多特徵
+DeBERTaV3+LGBM+XG
B+CAT
延伸特徵 + RF
STEP 3 - ML & DL 模型選擇、組合
Action 1 • 原特徵:
⚬ prompt_question
⚬ prompt_text
⚬ text
• BERT:
[CLS]+prompt_question+prompt_text+[SEP]+text
4. 實現方法 -系統介面
3. 實現方法 - 模型訓練
2. 系統架構
1. 動機&目標
STEP 3 - ML & DL 模型選擇、組合
• 延伸特徵:
⚬ text_word_cnt
⚬ text_length
⚬ text_stopword_cnt
⚬ text_punct_cnt
⚬ text_number_cnt
• Regressor 模型:
RandomForestModel
原特徵 +
BERT
多特徵
+DeBERTaV3+LGBM
多特徵
+DeBERTaV3+LGBM+La
sso
多特徵
+DeBERTaV3+LGBM+XG
B+CAT
延伸特徵 +
RF
Action 2
4. 實現方法 -系統介面
3. 實現方法 - 模型訓練
2. 系統架構
1. 動機&目標
STEP 3 - ML & DL 模型選擇、組合
• 多特徵:
⚬ prompt_length
⚬ summary_length
⚬ fixed_summary_text
⚬ spelling_err_num
⚬ length_ratio
⚬ bigram_overlap_count
⚬ bigram_overlap_ratio
⚬ trigram_overlap_count
⚬ trigram_overlap_ratio
⚬ quotes_count
• DeBERTaV3
• LGBM
原特徵 +
BERT
多特徵
+DeBERTaV3+LG
BM
多特徵
+DeBERTaV3+LGBM+La
sso
多特徵
+DeBERTaV3+LGBM+XG
B+CAT
延伸特徵 +
RF
Action 3
4. 實現方法 -系統介面
3. 實現方法 - 模型訓練
2. 系統架構
1. 動機&目標
STEP 3 - ML & DL 模型選擇、組合
• 多特徵:
⚬ prompt_length
⚬ summary_leng
th
⚬ fixed_summar
y_text
⚬ spelling_err_n
um
⚬ length_ratio
⚬ bigram_overla
p_count
⚬ bigram_overla
p_ratio
⚬ trigram_overla
p_count
⚬ trigram_overla
p_ratio
⚬ quotes_count
• DeBERTaV3
• LGBM
原特徵 +
BERT
多特徵
+DeBERTaV3+LG
BM
多特徵
+DeBERTaV3+LGBM
多特徵
+DeBERTaV3+LGBM+XG
B+CAT
延伸特徵 +
RF
Action 4
4. 實現方法 -系統介面
3. 實現方法 - 模型訓練
2. 系統架構
1. 動機&目標
STEP 3 - ML & DL 模型選擇、組合
• 多特徵:
⚬ prompt_l
ength
⚬ summary
_length
⚬ fixed_su
mmary_t
ext
⚬ spelling_
err_num
⚬ length_ra
tio
⚬ bigram_o
verlap_co
unt
⚬ bigram_o
verlap_ra
tio
⚬ trigram_o
verlap_co
原特徵 +
BERT
多特徵
+DeBERTaV3+LG
BM
多特徵
+DeBERTaV3+LGBM+La
sso
多特徵
+DeBERTaV3+LGBM
延伸特徵 +
RF
Action 5
+DeBERTaV3+LGBM
+Lasso+DeBERTaV3+LGBM
+DeBERTaV3+LGBM+XGB+CAT
+RF
+BERT
4. 實現方法 -系統介面
3. 實現方法 - 模型訓練
2. 系統架構
1. 動機&目標
STEP 4 - 訓練、評估預測結果
STEP 5 - 優化方向
• 要加特徵,並找出更合適的組合
• DeBERTaV3 + 合適的 Regressors
4. 實現方法 -系統介面
3. 實現方法 - 模型訓練
2. 系統架構
1. 動機&目標
Kaggle Competition
4. 實現方法 -系統介面
3. 實現方法 - 模型訓練
2. 系統架構
1. 動機&目標
until 10/4
實現方法 - 系統介面
Chapter 4
4. 實現方法 -系統介面
3. 實現方法 - 模型訓練
2. 系統架構
1. 動機&目標
4. 實現方法 -系統介面
3. 實現方法 - 模型訓練
2. 系統架構
1. 動機&目標
GUI
4. 實現方法 -系統介面
3. 實現方法 - 模型訓練
2. 系統架構
1. 動機&目標
URL Routing
智慧
評分系統
應用軟體架構
https://
127.0.0.1:5000
HTML Python
• 顯示文章內容、摘要目標等
資訊
• 提供學生輸入摘要的欄位
• 顯示「內容組織」、「語意邏
輯」等級
• 資料讀取
• 特徵處理
• 模型訓練
• 儲存權重
• 從網頁讀取學生輸入
• 讀取權重&預測分數
• 輸出分數到網頁
4. 實現方法 -系統介面
3. 實現方法 - 模型訓練
2. 系統架構
1. 動機&目標
應用軟體架構
優化方向
• 使用預測表現更好的模型
• 新增手機 app 版本
• 針對中文語料
• 針對更多元的非選擇題型 (e.g. 引導式寫作、圖表詮釋)
4. 實現方法 -系統介面
3. 實現方法 - 模型訓練
2. 系統架構
1. 動機&目標
感謝聆
聽 :)

More Related Content

Similar to 01_智慧英文評分系統 Evaluate Student Summaries

改善Programmer生活的sql技能
改善Programmer生活的sql技能改善Programmer生活的sql技能
改善Programmer生活的sql技能Rack Lin
 
Foundation of software development 1
Foundation of software development 1Foundation of software development 1
Foundation of software development 1netdbncku
 
Se2009 ch8
Se2009 ch8 Se2009 ch8
Se2009 ch8 浒 刘
 
软件工程 第八章
软件工程 第八章软件工程 第八章
软件工程 第八章浒 刘
 
机器学习与深度学习简介.pdf
机器学习与深度学习简介.pdf机器学习与深度学习简介.pdf
机器学习与深度学习简介.pdfCyanny LIANG
 
Refactoring with Patterns in PHP
Refactoring with Patterns in PHPRefactoring with Patterns in PHP
Refactoring with Patterns in PHPJace Ju
 
04.web sphere培训 应用websphere优化
04.web sphere培训 应用websphere优化04.web sphere培训 应用websphere优化
04.web sphere培训 应用websphere优化littlecong
 
MySQL查询优化浅析
MySQL查询优化浅析MySQL查询优化浅析
MySQL查询优化浅析frogd
 
Clipper@datacon.2019.tw
Clipper@datacon.2019.twClipper@datacon.2019.tw
Clipper@datacon.2019.twWei-Yu Chen
 
腾讯大讲堂48 数据库查询优化浅析
腾讯大讲堂48 数据库查询优化浅析腾讯大讲堂48 数据库查询优化浅析
腾讯大讲堂48 数据库查询优化浅析areyouok
 
腾讯大讲堂48 数据库查询优化浅析
腾讯大讲堂48 数据库查询优化浅析腾讯大讲堂48 数据库查询优化浅析
腾讯大讲堂48 数据库查询优化浅析topgeek
 
信息系统架构设计
信息系统架构设计信息系统架构设计
信息系统架构设计Weijun Zhong
 
04_動物姿態識別Pet pose classification
04_動物姿態識別Pet pose classification04_動物姿態識別Pet pose classification
04_動物姿態識別Pet pose classificationIttrainingIttraining
 
软件工程 第三章
软件工程 第三章软件工程 第三章
软件工程 第三章浒 刘
 
淘宝网前台应用性能优化实践
淘宝网前台应用性能优化实践淘宝网前台应用性能优化实践
淘宝网前台应用性能优化实践丁 宇
 
2012 China 软件测试大会
2012 China 软件测试大会2012 China 软件测试大会
2012 China 软件测试大会mayun1688
 
系統整合
系統整合系統整合
系統整合麒 王
 

Similar to 01_智慧英文評分系統 Evaluate Student Summaries (20)

改善Programmer生活的sql技能
改善Programmer生活的sql技能改善Programmer生活的sql技能
改善Programmer生活的sql技能
 
Foundation of software development 1
Foundation of software development 1Foundation of software development 1
Foundation of software development 1
 
Se2009 ch8
Se2009 ch8 Se2009 ch8
Se2009 ch8
 
软件工程 第八章
软件工程 第八章软件工程 第八章
软件工程 第八章
 
Mod02 requirements phase
Mod02 requirements phaseMod02 requirements phase
Mod02 requirements phase
 
Spark tutorial
Spark tutorialSpark tutorial
Spark tutorial
 
机器学习与深度学习简介.pdf
机器学习与深度学习简介.pdf机器学习与深度学习简介.pdf
机器学习与深度学习简介.pdf
 
Refactoring with Patterns in PHP
Refactoring with Patterns in PHPRefactoring with Patterns in PHP
Refactoring with Patterns in PHP
 
04.web sphere培训 应用websphere优化
04.web sphere培训 应用websphere优化04.web sphere培训 应用websphere优化
04.web sphere培训 应用websphere优化
 
MySQL查询优化浅析
MySQL查询优化浅析MySQL查询优化浅析
MySQL查询优化浅析
 
Clipper@datacon.2019.tw
Clipper@datacon.2019.twClipper@datacon.2019.tw
Clipper@datacon.2019.tw
 
腾讯大讲堂48 数据库查询优化浅析
腾讯大讲堂48 数据库查询优化浅析腾讯大讲堂48 数据库查询优化浅析
腾讯大讲堂48 数据库查询优化浅析
 
腾讯大讲堂48 数据库查询优化浅析
腾讯大讲堂48 数据库查询优化浅析腾讯大讲堂48 数据库查询优化浅析
腾讯大讲堂48 数据库查询优化浅析
 
信息系统架构设计
信息系统架构设计信息系统架构设计
信息系统架构设计
 
04_動物姿態識別Pet pose classification
04_動物姿態識別Pet pose classification04_動物姿態識別Pet pose classification
04_動物姿態識別Pet pose classification
 
软件工程 第三章
软件工程 第三章软件工程 第三章
软件工程 第三章
 
Chapter2
Chapter2  Chapter2
Chapter2
 
淘宝网前台应用性能优化实践
淘宝网前台应用性能优化实践淘宝网前台应用性能优化实践
淘宝网前台应用性能优化实践
 
2012 China 软件测试大会
2012 China 软件测试大会2012 China 软件测试大会
2012 China 软件测试大会
 
系統整合
系統整合系統整合
系統整合
 

More from IttrainingIttraining

【USB韌體設計課程】精選講義節錄-USB的列舉過程_艾鍗學院
【USB韌體設計課程】精選講義節錄-USB的列舉過程_艾鍗學院【USB韌體設計課程】精選講義節錄-USB的列舉過程_艾鍗學院
【USB韌體設計課程】精選講義節錄-USB的列舉過程_艾鍗學院IttrainingIttraining
 
商品辨識定位系統_艾鍗學院-AIoT智能行動服務物聯網班
商品辨識定位系統_艾鍗學院-AIoT智能行動服務物聯網班商品辨識定位系統_艾鍗學院-AIoT智能行動服務物聯網班
商品辨識定位系統_艾鍗學院-AIoT智能行動服務物聯網班IttrainingIttraining
 
居家雲端照護系統_艾鍗學院-AIoT智能行動服務物聯網班
居家雲端照護系統_艾鍗學院-AIoT智能行動服務物聯網班居家雲端照護系統_艾鍗學院-AIoT智能行動服務物聯網班
居家雲端照護系統_艾鍗學院-AIoT智能行動服務物聯網班IttrainingIttraining
 
AIoT 智能商店_艾鍗學院-AIoT智能行動服務物聯網班
AIoT 智能商店_艾鍗學院-AIoT智能行動服務物聯網班AIoT 智能商店_艾鍗學院-AIoT智能行動服務物聯網班
AIoT 智能商店_艾鍗學院-AIoT智能行動服務物聯網班IttrainingIttraining
 
03_AI旅宿訂房系統-AI智慧訂房方案
03_AI旅宿訂房系統-AI智慧訂房方案03_AI旅宿訂房系統-AI智慧訂房方案
03_AI旅宿訂房系統-AI智慧訂房方案IttrainingIttraining
 
02_永豐AI GO競賽攻房戰 Dr. House Team
02_永豐AI GO競賽攻房戰 Dr. House Team02_永豐AI GO競賽攻房戰 Dr. House Team
02_永豐AI GO競賽攻房戰 Dr. House TeamIttrainingIttraining
 
05_關鍵字提取與廣告文稿評分系統_以化妝品產業為例
05_關鍵字提取與廣告文稿評分系統_以化妝品產業為例05_關鍵字提取與廣告文稿評分系統_以化妝品產業為例
05_關鍵字提取與廣告文稿評分系統_以化妝品產業為例IttrainingIttraining
 
Novozymes Enzyme Stability Prediction
Novozymes Enzyme Stability PredictionNovozymes Enzyme Stability Prediction
Novozymes Enzyme Stability PredictionIttrainingIttraining
 
旅遊推薦系統Tourist Line Spot
旅遊推薦系統Tourist Line Spot旅遊推薦系統Tourist Line Spot
旅遊推薦系統Tourist Line SpotIttrainingIttraining
 
APCS程式設計實作題(Python解題)-物品堆疊/邏輯運算子
APCS程式設計實作題(Python解題)-物品堆疊/邏輯運算子APCS程式設計實作題(Python解題)-物品堆疊/邏輯運算子
APCS程式設計實作題(Python解題)-物品堆疊/邏輯運算子IttrainingIttraining
 
APCS程式設計實作題(Python解題)-解題技巧/特殊編碼/完全奇數
APCS程式設計實作題(Python解題)-解題技巧/特殊編碼/完全奇數APCS程式設計實作題(Python解題)-解題技巧/特殊編碼/完全奇數
APCS程式設計實作題(Python解題)-解題技巧/特殊編碼/完全奇數IttrainingIttraining
 
AI鏡頭-人臉自動置中_Vision AI-Face Tracking and center aligning
AI鏡頭-人臉自動置中_Vision AI-Face Tracking and center aligningAI鏡頭-人臉自動置中_Vision AI-Face Tracking and center aligning
AI鏡頭-人臉自動置中_Vision AI-Face Tracking and center aligningIttrainingIttraining
 

More from IttrainingIttraining (20)

【USB韌體設計課程】精選講義節錄-USB的列舉過程_艾鍗學院
【USB韌體設計課程】精選講義節錄-USB的列舉過程_艾鍗學院【USB韌體設計課程】精選講義節錄-USB的列舉過程_艾鍗學院
【USB韌體設計課程】精選講義節錄-USB的列舉過程_艾鍗學院
 
商品辨識定位系統_艾鍗學院-AIoT智能行動服務物聯網班
商品辨識定位系統_艾鍗學院-AIoT智能行動服務物聯網班商品辨識定位系統_艾鍗學院-AIoT智能行動服務物聯網班
商品辨識定位系統_艾鍗學院-AIoT智能行動服務物聯網班
 
居家雲端照護系統_艾鍗學院-AIoT智能行動服務物聯網班
居家雲端照護系統_艾鍗學院-AIoT智能行動服務物聯網班居家雲端照護系統_艾鍗學院-AIoT智能行動服務物聯網班
居家雲端照護系統_艾鍗學院-AIoT智能行動服務物聯網班
 
AIoT 智能商店_艾鍗學院-AIoT智能行動服務物聯網班
AIoT 智能商店_艾鍗學院-AIoT智能行動服務物聯網班AIoT 智能商店_艾鍗學院-AIoT智能行動服務物聯網班
AIoT 智能商店_艾鍗學院-AIoT智能行動服務物聯網班
 
03_AI旅宿訂房系統-AI智慧訂房方案
03_AI旅宿訂房系統-AI智慧訂房方案03_AI旅宿訂房系統-AI智慧訂房方案
03_AI旅宿訂房系統-AI智慧訂房方案
 
02_永豐AI GO競賽攻房戰 Dr. House Team
02_永豐AI GO競賽攻房戰 Dr. House Team02_永豐AI GO競賽攻房戰 Dr. House Team
02_永豐AI GO競賽攻房戰 Dr. House Team
 
05_關鍵字提取與廣告文稿評分系統_以化妝品產業為例
05_關鍵字提取與廣告文稿評分系統_以化妝品產業為例05_關鍵字提取與廣告文稿評分系統_以化妝品產業為例
05_關鍵字提取與廣告文稿評分系統_以化妝品產業為例
 
Novozymes Enzyme Stability Prediction
Novozymes Enzyme Stability PredictionNovozymes Enzyme Stability Prediction
Novozymes Enzyme Stability Prediction
 
旅遊推薦系統Tourist Line Spot
旅遊推薦系統Tourist Line Spot旅遊推薦系統Tourist Line Spot
旅遊推薦系統Tourist Line Spot
 
無人商店Unmanned Store
無人商店Unmanned Store無人商店Unmanned Store
無人商店Unmanned Store
 
物件辨識攝影機
物件辨識攝影機物件辨識攝影機
物件辨識攝影機
 
ChatBot問答機器人
ChatBot問答機器人ChatBot問答機器人
ChatBot問答機器人
 
街景門牌實價登錄
街景門牌實價登錄街景門牌實價登錄
街景門牌實價登錄
 
APCS程式設計實作題(Python解題)-物品堆疊/邏輯運算子
APCS程式設計實作題(Python解題)-物品堆疊/邏輯運算子APCS程式設計實作題(Python解題)-物品堆疊/邏輯運算子
APCS程式設計實作題(Python解題)-物品堆疊/邏輯運算子
 
APCS程式設計實作題(Python解題)-解題技巧/特殊編碼/完全奇數
APCS程式設計實作題(Python解題)-解題技巧/特殊編碼/完全奇數APCS程式設計實作題(Python解題)-解題技巧/特殊編碼/完全奇數
APCS程式設計實作題(Python解題)-解題技巧/特殊編碼/完全奇數
 
物聯智慧杯墊 Smart Cup Pad
物聯智慧杯墊 Smart Cup Pad物聯智慧杯墊 Smart Cup Pad
物聯智慧杯墊 Smart Cup Pad
 
口罩偵測機 Mask-detection
口罩偵測機 Mask-detection口罩偵測機 Mask-detection
口罩偵測機 Mask-detection
 
居家智能LED調光燈
居家智能LED調光燈居家智能LED調光燈
居家智能LED調光燈
 
智能居家監控Smart House
智能居家監控Smart House智能居家監控Smart House
智能居家監控Smart House
 
AI鏡頭-人臉自動置中_Vision AI-Face Tracking and center aligning
AI鏡頭-人臉自動置中_Vision AI-Face Tracking and center aligningAI鏡頭-人臉自動置中_Vision AI-Face Tracking and center aligning
AI鏡頭-人臉自動置中_Vision AI-Face Tracking and center aligning
 

01_智慧英文評分系統 Evaluate Student Summaries

  • 2. 大綱 • 動機&目標 • 系統架構 • 實現方法 - 模型訓練 • 實現方法 - 系統介面
  • 3. 4. 實現方法 -系統介面 3. 實現方法 - 模型訓練 2. 系統架構 1. 動機&目標 動機&目標 Chapter 1
  • 4. 動機 • 非選擇題批改不易&費時 • 人工評分的標準不易維持 4. 實現方法 -系統介面 3. 實現方法 - 模型訓練 2. 系統架構 1. 動機&目標
  • 5. 目標 • 訓練評分模型,根據問題與作答預測分數 • 提供評分網頁介面,即時回饋作答狀況 4. 實現方法 -系統介面 3. 實現方法 - 模型訓練 2. 系統架構 1. 動機&目標
  • 6. 系統架構 Chapter 2 4. 實現方法 -系統介面 3. 實現方法 - 模型訓練 2. 系統架構 1. 動機&目標
  • 7. 4. 實現方法 -系統介面 3. 實現方法 - 模型訓練 2. 系統架構 1. 動機&目標
  • 8. 實現方法 - 模型訓練 Chapter 3 4. 實現方法 -系統介面 3. 實現方法 - 模型訓練 2. 系統架構 1. 動機&目標
  • 9. 1 2 STEP 選擇適合語意組合與轉換 並結合數值迴歸預測的模型 ML & DL 模型 選擇、組合 3 4 5 STEP 包含資料清理、從原始 資料延伸新特徵 特徵工程 STEP 文章相關內容、實際學 生作答、教師評分結果 資料檢視 STEP 評估指標:MCRMSE 訓練、評估 預測結果 STEP 調整特徵、模型參數與 組合 優化模型 表現 4. 實現方法 -系統介面 3. 實現方法 - 模型訓練 2. 系統架構 1. 動機&目標
  • 10. prompt (共 4 篇文章) • 4 欄位 ⚬ prompt_id:文章編號 ⚬ prompt_title:文章標題 ⚬ prompt_text:文章內容 ⚬ prompt_question:摘要目標 4. 實現方法 -系統介面 3. 實現方法 - 模型訓練 2. 系統架構 1. 動機&目標 STEP 1 - 資料檢視
  • 11. summaries (共 7165 位學生) • 5 欄位 ⚬ student_id:學生編號 ⚬ prompt_id:摘要的文章編號 ⚬ text:摘要內容 ⚬ content:內容組織 (target 1) ⚬ wording:語意邏輯 (target 2) 4. 實現方法 -系統介面 3. 實現方法 - 模型訓練 2. 系統架構 1. 動機&目標 STEP 1 - 資料檢視
  • 12. 原特徵 延伸特徵 • 文章標題 • 摘要目標 • 文章內容 • 學生摘要內容 Content 相關: • 文章字數 • 摘要字數 • 更正錯字後摘要 • 文章&摘要相似度 Wording 相關: • 錯字數量 • 停用字 (stopwords)字數 • 文字豐富度 4. 實現方法 -系統介面 3. 實現方法 - 模型訓練 2. 系統架構 1. 動機&目標 約20項 STEP 2 - 特徵工程
  • 13. 4. 實現方法 -系統介面 3. 實現方法 - 模型訓練 2. 系統架構 1. 動機&目標 文章&摘要相似度 • 以文章用字 (A)、摘要用字 (B) 的聯集、交集數量計算 • 數值愈高,相似程度愈高 文字豐富度 • 找出摘要中用了多少種單字 • 數值愈高,豐富程度愈高 STEP 2 - 特徵工程 e.g.
  • 14. 4. 實現方法 -系統介面 3. 實現方法 - 模型訓練 2. 系統架構 1. 動機&目標 Embeddin g Feature Engineeri ng Regress or Regress or 原特徵 延伸特徵 STEP 3 - ML & DL 模型選擇、組合
  • 15. STEP 3 - ML & DL 模型選擇、組合 Embedding Regressor Feature Filter • BERT • DeBERTaV3 • Random Forest • XGBoosting • CatBoosting • LGBM • Lasso 4. 實現方法 -系統介面 3. 實現方法 - 模型訓練 2. 系統架構 1. 動機&目標
  • 16. 4. 實現方法 -系統介面 3. 實現方法 - 模型訓練 2. 系統架構 1. 動機&目標 BERT • 每個字 = Word(Segment) + Position DeBERTa • 每個字 = Word、Relative Position • 輸出 Prediction 前加入 Absolute Position STEP 3 - ML & DL 模型選擇、組合
  • 17. 4. 實現方法 -系統介面 3. 實現方法 - 模型訓練 2. 系統架構 1. 動機&目標 原特徵 + BERT 多特徵 +DeBERTaV3+LGBM 多特徵 +DeBERTaV3+LGBM+La sso 多特徵 +DeBERTaV3+LGBM+XG B+CAT 延伸特徵 + RF STEP 3 - ML & DL 模型選擇、組合 Action 1 • 原特徵: ⚬ prompt_question ⚬ prompt_text ⚬ text • BERT: [CLS]+prompt_question+prompt_text+[SEP]+text
  • 18. 4. 實現方法 -系統介面 3. 實現方法 - 模型訓練 2. 系統架構 1. 動機&目標 STEP 3 - ML & DL 模型選擇、組合 • 延伸特徵: ⚬ text_word_cnt ⚬ text_length ⚬ text_stopword_cnt ⚬ text_punct_cnt ⚬ text_number_cnt • Regressor 模型: RandomForestModel 原特徵 + BERT 多特徵 +DeBERTaV3+LGBM 多特徵 +DeBERTaV3+LGBM+La sso 多特徵 +DeBERTaV3+LGBM+XG B+CAT 延伸特徵 + RF Action 2
  • 19. 4. 實現方法 -系統介面 3. 實現方法 - 模型訓練 2. 系統架構 1. 動機&目標 STEP 3 - ML & DL 模型選擇、組合 • 多特徵: ⚬ prompt_length ⚬ summary_length ⚬ fixed_summary_text ⚬ spelling_err_num ⚬ length_ratio ⚬ bigram_overlap_count ⚬ bigram_overlap_ratio ⚬ trigram_overlap_count ⚬ trigram_overlap_ratio ⚬ quotes_count • DeBERTaV3 • LGBM 原特徵 + BERT 多特徵 +DeBERTaV3+LG BM 多特徵 +DeBERTaV3+LGBM+La sso 多特徵 +DeBERTaV3+LGBM+XG B+CAT 延伸特徵 + RF Action 3
  • 20. 4. 實現方法 -系統介面 3. 實現方法 - 模型訓練 2. 系統架構 1. 動機&目標 STEP 3 - ML & DL 模型選擇、組合 • 多特徵: ⚬ prompt_length ⚬ summary_leng th ⚬ fixed_summar y_text ⚬ spelling_err_n um ⚬ length_ratio ⚬ bigram_overla p_count ⚬ bigram_overla p_ratio ⚬ trigram_overla p_count ⚬ trigram_overla p_ratio ⚬ quotes_count • DeBERTaV3 • LGBM 原特徵 + BERT 多特徵 +DeBERTaV3+LG BM 多特徵 +DeBERTaV3+LGBM 多特徵 +DeBERTaV3+LGBM+XG B+CAT 延伸特徵 + RF Action 4
  • 21. 4. 實現方法 -系統介面 3. 實現方法 - 模型訓練 2. 系統架構 1. 動機&目標 STEP 3 - ML & DL 模型選擇、組合 • 多特徵: ⚬ prompt_l ength ⚬ summary _length ⚬ fixed_su mmary_t ext ⚬ spelling_ err_num ⚬ length_ra tio ⚬ bigram_o verlap_co unt ⚬ bigram_o verlap_ra tio ⚬ trigram_o verlap_co 原特徵 + BERT 多特徵 +DeBERTaV3+LG BM 多特徵 +DeBERTaV3+LGBM+La sso 多特徵 +DeBERTaV3+LGBM 延伸特徵 + RF Action 5
  • 22. +DeBERTaV3+LGBM +Lasso+DeBERTaV3+LGBM +DeBERTaV3+LGBM+XGB+CAT +RF +BERT 4. 實現方法 -系統介面 3. 實現方法 - 模型訓練 2. 系統架構 1. 動機&目標 STEP 4 - 訓練、評估預測結果
  • 23. STEP 5 - 優化方向 • 要加特徵,並找出更合適的組合 • DeBERTaV3 + 合適的 Regressors 4. 實現方法 -系統介面 3. 實現方法 - 模型訓練 2. 系統架構 1. 動機&目標
  • 24. Kaggle Competition 4. 實現方法 -系統介面 3. 實現方法 - 模型訓練 2. 系統架構 1. 動機&目標 until 10/4
  • 25. 實現方法 - 系統介面 Chapter 4 4. 實現方法 -系統介面 3. 實現方法 - 模型訓練 2. 系統架構 1. 動機&目標
  • 26. 4. 實現方法 -系統介面 3. 實現方法 - 模型訓練 2. 系統架構 1. 動機&目標 GUI
  • 27. 4. 實現方法 -系統介面 3. 實現方法 - 模型訓練 2. 系統架構 1. 動機&目標 URL Routing 智慧 評分系統 應用軟體架構 https:// 127.0.0.1:5000
  • 28. HTML Python • 顯示文章內容、摘要目標等 資訊 • 提供學生輸入摘要的欄位 • 顯示「內容組織」、「語意邏 輯」等級 • 資料讀取 • 特徵處理 • 模型訓練 • 儲存權重 • 從網頁讀取學生輸入 • 讀取權重&預測分數 • 輸出分數到網頁 4. 實現方法 -系統介面 3. 實現方法 - 模型訓練 2. 系統架構 1. 動機&目標 應用軟體架構
  • 29. 優化方向 • 使用預測表現更好的模型 • 新增手機 app 版本 • 針對中文語料 • 針對更多元的非選擇題型 (e.g. 引導式寫作、圖表詮釋) 4. 實現方法 -系統介面 3. 實現方法 - 模型訓練 2. 系統架構 1. 動機&目標

Editor's Notes

  1. 1.7.2013
  2. 1.7.2013