SlideShare a Scribd company logo
1 of 40
面向汉语语言建模的自适应词表生成算法 报告人:肖镜辉 研究方向:语言模型  汉字键盘输入
报告提纲 ,[object Object],[object Object],[object Object],[object Object]
问题的提出 ,[object Object],[object Object],[object Object],[object Object]
问题的提出 cont ,[object Object],[object Object],[object Object],[object Object]
问题的提出 cont ,[object Object],[object Object],[object Object],[object Object]
本文主要工作 ,[object Object],[object Object],[object Object],[object Object],[object Object]
一体化迭代算法框架 ,[object Object],[object Object]
 
一体化迭代算法框架 cont ,[object Object],[object Object],[object Object]
一体化迭代算法框架 cont ,[object Object],[object Object]
一体化迭代算法框架 cont ,[object Object],[object Object]
自适应的词表生成方法 ,[object Object],[object Object],[object Object],[object Object]
多特征的词表自动生成方法 ,[object Object],[object Object],[object Object],[object Object],[object Object]
多特征的词表自动生成方法 cont ,[object Object],[object Object],[object Object],[object Object]
汉字构词特征—构词强度 ,[object Object],[object Object],[object Object],[object Object]
构词强度定义 ,[object Object],[object Object],[object Object]
基于启发式 的参数自动寻优方法 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
启发式规则 ,[object Object],[object Object],[object Object]
实验与讨论 ,[object Object],[object Object],[object Object],[object Object]
系统评价指标 ,[object Object],[object Object],[object Object],[object Object],[object Object]
一体化迭代算法实验 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
一体化迭代算法实验 cont ,[object Object],20.61 20.52 19.62 18.53 10.51 -6.93 -114.47 错误率 降低率 (%) 8.01 8.02 8.11 8.22 9.03 10.79 21.64 优化语言 模型 10.09 10.09 10.09 10.09 10.09 10.09 10.09 基本语言 模型 7 6 5 4 3 2 1 迭代 次数
一体化迭代算法实验 cont ,[object Object],5.42 5.42 4.41 2.91 0.2 -10.02 -18.73 错误率 降低率 (%) 9.44 9.44 9.54 9.69 9.96 10.08 11.85 优化语言 模型 9.98 9.98 9.98 9.98 9.98 9.98 9.98 基本语言 模型 7 6 5 4 3 2 1 迭代 次数
一体化迭代算法实验 cont ,[object Object]
多特征词表生成算法实验 ,[object Object],[object Object],[object Object],[object Object],[object Object]
多特征词表生成算法实验 cont 在加入词法特征后,词表生成算法的准确率和召回率均有明显的提高;并且,随着加入的词法特征逐渐增多,算法的性能呈逐渐上升的趋势  6.96 0.6996 57.28 89.84 6+Fstring 7 6.91 0.6993 57.27 89.79 5+Fmiddle 6 4.97 0.6866 55.59 89.76 2+Ftail 5 3.20 0.675 54.70 88.11 1+Ftail 4 3.07 0.6741 55.29 86.35 1+Fmiddle 3 3.78 0.6788 54.58 89.74 1+Fhead 2 0 0.6541 53.05 85.29 MI+RF (Baseline) 1 F 量度提高 幅度 (%) F 量度 召回率 (%) 准确率 (%) 特征采集 序号
多特征词表生成算法实验 cont ,[object Object],[object Object],[object Object]
系统自适应实验 ,[object Object],[object Object],[object Object],[object Object],[object Object]
启发式方法的收敛性 ,[object Object],[object Object],[object Object],[object Object],[object Object]
启发式方法的收敛性 ,[object Object]
在相同语料上,启发式  pk  手工方法 ,[object Object],[object Object],[object Object]
[object Object],[object Object],8.01 0.6541 53.05 85.29 启发式 (2) 3 8.05 0.6794 55.34 87.97 启发式 (1) 2 8.04 0.6488 52.56 84.74 人工确定 1 语言模型 迷惑度 F 量度 词表生成 召回率 (%) 词表生成 准确率 (%) 参数确定方式 序号
在不同语料上,启发式  pk  手工方法 ,[object Object],[object Object],[object Object],[object Object],[object Object]
[object Object],[object Object],51.66 9.60 19.36 0.6277 57.10 69.70 启发式 (2) 3 51.01 9.73 24.15 0.6529 60.35 71.10 启发式 (1) 2 --- 19.86 --- 0.5259 46.90 59.85 人工确定 1 迷惑度 降低率 (%) 语言模型 迷惑度 F 量度提高 幅度 (%) F 量度 词表生成 召回率 (%) 词表生成 准确率 (%) 参数确定方式 序号
进一步比较 ,[object Object],[object Object],冰雪旅游、北海银滩、白洋淀、北麓、格博峰、国家地理杂志、黄金周旅游、乔纳斯谷、世界遗产大会、盘山公路、文化遗产、文物保护、喜马拉雅山脉、西岭雪山、香格里拉、藏族人民 旅游领域词汇 安全、爱国、昂贵、办理、帮忙、保存、驰名中外、出租车、繁华的、丰富、多功能、否则、服务中心、负责人、路途、陌生、目的地、难得、能源、人民、热心、完美、详细 通用领域词汇
小结 ,[object Object]
相关领域研究工作 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
结论 ,[object Object],[object Object],[object Object]
参考文章 ,[object Object]
 

More Related Content

Viewers also liked

Pangkat etnolinggwistiko
Pangkat etnolinggwistikoPangkat etnolinggwistiko
Pangkat etnolinggwistikoJOCETER DANGI
 
Evolución del lenguaje teorías gradualistas y situacionalistas
Evolución del lenguaje   teorías gradualistas y situacionalistasEvolución del lenguaje   teorías gradualistas y situacionalistas
Evolución del lenguaje teorías gradualistas y situacionalistasmarrupejr
 
MAB_EE_冷启动-jinghuixiao
MAB_EE_冷启动-jinghuixiaoMAB_EE_冷启动-jinghuixiao
MAB_EE_冷启动-jinghuixiaoxceman
 
A.P 8 - 2nd Qtr Summative Test 2
A.P 8 - 2nd Qtr Summative Test 2A.P 8 - 2nd Qtr Summative Test 2
A.P 8 - 2nd Qtr Summative Test 2Mavict De Leon
 
El circo para Infantil
El circo para InfantilEl circo para Infantil
El circo para Infantilmonicatenza
 
El Circo (Educación Infantil)
El Circo (Educación Infantil)El Circo (Educación Infantil)
El Circo (Educación Infantil)monicatenza
 
SLG Completion Presentation V9 copy
SLG Completion Presentation V9 copySLG Completion Presentation V9 copy
SLG Completion Presentation V9 copySean Donnelly
 

Viewers also liked (7)

Pangkat etnolinggwistiko
Pangkat etnolinggwistikoPangkat etnolinggwistiko
Pangkat etnolinggwistiko
 
Evolución del lenguaje teorías gradualistas y situacionalistas
Evolución del lenguaje   teorías gradualistas y situacionalistasEvolución del lenguaje   teorías gradualistas y situacionalistas
Evolución del lenguaje teorías gradualistas y situacionalistas
 
MAB_EE_冷启动-jinghuixiao
MAB_EE_冷启动-jinghuixiaoMAB_EE_冷启动-jinghuixiao
MAB_EE_冷启动-jinghuixiao
 
A.P 8 - 2nd Qtr Summative Test 2
A.P 8 - 2nd Qtr Summative Test 2A.P 8 - 2nd Qtr Summative Test 2
A.P 8 - 2nd Qtr Summative Test 2
 
El circo para Infantil
El circo para InfantilEl circo para Infantil
El circo para Infantil
 
El Circo (Educación Infantil)
El Circo (Educación Infantil)El Circo (Educación Infantil)
El Circo (Educación Infantil)
 
SLG Completion Presentation V9 copy
SLG Completion Presentation V9 copySLG Completion Presentation V9 copy
SLG Completion Presentation V9 copy
 

Similar to 2007 5 30 肖镜辉 面向汉语语言建模的自适应词表生成算法

2007 5 30 肖镜辉 统计语言模型简介
2007 5 30 肖镜辉 统计语言模型简介2007 5 30 肖镜辉 统计语言模型简介
2007 5 30 肖镜辉 统计语言模型简介xceman
 
第19期极客活动-讯飞语音云
第19期极客活动-讯飞语音云第19期极客活动-讯飞语音云
第19期极客活动-讯飞语音云geekparknet
 
Recycle Open Source Projects
Recycle Open Source ProjectsRecycle Open Source Projects
Recycle Open Source ProjectsGeorge Ang
 
2006 recycle opensourceprojects
2006 recycle opensourceprojects2006 recycle opensourceprojects
2006 recycle opensourceprojectsGeorge Ang
 
從 Java programmer 的觀點看 ruby
從 Java programmer 的觀點看 ruby從 Java programmer 的觀點看 ruby
從 Java programmer 的觀點看 ruby建興 王
 
移动互联网时代的语音云
移动互联网时代的语音云移动互联网时代的语音云
移动互联网时代的语音云csdnmobile
 
Testing survey
Testing surveyTesting survey
Testing surveyTao He
 
软件工程 第七章
软件工程 第七章软件工程 第七章
软件工程 第七章浒 刘
 
大话Php之性能
大话Php之性能大话Php之性能
大话Php之性能liqiang xu
 
長庚 0511.2011(曾懷恩教授演講)
長庚 0511.2011(曾懷恩教授演講)長庚 0511.2011(曾懷恩教授演講)
長庚 0511.2011(曾懷恩教授演講)noritsai
 
2012/05/23 AU Talk - 讓事情發生
2012/05/23 AU Talk - 讓事情發生2012/05/23 AU Talk - 讓事情發生
2012/05/23 AU Talk - 讓事情發生appuniverz
 

Similar to 2007 5 30 肖镜辉 面向汉语语言建模的自适应词表生成算法 (15)

2007 5 30 肖镜辉 统计语言模型简介
2007 5 30 肖镜辉 统计语言模型简介2007 5 30 肖镜辉 统计语言模型简介
2007 5 30 肖镜辉 统计语言模型简介
 
第19期极客活动-讯飞语音云
第19期极客活动-讯飞语音云第19期极客活动-讯飞语音云
第19期极客活动-讯飞语音云
 
Recycle Open Source Projects
Recycle Open Source ProjectsRecycle Open Source Projects
Recycle Open Source Projects
 
2006 recycle opensourceprojects
2006 recycle opensourceprojects2006 recycle opensourceprojects
2006 recycle opensourceprojects
 
第1章 概论
第1章 概论第1章 概论
第1章 概论
 
從 Java programmer 的觀點看 ruby
從 Java programmer 的觀點看 ruby從 Java programmer 的觀點看 ruby
從 Java programmer 的觀點看 ruby
 
移动互联网时代的语音云
移动互联网时代的语音云移动互联网时代的语音云
移动互联网时代的语音云
 
getPDF.aspx
getPDF.aspxgetPDF.aspx
getPDF.aspx
 
getPDF.aspx
getPDF.aspxgetPDF.aspx
getPDF.aspx
 
Testing survey
Testing surveyTesting survey
Testing survey
 
软件工程 第七章
软件工程 第七章软件工程 第七章
软件工程 第七章
 
大话Php之性能
大话Php之性能大话Php之性能
大话Php之性能
 
Go
GoGo
Go
 
長庚 0511.2011(曾懷恩教授演講)
長庚 0511.2011(曾懷恩教授演講)長庚 0511.2011(曾懷恩教授演講)
長庚 0511.2011(曾懷恩教授演講)
 
2012/05/23 AU Talk - 讓事情發生
2012/05/23 AU Talk - 讓事情發生2012/05/23 AU Talk - 讓事情發生
2012/05/23 AU Talk - 讓事情發生
 

2007 5 30 肖镜辉 面向汉语语言建模的自适应词表生成算法