语音识别的新纪元                 “讯飞语音云”   科大讯飞副总裁        江涛   2011.11. 24   北京
科大讯飞简介• 中国语音产业唯一的国家规划布局内重点软件企业和唯一的语 音上市公司,08年在深圳证券交易所挂牌上市• 核心技术国际领先,牵头制定国家标准并拥有主流市场80%以 上的市场份额,讯飞目前市值100亿,员工1600多人 语音产业唯一国...
语音产业国家队福布斯中国潜力企业   中国软件企业最具创新实力奖   CCTV“十佳创新公司”  科大讯飞现已发展为业界公认的“中文语音产业国家队”
移动互联网时代人机交互需求• 移动互联网终端键盘与屏幕的天然限制,语音作 为信息交互最自然、便捷的手段,在小尺寸终端 和移动状态下更是具有明确需求   语音交互将成为移动互联网应用    用户体验的关键要素之一
回顾-讯飞语音云发布• 2010年10月28日,科大讯飞在业界率先发布全球首个同时提供高 质量语音合成、语音搜索、语音听写等智能语音交互能力的移动 互联网智能交互平台——“讯飞语音云”   周光召致辞      柳传志致辞     语音云启动仪式
语音云服务能力快速进步     当前语音用户超过800万,平均每日新增用户超过3万      其中:  语音云服务容量已经达到3000万,可随            应用规模快速扩张 每天在线用户数量超过20万,总使用量超过200万次  得益...
讯飞输入法国际移动互联网大会获奖•   国际移动互联网大会•   移动互联网领域的年度盛会•   开发者星球应用开发大赛                   输入法专业评委奖第一名
讯飞口讯荣登App Store排行榜首位
丰富多彩的语音云应用产品           语音聊天 语音                      互联网 导航                      电视       讯飞语音云语音                         语...
讯飞语音云总体架构•   基于云计算的讯飞语音平台封装了各类智能语音模块,可向开发伙伴提供便捷    的开发环境、向各行业及个人用户提供高效的语音服务
语音合成技术的不断进步• 语音合成系统最关键的是自然度综合指标:  年份    1995年 1998年 1999年 2001年 2010年  自然度    <3.0   3.0   3.5   3.8   4.5                ...
国际英文语音合成大赛六联冠评测时间:2006~2011                                                评测对象:英文语音合成技术评测单位:“Blizzard Challenge”国际英文语音合成大...
语音合成技术最新进展
NIST说话人语音识别评测    由NIST(美国国家标准技术研究院)举办,是国际上规模与影响力最大的说     话人识别评测    1996年第一次评测,之后每两年评测一次,说话人识别任务难度接近大规模     实际应用环境(不同信道、不...
持续提升的语音识别准确率面向移动互联实际应用环境的中文连续语音识别技术性能                                    83.2%                                           2...
MSC开发两类接口•   C风格的API接口    – 实现最广泛的平台覆盖性•   可视化控件接口    – 为了提高智能终端开发效率、降低开发难度,为Android、iPhone、      Symbian平台提供了内置语音交互UI、录音放...
不断扩展的语音云服务                       语音识别服务 关键  语音合成服务              命令   短信  词检       个性化            词识   听写   索 传统语   语音合    ...
结束语:致谢期待与更多合作伙伴共同探讨移动互联网时代语音技术的应用
Upcoming SlideShare
Loading in...5
×

第19期极客活动-讯飞语音云

416

Published on

语音识别新纪元 讯飞语音云

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
416
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
9
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

第19期极客活动-讯飞语音云

  1. 1. 语音识别的新纪元 “讯飞语音云” 科大讯飞副总裁 江涛 2011.11. 24 北京
  2. 2. 科大讯飞简介• 中国语音产业唯一的国家规划布局内重点软件企业和唯一的语 音上市公司,08年在深圳证券交易所挂牌上市• 核心技术国际领先,牵头制定国家标准并拥有主流市场80%以 上的市场份额,讯飞目前市值100亿,员工1600多人 语音产业唯一国家科技进步奖 语音产业唯一信息产业重大技术发明
  3. 3. 语音产业国家队福布斯中国潜力企业 中国软件企业最具创新实力奖 CCTV“十佳创新公司” 科大讯飞现已发展为业界公认的“中文语音产业国家队”
  4. 4. 移动互联网时代人机交互需求• 移动互联网终端键盘与屏幕的天然限制,语音作 为信息交互最自然、便捷的手段,在小尺寸终端 和移动状态下更是具有明确需求 语音交互将成为移动互联网应用 用户体验的关键要素之一
  5. 5. 回顾-讯飞语音云发布• 2010年10月28日,科大讯飞在业界率先发布全球首个同时提供高 质量语音合成、语音搜索、语音听写等智能语音交互能力的移动 互联网智能交互平台——“讯飞语音云” 周光召致辞 柳传志致辞 语音云启动仪式
  6. 6. 语音云服务能力快速进步 当前语音用户超过800万,平均每日新增用户超过3万 其中:  语音云服务容量已经达到3000万,可随 应用规模快速扩张 每天在线用户数量超过20万,总使用量超过200万次 得益  语音输入法和口讯等业务已经成为用户 于: 日常生活中必不可少的助手  当用户感受到语音的魅力后,语音逐渐 形成习惯服务整体可用性达到94%得益  服务器可用性的提高和稳定性改善于:  客户端流程的优化,提高恶劣网络环境下 的容错能力 服务平均响应时间降低至2.0秒 得益  服务器和客户端交互流程的优化 于  客户端负载均衡策略的启用
  7. 7. 讯飞输入法国际移动互联网大会获奖• 国际移动互联网大会• 移动互联网领域的年度盛会• 开发者星球应用开发大赛 输入法专业评委奖第一名
  8. 8. 讯飞口讯荣登App Store排行榜首位
  9. 9. 丰富多彩的语音云应用产品 语音聊天 语音 互联网 导航 电视 讯飞语音云语音 语音搜索 微博 语音 更多合作 业务… 短信
  10. 10. 讯飞语音云总体架构• 基于云计算的讯飞语音平台封装了各类智能语音模块,可向开发伙伴提供便捷 的开发环境、向各行业及个人用户提供高效的语音服务
  11. 11. 语音合成技术的不断进步• 语音合成系统最关键的是自然度综合指标: 年份 1995年 1998年 1999年 2001年 2010年 自然度 <3.0 3.0 3.5 3.8 4.5 STOP 原文:9,这是乔丹参加1984年奥运会和1992年奥运会时的球衣号码。在1984年洛杉矶奥运会上,由于前苏联以及东欧诸国……
  12. 12. 国际英文语音合成大赛六联冠评测时间:2006~2011 评测对象:英文语音合成技术评测单位:“Blizzard Challenge”国际英文语音合成大赛参赛单位:IBM、微软、MIT、CMU、英国爱丁堡大学、日本ATR等评测结果: 英文合成系统连续六年蝉联自然度评测指标第一名 自然语音 Blizzard Challenge 测试结果(自然度指标) 科大讯飞参测系统 5 4.8 迄今唯一自然度 4.5 4.2 大于4分的参测系统 参 测 3.8 3.7 4 3.3 3.3 系 3.5 3.1 3 3 2.7 2.7MOS 3 2.6 2.6 2.6 2.5 2.5 2.1 1.9 统 2 1.6 编 1.5 1 号 0.5 匿 0 A M J T F V S B P R U G H N C L O Q 名
  13. 13. 语音合成技术最新进展
  14. 14. NIST说话人语音识别评测  由NIST(美国国家标准技术研究院)举办,是国际上规模与影响力最大的说 话人识别评测  1996年第一次评测,之后每两年评测一次,说话人识别任务难度接近大规模 实际应用环境(不同信道、不同环境干扰)  科大讯飞在2008,2010年连续两届评测中均处于国际领先地位 三大核心测试指标 在参测系统中排名 测试时间 Min Min EE EER DCF DCF DCF DCF R 2008 0.107 2.625 0.187 1 1 3 2010 0.33 5.872 0.405 2 2 2确立了科大讯飞在国际语音技术领域的全面领先地位 参赛单位有:CMU、MIT、Stanford、清华大学、中科院自动化所、中科院声学所、 Motorola研究中心、IBM 研究院等国内外50家著名语音研究机构
  15. 15. 持续提升的语音识别准确率面向移动互联实际应用环境的中文连续语音识别技术性能 83.2% 2011年10月 复杂DT及TANDEM 2011年4月 技术 超大规模语言模型技 第四次更新 术第二次更新 78.8% 2011年8月 2011年1月 81.2% 基于上线数据 第三次更新 基于上线数据 首次更新 – 通过对海量数据的训练,可以更好的 75.3% 处理困扰语音识别的技术难点 – 用户在实际使用中形成的数据可以反2010年8月 馈到平台中,形成不断迭代优化的正 语音云 60.2% 2010年10月28日内测版上线 反馈机制,持续提高效果 语音云正式发布 55.8%
  16. 16. MSC开发两类接口• C风格的API接口 – 实现最广泛的平台覆盖性• 可视化控件接口 – 为了提高智能终端开发效率、降低开发难度,为Android、iPhone、 Symbian平台提供了内置语音交互UI、录音放音封装的可视化语音控件 接口
  17. 17. 不断扩展的语音云服务 语音识别服务 关键 语音合成服务 命令 短信 词检 个性化 词识 听写 索 传统语 语音合 别 转写 搜索 字幕 音合成 成 变声 网站服务 用户 论坛 管理 声纹识别服务 其他服务 文本声音相 唱歌 文字 分析 声纹 客服 语言似度 声纹 评分 验证 语种 鉴别 手写识 学习 识别 别
  18. 18. 结束语:致谢期待与更多合作伙伴共同探讨移动互联网时代语音技术的应用
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×