Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

移动互联网时代的语音云

3,386 views

Published on

  • Be the first to comment

  • Be the first to like this

移动互联网时代的语音云

  1. 1. 移动互联网时代的 “讯飞语音云” 讯飞语音云” 科大讯飞副总裁 江涛 2011.7. 16 北京
  2. 2. 内 容 提 要一、智能语音产业最新发展概况二、“语音云”平台及合作模式三、智能语音交互应用开发简介 2
  3. 3. 语音技术及产业概述• 语音技术 – 使信息时代的各种信息机器象人一样“能听会说”的技术 – 包括语音合成(相当于给机器装上了人工嘴巴)、语音识别(相当于 给机器装上了人工耳朵)以及声纹识别、口语评测等• 语音产业 – 伴随着社会信息化、网络化、智能化的发展趋势,语音技术的应用可 以深入到社会生活的几乎所有行业 – 语音技术还在信息安全、汉语国际推广等战略领域具有重大应用 3
  4. 4. 科大讯飞产业最新进展• 中英文核心技术国际领先,牵头制定国家标准并拥有主流市场 80%以上的市场份额语音产业唯一国家科技进步奖 语音产业唯一信息产业重大技术发明 4
  5. 5. 科大讯飞产业最新进展• 中国语音产业唯一的国家规划布局内重点软件企 业和唯一的语音上市公司 5
  6. 6. 语音合成技术进展• 语音合成系统最关键的是自然度综合指标: 年份 1995年 1998年 1999年 2001年 2011年 自然度 <3.0 3.0 3.5 3.8 4.5 STOP 原文:9,这是乔丹参加1984年奥运会和1992年奥运会时的球 衣号码。在1984年洛杉矶奥运会上,由于前苏联以及东欧诸国 ……
  7. 7. Blizzard Challenge 06/07/08/09/10 英文合成国际评测五连冠 合成效果 自然语音 Full Set,自然度 Set,自然度 讯飞’06 4 唯一自然度大于4分的系统 讯飞’07 讯飞’08 He refused to identify governments he suspected, 讯飞’09 but German press reports said investigations 讯飞’10 were focusing on North Korea and Pakistan. ■其他参赛单位: 微软、IBM 美国 MIT、CMU 英国 Edinburgh 科大讯飞日本 NITech、ATR 等等 7
  8. 8. 发音模拟技术的最新进展 8
  9. 9. NIST 说话人识别大赛 �由NIST(美国国家标准技术研究院)举办,是国际上规模与影响 力最大的说话人识别评测 �1996年第一次评测,之后每两年评测一次,说话人识别任务难度 接近大规模实际应用环境(不同信道、不同环境干扰) �科大讯飞在2008,2010年连续两届评测中均处于国际领先地位 三大核心测试指标 在参测系统中排名 测试时间 Min Min EER DCF EER DCF DCF DCF 2008 0.107 2.625 0.187 1 1 3 2010 0.33 5.872 0.405 2 2 2参赛单位有:CMU、MIT、Stanford、清华大学、中科院自动化所、中科院声学所、Motorola研究中心、IBM 研究院等国内外50家著名语音研究机构 9
  10. 10. 语音听写技术进展• 语音听写技术:基于超大规模的语音数据、领先的语音处理算法 、基于云计算的工程平台,讯飞在语音听写技术上取得重大突破 领先的语音识别技术 区分性训练 >100G >100G内存 超大规模解码技术 >100CPU 100万人 100万人 语音自适应 < 2G 2G内存 1万人 < 10CPU 超大规模的语音数据 领先的内核算法 基于云计算的模型训练平台 10
  11. 11. 内 容 提 要一、智能语音产业最新发展概况二、“语音云”平台及合作模式三、智能语音交互应用开发简介 11
  12. 12. 语音产业的时代机遇• 全球已进入高速发展的移动互联网时代 12
  13. 13. 移动互联时代人机交互需求• 移动互联网终端键盘与屏幕的天然限制,语音作 为信息交互最自然、便捷的手段,在小尺寸终端 和移动状态下更是具有明确需求 语音交互将成为移动互联网应用 用户体验的关键要素之一
  14. 14. 国际IT巨头日益关注• 作为战略性和前瞻性的重要新兴产业,语音技术 在移动互联网时代备受关注 –IBM –Microsoft –Apple –Google 14
  15. 15. “讯飞语音云”发布• 2010年10月28日,科大讯飞在业界率先发布全球首个同时提供语 音合成、语音搜索、语音听写等智能语音交互能力的移动互联网 智能交互平台——“讯飞语音云”
  16. 16. 示范应用——讯飞语音输入法普通人电脑标准键盘上输入速度是每分钟50-80个字,而在iPhone等触屏类型的智能手机上只能达到15-20个字,语音输入每分钟可以达到200字以上。 QQ 微博
  17. 17. 讯飞语音云平台服务体系 北京语音云 云间同步 客 户 端 高速局域网互联网用户 负载均衡器 Internet 三网接入 高速局域网 G P R S/E D G E 3G 互联网电视 合肥语音云移动用户 车载用户 云间同步 上海语音云 广州语音云 17
  18. 18. 不断扩展的语音云服务 语音识别服务 关键词 语音合成服务 命令词 短信听 检索 个性化语 个性化语 识别 写 传统语音 转写 音合成 搜索 字幕 合成 变声 网站服务 用户管论坛 声纹识别服务 声纹识别服务 其他服务 理 文本分声音相似声纹验 唱歌评 文字客 析 度 分 服 语言学 证 声纹鉴 语种识 别 手写识别 习 别 18
  19. 19. 云计算对语音产业的促进• 云计算平台具备的强大和无限扩 展的存储和计算能力 –通过对海量数据的训练,可以 更好的处理困扰语音识别的技 术难点 –用户在实际使用中形成的数据 可以反馈到平台中,形成不断 迭代优化的正反馈机制,持续 提高效果 –众多中小开发者可以低门槛的 获得平台提供的语音交互能力 19
  20. 20. 谁是语音云的受益者? • 易于开发,语音集成 时间由几周缩短到几 个小时; 用户 工程师 • 最好的语音服务:最 • 易于获取,基于互联 于获取,基于互联 好的语音合成、最准 网的开发包随时可以 网的开发包随时可以 确的语音识别 下载测试; • 所有应用都可以快速 Speech Enabled! Enabled!• 投入运营前不必购买 • 语音效果的持续优 语音组件,直接开发 化,加速语音技术发 测试 展,“日新月异”! 展,“日新月异”• 无需投入专用硬件, • 运算和存储资源的最 无需部署维护; 合作伙伴 科大讯飞 大利用,发挥最大效• 规模自动伸缩,无限 益 扩展的运算能力 20
  21. 21. 语音云合作商务模式初创期应用免费支持 21
  22. 22. 内 容 提 要一、智能语音产业最新发展概况二、“语音云”平台及合作模式三、智能语音交互应用开发简介 22
  23. 23. 语音云应用开发基本定义• 语音应用接口(Speech Programming Interface,SPI)、客户端( Mobile Speech Client,MSC)、服务器(Mobile Speech Server, MSS) 用户管理和授权接口 语音合成接口 语音识别接口 声纹识别接口 辅助接口 开 发 调试人员 M S P开 发 接 口 语音应用演示程序 端点检测 M S S P协 议 解 析 H T T P协 议 解 析 网络传输 客 户 端 互联网用户 手机用户 终端用户 性能分析工具 H T T P服 务 器 业务服务器 语音服务器 用户管理服务器 日 志 业务分发 M S S P协 议 解 析 语 音 转 写、识 别 授权管理 调用日志 N G IN X+FastCGI 业务处理 语音合成 用户管理和认证 系统运行日志 H T T P协 议 解 析 语音服务处理 声纹识别等 维护人员 服 务 器 工 具 支持人员 业务分析人 员 X M L解 析、线 程、音 频 录 入 和 播 放 等 M S S P协 议 栈、音 频 编 解 码、操 作 系 统 适 配 等 基础支撑 A n d ro id/S ym b ia n/i O S/W M/M T K/O M S/J A V A H a d o o p, HyperTable , W indow s, L in u x, S o la ris 客户端操作系统 服务器操作系统
  24. 24. MSC开发两类接口• C风格的API接口 – 实现最广泛的平台覆盖性• 可视化控件接口 – 为了提高智能终端开发效率、降低开发难度,为 Android、iPhone、Symbian平台提供了内置语音交互 UI、录音放音封装的可视化语音控件接口。 24
  25. 25. 资源开销——控件接口 参数操作系统 基本项 含UI UI 不含UI UI 静态开发库尺寸 1.3MB 1MB 内ROM 300KB 200KB 存 合成 400KB 300KBSymbian 占RAM 用 识别 500KB 400KB CPU CPU占用 小于 80MIPS 静态开发库尺寸 1.5MB 1.2MB 内ROM 600KB 500KB 存 合成 450KB 350KBiPhone 占RAM 识别 550KB 450KB 用 CPU CPU占用 小于 200MIPS JAR JAR开发包尺寸 1.3MB 1MB 内ROM 500KB 400KB 存 合成 450KB 350KBAndroid 占RAM 识别 550KB 450KB 25 用 CPU CPU占用 小于180MIPS 180MIPS
  26. 26. 资源开销——C接口操作系统 基本项 参数 静态开发库尺寸 300K CPU CPU占用 30MIPSSymbian ROM 200KB 内存占用 合成 300KB RAM 识别 300KB 静态开发库尺寸 500K CPU CPU占用 30~200MIPS 30~200MIPS(含音频编解码)Android ROM 300K 内存占用 合成 300K RAM 识别 300K 静态开发库尺寸 800K CPU CPU占用 100~200MIPS 100~200MIPS(含音频编解码) ROM 500KiPhone 合成 400K 内存占用 26 RAM 识别 300K
  27. 27. 集成可视化控件的“红围脖” 27
  28. 28. 应用案例 — 挖财记账应用案例 28
  29. 29. dev.voicecloud.cn 29
  30. 30. 结 束 语:致谢!创新 开拓未来合作 成就梦想 30

×