Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

移动互联网时代自然语言的创新

794 views

Published on

周明
微软亚洲研究院首席研究员
2015年4月18日
福州大学全国青年NLP研讨会

Published in: Technology
  • Be the first to comment

移动互联网时代自然语言的创新

  1. 1. 移动互联网时代自然语言的创新 周 明 微软亚洲研究院首席研究员 2015年4月18日 福州大学全国青年NLP研讨会
  2. 2. 报告内容 • 移动互联网时代自然语言处理的机遇 • 我们的对策(NLP2.0) • 微软项目案例 • 总结
  3. 3. 报告内容 • 移动互联网时代自然语言处理的机遇 • 我们的对策(NLP2.0) • 微软项目案例 • 总结
  4. 4. 移动互联网生态 环境
  5. 5. 无所不在的 • 一大早,“阿姨帮”上叫的家政服务人员已经来敲门,做早餐、搞清 洁、然后送孩子上学。 • 业主吃完早餐,用滴滴叫了一部专车去上班。 • 中午,留守的太太不想做饭,通过“百度外卖”叫了一份热气腾腾的 快餐。 • 衣服窗帘的洗涤由“e袋洗”上门来收 • 家具电器的维修保养通过彩生活的“易维修”上门服务。 • 黄昏,“链农”刚送到新鲜便宜的蔬菜水果 • 在“爱大厨”上叫的厨师就上门了,一顿晚餐让全家人都很满意。 • 晚上,孩子在“58到家”上叫的钢琴老师指导下练琴 • 太太享受“河狸家”上叫的美甲服务 • 两口子在“美团猫眼”上预定了电影和座位,出门看电影去了。 以上信息来自http://wangguanxiong.baijia.baidu.com/article/52739
  6. 6. 自然语言处理的中枢作用 Dog Boxer Fox Cat Peer Animal Beagle CC C C Underwear Athlete (拳师犬) (比格犬) C Company Profit Revenue Attr Peer Founder CEO PeerPeer Attr Bark Owner Attr Breed Peer Attr Tail Head Peer Attr Habitat News Channel Apple Microsoft C C High-Tech Company Fortune 500 Company Windows Product OS AttrVal (1) (2) (3) C Improve IncreaseS Decrease A Val Peer A
  7. 7. 报告内容 • 移动互联网时代自然语言处理的机遇 • 我们的对策(NLP2.0) • 微软项目案例 • 总结
  8. 8. NLP2.0 研发策略 合作 市场 知识获 取 互联 网 NLP技 术 贡献 模型训 练 快速实 施 用户反 馈 网络挖 掘 句法语 义分析 机器翻 译 信息抽 取 问答系 统 分词/ 词性 市场分 析 商业模 式 用户服 务 未来判 断 用户行 为分析 校企合 作 跨部门 合作 市场/ 营销 生态系 统 多学科 交叉 原型 数字生 活/工 作产品 商业模 式 人才 重要算 法 点对点的创新+把互联网当作研究平台+快速实施+跨学科合作
  9. 9. 研究领域的拓展
  10. 10. 自然语言处理的基本问题 汉字信息处理: 字形、字库、 编码、排版、 显示、打印 中文(包括少数民 族语言)理解: 分词、词性、句法、 语义、篇章、分类、 知识库、聚类、检索、 问答、文摘、生成、 对话、词典、辅助教 学、语音识别和合成、 OCR、辅助阅读和写 作 相关语言理解: 分词、词性、句法、 语义、篇章、分类、 知识库、聚类、检索、 问答、文摘、生成、 对话、词典、辅助教 学、语音识别和合成、 OCR、辅助阅读和写 作 跨语言信息处理 在线词典、机器翻译、 语音翻译、第二外语学 习、跨语言检索、跨语 言文摘、跨语言问答、 跨语言知识库翻译和合 成
  11. 11. 自然语言处理的延伸 与文化结合: 对联、诗词、歌词、 猜谜、文字游戏、 书法、易经 多媒体结合: 文字--画/音乐转换、 文字与画匹配、地 图、漫画、音乐制 作 智能设备控制: 手机助手 机器人 智能汽车 智能家居 手势识别: 手语/盲文的处理 手语/盲文的识别 手语/盲文的合成 手语/盲文和自然语 言的翻译 大数据: 各类数据的搜集、 加工、存储、索引、 服务、更新、数据 采集、挖掘、分析 预测和商业智能 电子商务: 卖家工作站 云客服 导购助手 客服系统 广告 推荐 其他应用: 舆情分析、信息安 全、 医疗、教育、银行、 金融等
  12. 12. 语音/口语语言处理
  13. 13. 语音自然语言处理 那 以 前 有 一 个 很 火 热 的 现 实 虚 拟 现 实 就 是 用 一 些 模 拟 现 实 那 么 模 拟 现 实 你 最 多 能 做 的 就 是 说 逼 真 啊 仿 真 但 你 仿 真 逼 真 最 多 能 做 到 就 跟 真 实 一 样 但 现 在 呢 这 个 技 术 增 强 现 实 就 是 说 我 们 可 以 给 用 户 一 个 我 们 假 设 一 年 以 后 你 在 路 上 看 到 我 你 就 说 哎 这 个 人 似 曾 相 识 可 能 都 上 过 我 亮 相 的 节 目 但 一 时 想 不 起 来 我 叫 什 么 名 字 在 哪 里 服 务 这 时 候 你 可 以 拿 你 的 手 机 远 远 地 拍 一 个 摄 摄 拍 我 的 一 个 照 片
  14. 14. 标点的恢复 那 以 前 有 一 个 很 火 热 的 现 实 虚 拟 现 实 , 就 是 用 一 些 模 拟 现 实 。那 么 模 拟 现 实 ,你 最 多 能 做 的 就 是 说 逼 真 啊 仿 真 , 但 你 仿 真 逼 真 最 多 能 做 到 就 跟 真 实 一 样 。 但 现 在 呢 这 个 技 术 增 强 现 实 ,就 是 说 我 们 可 以 给 用 户 一 个 。 我 们 假 设 一 年 以 后 你 在 路 上 看 到 我 , 你 就 说 哎 这 个 人 似 曾 相 识 ,可 能 都 上 过 我 亮 相 的 节 目 。 但 一 时 想 不 起 来 我 叫 什 么 名 字 , 在 哪 里 服 务 。 这 时 候 你 可 以 拿 你 的 手 机 远 远 地 拍 一 个 摄 摄 拍 我 的 一 个 照 片 。
  15. 15. 那 以 前 有 一 个 很 火 热 的 现 实 虚 拟 现 实 , 就 是 用 一 些 模 拟 现 实 。 那 么 模 拟 现 实 ,你 最 多 能 做 的 就 是 说 逼 真 啊 仿 真 , 但 你 仿 真 逼 真 最 多 能 做 到 就 跟 真 实 一 样 。 但 现 在 呢 这 个 技 术 增 强 现 实 , 就 是 说 我 们 可 以 给 用 户 一 个 。我 们 假 设 一 年 以 后 你 在 路 上 看 到 我 , 你 就 说 哎 这 个 人 似 曾 相 识 ,可 能 都 上 过 我 亮 相 的 节 目 。 但 一 时 想 不 起 来 我 叫 什 么 名 字 , 在 哪 里 服 务 。 这 时 候 你 可 以 拿 你 的 手 机 远 远 地 拍 一 个 摄 摄 拍 我 的 一 个 照 片 。 文本正则化处理
  16. 16. Context-Aware 自然语言处理
  17. 17. 上下文有关的理解 剩女产生的原因: 一是谁都看不上 一是谁都看不上 女孩给男友打电话: 如果你到了 我还没到,你就等着吧 如果你到了 我还没到,你就等着吧 冬天能穿多少穿多少 夏天能穿多少是多少 单身人的来由 原来是喜欢一个人 现在是喜欢一个人
  18. 18. 句子、篇章、上下文感知 • 问题 – Input: 当前句子和以前的n-1 句子 – Output: 当前句子的翻译 • 实例 – A: I met with a disabled person on the bus. – B: So you could serve him. (serve: work for someone, 服务) – A: He finally won this point. – B: Yes, because he had made a good serve. (serve: start the ball into play, 发球) Note:对话、聊天系统也是如此 当前句子NLP 考虑历史 考虑时间地点设备 考虑使用人
  19. 19. Microsoft Confidential 统计自然语言处理 • 建模: 计算预测结果的概率或者得分的方法 𝑃 𝑊 𝑆 = 𝑃 𝜃(𝑊|𝑆) • 训练: 利用训练数据估计所用模型的参数权值 𝜃∗ = 𝑎𝑟𝑔𝑚𝑎𝑥 𝜃 𝑆𝑂𝑀𝐸. 𝐶𝑅𝐼𝑇𝑅𝐼𝑂𝑁(𝑊, 𝑆, 𝜃) • 预测:对输入数据求一个最佳概率或者最佳得分的结果 𝑊∗ = 𝑎𝑟𝑔𝑚𝑎𝑥 𝑊 𝑃 𝜃(𝑊|𝑆) 上下文模型:考虑时间地点人物历史 𝑊∗ = 𝑎𝑟𝑔𝑚𝑎𝑥 𝑊 𝑃 𝜃(𝑊|𝑆, 𝑇𝑖𝑚𝑒, 𝐿𝑜𝑐𝑎𝑡𝑖𝑜𝑛, 𝐸𝑛𝑡𝑖𝑡𝑦, 𝐻𝑖𝑠𝑡𝑜𝑟𝑦)
  20. 20. 新研究方法
  21. 21. 深度学习 • 输入层的表示 • 网络结构 (层数、节点数目、输出函数、递归/卷积) • 输出层的表示 • 训练速度
  22. 22. 词汇的分布式表示 Mikolov,et al, NAACL 2013 1. 词的分布式表示可根据任务有监督地学习。 2. 分布式表达可以扩展到短语、句子、段落和全文。
  23. 23. 词性标注和实体识别 • Collobert&Weston, 2008
  24. 24. 句法分析
  25. 25. 复述句子对识别
  26. 26. 多智能处理
  27. 27. 数据智能、知识智能、社会智能 数据智能 知识智能 社会智能 • 大规模、多样化、新 鲜的数据 • 云计算基础设施 • 机器学习 • 数据驱动的系统 • 知识库、词 典、规则、 推理、 • 知识驱动的 系统 互相增强 • 网页锚文本 • 各种用户标签 • 用户日志 • 用户反馈 • 社区问答 • 社会关系网络 • 人类计算
  28. 28. 知识库及建立 • 知识来源 •结构化数据: IMDB, Facebook, LinkedIn •半结构化数据: 网页表格, 维基百科 •无结构化的数据: 网页文 档 • 知识抽取技术 •自动生成 wrapper, 譬如从网页中爬 •词汇模板,譬如 such as A, B; A including B,C,D (Hearst Patterns) •基于分布的相似度计算语义相似词 •Bootstrapping,用一些种子,生成模板,再爬 •人工检查和校正 Knowledge Base # of KB Entity # of KB Triple 微软、谷歌、百度、搜狗 (未公开) (未公开) Freebase [Jan. 2013] 22M 100M Yago2 [Jan. 2013] 10M 120M DBpedia [Jan. 2013] 3.77M 430M
  29. 29. KB-QA NL Query Question Understandin g KB Query Search & Inference Answer “Tell me who stars in the movie The Terminator” Predicate Detection <Film, StarredBy, Person> KB ? “Arnold Schwarzenegger” “Linda Hamilton” “Michael Biehn” … Entity Detection & Disambiguation <The Terminator, k:cd7f0f35-d0ad- d3a2-5fea-086fabaecbfa, Film>
  30. 30. 数据智能:Web 智能 • 离线获得web智能 • 利用数据挖掘获得有用的数据支 持机器学习的训练 • 譬如机器翻译的双语数据获取支 持翻译模型训练 • 在线获得web智能 • 在搜索结果上,进行实时信息抽 取和推理(SMT和问答) • 大规模:100 PB 的网页索引 (谷歌 2012报告), 每天增加或者更新数 以十亿计的网页 • 无结构的文档或者半结构的网页 • 重复度很高、多样化、鲜活
  31. 31. Question Question Understanding Question Type Prediction Answer Type Prediction Question Focus Detection Lexical Answer Type (LAT) Detection Query Formulation Query Generation Query Ranking Question Decomposition Evidence Search Web Search (Bing) Evidence Ranking Knowledge Search Answer Extraction Answer Generation Answer Ranking Reasoning Confidence Estimation Answer Knowledg e Knowledge (Webpages, Encyclopedia, Ontologies, Dictionaries) Machine Learning & Data Mining Natural Language Processing & Information Retrieval Knowledge Representation & Reasoning Algorithms, Toolkits and Systems Social/Community QA Retrieval Query Paraphrasing Web-QA
  32. 32. 社会智能 社区问答 社会关系网络 # of answers Yahoo! Answers 1.0B (2010) Answers.com 18M Quora.com 5.6M # of users Facebook 1000M Twitter 500M LinkedIn 250M
  33. 33. 社会智能挖掘 Tweet Spam filter Classification Tweet quality Entity extraction Sentiment analysis User User profile Social impact index Yellow page of users Zombie fans detection Expert finding Event extraction SummarizationTopic detection Social searchClusteringTweet collection
  34. 34. 众包智能 Luis Von Ahn
  35. 35. Microsoft Confidential Planner Ensemble Engine Answers with confidence and evidences Question Understanding Knowledge Q/A MS RA. KS Web/Txt Q/A Social Q/A 多智能问答系统
  36. 36. 报告内容 • 移动互联网时代自然语言处理的机遇 • 我们的对策(NLP2.0) • 微软项目案例 • 总结
  37. 37. 研究领域 • 多语言信息处理和机器翻译 – 面向多语言的文本分析技术和自动翻译(MS Translator)、语音翻译 (Skype Translator)、在线词典和语言学习(必应词典)、微软中日文输 入法、手语的识别和翻译 • 搜索引擎 – 查询理解、文档理解、拼写纠正、查询推荐、情感分析、摘要、知识库 建立、搜索结果排序、跨语言检索、社区搜索 • 问答系统 – 基于知识的问答、基于web的问答、基于社区和社会关系网络的问答、聊 天机器人、语音助手 • 社会关系网络 – 微博的文本挖掘和语义搜索 • 人工智能(也叫语言游戏) – 自动生成对联、诗词、电脑猜谜语
  38. 38. MSRA机器翻译平台 Bilingual data mining SMT applications(ACL’13,09,06; COLING’10; EMNLP’08) Word alignment (ACL’13,10; COLING’10) Syntax (ACL’10,12; EMNLP’09) Translation model (ACL’12,08; COLING’10; EMNLP’09) Reordering model (ACL’12,10,07; COLING’14; EMNLP’07) Decoding (ACL’14,12,11,09; COLING’10; EMNLP’12) Combination & re-ranking (ACL’09; COLING’10) Language model (ACL’06)  Data mining  Word alignment  Parsing  Translation model  Reordering model  Language model  Decoder  Re-ranking  Application
  39. 39. 必应词典
  40. 40. 语音翻译 (21世纪的计算大会, 2013年天津) Personalized Speech to Speech Translation 本项目孵化了微软Skype Translator产品,2014年底发布 了英文和西班牙语的产品,2015年4月发布了中文版本。
  41. 41. 手语识别和翻译过程实例 父母生了我们三个孩 子 父母 下 子女 三 父母 生了 我们 三个 孩子 长辈 爸妈 晚辈 孩子 生 产 仨 三种
  42. 42. Chinese Couplets (http://duilian.msra.cn) http://video.sina.com.cn/v/b/10937201-1452530713.html
  43. 43. 天 高 sky high 对联生成的过程 山 hill 天 sky 高 high 深 deep 任 permit 倚 depend 虫 insect 鸟 bird 虎 tiger 飞 fly 舞 dance 鸣 tweedle 鸟 飞 bird fly 山 高 hill high 海 阔 凭 鱼 跃 Sea wide allow fish jump 虎 啸 tiger roar 山高任鸟飞 天高任鸟鸣 天高任鸟飞 山高靠虎啸 山高任虎啸 山深任鸟飞 天高任花香 …… SMT decoding Reranking 天高任鸟飞 山高任鸟飞 天高任鸟鸣 天高任鸟舞 山深任鸟飞 山高任花香 天高任花香 …… 山高任鸟飞 天高任鸟鸣 天高任鸟飞 山深任鸟飞 天高任花香 天高任鸟舞 山高任花香 …… Linguistic filtering
  44. 44. 系统日志用于改进对联
  45. 45. 把用户的智慧融入系统 Training data Source-Channel model Second sentence output Translation model Log data Re-ranking First sentence input Language model Mutual informatio n N-best candidates Translation model Language model Mutual informatio n User operation
  46. 46. 微软字谜(duilian.msra.cn)
  47. 47. 微软小冰:情感链接
  48. 48. 微软小冰:京东导购助手
  49. 49. 报告内容 • 移动互联网时代自然语言处理的机遇 • 我们的对策(NLP2.0) • 微软项目案例 • 总结
  50. 50. 问题1 如何选择一个好的项目?
  51. 51. 问题2 如何获得大规模数据?
  52. 52. 问题3 如何求解?
  53. 53. 问题4 数据智能、知识智能和社会智能如 何综合应用?
  54. 54. 问题5 如何对context-aware建模?
  55. 55. 问题6 如何上线?
  56. 56. 问题7 如何快速迭代?
  57. 57. 问题8 商业模式是什么?
  58. 58. 谢谢 mingzhou@micrsofot.com

×