SlideShare a Scribd company logo
1 of 21
1
内容概要
1 2 3 4 5
背景 方法
架构 成果 未来
2
1. 背景介绍:人机对话系统遍布全球
天猫精灵
小度
3
人机对话系统多功能转换
客服
Q : 什么时候可以发货?
A : 今天下午18:00发货。
Q : 我20岁,学生,该买什么保险?
A : 请问你的月消费是多少?
Q : 我想订明天的飞机票
A : 请问你想到那里?
Q : 好想变漂亮啊。
A : 多读书多看报,少吃零食多睡觉
Q : 世上最高峰是什么?
A : 珠穆朗玛峰
多目标系统
闲聊式 生活百科 个人助理 财务管理 电子商务
关注点
4
闲聊机器人的特点及难点:对话 = 语言 + 知识 + 逻辑 + 情感
缺乏生活化
场景对话
语义匹配错误
对话难以持续
回答不够人性化、
个体化、情感化
分析
对话库
构建大型生活
化语料库
方案 提升机器语意
理解能力
多模态、多场景
及多技术融合
问题
5
基於框架語義及構式模型的優化方案
1. 收集大型生活化语料库
2. 构建精细语言学标注知识库
3. 建模语意泛化模块与神经网络
4. 提升语意匹配准确度
5. 优化语音交互性能
6
2.系统整体架构
自然语言处理 + 深度学习 + 知识结构泛化
语意分类
7
特點1:深度語言處理的大型生活化语料
网上爬虫
原始对话语料
数据处理:
• 过滤去噪
• 自动分词
• 自动语法标记
• 自动语意标记
• 语言特征建模
熟对话语料
• 语言学泛化
• 多元化特征
多技术融合
8
用户:我很高兴见到XX。
为什么那么高兴啊?
什么时候见到的?
难道你喜欢XX?
那XX高不高兴啊?
。。。。。。
对话库
问题相似度计算:语意匹配
关键字匹配的不確定 
用户的兴趣点是“高兴”,还是“见到”, 还是“XX”?
N-gram距离模型 神经网络模型 词向量模型 语意结构模型
多种文本相似度计算的融合
特點2:更加精准的语意匹配  有意义的持续对话
9
3. 主要方法及流程
• 对话语料抓取及去噪
• 语料管理及分类
• 语料的自动语意标注
• 标注一致性评估
• 语意范式建模
• 融合词向量及神经网络
• 语意匹配计算
• 自动生成对话及评估
10
关键1:语意表征
例句:我觉得今天杭州
没有我想象中那么冷啊!
WordNet
基于语意词典的Synset (同近义词) 计算
问题相似度;
传统方法
我们的方法
基于图(graph-based)的语意相似度计算
基于词向量的纯神经网络模型
基於“框架-構式” 語義深度模型的語
義匹配
1. Experiencer(我) - Feel(觉得) - Phenomenon(杭州…啊)
2. Phenomenon: Topic(杭州) - Comparative (没有我想象
中)-*Degree(那么) - Attribute(冷).
词向量(W11,W12,……,Wij)
语意范式及词特征对
semantic and lexical pairs
11
关键2:基于深度学习的语意建模
CNN/LSTM
CNN/LSTM
CNN/LSTM
Forward Gated
NN
Forward Gated
NN
Forward Gated
NN
Backword
Gated NN
Backword
Gated NN
Backword
Gated NN
𝑤1
1
𝑤2
1 𝑤i
1
… … 𝑤1
2 𝑤2
2
𝑤𝑗
2
… … 𝑤1
n
𝑤2
n 𝑤𝑘
n
… …
… …
… …
𝑠𝑜𝑓𝑡𝑚𝑎𝑥
词向量
语意范式
深度学习模型
深度学习模型
对话生成
12
关键3. 更加精準的语意匹配计算
13
4. 已進行工作
a. 中文动词语意网 (Mandarin VerbNet)
b. “框架-构式”语意标注体系
c. 自动语意角色标注(SRL)
d. 所需深度学习技术支持(與北京大学信息科
学技术系合作--孙XX教授团队協助)
14
中文动词语意网
 汲取“框架語意、構式語法、認知語言、中文
語法” 之所長,更全面、系統、有針對性地去
處理中文動詞語意的問題。
1. Frame Semantics (C. J. Fillmore)
• The meaning of a word should be understood under a
experiential network, i.e. a Frame
• A semantic frame involves in a set of “frame-specific”
roles/frame elements
2. Lexical-construction Approach (A. E. Goldberg,
S. Iwata)
• “verb can be sanctioned by a particular verb-class-
specific construction.” (Iwata 2004: 1)
3. Alternation-based Approach (B. Levin)
• Semantic-to-syntactic variation
He put/loaded the apples on the truck.
He *put/loaded the truck with apples.
 近十幾年對中文動詞的研究
• 動詞分類的問題
• 語意與句法之互動
• 詞彙在語料中的實際表現
• 動詞語意/近義詞/多義詞
• 中文動詞的構詞/詞彙化
• 類型學比較
 將學術研究轉化為實際可供應
用的語意標注資料庫
• 以語言學理為根,以真實語料鏡,
以教學應用為向
• 提供一套系統性的語意標註
15
“框架-构式”语意标注体系
 標註論元的語意成分:框架元素及显性构式
• 他很煩!
• [他Stimulus][很*Degree]煩 He is very annoying
• [他Experiencer][很*Degree]煩 He feels so annoyed
 透過句法構式做為語意判准
• 我把書放/擺在桌上:Placer-*Ba-Figure-PLACE-*Zai-Ground
• 我把書搬/移到桌上:Mover-*Ba-Figure-MOVE-*Dao-Ground
差異
1. 在 vs. 到 (不同的句法標記)
2. 桌上放/擺著書 vs. *桌上搬/移著書 (顯著句式差異: Locative Inversion)
16
更多标注案例
 沟通类(Communication)动词
[他]Intl_1[與]*and[同事]Intl_2不斷[聊]CHAT [公司最近發生的事]Topic
 情感类(Emotion)动词
[我]Exp[很]*Deg[擔心]WORRY-FEAR[沒有能力解決這個問題] Target_Situation。
 认知类(Cognition)动词
說不定[她]Cognizer[決定]DECIDE[不走了]Decision。
 致使移动类(Caused-Motion)动词
[貴婦]Placer[將]*Ba[茶葉]Figure[放]PLACE-LOCATION[在]*Loc_mkr[精心訂製的「茶匣」裡]Ground_Location
 自动类(Self-Motion)动词
[他]Self-Mover全場只[跑]MANNER了[十五碼]Distance
17
The established frames and on-going work
有層級分佈的框架結構: Archi-frame > (Primary fame) > Basic frame > (Micro-frame)
• 八大類源框架: Emotion, Cognition, Perception, Caused-Motion, Motion,
Social-Interaction, Communication, Judgement;
• 已定義約100個基本框架;
• 已分析近1000個動詞(涵蓋40%的高頻動詞).
• 10個新的源框架,例如Digest, Behavioral, Existential, Attributive, Desire等;
• 約100個新的基本框架;
• 約1200個新的動詞.
已有標註
進行中
Department of Linguistics and Translation, CityU College of Language and Literature, Wuhan U
Prof. LIU Mei-Chun
語義標註系統完成進度
18
自动语意角色标注的成果
Dev.S Test.S Dev,F Test.F
4l 88.0 86.7 84.4 83.4
6l 88.6 87.7 85.1 84.5
结果
模型:
前饋神經網絡
8万字语意知识库
(扩充中……)
19
预期结果
老闆今天很無聊!
那你要不要找他老人家看
個電影啊?
1. [老闆]Experiencer今天[很]*Degree[無聊]BORED!
语意表征a:Experiencer-*Degree-BORED
2. [老闆]Stimulus今天[很]*Degree[無聊]BORING!
语意表征b: Stimulus-*Degree-BORING
兩種可能回答:
1. 那你要不要去找他看電影?
2. 他做了什麼蠢事呢?
增加个性化用语
后台处理
用户
天猫精灵
语意匹配計算
根据模型消歧後
的語義檢索输出
對話。
20
5. 结论及展望:以人为本的个性化智能機器人
• 个性化
• 人性化
• 自然语言理解
• 情绪感知
• 长久记忆
• 考虑场景因素
• 多模态
• 自学习
。。。。。。
• 计算机算法改进
• 分布式计算
• 云端服务
• 大规模集成电路
• 语言学特征工程
• 知识图库
• 大型数据库
• 各种技术的结合
。。。。。。
目标 技术
21

More Related Content

Similar to chatbotandsemanticenhancement.pptx (11)

有效的教學簡報技巧
有效的教學簡報技巧有效的教學簡報技巧
有效的教學簡報技巧
 
1215論文
1215論文1215論文
1215論文
 
文本分析案例討論
文本分析案例討論文本分析案例討論
文本分析案例討論
 
"Comprehensible Input" Inspired Mandarin Course Curriculum Design and Impleme...
"Comprehensible Input" Inspired Mandarin Course Curriculum Design and Impleme..."Comprehensible Input" Inspired Mandarin Course Curriculum Design and Impleme...
"Comprehensible Input" Inspired Mandarin Course Curriculum Design and Impleme...
 
以移動視點探討電子日記本中的審美互動
以移動視點探討電子日記本中的審美互動以移動視點探討電子日記本中的審美互動
以移動視點探討電子日記本中的審美互動
 
Ch4語料庫建設及其統計手段和原理
Ch4語料庫建設及其統計手段和原理Ch4語料庫建設及其統計手段和原理
Ch4語料庫建設及其統計手段和原理
 
Ch4語料庫建設及其統計手段和原理
Ch4語料庫建設及其統計手段和原理Ch4語料庫建設及其統計手段和原理
Ch4語料庫建設及其統計手段和原理
 
Task based-language-learning-activities-with-technology-online
Task based-language-learning-activities-with-technology-onlineTask based-language-learning-activities-with-technology-online
Task based-language-learning-activities-with-technology-online
 
讀e Learning 台師大劉渼
讀e Learning 台師大劉渼讀e Learning 台師大劉渼
讀e Learning 台師大劉渼
 
國中資源班語文教學分享 蕭偉智
國中資源班語文教學分享 蕭偉智國中資源班語文教學分享 蕭偉智
國中資源班語文教學分享 蕭偉智
 
破解優質溝通力密碼
破解優質溝通力密碼破解優質溝通力密碼
破解優質溝通力密碼
 

chatbotandsemanticenhancement.pptx