BDTC2015 阿里巴巴-鄢志杰（智捷）-deep learning助力客服小二：数据技术及机器学习在客服中心的应用

Deep Learning助力客服小二：
数据技术及机器学习在客服中心的应用
鄢志杰（智捷）
阿里云iDST（Institute of Data Science and Technologies）
12/11/2015
*包含iDST-NLS团队（薛少飞、雷鸣、鲍光胜）及iDST-DLS团队（张家兴、崔恒斌）等其他同学的工作

Outlines
• 传统客服中心的现状与挑战
• 沉淀客服数据
• 自动语音识别沉淀IVR客服语音对话
• 全量客服质检
• 传统质检
• 问题定位质检
• 自助客服
• 自动问题识别
• 总结与展望

传统客服中心IVR业务
拨打电话
欢迎致电
xxx，中文
服务请按1，
for English
service,
press 2
• 按1
xxx请按1；
xxx请按
2；……；
人工服务
请按9
• 按9
对不起，
目前座席
繁忙，您
可能还需
要等待xx
分钟
• 听音乐
单曲循
环N分钟
xxx号为您
服务。您
好！请问
有什么可
以帮您？
• 描述问
题、定
位问题、
解决问
题
请不要挂
机，并对
我的服务
作出评价，
非常满意
请按1……
• 挂机
• 传统客服中心面临的挑战
• 效率不高，用户体验欠佳
• 缺乏有效反馈，难以保证服务质量
• 随业务发展可扩展性差

传统客服中心IVR业务
• 典型案例：阿里巴巴集团+蚂蚁金服客服中心IVR业务
• 话务量大 – 每天数十万通电话，数万小时通话数据
• 用工量大 – 常年需要成千上万规模自营+外包小二，双11期间需
求陡增
• 规模膨胀带来问题
• 面对客户，如何提升服务体验？
• 针对小二，如何提升服务质量？
• 放眼未来，如何通过数据技术及机器学习升级传统客服？

我们的尝试
• 沉淀客服通话数据
• 自动语音识别，将对话转写为文本
• 全量自动质量控制
• 扫描每通电话，监测基本服务质量
• 问题定位质检，提升问题解答一致性
• 自动问题识别
• 自动识别问题，提高自助渠道解决率
Applications
Machine
Learning
Data

语音识别沉淀客服数据
• 我们“存储”了语音数据
• “正在为您转接客服小二，为了提高我们的服务质量，您的通话
可能会被录音。”
• 我们“存储”了很多语音数据
• 每天数十万通电话  数万小时通话数据
• “存储”≠“沉淀”
• 高准确率的自动语音识别是后续诸多应用的前提

语音识别沉淀客服数据

客服电话语音识别的难点
• 电话对话语音识别是语音识别领域最困难的任务之一
电话语音识别
手机语音搜索（E.g. 搜索引擎、手淘语音
搜索等）
大段说话自由随意，包含犹豫、重复、打
断等(spontaneous speech)
短语居多，想好再说
人人对话，饱含情绪人机对话，用户配合度高
对话自由度较大，语言模型训练语料较难
获得
说话内容在互联网时代已趋于闭集，通过
query log等较易获得语言模型训练语料
传输信道复杂(客户端手机、固话；小二
端耳麦；通过不同运营商和不同call
center系统信道)
传输信道相对简单，通过各型手机直接采
集并数字化传输

客服电话语音识别声学模型训练
• 声学模型是决定语音识别准确率的核心模型之一
• 表征语音的声学特征 (e.g., 拼音a / o / e在声学上听起来
是什么样)
• GMM-HMM是基础
• 基于CPU集群(ODPS)的超大规模GMM-HMM训练
• xNN-HMM已成为state-of-the-art (DNN / CNN / RNN)
• 基于GPU集群的超大规模DNN / CNN / RNN训练

客服电话语音识别声学模型训练
• E.g., 基于DNN-HMM的语音识别声学模型
*Figure borrowed from G. Dahl, et al., Context-Dependent Pre-Trained Deep Neural Networks for Large-Vocabulary Speech Recognition

快速周转训练声学模型
• 利用更多数据、覆盖更多实际使用场景（信道、环境噪声、
口音等）  提升识别准确率
• 更多数据意味着更长的训练周期
• 缩短训练周期是工业界声学模型训练的核心问题之一
• E.g., 一个并不算大的5,000小时语音训练集
• 5,000 hour = 1,800,000,000 training samples
• 训练至收敛需过3遍数据 = 5,400,000,000 training samples
• 训练周期长达数周！

GPU多机多卡Machine Learning Middleware
@雷鸣

GPU多机多卡训练
• CPU vs. GPU
• 在fully-connected DNN最主要的矩阵运算上 1 GPU约等于数百
~ 1000 CPU core
• 运算加速后通讯迅速成为瓶颈
• 通讯速度决定了理论最大加速比，随着GPU升级换代，通讯越发成为
瓶颈
• 单机多卡
• 通过PCIe通讯，速度较快
• 单机最多插8卡，即最高理论加速8倍
• 多机多卡
• 多机多卡通过infiniband互联增加throughput，降低latency，减
少通讯overhead
• 我们选择此技术路线

GPU多机多卡middleware
• GPU多机多卡训练工具开发的两种模式
• 写一个大而全的多机多卡DL训练工具
• 改造现有open source DL训练工具以支持多机多卡
• 改造而不是重写的好处
• 拥抱open source，站在别人的肩膀上（Kaldi, Caffe, cuda-
convnet, CURRENNT, RNNLib, TensorFlow）
• 迅速吸收machine learning community最新进展，可持续扩充
• 改造的利器 – GPU多机多卡machine learning
middleware

• 连接底层硬件和上层单机版open source工具
• 将运算、通讯、存储资源包装，并输送至单机工具
• 通过尽可能少的修改单机版open source工具实现多机多
卡加速
• 以最小的effort支持最多的工具
Hardware
User Program
Middleware
Open source
tool 1
GPU cluster
Infiniband /
Ethernet
Distributed
storage
Open source
tool 2
Local
storage
GPU machine learning middleware
…

• Middleware抽象出多机多卡训练工具通用的功能
• Communication APIs（p2p Send / Recv、collective
Broadcast / Reduce / AllReduce等）
• Scheduling / load-balancing
• Training data dispatch / caching
• Model parameter optimization (MA / ASGD)
• Learning rate scheduling
• Check point

• Middleware特性
• Master-slave communication model，支持以MA（model
averaging）和ASGD（parameter server）两种模式实现并行训
练
• “Just-enough” data caching
• 通过包装MPI / GPU-direct RDMA，并重写特定API（如
AllReduce），实现高速通讯
• 目前只支持data parallelism，暂不支持model parallelism

• 如何通过尽可能少的修改使得单机版训练工具插入
middleware？
Before After
从本地或网络读取训练数据文件从middleware读取
单机模型参数更新
将model parameters(MA模式)或
gradients(ASGD模式)调用通讯API回
传middleware进行更新
无需多卡通讯调用middleware通讯API进行
无checkpoint 调用middleware checkpoint API进行

通过GPU多机多卡Middleware实现Model Averaging
A decomposition-coordination procedure
master
…...
𝑧
worker_1 worker_2 worker_N

worker_2 worker_Nworker_1
• Broadcast z to N computing
nodes;
master
…...
𝑧
𝑧
𝑧 𝑧

nodes;
• Update xi independently on each
computing node, using a sub-set
of data di
master
…...
𝑧
𝑧
𝑧 𝑧
𝐷1
𝑥1
𝐷 𝑁
𝑥 𝑁
𝐷2
𝑥2

nodes;
of data di
master
…...
𝑧
𝑧
𝑧 𝑧
𝑥1
′
𝑥 𝑁
′
𝑥2
′
𝐷1 𝐷 𝑁𝐷2

nodes;
of data di
• Aggregate xi to update z
master
…...
𝑧
𝑥1
′
𝑥 𝑁
′
𝑥2
′
𝑥1
′
𝑥2
′
𝑥 𝑁
′

nodes;
of data di
• Aggregate xi to update z
master
…...
𝑧′
𝑥1
′
𝑥 𝑁
′
𝑥2
′
𝑥1
′
𝑥2
′
𝑥 𝑁
′

nodes;
of data di;
• Aggregate xi to update z;
• Broadcast the updated z to N
computing nodes
master
…...
𝑧′
𝑧′
𝑧′ 𝑧′
𝑥1
′
𝑥 𝑁
′
𝑥2
′

nodes;
of data di;
• Aggregate xi to update z;
• Broadcast the updated z to N
computing nodes;
• Go to next iteration if necessary.
worker_1 worker_2
master
worker_N
…...
𝑧′
𝑧′
𝑧′ 𝑧′
𝑥1
′
𝑥 𝑁
′
𝑥2
′

多机多卡训练在GPU Farm中的硬件实现
• 多机多卡训练工具在GPU farm中的硬件实现
ODPS / OSS
...
GPU farm
...
Spine swithes
56Gbps
IB
. . .

案例：Kaldi通过middleware实现加速
• Kaldi通过middleware实现训练速度的提升
• Kaldi是语音识别领域当今最流行的开源工具包
• 极少修改插入middleware
• MA模式
• 5k-hour (1,800,000,000 samples) * 3 sweeps DNN训练
训练时间(hrs) 加速比
原生Kaldi单卡 360 -
Kaldi+Middleware单卡 342 1.1x
Kaldi+Middleware 4机8卡 49.8 7.2x
Kaldi+Middleware 8机16卡 25.2 14.3x

基于DBLSTM的语音识别声学模型
@薛少飞

CSC-DBLSTM / LC-DBLSTM提升语音识别准确率
• CSC-DBLSTM（context-sensitive-chunk based deep
bidirectional LSTM）应用于手写和语音识别并取得了很
好效果
• K. Chen, Z.-J. Yan and Q. Huo, “Training Deep Bidirectional
LSTM Acoustic Model for LVCSR by a Context-Sensitive-
Chunk BPTT Approach,”InterSpeech-2015
• LC-DBLSTM（latency-controlled DBLSTM）进一步提
升了CSC-DBLSTM
• Y. Zhang, G. Chen, D. Yu, K. Yao, S. Khudanpur, and J. Glass,
“Highway Long Short-Term Memory RNNs for Distant
Speech Recognition,”arxiv.1510.08983

LSTM
• LSTM（long short-term memory）
• 当今最有效、最流行的RNN
*Figure borrowed from A. Graves, et al., Hybrid Speech Recognition with Deep Bidirectional LSTM

BLSTM
• BLSTM（Bidirectional LSTM）
• 在sequence classification中利用双方向信息，被证明在speech
recognition、OCR、HWR中性能优异

DBLSTM
• DBLSTM（Deep BLSTM）
• Stack多个BLSTM layer，构建
deep network

DLSTM / DBLSTM训练及应用的主要问题
• DLSTM的问题
• Epochwise BPTT内存消耗大、并行度差，导致GPU训练不可行
或效率低下
• 使用truncated BPTT可以有效解决
• E.g.，语音识别领域使用truncated BPTT: H. Sak, et al, Long
Short-Term Memory Recurrent Neural Network Architectures
for Large Scale Acoustic Modeling

• DBLSTM的问题
• 语音识别解码是streaming模式
• 用户说话时会同时解码
• 可以降低latency，提升用户体验
• Bidirectional解码需要整个sequence（句子）结束才可以开始
• 极大的增加了latency

• 解决DBLSTM的latency问题
• CSC-DBLSTM / LC-DBLSTM
*Figure borrowed from K. Chen, et al., Training Deep Bidirectional LSTM Acoustic Model for LVCSR by a Context-Sensitive-Chunk BPTT Approach

DBLSTM应用于客服电话语音识别
• 训练工具
• 基于Kaldi codebase新开发GPU单卡训练工具
• 插入GPU多机多卡middleware，采用ASGD优化
• 解码器
• DBLSTM解码速度比DNN慢数倍
• 多种策略提升解码效率
• CPU only: quantization, SVD decomposition, frame-skipping
• CPU+GPU hybrid解码
• 客服语音识别准确率提升
• CER: character error rate，语音识别字错误率
CER(%) Testing set 1 Testing set 2
DNN 11.1 12.4
LC-DBLSTM 8.5 9.4

自动语音识别支撑传统客服全量质检
• 基于关键词检测的质检
• 服务禁语：TMD、傻瓜、抽疯……
• 客户投诉：投诉你、投诉上一个小二……
• 基于语音时间戳的质检
• 服务断档：小二回复客户时间>x秒
• 超时反馈：小二请客户等待一两分钟，实际等待超过承诺时间
• 基于上下文的质检
• 服务规范：客户说“谢谢”，小二答“不客气”

自动语音识别支撑传统客服全量质检

基于DLSTM的问题定位质检
@鲍光胜

问题定位质检提升客服一致性
• 同一个问题，同一个解答
• 如何保证单个小二能够正确的定位问题
• 如何保证多个小二能够对同一问题给出一致的解答
• 问题定位质检
• 根据客服对话自动判断客户问题，检查与小二人工判断是否相符

问题定位质检
• 问题定位模型
• 确定问题类目
• 通过传统客服中心运作经验归纳得到，通常数百至上千
• 问题类目是定位和质检的目标
• 收集训练数据
• 通过客服IVR一段时间的运作，利用语音识别沉淀出训练数据
• 每通对话结束后小二会记录对用户问题的判断
• 得到“对话文本  问题类目”的训练数据
• 基本假设：大部分小二能够正确定位问题 / 大部分人用的解法就是好
解法

问题定位质检
• 训练数据沉淀
IVR对话1
问题A
问题B
问题C
IVR对话2
IVR对话3
IVR对话4
IVR对话5
小二人工判断

问题定位质检
• 在线质检
• 示意图，在质检下实际是detection问题而不是classification问题
IVR对话1 问题A小二人工判断
机器自动判断

IVR对话2 问题A小二人工判断
机器自动判断

问题B

问题定位质检
• 问题定位LSTM模型训练
• Word2vec embedding模型
• 问题定位classification模型
• 模型性能
• ~50% recall下得到了~90%的precision

我的客服“因子+行为”自动问题识别
@薛少飞 @张家兴 @崔恒斌等

支付宝“我的客服”自动问题识别
• 支付宝“我的客服”
*credit: @V哥, 阿里味儿

• 用户尚未主动发问，如何猜出ta想问什么？
• 传统方法
• 因子：人工总结的heuristics（E.g., 过去24小时是否有过转账操作）
• SVM模型、LR模型等
• 新方法
• 用户行为：用户过去一段时间在PC端和移动端的点击序列
• DNN 、LSTM模型等

用户行为轨迹
• 从用户行为轨迹预测问题
• 用户每次点击产生一条记录
• 在一段时间内连续的记录构成用户
行为轨迹
• 无需知道点击的语义，只需记录点
击ID即可（不受网站、app改版干扰）
• 完全data-driven，极少人工干预

• 问题识别模型
• 确定问题类目（与问题定位质检类似）
• 收集训练数据
• 根据客服IVR服务时间戳获取用户当时的“因子+行为”信息
• 每通IVR对话结束后小二会记录对用户问题的判断
• 得到“因子+行为  问题类目”的训练数据

语音识别在碎片化服务场景应用 – 支付宝我的客服

语音识别在碎片化服务场景应用 – 手机淘宝“阿里小蜜”

总结与展望
• 自动语音识别沉淀客服数据
• IVR对话定位问题提升问题解答一致性
• “因子+行为”自动问题识别
IVR对话问题A自动问题判断
问题B自动问题判断因子+行为

总结与展望
• 问题生成模型
自动问题生成

总结与展望
• 自动Q&A挖掘
自动问题生成
自动Q&A挖掘
解答A

总结与展望
• 其他IVR配套技术
• 语音合成
• 说话人识别 / 验证
• 情绪检测
• 客服机器人将学习人、帮助人，而不是取代人

BDTC2015 阿里巴巴-鄢志杰（智捷）-deep learning助力客服小二：数据技术及机器学习在客服中心的应用

Recommended

Recommended

More Related Content

Similar to BDTC2015 阿里巴巴-鄢志杰（智捷）-deep learning助力客服小二：数据技术及机器学习在客服中心的应用

Similar to BDTC2015 阿里巴巴-鄢志杰（智捷）-deep learning助力客服小二：数据技术及机器学习在客服中心的应用 (20)

More from Jerry Wen

More from Jerry Wen (9)

BDTC2015 阿里巴巴-鄢志杰（智捷）-deep learning助力客服小二：数据技术及机器学习在客服中心的应用