From http://www.csdn.net/article/2015-12-17/2826501
《数美公司联合创始人兼CTO梁堃:Sentry金融实时风控系统》
数美公司联合创始人兼CTO梁堃在主题演讲中介绍了Sentry金融实时风控系统。他表示实时风控系统对于银行业继续保持高速发展越来越重要。Sentry金融实时风控系统是基于大数据技术构建的实时交易风险评估系统。其工作过程是,在每一笔交易发生时,实时进行(1)业务系统将交易信息发送风控系统;(2)发现该交易中存在的异常行为和可疑场景;(3)根据发现的“证据”计算该交易的风险系数;(4)将风险系数等相关信息反馈给业务系统。
From http://www.csdn.net/article/2015-12-17/2826501
《数美公司联合创始人兼CTO梁堃:Sentry金融实时风控系统》
数美公司联合创始人兼CTO梁堃在主题演讲中介绍了Sentry金融实时风控系统。他表示实时风控系统对于银行业继续保持高速发展越来越重要。Sentry金融实时风控系统是基于大数据技术构建的实时交易风险评估系统。其工作过程是,在每一笔交易发生时,实时进行(1)业务系统将交易信息发送风控系统;(2)发现该交易中存在的异常行为和可疑场景;(3)根据发现的“证据”计算该交易的风险系数;(4)将风险系数等相关信息反馈给业务系统。
Mesos-based Data Infrastructure @ DoubanZhong Bo Tian
How to build an elastic and efficient platform to support various Big Data and Machine Learning tasks is a challenge for a lot of corporations. In this presentation, Zhongbo Tian will give an overview of the Mesos-based core infrastructure of Douban, and demonstrate how to integrate the platform with state-of-art Big Data/ML technologies.
From http://www.csdn.net/article/2015-12-17/2826501
《阿里巴巴数据安全部阿里数据安全小组总监郑斌:大数据下的数据安全》
阿里巴巴数据安全部阿里数据安全小组总监郑斌在《大数据下的数据安全》主题演讲中表示以数据流控制为中心的IT时代正走向以数据共享为基础、激活生产力为目的的DT时代,而大数据是新的生产要素,互联网+的新基础设施云网端(云:云计算、大数据;网:互联网、物联网;端:终端,APP)正激活大数据。
From http://www.csdn.net/article/2015-12-17/2826501
《新浪微博算法技术总监姜贵彬:大数据驱动下的微博社会化推荐》
新浪微博算法技术总监姜贵彬发表题为《大数据驱动下的微博社会化推荐》的演讲。他主要从以下几个方面进行了分享:推荐的角色与定位、大数据与推荐的关系、数据驱动下的微博推荐、商业推荐。他认为推荐扮演了加速器和调控器的角色。加速器是指加速优质信息传播、加速高价值关系构建、加速用户成长。调控器是指优化用户关系网络结构、调控和引爆信息的定向传播。
More Related Content
Similar to BDTC2015 阿里巴巴-鄢志杰(智捷)-deep learning助力客服小二:数据技术及机器学习在客服中心的应用
Mesos-based Data Infrastructure @ DoubanZhong Bo Tian
How to build an elastic and efficient platform to support various Big Data and Machine Learning tasks is a challenge for a lot of corporations. In this presentation, Zhongbo Tian will give an overview of the Mesos-based core infrastructure of Douban, and demonstrate how to integrate the platform with state-of-art Big Data/ML technologies.
From http://www.csdn.net/article/2015-12-17/2826501
《阿里巴巴数据安全部阿里数据安全小组总监郑斌:大数据下的数据安全》
阿里巴巴数据安全部阿里数据安全小组总监郑斌在《大数据下的数据安全》主题演讲中表示以数据流控制为中心的IT时代正走向以数据共享为基础、激活生产力为目的的DT时代,而大数据是新的生产要素,互联网+的新基础设施云网端(云:云计算、大数据;网:互联网、物联网;端:终端,APP)正激活大数据。
From http://www.csdn.net/article/2015-12-17/2826501
《新浪微博算法技术总监姜贵彬:大数据驱动下的微博社会化推荐》
新浪微博算法技术总监姜贵彬发表题为《大数据驱动下的微博社会化推荐》的演讲。他主要从以下几个方面进行了分享:推荐的角色与定位、大数据与推荐的关系、数据驱动下的微博推荐、商业推荐。他认为推荐扮演了加速器和调控器的角色。加速器是指加速优质信息传播、加速高价值关系构建、加速用户成长。调控器是指优化用户关系网络结构、调控和引爆信息的定向传播。
From http://www.csdn.net/article/2015-12-17/2826501
《南京大学计算机系PASA大数据实验室教授黄宜华 :Octopus(大章鱼):基于R语言的跨平台大数据机器学习与数据分析系统》
黄宜华认为大数据+机器学习是驱动全球互联网企业的核心。大数据机器学习是一个同时涉及到机器学习和大数据处理两个主要方面的交叉性研究课题。面向大数据复杂分析挖掘,现有的串行化机器学习与数据挖掘算法都需要重写,进行并行化设计以及不同的大数据并行处理平台上,各种大数据机器学习与数据挖掘算法需要进行基于特定平台的并行化算法设计等问题的存在,迫切需要研究提供一种统一化并易于使用的大数据机器学习系统支撑平台。
From http://www.csdn.net/article/2015-12-17/2826501
《新加坡管理大学信息系统学院教授朱飞达 :大数据与金融创新:从研究到实战》
新加坡管理大学信息系统学院教授朱飞达分享了基于社交媒体大数据的个人征信应用模式,包括四个方面:提取社交维度特征,加入现在传统信用模型;采用产生式模式挖掘不同信用类别的隐含用户模型;基于社会关系网络的风险传递查询和探索引擎;实时反欺诈侦测和预警系统。
From http://www.csdn.net/article/2015-12-17/2826501
《小米金融技术主管方流: 大数据在互联网金融中的应用》
方流在主题演讲中重点介绍了DW建设的业务架构及开发工具,包括log利器Scribe、ETL利器之Hadoop/Hdfs、DW利器之HBase、数据分析利器Hive/Sentry、OLAP利器Impala、数据迁移利器之sqoop、机器学习利器之spark。同时重点分析了用户金融画像并针对大数据反欺诈,给出了自己的探索实践,防止盗号,提供异常环境监测/手机验证;防止身份伪造,采用实名认证;鉴定虚假资料,进行交叉验证。
BDTC2015 hulu-梁宇明-voidbox - docker on yarnJerry Wen
From http://www.csdn.net/article/2015-12-17/2826501
《Hulu 资深研发主管梁宇明 :Voidbox - Docker On YARN在Hulu的实践》
Docker 技术越来越得到了很多开发者的青睐,而YARN对于多数爱好者来说还是一个比较新的产品平台。如果两者放在一起融化会发生什么事情呢?来自Hulu公司的资深研发主管梁宇明为大家讲解了这一神奇的经历。他的演讲题目是《Voidbox - Docker On YARN在Hulu的实践》。因为基于YARN的大数据计算平台使得不同的计算框架可以在同一集群中混合部署,进而提升了集群资源利用率。
From http://www.csdn.net/article/2015-12-17/2826501
《京东云平台总架构师、系统技术部负责人刘海锋 :从2014 到2016,大规模内存数据库演进之路》
刘海锋带来了名为“大规模内存数据库JIMDB:从2014到2016”的主题演讲。JIMDB基于redis,以内存为中心的数据存储,其底层技术研发包括了存储引擎(Dict、LSM with RAM-SSD hybrid、B+Tree)、复制协议(async、sync等)、分片策略(Hash、Range)三个部分。过去两年,JIMDB一直持续建设,拥有着数千台大内存机器,多个数据中心,1000+线上集群,支撑了京东几乎所有的业务。
From http://www.csdn.net/article/2015-12-17/2826501
《Databricks公司联合创始人、Spark首席架构师辛湜:Spark发展:回顾2015,展望2016 》
辛湜介绍了Spark的目标是“Unified engine across data workloads and platforms”。在谈到Spark在2015年最大的改变时,他感觉应该是增加了DataFrames API。对于Spark的生态圈,他表示主要侧重三个不同的方向,一个是上层的应用,二是下层的环境,还有最重要的是连接到的数据源。
27. worker_1 worker_2 worker_N
通过GPU多机多卡Middleware实现Model Averaging
• Broadcast z to N computing
nodes;
• Update xi independently on each
computing node, using a sub-set
of data di
A decomposition-coordination procedure
master
…...
𝑧
𝑧
𝑧 𝑧
𝐷1
𝑥1
𝐷 𝑁
𝑥 𝑁
𝐷2
𝑥2
28. worker_1 worker_2 worker_N
通过GPU多机多卡Middleware实现Model Averaging
• Broadcast z to N computing
nodes;
• Update xi independently on each
computing node, using a sub-set
of data di
A decomposition-coordination procedure
master
…...
𝑧
𝑧
𝑧 𝑧
𝑥1
′
𝑥 𝑁
′
𝑥2
′
𝐷1 𝐷 𝑁𝐷2
29. 通过GPU多机多卡Middleware实现Model Averaging
• Broadcast z to N computing
nodes;
• Update xi independently on each
computing node, using a sub-set
of data di
• Aggregate xi to update z
A decomposition-coordination procedure
master
…...
𝑧
𝑥1
′
𝑥 𝑁
′
𝑥2
′
𝑥1
′
𝑥2
′
𝑥 𝑁
′
𝐷1 𝐷 𝑁𝐷2
worker_1 worker_2 worker_N
30. 通过GPU多机多卡Middleware实现Model Averaging
• Broadcast z to N computing
nodes;
• Update xi independently on each
computing node, using a sub-set
of data di
• Aggregate xi to update z
A decomposition-coordination procedure
master
…...
𝑧′
𝑥1
′
𝑥 𝑁
′
𝑥2
′
𝑥1
′
𝑥2
′
𝑥 𝑁
′
𝐷1 𝐷 𝑁𝐷2
worker_1 worker_2 worker_N
31. worker_1 worker_2 worker_N
通过GPU多机多卡Middleware实现Model Averaging
• Broadcast z to N computing
nodes;
• Update xi independently on each
computing node, using a sub-set
of data di;
• Aggregate xi to update z;
• Broadcast the updated z to N
computing nodes
A decomposition-coordination procedure
master
…...
𝑧′
𝑧′
𝑧′ 𝑧′
𝑥1
′
𝑥 𝑁
′
𝑥2
′
𝐷1 𝐷 𝑁𝐷2
32. 通过GPU多机多卡Middleware实现Model Averaging
• Broadcast z to N computing
nodes;
• Update xi independently on each
computing node, using a sub-set
of data di;
• Aggregate xi to update z;
• Broadcast the updated z to N
computing nodes;
• Go to next iteration if necessary.
A decomposition-coordination procedure
worker_1 worker_2
master
worker_N
…...
𝑧′
𝑧′
𝑧′ 𝑧′
𝑥1
′
𝑥 𝑁
′
𝑥2
′
𝐷1 𝐷 𝑁𝐷2
36. CSC-DBLSTM / LC-DBLSTM提升语音识别准确率
• CSC-DBLSTM(context-sensitive-chunk based deep
bidirectional LSTM)应用于手写和语音识别并取得了很
好效果
• K. Chen, Z.-J. Yan and Q. Huo, “Training Deep Bidirectional
LSTM Acoustic Model for LVCSR by a Context-Sensitive-
Chunk BPTT Approach,”InterSpeech-2015
• LC-DBLSTM(latency-controlled DBLSTM)进一步提
升了CSC-DBLSTM
• Y. Zhang, G. Chen, D. Yu, K. Yao, S. Khudanpur, and J. Glass,
“Highway Long Short-Term Memory RNNs for Distant
Speech Recognition,”arxiv.1510.08983
37. LSTM
• LSTM(long short-term memory)
• 当今最有效、最流行的RNN
*Figure borrowed from A. Graves, et al., Hybrid Speech Recognition with Deep Bidirectional LSTM
38. BLSTM
• BLSTM(Bidirectional LSTM)
• 在sequence classification中利用双方向信息,被证明在speech
recognition、OCR、HWR中性能优异
*Figure borrowed from A. Graves, et al., Hybrid Speech Recognition with Deep Bidirectional LSTM
39. DBLSTM
• DBLSTM(Deep BLSTM)
• Stack多个BLSTM layer,构建
deep network
*Figure borrowed from A. Graves, et al., Hybrid Speech Recognition with Deep Bidirectional LSTM
40. DLSTM / DBLSTM训练及应用的主要问题
• DLSTM的问题
• Epochwise BPTT内存消耗大、并行度差,导致GPU训练不可行
或效率低下
• 使用truncated BPTT可以有效解决
• E.g.,语音识别领域使用truncated BPTT: H. Sak, et al, Long
Short-Term Memory Recurrent Neural Network Architectures
for Large Scale Acoustic Modeling
42. DLSTM / DBLSTM训练及应用的主要问题
• 解决DBLSTM的latency问题
• CSC-DBLSTM / LC-DBLSTM
*Figure borrowed from K. Chen, et al., Training Deep Bidirectional LSTM Acoustic Model for LVCSR by a Context-Sensitive-Chunk BPTT Approach