智能化大数据推动金融
人工智能和机器学习在金融信息处理中的应用
——夏磊 CTO@数库科技
1. 人工智能和机器学习
2. 数库在做什么?
3. 我们怎么做?
目录
1. 人工智能和机器学习
人工智能和机器学习
语音识别 无人驾驶 人脸识别 人类基因组 智能家居
人工智能是科学
机器学习是让机器变得 更加智能 的算法
人工智能和机器学习
2. 数库在做什么?
数库致力于运用技术减少由于金融信息不对称而带来的
投资壁垒,依靠科技手段简化金融投资,让更多的人享有大
数据带来的高效与便捷。
关于数库
基本面分析、行业与产业链
finance.chinascope.com
新型量化投资
factors.chinascope.com
数据即服务 API & SDK
developer.chinascope.com
基于SAM分类标准可以实现产业链图谱、指数、
宏观经济数据的关联以及垮市场联动分析服务
使用机器学习、自然语言处理和图谱挖掘
技术对海量非结构化数据进行解读分析
产品与核心引擎
17000上市公司自2007年所有业务线披露 4900条标准化SAM业务线节点
SAM是数库在半结构化数据搭建中的里程碑技术,目前全球有类似技
术的除了数库之外只有彭博和Factset。
解决行业分类失真问题 高效、精准完成可比公司分析 完成上市公司产业链搭建
从业务线来量化判断行业分类,根据公司披露,实时更新
改革传统行业分类
Segment Analytics & Mapping
业务线分布 SAM产品树
Segment Analytics & Mapping
做为SAM的补充,KAM 对互联网上的实时资讯进行收集,通过自
然语言处理、机器学习、知识图谱等技术解读信息,让投资者能够
实时捕捉到市场热点、事件和投资机会。
3. 我们怎么做?
• 自然语言处理
• 深度学习
• 图像处理
人工智能
• 分类算法
情绪分类 SVM、LSTM
择时策略 HMM
• 推荐算法
标签关联、知识推荐
• 聚类算法
主题提取
机器学习算法
• 提升数库自己的运营杠杆
• 提升客户的知识决策效率
目标
数库的人工智能应用
• 非结构化数据标准化
从大量PDF中抽取出结构化的数据:将pdf解析为字符、线条、图像等中间数据,方便算法使用
• 算法
通过各类机器学习算法,实现文本抽取、表格构建、图像识别等挖掘出有用的数据
• 结构化存储
将算法输出的有用数据进行SQL或者NOSQL存储,以供进一步加工和使用(比如NLP、DL等等)
非结构化数据处理
• 预训练的词向量
大规模无监督训练获取词的相关特征。
• 自训练的词向量
依据具体任务场景获取词的相关特征。
• 词性标注向量
现有分词器的词性标注提供先验知识。
• 字向量,未登录词如何处理?
方式1:随机初始化。
方式2:找出同义词替代。
我们的方法:提取词当中的字向量并结合词向量 训练神
经网络,能够解决部分未登录词的问题。
上海 数库 科技 有限公司 <pad>
目标
向量合并
隐藏层
Dropout层
输出分类层
输入
预训练的词向量
自训练的词向量
词性标注向量
经神经网络提取
的字向量
<pad> <pad> 科 技 <pad> <pad>
卷积层
池化层
自训练的字向量
经神经网络提取的字向量
深度学习在命名实体识别上的应用
• 从海量无标注数据中提取特定情感知识
• 词的情感极性知识
 一个词出现在正向情感文本的概率越大,则更有可能蕴含正向情感
信息
 情感词极性的上下文依赖、领域依赖、用户个性化依赖、用户社交
关系依赖
• 词与词的情感相似度知识
 基于word2vec,反映两个词的依存程度
 两个词共现的概率越大,则越可能相近的情感极性
• 情感分类模型训练
• 10w语料标注集(标题、摘要),每个月新增
• 行业情感语料库、事件情感语料库、金融情绪词库
• SVM分类算法
新闻情绪分析
主题聚类
• 以聚类思想实现分类目的
• 从无标注数据中提取主题特征
新主题发现
• 以热点词为核心
• 二重聚类算法实现去噪和聚合热点
主题聚类与新主题发现
进行中
语义关系抽取
交互式财经问答
— THANKS —
微信公众号 官网
数 库 , 赋 予 数 据 智能

机器学习推动金融数据智能