姨搜简介
侯松
2016年06月
姨搜是什么?
大数据技术+风控思维
姨搜是怎么做的?
数据来源
数据整理
数据使用
外网数据 内部数据整合 三方数据合作
搜索引擎
(非结构化数据服务)
网查、问答系统
知识图谱
(结构化数据服务)
归户、查重、反欺诈图谱搜索、黑名单
数据库
决策引擎 风险分析
姨搜产品线
1. 自动化网查
2. 知识图谱系统
3. 基础数据服务系统
4. 图谱搜索
5. 黑名单系统
6. 三方数据整合服务
7. 决策执行引擎
8. 决策分析平台
自动化网查
Crawlers
Search Engine
Hbase/HDFS
MR/Yarn
ElasticSearch
webpage
processor
知识图谱系统(数据整合)
Query
Engine
crawler
controller
REST
Client
DB
HDFS
File
KG
web front
REST
Client
realtime
source
realtime/batch
extractionrealtime
inserts
commands web
trace
batch
processing
Web
crawlers
logging
.
.
.
.
.
.
.
.
.
.
.
.
Kafka
spark
streaming
web extraction
config
online knowledge
processing
offline complex
reasoning
entity retrieve
graph traverse
full text search
KG
repository
batch logging
3rd partner
Query
Engine
基础数据服务
1. 包括归户、查重等数据服务。
2. 难点在于:数据形态差异巨大,如何将它们统一到相同
的框架下并对外提供相同的接口。
图谱搜索
黑名单系统
1. 整个宜信共享的风险名单系统。
2. 信息来源:
(1) 内部逾期、欺诈等客户信息。
(2) 爬虫抓到的老赖信息。
(3) 同业和贷款中介信息。
(4) 机器学习得到的其他风险信息。
三方数据整合服务
1. 公司买了很多三方数据源,比如银联数据、学历学籍信
息、驾驶证查询、人法执行记录等,十多种数据源50余
个不同接口。
2. 我们的三方数据整合服务,屏蔽了外部数据源的巨大差
异,对内提供统一的使用接口,并使用缓存来支持离线
分析。
3. 集中的费用记录和对账,方便用户进行管理。
决策执行引擎
Complex Filter
Plugin
RichData
Rule Engine
Rule3
Rule2
进件
RawData
知识图谱 日志
Complex Filter
Plugin
评分模型+不同维
度+多个特征变量
特征适配抽取,不同
维度+外部数据源
多条规则+批贷拒
贷码
业务规则
数据库
业务模型
数据库
规则编写和部署
统计报表
Rule1
评估特征
发现规则
决策
通知告警
决策分析平台-模块
数据接口
特征库
分析引擎
多数据源接入 数据预处理
特征管理 特征标准化 衍生特征关系
特征选取 模型训练 结果分析与验证
风险数据
中心
数据寻源 数据血缘图
特征版本
可视化展示 项目共享
业务主题域
特征共享
决策分析平台-流程
数据源1 数据源n
风险数据中心
样本集
特征集 标准化特征1
标准化特征n
衍生特征
项目(自助)
项目(自助)
业务分析A
业务分析B 经验共享
可视化展现
模型集
数据获取 特征选取
特征工程发布上线
规则1
决策引擎
规则2 规则n
感谢您的聆听!
2016年06月

Yisou intro