Spark在苏宁云商的实践及经验分享

Spark在苏宁云商的实践及经验分享
欧锐
苏宁云商.大数据平台
2016/06

大数据平台研发中心.平台开发部
职责：
提供集团各个业务所需要的存储和计算能力。
保证平台的稳定、高效运行。
提高平台易用性。
目标：
打造稳定、易用、高效的平台，提高数据分析效率，实现人人都是数据分析师。
17/3/31 Copyright© 2002-2016 ，苏宁云商 2
关于我和我的小伙伴们
大数据攻城狮 MooseFS->Hadoop->Cassandra->HBase->Spark
5年的大数据相关经验 https://github.com/ouyangshourui
团
队
我

内容
• 平台介绍
• 使用案例
• 遇到问题
• TO DO
17/3/31 Copyright© 2002-2016 ，苏宁云商 3

平台介绍-定位
• 内存计算
• 迭代计算
• 机器学习
• 准实时计算
17/3/31 Copyright© 2002-2016 ，苏宁云商 4

平台介绍-现状
• 1.3.0 standalone -->1.4.0 standalone --> 1.5.2 Spark on yarn；
• Spark发展初期，以业务上线为主；
• 8个中心、50+ 应用开发人员；
• 日均job：800+，30+ app；
• Node：500+
17/3/31 Copyright© 2002-2016 ，苏宁云商 5

平台介绍-Spark架构
HDFS
HBase Yarn
Hive
RDD
调度模块机器学习平台元数据
数据交换模块
平台层
管理层
数据开发平台数据分析平台服务层
外部系统数据工程师，运营，产品经理，外部人员
Kafka
客户
监控报警
Copyright© 2002-2016 ，苏宁云商 6
DataFrame
SQL Streaming MLIB
数据探查
DB
Elasticsearch
……
Spark
Alluxio

使用案例
• 账务明细
• 价格全量
• 物流订单
• 智能推荐
• 机器学习
17/3/31 Copyright© 2002-2016 ，苏宁云商 7

使用案例-账务明细
17/3/31 Copyright© 2002-2016 ，苏宁云商 8
1. 财务明细：核算、结算、开票（内
部）;
2. 历史订单多、维表数据多（商品、合
同）;
3. 接收提取数据：需要整合多数据源；
4. 后面环节：需要依赖提取的数据源数
据；
5. 具有复杂的解析和匹配规则；
6. 传统的ERP系统一天无法全部处理所
有任务；

使用案例-全量价格
17/3/31 Copyright© 2002-2016 ，苏宁云商 9
1. 从多数据源抽取数据；
2. 多维度数据关联和转换;
3. 数据量很大，传统的计算方法
无法很好满足；
4. 全量+增量计算方式。
商品可售状态表A
商品可售状态表B
商品可售状态表C
商品基础价格表A 商品基础价格表B
商品促销信息商品排序信息
MySQL X 1000
DB2 X 100
MySQL X 1000
MySQL X 1000 MySQL X 1000
HiveMySQL X 100
JOIN
UNION
JOIN
JOIN
HDFS
Hive
映射
价格产品线
寻
源
产
品
线
促销和其他产品线
JOIN
外围系统
消费
消费

使用案例-物流订单
17/3/31 Copyright© 2002-2016 ，苏宁云商 10
1. 全国所有物流订单状态；
维度数据放大50倍；
2. 统计到5分钟的变化订
单的状态；
3. 需要维护历史订单数据；
需要反复读取HBase；
4. 全量+增量；

使用案例-智能推荐
17/3/31 Copyright© 2002-2016，苏宁云商 11
1. App 和PC 同时进行推送，吞
吐量要求高；
2. hive存储了大量维表数据；
3. 减少和外部系统的交互；
4. 支持状态保存，比如最近三次
收藏购物车行为；

使用案例-机器学习
17/3/31 Copyright© 2002-2016，苏宁云商 12
1. 商品特征维度降维:SVD、PCA
2. 商品挂错页面检查： TF-IDF 、SVM、 Logistic Regression
3. 相关推荐算法模型训练： Logistic Regression、kmeans、SVM
4. 商品爆品预测： Logistic Regression
5. 关联性分析:FPGrowth
6. 开发了基于Mllib的机器学习平台；

使用案例-机器学习
17/3/31 Copyright© 2002-2016，苏宁云商 13

经验分享
• 用户常见错误
• 平台配置
• Spark 平台权限
• 升级遇到的问题
• metrics收集
17/3/31 Copyright© 2002-2016 ，苏宁云商 14

经验分享- 常见错误
• Collect 大量数据到Driver端，导致driver oom；算法开发的时候没有注意
解决办法：driver 不能堆积大量数据，尽量不要在driver保存数据
• 维表数据没有cache内存或者repartition数目太多
解决办法：将维表数据cache到内存，分区数量不能太多
• 未对Spark的持久化级别进行选择，需要根据实际的业务需求进行选择
解决办法：统计RDD的数据量，大数据量将Memroy_AND_DISK作为首选
17/3/31 Copyright© 2002-2016 ，苏宁云商 15

• 读写DB没有设置合理的分区数目，并发数太高，影响业务
解决办法：统计DB的表分区结构，监控DB服务load，压测到位
• Spark 使用 HBase scan 性能不稳定
解决办法：Get 性能相对稳定，尽量使用Get
• History server 重启需要回放180G 日志，需要4个小时，新完成app 在History
server 无法立即看到
解决办法：修改为多线程回放： SPARK-13988
17/3/31 Copyright© 2002-2016 ，苏宁云商 16

• 经常会出现class not found，但是class 文件在包里面存在
解决办法：打印classloader分析，建议不要轻易修改源码classloader
• PCA 算法只能支持小于14W feature 特性
解决办法：使用SVD 进行降维
• FPGrowth 不支持 KryoSerializer （ SPARK-7483）
解决办法：1.6.2之前版本使用java Serializer
17/3/31 Copyright© 2002-2016 ，苏宁云商 17

经验分享- 平台配置
• Driver extraJavaOptions ＆ Executor extraJavaOptions
-XX:MaxPermSize=512m
-XX:+PrintGCDetails
-XX:+PrintGCTimeStamps
-XX:+UseParNewGC -XX:+UseConcMarkSweepGC
-XX:CMSInitiatingOccupancyFraction=80
-XX:GCTimeLimit=5 -XX:GCHeapFreeLimit=95
17/3/31 Copyright© 2002-2016 ，苏宁云商 18

经验分享- 平台配置
• HistoryServer JavaOptions
-XX:+UseParNewGC -XX:+UseConcMarkSweepGC
-XX:CMSInitiatingOccupancyFraction=80
-XX:GCTimeLimit=5 -XX:GCHeapFreeLimit=95
• spark.yarn.jar hdfs://path/spark-assembly-1.5.2-hadoop2.4.0.jar （设置
副本数和节点数目一样）
17/3/31 Copyright© 2002-2016 ，苏宁云商 19

经验分享- Spark 添加复用JDBC Schema功能
• Spark在使用JDBC接口建立DataFrame时，需通过执行SQL来获取该JDBC源数据的
Schema；
• 解决办法：Schema 相同的table可以不用重复获取schema：
• 代码地址：https://github.com/ouyangshourui/SparkJDBCSchema/wiki
• 4000个DataFrame的初始化时间从原先的接近25分钟缩短为10分钟以内;
17/3/31 Copyright© 2002-2016 ，苏宁云商 20

经验分享- Spark 平台权限
• 1.4.0 Standalone cluster 模式不支持多用户；
• 相关组件读写权限问题无法解决，比如读取Hive、HBase、HDFS数据的权限问题；
• 解决办法：修改SparkContext sparkuser和system user name;
• 代码地址： https://github.com/ouyangshourui/StandaloneClusterAuthorization/
wiki
17/3/31 Copyright© 2002-2016 ，苏宁云商 21

• Spark Sql Hive 元数据库密码加密：javax.jdo.option.ConnectionPassword暴露
给用户比较危险；
• 解决方法：修改HiveContext.scala文件中的metadataHive 变量，选择自定义的解
密算法解密；
• 代码地址： https://github.com/ouyangshourui/HivePasswordEncryptionDecry
ption/wiki
17/3/31 Copyright© 2002-2016 ，苏宁云商 22

• Spark 1.5.2 Sql 放大了Hive读权限, 任何用户都可以读取别的用户Hive 表数据;
• 临时解决方法：生成 HiveTableScan operator 时调用driver 已有的Hive Client权
限接口检查当前用户的读权限；
• 代码地址：https://github.com/ouyangshourui/HiveReadpermission/wiki
17/3/31 Copyright© 2002-2016 ，苏宁云商 23

经验分享- 升级遇到的问题
• 升级背景：1.4.0 Standalone 升级到1.5.2 on Yarn ；
• 用户代码使用system.exit(-1) ，RM webUI却显示正常；建议直接throw
exception ；
• 自定义的封装 Mysql、 PostgreSQL JDBC没有考虑 driver JDBC Dialect 的实现，
导致数据无法返回；
17/3/31 Copyright© 2002-2016 ，苏宁云商 24

经验分享- 升级遇到的问题
• 每个exectuor 都与hive 建立 connection 去获取 hiveConf，没有 broadcast
hiveConf（ SPARK-10679）；
• 多版本Spark Dynamic Resource Allocation 无法共存；DRA需重启Yarn
NodeManger ，耦合性太强（没有解决）；
17/3/31 Copyright© 2002-2016 ，苏宁云商 25

Spark在苏宁云商的实践及经验分享

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Spark在苏宁云商的实践及经验分享

Similar to Spark在苏宁云商的实践及经验分享 (20)

Spark在苏宁云商的实践及经验分享