Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

雪球大数据体系实践

3,435 views

Published on

2016年4月“中国互联网技术联盟”大数据峰会上的讲稿

Published in: Engineering
  • Hi there! Get Your Professional Job-Winning Resume Here - Check our website! http://bit.ly/resumpro
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here

雪球大数据体系实践

  1. 1. ITA1024 www.ita1024.com
  2. 2. 雪球大数据体系 实践 @唐福林 雪球首席架构师 2
  3. 3. ❑ 关于雪球,关于我 ❑ 雪球大数据体系搭建 ❑ 大数据推广应用 ❑ 未来规划和思考总结 大纲 3
  4. 4. ❑ 雪球 聪明的投资者都在这里 ❑ web 1.0:新闻资讯,股价信息,K线图 ❑ web 2.0:SNS 订阅,分享,聊天 ❑ web 3.0:移动 APP,交易闭环 ❑ 非互联网:资产管理,私募工场 ❑ https://xueqiu.com/about 关于雪球
  5. 5. ❑ 员工 100+ ,技术人员占一半 ❑ Java,Scala,Akka,Finagle,Nodejs, Docker ❑ CDH,Hadoop,Impala,Hive,Storm ❑ 租用IDC机房自建私有云,正在往“公有云+ 私有云”方向发展 关于雪球
  6. 6. ❑ 前新浪微博架构师,微博ID @唐福林 ❑ 微博短链 t.cn ❑ 微博计数器 redis,rediscounter ❑ 微博用户关系服务 ❑ 微博稳定性、性能改进 关于我
  7. 7. ❑ 雪球首席架构师,雪球ID @唐福林 ❑ 性能,稳定性,代码质量改进 ❑ 平台项目:用户关系,搜索,IM ❑ 基础组件,微服务容器建设 ❑ XDC 雪球数据中心 关于我
  8. 8. ❑ 起因 ❑ 交易业务精细运营 ❑ 服务端日志集中存储,分析 ❑ 客户端行为日志收集,分析 搭建 8
  9. 9. ❑ 定位 ❑ 全量数据落地存储 ❑ 新数据准实时流式访问计算 ❑ 大数据交叉关联查询计算 搭建 9
  10. 10. ❑ 模块组成 ❑ 数据收集聚合系统:实时日志收集, 离线日志收集,数据库抽取 ❑ 数据存储平台:队列系统, Nosql系统, 分布式文件系统 ❑ 数据计算平台:实时计算,即席计算, 离线计算,任务调度 搭建 10
  11. 11. 搭建 11
  12. 12. ❑ 系统容量指标 ❑ 存储容量:半年到一年的存储量, 200TB ❑ 计算容量:半年后,日均 200+ jobs 搭建 12
  13. 13. ❑ 硬件准备 ❑ namenode:2 台 ❑ CPU:32core ❑ 内存:128G ❑ 系统盘:sas 硬盘 * 2 做 raid 10 ❑ 数据盘:不需要 ❑ 网卡:千兆 * 2 搭建 13
  14. 14. ❑ 硬件准备 ❑ datanode:8 台 ❑ CPU:32core ❑ 内存:128G ❑ 系统盘:sas 硬盘 * 2 做 raid 10 ❑ 数据盘: sata 硬盘 4T * 10,做 raid 0 ❑ 网卡:千兆 * 2 搭建 14
  15. 15. ❑ 软件准备 ❑ CDH 5.4.3,Parcel ❑ Zookeeper,YARN,HDFS,HBase, Hive,Impala,Hue,Kafka, Sentry,Sqoop2,Oozie ❑ Storm,Spark 搭建 15
  16. 16. ❑ 安装配置 ❑ 机器账号权限:sudo with no password ❑ Kerberos 搭建 16
  17. 17. ❑ 数据导入 ❑ DB:Sqoop 2 ❑ Queue/File:Flume ng,Kafka 搭建 17
  18. 18. ❑ 数据导入 ❑ SNS社区:用户,关系,帖子,评论,组合 ❑ 实时行情:股价,盘口,五档 ❑ 服务端 Access Log,业务Log ❑ App 端用户行为日志 搭建 18
  19. 19. ❑ 数据清洗 ❑ ETL:自己写 shell job ❑ 定期压缩:hadoop streaming 搭建 19
  20. 20. ❑ Meta信息管理 ❑ Hive Metastore ❑ 库表字段说明,数值约束,数据来源, 更新频率等等,只能依靠手工文档 搭建 20
  21. 21. ❑ 使用方式 ❑ Hue ❑ Impala ❑ Hive ❑ Http API,Java Client 搭建 21
  22. 22. ❑ 数据权限管理 ❑ Ldap ❑ HDFS 文件属主隔离 搭建 22
  23. 23. ❑ 资源列表 ❑ 所有 web ui 的统一入口 搭建 23
  24. 24. 搭建 24
  25. 25. ❑ 面向工程师的推广 ❑ Impala SQL 培训 ❑ 线上业务技术指标 ❑ 监控报警 推广应用 25
  26. 26. 推广应用 26
  27. 27. ❑ 监控报警 ❑ Exception 流 ❑ Metrics 流 ❑ Access log 流 推广应用 27
  28. 28. ❑ 面向产品,运营人员的推广 ❑ 业务指标 ❑ 用户行为分析 ❑ 尝试过 umeng,flurry,zhugeio,最 终还是决定自己做 推广应用 28
  29. 29. ❑ 用户转化 ❑ 新增,留存,活跃,流失 推广应用 29
  30. 30. ❑ 用户行为分析 ❑ 点击路径,功能漏斗 ❑ 常用功能 ❑ 太阳图 ❑ 火焰图 推广应用 30
  31. 31. ❑ 用户分类对比 ❑ 当前活跃 vs 本月流失 ❑ 当前活跃 vs 本月新增 推广应用 31
  32. 32. ❑ 大数据产品 ❑ 反垃圾 ❑ 推荐 ❑ 用户画像,信用体系 ❑ 广告 ❑ 量化投资 推广应用 32
  33. 33. ❑ 反垃圾 ❑ 用户分类 ❑ 文本聚类:类似帖子 ❑ 行为聚类:同ip注册的用户 推广应用 33
  34. 34. ❑ 推荐 ❑ 用户分类 ❑ 效果数据准实时监控 推广应用 34
  35. 35. ❑ 用户画像,雪球信用系统 ❑ 好用户,好贴,好组合:推荐 ❑ 差用户,差贴:反垃圾 ❑ 普通用户,普通贴:反 SEO,提升粘性 推广应用 35
  36. 36. ❑ 广告 ❑ 多维度条件筛选目标用户 ❑ 用户分类对比广告效果 推广应用 36
  37. 37. ❑ 量化投资 ❑ 将社区和组合的数据作为投资决策的依 据来源之一 ❑ 雪球大数据指数 ❑ 雪球大数据基金 推广应用 37
  38. 38. ❑ 深度挖掘 ❑ 深入业务本质 ❑ 更多的应用场景 ❑ 更大的价值发挥 未来规划 38
  39. 39. ❑ 效果改进 ❑ 推荐效果改进 ❑ 广告效果改进 ❑ 量化投资的效果改进? 未来规划 39
  40. 40. ❑ 大数据体系的价值 ❑ 数据说话,杜绝拍脑袋 思考总结 40
  41. 41. ❑ 什么时候开始 ❑ 越早越好 思考总结 41
  42. 42. ❑ 难点 ❑ 数据意识,驱动频繁使用 ❑ 全员使用:降低门槛 ❑ 深度挖掘价值 思考总结 42
  43. 43. Keep Calm And Ask Me Anything 43
  44. 44. • Thank You

×