SlideShare a Scribd company logo
1 of 27
[object Object],[object Object],——  思考数据统计系统的需求 / 本源 ——  寻找一种简易统计分析思路 ——  尝试一种 简单简简易 统计的简单实现和应用
童小军 ( XiaoJun   Tong ) ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
[ 暴风搜索 ]  数据平台发展几个阶段 ,[object Object],[object Object],[object Object],[object Object]
[ 思考 ] 数据统计需求和本源 ? 需求 / 本源  ? [ 思考 ]  数据统计 , 分析的需求 / 本源 ? 使用 列举类推法 思考
[ 思考 ]  需求 / 本源  [ 举例 : 组织结构 ]
[ 思考 ]  需求 / 本源  [ 举例 :  质量优化 ]
[ 思考 ]  需求 / 本源  [ 举例 :  工业控制 ]
[ 思考 ]  组织项目管理成熟度模型 ,[object Object],[object Object],[object Object],[object Object],[object Object]
[ 思考 ]  需求 / 本源  [ 简易的智能结构 ] 需求 / 本源  =>  智能 / 结构 商业智能 [BI] 性能指标 :  反馈周期 ?  决策有效性 ?  反馈成本 ? 数据统计 / 分析 是自动控制系统和自学习 , 自调整系统的核心组成部分。
[ 数据 构建方法  ]  什么是自下而上 ?  ,[object Object],[object Object],[object Object]
[ 数据 构建思路  ]  ,[object Object],[object Object]
[构建策略] 自下而上,以不变应万变 == 自下而上构建 ==
[Log  构建方法 ]  四个 构建策略  ,[object Object],[object Object],[object Object],[object Object],[object Object]
1. Log  数据公式 :[4w+r = 2h]  ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
2.  实时汇总 :[js+nginx+syslog-ng+perl] ,[object Object],[object Object],[object Object],[object Object],[object Object]
3.  存储格式 :[ 一日一表 ]  ,[object Object],[object Object],[object Object],[object Object],[object Object]
4.  统计方法 :[2sql  方法 ]  ,[object Object],[object Object],[object Object],DEMO: #desc:  搜索行为次数 , 实际无结果 , 实际无结果率 [ 相对 , 绝对 ]  搜索无结果次数 / 搜索行为次数 #source:127.0.0.1:3306:user_action #market:127.0.0.1:3306:user_analysis #{search_result}{mode:varchar(255),count:int(11),qj_rate:float,rate:float,day:int(8),update_time:bigint(20)} select  result_type as mode, count(search_log_id) as count, count(search_log_id)*100/(select count(search_log_id) from log_search_#day where 1 and result_count='0' ) as rate, count(search_log_id)*100/(select count(search_log_id) from log_search_#day where 1 and search_begin=1) as qj_rate, '#day' as day, UNIX_TIMESTAMP(now())*1000 as update_time from log_search_#day where 1 and result_count='0' and search_begin=1  group by mode order by count desc;";
4.  图表展现 :[ 模板引擎 ] 1.  定义数据源 2.  定义查询语句和变化字段 3.  定义展现配置 DEMO: #desc:  搜索行为次数 , 实际无结果 , 实际无结果率 [ 相对 , 绝对 ]  搜索无结果次数 / 搜索行为次数 #source:127.0.0.1:3306:user_action #input:#start_day #end_day #X:day Y:count Type:line #{ 搜索行为 }{mode: 类型 ,count: 搜索 ,qj_rate: 绝对无结果 ,rate: 比例 ,day: 天 ,update_time: 更新时间 } select  mode,count,qj_rate,rate,day,update_time from search_result where 1 and day>=#start_day day<=#end_day order by day desc;&quot;;
[ 发展经历 ]  暴风搜索数据两个阶段 第一阶段 : js --> php --> log [n] --> rsync --> log.tar.gz ->  分析程序 [ 分析逻辑 ] -->  数据库  --> 数据展现  [java] 第二阶段 : [ 业务知识和行业同步 ] js --> [nginx + perl] --> syslog-ng --> search_log  入库程序  -->  数据仓库  -->[sql] sql_task 程序  -->  数据集市  -->[sql]  展现  [python[ 邮件 ]/.net[ 桌面 ]]
[object Object],[object Object],python  报表邮件实现
[object Object],分析桌面平台的基本构思
[object Object],[object Object],[object Object],[object Object],数据系统和快速决策  [ 小版本放量数据平台 ]
[object Object],[object Object],[object Object],[object Object],[object Object],什么是成功的数据系统?
总结 , 我们可以以什么应对变化 ? == 以不变应万变 == == 以闭环反馈应万变 == == 以 4w+r=3h 应万变 ==
题外话 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object]
招聘广告  -  暴风 :  让享受电影更简单 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

More Related Content

Viewers also liked

High end slum store ver 3
High end slum store ver 3High end slum store ver 3
High end slum store ver 3HAKAA
 
Courtney McDermott - Sell250 - Assign. #1
Courtney McDermott - Sell250 - Assign. #1Courtney McDermott - Sell250 - Assign. #1
Courtney McDermott - Sell250 - Assign. #1Rina McDermott
 
Forretningsmodeller internett
Forretningsmodeller internettForretningsmodeller internett
Forretningsmodeller internettHAKAA
 
Hr survey (1)
Hr survey (1)Hr survey (1)
Hr survey (1)Isha Jain
 
Professionalism self discipline
Professionalism self disciplineProfessionalism self discipline
Professionalism self disciplinezulkifli khair
 
Personal ansettelse
Personal ansettelsePersonal ansettelse
Personal ansettelseHAKAA
 
Professionalism self discipline
Professionalism self disciplineProfessionalism self discipline
Professionalism self disciplinezulkifli khair
 
Bootstrapping Industry Education Partnerships Between the Ivory Tower and Ind...
Bootstrapping Industry Education Partnerships Between the Ivory Tower and Ind...Bootstrapping Industry Education Partnerships Between the Ivory Tower and Ind...
Bootstrapping Industry Education Partnerships Between the Ivory Tower and Ind...Jon Schull
 
Enable viz april 2016
Enable viz april 2016Enable viz april 2016
Enable viz april 2016Jon Schull
 
Personal oversikt
Personal oversiktPersonal oversikt
Personal oversiktHAKAA
 
Markedsundersøkelse prosjekt
Markedsundersøkelse prosjektMarkedsundersøkelse prosjekt
Markedsundersøkelse prosjektHAKAA
 
Entreprenørskap 2 internasjonalisering v2
Entreprenørskap 2 internasjonalisering v2Entreprenørskap 2 internasjonalisering v2
Entreprenørskap 2 internasjonalisering v2HAKAA
 
Telefonmøte 25 nov 2011
Telefonmøte 25 nov 2011Telefonmøte 25 nov 2011
Telefonmøte 25 nov 2011HAKAA
 
Kampanjeplan
KampanjeplanKampanjeplan
KampanjeplanHAKAA
 
Hedgefund happiness final
Hedgefund happiness finalHedgefund happiness final
Hedgefund happiness finalsonjabe
 
Internship report 2007eit043
Internship report 2007eit043Internship report 2007eit043
Internship report 2007eit043Isha Jain
 

Viewers also liked (20)

Sociohistórico
SociohistóricoSociohistórico
Sociohistórico
 
High end slum store ver 3
High end slum store ver 3High end slum store ver 3
High end slum store ver 3
 
Courtney McDermott - Sell250 - Assign. #1
Courtney McDermott - Sell250 - Assign. #1Courtney McDermott - Sell250 - Assign. #1
Courtney McDermott - Sell250 - Assign. #1
 
Forretningsmodeller internett
Forretningsmodeller internettForretningsmodeller internett
Forretningsmodeller internett
 
Hr survey (1)
Hr survey (1)Hr survey (1)
Hr survey (1)
 
Professionalism self discipline
Professionalism self disciplineProfessionalism self discipline
Professionalism self discipline
 
Personal ansettelse
Personal ansettelsePersonal ansettelse
Personal ansettelse
 
Professionalism self discipline
Professionalism self disciplineProfessionalism self discipline
Professionalism self discipline
 
Bootstrapping Industry Education Partnerships Between the Ivory Tower and Ind...
Bootstrapping Industry Education Partnerships Between the Ivory Tower and Ind...Bootstrapping Industry Education Partnerships Between the Ivory Tower and Ind...
Bootstrapping Industry Education Partnerships Between the Ivory Tower and Ind...
 
Enable viz april 2016
Enable viz april 2016Enable viz april 2016
Enable viz april 2016
 
Personal oversikt
Personal oversiktPersonal oversikt
Personal oversikt
 
Markedsundersøkelse prosjekt
Markedsundersøkelse prosjektMarkedsundersøkelse prosjekt
Markedsundersøkelse prosjekt
 
Entreprenørskap 2 internasjonalisering v2
Entreprenørskap 2 internasjonalisering v2Entreprenørskap 2 internasjonalisering v2
Entreprenørskap 2 internasjonalisering v2
 
Telefonmøte 25 nov 2011
Telefonmøte 25 nov 2011Telefonmøte 25 nov 2011
Telefonmøte 25 nov 2011
 
Kampanjeplan
KampanjeplanKampanjeplan
Kampanjeplan
 
Hedgefund happiness final
Hedgefund happiness finalHedgefund happiness final
Hedgefund happiness final
 
Internship report 2007eit043
Internship report 2007eit043Internship report 2007eit043
Internship report 2007eit043
 
Fiscal ppt
Fiscal pptFiscal ppt
Fiscal ppt
 
Trabajo gbi
Trabajo gbiTrabajo gbi
Trabajo gbi
 
Tagua Life Center
Tagua Life CenterTagua Life Center
Tagua Life Center
 

Similar to 自下而上的数据仓库构建方法

Data Analyse Black Horse - ClickHouse
Data Analyse Black Horse - ClickHouseData Analyse Black Horse - ClickHouse
Data Analyse Black Horse - ClickHouseJack Gao
 
twMVC#46_SQL Server 資料分析大躍進 Machine Learning Services
twMVC#46_SQL Server 資料分析大躍進 Machine Learning ServicestwMVC#46_SQL Server 資料分析大躍進 Machine Learning Services
twMVC#46_SQL Server 資料分析大躍進 Machine Learning ServicestwMVC
 
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構Etu Solution
 
开源应用日志收集系统
开源应用日志收集系统开源应用日志收集系统
开源应用日志收集系统klandor
 
E tom ngoss规范及siebel系统在电信行业的应用 陈永林
E tom ngoss规范及siebel系统在电信行业的应用 陈永林E tom ngoss规范及siebel系统在电信行业的应用 陈永林
E tom ngoss规范及siebel系统在电信行业的应用 陈永林corlin chen
 
Actuate presentation 2011
Actuate presentation   2011Actuate presentation   2011
Actuate presentation 2011Luke Han
 
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座NTC.im(Notch Training Center)
 
淘宝网架构变迁和挑战(Oracle架构师日)
淘宝网架构变迁和挑战(Oracle架构师日)淘宝网架构变迁和挑战(Oracle架构师日)
淘宝网架构变迁和挑战(Oracle架构师日)vanadies10
 
部門會議 960625 Leon
部門會議 960625 Leon部門會議 960625 Leon
部門會議 960625 LeonLeon Chuang
 
How to build data warehouse
How to build data warehouseHow to build data warehouse
How to build data warehousejasonfuoo
 
Build 1 trillion warehouse based on carbon data
Build 1 trillion warehouse based on carbon dataBuild 1 trillion warehouse based on carbon data
Build 1 trillion warehouse based on carbon databoxu42
 
翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践hdhappy001
 
翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践hdhappy001
 
Sybase Analytic Appliance
Sybase Analytic ApplianceSybase Analytic Appliance
Sybase Analytic Appliancefocusbi
 
BI team - BO overview
BI team - BO overviewBI team - BO overview
BI team - BO overviewtasmc
 
逻辑数据编织如何完善IT架构,盘活数据资产
逻辑数据编织如何完善IT架构,盘活数据资产逻辑数据编织如何完善IT架构,盘活数据资产
逻辑数据编织如何完善IT架构,盘活数据资产Denodo
 
企业信息系统性能优化实战
企业信息系统性能优化实战企业信息系统性能优化实战
企业信息系统性能优化实战mysqlops
 
数据库性能诊断的七种武器
数据库性能诊断的七种武器数据库性能诊断的七种武器
数据库性能诊断的七种武器Leyi (Kamus) Zhang
 

Similar to 自下而上的数据仓库构建方法 (20)

Data Analyse Black Horse - ClickHouse
Data Analyse Black Horse - ClickHouseData Analyse Black Horse - ClickHouse
Data Analyse Black Horse - ClickHouse
 
twMVC#46_SQL Server 資料分析大躍進 Machine Learning Services
twMVC#46_SQL Server 資料分析大躍進 Machine Learning ServicestwMVC#46_SQL Server 資料分析大躍進 Machine Learning Services
twMVC#46_SQL Server 資料分析大躍進 Machine Learning Services
 
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
 
开源应用日志收集系统
开源应用日志收集系统开源应用日志收集系统
开源应用日志收集系统
 
Data Pipeline Matters
Data Pipeline MattersData Pipeline Matters
Data Pipeline Matters
 
E tom ngoss规范及siebel系统在电信行业的应用 陈永林
E tom ngoss规范及siebel系统在电信行业的应用 陈永林E tom ngoss规范及siebel系统在电信行业的应用 陈永林
E tom ngoss规范及siebel系统在电信行业的应用 陈永林
 
Actuate presentation 2011
Actuate presentation   2011Actuate presentation   2011
Actuate presentation 2011
 
Enterprise Data Lake in Action
Enterprise Data Lake in ActionEnterprise Data Lake in Action
Enterprise Data Lake in Action
 
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
 
淘宝网架构变迁和挑战(Oracle架构师日)
淘宝网架构变迁和挑战(Oracle架构师日)淘宝网架构变迁和挑战(Oracle架构师日)
淘宝网架构变迁和挑战(Oracle架构师日)
 
部門會議 960625 Leon
部門會議 960625 Leon部門會議 960625 Leon
部門會議 960625 Leon
 
How to build data warehouse
How to build data warehouseHow to build data warehouse
How to build data warehouse
 
Build 1 trillion warehouse based on carbon data
Build 1 trillion warehouse based on carbon dataBuild 1 trillion warehouse based on carbon data
Build 1 trillion warehouse based on carbon data
 
翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践
 
翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践
 
Sybase Analytic Appliance
Sybase Analytic ApplianceSybase Analytic Appliance
Sybase Analytic Appliance
 
BI team - BO overview
BI team - BO overviewBI team - BO overview
BI team - BO overview
 
逻辑数据编织如何完善IT架构,盘活数据资产
逻辑数据编织如何完善IT架构,盘活数据资产逻辑数据编织如何完善IT架构,盘活数据资产
逻辑数据编织如何完善IT架构,盘活数据资产
 
企业信息系统性能优化实战
企业信息系统性能优化实战企业信息系统性能优化实战
企业信息系统性能优化实战
 
数据库性能诊断的七种武器
数据库性能诊断的七种武器数据库性能诊断的七种武器
数据库性能诊断的七种武器
 

自下而上的数据仓库构建方法

  • 1.
  • 2.
  • 3.
  • 4. [ 思考 ] 数据统计需求和本源 ? 需求 / 本源 ? [ 思考 ] 数据统计 , 分析的需求 / 本源 ? 使用 列举类推法 思考
  • 5. [ 思考 ] 需求 / 本源 [ 举例 : 组织结构 ]
  • 6. [ 思考 ] 需求 / 本源 [ 举例 : 质量优化 ]
  • 7. [ 思考 ] 需求 / 本源 [ 举例 : 工业控制 ]
  • 8.
  • 9. [ 思考 ] 需求 / 本源 [ 简易的智能结构 ] 需求 / 本源 => 智能 / 结构 商业智能 [BI] 性能指标 : 反馈周期 ? 决策有效性 ? 反馈成本 ? 数据统计 / 分析 是自动控制系统和自学习 , 自调整系统的核心组成部分。
  • 10.
  • 11.
  • 13.
  • 14.
  • 15.
  • 16.
  • 17.
  • 18. 4. 图表展现 :[ 模板引擎 ] 1. 定义数据源 2. 定义查询语句和变化字段 3. 定义展现配置 DEMO: #desc: 搜索行为次数 , 实际无结果 , 实际无结果率 [ 相对 , 绝对 ] 搜索无结果次数 / 搜索行为次数 #source:127.0.0.1:3306:user_action #input:#start_day #end_day #X:day Y:count Type:line #{ 搜索行为 }{mode: 类型 ,count: 搜索 ,qj_rate: 绝对无结果 ,rate: 比例 ,day: 天 ,update_time: 更新时间 } select mode,count,qj_rate,rate,day,update_time from search_result where 1 and day>=#start_day day<=#end_day order by day desc;&quot;;
  • 19. [ 发展经历 ] 暴风搜索数据两个阶段 第一阶段 : js --> php --> log [n] --> rsync --> log.tar.gz -> 分析程序 [ 分析逻辑 ] --> 数据库 --> 数据展现 [java] 第二阶段 : [ 业务知识和行业同步 ] js --> [nginx + perl] --> syslog-ng --> search_log 入库程序 --> 数据仓库 -->[sql] sql_task 程序 --> 数据集市 -->[sql] 展现 [python[ 邮件 ]/.net[ 桌面 ]]
  • 20.
  • 21.
  • 22.
  • 23.
  • 24. 总结 , 我们可以以什么应对变化 ? == 以不变应万变 == == 以闭环反馈应万变 == == 以 4w+r=3h 应万变 ==
  • 25.
  • 26.
  • 27.