Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

用户研究中的数据分析

854 views

Published on

数据模型的应用
开源数据分析工具介绍
大数据的处理

Published in: Design, Technology
  • Be the first to comment

用户研究中的数据分析

  1. 1. 用户研究中的数据分析 BigdatainUserResearch 张勇
  2. 2. 用户研究与数据分析 项目周期中的定量用户研究方法 1. 定量:从数据中发现问题(某种模式存在) 2. 定性:了解为什么会这样,方案探索 3. 定量:测试评估方案效果 2/12
  3. 3. 常见定量研究方法 短平快的定量研究:快速问卷(传统/电话/在线) 常用市场和用户研究定量模型和多元统计分析方法 · · PCA 因子分析 Conjoint 聚类等 - - - - 3/12
  4. 4. 基本使用情况和态度反馈(Usage and Attitude) 价值点:重要程度,得分(替代品/竞争对手) -> 细分用户群比较 -> Kano 概念和态度测试 · · 品牌形象测试- 4/12
  5. 5. 功能偏好测试· 客户满意度/忠诚度和离开原因- 5/12
  6. 6. 开源免费的数据挖掘和机器学习工具 R:r-project.org Python:scikit-learn Java: Apache Mahout™, WEKA: Online Class open for registration Sept. 9th · · · biplot(prcomp(USArrests,scale=TRUE),col=c("gray","black")) 6/12
  7. 7. 数据可视化工具 图形处理库 R: ggplot2, Python: matplotlib· plot(hclust(dist(as.matrix(mtcars)))) 7/12
  8. 8. 在线数据可视化工具 Google Charts等 基于Web的数据可视化库 Javascript: D3等 Dc.js Demo rCharts Example 商业软件 Tableau等 · library('googleVis') demo(WorldBank) · · 8/12
  9. 9. 可重建的数据分析报告 nbviewer RMarkdown, Knitr和Slidify· library('slidify') slidify('index.Rmd') #本文档生成方式 publish(user="USER",repo="REPO")##Github publish(dirname,host="dropbox")##Dropbox publish(title='mytitle','index.html',host='rpubs')##Rpubs iPython notebook· $ipythonnotebook--pylab=inline 9/12
  10. 10. 数据分析Web app 从rApache到OpenCPU Markdown App Rstudio和Shiny Marketing Analysis App · · library('shiny') shiny::runGitHub('radyant','mostly-harmless',subdir='inst/marketing') 10/12
  11. 11. 大数据的误解 推荐:Data Science, Data Analysis, Machine Learning @ Coursera 样本和全体数据 相关和因果关系 例:数据发现相关:荷尔蒙替代疗法 <-> 更低的心脏病 但实际上:荷尔蒙替代疗法会增加心脏病发病率 原因:荷尔蒙替代疗法(贵) <- 更高端人群 -> 更低的心脏病 日常分析的大数据有多大 · · 放弃对因果关系的渴求,取而代之关注相关关系。只要知道“是什么”,而不需要知道“为什么” 《大数据时代》译者周涛:放弃对因果关系的分析是人类的堕落 - - · Median job input sizes under 14 GB (at Microsoft and Yahoo) 90% of jobs on a Facebook cluster have input sizes under 100 GB. - - 11/12
  12. 12. 大数据的处理方法 Linux命令:sort/cut/paste/awk (在windows上:Gow - The lightweight alternative to Cygwin)· $tail-10000access_log|awk'{print$1}'|sort|uniq-c|sort-n|tail $awk-F',''{x+=$1}END{printx}'test.csv $awk-F","'$3~/^9/'customers.csv>customers_9_CA_zip_codes.csv C:>ipconfig^|grepIPv4^|gawk-F:"{print$2}"^|gawk-F."{print($1)+($2*256)+($3*256*256)+($4*256*256 并行计算和GPU计算:R: foreach+doMC/doSNOW; Python: StarCluster 内存缓存和内存数据库:VoltDB, 试试Excel, sqlite on Ramdisk 列存储数据库: Monetdb Map Reduce和Hadoop云计算 GraphLab and Vowpal Wabbit: · · · · Mdrill阿里妈妈海量数据分布式在线分析查询系统 Javascript,R,和Python也可以玩Map Reduce Demo Amazon EMR Pig Latin Demo - - - · 12/12

×