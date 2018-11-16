Successfully reported this slideshow.
Spark 机器学习&深度学习实战 欧 锐 2018/10/31
目录 Spark MLlib 原理 Spark MLlib 实践 Spark-deep-learning 实践
Spark MLlib原理01
决策树找郎君 通俗来说，决策树分类的思想类似于找对象。现想象一个女孩的母亲要给这个女孩介绍男朋友， 于是有了下面的对话： 女儿：多大年纪了？ 母亲：26。 女儿：长的帅不帅？ 母亲：挺帅的。 女儿：收入高不？ 母亲：不算很高，中等情况。 女儿：...
决策树找郎君 Code example：https://github.com/ouyangshourui/spark-mlib-training.git
决策树找郎君
 Machine Learning Overview  Machine Learning with Spark Mllib & ML
What is Machine Learning? 1. Machine learning is a field within artificial intelligence (AI)； 2. Machine learning algorith...
What is Machine Learning? The 7 Steps of Machine Learning 1. Gathering data 2. Preparing that data 3. Choosing a model 4. ...
Relationship of Algorithms and Data Volume 1. There are many algorithms for each type of machine learning;  There’s no ov...
Relationship of Algorithms and Data Volume It’s not who has the best algorithms that wins. It’s who has the most data. —Ba...
Spark MLlib and Spark ML 1.Spark MLlib is Spark machine learning library • Makes practical machine learning scalable and e...
Feature Engineering • 我们都知道特征工程在机器学习中是很重要的，然而特征工程到底是什么？怎么样 通俗的理解它呢？打个比方，即使你有再好的渔具，如果给你一片没有鱼的池塘， 那也是白费力气的。而特征工程就是找有鱼的那片水域。所...
Feature Engineering（TF-IDF） 1. (Term frequency-inverse document frequency) 2. TF-IDF完美的解决了这个问题，TF-IDF作用就是体现一个文档中词语重要程 度。TF...
Feature Engineering（TF-IDF） 由于china在三个文档中都出现了，所 以TF-IDF=0.0，而kungfu只在第一个 文档出现（说明是冷门词），却是第 一个文档中出现次数最多的，因此计 算出来的TF- IDF=1.3...
Feature Engineering（ Bucketizer ）  现在有推荐的需求，产品经理觉得把人分为50以上和50以下太不精准了，应该分为20岁以下，20-30岁，30-40 岁，36-50岁，50以上，那么就得用到数值离散化的处理方...
Feature Engineering（ 标准化和归一化） 标准化 将特征中的值进行标准差标准化，即转换为均值为0， 方差为1的正态分布； 标准化后的变量值围绕0上下波动，大于0说明高 于平均水平，小于0说明低于平均水平； 归一化 归一化就是将...
Feature Engineering 不断完善中、 接近sklearn的功能
Spark MLlib Regularization Spark 在linear regression中提供了如下三种regularzation参数：  L1：  L2:  Elastic net： L1+L2结合的方式，即elastic...
Spark ML Machine learning tasks consist of a (potentially complex) series of steps  Data transformations, algorithm train...
Spark ML-pipeline A Pipeline represents a series of steps in a machine learning workflow：  Each pipeline step can be eith...
Spark Mllib实践02
银行信贷的信用风险example 我们需要预测什么？ • 某个人是否会按时还款 • 这就是标签：此人的信用度 你用来预测的“是与否”问题或者属性是什么？ • 申请人的基本信息和社会身份信息：职业，年龄，存款储蓄，婚姻状态等等…… • 这些就是特...
德国人信用度数据集 {“信用”，“存款”，“期限”，“历史记录”，“目的”，“数额”，“储蓄”，“是否在职”，“婚姻”， “担保人”，“居住时间”，“资产”，“年龄”，“历史信用”，“居住公寓”，“贷款”，“职业”， “监护人”，“是否有电话”...
数据元数据定义&数据初始化 val rdd = sc.textFile("data/germancredit.csv") val creditDF = parseRDD(rdd).map(parseCredit).toDF().cache() ...
特征工程 dataframe初始化之后，你可以用SQL命令查询数据了。下面是一些使用Scala DataFrame接口查询数据的例子： 计算数值型数据的统计信息，包括计数、均值、标准差、最小值和最大值。 //获取存款、数目、住居时长 sqlCo...
这些特征经过了变换，存入特征向量中，即一组表示各个维度特征值的数值向量；用VectorAssembler 方法将每个维度的特征都做变换，返回一个新的dataframe val featureCols = Array("balance", "du...
数据集被分为训练数据和测试数据两个部分，70%的数据用来训练模型，30%的数据用来测试模型。 val splitSeed = 5043 val Array(trainingData, testData) = df3.randomSplit(Ar...
val classifier = new RandomForestClassifier().setImpurity("gini"). setMaxDepth(3).setNumTrees(20) .setFeatureSubsetStrateg...
训练结果评估 然后，我们用BinaryClassificationEvaluator评估预测的效果，它将预测结果与样本的实际标签相比较， 返回一个准确度指标（ROC曲线所覆盖的面积）。本例子中，AUC达到81%。 val accuracy = ...
boston-house-prices
boston-house-prices
boston-house-prices
boston-house-prices
Spark-deep-learning实践03
Spark & tensorflow 结合方案 1. Elephas: Distributed DL with Keras & PySpark 2. Yahoo! Inc.: TensorFlowOnSpark 3. CERN Distribu...
Spark-deep-learning架构
Spark-deep-learning架构
Spark-deep-learning架构
images of two persons 使用spark-deep-learning分区Steve Jobs 、Mark Zuckerberg、my baby
images of two persons
数据预处理 images of tree persons 数据模型训练
模型评估 images of two persons 训练参数优化
图片预测 images of two persons 代码地址：https://github.com/ouyangshourui/spark-deep-learning-example
资料推荐
Q&A
