Probability, statistics & machine learning(china soft tokyo)

中軟東京株式会社 01/17/15
初等概率与数理以及论统计
机器学算法介习简
Probability, Statistics and Machine Learning

第一部分随机事件及其概率
• 随机事件及其算运
• 概率的定及其算义运
• 条件概率
• 事件的独立性

第二部分机器学习
• 背景介简
• 算法介简
- 有督学监习
-- 朴素叶斯分类器贝
-- 性回线归
- 无督学监习
-- K-Means 分类器
• 大牛和推荐籍们书

概率与数理论统计概率与数理论统计
一研究和示随机象的律性的学门揭现统计规一研究和示随机象的律性的学门揭现统计规
科，“将不定性量化”的学科。确科，“将不定性量化”的学科。确

第一部分随机事件及其概率

1.1 随机事件及其概率
随机的特点：试验
1. 可在相同条件下重行；复进
2. 一次之前无法定具体是果出，但能定试验确哪种结现确
所有的可能果。结
随机常用试验 E 表示
一、随机试验 ( 称“ ”简试验 )

E1: 抛一枚硬，分用“币别 H” 和“ T” 表示出正面和反面；
E2: 将一枚硬抛三次，考正反面出的情况；币连虑现
E3: 某城市某年某月内生交通事故的次数；发
E4: 一骰子，可能出的点数；掷颗现
E5: 某网站一分内受到的点次数；记录钟击
E6: 在一批灯泡中任取一只，其寿命；测
E7: 任一人，他的身高和体重。选记录

二、本空样间
1. 本空：的所有可能果所成的集合称本空，样间试验结组为样间
记为
2. 本点：的个果或本空的元素称本点，样试验单结样间单为样记为 e
Ω

随机事件
1. 定本空的任意一个子集称随机事件义样间为 , 称“事件”。简
2. 个特殊事件两 : 必然事件（ Ω ）、不可能事件（ Φ ）。
例
于对试验 E2 ，以下 A 、 B 、 C 即三个随机事件为 :
A ＝“至少出一个正面”＝ {HHH, HHT, HTH, THH ， HTT ， THT ， TTH}
B = “ 次出同一面”两现 = {HHH,TTT}
C =“ 恰好出一次正面”现 = {HTT ， THT ， TTH}

三、事件之的系间关
1. 包含系：关 “ 事件 A 生必有事件发 B 生”发
记为 A⊂B
A ＝ B ⇔ A⊂B 且 B⊂A.

2. 和事件：“事件 A 与事件 B 至少有一个生”，作发记 A∪B
n 个事件 A1, A2,…, An 至少有一个生，作发记 i
n
i
A
1=


3. 事件：积事件 A 与事件 B 同生，作时发记 A∩B ＝ AB
n 个事件 A1, A2,…, An 同生，作时发记 A1A2…An ， or 
n
i
iA
1=

4. 差事件： A － B 称为 A 与 B 的差事件 , 表示事件 A 发
生而事件 B 不生发

5. 互斥的事件（也称互不相容事件）：即事件 A 与事件 B 不可
能同生。时发 AB ＝ 

6. 互逆的事件： A∪B ＝  , 且 AB ＝ 
BABAAAB =−= 易见的对立事件，称为记作 ;

四、事件的算运
1 、交律：换 A∪B ＝ B∪A ， AB ＝ BA
2 、合律结： (A∪B)∪C ＝ A∪(B∪C) ，
(AB)C ＝ A(BC)
3 、分配律： (A∪B)C ＝ (AC)∪(BC) ，
(AB)∪C ＝ (A∪C)(B∪C)
4 、偶对 (De Morgan) 律：
.,
,


k
k
k
k
k
k
k
k AAAA
BAABBABA
==
==
可推广

例：甲、乙、丙三人各向目射一子，以标击发弹 A 、 B 、 C 分表示别
甲、乙、丙命中目，用标试 A 、 B 、 C 的算系表示下列事件：运关
::
::
::
::
::
::
6
5
4
3
2
1
“三人均未命中目标”
“三人均命中目标”
”“最多有一人命中目标
“恰有两人命中目标”
“恰有一人命中目标”
”“至少有一人命中目标
A
A
A
A
A
A CBA 
CBACBACBA 
CBABCACAB 
BACACB 
ABC
CBA 

1.2 概率的定及其算义运
从直上来看，事件观 A 的概率是描事件绘 A 生的可能性大小的量发
P(A) 具有何性？应种质
* 抛一枚硬，面向上的概率多少？币币值为
* 一骰子，出掷颗现 6 点的概率多少？为
出数点的概率多少？现单为
* 向目射，命中目的概率有多大？标击标

若某实验 E 足：满
1. 有限性：本空样间 S ＝ {e1, e 2 , … , e n };
2. 等可能性：（公）认
P(e1)=P(e2)=…=P(en).
称则 E 古典概型也叫等可能概型。为
1.2.1. 古典概型与概率

事件设 A 中所含本点个数样为 N(A) ，以
N(Ω) 本空记样间 中本点数，有样总则
P(A) 具有如下性质
(1) 0≤ P(A) ≤1 ；
(2) P(Ω) ＝ 1 ； P(φ )=0
(3) AB ＝，则 P( A∪ B ) ＝ P(A) ＋ P(B)
一、古典概型中的概率 :
( )
( )
( )
N A
P A
N
=
Ω

例 : 有三个子女的家庭 , 每个孩子是男是女的概率相等设 ,
至少有一个男孩的概率是多少则 ?
Ω={BBB, BBG, BGB, GBB, BGG, GGB, GBG, GGG}
A={BBB, BBG, BGB, GBB, BGG, GGB, GBG}
( ) 7
( )
( ) 8
N A
P A
N
= =
Ω
解 : 设 A 事件至少有一个男孩为 , 以 B 表示某个孩子是男
孩， G 表示某个孩子是女孩。

二、古典概型的几类基本问题
乘法公式：完成一件事需分步，设两
第一步有 n1 方法种 , 第二步有 n2 方法，种
完成件事共有则这 n1n2 方法。种
（也可推广到分若干步）
：排列与合的基本概念复习组

加法公式：完成一件事可有途径，第一途设两种种
径有 n1 方法，第二途径有种种 n2 方法，完成种则
件事共有这 n1+n2 方法。种
（也可推广到若干途径）
公式的思想穿着整个概率的求解。这两贯问题

有重排列：从含有复 n 个元素的集合中随机抽取 r 次，
每次取一个，其果后放回，将果排成一列，记录结记录结
n n n n
共有 nr
排列方式种 .

无重排列：从含有复 n 个元素的集合中随机抽取 r 次
，每次取一个，取后不放回，将所取元素排成一列，
共有 Pn
r
=n(n-1)…(n-r+1) 排列方式种 .
n n-1 n-2 n-r+1

有重合：从含有复组 n 个元素的集合中有重地随机抽取复 r 个
，共有
取法种 .
)!1(!
)!1(1
1
−
−+
=




 −+
== −+
nr
rn
r
rn
CH r
rn
r
n

无重合：从含有复组 n 个元素的集合中无重地随机抽取复 r 个
，共有
取法种 .
)!(!
!
! rnr
n
r
P
r
n
C
r
nr
n
−
==





=

1 、抽球问题
例 1: 合中有设 3 个白球， 2 个球，从合红现
中任抽 2 个球，求取到一一白的概率。红
解 : 设 A-- 取到一一白红
2
5( )N CΩ =
1
2
1
3)( CCAN =
5
3
)( 2
5
1
2
1
3
==∴
C
CC
AP
答 : 取到一一白的概率红为 3/5

2 、分球入盒问题
例 2 ：将 3 个球随机的放入 3 个盒子中去，：问
（ 1 ）每盒恰有一球的概率是多少？
（ 2 ）空一盒的概率是多少？
解 : 设 A: 每盒恰有一球 ,B: 空一
盒3
3)( =SN !3)( =AN
9
2
)( =AP
}{}{1)( 全有球空两合 PPBP −−=
3
2
9
2
3
3
1 3
=−−=

3 、生日悖：论问题
某班有级 n 个人 (2≤n≤365) ，至少有个人的生日在同一天的概率问两
有多大？
∏
−
=
−−=−=
1
0
)
365
1(1)(1)(
n
k
k
BPAP
A: 至少有个人生日在同一天两
B: 所有人生日都不在同一天
∏
−
=
−=
−××××
=
1
0
)
365
1(
365
)366(...363364365
)(
n
k
n
kn
BP

某人向目射，标击
以 A 表示事件“命中目 ”，标
P （ A ） = ？
定：事件义 A 在 n 次重中出复试验现 nA
次，则
比值 nA
/n 称事件为 A 在 n 次重中复试验
出的现率频，记为 fn(A). 即
fn(A) ＝ nA
/n.
1.3 率与概率频

史上曾有人做历过试验 , 明抛匀硬，试图证掷质币时
出正反面的机会均等。现
者实验 n nH
fn(H)
De Morgan 2048 1061 0.5181
Buffon 4040 2048 0.5069
K. Pearson 12000 6019 0.5016
K. Pearson 24000 12012 0.5005

践明：实证
当次数试验 n 增大，时 fn(A) 逐向渐趋
一个定。可将此定作稳值稳值记 P(A) ，作
事件为 A 的概率。

2. 概率的性质
(1) 有限可加性：设 A1 ， A2 ，… An , 是 n 个互不两两
相容的事件，即 AiAj ＝  ， (i≠j), i , j ＝ 1, 2, …, n , 则
有
P( A1 ∪ A2 ∪ … ∪ An) ＝ P(A1) ＋ P(A2)+… P(An);
(3) 事件差 A 、 B 是个事件，两
则
P(A-B)=P(A)-P(AB)
(2) 不性单调减：若事件 A⊃B ，则
P(A) P(B)≥

(4) 加法公式：任意事件对两 A 、 B ，有
P(A∪B) ＝ P(A) ＋ P(B) － P(A∩B)
公式可推广到任意该 n 个事件 A1 ， A2 ，…， An 的情形；
(3) 互性补： P(A) ＝ 1 － P(A);
(5) 可分性：任意事件对两 A 、 B ，有
P(A) ＝ P(A∩B) ＋ P(A∩B ) .

设 A 、 B∈ Ω ， P （ A ） >0, 则
P(A∩B) ＝ P(A)P(B|A)
就称事件为 A 、 B 的概率乘法公式。
P(B|A)=P(A∩B)/P(A)
也称：事件 A 生的条件下事件发 B 生的发条件概率

全概率公式
设 A1 ，… , An 是的一个分，且划
P(Ai)>0 ， (i ＝ 1 ，…， n) ，
任何事件则对 B∈ Ω 有
∑=
n
i
ii
ABPAPBP
1
)|()()( ＝

例：有甲乙个袋子，甲袋中有个白球，两两 1 个球，乙袋中有个红两
球，一个白球．六个球手感上不可区．今从甲袋中任取一球放红这别
入乙袋，后再从乙袋中任取一球，此球是球的概率？搅匀问红
解：设 A1—— 从甲袋放入乙袋的是白球；
A2—— 从甲袋放入乙袋的是球；红
B—— 从乙袋中任取一球是球；红
⇒
12
7
3
1
4
3
3
2
2
1
)()|()()|()( 2211
=×+×=+= APABPAPABPBP
甲乙

叶斯公式贝
设 A1 ，… , An 是 S 的一个分，划
且 P(Ai) > 0 ， (i ＝ 1 ，…， n) ，
任何事件则对 B∈S ，有
),...,1(,
)|()(
)|()(
)|(
1
nj
ABPAP
ABPAP
BAP n
i
ii
jj
j
==
∑=
后概率验 = ( 相似度 * 先概率验 )/ 准化常量标

例：数字通讯过程中，信源发射 0 、 1 两种状态信号，其中发 0 的概率为 0.55 ，发 1
的概率为 0.45 。由于信道中存在干扰，在发 0 的时候，接收端分别以概率 0.9 、 0.05
和 0.05 接收为 0 、 1 和“不清”。在发 1 的时候，接收端分别以概率 0.85 、 0.05 和 0.1
接收为 1 、 0 和“不清”。现接收端接收到一个“ 1” 的信号。问发端发的是 0 的概率是
多少 ?
)BA(P ＝
)A(P)AB(P)A(P)AB(P
)A(P)AB(P
+
＝＝ 0.067
解：设 A--- 发射端发射 0 ，
B--- 接收端接收到一个“ 1” 的信号．
45.085.055.005.0
55.005.0
×+×
×
0 (0.55)
01
不
清
(0.9)
(0.05)
(0.05)
1 (0.45)
10
不
清
(0.85)
(0.05)
(0.1)

叶斯贝 ( 约 1701-1761) Thomas Bayes
英国数学家。约 1701 年出生于敦，做神甫。伦过 1742 年成为
英国皇家学会会。员 1761 年 4 月 7 日逝世。叶斯在数学方面贝
主要研究概率。他首先将推理法用于概率基理，并论归纳论础论
立了叶斯理，于决策函数、推断、的创贝统计论对统计统计统计
估算等做出了献。他死后，理德贡查 · 普莱斯 (Richard Price) 于
1763 年将他的著作《机会的解法》问题 (An essay towards
solving a problem in the doctrine of chances) 寄了英国皇家给
学会，于代概率和数理生了重要的影响。叶斯的对现论统计产贝
另一著作《机会的学概》表于说论发 1758 年。叶斯所采用的贝
多被沿用至今。许术语
-- 百度百科

1.5 事件的独立性
一、事件独立两
定义 1 设 A 、 B 是事件，两 P(A) ≠0, 若
P(B) ＝ P(B|A) (1.5.1)
称事件则 A 与 B 相互独立。
式 (1.5.1) 等价于：
P(A∩B) ＝ P(A)P(B) (1.5.2)

二、多个事件的独立
定义 2 、若三个事件 A 、 B 、 C 足：满
(1) P(AB)=P(A)P(B), P(AC)=P(A)P(C),
P(BC)=P(B)P(C),
称事件则 A 、 B 、 C 相互独立两两；
若在此基上足：础还满
(2) P(ABC) ＝ P(A)P(B)P(C), (1.5.3)
称事件则 A 、 B 、 C 相互独立。

一般地，设 A1 ， A2 ，…， An 是 n 个事件，如果对
任意 k (1<k≤n), 任意的 1≤i1<i2 <… < ik≤ n ，具有等
式
P(A i1 A i2 … A ik) ＝ P(A i1)P(A i2)…P(A ik)
称则 n 个事件 A1 ， A2 ，…， An 相互独立。思考
一骰子颗掷 4 次至少得一个六点与骰子两颗掷
24 次至少得一个双六，件事，一个有更这两哪
多的机会遇到？答 :0.518,
0.491

机器学的生与展习产发
• 从人工智能（ Artificial Intelligence ）中生产
• 得益于算机性能的大幅提高而足展计长发

机器学习
• 例子：
-- 数据掘：理大数据（如网点数据，医数据，生物信息挖处页击疗
数据等），从大数据中得有价的内在律获值规
-- 无法行手写的程序：一般程序程言无法的功能，如自进编语实现
汽，自直升机（），手写程序，人，动驾驶车动视频识别脸识别计
算机形，大部分的自然言理图视觉绝语处
-- 自主定制化程序：如 Amazon, 淘宝的商品推荐系统
-- 理解人类学能力，如人习脑
在美国，在一些中，最被调查 IT 公司雇主所期望的 IT 技能中，机器
学居首位习

机器学定习义
• Arthur Samual （ 1959 ）
Machine learning ： Field of study that gives computers the
ability to learn without being explicitly programmed.

机器学定习义
• Tom Mitchell （ 1998 ）
Well-posed Learning Problem ： A computer program is said to
learn from experience E with respect to some task T and some
performance measure P, if its performance on T, as measured by
P, improves with experience E.

浅机器学算法谈习
• 有督学（监习 Supervised Learning 、教師あり学習）
• 无督学（监习 Unsupervised Learning 、教師なし学習）
• 另外，有半督学，增强学，推荐系等。还监习习统

x1
x2
有督学监习
数据是有的标签

无督学监习
x1
x2
数据是无的标签
数据： Hi, 就是我，你能一些我这发现
的上的律？结构规吗 Good Luck!

有督学监习
例：估算房价产值

无督学监习
例：新分闻类 --Google 新闻

基因
个体
无督学监习
例：基因分析

无督学监习
其他例实
社交网分析络
市区隔消者群分析场费组
天文数据分析

出以下的例子，属于有督学是无督学。请说监习还监习
• 根据已有邮件被标识为垃圾邮件或非垃圾邮件，学习得到一个垃圾
邮件过滤器。
• 从网上获得一些新闻的文章，将其分组以使得每组新闻叙述的主题
一致。
• 给定一个消费者数据库，自动发现市场区隔，并根据消费者的消费
特征将消费者划分到不同的市场区隔。
• 给定一个病人诊断数据集，该数据集记录了病人是否得糖尿病。根
据该数据集的病理特征，学习并预测一个新病人是否可能得了糖尿
病。

一有督学的机器学算法：朴素叶斯分种监习习贝类
朴素叶斯的思想基是的：于出的待分类，求解在此出的条贝础这样对给项项现
件下各个类出的概率，个最大，就此待分类属于个类。别现哪认为项哪别
通俗来，就好比么个道理，你在街上看到一个黑人，我你你猜哥说这问这们哪
里来的，你十有八九猜非洲。什么？因黑人中非洲人的比率最高，当然为呢为
人家也可能是美洲人或洲人，但在没有其它可用信息下，我会条件概亚们选择
率最大的类，就是朴素叶斯的思想基。别这贝础
槽（看口型），都猜出来了卧这让你

那么在的就是如何算第现关键计 3 步中的各个条件概率
朴素叶斯分类的正式定贝义
1. 一个待分类，而每个设为项 a 为 x 的一个特征属性。
2. 有类集合。别
3. 算。计
4. 如果，。则
},...,,{ 21 m
aaax =
},...,,{ 21 n
yyyC =
)|(),...,|(),|( 21
xyPxyPxyP n
)}|(),...,|(),|(max{)|( 21
xyPxyPxyPxyP nk
= k
yx∈

1. 找到一个已知分类的分类集合。个集合叫做本集。这训练样
2. 得到在各个类下各个特征属性的条件概率估。统计别计
3. 如果各个特征属性是条件独立的，根据叶斯定理贝
4. 由于分母于所有类都常数，只需要将分子最大化。又因各特征属性是条件独立的，所以对别为为
)|(),...,|(),|(
......
),|(),...,|(),|(
),|(),...,|(),|(
21
22221
11211
nmnn
m
m
yaPyaPyaP
yaPyaPyaP
yaPyaPyaP
)(
)()|(
)|(
xP
yPyxP
xyP ii
i =
∏
=
==
m
j
ijiiimiiii yaPyPyPyaPyaPyaPyPyxP
1
21 )|()()()|()...|()|()()|(
小编：往往这也是朴素贝叶斯分类的一个致命弱点。
哎，果然太朴素了。

估类下特征属性分的条件概率及计别划 Laplace 校准
算各个分的条件概率计划 P(a|y) 是朴素叶斯分类的性步贝关键骤
1. 特征属性离散：本中各个分在每个类中出的率为值统计训练样划别现频
2. 特征属性是：通常假定其服从高斯分布（也称正分布）连续值值态
2
2
2
)(
2
1
)( σ
µ
σπ
−
−
=
x
exf
算出本中各个类中此特征分的各均和准差，代入上述公式即计训练样别项划值标
可得到需要的估。计值
当 P(a|y)=0 ，即当某个类下某个特征分没有出，引入别项划现时 Laplace 校准：
没类下所有分的数加对别划计 1 。
正分布的密度函数态：

于正分布关态
正分布的前世今生（上，下）态
• http://www.mysanco.cn/index.php?class=wenku&action=wenku_item&id=106
• http://www.mysanco.cn/index.php?class=wenku&action=wenku_item&id=107
“ 它以一静无形的方式在最野性的混乱中施厉的治。暴民越多，无政府状越，它就治得种宁实严统态显现统
越完美。它是无理性世界中的最高法律。” -- 高尔顿
正所，”大道至，大美天成“。谓简 -- 小编
)(
2
1
)()(
2
2
2
)(
RxdxexFxXP
x x
X ∈==≤
∫∞−
−
−
σ
µ
σπ

朴素叶斯分类的用范例贝应
人群分类
Query 分类
商品分类
网分类页
件垃圾邮过滤
二中盟推粹德国潜艇位置战军测纳
找失事航寻马 MH370 客机

叶斯方法在法航事件搜救程中的用贝过应
在 2009 年 6 月 1 日早晨，法航 447 航班失事。
2010 年 7 月，法国航空事故委任调查处 Metron 重新分析已有的搜救信息，以便制一副机残负责检查绘飞
骸可能地点的概率分布。如所示，概率由大到小的序：、橙、黄、、。图图顺为红绿蓝
在高概率区域行持一周的搜之后，对进续寻
残骸被。发现
随后，行数据器和音器飞记录驾驶舱语记录
被找到。
最残骸的位置离中的概率中心位置终确认图
并不。远

用例应实
根据 Wikipedia 上的一个例子
-- 根据 Training data 推某个体本的类测样别
描述问题 :
通一些量的特征，包括身高、体重、脚的尺寸，判定一个人是过测
男性是女性。还

Training Data
性别身高 ( 英
尺 )
体重 ( 磅 ) 脚的尺寸 ( 英
寸 )
男 6 180 12
男 5.92 190 11
男 5.58 170 12
男 5.92 165 10
女 5 100 6
女 5.5 150 8
女 5.42 130 7
女 5.75 150 9
性别身高 ( 英
尺 )
体重
( 磅 )
脚的尺寸 ( 英
寸 )
? 6 130 8
Sample Data
是男是女？

此叶斯分类算法的思路问题贝
1. 人的身高，体重，脚的尺寸，其是的，符合随机量的值连续连续变
特征，因此我将使用随机量的分布特征。如前所述，们连续变应认
些量各自服从正分布（身高的正分布，体重的正分布为这变态态态
，脚的尺寸的正分布）。态
2. 分算三个正分布函数的均别计态值 (mean), 方差 (variance) 。
3. 将本数据样 ( 待推的个体数据测 ) 的身高，体重，脚的尺寸分代别
入各自的正分布函数，算其在各个分类态计 ( 男，或女 ) 下的条件概
率密度。
4. 算各个分类下的条件概率密度的乘，得到其最大。取得最计积值则
大的那个所在分类，即本的推定所属类。值为样

9
3
6
2
)6(
101984.6)()|()|()|(
103112.1)|(
109881.5)|(
5789.1
2
1
)|(
5.0)(
2
2
−
−
−
−
−
×≈
×≈
×≈
≈=
=
男男脚的尺寸男体重男身高
男脚的尺寸
男体重
男身高
男
Pfff
f
f
ef
P
σ
µ
σπ
4
1
2
1
103778.5)()|()|()|(
108669.2)|(
106789.1)|(
102346.2)|(
5.0)(
−
−
−
−
×≈
×≈
×≈
×≈
=
女女脚的尺寸女体重女身高
女脚的尺寸
女体重
女身高
女
Pfff
f
f
f
P
是女性的概率最大

影响一个叶斯分类器率的因素贝错误
(1) 集训练 (Training Data) 的数量。记录
(2) 属性的数目。
(3) 属性中的信息。
(4) 待的分布。预测记录

一无督学的算法：种监习 K-means 聚类算
法
K-means 算法是将本聚类成样 K 个簇（ cluster ）
打个比方，宇宙中的星星可以表示成三空中的点集，把星星聚类维间
后果是一个个星，星里面的点相互距离比近，星的星结团团较团间
星距离就比了。较远

K-means 聚类算法程描述：过
要将所有的星星聚成 K 个星，首先随机取团选 K 个宇宙中的点（或者
K 个星星）作为 K 个星的心团质
1. 于每一个星星算其到对计 K 个心中每一个的距离，然后取距质选
离最近的心。如此，每一个星星都有了所属的星。质团
2. 于每一个星，重新算它的心（里面所有的星星坐求平对团计质对标
均）。重迭代第一步和第二步直到心不或者化很小。复质变变
缺点：
必事先出须给 K （要生成的簇的数目）；
当存在“噪音”和孤立点数据，容易被端数据影响。时极

K-means 聚类算法
• 入：输
- K （簇的数量）
- 数据集（训练 Training Set ） :
例上除去惯
}...,,{ )()3()2()1( m
xxxx
ni
x R∈)( )0(
x

K-means 聚类算法
• 随机初始化 K 个簇的心：质
• 循理环处 while 收敛 {
for i = 1 to m
:= 距离最近的簇的心的索引（质 1 to K ）
for k = 1 to K
:= 从属于索引为 k 的簇中所有本的平均样值
}
n
K R∈µµµµ ,...,, 321
)(i
c )(i
x
kµ
kµ

身高
体重
不同人群给设计 T 恤衫的尺寸（ S, M, L ）

分类器的学方式的不同两种习
• 朴素叶斯分类：无督学贝监习 (Unsupervised learning)
• K-Means 分类：有督学监习 (Supervised learning)

一有督学算法另种监习 -- 性回线归
某地房价格产
价格（万
）
面（平米）积
有督学监习
每一个本点都是一个样
正的答案确
回归问题
出预测输值

Notation:
m = 数据的数量训练
x’s = 入量输变 / 特征
y’s = 出量输变 / 目量标变
面平米积 (x) 价格 (y)
2104 460
1416 232
1534 315
852 178
… …
房价的数据训练

数据集训练
学算法习
h房面产积估价格计

假设 :
参数 :
成本函数 :
目标 :
量性回，类似于学的性回单变线归统计线归
参数可用梯度下降（ Gradient Descent ）的方法求得

机器学的主要算法习
• Regression( 回分析归 )
• Instance based learning( 基于例的学实习 )
• Decision tree methods( 决策方法树 )
• Bayesian method( 叶斯方法贝 )
• Kernel Method( 核方法 )
• Clustering( 聚类 )
如 K-Means
• Association rule learning( 合学联规则习 )
• Artificial Neural Networks( 人工神网经络 )
• Deep Learning( 深度学习 )
• Dimensionality Reduction( 度维缩减 )
• Ensemble methods( 合方法组 )

视频
• Stanford Autonomous Helicopter - Airshow
• The Duel: Timo Boll vs. KUKA Robot

机器学，数据掘域人权威学者习挖领华
恩（吴达 Andrew Ng ）
人工智能和机器学域国上最权威的学者之一习领际 , 也是在教育线
平台 Coursera 的合始人。联创
・卡内基梅隆大学的算机科学学士学位计
・麻省理工学院的士学位硕
・加州大学伯克利分校的博士学位
・ 2010 年谷歌开发团队 XLab
・ Google Brain 计划
・ 2014 年 5 月 16 日，百度宣布恩加入百度，担任百度公司吴达
首席科学家 (Baidu Brain 计划 )
研究域：机器学和人工智能，研究重点是深度学（领习习 Deep
Learning ）

家韩炜
美国伊利伊大学香分校算机系正教授，诺槟计 IEEE 和 ACM 院士
，美国信息网学研究中心主任。络术
・中国科学与技大学算机科学系术计
・中科院研究生院
・美国威斯康辛大学算机系博士计毕业
著作：
Data Mining: Concepts and Techniques （数据掘：概念与技挖
），数据掘界公的典教材术为挖认经
研究方向：
数据掘（挖 Data Mining ）

余凯
百度深度学研究院习 (IDL) 常副院，第九批务长 " 千人 “国家特聘计划
家，知名机器学家。专习专
・南京大学
・德国慕尼黑大学得算机博士学位获计
・美国 NEC 研究院 Media Analytics 部主管门
・西子公司数据掘部高研究门挖门级员
・曾任百度公司的技副术总监
研究方向：
机器学、像、多媒体索、控，以及数据掘和人机习图识别检视频监挖
交互等人工智能域领

推荐目书
• 子：电书 Introduction To Machine Learning (MTI, Purdue)
The Elements of Statistical Learning -- Data Mining, Inference, and Prediction

01/17/15
！谢谢
感的聆听！谢您

Probability, statistics & machine learning(china soft tokyo)

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (8)

Similar to Probability, statistics & machine learning(china soft tokyo)

Similar to Probability, statistics & machine learning(china soft tokyo) (9)

Probability, statistics & machine learning(china soft tokyo)