Your SlideShare is downloading. ×
0
数据挖掘九律
数据挖掘九律
数据挖掘九律
数据挖掘九律
数据挖掘九律
数据挖掘九律
数据挖掘九律
数据挖掘九律
数据挖掘九律
数据挖掘九律
数据挖掘九律
数据挖掘九律
数据挖掘九律
数据挖掘九律
数据挖掘九律
数据挖掘九律
数据挖掘九律
数据挖掘九律
数据挖掘九律
数据挖掘九律
数据挖掘九律
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

数据挖掘九律

1,162

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
1,162
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
20
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  1. 数据挖掘九律<br />Tony Deng<br />http://twitter.com/wolfdeng<br />http://friendfeed.com/tonydeng<br />http://delicious.com/wolf.deng<br />http://wolfchina.blogbus.com<br />
  2. 原文地址<br />http://smartdatacollective.com/metabrown/32627/data-mining-fundamentals-khabaza-s-9-laws-data-mining<br />
  3. 第一,目标律<br />数据挖掘是一个业务过程,必须得有业务目标。<br />无目的,无过程。<br />
  4. 第二,知识律<br />业务知识贯穿在挖掘这个业务过程的各个环节<br />
  5. 第三,准备律<br />数据获得、数据准备等数据处理等工作耗时占整个挖掘过程的一半。<br />
  6. 第四,NFL律<br />NFL(No Free Lunch),没有免费午餐<br />没有一个固定的算法适用所有的业务问题,特点应用适合的模型只能经验发现。<br />
  7. 第五,大卫律<br />要相信,数中必有业务规律。<br />大卫.沃尔金斯最早提出,故此名。<br />
  8. 第六,洞察律<br />数据挖掘本质上是增强对业务领域的认知<br />
  9. 第七,预测律<br />数据挖掘基于过去得出模式,并泛化到类似新事物上,这就是预测,但这是统计概念的。<br />
  10. 第八,价值律<br />挖掘模型的最终价值并非精度或稳定性,而是驱动业务行动或通过重新洞察导致策略改善<br />
  11. 第九,变化律<br />人不会两次踏入同一条河流<br />业务在变,目标在变,认识也在变,甚至规律本身也在变,挖掘模型也得与时俱进<br />
  12. 心法<br />敌不动我不动,见招拆招,以无招胜有招。<br />
  13. 故事时间<br />人物背景介绍:<br />悟空:挖掘新手<br />菩提:悟空的导师,挖掘高高手<br />
  14. 事情背景介绍:<br />一日,悟空接到任务,走一趟挖掘。过了段时间,他找到了菩提,菩提正在闭目打坐。<br />然后,发生了下面这一场对话。<br />
  15. 师傅,徒儿接到任务,已经开始干了,不出一个月就可大功告成。<br />嗯,不错,什么进展了?<br />我已经安排下去,现在数据准备已经完成,并且建了一个小模。哎呀,您是不知道啊,那个数据太烂,一堆问题,到处是空值,很多信息也是假的,balabala….<br />先别说你的数据,数据准备干了多长时间了?<br />干了一个多月,还蛮符合准备率的吧!<br />这个任务到底要干什么?<br />嗨,就是要找出想搞破坏的人,放心,第一律我牢记于胸。现在还有两个人帮我一起做,一个准备数据,一个建模。<br />那你干什么?<br />
  16. 我搞业务理解啊,并且运用知识律,搞了一个挖掘过程模板,我们三个就用这个模板进行过程交互,挺好的,什么时候给您瞅瞅。<br />嗯,听起来不错,那你今天来此打扰我清修作甚?<br />您是不知道啊。不是跟你说了,我们还建了一个小模嘛。唉,效果不太好。用分类预测训练了数据,但那个数据实在太差了,感觉那个模型一点都不靠谱,没反应出 来什么规律。我们用那个结论在我们三个身上试了一下,结果大家都觉得不对,我们都成了想搞破坏的人,一点都不符合实际情况。<br />你忘了大卫律了?要相信。还有预测律,你这个模型在你们三个身上试验,能证明什么?<br />是啊,我没忘啊。不过要找到规律还需要时间啊。我们要计划在找更多的样本去验证。不过…今天来…确实是无事不登三宝殿…有个事儿…<br />啥事?<br />
  17. 您前年不是搞了一个犯罪预测嘛,现在很多地方都在用,我想跟这次任务的目标类似,我想能不能就直接把您的模型拉过来训练一下就行了…您那个模型实在是太绝了…<br />哈哈,看来你想偷懒啊,但你怎么能够知道这个模型适用你的任务呢?<br />您的模型我还担心什么啊。主要是这次任务时间紧,我也没办法,先解决了问题吧,能精确定位目标人群就行了,您的模型,肯定很准的。<br />虽然你拍我马屁,但我还是对你很失望啊。挖掘的本质是什么?<br />呃…洞察…我也知道天下没有免费的午餐...但时间太紧,任务太重啊,没您不行啊,您的模型就是我们的法宝啊。<br />唉,不说那是两年前的模型,现在你遇到的情况跟我遇到的情况不一样,现在的犯罪手段也变了各种花样,变化率怎么说的?再说,你为什么如此看重模型的精度,那并非挖掘的终极价值啊!醒悟吧!我代表客户鄙视你!<br />
  18. 老家伙,你到底是给还是不给?你是想看着我死吗?<br />(仰天长叹)唉,师徒一场,罢了罢了,拿去吧。但你此一去,我们师徒恩断义绝,以后再也不要来见我,再也不要叫我师傅,也不要再别人面前妄称我是你的师傅。走吧,走吧…<br />
  19. 谢谢<br />

×