مقدمه ای بر داده کاوی و اکتشاف دانش

2,936 views
2,824 views

Published on

يوحنا قديمی علي عباسی کاوه پاشایی

1 Comment
1 Like
Statistics
Notes
No Downloads
Views
Total views
2,936
On SlideShare
0
From Embeds
0
Number of Embeds
7
Actions
Shares
0
Downloads
320
Comments
1
Likes
1
Embeds 0
No embeds

No notes for slide

مقدمه ای بر داده کاوی و اکتشاف دانش

  1. 1. ‫ﺑﻪ ﻧﺎم ﺧﺪا‬ ‫ﻣﻘﺪﻣﻪ اي ﺑﺮ داده ﻛﺎوي و اﻛﺘﺸﺎف‬ ‫داﻧﺶ‬ ‫ﺗﻬﻴﻪ ﻛﻨﻨﺪﮔﺎن : ﻳﻮﺣﻨﺎ ﻗﺪﻳﻤﻲ‬ ‫ﻋﻠﻲ ﻋﺒﺎﺳﻲ‬ ‫ﻛﺎوه ﭘﺎﺷﺎﻳﻲ‬
  2. 2. ‫ﻣﻘﺪﻣﻪ‬ ‫اﻣﺮوزه ﺑﺎ ﮔﺴﺘﺮش ﺳﻴﺴﺘﻢ ﻫﺎي ﭘﺎﻳﮕﺎﻫﻲ و ﺣﺠﻢ ﺑﺎﻻي داده ﻫﺎ ي ذﺧﻴﺮه ﺷﺪه‬ ‫در اﻳﻦ ﺳﻴﺴﺘﻢ ﻫﺎ ، ﻧﻴﺎز ﺑﻪ اﺑﺰاري اﺳﺖ ﺗﺎ ﺑﺘﻮان داده ﻫﺎي ذﺧﻴﺮه ﺷﺪه‬ ‫ﭘﺮدازش ﻛﺮد و اﻃﻼﻋﺎت ﺣﺎﺻﻞ از اﻳﻦ ﭘﺮدازش را در اﺧﺘﻴﺎر ﻛﺎرﺑﺮان ﻗﺮار داد .‬ ‫ﺑﺎ اﺳﺘﻔﺎده ار ﭘﺮﺳﺶ ﻫﺎي ﺳﺎده در ‪ SQL‬و اﺑﺰارﻫﺎي ﮔﻮﻧﺎﮔﻮن ﮔﺰارش ﮔﻴﺮي‬ ‫ﻣﻌﻤﻮﻟﻲ ، ﻣﻲ ﺗﻮان اﻃﻼﻋﺎﺗﻲ را در اﺧﺘﻴﺎر ﻛﺎرﺑﺮان ﻗﺮار داد ﺗﺎ ﺑﺘﻮاﻧﻨﺪ ﺑﻪ ﻧﺘﻴﺠﻪ‬ ‫ﮔﻴﺮي در ﻣﻮرد داده ﻫﺎ و رواﺑﻂ ﻣﻨﻄﻘﻲ ﻣﻴﺎن آﻧﻬﺎ ﺑﭙﺮدازﻧﺪ اﻣﺎ وﻗﺘﻲ ﻛﻪ ﺣﺠﻢ‬ ‫داده ﻫﺎ ﺑﺎﻻ ﺑﺎﺷﺪ ، ﻛﺎرﺑﺮان ﻫﺮ ﭼﻨﺪ زﺑﺮ دﺳﺖ و ﺑﺎ ﺗﺠﺮﺑﻪ ﺑﺎﺷﻨﺪ ﻧﻤﻲ ﺗﻮاﻧﻨﺪ‬ ‫اﻟﮕﻮﻫﺎي ﻣﻔﻴﺪ را در ﻣﻴﺎن ﺣﺠﻢ اﻧﺒﻮه داده ﻫﺎ ﺗﺸﺨﻴﺺ دﻫﻨﺪ و ﻳﺎ اﮔﺮ ﻗﺎدر ﺑﻪ‬ ‫اﻳﻦ ﻛﺎر ﻫﻢ ﺑﺎ ﺷﻨﺪ ، ﻫﺰﻳﻨﻪ ﻋﻤﻠﻴﺎت از ﻧﻈﺮ ﻧﻴﺮوي اﻧﺴﺎﻧﻲ و ﻣﺎدي ﺑﺴﻴﺎر ﺑﺎﻻ‬ ‫اﺳﺖ .‬ ‫از ﺳﻮي دﻳﮕﺮ ﻛﺎرﺑﺮان ﻣﻌﻤﻮﻻ ﻓﺮﺿﻴﻪ اي را ﻣﻄﺮح ﻣﻲ ﻛﻨﻨﺪ و ﺳﭙﺲ ﺑﺮ اﺳﺎس‬ ‫ﮔﺰارﺷﺎت ﻣﺸﺎﻫﺪه ﺷﺪه ﺑﻪ اﺛﺒﺎت ﻳﺎ رد ﻓﺮﺿﻴﻪ ﻣﻲ ﭘﺮدازﻧﺪ ، در ﺣﺎﻟﻲ ﻛﻪ اﻣﺮوزه‬ ‫ﻧﻴﺎز ﺑﻪ روﺷﻬﺎﻳﻲ اﺳﺖ ﻛﻪ اﺻﻄﻼﺣﺎ ﺑﻪ ﻛﺸﻒ داﻧﺶ 1 ﺑﭙﺮدازﻧﺪ ﻳﻌﻨﻲ ﺑﺎ ﻛﻤﺘﺮﻳﻦ‬ ‫دﺧﺎﻟﺖ ﻛﺎرﺑﺮ و ﺑﻪ ﺻﻮرت ﺧﻮدﻛﺎر اﻟﮕﻮﻫﺎ و راﺑﻄﻪ ﻫﺎي ﻣﻨﻄﻘﻲ را ﺑﻴﺎن ﻧﻤﺎﻳﻨﺪ .‬ ‫داده ﻛﺎوي2 ﻳﻜﻲ از ﻣﻬﻤﺘﺮﻳﻦ اﻳﻦ روﺷﻬﺎ اﺳﺖ ﻛﻪ ﺑﻪ وﺳﻴﻠﻪ آن اﻟﮕﻮﻫﺎي ﻣﻔﻴﺪ‬ ‫در داده ﻫﺎ ﺑﺎ ﺣﺪاﻗﻞ دﺧﺎﻟﺖ ﻛﺎرﺑﺮان ﺷﻨﺎﺧﺘﻪ ﻣﻲ ﺷﻮﻧﺪ و اﻃﻼﻋﺎﺗﻲ را در‬ ‫اﺧﺘﻴﺎر ﻛﺎرﺑﺮان و ﺗﺤﻠﻴﻞ ﮔﺮان ﻗﺮار ﻣﻲ دﻫﻨﺪ ﺗﺎ ﺑﺮاﺳﺎس آﻧﻬﺎ ﺗﺼﻤﻴﻤﺎت ﻣﻬﻢ و‬ ‫ﺣﻴﺎﺗﻲ در ﺳﺎزﻣﺎﻧﻬﺎ اﺗﺨﺎذ ﺷﻮﻧﺪ .‬ ‫در داده ﻛﺎوي از ﺑﺨﺸﻲ از ﻋﻠﻢ آﻣﺎر ﺑﻪ ﻧﺎم ﺗﺤﻠﻴﻞ اﻛﺘﺸﺎﻓﻲ داده ﻫﺎ 3 اﺳﺘﻔﺎده‬ ‫ﻣﻲ ﺷﻮد ﻛﻪ در آن ﺑﺮ ﻛﺸﻒ اﻃﻼﻋﺎت ﻧﻬﻔﺘﻪ و ﻧﺎﺷﻨﺎﺧﺘﻪ از درون ﺣﺠﻢ اﻧﺒﻮه‬ ‫داده ﻫﺎ ﺗﺎﻛﻴﺪ ﻣﻲ ﺷﻮد . ﻋﻼوه ﺑﺮ اﻳﻦ داده ﻛﺎوي ﺑﺎ ﻫﻮش ﻣﺼﻨﻮﻋﻲ و ﻳﺎدﮔﻴﺮي‬ ‫1 ‪Knowledge Discovery‬‬ ‫2 ‪Data Mining‬‬ ‫3 ‪Exploratory Data Analysis‬‬
  3. 3. ‫ﻣﺎﺷﻴﻦ ﻧﻴﺰ ارﺗﺒﺎط ﺗﻨﮕﺎﺗﻨﮕﻲ دارد ، ﺑﻨﺎﺑﺮاﻳﻦ ﻣﻲ ﺗﻮان ﮔﻔﺖ در داده ﻛﺎوي‬ ‫ﺗﺌﻮرﻳﻬﺎي ﭘﺎﻳﮕﺎه داده ﻫﺎ ، ﻫﻮش ﻣﺼﻨﻮﻋﻲ ، ﻳﺎدﮔﻴﺮي ﻣﺎﺷﻴﻦ و ﻋﻠﻢ آﻣﺎر را در‬ ‫ﻫﻢ ﻣﻲ آﻣﻴﺰﻧﺪ ﺗﺎ زﻣﻴﻨﻪ ﻛﺎرﺑﺮدي ﻓﺮاﻫﻢ ﺷﻮد .‬ ‫ﺑﺎﻳﺪ ﺗﻮﺟﻪ داﺷﺖ ﻛﻪ اﺻﻄﻼح داده ﻛﺎوي زﻣﺎﻧﻲ ﺑﻪ ﻛﺎر ﺑﺮده ﻣﻲ ﺷﻮد ﻛﻪ ﺑﺎ‬ ‫ﺣﺠﻢ ﺑﺰرﮔﻲ از داده ﻫﺎ ، در ﺣﺪ ﻣﮕﺎ ﻳﺎ ﺗﺮاﺑﺎﻳﺖ ، ﻣﻮاﺟﻪ ﺑﺎﺷﻴﻢ . در ﺗﻤﺎﻣﻲ‬ ‫ﻣﻨﺎﺑﻊ داده ﻛﺎوي ﺑﺮ اﻳﻦ ﻣﻄﻠﺐ ﺗﺎﻛﻴﺪ ﺷﺪه اﺳﺖ .‬ ‫ﻫﺮ ﭼﻪ ﺣﺠﻢ داده ﻫﺎ ﺑﻴﺸﺘﺮ و رواﺑﻂ ﻣﻴﺎن آﻧﻬﺎ ﭘﻴﭽﻴﺪه ﺗﺮ ﺑﺎﺷﺪ دﺳﺘﺮﺳﻲ ﺑﻪ‬ ‫اﻃﻼﻋﺎت ﻧﻬﻔﺘﻪ در ﻣﻴﺎن داده ﻫﺎ ﻣﺸﻜﻠﺘﺮ ﻣﻲ ﺷﻮد و ﻧﻘﺶ داده ﻛﺎوي ﺑﻪ ﻋﻨﻮان‬ ‫ﻳﻜﻲ از روﺷﻬﺎي ﻛﺸﻒ داﻧﺶ ، روﺷﻦ ﺗﺮ ﻣﻲ ﮔﺮدد .‬ ‫ﻣﻔﺎﻫﻴﻢ ﭘﺎﻳﻪ در داده ﻛﺎوي‬ ‫در داده ﻛﺎوي ﻣﻌﻤﻮﻻ ﺑﻪ ﻛﺸﻒ اﻟﮕﻮﻫﺎي ﻣﻔﻴﺪ از ﻣﻴﺎن داده ﻫﺎ اﺷﺎره ﻣﻲ ﺷﻮد .‬ ‫ﻣﻨﻈﻮر از اﻟﮕﻮي ﻣﻔﻴﺪ ، ﻣﺪﻟﻲ در داده ﻫﺎ اﺳﺖ ﻛﻪ ارﺗﺒﺎط ﻣﻴﺎن ﻳﻚ زﻳﺮ‬ ‫ﻣﺠﻤﻮﻋﻪ از داده ﻫﺎ را ﺗﻮﺻﻴﻒ ﻣﻲ ﻛﻨﺪ و ﻣﻌﺘﺒﺮ ، ﺳﺎده ، ﻗﺎﺑﻞ ﻓﻬﻢ و ﺟﺪﻳﺪ‬ ‫اﺳﺖ .‬ ‫ﺗﻌﺮﻳﻒ داده ﻛﺎوي‬ ‫در ﻣﺘﻮن آﻛﺎدﻣﻴﻚ ﺗﻌﺎرﻳﻒ ﮔﻮﻧﺎﮔﻮﻧﻲ ﺑﺮاي داده ﻛﺎوي اراﺋﻪ ﺷﺪه اﻧﺪ . در ﺑﺮﺧﻲ‬ ‫از اﻳﻦ ﺗﻌﺎرﻳﻒ داده ﻛﺎوي در ﺣﺪ اﺑﺰاري ﻛﻪ ﻛﺎرﺑﺮان را ﻗﺎدر ﺑﻪ ارﺗﺒﺎط ﻣﺴﺘﻘﻴﻢ‬ ‫ﺑﺎ ﺣﺠﻢ ﻋﻈﻴﻢ داده ﻫﺎ ﻣﻲ ﺳﺎزد ﻣﻌﺮﻓﻲ ﮔﺮدﻳﺪه اﺳﺖ و در ﺑﺮﺧﻲ دﻳﮕﺮ ،‬ ‫ﺗﻌﺎرﻳﻒ دﻗﻴﻘﺘﺮ ﻛﻪ درآﻧﻬﺎ ﺑﻪ ﻛﺎوش در داده ﻫﺎ ﺗﻮﺟﻪ ﻣﻲ ﺷﻮد ﻣﻮﺟﻮد اﺳﺖ .‬ ‫ﺑﺮﺧﻲ از اﻳﻦ ﺗﻌﺎرﻳﻒ ﻋﺒﺎرﺗﻨﺪ از :‬ ‫• داده ﻛﺎوي ﻋﺒﺎرت اﺳﺖ از ﻓﺮاﻳﻨﺪ اﺳﺘﺨﺮاج اﻃﻼﻋﺎت ﻣﻌﺘﺒﺮ ، از ﭘﻴﺶ‬ ‫ﻧﺎﺷﻨﺎﺧﺘﻪ ، ﻗﺎﺑﻞ ﻓﻬﻢ و ﻗﺎﺑﻞ اﻋﺘﻤﺎد از ﭘﺎﻳﮕﺎه داده ﻫﺎي ﺑﺰرگ و‬ ‫اﺳﺘﻔﺎده از آن در ﺗﺼﻤﻴﻢ ﮔﻴﺮي در ﻓﻌﺎﻟﻴﺖ ﻫﺎي ﺗﺠﺎري ﻣﻬﻢ. ]1[‬ ‫• اﺻﻄﻼح داده ﻛﺎوي ﺑﻪ ﻓﺮاﻳﻨﺪ ﻧﻴﻢ ﺧﻮدﻛﺎر ﺗﺠﺰﻳﻪ و ﺗﺤﻠﻴﻞ ﭘﺎﻳﮕﺎه‬ ‫داده ﻫﺎي ﺑﺰرگ ﺑﻪ ﻣﻨﻈﻮر ﻳﺎﻓﺘﻦ اﻟﮕﻮﻫﺎي ﻣﻔﻴﺪ اﻃﻼق ﻣﻲ ﺷﻮد ]2[.‬
  4. 4. ‫• داده ﻛﺎوي ﻳﻌﻨﻲ ﺟﺴﺘﺠﻮ در ﻳﻚ ﭘﺎﻳﮕﺎه داده ﻫﺎ ﺑﺮاي ﻳﺎﻓﺘﻦ اﻟﮕﻮﻫﺎﻳﻲ‬ ‫ﻣﻴﺎن داده ﻫﺎ .]3[‬ ‫• داده ﻛﺎوي ﻳﻌﻨﻲ اﺳﺘﺨﺮاج داﻧﺶ ﻛﻼن ، ﻗﺎﺑﻞ اﺳﺘﻨﺎد و ﺟﺪﻳﺪ از‬ ‫ﭘﺎﻳﮕﺎه داده ﻫﺎ ي ﺑﺰرگ .‬ ‫• داده ﻛﺎوي ﻳﻌﻨﻲ ﺗﺠﺰﻳﻪ و ﺗﺤﻠﻴﻞ ﻣﺠﻤﻮﻋﻪ داده ﻫﺎي ﻗﺎﺑﻞ ﻣﺸﺎﻫﺪه‬ ‫ﺑﺮاي ﻳﺎﻓﺘﻦ رواﺑﻂ ﻣﻄﻤﺌﻦ ﺑﻴﻦ داده ﻫﺎ .‬ ‫ﻫﻤﺎﻧﮕﻮﻧﻪ ﻛﻪ در ﺗﻌﺎرﻳﻒ ﮔﻮﻧﺎﮔﻮن داده ﻛﺎوي ﻣﺸﺎﻫﺪه ﻣﻲ ﺷﻮد ، ﺗﻘﺮﻳﺒﺎ در‬ ‫ﺗﻤﺎﻣﻲ ﺗﻌﺎرﻳﻒ ﺑﻪ ﻣﻔﺎﻫﻴﻤﻲ ﭼﻮن اﺳﺘﺨﺮاج داﻧﺶ ، ﺗﺤﻠﻴﻞ و ﻳﺎﻓﺘﻦ اﻟﮕﻮي ﺑﻴﻦ‬ ‫داده ﻫﺎ اﺷﺎره ﺷﺪه اﺳﺖ .‬ ‫ﺗﺎرﻳﺨﭽﻪ داده ﻛﺎوي‬ ‫اﺧﻴﺮا داده ﻛﺎوي ﻣﻮﺿﻮع ﺑﺴﻴﺎري از ﻣﻘﺎﻻت ، ﻛﻨﻔﺮاﻧﺲ ﻫﺎ و رﺳﺎﻟﻪ ﻫﺎ ي ﻋﻤﻠﻲ‬ ‫ﺷﺪه اﺳﺖ ، اﻣﺎ اﻳﻦ واژه ﺗﺎ اواﻳﻞ دﻫﻪ ﻧﻮد ﻣﻔﻬﻮﻣﻲ ﻧﺪاﺷﺖ وﺑﻪ ﻛﺎر ﺑﺮده ﻧﻤﻲ‬ ‫ﺷﺪ .‬ ‫در دﻫﻪ ﺷﺼﺖ و ﭘﻴﺶ از آن زﻣﻴﻨﻪ ﻫﺎﻳﻲ ﺑﺮاي اﻳﺠﺎد ﺳﻴﺴﺘﻢ ﻫﺎ ي ﺟﻤﻊ آوري‬ ‫و ﻣﺪﻳﺮﻳﺖ داده ﻫﺎ اﻳﺠﺎد ﺷﺪ و ﺗﺤﻘﻴﻘﺎﺗﻲ در اﻳﻦ زﻣﻴﻨﻪ اﻧﺠﺎم ﭘﺬﻳﺮﻓﺖ ﻛﻪ ﻣﻨﺠﺮ‬ ‫ﺑﻪ ﻣﻌﺮﻓﻲ و اﻳﺠﺎد ﺳﻴﺴﺘﻢ ﻫﺎي ﻣﺪﻳﺮﻳﺖ ﭘﺎﻳﮕﺎه داده ﻫﺎ ﮔﺮدﻳﺪ .‬ ‫اﻳﺠﺎد و ﺗﻮﺳﻌﻪ ﻣﺪﻟﻬﺎي داده اي ﺑﺮاي ﭘﺎﻳﮕﺎه ﺳﻠﺴﻠﻪ ﻣﺮاﺗﺒﻲ ، ﺷﺒﻜﻪ اي و‬ ‫ﺑﺨﺼﻮص راﺑﻄﻪ اي در دﻫﻪ ﻫﻔﺘﺎد ، ﻣﻨﺠﺮ ﺑﻪ ﻣﻌﺮﻓﻲ ﻣﻔﺎﻫﻴﻤﻲ ﻫﻤﭽﻮن ﺷﺎﺧﺺ‬ ‫ﮔﺬاري و ﺳﺎزﻣﺎﻧﺪﻫﻲ داده ﻫﺎ و در ﻧﻬﺎﻳﺖ اﻳﺠﺎد زﺑﺎن ﭘﺮﺳﺶ ‪ SQL‬در اواﻳﻞ‬ ‫دﻫﻪ ﻫﺸﺘﺎد ﮔﺮدﻳﺪ ﺗﺎ ﻛﺎرﺑﺮان ﺑﺘﻮاﻧﻨﺪ ﮔﺰارﺷﺎت و ﻓﺮﻣﻬﺎي اﻃﻼﻋﺎﺗﻲ ﻣﻮرد ﻧﻈﺮ‬ ‫ﺧﻮد را ، از اﻳﻦ ﻃﺮﻳﻖ اﻳﺠﺎد ﻧﻤﺎﻳﻨﺪ .‬ ‫ﺗﻮﺳﻌﻪ ﺳﻴﺴﺘﻢ ﻫﺎي ﭘﺎﻳﮕﺎﻫﻲ ﭘﻴﺸﺮﻓﺘﻪ در دﻫﻪ ﻫﺸﺘﺎد و اﻳﺠﺎد ﭘﺎﻳﮕﺎه ﻫﺎي ﺷﻲ‬ ‫ﮔﺮا ، ﻛﺎرﺑﺮد ﮔﺮا 4 و ﻓﻌﺎل 5 ﺑﺎﻋﺚ ﺗﻮﺳﻌﻪ ﻫﻤﻪ ﺟﺎﻧﺒﻪ و ﻛﺎرﺑﺮدي ﺷﺪن اﻳﻦ‬ ‫ﺳﻴﺴﺘﻢ ﻫﺎ در ﺳﺮاﺳﺮ ﺟﻬﺎن ﮔﺮدﻳﺪ . ﺑﺪﻳﻦ ﺗﺮﺗﻴﺐ ‪ DBMS‬ﻫﺎﻳﻲ ﻫﻤﭽﻮن‬ ‫4 ‪Application Oriented‬‬ ‫5 ‪Active DBMS‬‬
  5. 5. ‫2‪ ... ، Sybase ، Oracle ، DB‬اﻳﺠﺎد ﺷﺪﻧﺪ و ﺣﺠﻢ زﻳﺎدي از اﻃﻼﻋﺎت ﺑﺎ‬ ‫اﺳﺘﻔﺎده از اﻳﻦ ﺳﻴﺴﺘﻢ ﻫﺎ ﻣﻮرد ﭘﺮدازش ﻗﺮار ﮔﺮﻓﺘﻨﺪ . ﺷﺎﻳﺪ ﺑﺘﻮان ﻣﻬﻤﺘﺮﻳﻦ‬ ‫ﺟﻨﺒﻪ در ﻣﻌﺮﻓﻲ داده ﻛﺎوي را ﻣﺒﺤﺚ ﻛﺸﻒ داﻧﺶ از ﭘﺎﻳﮕﺎه داده ﻫﺎ )‪(6KDD‬‬ ‫داﻧﺴﺖ ﺑﻄﻮري ﻛﻪ در ﺑﺴﻴﺎري ﻣﻮارد ‪ DM‬و ‪ KDD‬ﺑﺼﻮرت ﻣﺘﺮادف ﻣﻮرد‬ ‫اﺳﺘﻔﺎده ﻗﺮار ﻣﻲ ﮔﻴﺮﻧﺪ .‬ ‫ﻫﻤﺎﻧﻄﻮر ﻛﻪ در ﺗﻌﺮﻳﻒ داده ﻛﺎوي ذﻛﺮ ﺷﺪ ، ﻫﺪف از ﺟﺴﺘﺠﻮ و ﻛﺸﻒ‬ ‫اﻟﮕﻮﻫﺎﻳﻲ در ﭘﺎﻳﮕﺎه داده ﻫﺎ و اﺳﺘﻔﺎده از آﻧﻬﺎ در اﺧﺬ ﺗﺼﻤﻴﻤﺎت ﺣﻴﺎﺗﻲ اﺳﺖ ،‬ ‫ﺑﻨﺎﺑﺮاﻳﻦ ﻣﻲ ﺗﻮان ﮔﻔﺖ ﻛﻪ ‪ DM‬ﺑﺨﺸﻲ از ﻓﺮاﻳﻨﺪ ‪ KDD‬اﺳﺖ ﻛﻪ در ﻧﻬﺎﻳﺖ‬ ‫ﺑﻪ اﻳﺠﺎد ﺳﻴﺴﺘﻢ ﻫﺎي 7‪ DSS‬ﺷﻜﻞ 1-1 ﻧﻘﺶ داده ﻛﺎوي در ﻓﺮاﻳﻨﺪ ﻛﺸﻒ‬ ‫داﻧﺶ از ﭘﺎﻳﮕﺎه داده ﻫﺎ را ﻧﺸﺎن ﻣﻲ دﻫﺪ . ]4[‬ ‫ﺑﺮاي اوﻟﻴﻦ ﺑﺎر ﻣﻔﻬﻮم داده ﻛﺎوي در ﻛﺎرﮔﺎه 8 ‪ IJCAI‬در زﻣﻴﻨﻪ ‪ KDD‬ﺗﻮﺳﻂ‬ ‫‪ Shapir‬ﻣﻄﺮح ﮔﺮدﻳﺪ . ﺑﻪ دﻧﺒﺎل آن در ﺳﺎﻟﻬﺎي 1991 ﺗﺎ 4991 ، ﻛﺎرﮔﺎﻫﻬﺎي‬ ‫‪ KDD‬ﻣﻔﺎﻫﻴﻢ ﺟﺪﻳﺪي را در اﻳﻦ ﺷﺎﺧﻪ از ﻋﻠﻢ اراﺋﻪ ﻛﺮدﻧﺪ ﺑﻄﻮري ﻛﻪ‬ ‫ﺑﺴﻴﺎري از ﻋﻠﻮم و ﻣﻔﺎﻫﻴﻢ ﺑﺎ آن ﻣﺮﺗﺒﻂ ﮔﺮدﻳﺪﻧﺪ ﻛﻪ ﻣﻲ ﺗﻮان آﻧﻬﺎ را در ﺷﻜﻞ‬ ‫2-1 ﻣﺸﺎﻫﺪه ﻧﻤﻮد .‬ ‫ﺑﺮﺧﻲ از ﻛﺎرﺑﺮدﻫﺎي داده ﻛﺎوي در ﻣﺤﻴﻄﻬﺎي واﻗﻌﻲ ﻋﺒﺎرﺗﻨﺪ از :‬ ‫1. ﺧﺮده ﻓﺮوﺷﻲ : از ﻛﺎرﺑﺮدﻫﺎي ﻛﻼﺳﻴﻚ داده ﻛﺎوي اﺳﺖ ﻛﻪ ﻣﻲ ﺗﻮان ﺑﻪ‬ ‫ﻣﻮارد زﻳﺮ اﺷﺎره ﻛﺮد :‬ ‫• ﺗﻌﻴﻴﻦ اﻟﮕﻮﻫﺎي ﺧﺮﻳﺪ ﻣﺸﺘﺮﻳﺎن‬ ‫• ﺗﺠﺰﻳﻪ و ﺗﺤﻠﻴﻞ ﺳﺒﺪ ﺧﺮﻳﺪ ﺑﺎزار‬ ‫• ﭘﻴﺸﮕﻮﻳﻲ ﻣﻴﺰان ﺧﺮﻳﺪ ﻣﺸﺘﺮﻳﺎن از ﻃﺮﻳﻖ ﭘﺴﺖ)ﻓﺮوش‬ ‫اﻟﻜﺘﺮوﻧﻴﻜﻲ(‬ ‫2. ﺑﺎﻧﻜﺪاري :‬ ‫• ﭘﻴﺶ ﺑﻴﻨﻲ اﻟﮕﻮﻫﺎي ﻛﻼﻫﺒﺮداري از ﻃﺮﻳﻖ ﻛﺎرﺗﻬﺎي اﻋﺘﺒﺎري‬ ‫6 ‪Knowledge Discovery From Database‬‬ ‫7 ‪Decision Support System‬‬ ‫8 ‪Workshop‬‬
  6. 6. ‫• ﺗﺸﺨﻴﺺ ﻣﺸﺘﺮﻳﺎن ﺛﺎﺑﺖ‬ ‫• ﺗﻌﻴﻴﻦ ﻣﻴﺰان اﺳﺘﻔﺎده از ﻛﺎرﺗﻬﺎي اﻋﺘﺒﺎري ﺑﺮ اﺳﺎس ﮔﺮوﻫﻬﺎي‬ ‫اﺟﺘﻤﺎﻋﻲ‬ ‫3. ﺑﻴﻤﻪ :‬ ‫• ﺗﺠﺰﻳﻪ و ﺗﺤﻠﻴﻞ دﻋﺎوي‬ ‫• ﭘﻴﺸﮕﻮﻳﻲ ﻣﻴﺰان ﺧﺮﻳﺪ ﺑﻴﻤﻪ ﻧﺎﻣﻪ ﻫﺎي ﺟﺪﻳﺪ ﺗﻮﺳﻂ ﻣﺸﺘﺮﻳﺎن‬ ‫4. ﭘﺰﺷﻜﻲ :‬ ‫• ﺗﻌﻴﻴﻦ ﻧﻮع رﻓﺘﺎر ﺑﺎ ﺑﻴﻤﺎران و ﭘﻴﺸﮕﻮﻳﻲ ﻣﻴﺰان ﻣﻮﻓﻘﻴﺖ اﻋﻤﺎل‬ ‫ﺟﺮاﺣﻲ‬ ‫• ﺗﻌﻴﻴﻦ ﻣﻴﺰان ﻣﻮﻓﻘﻴﺖ روﺷﻬﺎي درﻣﺎﻧﻲ در ﺑﺮﺧﻮرد ﺑﺎ ﺑﻴﻤﺎرﻳﻬﺎي‬ ‫ﺳﺨﺖ‬ ‫ﻣﺮاﺣﻞ ﻓﺮاﻳﻨﺪ ﻛﺸﻒ داﻧﺶ از ﭘﺎﻳﮕﺎه داده ﻫﺎ‬ ‫ﻓﺮاﻳﻨﺪ ﻛﺸﻒ داﻧﺶ از ﭘﺎﻳﮕﺎه داده ﻫﺎ ﺷﺎﻣﻞ ﭘﻨﺞ ﻣﺮﺣﻠﻪ اﺳﺖ ﻛﻪ ﻋﺒﺎرﺗﻨﺪ از :‬ ‫9‬ ‫1. اﻧﺒﺎرش داده ﻫﺎ‬ ‫2. اﻧﺘﺨﺎب داده ﻫﺎ‬ ‫3. ﺗﺒﺪﻳﻞ داده ﻫﺎ‬ ‫4. ﻛﺎوش در داده ﻫﺎ‬ ‫5. ﺗﻔﺴﻴﺮ ﻧﺘﻴﺠﻪ‬ ‫ﻫﻤﺎﻧﮕﻮﻧﻪ ﻛﻪ ﻣﺸﺎﻫﺪه ﻣﻲ ﺷﻮد داده ﻛﺎوي ﻳﻜﻲ از ﻣﺮاﺣﻞ اﻳﻦ ﻓﺮاﻳﻨﺪ اﺳﺖ ﻛﻪ‬ ‫ﺑﻪ ﻋﻨﻮان ﺑﺨﺶ ﭼﻬﺎرم آن ﻧﻘﺶ ﻣﻬﻤﻲ در ﻛﺸﻒ داﻧﺶ از داده ﻫﺎ اﻳﻔﺎ ﻣﻲ ﻛﻨﺪ‬ ‫.‬ ‫• اﻧﺒﺎرش داده ﻫﺎ‬ ‫وﺟﻮد اﻃﻼﻋﺎت ﺻﺤﻴﺢ و ﻣﻨﺴﺠﻢ ﻳﻜﻲ از ﻣﻠﺰوﻣﺎﺗﻲ اﺳﺖ ﻛﻪ در داده ﻛﺎوي ﺑﻪ‬ ‫آن ﻧﻴﺎزﻣﻨﺪﻳﻢ . اﺷﺘﺒﺎه و ﻋﺪم وﺟﻮد اﻃﻼﻋﺎت ﺻﺤﻴﺢ ﺑﺎﻋﺚ ﻧﺘﻴﺠﻪ ﮔﻴﺮي ﻏﻠﻂ و‬ ‫9 ‪Data Warehousing‬‬
  7. 7. ‫در ﻧﺘﻴﺠﻪ اﺧﺬ ﺗﺼﻤﻴﻤﺎت ﻧﺎﺻﺤﻴﺢ در ﺳﺎزﻣﺎﻧﻬﺎ ﻣﻲ ﮔﺮدد و ﻣﻨﺘﺞ ﺑﻪ ﻧﺘﺎﻳﺞ‬ ‫ﺧﻄﺮﻧﺎﻛﻲ ﺧﻮاﻫﺪ ﮔﺮدﻳﺪ ﻛﻪ ﻧﻤﻮﻧﻪ ﻫﺎي آن ﻛﻢ ﻧﻴﺴﺘﻨﺪ .‬ ‫اﻛﺜﺮ ﺳﺎزﻣﺎﻧﻬﺎ دﭼﺎر ﻳﻚ ﺧﻼ اﻃﻼﻋﺎﺗﻲ01 ﻫﺴﺘﻨﺪ . در اﻳﻨﮕﻮﻧﻪ ﺳﺎزﻣﺎﻧﻬﺎ ﻣﻌﻤﻮﻻ‬ ‫ﺳﻴﺴﺘﻢ ﻫﺎي اﻃﻼﻋﺎﺗﻲ در ﻃﻮل زﻣﺎن و ﺑﺎ ﻣﻌﻤﺎري و ﻣﺪﻳﺮﻳﺖ ﻫﺎي ﮔﻮﻧﺎﮔﻮن‬ ‫ﺳﺎﺧﺘﻪ ﺷﺪه اﻧﺪ ، ﺑﻪ ﻃﻮري ﻛﻪ ﺳﺎزﻣﺎن اﻃﻼﻋﺎﺗﻲ ﻳﻜﭙﺎرﭼﻪ و ﻣﺸﺨﺼﻲ ﻣﺸﺎﻫﺪه‬ ‫ﻧﻤﻲ ﮔﺮدد . ﻋﻼوه ﺑﺮ اﻳﻦ ﺑﺮاي ﻓﺮاﻳﻨﺪ داده ﻛﺎوي ﺑﻪ اﻃﻼﻋﺎت ﺧﻼﺻﻪ و ﻣﻬﻢ در‬ ‫زﻣﻴﻨﻪ ﺗﺼﻤﻴﻢ ﮔﻴﺮﻳﻬﺎي ﺣﻴﺎﺗﻲ ﻧﻴﺎزﻣﻨﺪﻳﻢ .‬ ‫ﻫﺪف از ﻓﺮاﻳﻨﺪ اﻧﺒﺎرش داده ﻫﺎ ﻓﺮاﻫﻢ ﻛﺮدن ﻳﻚ ﻣﺤﻴﻂ ﻳﻜﭙﺎرﭼﻪ ﺟﻬﺖ‬ ‫ﭘﺮدازش اﻃﻼﻋﺎت اﺳﺖ . در اﻳﻦ ﻓﺮاﻳﻨﺪ ، اﻃﻼﻋﺎت ﺗﺤﻠﻴﻠﻲ و ﻣﻮﺟﺰ در دوره‬ ‫ﻫﺎي ﻣﻨﺎﺳﺐ زﻣﺎﻧﻲ ﺳﺎزﻣﺎﻧﺪﻫﻲ و ذﺧﻴﺮه ﻣﻲ ﺷﻮد ﺗﺎ ﺑﺘﻮان از آﻧﻬﺎ در ﻓﺮاﻳﻨﺪ‬ ‫ﻫﺎي ﺗﺼﻤﻴﻢ ﮔﻴﺮي ﻛﻪ از ﻣﻠﺰوﻣﺎت آن داده ﻛﺎوي اﺳﺖ ، اﺳﺘﻔﺎده ﺷﻮد . ﺑﻪ ﻃﻮر‬ ‫ﻛﻠﻲ ﺗﻌﺮﻳﻒ زﻳﺮ ﺑﺮاي اﻧﺒﺎر داده ﻫﺎ اراﺋﻪ ﻣﻲ ﮔﺮدد :‬ ‫اﻧﺒﺎر داده ﻫﺎ ، ﻣﺠﻤﻮﻋﻪ اي اﺳﺖ ﻣﻮﺿﻮﻋﻲ 11 ، ﻣﺠﺘﻤﻊ 21 ، ﻣﺘﻐﻴﺮ در زﻣﺎن31 و‬ ‫ﭘﺎﻳﺪار 41 از داده ﻫﺎ ﻛﻪ ﺑﻪ ﻣﻨﻈﻮر ﭘﺸﺘﻴﺒﺎﻧﻲ از ﻓﺮاﻳﻨﺪ ﻣﺪﻳﺮﻳﺖ ﺗﺼﻤﻴﻢ ﮔﻴﺮي‬ ‫ﻣﻮرد اﺳﺘﻔﺎده ﻗﺮار ﻣﻲ ﮔﻴﺮد .]1[‬ ‫اﻧﺒﺎرش داده ﻫﺎ ﺧﻮد ﻣﻮﺿﻮع ﻣﻔﺼﻠﻲ اﺳﺖ ﻛﻪ ﻣﻘﺎﻟﻪ ﻫﺎ و رﺳﺎﻟﻪ ﻫﺎ ي ﮔﻮﻧﺎﮔﻮﻧﻲ‬ ‫در ﻣﻮرد آن ﻧﮕﺎﺷﺘﻪ ﺷﺪه اﻧﺪ . در اﻳﻦ ﻓﺼﻞ ﺑﻪ ﻣﻨﻈﻮر آﺷﻨﺎﻳﻲ ﺑﺎ اﻳﻦ ﻓﺮاﻳﻨﺪ ﺑﻪ‬ ‫آن اﺷﺎره اي ﺷﺪ .‬ ‫• اﻧﺘﺨﺎب داده ﻫﺎ‬ ‫اﻧﺒﺎر داده ﻫﺎ ﺷﺎﻣﻞ اﻧﻮاع ﻣﺨﺘﻠﻒ و ﮔﻮﻧﺎﮔﻮﻧﻲ از داده ﻫﺎ اﺳﺖ ﻛﻪ ﻫﻤﻪ آﻧﻬﺎ در‬ ‫داده ﻛﺎوي ﻣﻮرد ﻧﻴﺎز ﻧﻴﺴﺘﻨﺪ . ﺑﺮاي ﻓﺮاﻳﻨﺪ داده ﻛﺎوي ﺑﺎﻳﺪ داده ﻫﺎ ي ﻣﻮرد‬ ‫ﻧﻴﺎز اﻧﺘﺨﺎب ﺷﻮﻧﺪ . ﺑﻪ ﻋﻨﻮان ﻣﺜﺎل در ﻳﻚ ﭘﺎﻳﮕﺎه داده ﻫﺎي ﻣﺮﺑﻮط ﺑﻪ ﺳﻴﺴﺘﻢ‬ ‫ﻓﺮوﺷﮕﺎﻫﻲ ، اﻃﻼﻋﺎﺗﻲ در ﻣﻮرد ﺧﺮﻳﺪ ﻣﺸﺘﺮﻳﺎن ، ﺧﺼﻮﺻﻴﺎت آﻣﺎري آﻧﻬﺎ ،‬ ‫01 ‪Information Gap‬‬ ‫11 ‪Subject Oriented‬‬ ‫21 ‪Integrated‬‬ ‫31 ‪Time Variant‬‬ ‫41 ‪NonVolatile‬‬
  8. 8. ‫ﺗﺎﻣﻴﻦ ﻛﻨﻨﺪﮔﺎن ، ﺧﺮﻳﺪ ، ﺣﺴﺎﺑﺪاري و ... وﺟﻮد دارﻧﺪ . ﺑﺮاي ﺗﻌﻴﻴﻦ ﻧﺤﻮه‬ ‫ﭼﻴﺪن ﻗﻔﺴﻪ ﻫﺎ ﺗﻨﻬﺎ ﺑﻪ داده ﻫﺎ ﻳﻲ در ﻣﻮرد ﺧﺮﻳﺪ ﻣﺸﺘﺮﻳﺎن و ﺧﺼﻮﺻﻴﺎت‬ ‫آﻣﺎري آﻧﻬﺎ ﻧﻴﺎز اﺳﺖ . ﺣﺘﻲ در ﻣﻮاردي ﻧﻴﺎز ﺑﻪ ﻛﺎوش در ﺗﻤﺎم ﻣﺤﺘﻮﻳﺎت ﭘﺎﻳﮕﺎه‬ ‫ﻧﻴﺴﺖ ﺑﻠﻜﻪ ﻣﻤﻜﻦ اﺳﺖ ﺑﻪ ﻣﻨﻈﻮر ﻛﺎﻫﺶ ﻫﺰﻳﻨﻪ ﻋﻤﻠﻴﺎت ، ﻧﻤﻮﻧﻪ ﻫﺎﻳﻲ از‬ ‫ﻋﻨﺎﺻﺮ اﻧﺘﺨﺎب و ﻛﺎوش ﺷﻮﻧﺪ .‬ ‫• ﺗﺒﺪﻳﻞ داده ﻫﺎ‬ ‫ﻫﻨﮕﺎﻣﻲ ﻛﻪ داده ﻫﺎي ﻣﻮرد ﻧﻴﺎز اﻧﺘﺨﺎب ﺷﺪﻧﺪ و داده ﻫﺎ ي ﻣﻮرد ﻛﺎوش‬ ‫ﻣﺸﺨﺺ ﮔﺮدﻳﺪﻧﺪ ، ﻣﻌﻤﻼ ﺑﻪ ﺗﺒﺪﻳﻼت ﺧﺎﺻﻲ روي داده ﻫﺎ ﻧﻴﺎز اﺳﺖ . ﻧﻮع‬ ‫ﺗﺒﺪﻳﻞ ﺑﻪ ﻋﻤﻠﻴﺎت و ﺗﻜﻨﻴﻚ داده ﻛﺎوي ﻣﻮرد اﺳﺘﻔﺎده ﺑﺴﺘﮕﻲ دارد : ﺗﺒﺪﻳﻼﺗﻲ‬ ‫ﺳﺎده ﻫﻤﭽﻮن ﺗﺒﺪﻳﻞ ﻧﻮع داده اي ﺑﻪ ﻧﻮع دﻳﮕﺮ ﺗﺎ ﺗﺒﺪﻳﻼت ﭘﻴﭽﻴﺪه ﺗﺮ ﻫﻤﭽﻮن‬ ‫ﺗﻌﺮﻳﻒ ﺻﻔﺎت ﺟﺪﻳﺪ ﺑﺎ اﻧﺠﺎم ﻋﻤﻠﻴﺎﺗﻬﺎي رﻳﺎﺿﻲ و ﻣﻨﻄﻘﻲ روي ﺻﻔﺎت ﻣﻮﺟﻮد .‬ ‫• ﻛﺎوش در داده ﻫﺎ‬ ‫داده ﻫﺎي ﺗﺒﺪﻳﻞ ﺷﺪه ﺑﺎ اﺳﺘﻔﺎده از ﺗﻜﻨﻴﻜﻬﺎ و ﻋﻤﻠﻴﺎﺗﻬﺎي داده ﻛﺎوي ﻣﻮرد‬ ‫ﻛﺎوش ﻗﺮار ﻣﻲ ﮔﻴﺮﻧﺪ ﺗﺎ اﻟﮕﻮﻫﺎي ﻣﻮرد ﻧﻈﺮ ﻛﺸﻒ ﺷﻮﻧﺪ .‬ ‫• ﺗﻔﺴﻴﺮ ﻧﺘﻴﺠﻪ‬ ‫اﻃﻼﻋﺎت اﺳﺘﺨﺮاج ﺷﺪه ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ ﻫﺪف ﻛﺎرﺑﺮ ﺗﺠﺰﻳﻪ و ﺗﺤﻠﻴﻞ و ﺑﻬﺘﺮﻳﻦ ﻧﺘﺎﻳﺞ‬ ‫ﻣﻌﻴﻦ ﻣﻲ ﮔﺮدﻧﺪ . ﻫﺪف از اﻳﻦ ﻣﺮﺣﻠﻪ ﺗﻨﻬﺎ اراﺋﻪ ﻧﺘﻴﺠﻪ )ﺑﺼﻮرت ﻣﻨﻄﻘﻲ و ﻳﺎ‬ ‫ﻧﻤﻮداري( ﻧﻴﺴﺖ ، ﺑﻠﻜﻪ ﭘﺎﻻﻳﺶ اﻃﻼﻋﺎت اراﻳﻪ ﺷﺪه ﺑﻪ ﻛﺎرﺑﺮ ﻧﻴﺰ از اﻫﺪاف ﻣﻬﻢ‬ ‫اﻳﻦ ﻣﺮﺣﻠﻪ اﺳﺖ .‬ ‫ﻋﻤﻠﻴﺎﺗﻬﺎي داده ﻛﺎوي‬ ‫در داده ﻛﺎوي ، ﭼﻬﺎر ﻋﻤﻞ اﺻﻠﻲ اﻧﺠﺎم ﻣﻲ ﺷﻮد ﻛﻪ ﻋﺒﺎرﺗﻨﺪ از ]1[‬ ‫1. ﻣﺪﻟﺴﺎزي ﭘﻴﺸﮕﻮﻳﻲ ﻛﻨﻨﺪه‬ ‫2. ﺗﻘﻄﻴﻊ ﭘﺎﻳﮕﺎه داده ﻫﺎ‬ ‫3. ﺗﺤﻠﻴﻞ ﭘﻴﻮﻧﺪ‬ ‫4. ﺗﺸﺨﻴﺺ اﻧﺤﺮاف‬
  9. 9. ‫از ﻋﻤﻠﻴﺎﺗﻬﺎي اﺻﻠﻲ ﻣﺬﻛﻮر ، ﻳﻚ ﻳﺎ ﺑﻴﺶ از ﻳﻜﻲ از آﻧﻬﺎ در ﭘﻴﺎده ﺳﺎزي ﻛﺎرﺑﺮد‬ ‫ﻫﺎي ﮔﻮﻧﺎﮔﻮن داده ﻛﺎوي اﺳﺘﻔﺎده ﻣﻲ ﺷﻮﻧﺪ . ﺑﻪ ﻋﻨﻮان ﻣﺜﺎل ﺑﺮاي ﻛﺎرﺑﺮد ﻫﺎي‬ ‫ﺧﺮده ﻓﺮوﺷﻲ ﻣﻌﻤﻮﻻ از ﻋﻤﻠﻴﺎت ﺗﻘﻄﻴﻊ و ﺗﺤﻠﻴﻞ ﭘﻴﻮﻧﺪ اﺳﺘﻔﺎده ﻣﻲ ﺷﻮد در‬ ‫ﺣﺎﻟﻲ ﻛﻪ ﺑﺮاي ﺗﺸﺨﻴﺺ ﻛﻼﻫﺒﺮداري ، ﻣﻲ ﺗﻮان از ﻫﺮ ﻳﻚ از ﭼﻬﺎر ﻋﻤﻠﻴﺎت‬ ‫ﻣﺬﻛﻮر اﺳﺘﻔﺎده ﻧﻤﻮد . ﻋﻼوه ﺑﺮا ﻳﻦ ﻣﻲ ﺗﻮان از دﻧﺒﺎﻟﻪ اي از ﻋﻤﻠﻴﺎﺗﻬﺎ ﺑﺮاي ﻳﻚ‬ ‫ﻣﻨﻈﻮر ﺧﺎص اﺳﺘﻔﺎده ﻛﺮد . ﻣﺜﻼ ﺑﺮاي ﺷﻨﺎﺳﺎﻳﻲ ﻣﺸﺘﺮﻳﺎن ، اﺑﺘﺪا ﭘﺎﻳﮕﺎه ﺗﻘﻄﻴﻊ‬ ‫ﻣﻲ ﺷﻮد و ﺳﭙﺲ ﻣﺪﻟﺴﺎزي ﭘﻴﺸﮕﻮﻳﻲ ﻛﻨﻨﺪه در ﻗﻄﻌﺎت اﻳﺠﺎد ﺷﺪه اﻋﻤﺎل ﻣﻲ‬ ‫ﮔﺮدد .‬ ‫ﺗﻜﻨﻴﻜﻬﺎ ، روﺷﻬﺎ و اﻟﮕﻮرﻳﺘﻤﻬﺎي داده ﻛﺎوي ، راﻫﻬﺎي ﭘﻴﺎده ﺳﺎزي ﻋﻤﻠﻴﺎﺗﻬﺎي‬ ‫داده ﻛﺎوي ﻫﺴﺘﻨﺪ . اﮔﺮ ﭼﻪ ﻫﺮ ﻋﻤﻠﻴﺎت ﻧﻘﺎط ﺿﻌﻒ و ﻗﻮت ﺧﻮد را دارد ،‬ ‫اﺑﺰارﻫﺎي ﮔﻮﻧﺎﮔﻮن داده ﻛﺎوي ﻋﻤﻠﻴﺎﺗﻬﺎ را ﺑﺮ اﺳﺎس ﻣﻌﻴﺎرﻫﺎي ﺧﺎﺻﻲ ، اﻧﺘﺨﺎب‬ ‫ﻣﻲ ﻛﻨﻨﺪ . اﻳﻦ ﻣﻌﻴﺎرﻫﺎ ﻋﺒﺎرﺗﻨﺪ از :‬ ‫• ﺗﻨﺎﺳﺐ ﺑﺎ ﻧﻮع داده ﻫﺎي ورودي‬ ‫• ﺷﻔﺎﻓﻴﺖ ﺧﺮوﺟﻲ داده ﻛﺎوي‬ ‫• ﻣﻘﺎوﻣﺖ در ﻣﻘﺎﺑﻞ اﺷﺘﺒﺎه در ﻣﻘﺎدﻳﺮ داده ﻫﺎ‬ ‫• ﻣﻴﺰان ﺻﺤﺖ ﺧﺮوﺟﻲ‬ ‫• ﺗﻮاﻧﺎﻳﻲ ﻛﺎر ﻛﺮدن ﺑﺎ ﺣﺠﻢ ﺑﺎﻻي داده ﻫﺎ‬ ‫در ﺟﺪول زﻳﺮﺗﻜﻨﻴﻜﻬﺎي واﺑﺴﺘﻪ ﺑﻪ ﻫﺮ ﻳﻚ از ﻋﻤﻠﻴﺎﺗﻬﺎي ﭼﻬﺎر ﮔﺎﻧﻪ ﻣﺸﺨﺺ‬ ‫ﺷﺪه اﻧﺪ‬
  10. 10. ‫ﺗﻜﻨﻴﻚ ﻫﺎي داده ﻛﺎوي‬ ‫ﻧﺎم ﻋﻤﻠﻴﺎت‬ ‫رده ﺑﻨﺪي ، ﭘﻴﺸﮕﻮﻳﻲ ﻣﻘﺪار‬ ‫ﻣﺪﻟﺴﺎزي ﭘﻴﺸﮕﻮﻳﻲ ﻛﻨﻨﺪه‬ ‫ﺧﻮﺷﻪ ﺑﻨﺪي آﻣﺎري ، ﺧﻮﺷﻪ ﺑﻨﺪي‬ ‫ﺗﻘﻄﻴﻊ ﭘﺎﻳﮕﺎه داده ﻫﺎ‬ ‫ﻛﺸﻒ ﺑﺴﺘﮕﻲ ، ﻛﺸﻒ اﻟﮕﻮﻫﺎي ﻣﺘﻮاﻟﻲ‬ ‫ﺗﺤﻠﻴﻞ ﭘﻴﻮﻧﺪ‬ ‫، ﻛﺸﻒ دﻧﺒﺎﻟﻪ ﻫﺎي زﻣﺎﻧﻲ ﻣﺸﺎﺑﻪ‬ ‫آﻣﺎر ، ﺗﺠﺴﻢ ﻣﺪل‬ ‫ﺗﺸﺨﻴﺺ اﻧﺤﺮاف‬ ‫ﻋﻤﻠﻴﺎﺗﻬﺎ و ﺗﻜﻨﻴﻜﻬﺎي داده ﻛﺎوي‬ ‫ﻣﺪﻟﺴﺎزي ﭘﻴﺸﮕﻮﻳﻲ ﻛﻨﻨﺪه‬ ‫ﻣﺪﻟﺴﺎزي ﭘﻴﺸﮕﻮﻳﻲ ﻛﻨﻨﺪه ، ﺷﺒﻴﻪ ﺗﺠﺮﺑﻪ ﻳﺎدﮔﻴﺮي اﻧﺴﺎن در ﺑﻪ ﻛﺎر ﺑﺮدن‬ ‫ﻣﺸﺎﻫﺪات ﺑﺮاي اﻳﺠﺎد ﻳﻚ ﻣﺪل از ﺧﺼﻮﺻﻴﺎت ﻣﻬﻢ ﭘﺪﻳﺪه ﻫﺎ اﺳﺖ . در اﻳﻦ‬ ‫روش از ﺗﻌﻤﻴﻢ دﻧﻴﺎي واﻗﻌﻲ و ﺗﻌﻤﻴﻢ دﻧﻴﺎي واﻗﻌﻲ و ﻗﺎﺑﻠﻴﺖ ﺗﻄﺒﻴﻖ داده ﻫﺎي‬ ‫ﺟﺪﻳﺪ ﺑﺎ ﻳﻚ ﻗﺎﻟﺐ ﻛﻠﻲ ، اﺳﺘﻔﺎده ﻣﻲ ﺷﻮد .‬ ‫در اﻳﻦ ﻣﺪل ، ﻣﻲ ﺗﻮان ﺑﺎ ﺗﺤﻠﻴﻞ ﻳﻚ ﭘﺎﻳﮕﺎه داده ﻫﺎي ﻣﻮﺟﻮد ، ﺧﺼﻮﺻﻴﺎت‬ ‫ﻣﺠﻤﻮﻋﻪ ﻫﺎي داده را ﺗﻌﻴﻴﻦ ﻛﺮد . اﻳﻦ ﻣﺪل ﺑﺎ اﺳﺘﻔﺎده از روش ﻳﺎدﮔﻴﺮي‬ ‫ﻧﻈﺎرت ﺷﺪه، ﺷﺎﻣﻞ دو ﻓﺎز آﻣﻮزش و آزﻣﺎﻳﺶ اﻳﺠﺎد ﺷﺪه اﺳﺖ . در ﻓﺎز آﻣﻮزش‬ ‫ﺑﺎ اﺳﺘﻔﺎده از ﻧﻤﻮﻧﻪ ﻫﺎي ﻋﻈﻴﻤﻲ از داده ﻫﺎي ﺳﺎﺑﻘﻪ اي ، ﻣﺪﻟﻲ ﺳﺎﺧﺘﻪ ﻣﻲ‬ ‫ﺷﻮد ﻛﻪ ﻛﻪ ﺑﻪ آن ﻣﺠﻤﻮﻋﻪ آﻣﻮزﺷﻲ ﮔﻮ ﻳﻨﺪ . در ﻓﺎز آزﻣﺎﻳﺶ اﻳﻦ ﻣﺪل روي‬ ‫داده ﻫﺎﻳﻲ ﻛﻪ در ﻣﺠﻤﻮﻋﻪ آﻣﻮزﺷﻲ ﻗﺮار ﻧﺪارﻧﺪ ، اﻋﻤﺎل ﻣﻲ ﺷﻮد ﺗﺎ ﺻﺤﺖ و‬ ‫ﺧﺼﻮ ﺻﻴﺎت آن ﺗﺎﻳﻴﺪ ﮔﺮدد .‬ ‫از ﻛﺎرﺑﺮدﻫﺎي ﻋﻤﺪه اﻳﻦ ﻣﺪل ﻣﻲ ﺗﻮان ﺑﻪ ﻣﺪﻳﺮﻳﺖ ﻣﺸﺘﺮﻳﺎن ، ﺗﺼﻮﻳﺐ اﻋﺘﺒﺎر ،‬ ‫ﺑﺎزارﻳﺎﺑﻲ ﻣﺴﺘﻘﻴﻢ در ﺧﺮده ﻓﺮوﺷﻲ و ... اﺷﺎره ﻛﺮد .‬ ‫ﺗﻘﻄﻴﻊ ﭘﺎﻳﮕﺎه داده ﻫﺎ‬ ‫ﻫﺪف از ﺗﻘﻄﻴﻊ ﭘﺎﻳﮕﺎه داده ﻫﺎ ، ﺗﻘﺴﻴﻢ آن ﺑﻪ ﺗﻌﺪاد ﻧﺎﻣﻌﻴﻨﻲ از ﻗﻄﻌﺎت ﻳﺎ‬ ‫ﺧﻮﺷﻪ ﻫﺎﻳﻲ 51 از رﻛﻮردﻫﺎي ﻣﺸﺎﺑﻪ اﺳﺖ ، ﻳﻌﻨﻲ رﻛﻮردﻫﺎﻳﻲ ﻛﻪ ﺧﺼﻮﺻﻴﺎﺗﻲ‬ ‫51 ‪Clusters‬‬
  11. 11. ‫ﻣﺸﺎﺑﻪ دارﻧﺪ و ﻣﻲ ﺗﻮان آﻧﻬﺎ را ﻫﻤﮕﻦ ﻓﺮض ﻛﺮد . ﭘﻴﻮﺳﺘﮕﻲ داﺧﻠﻲ اﻳﻦ‬ ‫ﻗﻄﻌﺎت ﺑﺴﻴﺎر زﻳﺎد اﺳﺖ در ﺣﺎﻟﻲ ﻛﻪ ﻫﻤﺒﺴﺘﮕﻲ ﺧﺎرﺟﻲ ﻣﻴﺎن آﻧﻬﺎ ﻛﻢ ﻣﻲ‬ ‫ﺑﺎﺷﺪ .‬ ‫در اﻳﻦ ﻣﺪل ﺑﺮ ﺧﻼف ﻣﺪل ﻗﺒﻞ ، از ﻳﺎدﮔﻴﺮي ﻧﻈﺎرت ﻧﺸﺪه ﺑﺮاي ﺗﻌﻴﻴﻦ‬ ‫زﻳﺮﺷﺎﺧﻪ ﻫﺎي ﻣﻤﻜﻦ از ﺟﻤﻌﻴﺖ داده اي اﺳﺘﻔﺎده ﻣﻲ ﺷﻮد . دﻗﺖ ﺗﻘﻄﻴﻊ‬ ‫ﭘﺎﻳﮕﺎه داده ﻫﺎ از روﺷﻬﺎي دﻳﮕﺮ ﻛﻤﺘﺮ اﺳﺖ ، ﺑﻨﺎﺑﺮاﻳﻦ در ﻣﻘﺎﺑﻞ ﺧﺼﻮﺻﻴﺎت‬ ‫ﻧﺎﻣﺮﺑﻮط و اﻓﺰوﻧﮕﻲ ، ﺣﺴﺎﺳﻴﺖ ﻛﻤﺘﺮي از ﺧﻮد ﻧﺸﺎن ﻣﻲ دﻫﺪ .‬ ‫از ﻛﺎرﺑﺮدﻫﺎي اﻳﻦ روش ﻣﻲ ﺗﻮان ﺑﻪ ﺷﻨﺎﺳﺎﻳﻲ ﻣﺸﺘﺮﻳﺎن ، ﺑﺎزارﻳﺎﺑﻲ ﻣﺴﺘﻘﻴﻢ و ...‬ ‫اﺷﺎره ﻛﺮد . در ﺷﻜﻞ 4-1 ﻣﺜﺎﻟﻲ از ﺗﻘﻄﻴﻊ ﭘﺎﻳﮕﺎه داده ﻫﺎ دﻳﺪه ﻣﻲ ﺷﻮد . ]1[‬ ‫در اﻳﻦ ﻣﺜﺎل ، ﭘﺎﻳﮕﺎه داده ﻫﺎ ﺷﺎﻣﻞ 002 ﻣﺸﺎﻫﺪه اﺳﺖ ﻛﻪ در آن 001‬ ‫اﺳﻜﻨﺎس ﺗﻘﻠﺒﻲ و 001 اﺳﻜﻨﺎس واﻗﻌﻲ ﻫﺴﺘﻨﺪ . داده ﻫﺎ داراي ﺷﺶ ﺑﻌﺪ ﻣﻲ‬ ‫ﺑﺎﺷﻨﺪ ﻛﻪ ﻫﺮ ﺑﻌﺪ ﻣﺮﺑﻮط ﺑﻪ ﻳﻚ ﻣﻌﻴﺎر از اﻧﺪازه اﺳﻜﻨﺎس ﻫﺎ اﺳﺖ . ﺑﺎ اﺳﺘﻔﺎده از‬ ‫ﺗﻘﻄﻴﻊ ﭘﺎﻳﮕﺎه داده ﻫﺎ ﻣﻲ ﺗﻮان ﺧﻮﺷﻪ ﻫﺎي ﻣﺘﻨﺎﻇﺮ ﺑﺎ اﺳﻜﻨﺎﺳﻬﺎي ﻣﻌﺘﺒﺮ و‬ ‫ﺗﻘﻠﺒﻲ را ﺗﺸﺨﻴﺺ داد . دو ﺧﻮﺷﻪ از اﺳﻜﻨﺎﺳﻬﺎي ﺗﻘﻠﺒﻲ وﺟﻮد دارﻧﺪ و اﻳﻦ ﺑﺪان‬ ‫ﻣﻌﻨﻲ اﺳﺖ ﻛﻪ ﺣﺪاﻗﻞ دو ﮔﺮوه ﻣﺒﺎدرت ﺑﻪ ﺗﻮﻟﻴﺪ و ﭼﺎپ اﺳﻜﻨﺎﺳﻬﺎي ﺗﻘﻠﺒﻲ‬ ‫ﻣﻲ ﻛﻨﻨﺪ .‬ ‫ﺗﻘﻄﻴﻊ ﭘﺎﻳﮕﺎه داده ﻫﺎ ﺑﺎ آﻣﺎرﮔﻴﺮي ﻣﺮﺗﺒﻂ اﺳﺖ ﻛﻪ در ان از ﻓﺎﺻﻠﻪ ﻣﻴﺎن‬ ‫رﻛﻮردﻫﺎ و درﺻﺪ ﻗﺮار ﮔﺮﻓﺘﻦ داده ﻫﺎي ورودي در ﺧﻮﺷﻪ ﻫﺎ ، ﺟﻬﺖ ﺗﺠﺰﻳﻪ و‬ ‫ﺗﺤﻠﻴﻞ اﺳﺘﻔﺎده ﻣﻲ ﺷﻮد .‬ ‫ﺗﺤﻠﻴﻞ ﭘﻴﻮﻧﺪ‬ ‫در اﻳﻦ روش ﭘﻴﻮﻧﺪ ﻫﺎﻳﻲ ﻣﺮﺳﻮم ﺑﻪ ﺑﺴﺘﮕﻲ 61 ﻣﻴﺎن رﻛﻮردﻫﺎ و ﻳﺎ ﻣﺠﻤﻮﻋﻪ اي‬ ‫از رﻛﻮردﻫﺎ ﺑﺎزﺷﻨﺎﺳﻲ ﻣﻲ ﺷﻮﻧﺪ . ﺳﻪ رده وﻳﮋه از ﺗﺤﻠﻴﻞ ﭘﻴﻮﻧﺪ وﺟﻮد دارﻧﺪ ﻛﻪ‬ ‫ﻋﺒﺎرﺗﻨﺪ از :‬ ‫71‬ ‫1. ﻛﺸﻒ ﺑﺴﺘﮕﻲ‬ ‫61 ‪Association‬‬ ‫71 ‪Association Discovery‬‬
  12. 12. 18 ‫2. ﻛﺸﻒ اﻟﮕﻮﻫﺎي ﻣﺘﻮاﻟﻲ‬ 19 ‫3. ﻛﺸﻒ دﻧﺒﺎﻟﻪ ﻫﺎي زﻣﺎﻧﻲ ﻣﺸﺎﺑﻪ‬ Sequential Pattern Discovery 18 Similar time Sequences 19
  13. 13. ‫ﺑﺮاي ﻗﻮاﻧﻴﻦ واﺑﺴﺘﮕﻲ دو ﭘﺎراﻣﺘﺮ ﻣﻌﺮﻓﻲ ﻣﻲ ﮔﺮدﻧﺪ :‬ ‫1. درﺟﻪ ﭘﺸﺘﻴﺒﺎﻧﻲ 02 : ﻛﺴﺮي از ﺟﻤﻌﻴﺖ اﺳﺖ ﻛﻪ در ﻳﻚ ﻗﺎﻋﺪه ، ﻫﻢ‬ ‫ﻣﻘﺪم و ﻫﻢ ﺗﺎﻟﻲ را دارﻧﺪ . در واﻗﻊ درﺻﺪي از ﺗﺮاﻛﻨﺸﻬﺎ ﻛﻪ ﺷﺎﻣﻞ ﻫﻤﻪ‬ ‫اﻗﻼم ﻇﺎﻫﺮ ﺷﺪه در ﻣﻘﺪم و ﺗﺎﻟﻲ ﺑﺎﺷﻨﺪ . ﻓﺮض ﻛﻨﻴﻢ ﻛﻪ ﺗﻨﻬﺎ در‬ ‫1000/ . % از ﺗﺮاﻛﻨﺸﻬﺎي ﺧﺮﻳﺪ ، ﺷﻴﺮ و ﭘﻴﭻ ﮔﻮﺷﺘﻲ ﺑﺎ ﻫﻢ ﺑﺎﺷﻨﺪ ،‬ ‫ﺑﻨﺎﺑﺮاﻳﻦ درﺟﻪ ﭘﺸﺘﻴﺒﺎﻧﻲ ﺑﺮاي ﻗﺎﻧﻮن quot; ﭘﻴﭻ ﮔﻮﺷﺘﻲ → ﺷﻴﺮ quot; ﺑﺴﻴﺎر‬ ‫ﭘﺎﻳﻴﻦ اﺳﺖ . اﻳﻦ ﻣﺴﺎﻟﻪ ﻧﺸﺎن ﻣﻲ دﻫﺪ ﻛﻪ ﻣﺪرﻛﻲ ﺑﺮاي اﺛﺒﺎت راﺑﻄﻪ‬ ‫ﻣﻴﺎن quot; ﺷﻴﺮ quot; و quot; ﭘﻴﭻ ﮔﻮﺷﺘﻲ quot; وﺟﻮد ﻧﺪارد .‬ ‫2. درﺟﻪ اﻃﻤﻴﻨﺎن 12 : در ﻳﻚ ﺟﻤﻌﻴﺖ ﻣﻮرد ﺑﺮرﺳﻲ ، ﻛﺴﺮي از ﻣﻮارد‬ ‫اﺳﺖ ﻛﻪ وﻗﺘﻲ ﻣﻘﺪم ﻗﺎﻋﺪه در آﻧﻬﺎ ﻇﺎﻫﺮ ﺷﺪه اﺳﺖ ، ﺗﺎﻟﻲ ﻧﻴﺰ در آﻧﻬﺎ‬ ‫وﺟﻮد دارد . ﺑﻪ ﻋﻨﻮان ﻣﺜﺎل در ﻗﺎﻧﻮن quot; ﭘﻨﻴﺮ → ﻧﺎن quot; اﮔﺮ درﺟﻪ‬ ‫اﻃﻤﻴﻨﺎن ﺑﺮاﺑﺮ 08% ﺗﺮاﻛﻨﺸﻬﺎي ﺧﺮﻳﺪ ، اﮔﺮ ﻧﺎن وﺟﻮد داﺷﺘﻪ ﺑﺎﺷﺪ ،‬ ‫ﭘﻨﻴﺮ ﻧﻴﺰ وﺟﻮد دارد . ﺑﺎﻳﺪ ﺗﻮﺟﻪ داﺷﺖ ﻛﻪ ﻣﻘﺪار درﺟﻪ اﻃﻤﻴﻨﺎن ﺑﺎ‬ ‫ﺗﻌﻮﻳﺾ ﻣﻘﺪم و ﺗﺎﻟﻲ در ﻗﺎﻋﺪه ، ﻣﻤﻜﻦ اﺳﺖ ﺑﻪ ﺷﺪت ﺗﻐﻴﻴﺮ ﻛﻨﺪ .‬ ‫داﻣﻨﻪ اﻧﺪازه ﭘﺎﻳﮕﺎه ﻫﺎي داده اﻣﺮوزه ﺑﻪ ﺗﺮا ﺑﺎﻳﺖ رﺳﻴﺪه اﺳﺖ اﻳﻦ ﭘﺎﻳﮕﺎه داده ﺑﻪ‬ ‫ﻫﻤﺮاه اﻃﻼﻋﺎت ﻓﺮاواﻧﻲ ﻛﻪ ﺑﻪ ﺻﻮرت ﻧﺎﺷﻨﺎﺧﺘﻪ در آن ﺗﻌﺒﻴﻪ ﮔﺮدﻳﺪه ﻣﻲ ﺑﺎﻳﺸﺪ‬ ‫ﻣﺴﺎﻟﻪ اﻳﻦ اﺳﺖ ﻛﻪ ﭼﮕﻮﻧﻪ ﻣﻲ ﺗﻮان از ﻣﻴﺎن اﻳﻦ ﺟﻨﮕﻞ ﻋﻈﻴﻢ اﻃﻼﻋﺎﺗﻲ ﺑﻪ‬ ‫ﻫﻤﺮاه درﺧﺘﻬﺎي ﭘﻴﭽﻴﺪه آن اﻃﻼﻋﺎﺗﻲ را اﺳﺘﻨﺘﺎج ﻧﻤﻮد؟ﺑﺎ اﺳﺘﻔﺎده از داده‬ ‫ﻛﺎوي ﻣﻲ ﺗﻮان اﻳﻦ ﻫﺰﻳﻨﻪ را ﻛﻢ ﻧﻤﻮد و در ﻋﻮض ﺑﺎزدﻫﻲ ﺑﻴﺸﺘﺮي ﺑﺪﺳﺖ‬ ‫آورد.در ﺣﺎل ﺣﺎﺿﺮ ﺷﺮﻛﺘﻬﺎي ﺑﻲ ﺷﻤﺎري ﺳﻌﻲ دارﻧﺪ ﺑﺎ اﺳﺘﻔﺎده از اﻳﻦ روش‬ ‫ﺑﻪ ﻣﺸﺘﺮﻳﺎن ﺧﻮد ﭘﻴﺸﻨﻬﺎدات ﺑﻬﺘﺮي ﺑﺮاي ﺧﺮﻳﺪ اراﺋﻪ دﻫﻨﺪ ﺗﺎ ﻓﺮوش آﻧﻬﺎ ﺑﺎﻻﺗﺮ‬ ‫رﻓﺘﻪ و در ﻋﻮض ﺿﺮر و زﻳﺎن ﻣﻮﺟﻮد از اﻳﻦ ﻃﺮﻳﻖ ﻛﻤﻴﻨﻪ ﮔﺮدد.‬ ‫02 ‪Support‬‬ ‫12 ‪Confidence‬‬
  14. 14. ‫داده ﻛﺎوي ﻓﺮآﻳﻨﺪي اﺳﺖ ﻛﻪ ﻃﻲ آن ﺑﺎ اﺳﺘﻔﺎده از اﻧﻮاع ﻣﺨﺘﻠﻒ اﺑﺰار ﺗﺤﻠﻴﻞ‬ ‫داده ﺑﻪ دﻧﺒﺎل ﻛﺸﻒ اﻟﮕﻮﻫﺎ و ارﺗﺒﺎﻃﺎت ﻣﻴﺎن داده ﻫﺎي ﻣﻮﺟﻮد ﻛﻪ ﻣﻤﻜﻦ اﺳﺖ‬ ‫ﻣﻨﺠﺮ ﺑﻪ اﺳﺘﺨﺮاج اﻃﻼﻋﺎت ﺟﺪﻳﺪي از ﭘﺎﻳﮕﺎه داده ﮔﺮدﻧﺪ ﻣﻲ ﺑﺎﺷﺪ.‬ ‫اوﻟﻴﻦ وﺳﺎده ﺗﺮﻳﻦ ﮔﺎم ﺗﺤﻠﻴﻞ داده در داده ﻛﺎوي ﺗﻮﺿﻴﺢ و ﺷﺮح ﻣﺸﺨﺺ داده‬ ‫)از ﺟﻤﻠﻪ ﻣﻌﻨﻲ داده واﻧﺤﺮاف اﺳﺘﺎﻧﺪارد ﻛﻠﻤﻪ(ﻣﻲ ﺑﺎﺷﺪ ﻛﻪ اﻳﻦ ﻛﺎر ﻣﻲ ﺗﻮاﻧﺪ ﺑﻪ‬ ‫وﺳﻴﻠﻪ ﻧﻤﺪارﻫﺎ و ﮔﺮاف ﻫﺎﻳﻴﻮﻫﻤﭽﻨﻴﻦ ﻛﻠﻤﺎﺗﻲ ﻛﻪ ﺑﺎ اﻳﻦ ﻛﻠﻤﻪ ارﺗﺒﺎط ﻣﻌﻨﺎﻳﻲ‬ ‫ﻧﺰدﻳﻜﻲ دارﻧﺪ اﻧﺠﺎم ﮔﺮدد در ﻧﻴﺠﻪ ﺟﻤﻊ آوري ﺟﺴﺘﺠﻮ و اﻧﺘﺨﺎب داده درﺳﺖ‬ ‫در اﻳﻦ ﺑﺨﺶ ﺑﺴﻴﺎر ﻣﻬﻢ و ﺣﻴﺎﺗﻲ ﻣﻲ ﺑﺎﺷﺪ.‬ ‫اﻣﺎ اﻳﻦ ﻛﺎر ﺑﻪ ﺗﻨﻬﺎﻳﻲ ﻛﺎر ﺧﺎﺻﻲ اﻧﺠﺎم ﻧﻤﻲ دﻫﺪ ﺷﻤﺎ ﺑﺎﻳﺪ ﻳﻚ ﻣﺪل ﭘﻴﺶ‬ ‫ﺑﻴﻨﻲ ﻛﻨﻨﺪه ﺑﺮ اﺳﺎس اﻟﮕﻬﺎﻳﻲ ﻛﻪ از ﻧﺘﺎﻳﺞ داﻧﺶ ﺑﻪ دﺳﺖ آورده ﺷﺪه ﺑﺴﺎزﻳﺪ‬ ‫ﺳﭙﺲ آزﻣﺎﻳﺶ ﻛﻨﻴﺪ ﻛﻪ آﻳﺎ ان ﻣﺪل ﺑﺎ ﻧﻤﻮﻧﻪ اﺻﻠﻲ ﺳﺎزﮔﺎر اﺳﺖ ﻳﻚ ﻣﺪل‬ ‫ﺧﻮب ﻧﺒﺎﻳﺪ ﺑﺎ ﺟﻬﺎن واﻗﻊ ﺗﻔﺎوت ﭼﻨﺪاﻧﻲ داﺷﺘﻪ ﺑﺎﺷﺪ.]1[‬ ‫آﺧﺮﻳﻦ ﮔﺎم ﻧﻴﺰ ﺗﺸﺨﻴﺺ ﺻﺤﺖ وﺳﻘﻢ ﻋﻤﻠﻜﺮد ﻣﺪل ﺑﺼﻮرت ﺗﺠﺮﺑﻲ ﻣﻲ‬ ‫ﺑﺎﺷﺪم.ﺑﺮاي ﻣﺜﺎل از ﻳﻚ ﺑﺎﻧﻚ ﻣﺮﺑﻮط ﺑﻪ ﻣﺸﺘﺮﻳﺎن وﭘﺎﺳﺦ ﻫﺎﻳﻲ ﻛﻪ ﺑﻪ ﻳﻚ‬ ‫ﭘﻴﺸﻨﻬﺎد ﺧﺎص داده اﻧﺪ ﻳﻚ ﻣﺪل ﻣﻲ ﺳﺎزﻳﺪ ﻛﻪ ﺑﺮ اﺳﺎس آن ﻣﺸﺨﺺ ﻣﻲ‬ ‫ﺷﻮد ﻛﻪ ﻛﺪام ﺣﺪس واﻧﺘﻈﺎر ﺑﻴﺸﺘﺮﻳﻦ ﻧﺰدﻳﻜﻲ را ﺑﺎ ﻳﻚ ﭘﻴﺸﻨﻬﺎد ﻣﺎﻧﻨﺪ‬ ‫ﭘﻴﺸﻨﻬﺎد ﻗﺒﻠﻲ دارد و اﻳﻨﻜﻪ آﻳﺎ ﺷﻤﺎ ﻣﻲ ﺗﻮاﻧﻴﺪ ﺑﺮ اﻳﻦ ﺣﺪس اﻋﺘﻤﺎد ﻛﻨﻴﺪ ﻳﺎ‬ ‫ﻧﻪ؟‬ ‫ﻗﺎﺑﻠﻴﺘﻬﺎي ‪: DataMining‬‬ ‫ﺑﺎﻳﺪ ﺗﻮﺟﻪ داﺷﺘﻪ ﺑﺎﺷﻴﺪ ﻛﻪ داده ﻛﺎوي ﻳﻚ اﺑﺰار ﺟﺎدوﻳﻲ ﻧﻴﺴﺖ ﻛﻪ ﺑﺘﻮاﻧﺪ در‬ ‫ﭘﺎﻳﮕﺎه داده ﺷﻤﺎ ﺑﻪ دﻧﺒﺎل اﻟﮕﻮﻫﺎي ﺟﺎﻟﺐ ﺑﮕﺮدد و اﮔﺮ ﺑﻪ اﻟﮕﻮﻳﻲ ﺟﺪﻳﺪي‬ ‫ﺑﺮﺧﻮرد ﻛﺮد آن را ﺑﻪ ﺷﻤﺎ اﻋﻼم ﻛﻨﺪ ﺑﻠﻜﻪ ﺻﺮﻓﺎ اﻟﮕﻮﻫﺎ و رواﺑﻂ ﺑﻴﻦ داده ﻫﺎ را‬ ‫ﺑﻪ ﺷﻤﺎ اﻋﻼم ﻣﻲ ﻛﻨﺪ ﺑﺪون ﺗﻮﺟﻪ ﺑﻪ ارزش آﻧﻬﺎ. ﺑﻨﺎﺑﺮاﻳﻦ اﻟﮕﻮﻫﺎﻳﻲ ﻛﻪ ﺑﻪ اﻳﻦ‬ ‫وﺳﻴﻠﻪ ﻛﺸﻒ ﻣﻲ ﺷﻮﻧﺪ ﺑﺎﻳﺪ ﺑﺎ ﺟﻬﺎن واﻗﻊ ﺗﻄﺎﺑﻖ داﺷﺘﻪ ﺑﺎﺷﻨﺪ. ﺑﻪ ﻋﻨﻮان ﻣﺜﺎل‬ ‫داده ﻛﺎوي ﻣﻲ ﺗﻮاﻧﺪ ﺑﺎ ﺗﻌﻴﻴﻦ ﻧﺮخ در آﻣﺪﻫﺎﻳﻲ ﻛﻪ ﺑﻄﻮر ﻣﺜﺎل ﺑﻴﻦ $000/05‬ ‫و $000/56 اﺳﺖ ﻛﻪ ﺑﺮاي ﺧﺮﻳﺪ روزﻧﺎﻣﻪ ﺧﺎﺻﻲ در ﻣﻴﺎن ﻓﺮوﺷﻨﺪﮔﺎن اﺳﺖ‬
  15. 15. ‫ﺗﻌﻴﻴﻦ ﻛﻨﺪ ﻛﻪ اﻛﺜﺮ ﻛﺎﻻﻫﺎي ﻣﻮرد ﻧﻴﺎز ﻣﺮدم ﭼﻪ رﻧﺠﻲ از ﻗﻴﻤﺖ ﺑﻮده وﻛﺪام ﻫﺎ‬ ‫ﻫﺴﺘﻨﺪ؟‬ ‫ﺑﻪ اﻳﻦ ﺗﺮﺗﻴﺐ ﺷﻤﺎ ﻣﻲ ﺗﻮاﻧﻴﺪ از ﻫﺪف ﺧﺮﻳﺪ ﻣﺮدم ﺑﺪون اﻳﻨﻜﻪ ﻓﺎﻛﺘﻮرﻫﺎﻳﻲ‬ ‫ﺑﺮاي ﺧﺮﻳﺪ ﻛﺎﻻﻫﺎي ﺧﻮد در ﻧﻈﺮ ﺑﮕﻴﺮﻳﺪ ﻣﻄﻠﻊ ﺷﻮﻳﺪ؟‬ ‫ﺑﺮاي ﺗﻀﻤﻴﻦ ﺑﺪﺳﺖ آﻣﺪن ﻧﺘﺎﻳﺞ ﺑﺎ ﻣﻌﻨﻲ ﻻزم اﺳﺖ ﻛﻪ ﺷﻤﺎ ﺑﺘﻮاﻧﻴﺪ داده ﻫﺎي‬ ‫ﺧﻮد را ﺗﺤﻠﻴﻞ ﻛﻨﻴﺪ ﻛﻴﻔﻴﺖ ﺧﺮوﺟﻲ ﺷﻤﺎ ﺑﻪ اﻃﻼﻋﺎت ﺧﺎرج از ﭘﺎﻳﮕﺎه داده ) ﺑﻪ‬ ‫ﻋﻨﻮان ﻣﺜﺎل داده اي ﺑﺎارزﺷﻲ ﻛﻪ ﻣﺘﻔﺎوت از داده ﻫﺎي ﻧﻮﻋﻲ در ﭘﺎﻳﮕﺎه داده‬ ‫ﺷﻤﺎﺳﺖ( ﺳﺘﻮﻧﻬﺎي ﻇﺎﻫﺮا ﺑﻲ ارﺗﺒﺎط ﻳﺎ ﺑﺎ ارﺗﺒﺎط ﻧﺰدﻳﻚ ﺑﻪ ﺑﻘﻴﻪ ﭘﺎﻳﮕﺎه‬ ‫داده)ﻣﺎﻧﻨﺪ ﺗﺎرﻳﺦ ﺗﻮﻟﻴﺪ ﻳﺎ اﻧﻘﻀﺎي ﻛﺎﻻ( ﺑﺴﺘﮕﻲ ﻧﺰدﻳﻜﻲ دارﻧﺪ .اﻟﮕﻮرﻳﺘﻢ ﺑﺮ‬ ‫اﺳﺎس ﺣﺴﺎﺳﻴﺘﺸﺎن ﺑﻪ داده ﻫﺎ روﺷﻬﺎي ﻣﺘﻔﺎوﺗﻲ دارﻧﺪ. اﻣﺎ ﻏﻴﺮ ﻋﺎﻗﻼﻧﻪ اﺳﺖ‬ ‫ﻛﻪ ﺑﻪ ﻣﺤﺼﻮل داده ﻛﺎوي ﺻﺮﻓﺎ ﺑﻪ ﺑﺮاي ﺗﻤﺎم ﺗﺼﻤﻴﻢ ﮔﻴﺮي ﻫﺎﻳﻤﺎن ﺗﻜﻴﻪ‬ ‫ﻛﻨﻴﻢ.‬ ‫داده ﻛﺎوي ﺑﻄﻮر اﺗﻮﻣﺎﺗﻴﻚ و ﺑﺪون رﻫﻨﻤﺎﻳﻲ ﻗﺎدر ﺑﻪ ﻛﺸﻒ راه ﺣﻞ ﻫﺎ ﻧﻴﺴﺖ.‬ ‫ﺷﻤﺎ ﺗﺮﺟﻴﺤﺎ ﺑﻪ ﺟﺎي ﺑﻴﺎن ﻳﻚ ﻫﺪف ﻣﺒﻬﻢ ﻣﺎﻧﻨﺪ quot;ﻛﻤﻚ ﺑﻪ ارﺗﻘﺎي ﭘﺎﺳﺦ دﻫﻲ‬ ‫ﺑﻪ در ﺧﻮاﺳﺖ ﻫﺎ ‪ mail‬ﻣﻦ quot; ﺷﻤﺎ ﺑﺎﻳﺪ از داده ﻛﺎوي ﺑﺮاي ﻳﺎﻓﺘﻦ ﺧﺼﻴﺼﻪ‬ ‫ﻫﺎي اﻓﺮادي ﻛﻪ‬ ‫)1(: ﺑﻪ درﺧﻮاﺳﺖ ﻫﺎي ﺷﻤﺎ ﭘﺎﺳﺦ ﻣﻲ دﻫﻨﺪ‬ ‫)2(: ﺑﻪ درﺧﻮاﺳﺖ ﻫﺎي ﺷﻤﺎ ﭘﺎﺳﺦ داده و ﺧﺮﻳﺪ زﻳﺎدي ﻣﻲ ﻛﻨﻨﺪ‬ ‫اﺳﺘﻔﺎده ﻛﻨﻴﺪ. اﻟﮕﻮ ﻫﺎﻳﻲ ﻛﻪ داده ﻛﺎوي ﺑﺮاي ﻳﺎﻓﺘﻦ ﺑﻪ اﻳﻦ دو ﻫﺪف اﺳﺘﻔﺎده‬ ‫ﻣﻲ ﻛﻨﻨﺪ ﻣﺘﻔﺎوت اﺳﺖ.‬ ‫اﮔﺮ ﭼﻪ ﻳﻚ اﺑﺰار ﺧﻮب ﺑﺮاي داده ﻛﺎوي ﺷﻤﺎ را از ﭘﻴﭽﻴﺪﮔﻲ ﻫﺎي ﺗﻜﻨﻴﻜﻬﺎي‬ ‫آﻣﺎري راﺣﺖ ﻣﻲ ﺳﺎزد اﻣﺎ ﺑﻪ ﺷﻤﺎ ﺑﺮاي ﻓﻬﻤﻴﺪن ﻛﺎر ﻫﺎي اﺑﺰاري ﻛﻪ اﻧﺘﺨﺎب‬ ‫ﻛﺮده اﻳﺪ و ﻫﻤﭽﻨﻴﻦ اﻟﮕﻮرﻳﺘﻤﻬﺎﻳﻲ ﻛﻪ ﺑﺮ ﭘﺎﻳﻪ آن ﻛﺎر ﻣﻲ ﻛﻨﺪ ﻧﻴﺎزﻣﻨﺪ اﺳﺖ.‬ ‫اﻧﺘﺨﺎﺑﻲ ﻛﻪ ﺷﻤﺎ ﺑﺮاي اﺑﺰار ﻣﻮرد ﻧﻴﺎز اﻧﺠﺎم ﻣﻲ دﻫﻴﺪ و ﺑﻬﻴﻨﻪ ﺳﺎزي ﻫﺎﻳﻲ را ﻛﻪ‬ ‫ﺷﻤﺎ اﻧﺠﺎم ﻣﻲ دﻫﻴﺪ در دﻗﺖ و ﺳﺮﻋﺖ ﻛﺎر ﺑﺴﻴﺎر ﺗﺎﺛﻴﺮ دارد.]2[‬ ‫داده ﻛﺎوي و اﻧﺒﺎر داده ﻫﺎ :‬
  16. 16. ‫اﻏﻠﺐ داده اي ﻛﻪ ﻣﻮرد ﻛﺎوش ﻗﺮار ﻣﻲ ﮔﻴﺮد اﺑﺘﺪا از ﻳﻚ اﻧﺒﺎر داده آﻣﺎده ﺷﺪه‬ ‫ﺑﻪ داﺧﻞ ﻳﻚ ﭘﺎﻳﮕﺎه داده ﻛﺎوي ﺳﺮازﻳﺮ ﻣﻲ ﺷﻮد. اﻳﻦ ﻛﺎر ﻣﺰاﻳﺎي زﻳﺎدي دارد.‬ ‫ﭘﺎﻳﮕﺎه داده ﻛﺎوي ﻣﻲ ﺗﻮاﻧﺪ ﺑﻪ ﺟﺎي ﻳﻚ اﻧﺒﺎر ﻓﻴﺰﻳﻜﻲ داده ﻳﻚ اﻧﺒﺎر ﻣﻨﻄﻘﻲ از‬ ‫داده ﻫﺎ ﺑﺎﺷﺪ. ﺑﻪ ﺷﺮط آﻧﻜﻪ اﻧﺒﺎر داده ‪ DBMS‬ﺑﺘﻮاﻧﺪ داﻣﻨﻪ ﻫﺎي ﻣﻨﺎﺑﻊ اﺿﺎﻓﻲ‬ ‫از داده ﻛﺎوي را ﻧﻴﺰ ﭘﻮﺷﺶ دﻫﺪ. روﻧﺪ ﺷﺮح داده ﺷﺪه در ﺷﻜﻞ زﻳﺮ آﻣﺪه اﺳﺖ:‬ ‫‪Data Sources‬‬ ‫‪Data‬‬ ‫‪Warehouse‬‬ ‫‪Analysis‬‬ ‫‪Data Mart‬‬ ‫‪Geographic‬‬ ‫‪Data Mining‬‬ ‫‪Data Mart‬‬ ‫‪Data Mart‬‬ ‫داده ﻛﺎوي و ‪: OLAP‬‬ ‫ﻳﻜﻲ از ﺳﻮاﻟﻬﺎي راﻳﺞ در ﻣﻴﺎن ﻣﺘﺨﺼﺼﺎن ﭘﺮدازش داده در ﻣﻮرد ﺗﻔﺎوت ﻣﻴﺎن‬ ‫داده ﻛﺎوي و‪) OLAP‬ﭘﺮدازش آﻧﺎﻟﻴﺰي ‪. ( on-line‬‬ ‫‪ Olap‬ﻗﺴﻤﺘﻲ از ﻗﺎﻟﺐ اﺑﺰارﻫﺎي ﺗﺼﻤﻴﻢ ﮔﻴﺮي اﺳﺖ. ﭘﺮس وﺟﻮ ﻫﺎي ﺳﻨﺘﻲ و‬ ‫اﺑﺰارﻫﺎي ﮔﺰارش ﮔﻴﺮي ﻛﻪ ﭼﻪ ﭼﻴﺰي در داﺧﻞ ﻳﻚ ﭘﺎﻳﮕﺎه داده اﺳﺖ. ‪ olap‬از‬ ‫اﻳﻦ ﻓﺮاﺗﺮ ﻣﻴﺮود و ﺑﺮاي ﺟﻮاب دادن ﺑﻪ ﻋﻠﺖ درﺳﺘﻲ ﺑﺮﺧﻲ ﻣﻮارد اﺳﺘﻔﺎده دارد.‬ ‫داده ﻛﺎوي , آﻣﺎر و ﻳﺎدﮔﻴﺮي ﻣﺎﺷﻴﻦ‬ ‫داده ﻛﺎوي ﻓﻮاﻳﺪي از ﭘﻴﺸﺮﻓﺘﻬﺎي رﺷﺘﻪ ﻫﻮش ﻣﺼﻨﻮﻋﻲ را در ﺧﻮد ﺟﺎي داده‬ ‫اﺳﺖ ﻛﻪ ﻫﻢ ﺷﺎﻣﻞ ﻗﻮاﻋﺪي ﺑﺮاي ﻣﺴﺎﺋﻞ ﺗﺸﺨﻴﺺ اﻟﮕﻮ و ﻃﺒﻘﻪ ﺑﻨﺪي ﻣﻲ ﺑﺎﺷﺪ‬ ‫وﻫﻢ ارﺗﺒﺎﻃﺎﺗﻲ ﻛﻪ از ﻃﺮﻳﻖ ﻛﺎرﺑﺮد ﺷﺒﻜﻪ ﻫﺎي ﻋﺼﺒﻲ و درﺧﺘﻬﺎي ﺗﺼﻤﻴﻢ‬ ‫ﮔﻴﺮي ﺑﺮاي ﻓﻬﻢ ﻣﺴﺎﺋﻞ ﺻﻮرت ﻣﻲ ﮔﻴﺮد ﻣﻲ ﺑﺎﺷﺪ.‬
  17. 17. ‫داده ﻛﺎوي در اﻳﻦ زﻣﻴﻨﻪ داراي اﻟﮕﻮرﻳﺘﻢ ﻫﺎي ﻧﺴﺒﺘﺎ ﺟﺪﻳﺪي ﻣﺎﻧﻨﺪ ﺷﺒﻜﻪ‬ ‫ﻋﺼﺒﻲ و درﺧﺖ ﺗﺼﻤﻴﻢ ورﻫﻴﺎﻓﺖ ﻫﺎي ﺟﺪﻳﺪي ﺑﺮاي اﻟﮕﻮرﻳﺘﻢ ﻫﺎي ﻗﺪﻳﻤﻴﺘﺮ‬ ‫ﻣﺎﻧﻨﺪ اﻟﮕﻮرﻳﺘﻢ ﻫﺎي ﺗﻔﻜﻴﻚ ﻛﻨﻨﺪه دارد.‬ ‫ﻧﻜﺘﻪ ﻣﻬﻢ آﻧﻜﻪ داده ﻛﺎوي ﻛﺎرﺑﺮد اﻳﻦ ﺗﻜﻨﻴﻜﻬﺎ را ﺑﺮاي ﻣﺴﺎﺋﻞ ﺗﺠﺎري ﻣﺸﺎﺑﻪ‬ ‫ﺑﺎﻻ ﺑﻪ ﻃﺮﻳﻘﻲ ﻛﻪ اﻳﻦ ﺗﻜﻨﻴﻜﻬﺎ را ﺑﺮاي ﻛﺎرﺑﺮ ﺧﺒﺮه داﻧﺶ و آﻣﺎرﮔﻴﺮ ﻣﺘﺨﺼﺺ‬ ‫ﻗﺎﺑﻞ دﺳﺘﺮس ﺳﺎزد اﺳﺘﻔﺎده ﻣﻲ ﺷﻮد.‬ ‫ﻛﺎرﺑﺮدﻫﺎي داده ﻛﺎوي‬ ‫داده ﻛﺎوي ﺑﻪ ﺳﺮﻋﺖ در ﺣﺎل ﻣﺤﺒﻮﺑﻴﺖ اﺳﺖ ﺑﻪ ﺧﺎﻃﺮ ﻛﻤﻚ ﻫﺎي اﺳﺎﺳﻲ آن.‬ ‫ﺳﺎزﻣﺎﻧﻬﺎي زﻳﺎدي در ﺣﺎل اﺳﺘﻔﺎده از داده ﻛﺎوي ﺑﺮاي ﻛﻤﻚ ﺑﻪ ﻣﺪﻳﺮﻳﺖ ﺗﻤﺎم‬ ‫ﻓﺎزﻫﺎي ارﺗﺒﺎط ﺑﺎ ﻣﺸﺘﺮي ﺷﺎﻣﻞ ﺑﻪ دﺳﺖ آوردن ﻣﺸﺘﺮﻳﺎن ﺟﺪﻳﺪ, اﻓﺰاﻳﺶ ﺳﻮد‬ ‫از ﻃﺮﻳﻖ ﻣﺸﺘﺮﻳﺎن ﻣﻮﺟﻮد و ﺣﻔﻆ ﻛﺮدن ﻣﺸﺘﺮﻳﺎن ﺧﻮب ﻫﺴﺘﻨﺪ.ﺑﺎ ﺗﻌﻴﻴﻦ‬ ‫ﻣﺸﺨﺼﺎت ﻳﻚ ﻣﺸﺘﺮي ﺧﻮب ﻳﻚ ﺷﺮﻛﺖ ﻣﻲ ﺗﻮاﻧﺪ ﺑﺎ ﻫﻤﺎن ﻣﺸﺨﺼﺎت اﻫﺪاف‬ ‫آﻳﻨﺪه ﺧﻮﻳﺶ را ﭘﻴﺶ ﺑﻴﻨﻲ ﻛﻨﺪ. ﺑﺎ ﭘﺮوﻧﺪه ﺳﺎزي ﺑﺮاي ﻣﺸﺘﺮي ﻛﻪ ﻳﻚ‬ ‫ﻣﺤﺼﻮل ﺧﺎص را ﺧﺮدي ﻣﻲ ﻧﻤﺎﻳﺪ اﻳﻦ ﺷﺮﻛﺖ ﻣﻲ ﺗﻮاﻧﺪ ﺗﻮﺟﻪ ﺧﻮد را ﺑﻪ‬ ‫ﻣﺸﺘﺮﻳﺎن ﻣﺸﺎﺑﻬﻲ ﻛﻪ از اﻳﻦ ﻣﺤﺼﻮل ﺧﺮﻳﺪ ﻧﻜﺮده اﻧﺪ ﻣﻌﻄﻮف دارد ﺑﺎ ﭘﺮوﻧﺪه‬ ‫ﺳﺎزي ﺑﺮاي ﻣﺸﺘﺮﻳﺎﻧﻲ ﻛﻪ اﻳﻦ ﺳﺎزﻣﺎن را ﺗﺮك ﻛﺮده اﻧﺪ ﻳﻚ ﺷﺮﻛﺖ ﻣﻲ ﺗﻮاﻧﺪ‬ ‫ﻣﺸﺘﺮﻳﺎﻧﻲ را ﻛﻪ ﺧﻄﺮ رﻓﺘﻦ آﻧﻬﺎ ﻧﻴﺰ وﺟﻮد دارد را ﻧﮕﻪ دارد ﭼﺮا ﻛﻪ ﻧﮕﻬﺪاري‬ ‫ﻳﻚ ﻣﺸﺘﺮي ﻣﻮﺟﻮد ﺑﺴﻴﺎر ﻛﻢ ﻫﺰﻳﻨﻪ ﺗﺮ از ﺑﺪﺳﺖ آوردن ﻳﻚ ﻣﺸﺘﺮي ﺟﺪﻳﺪ‬ ‫ﻫﺰﻳﻨﻪ ﻣﻲ ﺑﺮد. داده ﻛﺎوي ارزﺷﻬﺎﻳﻲ را از ﻃﺮﻳﻖ ﺑﺮرﺳﻲ ﻳﻚ ﻃﻴﻒ وﺳﻴﻌﻲ از‬ ‫ﻛﺎرﺧﺎﻧﻪ ﻫﺎ ﭘﻴﺸﻨﻬﺎد ﻣﻲ ﻛﻨﺪ.ﺷﺮﻛﺘﻬﺎي ارﺗﺒﺎﻃﺎت از راه دور و ﻛﺎرت ﻫﺎي‬ ‫اﻋﺘﺒﺎري دو ﺷﺎﺧﻪ ﺑﺰرگ در اﺳﺘﻔﺎده از داده ﻛﺎوي ﺑﺮاي ﺗﺸﺨﻴﺺ اﺳﺘﻔﺎده ﻛﻼه‬ ‫ﺑﺮداراﻧﻪ از ﺧﺪﻣﺎت آﻧﻬﺎ ﻣﻲ ﺑﺎﺷﻨﺪ. ﺷﺮﻛﺘﻬﺎي ﺑﻴﻤﻪ و درآﻣﺪ ﻫﻢ ﻋﻼﻗﻤﻨﺪ ﺑﻪ‬ ‫اﺳﺘﻔﺎده از اﻳﻦ ﺗﻜﻨﻮﻟﻮژي ﺑﺮاي ﻛﺎﻫﺶ ﻛﻼه ﺑﺮداري ﻣﻲ ﺑﺎﺷﻨﺪ. ﻛﺎرﺑﺮدﻫﺎي‬ ‫داروﻳﻲ ﻧﻮاﺣﻲ ﻣﻔﻴﺪ دﻳﮕﺮي ﻫﺴﺘﻨﺪ ﻛﻪ داده ﻛﺎوي در آﻧﻬﺎ دﺳﺖ دارد داده‬ ‫ﻛﺎوي ﻣﻲ ﺗﻮاﻧﺪ ﺑﺮاي ﺗﺸﺨﻴﺺ ﺗﺎﺛﻴﺮ اﻋﻤﺎل ﺟﺮاﺣﻲ, آزﻣﺎﻳﺶ ﻫﺎي داروﻳﻲ‬ ‫ودرﻣﺎن اﺳﺘﻔﺎده ﮔﺮدد. ﺷﺮﻛﺘﻬﺎﻳﻲ ﻛﻪ در ﺧﺮﻳﺪ و ﻓﺮوﺷﻬﺎي ﻣﺎﻟﻲ ﻓﻌﺎﻟﻴﺖ ﻣﻲ‬
  18. 18. ‫ﻛﻨﻨﺪ از داده ﻛﺎوي ﺑﺮاي ﺗﻌﻴﻴﻦ ﺷﺎﺧﺼﻪ ﻫﺎي ﺑﺎزار و ﺻﻨﻌﺖ ﺑﺮاي ﺗﺸﺨﻴﺺ‬ ‫ﻛﺎراﻳﻲ درآﻣﺪ اﺳﺘﻔﺎده ﻣﻲ ﻛﻨﻨﺪ. ﺧﺮده ﻓﺮوﺷﻬﺎ از داده ﻛﺎوي ﺑﺮاي ﺗﺼﻤﻴﻢ در‬ ‫ﻣﻮرد اﻳﻨﻜﻪ ﻛﺪام ﻣﺤﺼﻮل در ﻓﺮوﺷﮕﺎه ﻫﺎ در آﻣﺪ زاﺳﺖ ﺑﻪ ﻣﻨﻈﻮر دﺳﺘﺮﺳﻲ ﺑﻪ‬ ‫ارﺗﻘﺎي ﻛﻴﻔﻴﺖ ﻛﺎر ﺧﻮد اﺳﺘﻔﺎده ﺑﻴﺸﺘﺮي ﻣﻲ ﻧﻤﺎﻳﻨﺪ. ﺷﺮﻛﺘﻬﺎي داروﻳﻲ در‬ ‫ﺣﺎل ﻛﺎوش ﭘﺎﻳﮕﺎﻫﻬﺎي داده ﺑﺰرﮔﻲ از ﺗﺮﻛﻴﺒﺎت ﺷﻴﻤﻴﺎﻳﻲ و ﻣﻮاد ژﻧﺘﻴﻜﻲ ﺑﺮاي‬ ‫ﻛﺸﻒ ﻣﻮاد ﻛﻪ ﻣﻲ ﺗﻮاﻧﻨﺪ ﮔﺰﻳﻨﻪ ﺧﻮﺑﻲ ﺑﺮاي ﺳﺎﺧﺖ ﺑﻪ ﻋﻨﻮان دارو ﺑﺎﺷﻨﺪ. ]1[‬ ‫داده ﻛﺎوي ﻣﻮﻓﻖ:‬ ‫دو ﻧﻜﺘﻪ ﺑﺮاي ﻣﻮﻓﻖ ﺑﻮدن ﻳﻚ داده ﻛﺎوي وﺟﻮد دارد. اول اﻳﻨﻜﻪ ﻳﻚ ﻓﺮﻣﻮﻟﻪ‬ ‫ﺳﺎزي دﻗﻴﻖ از ﻣﺴﺎﻟﻪ اي اﺳﺖ ﻛﻪ ﺷﻤﺎ ﺑﺎﻳﺪ ﺣﻞ ﻛﻨﻴﺪ. دوﻣﻴﻦ ﻧﻜﺘﻪ اﺳﺘﻔﺎده از‬ ‫داده ﺻﺤﻴﺢ اﺳﺖ. ﭘﺲ از اﻧﺘﺨﺎب داده اي ﻛﻪ در دﺳﺘﺮس ﺷﻤﺎﺳﺖ ﻳﺎ ﺷﺎﻳﺪ‬ ‫ﺧﺮﻳﺪ داده ﺧﺎرﺟﻲ ﺷﻤﺎ ﻣﻤﻜﻦ اﺳﺖ ﻧﻴﺎزﻣﻨﺪ ﺷﻮﻳﺪ آ ن را ﺑﻪ روﺷﻬﺎﻳﻲ اﻧﺘﻘﺎل‬ ‫داده ﻳﺎ دﺳﺘﻪ ﺑﻨﺪي ﻛﻨﻴﺪ.‬ ‫ﺗﺤﻠﻴﻞ ارﺗﺒﺎﻃﺎت:‬ ‫ﺗﺤﻠﻴﻞ ارﺗﺒﺎط ﻳﻚ رﻫﻴﺎﻓﺖ ﺗﻮﺻﻴﻔﻲ ﺑﺮاي اﻛﺘﺸﺎف داده اﺳﺖ ﻛﻪ ﻣﻲ ﺗﻮاﻧﺪ ﺑﻪ‬ ‫ﻣﺸﺨﺺ ﺳﺎزي ارﺗﺒﺎﻃﺎت ﻣﻴﺎن ﻣﻘﺎدﻳﺮ در ﭘﺎﻳﮕﺎه داده ﻛﻤﻚ ﻧﻤﺎﻳﺪ.دو رﻫﻴﺎﻓﺖ‬ ‫ﻋﺎم ﺑﺮاي رﺳﻴﺪن ﺑﻪ ﺗﺤﻠﻴﻞ ارﺗﺒﺎﻃﻲ اﻛﺘﺸﺎف ارﺗﺒﺎﻃﻲ و اﻛﺘﺸﺎف ﺗﻮاﻟﻲ ﻣﻲ‬ ‫ﺑﺎﺷﺪ.اﻛﺘﺸﺎف ارﺗﺒﺎﻃﺎت ﻗﻮاﻧﻴﻨﻲ را در ﻣﻮرد ﻣﻮاردي را ﻛﻪ ﺑﺎﻳﺪ ﺑﺎ ﻫﻢ در ﻳﻚ‬ ‫روﻳﺪاد ﻇﺎﻫﺮﺷﻮﻧﺪ ﻣﺎﻧﻨﺪ ﺗﺮاﻛﻨﺶ ﺧﺮﻳﺪ را ﻣﻲ ِاﺑﺪ.ﺗﺤﻠﻴﻞ ﺳﺒﺪ ﻋﺮﺿﻪ ﻳﻚ ﻧﻤﻮﻧﻪ‬ ‫ﺷﻨﺎﺧﺘﻪ ﺷﺪه از ﻛﺸﻒ ارﺗﺒﺎط ﻣﻲ ﺑﺎﺷﺪ.ﻛﺸﻒ ﺗﻮاﻟﻲ ﺑﺴﻴﺒﺎر ﺷﺒﻴﻪ ﻛﺸﻒ ارﺗﺒﺎط‬ ‫اﺳﺖ ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ اﻳﻦ ﻧﻜﺘﻪ ﻛﻪ در اﻳﻨﺠﺎ ﺗﻮاﻟﻲ ﻳﻚ ارﺗﺒﺎط اﺳﺖ ﻛﻪ در ﻃﻮل ﻳﻚ‬ ‫ﺑﺎزه زﻣﺎﻧﻲ ﺻﻮرت ﻣﻲ ﮔﻴﺮد.‬
  19. 19. ‫ارﺗﺒﺎﻃﺎت ﺑﻪ ﺻﻮرت ‪ A=>B‬ﻧﻮﺷﺘﻪ ﻣﻲ ﺷﻮد ﻛﻪ ﺑﻪ ‪ A‬ﻣﻘﺪم ﻳﺎ ﻃﺮف ﺳﻤﺖ‬ ‫ﭼﭗ و ﺑﻪ ‪ B‬ﺗﺎﻟﻲ ﻳﺎ ﻃﺮف ﺳﻤﺖ راﺳﺖ ﻣﻲ ﮔﻮﻳﻨﺪ.ﺑﺮاي ﻣﺜﺎل در ﻗﺎﻧﻮن ارﺗﺒﺎﻃﻲ‬ ‫quot;اﮔﺮ ﻣﺮدم ﻳﻚ ﭼﻜﺶ ﺑﺨﺮﻧﺪ آﻧﮕﺎه ﻣﻲ ﺗﻮاﻧﻨﺪ ﻣﻴﺦ ﺑﺨﺮﻧﺪquot; ﺟﻤﻠﻪ ﻣﻘﺪم quot;ﺧﺮﻳﺪ‬ ‫ﭼﻜﺶquot; و ﺟﻤﻠﻪ ﺗﺎﻟﻲ quot;ﺧﺮﻳﺪ ﻣﻴﺦquot; ﻣﻲ ﺑﺎﺷﺪ.‬ ‫ﺑﺮاﺣﺘﻲ ﻣﻴﺘﻮان ﻧﺴﺒﺖ ﺗﺮاﻛﻨﺸﻬﺎﻳﻲ را ﻛﻪ ﺷﺎﻣﻞ ﻣﻮرد ﻳﺎ ﻟﻴﺴﺘﻲ ازﻣﻮارد ﺧﺎص‬ ‫ﻣﻲ ﺑﺎﺷﺪ ﺑﺎ ﺷﻤﺮدن آﻧﻬﺎ ﺗﻌﻴﻴﻦ ﻛﺮد )ﻛﻪ در اﻃﻨﺠﺎ ﻣﻮارد ﻣﻴﺦ ﻫﺎ و ﭼﻜﺶ‬ ‫ﻫﺎﻣﻲ ﺑﺎﺷﺪ( را ﺗﻌﻴﻴﻦ ﻛﺮد.ﺗﻌﺪاد ﻣﻮﺟﻮد از ﻳﻚ ﻧﻮع ارﺗﺒﺎط ﺧﺎص ﻛﻪ در ﻳﻚ‬ ‫ﭘﺎﻳﮕﺎه داده ﺑﻪ ﻧﻈﺮ ﻣﻲ رﺳﺪ را ﻣﻮﺟﻮدي ﻳﺎ ﺷﻴﻮع آن ﻣﻮرد ﻣﻲ ﮔﻮﻳﻨﺪ.اﮔﺮ ﺑﺮاي‬ ‫ﻣﺜﺎل ﮔﻔﺘﻪ ﺷﻮد ﻛﻪ از ﻫﺮ 0001 ﺗﺮاﻛﻨﺶ 51 ﺗﺎي آن ﺷﺎﻣﻞ quot;ﻣﻴﺦ و ﭼﻜﺶquot;‬ ‫ﻣﻲ ﺑﺎﺷﺪ ﻣﻮﺟﻮدي اﻳﻦ ارﺗﺒﺎط 5,1%ﺧﻮاﻫﺪ ﺑﻮد.ﻳﻚ ﻣﻮﺟﻮدي ﻛﻢ)ﻣﺜﻼ ﻳﻚ در‬ ‫ﻣﻴﻠﻴﻮن( ﻣﻲ ﺗﻮاﻧﺪ ﺑﻴﺎﻧﮕﺮ اﻳﻦ ﺑﺎﺷﺪ ﻛﻪ ان ارﺗﺒﺎط ﺧﺎص در ﭘﺎﻳﮕﺎه داده ﭼﻨﺪان‬ ‫ﻣﻬﻢ ﻧﻴﺴﺖ.‬ ‫ﺑﺮاي ﻛﺸﻒ ﻗﻮاﻧﻴﻦ ﻣﻌﻨﺎ دار ﻣﺎ ﺑﺎﻳﺪ ﺑﻪ ﻓﺮاواﻧﻲ ﻣﺘﻨﺎﺳﺐ دﻓﻌﺎت اﺗﻔﺎق ﻣﻮارد و‬ ‫ﺗﺮﻛﻴﺒﺎﺗﺸﺎن ﻧﻴﺰ ﺑﻨﮕﺮﻳﻢ.ﺑﺎداﺷﺘﻦ ﺗﻌﺪاد دﻓﻌﺎت اﺗﻔﺎق ﻣﻮرد ‪ A‬ﻣﻮرد ‪ B‬ﭼﻨﺪ ﺑﺎر‬ ‫اﺗﻔﺎق ﻣﻲ اﻓﺘﺪ؟ﺑﻪ ﻋﺒﺎرت دﻳﮕﺮ ﺳﻮال اﻳﻦ اﺳﺖ ﻛﻪ ﺑﺒﻴﻨﻴﻢ quot;ﻫﻨﮕﺎﻣﻲ ﻛﻪ ﻣﺮدم‬ ‫ﻳﻚ ﭼﻜﺶ ﻣﻲ ﺧﺮﻧﺪ ﭼﻪ ﺗﻌﺪاد از اﻳﻦ اﻓﺮاد ﻣﻴﺦ ﻫﻢ ﻣﻲ ﺧﺮﻧﺪ؟ ﻋﺒﺎرت دﻳﮕﺮ‬ ‫ﺑﺮاي اﻳﻦ ﭘﻴﺶ ﺑﻴﻨﻲ ﺷﺮﻃﻲ اﻃﻤﻴﻨﺎن ﻧﺎم دارد.‬ ‫ﻓﺮض ﻛﻨﻴﺪ ﭘﺎﻳﮕﺎه داده ﻓﺮﺿﻲ ﻣﺎن راﺑﻪ ﺻﻮرت زﻳﺮ و ﺑﺎ ﺟﺰﺋﻴﺎت ﺑﻴﺸﺘﺮ ﺑﺮاي‬ ‫ﺑﻴﺎن اﻳﻦ ﻣﻔﺎﻫﻴﻢ در ﻧﻈﺮ ﺑﮕﻴﺮﻳﻢ:‬ ‫ﺗﻤﺎم ﺗﺮاﻛﻨﺸﻬﺎي ﺳﺨﺖ اﻓﺰار :0001‬ ‫ﺗﻌﺪاد ﺗﺮاﻛﻨﺸﻬﺎﻳﻲ ﻛﻪ ﺷﺎﻣﻞ quot;ﭼﻜﺶ quot; ﻣﻲ ﺑﺎﺷﺪ:05‬ ‫ﺗﻌﺪاد ﺗﺮاﻛﻨﺸﻬﺎﻳﻲ ﻛﻪ ﺷﺎﻣﻞ quot;ﻣﻴﺦquot; ﻣﻲ ﺑﺎﺷﺪ:08‬ ‫ﺗﻌﺪاد ﺗﺮاﻛﻨﺸﻬﺎﻳﻲ ﻛﻪ ﺷﺎﻣﻞ quot;ﺗﺨﺘﻪ quot; ﻣﻲ ﺑﺎﺷﺪ:02‬ ‫ﺗﻌﺪاد ﺗﺮاﻛﻨﺸﻬﺎﻳﻲ ﻛﻪ ﺷﺎﻣﻞ quot; ﻣﻴﺦ و ﭼﻜﺶquot;ﻣﻲ ﺑﺎﺷﺪ:51‬ ‫ﺗﻌﺪاد ﺗﺮاﻛﻨﺸﻬﺎﻳﻲ ﻛﻪ ﺷﺎﻣﻞ quot; ﻣﻴﺦ و ﺗﺨﺘﻪ quot; ﻣﻲ ﺑﺎﺷﺪ:01‬ ‫ﺗﻌﺪاد ﺗﺮاﻛﻨﺸﻬﺎﻳﻲ ﻛﻪ ﺷﺎﻣﻞ quot; ﭼﻜﺶ و ﺗﺨﺘﻪquot; ﻣﻲ ﺑﺎﺷﺪ: 01‬
  20. 20. ‫ﺗﻌﺪاد ﺗﺮاﻛﻨﺸﻬﺎﻳﻲ ﻛﻪ ﺷﺎﻣﻞ quot; ﭼﻜﺶ و ﺗﺨﺘﻪ و ﻣﻴﺦ quot; ﻣﻲ ﺑﺎﺷﺪ:5‬ ‫ﺣﺎل ﻗﺎدر ﺑﻪ ﻣﺤﺎﺳﺒﻪ اﻳﻢ:‬ ‫ﻣﻮﺟﻮدي quot;ﻣﻴﺦ و ﭼﻜﺶquot;=5,1%‬ ‫ﻣﻮﺟﻮدي quot; ﻣﻴﺦ و ﭼﻜﺶ وﺗﺨﺘﻪquot;=5,0%‬ ‫درﺻﺪ اﻃﻤﻴﻨﺎن quot;ﭼﻜﺶ=<ﻣﻴﺦquot; = 03%‬ ‫درﺻﺪ اﻃﻤﻴﻨﺎن quot; ﻣﻴﺦ=< ﭼﻜﺶquot; = 91%‬ ‫درﺻﺪ اﻃﻤﻴﻨﺎن quot; ﭼﻜﺶ و ﻣﻴﺦ=<ﺗﺨﺘﻪquot; = 33%‬ ‫درﺻﺪ اﻃﻤﻴﻨﺎن quot; ﺗﺨﺘﻪ=< ﭼﻜﺶ و ﻣﻴﺦ quot; =52%‬ ‫ﺑﻨﺎﺑﺮاﻳﻦ ﻣﺎ ﻣﻲ ﺑﻴﻨﻴﻢ ﻛﻪ اﺣﺘﻤﺎل اﻳﻨﻜﻪ ﻳﻚ ﺧﺮﻧﺪه ﭼﻜﺶ ﻣﻴﺦ ﻫﻢ ﺑﺨﺮد)03%(‬ ‫ﺑﻴﺸﺘﺮ از اﺣﺘﻤﺎل آن اﺳﺖ ﻛﻪ ﻓﺮدي ﻛﻪ ﻣﻴﺦ ﻣﻲ ﺧﺮد ﭼﻜﺶ ﻫﻢ‬ ‫ﺑﺨﺮد)91%(.ارﺗﺒﺎط ﭼﻜﺶ و ﻣﻴﺦ ﺑﻪ اﻧﺪازه اي ﺑﺰرگ اﺳﺖ ﻛﻪ ﻳﻚ ﻗﺎﻧﻮن ﺑﺎ‬ ‫ﻣﻌﻨﻲ ﺑﺎﺷﺪ.‬ ‫‪)Lift‬ﻧﺴﺒﺘﺎ ﭘﻴﺸﺮﻓﺖ( ﻳﻜﻲ از ﻣﻌﻴﺎرﻫﺎي اﻧﺪازه ﮔﻴﺮي ﻗﺪرت ﻳﻚ ارﺗﺒﺎط‬ ‫اﺳﺖ.ﻫﺮ ﭼﻪ ‪ lift‬ﺑﺰرﮔﺘﺮ ﺑﺎﺷﺪ ﺗﺎﺛﻴﺮ اﺗﻔﺎﻗﺎت ‪ A‬ﺑﺮ اﺣﺘﻤﺎل اﻳﻨﻜﻪ ‪ B‬اﺗﻔﺎق ﺑﻴﻔﺘﺪ‬ ‫ﺑﻴﺸﺘﺮ اﺳﺖ.‪ lift‬ﺑﺼﻮرت ﻧﺴﺒﺖ‬ ‫)اﻃﻤﻴﻨﺎن ‪ (A=>B‬ﺗﻘﺴﻴﻢ ﺑﺮ ﻓﺮاواﻧﻲ ‪ B‬ﻣﺤﺎﺳﺒﻪ ﻣﻲ ﺷﻮد:‬ ‫ﺑﺮاي ﻣﺜﺎل ﻣﺎ:‬ ‫‪quot; Lift‬ﭼﻜﺶ=<ﻣﻴﺦquot; :57,3‬ ‫‪ quot; Lift‬ﭼﻜﺶ و ﻣﻴﺦ =<ﺗﺨﺘﻪ quot;:5,61‬ ‫اﻟﮕﻮرﻳﺘﻤﻬﺎي ارﺗﺒﺎط اﻳﻦ ﻗﻮاﻧﻴﻦ را ﺑﺎ ﻣﻌﺎدل ﻣﺮﺗﺐ ﺳﺎزي داده ﻫﻨﮕﺎم ﺷﻤﺎرش‬ ‫دﻓﻌﺎﺗﻲ ﻛﻪ ﻣﻲ ﺗﻮاﻧﻨﺪ درﺻﺪ اﻃﻤﻴﻨﺎن و ﻣﻮﺟﻮدي را ﻣﺤﺎﺳﺒﻪ ﻛﻨﻨﺪ ﻣﻲ ﻳﺎﺑﺪ.‬ ‫اﺛﺮاﺗﻲ ﻛﻪ ﻫﺮ ﻳﻚ از اﻳﻦ ﻗﻮاﻧﻴﻦ ﻣﻲ ﺗﻮاﻧﻨﺪ داﺷﺘﻪ ﺑﺎﺷﻨﺪ ﻳﻜﻲ از ﻣﻌﻴﺎرﻫﺎي‬ ‫ﺗﻔﺎوت اﻳﻦ اﻟﮕﻮرﻳﺘﻢ ﻫﺎﺳﺖ. اﻳﻦ ﻣﻌﻴﺎر ﻣﻬﻢ اﺳﺖ زﻳﺮا ﻛﻪ ﻧﺘﺎﻳﺞ ﺗﺮﻛﻴﺒﻲ ﺑﺴﻴﺎر‬ ‫زﻳﺎدي از ﺗﻌﺪاد ﺑﻲ ﺷﻤﺎري از ﻗﻮاﻧﻴﻦ ﺑﺪﺳﺖ ﻣﻲ آﻳﺪ ﺣﺘﻲ ﺑﺮاي ﺳﺒﺪ ﻫﺎي‬ ‫ﺧﺮﻳﺪ. ﺑﺮﺧﻲ از اﻟﮕﻮرﻳﺘﻤﻬﺎ ﻳﻚ ﭘﺎﻳﮕﺎه داده از ﻗﻮاﻧﻴﻦ, ﻓﺎﻛﺘﻮرﻫﺎي اﻳﻤﻦ, و‬
  21. 21. ‫ﻓﺮاﻫﻢ آوردن اﻣﻜﺎن ﺟﺴﺘﺠﻮ)ﺑﺮاي ﻣﺜﺎل ﺗﻤﺎم ارﺗﺒﺎﻃﺎﺗﻲ ﻛﻪ در آن ﻛﻠﻤﻪ ﺑﺴﺘﻨﻲ‬ ‫در ﻗﻮاﻧﻴﻦ ﺑﻪ ﻋﻨﻮان ﻧﺘﻴﺠﻪ آﻣﺪه و ﻓﺎﻛﺘﻮري ﺑﺮاﺑﺮ 08%را دارﻧﺪ ﻧﺸﺎن ﺑﺪه(را‬ ‫اﻳﺠﺎد ﻣﻲ ﻧﻤﺎﻳﻨﺪ.‬ ‫اﻏﻠﺐ ﺗﺼﻤﻴﻢ ﮔﻴﺮي در ﻣﻮرد ﻛﺎر ﺑﺎ ﻗﻮاﻧﻴﻨﻲ ﻛﻪ ﺷﻤﺎ ﻛﺸﻒ ﻛﺮده اﻳﺪ دﺷﻮار‬ ‫اﺳﺖ.ﺑﻪ ﻋﻨﻮان ﻣﺜﺎل در ﻳﻚ ﻧﻘﺸﻪ ﺧﺮﻳﺪ ﺑﺮاي ﻣﺸﺘﺮﻳﺎن در ﻳﻚ ﻓﺮوﺷﮕﺎه‬ ‫ﻗﺮاردادن ﺗﻤﺎم اﺟﻨﺎس ﻣﺮﺗﺒﻂ ﻣﻨﻄﻘﻲ ﺑﻪ ﺻﻮرت ﻓﻴﺰﻳﻜﻲ در ﻛﻨﺎر ﻳﻜﺪﻳﮕﺮ‬ ‫ﻣﻤﻜﻦ اﺳﺖ ارزش ﻛﺎﻣﻞ ﺳﺒﺪ ﺧﺮﻳﺪ را ﻛﺎﻫﺶ دﻫﺪ – ﻣﺸﺘﺮﻳﺎن ﻣﻤﻜﻦ اﺳﺖ‬ ‫در ﻣﺠﻤﻮع ارزش ﻛﻤﺘﺮي ﺧﺮﻳﺪ ﻛﻨﻨﺪ ﭼﻮن آﻧﻬﺎ ﺑﺮ ﺧﻼف ﻧﻘﺸﻪ ﺧﺮﻳﺪ ﻣﻮرد‬ ‫ﻧﻈﺮ ﺷﻤﺎ در ﺣﻴﻦ راه رﻓﺘﻦ در ﻣﻐﺎزه اﺟﻨﺎس ﻣﻮرد دﻟﺨﻮاه ﺧﻮد را ﺧﺮﻳﺪ ﻣﻲ‬ ‫ﻛﻨﻨﺪ. در ﭼﻨﻴﻦ ﺣﺎﻟﺘﻲ ﺗﻘﺮﻳﺐ و ﺗﺤﻠﻴﻞ ارﺗﺒﺎﻃﺎت ﻣﻌﻤﻮﻻ ﺑﺮاي ﺑﺪﺳﺖ آوردن‬ ‫ﻫﺮ ﮔﻮﻧﻪ ﺳﻮدي از ﻗﻮاﻧﻴﻦ ﻣﺮﺗﺒﻂ ﺑﺎ ﻫﻢ ﻣﻮرد ﻧﻴﺎز ﺧﻮاﻫﺪ ﺑﻮد.‬ ‫روﺷﻬﺎي ﮔﺮاﻓﻴﻜﻲ ﻣﻲ ﺗﻮاﻧﻨﺪ در ﻧﻤﺎﻳﺶ ﺳﺎﺧﺘﺎر ارﺗﺒﺎﻃﺎت ﻧﻘﺶ داﺷﺘﻪ ﺑﺎﺷﻨﺪ.‬ ‫در ﺷﻜﻞ زﻳﺮ ﻫﺮ ﻳﻚ از دواﻳﺮ ﻳﻚ ﻣﻘﺪار ﻳﺎ ﻳﻚ روﻳﺪاد را ﻧﻤﺎﻳﺶ ﻣﻲ دﻫﺪ.‬ ‫ﺧﻄﻮط ارﺗﺒﺎﻃﻲ ﻣﻴﺎن اﻳﻦ داﻳﺮه ﻫﺎ ﻳﻚ ارﺗﺒﺎط را ﻧﺸﺎن ﻣﻲ دﻫﻨﺪ. ﺧﻄﻮط‬ ‫ﻛﻠﻔﺖ ﺗﺮ ارﺗﺒﺎﻃﺎت ﻗﻮي ﺗﺮ و ﻓﺮاوان ﺗﺮي را ﻧﻤﺎﻳﺶ ﻣﻲ دﻫﻨﺪ. ]4[‬ ‫ﺳﻠﺴﻠﻪ ﻣﺮاﺗﺒﻲ از اﻧﺘﺨﺎب ﻫﺎ‬ ‫ﻫﺪف داده ﻛﺎوي ﺗﻮﻟﻴﺪ داﻧﺶ ﺟﺪﻳﺪي اﺳﺖ ﻛﻪ ﻛﺎرﺑﺮ ﺑﺘﻮاﻧﺪ ﺑﺮ اﺳﺎس آن ﻛﺎر‬ ‫ﺧﻮد را ﺟﻠﻮ ﺑﺮد. اﻳﻦ ﻛﺎر ﺑﻮﺳﻴﻠﻪ ﺳﺎﺧﺘﻦ ﻣﺪﻟﻲ از ﺟﻬﺎن واﻗﻌﻲ ﺑﺮ ﭘﺎﻳﻪ داده‬
  22. 22. ‫ﻫﺎﻳﻲ ﻛﻪ از ﻣﻨﺎﺑﻊ ﮔﻮﻧﺎﮔﻮن ﺑﺪﺳﺖ ﻣﻲ آﻳﺪ ﺻﻮرت ﮔﻴﺮد ﻛﻪ اﻳﻦ ﻣﻨﺎﺑﻊ ﻣﻲ ﺗﻮاﻧﺪ‬ ‫ﺷﺎﻣﻞ ﺗﺮاﻛﻨﺸﻬﺎي ﻫﻤﺎﻫﻨﮓ, ﺗﺎرﻳﺦ ﻣﺮﺑﻮط ﺑﻪ ﻫﺮ ﻣﺸﺘﺮي, اﻃﻼﻋﺎت ﻧﻤﺎﻳﺶ‬ ‫ﮔﺮاﻓﻴﻜﻲ, داده ﻛﻨﺘﺮل ﻓﺮآﻳﻨﺪ و ﭘﺎﻳﮕﺎه داده ﻫﺎي ﻣﺮﺗﺒﻂ ﺧﺎرﺟﻲ ﻣﺎﻧﻨﺪ اﻃﻼﻋﺎت‬ ‫اﻋﺘﺒﺎر اداري و ... ﺑﺎﺷﺪ. ﻧﺘﻴﺠﻪ ﻣﺪل ﺳﺎزي ﻳﻚ ﺳﺮي ﺗﻮﺿﻴﺤﺎت در ﻣﻮرد اﻟﮕﻮﻫﺎ‬ ‫و ارﺗﺒﺎﻃﺎت داده اي ﻛﻪ ﻣﻲ ﺗﻮاﻧﺪ ﺑﻪ ﺻﻮرت ﻣﻄﻤﺌﻨﻲ ﺟﻬﺖ ﭘﻴﺶ ﺑﻴﻨﻲ آﻳﻨﺪه‬ ‫ﻣﻮرد اﺳﺘﻔﺎده ﻗﺮار ﮔﻴﺮد.‬ ‫ﺑﺮاي ﺟﻠﻮﮔﻴﺮي از ﺳﺮﮔﺮداﻧﻲ در ﻣﺮاﺣﻞ ﻣﺨﺘﻠﻒ داده ﻛﺎوي اﻳﺠﺎد ﺗﺼﻮﻳﺮي از‬ ‫ﺳﻠﺴﻠﻪ ﻣﺮاﺗﺒﻲ از اﻧﺘﺨﺎﺑﺎت و ﺗﺼﻤﻴﻢ ﻫﺎ ﻛﻪ ﻧﻴﺎز ﻣﻨﺪ آن ﻫﺴﺘﻴﺪ در ذﻫﻦ ﻗﺒﻞ از‬ ‫ﺷﺮوع ﻛﺎر ﺑﻪ ﺷﻤﺎ ﻛﻤﻚ ﺧﻮاﻫﺪ ﻛﺮد:‬ ‫- ﻫﺪف ﻛﺎر‬ ‫- ﻧﻮع ﭘﻴﺶ ﺑﻴﻨﻲ‬ ‫- ﻧﻮع ﻣﺪل اﻧﺘﺨﺎﺑﻲ‬ ‫- اﻟﮕﻮرﻳﺘﻢ‬ ‫- ﻣﺤﺼﻮل‬ ‫اوﻟﻴﻦ ﮔﺎم ﻣﺸﺨﺺ ﻧﻤﻮدن ﻫﺪف ﻛﺎر ﻣﻲ ﺑﺎﺷﺪ :‬ ‫ﻫﺪف ﻧﻬﺎﻳﻲ از ﺟﺴﺘﺠﻮي اﻳﻦ داده ﭼﻴﺴﺖ؟ ﺑﺮاي ﻣﺜﺎل ﺟﻬﺖ ﻳﺎﻓﺘﻦ اﻟﮕﻮﻫﺎي‬ ‫ﻣﻔﻴﺪي در داده ﺧﻮد ﺑﺮاي اﻳﻦ ﻛﻪ ﺑﻪ ﺷﻤﺎ ﻛﻤﻚ ﻛﻨﺪ ﻣﺸﺘﺮﻳﺎن ﺧﻮد را ﺣﻔﻆ‬ ‫ﻛﻨﻴﺪ ﺷﻤﺎ ﺑﺎﻳﺪ ﻳﻚ ﻣﺪل ﺑﺮاي ﭘﻴﺶ ﺑﻴﻨﻲ ﺳﻮدﺑﺨﺸﻲ ﺑﻪ ﻣﺸﺘﺮي و ﻣﺪل‬ ‫دﻳﮕﺮي ﺑﺮاي ﺷﻨﺎﺳﺎﻳﻲ ﻣﺸﺘﺮﻳﺎﻧﻲ ﻛﻪ آﻧﺠﺎ را ﺗﺮك ﻛﺮده اﻧﺪ ﻃﺮاﺣﻲ ﻛﻨﻴﺪ.‬ ‫داﻧﺶ ﺷﻤﺎ از اﺣﺘﻴﺎﺟﺎت و اﻫﺪاف ﺳﺎزﻣﺎﻧﺘﺎن ﺷﻤﺎ را ﺑﻪ ﺳﻤﺖ ﻓﺮﻣﻮﻟﻪ ﻛﺮدن‬ ‫اﻫﺪاف ﻣﺪﻟﻬﺎﻳﺘﺎن راﻫﻨﻤﺎﻳﻲ ﺧﻮاﻫﺪ ﻛﺮد.‬ ‫ﮔﺎم ﺑﻌﺪي ﺗﺼﻤﻴﻢ در ﻣﻮرد اﻧﺘﺨﺎب ﻧﻮﻋﻲ ﭘﻴﺶ ﺑﻴﻨﻲ ﻛﻪ از ﻫﻤﻪ ﻣﻨﺎﺳﺐ ﺗﺮ‬ ‫اﺳﺖ ﻣﻲ ﺑﺎﺷﺪ:‬
  23. 23. ‫)1( ﻃﺒﻘﻪ ﺑﻨﺪي: ﺗﻌﻴﻴﻦ اﻳﻦ ﻛﻪ اﻳﻦ ﻣﻮرد ﺧﺎص در ﻛﺪام ﻛﻼس ﻳﺎ دﺳﺘﻪ ﻗﺮار‬ ‫ﻣﻲ ﮔﻴﺮد.‬ ‫)2( ﺣﺪس زدن اﻳﻨﻜﻪ ﻳﻚ ﻣﺘﻐﻴﺮ ﭼﻪ ﻣﻘﺪار ﻋﺪدي ﺧﻮاﻫﺪ داﺷﺖ)اﮔﺮ ﻣﺘﻐﻴﺮي‬ ‫ﺑﺎﺷﺪ ﻛﻪ ﺑﺎ زﻣﺎن ﺗﻐﻴﻴﺮ ﻛﻨﺪ اﻳﻦ ﻛﺎر ﺣﺪس ﺳﺮﻳﻬﺎي زﻣﺎﻧﻲ ﻧﺎﻣﻴﺪه ﻣﻲ ﺷﻮد(.در‬ ‫ﻣﺜﺎل ﺑﺎﻻ ﺷﻤﺎ ﻣﻲ ﺗﻮاﻧﻴﺪ از اﻳﻦ ﺣﺪس ﺑﺮاي ﭘﻴﺶ ﺑﻴﻨﻲ ﻣﻘﺪار ﺳﻮددﻫﻲ و‬ ‫ﻃﺒﻘﻪ ﺑﻨﺪي ﺑﺮاي ﭘﻴﺶ ﺑﻴﻨﻲ اﻳﻨﻜﻪ ﻛﺪام ﻣﺸﺘﺮﻳﺎن ﻣﻤﻜﻦ اﺳﺖ ﺧﺮﻳﺪ ﺷﻤﺎ را‬ ‫ﺗﺮك ﻛﻨﻨﺪ اﺳﺘﻔﺎده ﻛﻨﻴﺪ.‬ ‫ﺣﺎﻻ ﻧﻮﺑﺖ ﺑﻪ ﻧﻮع ﻣﺪل ﻣﻲ رﺳﺪ:‬ ‫ﻛﻪ ﻋﺒﺎرت اﺳﺖ از ﻳﻚ ﺷﺒﻜﻪ ﻋﺼﺒﻲ ﺑﺮاي اﻧﺠﺎم ﺣﺪس ﻓﻮق اﻟﺬﻛﺮ و ﻳﻚ‬ ‫درﺧﺖ ﺗﺼﻤﻴﻢ ﺑﺮاي ﻃﺒﻘﻪ ﺑﻨﺪي. ﻣﺪﻟﻬﺎي آﻣﺎري ﺳﻨﺘﻲ ﻧﻴﺰ ﺑﺮاي اﻧﺘﺨﺎب از‬ ‫ﻣﺪﻟﻬﺎي ﻣﻌﻤﻮﻟﻲ ﺧﻄﻲ , ﺗﺤﻠﻴﻞ ﺗﻔﻜﻴﻜﻲ و ﺣﺪس ﻣﻨﻄﻘﻲ وﺟﻮد دارد.‬ ‫ﻣﻬﻤﺘﺮﻳﻦ ﻧﻮع اﻳﻦ ﻣﺪﻟﻬﺎ ﺑﺮاي داده ﻛﺎوي در ﺑﺨﺶ ﺑﻌﺪ )اﻟﮕﻮرﻳﺘﻤﻬﺎ و ﻣﺪﻟﻬﺎي‬ ‫داده ﻛﺎوي(ﺗﻮﺿﻴﺢ داده ﻣﻲ ﺷﻮد.‬ ‫اﻟﮕﻮرﻳﺘﻤﻬﺎي زﻳﺎدي ﺑﺮاي ﺳﺎﺧﺖ ﻣﺪﻟﻬﺎﻳﺘﺎن در دﺳﺘﺮس ﻫﺴﺘﻨﺪ. ﺷﻤﺎ ﻣﻲ‬ ‫ﺗﻮاﻧﻴﺪ ﺑﺎ اﺳﺘﻔﺎده از ﺗﻮاﺑﻊ ﺷﻌﺎﻋﻲ ﻳﺎ اﻧﺘﺸﺎري ﺷﺒﻜﻪ ﻋﺼﺒﻲ ﺑﺴﺎزﻳﺪ. ﺑﺮاي درﺧﺖ‬ ‫ﺗﺼﻤﻴﻢ ﺷﻤﺎ ﻣﻲ ﺗﻮاﻧﻴﺪ از ﻣﻴﺎن ﻃﺮق ‪ CHAID , Quest , c5.0 , cart‬ﻳﻜﻲ‬ ‫را اﻧﺘﺨﺎب ﻛﻨﻴﺪ. ﺑﺮﺧﻲ از اﻳﻦ اﻟﮕﻮرﻳﺘﻢ ﻫﺎ در ﻣﺪﻟﻬﺎ و اﻟﮕﻮرﻳﺘﻤﻬﺎي داده ﻛﺎوي‬ ‫ﺗﻮﺿﻴﺢ داده ﺷﺪه اﺳﺖ.‬ ‫ﻫﻨﮕﺎم اﻧﺘﺨﺎب ﻳﻚ ﻣﺤﺼﻮل داده ﻛﺎوي ﺑﺎﻳﺪ ﺗﻮﺟﻪ داﺷﺖ ﻛﻪ اﻳﻦ ﻣﺤﺼﻮﻻت‬ ‫ﭘﻴﺎده ﺳﺎزﻳﻬﺎي ﻣﺨﺘﻠﻔﻲ از ﻳﻚ اﻟﮕﻮرﻳﺘﻢ ﺧﺎص دارﻧﺪ ﺣﺘﻲ اﮔﺮ اﻳﻦ اﻟﮕﻮرﻳﺘﻢ‬ ‫ﺑﺮاي ﻫﻤﻪ آﻧﻬﺎ ﻧﺎم ﻳﻜﺴﺎﻧﻲ داﺷﺘﻪ ﺑﺎﺷﺪ. اﻳﻦ ﺗﻔﺎوﺗﻬﺎ در ﭘﻴﺎده ﺳﺎزي ﻣﻲ ﺗﻮاﻧﺪ ﺑﺮ‬ ‫روي ﻣﺸﺨﺼﻪ ﻫﺎي ﻗﺎﺑﻞ اﺳﺘﻔﺎده ﻣﺎﻧﻨﺪ اﺳﺘﻔﺎده از ﺣﺎﻓﻈﻪ و ذﺧﻴﺮه داده و‬ ‫ﻫﻤﭽﻨﻴﻦ ﺑﺮ روي ﻣﺸﺨﺼﻪ ﻫﺎي ﻛﺎراﻳﻲ ﻣﺎﻧﻨﺪ ﺳﺮﻋﺖ و دﻗﺖ ﺗﺎﺛﻴﺮ ﺑﮕﺬارﻧﺪ.‬ ‫ﺑﺴﻴﺎري از اﻫﺪاف ﺗﺠﺎري ﺑﻪ ﺑﻬﺘﺮﻳﻦ ﺷﻜﻞ ﺑﻪ وﺳﻴﻠﻪ ﺳﺎﺧﺖ اﻧﻮاع ﻣﺨﺘﻠﻔﻲ از‬ ‫ﻣﺪﻟﻬﺎ ﺑﺎ اﺳﺘﻔﺎده از اﻟﮕﻮرﻳﺘﻤﻬﺎي ﻣﺨﺘﻠﻒ ﺑﻪ دﺳﺖ ﻣﻲ آﻳﻨﺪ. ﺷﻤﺎ ﻣﻤﻜﻦ اﺳﺖ‬
  24. 24. ‫ﺗﺎ زﻣﺎﻧﻲ ﻛﻪ راه ﻫﺎي ﻣﺨﺘﻠﻔﻲ را اﻣﺘﺤﺎن ﻧﻜﻨﻴﺪ ﻗﺎدر ﻧﺒﺎﺷﻴﺪ ﺗﻌﻴﻴﻦ ﻛﻨﻴﺪ ﻛﺪام‬ ‫ﻧﻮع ﻣﺪل ﺑﻬﺘﺮﻳﻦ اﺳﺖ. ]1[‬ ‫ﻃﺒﻘﻪ ﺑﻨﺪي‬ ‫ﻣﺴﺎﺋﻞ ﻃﺒﻘﻪ ﺑﻨﺪي ﺑﻪ ﺷﻨﺎﺳﺎﻳﻲ ﺧﺼﻮﺻﻴﺎﺗﻲ ﻣﻨﺠﺮ ﻣﻲ ﺷﻮﻧﺪ ﻛﻪ ﻣﺸﺨﺺ ﻣﻲ‬ ‫ﻧﻤﺎﻳﻨﺪ ﻫﺮ ﻣﻮرد ﺑﻪ ﻛﺪام ﮔﺮوه ﺗﻌﻠﻖ دارد.اﻳﻦ اﻟﮕﻮ ﻫﻢ ﻣﻲ ﺗﻮاﻧﺪ ﺑﺮاي ﻓﻬﻢ داده‬ ‫ﻣﻮﺟﻮد و ﻫﻢ ﺑﺮاي ﭘﻴﺶ ﺑﻴﻨﻲ اﻳﻨﻜﻪ ﻫﺮ ﻧﻤﻮﻧﻪ ﺟﺪﻳﺪ ﭼﮕﻮﻧﻪ ﻛﺎر ﻣﻲ ﻛﻨﺪ‬ ‫اﺳﺘﻔﺎده ﺷﻮد. ﺑﺮاي ﻣﺜﺎل ﺷﻤﺎ ﻣﻤﻜﻦ اﺳﺖ ﺑﺨﻮاﻫﻴﺪ ﭘﻴﺶ ﺑﻴﻨﻲ ﻛﻨﻴﺪ ﻛﻪ آﻳﺎ‬ ‫اﺷﺨﺎص ﺑﺮاي ﭘﺎﺳﺨﮕﻮﻳﻲ ﺑﻪ درﺧﻮاﺳﺖ ﻳﻚ ﻣﻴﻞ ﻣﺴﺘﻘﻴﻢ ﻛﻪ ﻣﻤﻜﻦ اﺳﺖ ﺑﻪ‬ ‫ﻳﻚ دﺳﺘﮕﺎه ﺗﻠﻔﻦ ﺑﺎ ﻣﺴﺎﻓﺖ زﻳﺎد آﺳﻴﺐ ﺑﺮﺳﺎﻧﺪ ﻣﻲ ﺗﻮاﻧﻨﺪ ﮔﺮوه ﺑﻨﺪي ﺷﻮﻧﺪ ﻳﺎ‬ ‫ﺑﺮاي ﻳﻚ ﻋﻤﻞ ﺟﺮاﺣﻲ ﺑﺎﻳﺪ ﮔﺮوه ﺑﻨﺪي ﺷﻮﻧﺪ.‬ ‫داده ﻛﺎوي ﻣﺪﻟﻬﺎي ﻃﺒﻘﻪ ﺑﻨﺪي را ﺑﻮس ي ﻟﻪ اﻣﺘﺤﺎن ﻛﺮدن داده ﻃﺒﻘﻪ ﺑﻨﺪي‬ ‫ﺷﺪه)ﻣﻮارد( و ﻧﻬﺎ ي ﺗﺎ ي اﻓﺘﻦ ي ك اﻟﮕﻮي پ ي ش ﮔﻮ ا ي ﺟﺎد ﻣﻲ ﻛﻨﺪ. ا ي ن‬ ‫ﻣﻮارد ﻣﻮﺟﻮد ﻣﻲ ﺗﻮاﻧﺪ از ﻳﻚ ﭘﺎﻳﮕﺎه داده ﺗﺎرﻳﺨﻲ ﻧﺎﺷﻲ ﺷﻮد ﻣﺎﻧﻨﺪ اﻃﻼﻋﺎت‬ ‫اﻓﺮادي ﻛﻪ ﺗﺤﺖ ﻣﻌﺎﻟﺠﻪ داروﻳﻲ ﺧﺎﺻﻲ ﻫﺴﺘﻨﺪ و ﻳﺎ ﺑﻪ ﺳﻤﺖ ﻳﻚ ﺧﺪﻣﺖ ﺑﺎ‬ ‫ﻣﺴﺎﻓﺖ دور ﺟﺬب ﺷﺪه اﻧﺪ.ﻳﺎ اﻳﻨﻜﻪ از ﺗﺠﺮﺑﻪ ﻫﺎﻳﻲ ﻛﻪ ﻃﻲ آن ﻳﻚ ﻧﻤﻮﻧﻪ از‬ ‫ﺗﻤﺎم ﭘﺎﻳﮕﺎه داده در ﺟﻬﺎن واﻗﻌﻲ ﺗﺴﺖ ﺷﺪه ﺑﺎﺷﺪ و ﻧﺘﺎﻳﺞ آن ﺑﺮاي اﻳﺠﺎد ﻳﻚ‬ ‫ﮔﺮوه ﺑﻨﺪ اﺳﺘﻔﺎده ﺷﺪه ﺑﺎﺷﻨﺪ ﻣﻨﺘﺞ ﺷﻮد. ﺑﺮاي ﻣﺜﺎل ﻳﻚ ﻧﻤﻮﻧﻪ از ﻟﻴﺴﺘﻲ‬ ‫از ﭘﻴﺎﻣﻬﺎ ﺑﻪ ﻋﻨﻮان ﭘﻴﺸﻨﻬﺎد ﻓﺮﺳﺘﺎده ﺧﻮاﻫﺪ ﺷﺪ و ﻧﺘﺎﻳﺞ ﭘﻴﺎم رﺳﺎﻧﻲ ﺑﺮاي‬ ‫ﺳﺎﺧﺖ ﻳﻚ ﻣﺪل ﻃﺒﻘﻪ ﺑﻨﺪي ﺟﻬﺖ ﺑﻜﺎر ﮔﺮﻓﺘﻪ ﺷﺪن در ﺗﻤﺎم ﭘﺎﻳﮕﺎه داده‬ ‫اﺳﺘﻔﺎده ﺧﻮاﻫﺪ ﺷﺪ.‬ ‫ﺣﺪس ﺑﺎزﮔﺸﺘﻲ‬ ‫ﺣﺪس ﺑﺎزﮔﺸﺘﻲ از داده ﻫﺎي ﻣﻮﺟﻮد ﺑﺮاي ﭘﻴﺶ ﺑﻴﻨﻲ اﻳﻦ ﻛﻪ ﻣﻘﺎدﻳﺮ داده ﻫﺎي‬ ‫دﻳﮕﺮ ﭼﻪ ﺧﻮاﻫﺪ ﺑﻮد اﺳﺘﻔﺎده ﻣﻲ ﻛﻨﺪ. در ﺳﺎده ﺗﺮﻳﻦ ﺣﺎﻟﺖ ﺣﺪس ﻣﺬﻛﻮر از‬ ‫ﺗﻜﻨﻴﻜﻬﺎي آﻣﺎري ﻣﺎﻧﻨﺪ ﺣﺪس ﺧﻄﻲ اﺳﺘﻔﺎده ﻣﻲ ﻛﻨﺪ. ﻣﺘﺎﺳﻔﺎﻧﻪ ﺑﺴﻴﺎري از‬ ‫ﻣﺴﺎﺋﻞ ﺟﻬﺎن واﻗﻊ ﺗﺼﻮﻳﺮي ﺧﻄﻲ از ﻣﻘﺎدﻳﺮ ﻗﺒﻠﻲ ﻧﻴﺴﺘﻨﺪ. ﺑﺮاي ﻧﻤﻮﻧﻪ ﻣﻘﺎدﻳﺮ‬
  25. 25. ‫ﻓﺮوش, ارزش ﻓﺮوش, ارزش ﺳﻬﺎم و ﻧﺮخ ورﺷﻜﺴﺘﮕﻲ ﻣﺤﺼﻮل ﺑﺮاي ﭘﻴﺶ ﺑﻴﻨﻲ‬ ‫ﺳﺨﺖ ﻣﻲ ﺑﺎﺷﺪ زﻳﺮا آﻧﻬﺎ ﻣﻤﻜﻦ اﺳﺖ ﺑﺮ ﻓﻌﻞ و اﻧﻔﻌﺎﻻت ﭘﻴﭽﻴﺪه ﺣﺎﺻﻞ از‬ ‫ﭼﻨﺪﻳﻦ ﻣﺘﻐﻴﺮ ﭘﻴﺶ ﺑﻴﻨﻲ ﻛﻨﻨﺪه ﻣﺘﻜﻲ ﺑﺎﺷﻨﺪ. ﺑﻨﺎﺑﺮاﻳﻦ ﺗﻜﻨﻴﻜﻬﺎي ﭘﻴﭽﻴﺪه ﺗﺮي‬ ‫ﻣﻤﻜﻦ اﺳﺖ ﺑﺮاي ﭘﻴﺶ ﺑﻴﻨﻲ ﻣﺘﻐﻴﺮﻫﺎي آﻳﻨﺪه ﺿﺮوري ﺑﺎﺷﻨﺪ. اﻧﻮاع ﻣﺪل‬ ‫ﻳﻜﺴﺎن اﻏﻠﺐ ﻣﻲ ﺗﻮاﻧﻨﺪ ﻫﻢ ﺑﺮاي ﺣﺪس ﺑﺎزﮔﺸﺘﻲ وﻫﻢ ﺑﺮاي ﻃﺒﻘﻪ ﺑﻨﺪي‬ ‫اﺳﺘﻔﺎده ﺷﻮﻧﺪ. ﺑﺮاي ﻣﺜﺎل اﻟﮕﻮرﻳﺘﻢ درﺧﺖ ﺗﺼﻤﻴﻢ ‪) CART‬درﺧﺘﻬﺎي ﺣﺪس‬ ‫وﻃﺒﻘﻪ ﺑﻨﺪي (ﻫﻢ ﺑﺮاي ﺳﺎﺧﺖ درﺧﺘﻬﺎي ﺣﺪس و ﻫﻢ ﺑﺮاي ﺳﺎﺧﺖ درﺧﺘﻬﺎي‬ ‫ﻃﺒﻘﻪ ﺑﻨﺪي ﺑﻪ ﻛﺎر ﻣﻲ رود. ﺷﺒﻜﻪ ﻫﺎي ﻋﺼﺒﻲ ﻫﻢ ﻣﻲ ﺗﻮاﻧﻨﺪ ﻫﺮ دو ﻧﻮع ﻣﺪل‬ ‫ﻧﺎم ﺑﺮده ﺷﺪه را اﻳﺠﺎد ﻧﻤﺎﻳﻨﺪ.‬ ‫ﺳﺮي ﻫﺎي زﻣﺎﻧﻲ‬ ‫ﺳﺮي ﻫﺎي زﻣﺎﻧﻲ ﭘﻴﺶ ﺑﻴﻨﻲ ﻛﻨﻨﺪه ﻣﻘﺎدﻳﺮي را ﻛﻪ ﻫﻨﻮز ﻣﻘﺪارﺷﺎن ﻣﺸﺨﺺ‬ ‫ﻧﻴﺴﺖ ﺑﺮ اﺳﺎس ﻳﻚ ﺳﺮي از ﭘﻴﺸﮕﻮﻫﺎي ﻣﺘﻐﻴﺮ ﺑﺎ زﻣﺎن ﭘﻴﺶ ﺑﻴﻨﻲ ﻣﻲ ﻛﻨﻨﺪ.‬ ‫ﻣﺎﻧﻨﺪ ﺣﺪس ﺑﺎزﮔﺸﺘﻲ اﻳﻦ روش ﻫﻢ از ﻧﺘﺎﻳﺞ ﻣﻌﻠﻮم ﻗﺒﻠﻲ ﺑﺮاي اﻋﻤﺎل‬ ‫ﭘﻴﺸﮕﻮﻳﻲ ﻫﺎي ﺑﻌﺪي اش ﺑﻬﺮه ﻣﻲ ﺑﺮد. ﻣﺪﻟﻬﺎ ﺑﺎﻳﺪ ﺧﻮاص ﻣﻨﺤﺼﺮ ﺑﻔﺮد زﻣﺎن‬ ‫ﻋﻠﻲ اﻟﺨﺼﻮص ﺳﻠﺴﻠﻪ ﻣﺮاﺗﺐ دوره ﻫﺎي زﻣﺎﻧﻲ ﻣﺎﻧﻨﺪ دوره ﻫﺎي ﻓﺼﻠﻲ ﺗﺎﺛﻴﺮات‬ ‫ﺗﻘﻮﻳﻤﻲ ﻣﺎﻧﻨﺪ ﺗﻌﻄﻴﻼت ﻣﺤﺎﺳﺒﺎت ﺗﺎرﻳﺨﻲ و ﻣﻼﺣﻈﺎت ﺧﺎص ﻣﺎﻧﻨﺪ ﺗﻄﺒﻴﻖ‬ ‫ﮔﺬﺷﺘﻪ ﺑﺎ ﺣﺎل را ذﺧﻴﺮه ﻧﻤﺎﻳﻨﺪ.‬ ‫ﻣﺪﻟﻬﺎ و اﻟﮕﻮرﻳﺘﻤﻬﺎي داده ﻛﺎوي‬ ‫ﺣﺎل ﺑﻴﺎﻳﻴﺪ ﺑﺮﺧﻲ از اﻟﮕﻮرﻳﺘﻤﻬﺎ و ﻣﺪﻟﻬﺎﻳﻲ را ﻛﻪ ﺑﺮاي ﻛﺎوش داده اﺳﺘﻔﺎده ﻣﻲ‬ ‫ﺷﻮد را ﺑﺮرﺳﻲ ﻛﻨﻴﻢ. اﻏﻠﺐ ﻣﺤﺼﻮﻻت از اﻧﻮاع ﮔﻮﻧﺎﮔﻮﻧﻲ از اﻟﮕﻮرﻳﺘﻤﻬﺎ ﻛﻪ در‬ ‫ﻋﻠﻢ ﻛﺎﻣﭙﻴﻮﺗﺮ ﻳﺎ ﻣﻘﺎﻻت آﻣﺎري اراﺋﻪ ﺷﺪه ﺑﻪ ﻫﻤﺮاه ﭘﻴﺎده ﺳﺎزي ﺧﺎص آﻧﻬﺎ ﻛﻪ‬ ‫ﺟﻬﺖ رﺳﻴﺪن ﺑﻪ ﻫﺪف ﻓﺮوﺷﻨﺪه ﻣﻲ ﺑﺎﺷﺪ اﺳﺘﻔﺎده ﻣﻲ ﻧﻤﺎﻳﻨﺪ. ﺑﺮاي ﻣﺜﺎل‬ ‫ﺑﺴﻴﺎري از ﻓﺮوﺷﻨﺪﮔﺎن ﻧﺴﺨﻪ ﻫﺎﻳﻲ از درﺧﺘﻬﺎي ﺗﺼﻤﻴﻢ ‪ CART‬ﻳﺎ‬ ‫‪ CHAID‬را ﺑﻪ ﻫﻤﺮاه اﻣﻜﺎﻧﺎﺗﻲ ﺑﺮاي ﻛﺎر ﺑﺮ روي ﻛﺎﻣﭙﻴﻮﺗﺮﻫﺎي ﻣﻮازي ﻣﻲ‬ ‫ﻓﺮوﺷﻨﺪ. ﺑﺮﺧﻲ از ﻓﺮوﺷﻨﺪﮔﺎن اﻟﮕﻮرﻳﺘﻤﻬﺎي ﻣﺨﺘﺺ ﺧﻮد دارﻧﺪ ﻛﻪ ﮔﺮﭼﻪ‬
  26. 26. ‫ﻣﻤﻜﻦ اﺳﺖ واﺑﺴﺘﮕﻲ ﻫﺎ ﻳﺎ اﻣﻜﺎﻧﺎت اﺿﺎﻓﻲ ﻧﺪاﺷﺘﻪ ﺑﺎﺷﺪ اﻣﺎ ﻣﻲ ﺗﻮاﻧﺪ ﺧﻮب ﻛﺎر‬ ‫ﻛﻨﺪ.‬ ‫ﺷﺎﻳﺪ ﻣﻬﻤﺘﺮﻳﻦ ﻧﻜﻨﻪ اي ﺑﺎﺷﺪ ﻛﻪ ﻫﻴﭻ ﻣﺪل ﻳﺎ اﻟﮕﻮرﻳﺘﻤﻲ ﻧﻤﻲ ﺗﻮاﻧﺪ و ﻧﺒﺎﻳﺪ ﺑﻪ‬ ‫ﺗﻨﻬﺎﻳﻲ اﺳﺘﻔﺎده ﺷﻮد. ﺑﺮاي ﻫﺮ ﻣﺴﺎﻟﻪ داده ﺷﺪه ﻃﺒﻴﻌﺖ داده اﺳﺘﻔﺎده ﺷﺪه ﺑﺮ‬ ‫روي اﻧﺘﺨﺎب ﻣﺪﻟﻬﺎ و اﻟﮕﻮرﻳﺘﻤﻬﺎﻳﻲ ﻛﻪ ﺷﻤﺎ ﺑﺮ ﻣﻲ ﮔﺰﻳﻨﻴﺪ ﺗﺎﺛﻴﺮ ﺧﻮاﻫﺪ‬ ‫ﮔﺬاﺷﺖ. ﻧﻤﻲ ﺗﻮان ﻫﻴﭻ ﻣﺪل ﻳﺎ اﻟﮕﻮرﻳﺘﻤﻲ را در اﻳﻦ زﻣﻴﻨﻪ ﺑﻬﺘﺮﻳﻦ ﻧﺎﻣﻴﺪ.‬ ‫ﻧﺘﻴﺠﺘﺎ ﺷﻤﺎ ﺑﻪ ﻳﻚ ﺳﺮي اﺑﺰار و ﺗﻜﻨﻮﻟﻮژي ﺟﻬﺖ ﻳﺎﻓﺘﻦ ﺑﻬﺘﺮﻳﻦ ﻣﺪل ﻣﻤﻜﻨﻪ‬ ‫ﻧﻴﺎز ﺧﻮاﻫﻴﺪ داﺷﺖ. ]3[‬ ‫ﺷﺒﻜﻪ ﻫﺎي ﻋﺼﺒﻲ‬ ‫ﺷﺒﻜﻪ ﻫﺎي ﻋﺼﺒﻲ ﺑﻪ ﻃﻮر ﺧﺎﺻﻲ ﻣﻮرد اﺳﺘﻔﺎده اﻧﺪ ﭼﺮا ﻛﻪ آﻧﻬﺎ اﺑﺰاري ﻣﻮﺛﺮ‬ ‫ﺑﺮاي ﻣﺪﻟﺴﺎزي ﻣﺴﺎﺋﻞ ﺑﺰرگ و ﭘﻴﭽﻴﺪه ﻛﻪ ﻣﻤﻜﻦ اﺳﺖ در آﻧﻬﺎ ﺻﺪﻫﺎ ﻣﺘﻐﻴﺮ‬ ‫ﭘﻴﺶ ﺑﻴﻨﻲ ﻛﻨﻨﺪه ﻛﻪ ﻓﻌﻞ و اﻧﻔﻌﺎﻻت زﻳﺎدي دارﻧﺪ وﺟﻮد داﺷﺘﻪ ﺑﺎﺷﺪ.)ﺷﺒﻜﻪ‬ ‫ﻫﺎي ﻋﺼﺒﻲ زﻳﺴﺘﻲ ﺑﻄﻮر ﻏﻴﺮ ﻗﺎﺑﻞ ﻣﻘﺎﻳﺴﻪ اي ﭘﻴﭽﻴﺪه ﺗﺮ ﻫﺴﺘﻨﺪ.(ﺷﺒﻜﻪ ﻫﺎي‬ ‫ﻋﺼﺒﻲ ﻣﻲ ﺗﻮاﻧﻨﺪ در ﻣﺴﺎﺋﻞ ﻃﺒﻘﻪ ﺑﻨﺪي ﻳﺎ ﺣﺪﺳﻬﺎي ﺑﺎزﮔﺸﺘﻲ)ﻛﻪ در آﻧﻬﺎ‬ ‫ﻣﺘﻐﻴﺮ ﺧﺮوﺟﻲ ﭘﻴﻮﺳﺘﻪ اﺳﺖ( اﺳﺘﻔﺎده ﺷﻮﻧﺪ.‬ ‫ﻳﻚ ﺷﺒﻜﻪ ﻋﺼﺒﻲ ﺑﺎ ﻳﻚ ﻻﻳﻪ داﺧﻠﻲ ﺷﺮوع ﻣﻲ ﺷﻮد ﻛﻪ در آن ﻫﺮ ﮔﺮه ﺑﻪ ﻳﻚ‬ ‫ﻣﺘﻐﻴﺮ ﭘﻴﺸﮕﻮ ﻣﻨﺴﻮب ﻣﻲ ﮔﺮدد. اﻳﻦ ﮔﺮه ﻫﺎي ورودي ﺑﻪ ﻳﻚ ﺗﻌﺪاد از ﮔﺮه ﻫﺎ‬ ‫در ﻻﻳﻪ ﭘﻨﻬﺎن ﻣﺘﺼﻞ ﻣﻲ ﺷﻮﻧﺪ.ﮔﺮه ﻫﺎ در ﻻﻳﻪ ﭘﻨﻬﺎن ﻣﻲ ﺗﻮاﻧﻨﺪ ﺑﻪ ﮔﺮه ﻫﺎﻳﻲ‬ ‫در ﻳﻚ ﻻﻳﻪ ﭘﻨﻬﺎن دﻳﮕﺮ ﻳﺎ ﺑﻪ ﻳﻚ ﻻﻳﻪ ﺧﺮوﺟﻲ ﻣﺘﺼﻞ ﺷﻮد. ﻻﻳﻪ ﺧﺮوﺟﻲ ﺧﻮد‬ ‫ﺷﺎﻣﻞ ﻳﻚ ﻳﺎ ﺑﻴﺸﺘﺮ ﻣﺘﻐﻴﺮﻫﺎي ﺟﻮاب ﻣﻲ ﺑﺎﺷﺪ.‬
  27. 27. ‫ﻳﻚ ﺷﺒﻜﻪ ﻋﺼﺒﻲ ﺑﺎ ﻳﻚ ﻻﻳﻪ ﭘﻨﻬﺎن‬ ‫درﺧﺖ ﻫﺎي اﻧﺘﺨﺎب‬ ‫درﺧﺖ ﻫﺎي اﻧﺘﺨﺎب راﻫﻲ ﺑﺮاي ﻧﻤﺎﻳﺶ ﻳﻚ ﺳﺮي از ﻗﻮاﻧﻴﻦ ﻛﻪ ﺑﻪ ﻳﻚ ﻛﻼس‬ ‫ﻳﺎ ﻣﻘﺪار ﻣﻨﺠﺮ ﻣﻲ ﺷﻮد ﻣﻲ ﺑﺎﺷﻨﺪ. ﺑﺮاي ﻣﺜﺎل ﺷﻤﺎ ﻣﻤﻜﻦ اﺳﺖ ﺑﺨﻮاﻫﻴﺪ‬ ‫درﺧﻮاﺳﺘﻬﺎي وام را ﺑﺮﺣﺴﺐ رﻳﺴﻚ اﻋﺘﺒﺎر ﺧﻮب ﻳﺎ ﺑﺪ ﻃﺒﻘﻪ ﺑﻨﺪي ﻛﻨﻴﺪ. ﺷﻜﻞ‬ ‫ﺑﻌﺪ ﻳﻚ ﻣﺪل ﺳﺎده از ﻳﻚ درﺧﺖ اﻧﺘﺨﺎب ﺑﻪ ﻫﻤﺮاه ﺗﻮﺿﻴﺢ در ﻣﻮرد ﺗﻤﺎم ﺑﺴﺘﻪ‬ ‫ﻫﺎي ﭘﺎﻳﻪ آن ﻳﻌﻨﻲ ﮔﺮه اﻧﺘﺨﺎب, ﺷﺎﺧﻪ ﻫﺎ و ﺑﺮﮔﻬﺎي آن ﻛﻪ اﻳﻦ ﻣﺴﺎﻟﻪ را ﺣﻞ‬ ‫ﻣﻲ ﻛﻨﺪ ﻧﺸﺎن ﻣﻲ دﻫﺪ.‬ ‫اوﻟﻴﻦ ﺑﺴﺘﻪ ﮔﺮه ﺑﺎﻻﻳﻲ ﺗﺼﻤﻴﻢ ﻳﺎ رﻳﺸﻪ ﻣﻲ ﺑﺎﺷﺪ ﻛﻪ ﻳﻚ ﺑﺮرﺳﻲ ﺟﻬﺖ‬ ‫ﺑﺮﻗﺮاري ﺷﺮط ﺧﺎﺻﻲ ﻣﻲ ﻧﻤﺎﻳﺪ. ﮔﺮه رﻳﺸﻪ در اﻳﻦ ﻣﺜﺎل‬ ‫“ 000,04$>‪ ” Income‬ﻣﻲ ﺑﺎﺷﺪ. ﻧﺘﺎﻳﺞ اﻳﻦ ﺑﺮرﺳﻲ ﻣﻨﺠﺮ ﻣﻲ ﺷﻮد ﻛﻪ‬ ‫درﺧﺖ ﺑﻪ دوﺷﺎﺧﻪ ﺗﻘﺴﻴﻢ ﮔﺮددﻛﻪ ﻫﺮ ﻳﻚ ﻧﺸﺎن دﻫﻨﺪه ﺟﻮاﺑﻬﺎي ﻣﻤﻜﻦ‬
  28. 28. ‫اﺳﺖ.در اﻳﻦ ﻣﻮرد ﺑﺮرﺳﻲ ﺷﺮط ﻣﺬﻛﻮر ﻣﻲ ﺗﻮاﻧﺪ داراي ﺟﻮاب ﺧﻴﺮ ﻳﺎ ﺑﻠﻪ ﺑﺎﺷﺪ‬ ‫در ﻧﺘﻴﺠﻪ دو ﺷﺎﺧﻪ دارﻳﻢ.‬ ‫ﺑﺮاﺳﺎس ﻧﻮع اﻟﮕﻮرﻳﺘﻢ ﻫﺮ ﮔﺮه ﻣﻲ ﺗﻮاﻧﺪ دو ﻳﺎ ﺗﻌﺪاد ﺑﻴﺸﺘﺮي ﺷﺎﺧﻪ داﺷﺘﻪ‬ ‫ﺑﺎﺷﺪ. ﺑﺮاي ﻣﺜﺎل ‪ CART‬درﺧﺘﻬﺎﻳﻲ ﺑﺎ ﺗﻨﻬﺎ دوﺷﺎﺧﻪ در ﻫﺮ ﮔﺮه ﺗﻮﻟﻴﺪ ﻣﻲ‬ ‫ﻛﻨﺪ.ﭼﻨﻴﻦ درﺧﺘﻲ ﻳﻚ درﺧﺖ دودوﻳﻲ ﻣﻲ ﺑﺎﺷﺪ.‬ ‫ﻣﺪﻟﻬﺎي ﻣﺨﺘﻠﻒ درﺧﺖ ﺗﺼﻤﻴﻢ ﺑﻄﻮر ﻋﻤﻮﻣﻲ در داده ﻛﺎوي ﺑﺮاي ﻛﺎوش داده و‬ ‫ﺑﺮاي اﺳﺘﻨﺘﺎج درﺧﺖ و ﻗﻮاﻧﻴﻦ آن ﻛﻪ ﺑﺮاي ﭘﻴﺶ ﺑﻴﻨﻲ ﻣﻮرد اﺳﺘﻔﺎده ﻗﺮار ﻣﻲ‬ ‫ﮔﻴﺮد اﺳﺘﻔﺎده ﻣﻲ ﺷﻮﻧﺪ. ﻳﻚ ﺗﻌﺪاد از اﻟﮕﻮرﻳﺘﻤﻬﺎي ﻣﺨﺘﻠﻒ ﻣﻲ ﺗﻮاﻧﻨﺪ ﺑﺮاي‬ ‫ﺳﺎﺧﺖ درﺧﺘﻬﺎي ﺗﺼﻤﻴﻢ ﺷﺎﻣﻞ ‪ Quest , CART , CHAID‬و 0.5‪ C‬ﺑﻜﺎر‬ ‫روﻧﺪ.‬ ‫اﻧﺪازه درﺧﺖ ﻣﻲ ﺗﻮاﻧﺪ از ﻃﺮﻳﻖ ﻗﻮاﻧﻴﻦ ﻣﺘﻮﻗﻒ ﺷﻮﻧﺪه ﻛﻪ رﺷﺪ درﺧﺖ را‬ ‫ﻣﺤﺪود ﻣﻲ ﻛﻨﻨﺪ ﻛﻨﺘﺮل ﺷﻮد. ]3[‬ ‫اﺳﺘﻨﺘﺎج ﻗﺎﻧﻮن‬ ‫اﺳﺘﻨﺘﺎج ﻗﺎﻧﻮن روﺷﻲ ﺑﺮاي ﺑﺪﺳﺖ آوردن ﻳﻚ ﺳﺮي از ﻗﻮاﻧﻴﻦ ﺑﺮاي ﻃﺒﻘﻪ ﺑﻨﺪي‬ ‫ﻣﻮارد ﻣﻲ ﺑﺎﺷﺪ. اﮔﺮﭼﻪ درﺧﺘﻬﺎي ﺗﺼﻤﻴﻢ ﻣﻲ ﺗﻮاﻧﻨﺪ ﻳﻚ ﺳﺮي ﻗﻮاﻧﻴﻦ ﺗﻮﻟﻴﺪ‬ ‫ﻛﻨﻨﺪ روﺷﻬﺎي اﺳﺘﻨﺘﺎج ﻗﺎﻧﻮن ﻳﻚ ﻣﺠﻤﻮﻋﻪ از ﻗﻮاﻧﻴﻦ واﺑﺴﺘﻪ ﻛﻪ ﺿﺮورﺗﺎ‬ ‫درﺧﺘﻲ ﺗﺸﻜﻴﻞ ﻧﻤﻲ دﻫﻨﺪ را ﺗﻮﻟﻴﺪ ﻣﻲ ﻧﻤﺎﻳﺪ. ﭼﻮن اﺳﺘﻨﺘﺎج ﻛﻨﻨﺪه ﻗﻮاﻧﻴﻦ‬ ‫ﻟﺰوﻣﺎ اﻧﺸﻌﺎﺑﻲ در ﻫﺮ ﺳﻄﺢ ﻗﺮار ﻧﻤﻲ دﻫﺪ و ﻣﻲ ﺗﻮاﻧﺪ ﮔﺎم ﺑﻌﺪي را ﺗﺸﺨﻴﺺ‬ ‫دﻫﺪ ﮔﺎﻫﻲ اوﻗﺎت ﻣﻲ ﺗﻮاﻧﺪ اﻟﮕﻮﻫﺎي ﻣﺨﺘﻠﻒ و ﺑﻬﺘﺮي را ﺑﺮاي ﻃﺒﻘﻪ ﺑﻨﺪي‬ ‫ﺑﻴﺎﺑﺪ. ﺑﺮﺧﻼف درﺧﺘﺎن ﻗﻮاﻧﻴﻦ ﺗﻮﻟﻴﺪي ﻣﻤﻜﻦ اﺳﺖ ﺗﻤﺎم ﺣﺎﻟﺘﻬﺎي ﻣﻤﻜﻦ را‬ ‫ﭘﻮﺷﺶ ﻧﺪﻫﻨﺪ.‬ ‫اﻟﮕﻮرﻳﺘﻤﻬﺎي ژﻧﺘﻴﻚ‬ ‫اﻟﮕﻮرﻳﺘﻤﻬﺎي ژﻧﺘﻴﻚ ﺑﺮاي ﻳﺎﻓﺖ اﻟﮕﻮﻫﺎ اﺳﺘﻔﺎده ﻧﻤﻲ ﺷﻮد ﺑﻠﻜﻪ ﺑﻴﺸﺘﺮ ﺑﻪ ﻣﻨﻈﻮر‬ ‫راﻫﻨﻤﺎﻳﻲ در ﻣﻮرد ﻓﺮآﻳﻨﺪ ﻳﺎدﮔﻴﺮي اﻟﮕﻮرﻳﺘﻤﻬﺎي داده ﻛﺎوي ﻣﺎﻧﻨﺪ ﺷﺒﻜﻪ ﻫﺎي‬ ‫ﻋﺼﺒﻲ ﻣﻮرد اﺳﺘﻔﺎده ﻗﺮار ﻣﻲ ﮔﻴﺮد. اﻟﮕﻮرﻳﺘﻤﻬﺎي ژﻧﺘﻴﻚ ﺑﻪ ﻋﻨﻮان ﻳﻚ ﻣﺘﺪ‬
  29. 29. ‫ﺟﻬﺖ اﻧﺠﺎم ﻳﻚ ﺟﺴﺘﺠﻮي ﻫﺪاﻳﺖ ﺷﺪه ﺑﺮاي ﻣﺪﻟﻬﺎي ﺧﻮب در ﻓﻀﺎي ﺣﻞ‬ ‫ﻣﺴﺎﻟﻪ ﻋﻤﻞ ﻣﻲ ﻛﻨﺪ.‬ ‫اﻳﻦ اﻟﮕﻮرﻳﺘﻤﻬﺎ, اﻟﮕﻮرﻳﺘﻤﻬﺎي ژﻧﺘﻴﻚ ﻧﺎﻣﻴﺪه ﻣﻲ ﺷﻮﻧﺪ ﭼﻮن ﺑﻄﻮر ﺑﻲ ﻗﺎﻋﺪه اي‬ ‫اﻟﮕﻮي ﺗﻜﺎﻣﻞ زﻳﺴﺘﻲ ﻛﻪ در آن اﻋﻀﺎي ﻳﻚ ﻧﺴﻞ ﺑﺮ ﺳﺮ اﻧﺘﻘﺎل ﺧﺼﻮﺻﻴﺎت‬ ‫ﺧﻮد ﺑﻪ ﻧﺴﻞ ﺑﻌﺪ رﻗﺎﺑﺖ ﻣﻲ ﻛﻨﻨﺪ ﺗﺎ ﻧﻬﺎﻳﺘﺎ ﺑﻬﺘﺮﻳﻦ ﻣﺪل ﻳﺎﻓﺖ ﺷﻮد را دﻧﺒﺎل‬ ‫ﻣﻲ ﻛﻨﻨﺪ. اﻃﻼﻋﺎﺗﻲ ﻛﻪ ﺑﺎﻳﺪ اﻧﺘﻘﺎل داده ﺷﻮد در ﻗﺎﻟﺐ ﻛﺮوﻣﻮزﻣﻬﺎ ﻛﻪ ﺷﺎﻣﻞ‬ ‫ﭘﺎراﻣﺘﺮﻫﺎﻳﻲ ﺑﺮاي ﺳﺎﺧﺘﻦ ﻣﺪل ﻣﻲ ﺑﺎﺷﺪ ﻗﺮار ﻣﻲ ﮔﻴﺮد.‬ ‫ﻓﺮآﻳﻨﺪ داده ﻛﺎوي‬ ‫ﻣﺪﻟﻬﺎي ﻓﺮآﻳﻨﺪ‬ ‫ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ اﻳﻨﻜﻪ ﻳﻚ ﻓﺮآﻳﻨﺪ ﺳﻴﺴﺘﻤﺎﺗﻴﻚ ﺑﺮاي داده ﻛﺎوي ﻣﻮﻓﻖ ﺿﺮوري اﺳﺖ‬ ‫ﺑﺴﻴﺎري از ﻓﺮوﺷﻨﺪﮔﺎن و ﻫﻤﻔﻜﺮان ﻣﺸﺎور آﻧﻬﺎ ﻳﻚ ﻣﺪل ﻓﺮآﻳﻨﺪ ﺑﺮاي راﻫﻨﻤﺎﻳﻲ‬ ‫ﻛﺎرﺑﺮ ﺧﻮد ﻛﻪ از ﻃﺮﻳﻖ ﻳﻚ ﺳﺮي ﻣﺮاﺣﻞ ﻣﺸﺨﺺ او را ﺑﻪ ﻧﺘﺎﻳﺞ ﺧﻮﺑﻲ ﻫﺪاﻳﺖ‬ ‫ﺧﻮاﻫﺪ ﻛﺮد ﻃﺮاﺣﻲ ﻛﺮدﻧﺪ. ﺑﺮاي ﻣﺜﺎل ‪ SPSS‬از ﻣﺮاﺣﻞ ﭘﻨﺠﮕﺎﻧﻪ ﺗﺸﺨﻴﺺ‬ ‫دﺳﺘﺮﺳﻲ ﺗﺤﻠﻴﻞ ﻋﻤﻞ و اﺗﻮﻣﺎﺳﻴﻮن و ‪ SAS‬از ﻣﺮاﺣﻞ ﻧﻤﻮﻧﻪ ﮔﻴﺮي, ﺟﺴﺘﺠﻮ,‬ ‫ﺗﻐﻴﻴﺮ و ﺑﻬﺒﻮد, ﻣﺪل ﺳﺎزي و ﺗﻌﻴﻴﻦ اﺳﺘﻔﺎده ﻣﻲ ﻧﻤﺎﻳﺪ.‬ ‫اﺧﻴﺮا اﺋﺘﻼف ﻓﺮوﺷﻨﺪﮔﺎن وﻛﺎرﺑﺮان ﺷﺎﻣﻞ ﺳﻴﺴﺘﻤﻬﺎي ﻣﻬﻨﺪﺳﻲ ‪NCR‬‬ ‫ﻛﭙﻨﻬﺎك, راه ﺣﻠﻬﺎي ﺟﺎﻣﻊ ‪ SPSS‬و ﺑﺎﻧﻚ ‪ OHRA‬در ﺣﺎل ﺳﺎﺧﺘﻦ ﻳﻚ‬ ‫ﻓﺮآﻳﻨﺪ ﺧﺎص ﻛﻪ ﺑﻪ ﻓﺮآﻳﻨﺪ اﺳﺘﺎﻧﺪارد ﺻﻨﻌﺘﻲ داده ﻛﺎوي )‪(CRISP-DM‬‬ ‫ﻣﻮﺳﻮم اﺳﺖ ﻣﻲ ﺑﺎﺷﻨﺪ. اﻳﻦ ﻓﺮآﻳﻨﺪ ﺑﺮاي ﭘﺮدازش ﻣﺪﻟﻬﺎي ﺷﺮﻛﺘﻬﺎي دﻳﮕﺮ ﻛﻪ‬ ‫ﻳﻚ ﻛﺎره ﻳﺎ دو ﻛﺎره ﻫﺴﺘﻨﺪ ﻳﻜﺴﺎن ﻣﻲ ﺑﺎﺷﺪ. اﻳﻦ ﻓﺮآﻳﻨﺪ ﺷﺮوع ﺧﻮﺑﻲ ﺑﺮاي‬ ‫ﻛﻤﻚ ﺑﻪ ﻣﺮدم ﺟﻬﺖ ﻓﻬﻢ ﻣﺮاﺣﻞ ﺿﺮوري در داده ﻛﺎوي ﻣﻮﻓﻖ ﻣﻲ ﺑﺎﺷﺪ. ]1[‬ ‫ﻣﺪل ﻓﺮآﻳﻨﺪ دو ﺳﻮﻳﻪ‬ ‫ﻣﺪل ﻓﺮآﻳﻨﺪ دو ﺳﻮﻳﻪ ﻛﻪ در زﻳﺮ ﺗﻮﺿﻴﺢ داده ﺷﺪه اﺳﺖ ﺑﺮﺧﻲ از ﻣﻮارد ﭘﻴﺶ‬ ‫ﺑﻴﻨﻲ را از ﻣﺪل ‪ CRISP-DM‬ﺑﻪ ارث ﻣﻲ ﺑﺮد.‬ ‫ﮔﺎﻣﻬﺎي اﺻﻠﻲ داده ﻛﺎوي ﺟﻬﺖ ﻛﺸﻒ داﻧﺶ ﻋﺒﺎرﺗﻨﺪ از:‬
  30. 30. ‫1- ﺗﻌﺮﻳﻒ ﻣﺴﺎﻟﻪ‬ ‫2- ﺳﺎﺧﺘﻦ ﭘﺎﻳﮕﺎه داده ﻣﺮﺑﻮط ﺑﻪ داده ﻛﺎوي‬ ‫3- ﺟﺴﺘﺠﻮي داده‬ ‫4- آﻣﺎده ﺳﺎﺧﺘﻦ داده ﺑﺮاي ﻣﺪل ﺳﺎزي‬ ‫5- ﺳﺎﺧﺘﻦ ﻣﺪل‬ ‫6- ارزﻳﺎﺑﻲ ﻣﺪل‬ ‫7- ﺳﺎﺧﺖ ﻣﺪل وﻧﺘﺎﻳﺞ‬ ‫ﺑﻪ ﺳﺮاغ اﻳﻦ ﮔﺎﻣﻬﺎ ﻣﻲ روﻳﻢ ﺗﺎ ﻓﺮآﻳﻨﺪ ﻛﺸﻒ داﻧﺶ را ﺑﻬﺘﺮ ﻣﺘﻮﺟﻪ ﺷﻮﻳﻢ.‬ ‫1- ﺗﻌﺮﻳﻒ ﻣﺴﺎﻟﻪ‬ ‫در اﺑﺘﺪاي اﻣﺮ ﭘﻴﺶ زﻣﻴﻨﻪ ﻛﺸﻒ داﻧﺶ ﻓﻬﻢ درﺳﺖ داده و ﻣﺴﺎﻟﻪ ﻣﻲ ﺑﺎﺷﺪ.‬ ‫ﺑﺪون اﻳﻦ ﻓﻬﻢ درﺳﺖ ﻫﻴﭻ اﻟﮕﻮرﻳﺘﻤﻲ ﺻﺮف ﻧﻈﺮ از ﺧﺒﺮه ﺑﻮدن آن ﻧﻤﻲ‬ ‫ﺗﻮاﻧﺪ ﻧﺘﻴﺠﻪ ﻣﻄﻤﺌﻨﻲ ﺑﺮاي ﺷﻤﺎ ﺣﺎﺻﻞ ﻧﻤﺎﻳﺪ و ﻫﻤﭽﻨﻴﻦ ﺷﻤﺎ ﻗﺎدر ﻧﺨﻮاﻫﻴﺪ‬ ‫ﺑﻮد ﻛﻪ ﻣﺴﺎﺋﻠﻲ را ﻛﻪ ﺳﻌﻲ در ﺣﻞ آن دارﻳﺪ ﺗﻌﺮﻳﻒ ﻛﺮده و ﻫﻤﭽﻨﻴﻦ داده‬ ‫را ﺟﻬﺖ ﻛﺎوش آﻣﺎده ﻧﻤﻮده و ﻳﺎ ﻧﺘﺎﻳﺞ را ﺑﻪ ﻃﻮر ﺻﺤﻴﺢ ﺗﻔﺴﻴﺮ ﻧﻤﺎﺋﻴﺪ.‬ ‫ﺑﺮاي اﺳﺘﻔﺎده ﺑﻬﺘﺮ از داده ﻛﺎوي ﺷﻤﺎ ﺑﺎﻳﺪ ﻳﻚ ﺑﻴﺎن واﺿﺢ از ﻫﺪف ﺧﻮد‬ ‫داﺷﺘﻪ ﺑﺎﺷﻴﺪ. ]1[‬ ‫ﺳﺎﺧﺘﻦ ﻳﻚ ﭘﺎﻳﮕﺎه داده داده ﻛﺎوي‬ ‫اﻳﻦ ﮔﺎم ﺑﻪ ﻫﻤﺮاه دو ﮔﺎم ﺑﻌﺪي ﻫﺴﺘﻪ آﻣﺎده ﺳﺎزي داده را ﺗﺸﻜﻴﻞ ﻣﻲ‬ ‫دﻫﻨﺪ. در ﻣﺠﻤﻮع ﮔﺎﻣﻬﺎي ﮔﻔﺘﻪ ﺷﺪه وﻗﺖ و ﻛﺎر ﺑﻴﺸﺘﺮي از ﺳﺎﻳﺮ ﮔﺎﻣﻬﺎ ﻣﻲ‬ ‫ﺑﺮﻧﺪ. ﻣﻤﻜﻦ اﺳﺖ ﺷﻤﺎ ﮔﺎﻣﻬﺎي ﺗﻜﺮاري در آﻣﺎده ﺳﺎزي داده و ﺳﺎﺧﺘﻦ ﻣﺪل‬ ‫داﺷﺘﻪ ﺑﺎﺷﻴﺪ ﭼﺮا ﻛﻪ در ﻫﺮ ﻣﺮﺣﻠﻪ ﻣﻤﻜﻦ اﺳﺖ ﺑﻪ ﻧﻜﺘﻪ اي ﺑﺮﺳﻴﺪ ﻛﻪ ﺷﻤﺎ‬ ‫را ﺑﺮ آن دارد داده ﺧﻮد را ﺑﻬﺒﻮد ﺑﺨﺸﻴﺪ. اﻳﻦ ﮔﺎﻣﻬﺎي آﻣﺎده ﺳﺎزي داده ﻣﻲ‬ ‫ﺗﻮاﻧﺪ 05% ﺗﺎ 09% وﻗﺖ و ﻛﺎر از ﺗﻤﺎم ﻓﺮآﻳﻨﺪ ﻛﺸﻒ داﻧﺶ را ﺑﻪ ﺧﻮد‬ ‫اﺧﺘﺼﺎص دﻫﺪ.‬
  31. 31. ‫داده اي ﻛﻪ ﻣﻲ ﺧﻮاﻫﺪ ﻛﺎوش ﺷﻮد ﺑﺎﻳﺪ در ﻳﻚ ﭘﺎﻳﮕﺎه داده ذﺧﻴﺮه ﺷﻮد. ﺑﺮ‬ ‫اﺳﺎس ﻣﻘﺪار داده, ﭘﻴﭽﻴﺪﮔﻲ داده و اﺳﺘﻔﺎده ﻫﺎﻳﻲ ﻛﻪ ﻗﺮار اﺳﺖ از آن ﺷﻮد‬ ‫ﻳﻚ ﻓﺎﻳﻞ ﻣﻌﻤﻮﻟﻲ و ﻳﺎ ﻳﻚ ‪ SpreadSheet‬ﺑﺮاي اﻳﻦ ﻛﺎر ﻛﺎﻓﻲ اﺳﺖ.‬ ‫ﺑﻪ اﺣﺘﻤﺎل زﻳﺎد ﺷﻤﺎ ﻣﻲ ﺧﻮاﻫﻴﺪ داده ﻣﻮﺟﻮد در اﻧﺒﺎره داده را ﺗﻐﻴﻴﺮ دﻫﻴﺪ.‬ ‫ﺑﻪ ﻋﻼوه ﺷﻤﺎ ﻣﻤﻜﻦ اﺳﺖ ﺑﺨﻮاﻫﻴﺪ ﻓﻴﻠﺪﻫﺎي ﺟﺪﻳﺪي ﻛﻪ از ﻓﻴﻠﺪﻫﺎي‬ ‫ﻣﻮﺟﻮد ﻣﺤﺎﺳﺒﻪ ﺷﺪه اﺳﺖ را ﺑﻪ اﻧﺒﺎر داده ﺧﻮد ﺑﻴﺎﻓﺰاﻳﻴﺪ.اﻳﻦ ﻳﻜﻲ از دﻻﻳﻞ‬ ‫اﺳﺘﻔﺎده از ﻳﻚ ﭘﺎﻳﮕﺎه داده ﺟﺪاﮔﺎﻧﻪ اﺳﺖ.‬ ‫دﻟﻴﻞ دﻳﮕﺮ ﺑﺮاي اﻳﻦ ﻛﺎر آن اﺳﺖ ﻛﻪ اﻧﺒﺎر داده ﻫﺎي ﻳﻜﻲ ﺷﺪه ﻣﻤﻜﻦ اﺳﺖ‬ ‫ﺑﻪ آﺳﺎﻧﻲ اﻧﻮاع ﺟﺴﺘﺠﻮﻫﺎﻳﻲ را ﻛﻪ ﺷﻤﺎ ﺑﺮاي ﻓﻬﻢ داده ﺑﻪ آﻧﻬﺎ ﻧﻴﺎز دارﻳﺪ‬ ‫اﻧﺠﺎم ﻧﺪﻫﺪ. ﻣﺎﻧﻨﺪ ﭘﺮس و ﺟﻮﻫﺎﻳﻲ ﻛﻪ داده را ﺧﻼﺻﻪ ﻣﻲ ﻛﻨﺪ, ﮔﺰارﺷﺎت‬ ‫ﭼﻨﺪ ﺑﻌﺪي و ﺑﺴﻴﺎري از اﻧﻮاع دﻳﮕﺮ از ﮔﺮاﻓﻬﺎ ﻳﺎ ﻣﺼﻮرات.‬ ‫و دﻟﻴﻞ آﺧﺮ اﻳﻨﻜﻪ ﺷﻤﺎ ﻣﻤﻜﻦ اﺳﺖ ﺑﺨﻮاﻫﻴﺪ اﻳﻦ داده را در ﻳﻚ ﺳﻴﺴﺘﻢ‬ ‫ﻣﺪﻳﺮﻳﺖ ﭘﺎﻳﮕﺎه داده ﺑﻪ ﻫﻤﺮاه ﻳﻚ ﻃﺮاﺣﻲ ﻓﻴﺰﻳﻜﻲ ﻣﺘﻔﺎوت از اﻧﺒﺎر داده‬ ‫ﺧﻮد ذﺧﻴﺮه ﻛﻨﻴﺪ. ﻣﺮدم ﺑﻪ ﻃﻮر روز اﻓﺰوﻧﻲ در ﺣﺎل اﻧﺘﺨﺎب ﭘﺎﻳﮕﺎه داده‬ ‫ﻫﺎي ﺧﺎص ﻣﻨﻈﻮره اي ﻫﺴﺘﻨﺪ ﻛﻪ اﻳﻦ ﻧﻴﺎزﻫﺎي داده ﻛﺎوي را ﺑﻪ ﻧﺤﻮ‬ ‫ﻣﻨﺎﺳﺒﻲ ﺣﻤﺎﻳﺖ ﻛﻨﺪ. ﺑﻪ ﻫﺮﺣﺎل اﮔﺮ داده ﻣﻮﺟﻮد در اﻧﺒﺎر داده ﺷﻤﺎ اﺟﺎزه‬ ‫ﻣﻲ دﻫﺪ ﻛﻪ ﻣﺮاﻛﺰ ﻣﻨﻄﻘﻲ داده اي اﻳﺠﺎدﻛﻨﻴﺪ و اﮔﺮ ﺷﻤﺎ ﻣﻲ ﺗﻮاﻧﻴﺪ‬ ‫ﺗﻘﺎﺿﺎي داده ﻛﺎوي را ارﺿﺎ ﻧﻤﺎﻳﻴﺪ ﭘﺎﻳﮕﺎه داده ﺷﻤﺎ ﺑﻪ ﺧﻮﺑﻲ وﻇﻴﻔﻪ ﺧﻮد را‬ ‫اﻧﺠﺎم ﻣﻲ دﻫﺪ. ]2[‬ ‫ﻣﺮاﺣﻞ ﻻزم ﺑﺮاي ﺳﺎﺧﺖ ﻳﻚ ﭘﺎﻳﮕﺎه داده داده ﻛﺎوي ﺑﻪ ﺷﻜﻞ زﻳﺮ ﻣﻲ ﺑﺎﺷﺪ:‬ ‫1- ﺟﻤﻊ آوري داده ﻫﺎ‬ ‫2- ﺗﻮﺿﻴﺢ داده ﻫﺎ‬ ‫3- اﻧﺘﺨﺎب داده ﻫﺎ‬ ‫4- ﺗﻌﻴﻴﻦ ﻛﻴﻔﻴﺖ داده ﻫﺎ و ﭘﺎك ﻛﺮدن آن‬ ‫5- ﺗﺜﺒﻴﺖ و ﻳﻜﭙﺎرﭼﮕﻲ‬
  32. 32. ‫6- ﺳﺎﺧﺘﻦ ﻓﻮق داده )داده ﻫﺎﻳﻲ ﻛﻪ ﺧﻮد ﺑﻴﺎﻧﮕﺮ ﺗﻮﺿﻴﺤﻲ در ﻣﻮرد داده‬ ‫ﻫﺎي ﻣﻮﺟﻮد ﻣﻲ ﺑﺎﺷﻨﺪ.(‬ ‫7- ﺑﺎرﻛﺮدن ﭘﺎﻳﮕﺎه داده ﻣﺮﺑﻮط ﺑﻪ داده ﻛﺎوي‬ ‫8- ﻧﮕﻬﺪاري ﭘﺎﻳﮕﺎه داده ﻣﺮﺑﻮط ﺑﻪ داده ﻛﺎوي‬ ‫اﻳﻦ ﻛﺎرﻫﺎ ﻣﻤﻜﻦ اﺳﺖ ﻟﺰوﻣﺎ ﺑﻪ ﻫﻤﻴﻦ ﺗﺮﺗﻴﺐ ﮔﻔﺘﻪ ﺷﺪه اﻧﺠﺎم ﻧﮕﺮدﻧﺪ.‬ ‫ﺟﺴﺘﺠﻮي داده‬ ‫ﺑﻪ ﺑﺨﺶ ﺗﻮﺿﻴﺢ داده ﺑﺮاي داده ﻛﺎوي ﻛﻪ ﺗﻮﺿﻴﺢ ﻣﺨﺘﺼﺮي راﺟﻊ ﺑﻪ‬ ‫اﺷﻜﺎل, ﺗﺠﺰﻳﻪ و ﺗﺤﻠﻴﻞ ارﺗﺒﺎط و دﻳﮕﺮ وﺳﺎﻳﻞ ﺟﺴﺘﺠﻮي داده ﻣﻲ ﺑﺎﺷﺪ‬ ‫ﻧﮕﺎﻫﻲ ﺑﻴﺎﻧﺪازﻳﺪ.‬ ‫ﻫﺪف ﺷﻨﺎﺳﺎﻳﻲ ﻣﻬﻤﺘﺮﻳﻦ ﻓﻴﻠﺪﻫﺎ در ﭘﻴﺶ ﺑﻴﻨﻲ ﻧﺘﻴﺠﻪ و ﺗﻌﻴﻴﻦ اﻳﻨﻜﻪ ﻛﺪام‬ ‫ﻳﻚ از داده ﻫﺎي ﺑﺪﺳﺖ آﻣﺪه ﻣﻔﻴﺪ ﻣﻲ ﺑﺎﺷﺪ اﺳﺖ.‬ ‫در ﻳﻚ ﻣﺠﻤﻮﻋﻪ داده اي ﺑﺎ ﺻﺪﻫﺎ ﻳﺎ ﺣﺘﻲ ﻫﺰاران ﺳﺘﻮن ﺟﺴﺘﺠﻮي داده‬ ‫ﻣﻲ ﺗﻮاﻧﺪ ﻛﺎر و زﻣﺎن ﺑﺮ ﺑﺎﺷﺪ. ﻳﻚ واﺳﻂ ﻣﻨﺎﺳﺐ و ﺟﻮاب ﻛﺎﻣﭙﻴﻮﺗﺮ ﺳﺮﻳﻊ‬ ‫در اﻳﻦ ﻓﺎز ﻣﻬﻢ و ﺣﻴﺎﺗﻲ ﻣﻲ ﺑﺎﺷﻨﺪ زﻳﺮا ﻫﻨﮕﺎﻣﻲ ﻛﻪ ﺷﻤﺎ ﺑﺮاي درﻳﺎﻓﺖ‬ ‫ﭘﺎﺳﺦ ﺑﺮﺧﻲ ﮔﺮاف ﻫﺎ ﻣﺠﺒﻮر ﺑﺎﺷﻴﺪ 02 دﻗﻴﻘﻪ ﺻﺒﺮ ﻛﻨﻴﺪ ﻣﺎﻫﻴﺖ ﺟﺴﺘﺠﻮي‬ ‫ﺷﻤﺎ ﺑﻪ ﻛﻠﻲ ﺗﻐﻴﻴﺮ ﺧﻮاﻫﺪ ﻛﺮد.‬ ‫آﻣﺎده ﺳﺎزي داده ﺑﺮاي ﻣﺪل ﺳﺎزي‬ ‫اﻳﻦ آﺧﺮﻳﻦ ﮔﺎم آﻀ1

×