2. Funksionet Data Mining
-Çfarë lloje modelesh mund të gjurmohen?
• Përshkrimi i konceptit/klasës: Karakterizimi dhe Diskriminimi
• Të dhënat mund të shoqërohen me klasa ose koncepte.
• P.sh. klasa artikujsh - kompjuterë, printera,…
• konceptet e klientëve – Shpenzues te mëdhenj, Shpenzues te buxhetit,…
• Si t'i përshkruani këto objekte ose koncepte?
• Përshkrimet mund të nxirren nëpërmjet:
• Karakterizimi i të dhënave – përmbledhja e karakteristikave të përgjithshme të nje klase te synuar te të dhënave.
• P.sh. duke përmbledhur karakteristikat e klientëve që shpenzojnë më shumë se 1000 dollarë në vit në ‘AllElectronics’.
Rezultati mund të jetë një profil i përgjithshëm i klientëve, si p.sh. 40 – 50 vjeç, të punësuar, me vlerësime të shkëlqyera
krediti.
• Diskriminimi i të dhënave – krahasimi i klasës së synuar/target me një ose një grup klasash
krahasuese
• P.sh. Krahasoni tiparet e përgjithshme të produkteve softuerike,
• shitjet e plota u rritën me 10% në vitin e kaluar me ato,
• shitjet e të cilëve u ulën me 30% gjatë së njëjtës periudhë
• Ose të dyja të mësipërmet
2
3. Funksionet Data Mining
-Çfarë lloje modelesh mund të gjurmohen?
•Gjurmimi I Modeleve te shpeshta, shoqerimi dhe
Korrelacionet
• Grupi i elementeve (Itemset) të shpeshtë:
• një grup elementesh që shfaqen shpesh së bashku në një grup të dhënash
transaksionale (p.sh. qumësht dhe bukë)
• Nënsekuencë e shpeshtë:
• një model që klientët priren të blejnë produktin A, i ndjekur nga blerja e produktit B
3
4. Funksionet Data Mining
-Çfarë lloje modelesh mund të gjurmohen?
• Analiza e shoqërimit: gjeni modele të shpeshta
• P.sh. një rezultat i analizës së mostrës - një rregull shoqerues/lidhes:
• blen (X, "kompjuter") => blen (X, "software") [mbështetje = 1%, besim = 50%]
• (nëse një klient blen një kompjuter, ka 50% mundësi që ai të blejë softuer.
1% e të gjitha transaksioneve në analizë treguan se kompjuteri dhe softueri
janë blerë së bashku. )
• Rregullat e shoqerimit hidhen poshtë si jo interesante nëse ato nuk
plotësojnë si pragun minimal të mbështetjes ashtu edhe pragun minimal të
besimit.
• Analiza e korrelacionit: analiza shtesë për të gjetur korrelacionet
statistikore midis çifteve të lidhura
4
5. Funksionet Data Mining
-Çfarë lloje modelesh mund të gjurmohen?
•Klasifikimi dhe parashikimi
• Klasifikimi
• Procesi i gjetjes së një modeli që përshkruan dhe dallon klasat ose konceptet e të
dhënave, me qëllim që të jetë në gjendje të përdoret modeli për të parashikuar
klasën e objekte, etiketa e klasës së të cilëve është e panjohur.
• Modeli i nxjerrë/derivuar bazohet në analizën e një grupi të dhënash trajnimi
(objektet e të dhënave, etiketa e klasës së të cilëve është e njohur).
• Modeli mund të përfaqësohet në rregullat e klasifikimit (IF-THEN), pemët e
vendimeve, rrjetet nervore etj.
• Parashikim
• Parashikoni vlerat e të dhënave numerike që mungojnë ose nuk janë të
disponueshme
5
7. Funksionet Data Mining
•Analiza Cluster
• Klasa etikete/label është e panjohur: gruponi të dhënat për të formuar
klasa të reja
• Grupet/clusters e objekteve formohen në bazë të parimit të maksimizimit
të ngjashmërisë brenda klasës dhe minimizimit të ngjashmërisë
ndërklasore
• P.sh. Identifikoni nënpopullatat homogjene të klientëve. Këto grupe mund të
përfaqësojnë grupe individuale të synuara për marketing.
7
8. Funksionet Data Mining
•Analiza e jashtme/outlier
• Të dhëna që nuk përputhen me sjelljen ose modelin e përgjithshëm.
• Rastet e ‘jashtzakonshmet/outliers’ zakonisht hidhen poshtë si zhurmë ose
përjashtime.
• E dobishme për zbulimin e mashtrimit.
• P.sh. Zbuloni blerjet e shumave jashtëzakonisht të mëdha
•Analiza e Evolucionit
• Përshkruan dhe modelon rregullsi ose tendenca për objektet, sjellja e të cilëve
ndryshon me kalimin e kohës.
• P.sh. Identifikoni rregullsitë e evolucionit të aksioneve për stoqet e përgjithshme dhe për
stoqet e kompanive të veçanta.
8
9. A janë interesante të gjitha modelet?
• Nxjerrja e të dhënave mund të gjenerojë mijëra modele: Jo të
gjitha janë interesante
• Një model është interesant nëse
• kuptohet lehtësisht nga njerëzit
• e vlefshme për të dhënat e reja ose testuese me një farë sigurie,
• potencialisht i dobishëm
• vërteton disa hipoteza që një përdorues kërkon të konfirmojë
• Një masë interesante përfaqëson njohurinë!
9
10. A janë interesante të gjitha modelet?
• Matjet objektive
• Bazuar në statistikat dhe strukturat e modeleve, p.sh., mbështetja/suporti, besimi,
etj.
• (Rregullat që nuk plotësojnë një prag konsiderohen jointeresante.)
• Matjet subjektive
• Reflektoni nevojat dhe interesat e një përdoruesi të caktuar.
• P.sh. Një menaxher marketingu është i interesuar vetëm për karakteristikat e klientëve që
blejnë shpesh.
• Bazuar në besimin e përdoruesit në të dhënat.
• p.sh., modelet janë interesante nëse janë të papritura, ose mund të përdoren për planifikim
strategjik, etj.
• Matjet objektive dhe subjektive duhet të kombinohen.
10
11. A janë interesante të gjitha modelet?
• Gjeni të gjitha modelet interesante: Plotësia / Completeness
• Jorealiste dhe joefikase
• Duhet të përdoren kufizimet e ofruara nga përdoruesi dhe masat e interesit
• Kërkoni vetëm modele interesante: Një problem optimizimi
• Shumë i dëshirueshme
• Nuk ka nevojë të kërkoni nëpër modelet e krijuara për të identifikuar ate me të
vërtetë interesant.
• Mund të përdoren matje për të renditur modelet e zbuluara sipas interest te
tyre.
11
12. Klasifikimi I sistemeve data mining
Data
Mining
Databas
e
Technol
ogy
Statistic
s
Informati
on
Science
Other
Disciplin
es
Visualiz
ation
Machine
Learning
12
13. Klasifikimi I sistemeve data mining
• Baza e të dhënave
• Relacionale, magazina e të dhënave, transaksionale, rrjedhëse/stream, e orientuar nga objekti/relacion,
aktive, hapësinore, seri kohore, tekst, multimedia, heterogjene, e trashëguar, WWW
• Njohuri
• Karakterizimi, diskriminimi, shoqërimi, klasifikimi, grupimi, tendenca/devijimi, analiza e jashtme, etj.
• Funksione të shumta/të integruara dhe gjurmim në nivele të shumta
• Teknikat e përdorura
• I orientuar nga baza e të dhënave, magazina e të dhënave (OLAP), mësimi i makinave, statistikat,
vizualizimi etj.
• Aplikacionet e përshtatura
• Shitje me pakicë, telekomunikacion, banka, analiza e mashtrimit, gjurmimi i të dhënave bio, analiza e
tregut, gjurmimi i tekstit, gjurmimi në internet, etj.
13
14. Detyra primitive te DM
•Si të ndërtoni një pyetje/query në Data Mining?
• Primitivët lejojnë përdoruesin të komunikojë në mënyrë interaktive me
sistemin DM gjatë zbulimit për të drejtuar procesin e gjurmimit ose për të
ekzaminuar gjetjet
14
15. Detyra primitive te DM
• Primitivat specifikojne: 1
• Bashkesia e të dhënave që kanë të bëjnë me detyrën – cila pjesë e bazës së të
dhënave do të përdoret
• Emri i bazës së të dhënave ose i magazinës së të dhënave
• Tabelat e bazës së të dhënave ose kubet e magazinës së të dhënave(data warehouse cubes)
• Kushti për përzgjedhjen e të dhënave
• Atributet ose dimensionet përkatëse
• Kriteret e grupimit të të dhënave
15
16. Detyra primitive te DM
• Primitivat specifikojne: 2
• Lloji i njohurive që do të nxirren/gjurmohen – cilat funksione DB duhet të kryhen
• Karakterizimi
• Diskriminimi
• Shoqerimi
• Klasifikimi/parashikimi
• Grumbullimi/clustering
• Analiza e jashtme(Outlier analysis)
• Detyra të tjera të nxjerrjes/gjurmimit të të dhënave
16
17. Detyra primitive te DM
• 3.Njohuritë e sfondit/background që do të përdoren – çfarë
fushe/domain njohurish, hierarkitë e koncepteve etj.
• 4.Matjet dhe pragjet e interesit – mbështetje, besim, etj.
• 5.Metodat e vizualizimit – çfarë forme duhet të shfaqet rezultati, p.sh. rregullat,
tabelat, grafikët, grafikët,…
17
18. • DMQL – Data Mining Query Language
• Projektuar për të përfshirë këto primitiva
• Lejon përdoruesin të ndërveprojë me sistemet DM
• Sigurimi i një gjuhe të standardizuar si SQL
18
Detyra primitive te DM
19. Shembull ne DMQL
• Gjurmimi I Rregullave te klasifikimit.
• Supozoni, si menaxher marketingu i
AllElectronics, ju dëshironi të klasifikoni klientët
bazuar në modelet e tyre të blerjes.
• Ju jeni veçanërisht të interesuar për ata klientë,
• paga e të cilëve është jo më pak se 40,000
dollarë dhe
• që kanë blerë artikuj me vlerë më shumë se
1,000 dollarë,
• secili prej të cilëve ka një çmim jo më pak se
100 dollarë.
• Në veçanti, jeni të interesuar për moshën e
klientit, të ardhurat, llojet e artikujve të blerë,
vendndodhjen e blerjes dhe vendin ku janë bërë
artikujt.
• Ju dëshironi të shikoni klasifikimin që rezulton në
formën e rregullave.
• Kjo pyetje e nxjerrjes së të dhënave shprehet në
DMQL si më poshtë, ku çdo rresht i pyetjes është
numëruar për të ndihmuar në diskutimin tonë.
• (1) use database AllElectronics db
• (2) use hierarchy location hierarchy for
T.branch, age hierarchy for C.age
• (3) mine classification as promising customers
• (4) in relevance to C.age, C.income, I.type,
I.place made, T.branch
• (5) from customer C, item I, transaction T
• (6) where I.item ID = T.item ID and C.cust ID =
T.cust ID and C.income ≥ 40,000 and I.price ≥
100
• (7) group by T.cust ID
• (8) having sum(I.price) ≥ 1,000
• (9) display as rules
19
20. Pse Data Mining Query Language?
• E automatizuar kundrejt pyetjeve?
• Gjetja e të gjitha modeleve në mënyrë autonome në një bazë të dhënash?—joreale
sepse modelet mund të jenë shumë, por jo interesante
• Gjurmimi i të dhënave duhet të jetë një proces ndërveprues
• Përdoruesi drejton se çfarë të gjurmohet
• Përdoruesit duhet të pajisen me një grup primitivësh për t'u përdorur qe te
komunikohet me sistemin e DM
• Përfshirja e këtyre primitiveve në një DMQL
• Ndërveprim më fleksibël i përdoruesit
• Baza për dizejnimin e ndërfaqes grafike të përdoruesit
• Standardizimi i industrisë dhe praktikës së DM
20
21. Integrimi i Data Mining dhe Data Warehousing
21
• Asnjë bashkim
• Përpunim i rrafshët i skedarëve, pa përdorim të asnjë funksioni të një
sistemi DB/DW
• Nuk rekomandohet
• Lidhje e lirshme
• Marrja e të dhënave nga DB/DW
• Nuk eksploron strukturat e të dhënave dhe metodat e optimizimit të
pyetjeve të ofruara nga sistemi DB/DW
• Vështirë për të arritur shkallëzueshmëri të lartë dhe performancë të
mirë me grupe të mëdha të dhënash
22. Integrimi i Data Mining dhe Data
Warehousing
• Gjysmë i ngushtë
• Ofrohen implementime efikase të disa primitivëve thelbësorë të nxjerrjes së të
dhënave në një sistem DB/DW, p.sh., renditja, indeksimi, grumbullimi, analiza e
histogramit, bashkimi në shumë drejtime, llogaritja paraprake e disa funksioneve
statistikore.
• Performanca e përmirësuar e DM
• Shtrënguar
• DM është integruar pa probleme në një sistem DB/DW, pyetja gjurmuese është
optimizuar bazuar në analizën e pyetjeve gjurmuese, strukturat e të dhënave,
indeksimi, metodat e përpunimit të pyetjeve të një sistemi DB/DW
• Një mjedis uniform i përpunimit të informacionit, shumë i dëshirueshëm
22
23. Çështjet kryesore në Data Mining
•Metodologjia e gjurmimit dhe ndërveprimi i përdoruesit
• Gjurmimi i llojeve të ndryshme të njohurive
• DM duhet të mbulojë një spektër të gjerë të analizave të të dhënave dhe detyrave të zbulimit të
njohurive
• Aktivizo përdorimin e bazës së të dhënave në mënyra të ndryshme
• Kërkojnë zhvillimin e teknikave të shumta të DM
• Nxjerrja ndërvepruese e njohurive në nivele të shumta të abstraksionit
• Vështirë të dihet saktësisht se çfarë do të zbulohet
• Lejoni përdoruesit të përqendrojnë kërkimin, të përsosin kërkesat për nxjerrjen e të dhënave
• Nderthurja e njohurive bazë
• Drejtoni procesin e zbulimit
• Lejo që modelet e zbuluara të shprehen në terma konciz dhe nivele të ndryshme abstraksioni
• DMQL dhe nxjerrja e të dhënave ad hoc
• Gjuhët e pyetjeve të nivelit të lartë duhet të zhvillohen
• Duhet të integrohet me një gjuhë pyetjesh DB/DW
23
24. Çështjet kryesore në Data Mining
•Metodologjia e gjurmimit dhe ndërveprimi i përdoruesit (vazhd…)
• Prezantimi dhe vizualizimi i rezultateve
• Njohuritë duhet të kuptohen lehtësisht dhe të përdoren drejtpërdrejt
• Gjuhë të nivelit të lartë, paraqitje vizuale ose forma të tjera shprehëse
• Kërkoni që sistemi DM të adoptojë teknikat e mësipërme
• Trajtimi i të dhënave të zhurmshme ose jo të plota
• Kërkoni metoda të pastrimit të të dhënave dhe metoda të analizës së të dhënave
që mund të trajtojnë zhurmën
• Vlerësimi i modelit - problemi i interesit
• Si të zhvillohen teknika për të hyrë në interesin e modeleve të zbuluara,
veçanërisht me matje subjektive të bazuara në besim ose pritjet e përdoruesve
24
25. Çështjet kryesore në Data Mining
•Çështjet e Performancës
• Efikasiteti dhe shkallëzueshmëria
• Sasi e madhe e të dhënave
• Koha e vrapimit duhet të jetë e parashikueshme dhe e pranueshme
• Algoritme gjurmuese paralele, të shpërndara dhe në rritje
• Ndani të dhënat në ndarje dhe te përpunohen paralelisht
• Inkorporoni përditësimet e bazës së të dhënave pa pasur nevojë të gjurmoni përsëri të gjitha të
dhënat nga scratch-i
•Diversiteti i llojeve të bazave të të dhënave
• Baza e të dhënave të tjera që përmbajnë objekte komplekse të të dhënave, të dhëna
multimediale, të dhënat hapësinore etj.
• Prisni që të keni sisteme të ndryshme DM për lloje të ndryshme të dhënash
• Bazat e të dhënave heterogjene dhe sistemet globale të informacionit
• Web mining bëhet një fushë shumë sfiduese dhe me zhvillim të shpejtë në nxjerrjen e të dhënave
25