SlideShare a Scribd company logo
1 of 25
Download to read offline
Leksion 2
Data Mining
Dr. Senada BUSHATI
1
Funksionet Data Mining
-Çfarë lloje modelesh mund të gjurmohen?
• Përshkrimi i konceptit/klasës: Karakterizimi dhe Diskriminimi
• Të dhënat mund të shoqërohen me klasa ose koncepte.
• P.sh. klasa artikujsh - kompjuterë, printera,…
• konceptet e klientëve – Shpenzues te mëdhenj, Shpenzues te buxhetit,…
• Si t'i përshkruani këto objekte ose koncepte?
• Përshkrimet mund të nxirren nëpërmjet:
• Karakterizimi i të dhënave – përmbledhja e karakteristikave të përgjithshme të nje klase te synuar te të dhënave.
• P.sh. duke përmbledhur karakteristikat e klientëve që shpenzojnë më shumë se 1000 dollarë në vit në ‘AllElectronics’.
Rezultati mund të jetë një profil i përgjithshëm i klientëve, si p.sh. 40 – 50 vjeç, të punësuar, me vlerësime të shkëlqyera
krediti.
• Diskriminimi i të dhënave – krahasimi i klasës së synuar/target me një ose një grup klasash
krahasuese
• P.sh. Krahasoni tiparet e përgjithshme të produkteve softuerike,
• shitjet e plota u rritën me 10% në vitin e kaluar me ato,
• shitjet e të cilëve u ulën me 30% gjatë së njëjtës periudhë
• Ose të dyja të mësipërmet
2
Funksionet Data Mining
-Çfarë lloje modelesh mund të gjurmohen?
•Gjurmimi I Modeleve te shpeshta, shoqerimi dhe
Korrelacionet
• Grupi i elementeve (Itemset) të shpeshtë:
• një grup elementesh që shfaqen shpesh së bashku në një grup të dhënash
transaksionale (p.sh. qumësht dhe bukë)
• Nënsekuencë e shpeshtë:
• një model që klientët priren të blejnë produktin A, i ndjekur nga blerja e produktit B
3
Funksionet Data Mining
-Çfarë lloje modelesh mund të gjurmohen?
• Analiza e shoqërimit: gjeni modele të shpeshta
• P.sh. një rezultat i analizës së mostrës - një rregull shoqerues/lidhes:
• blen (X, "kompjuter") => blen (X, "software") [mbështetje = 1%, besim = 50%]
• (nëse një klient blen një kompjuter, ka 50% mundësi që ai të blejë softuer.
1% e të gjitha transaksioneve në analizë treguan se kompjuteri dhe softueri
janë blerë së bashku. )
• Rregullat e shoqerimit hidhen poshtë si jo interesante nëse ato nuk
plotësojnë si pragun minimal të mbështetjes ashtu edhe pragun minimal të
besimit.
• Analiza e korrelacionit: analiza shtesë për të gjetur korrelacionet
statistikore midis çifteve të lidhura
4
Funksionet Data Mining
-Çfarë lloje modelesh mund të gjurmohen?
•Klasifikimi dhe parashikimi
• Klasifikimi
• Procesi i gjetjes së një modeli që përshkruan dhe dallon klasat ose konceptet e të
dhënave, me qëllim që të jetë në gjendje të përdoret modeli për të parashikuar
klasën e objekte, etiketa e klasës së të cilëve është e panjohur.
• Modeli i nxjerrë/derivuar bazohet në analizën e një grupi të dhënash trajnimi
(objektet e të dhënave, etiketa e klasës së të cilëve është e njohur).
• Modeli mund të përfaqësohet në rregullat e klasifikimit (IF-THEN), pemët e
vendimeve, rrjetet nervore etj.
• Parashikim
• Parashikoni vlerat e të dhënave numerike që mungojnë ose nuk janë të
disponueshme
5
Funksionet Data Mining
-Çfarë lloje modelesh mund të gjurmohen?
6
Funksionet Data Mining
•Analiza Cluster
• Klasa etikete/label është e panjohur: gruponi të dhënat për të formuar
klasa të reja
• Grupet/clusters e objekteve formohen në bazë të parimit të maksimizimit
të ngjashmërisë brenda klasës dhe minimizimit të ngjashmërisë
ndërklasore
• P.sh. Identifikoni nënpopullatat homogjene të klientëve. Këto grupe mund të
përfaqësojnë grupe individuale të synuara për marketing.
7
Funksionet Data Mining
•Analiza e jashtme/outlier
• Të dhëna që nuk përputhen me sjelljen ose modelin e përgjithshëm.
• Rastet e ‘jashtzakonshmet/outliers’ zakonisht hidhen poshtë si zhurmë ose
përjashtime.
• E dobishme për zbulimin e mashtrimit.
• P.sh. Zbuloni blerjet e shumave jashtëzakonisht të mëdha
•Analiza e Evolucionit
• Përshkruan dhe modelon rregullsi ose tendenca për objektet, sjellja e të cilëve
ndryshon me kalimin e kohës.
• P.sh. Identifikoni rregullsitë e evolucionit të aksioneve për stoqet e përgjithshme dhe për
stoqet e kompanive të veçanta.
8
A janë interesante të gjitha modelet?
• Nxjerrja e të dhënave mund të gjenerojë mijëra modele: Jo të
gjitha janë interesante
• Një model është interesant nëse
• kuptohet lehtësisht nga njerëzit
• e vlefshme për të dhënat e reja ose testuese me një farë sigurie,
• potencialisht i dobishëm
• vërteton disa hipoteza që një përdorues kërkon të konfirmojë
• Një masë interesante përfaqëson njohurinë!
9
A janë interesante të gjitha modelet?
• Matjet objektive
• Bazuar në statistikat dhe strukturat e modeleve, p.sh., mbështetja/suporti, besimi,
etj.
• (Rregullat që nuk plotësojnë një prag konsiderohen jointeresante.)
• Matjet subjektive
• Reflektoni nevojat dhe interesat e një përdoruesi të caktuar.
• P.sh. Një menaxher marketingu është i interesuar vetëm për karakteristikat e klientëve që
blejnë shpesh.
• Bazuar në besimin e përdoruesit në të dhënat.
• p.sh., modelet janë interesante nëse janë të papritura, ose mund të përdoren për planifikim
strategjik, etj.
• Matjet objektive dhe subjektive duhet të kombinohen.
10
A janë interesante të gjitha modelet?
• Gjeni të gjitha modelet interesante: Plotësia / Completeness
• Jorealiste dhe joefikase
• Duhet të përdoren kufizimet e ofruara nga përdoruesi dhe masat e interesit
• Kërkoni vetëm modele interesante: Një problem optimizimi
• Shumë i dëshirueshme
• Nuk ka nevojë të kërkoni nëpër modelet e krijuara për të identifikuar ate me të
vërtetë interesant.
• Mund të përdoren matje për të renditur modelet e zbuluara sipas interest te
tyre.
11
Klasifikimi I sistemeve data mining
Data
Mining
Databas
e
Technol
ogy
Statistic
s
Informati
on
Science
Other
Disciplin
es
Visualiz
ation
Machine
Learning
12
Klasifikimi I sistemeve data mining
• Baza e të dhënave
• Relacionale, magazina e të dhënave, transaksionale, rrjedhëse/stream, e orientuar nga objekti/relacion,
aktive, hapësinore, seri kohore, tekst, multimedia, heterogjene, e trashëguar, WWW
• Njohuri
• Karakterizimi, diskriminimi, shoqërimi, klasifikimi, grupimi, tendenca/devijimi, analiza e jashtme, etj.
• Funksione të shumta/të integruara dhe gjurmim në nivele të shumta
• Teknikat e përdorura
• I orientuar nga baza e të dhënave, magazina e të dhënave (OLAP), mësimi i makinave, statistikat,
vizualizimi etj.
• Aplikacionet e përshtatura
• Shitje me pakicë, telekomunikacion, banka, analiza e mashtrimit, gjurmimi i të dhënave bio, analiza e
tregut, gjurmimi i tekstit, gjurmimi në internet, etj.
13
Detyra primitive te DM
•Si të ndërtoni një pyetje/query në Data Mining?
• Primitivët lejojnë përdoruesin të komunikojë në mënyrë interaktive me
sistemin DM gjatë zbulimit për të drejtuar procesin e gjurmimit ose për të
ekzaminuar gjetjet
14
Detyra primitive te DM
• Primitivat specifikojne: 1
• Bashkesia e të dhënave që kanë të bëjnë me detyrën – cila pjesë e bazës së të
dhënave do të përdoret
• Emri i bazës së të dhënave ose i magazinës së të dhënave
• Tabelat e bazës së të dhënave ose kubet e magazinës së të dhënave(data warehouse cubes)
• Kushti për përzgjedhjen e të dhënave
• Atributet ose dimensionet përkatëse
• Kriteret e grupimit të të dhënave
15
Detyra primitive te DM
• Primitivat specifikojne: 2
• Lloji i njohurive që do të nxirren/gjurmohen – cilat funksione DB duhet të kryhen
• Karakterizimi
• Diskriminimi
• Shoqerimi
• Klasifikimi/parashikimi
• Grumbullimi/clustering
• Analiza e jashtme(Outlier analysis)
• Detyra të tjera të nxjerrjes/gjurmimit të të dhënave
16
Detyra primitive te DM
• 3.Njohuritë e sfondit/background që do të përdoren – çfarë
fushe/domain njohurish, hierarkitë e koncepteve etj.
• 4.Matjet dhe pragjet e interesit – mbështetje, besim, etj.
• 5.Metodat e vizualizimit – çfarë forme duhet të shfaqet rezultati, p.sh. rregullat,
tabelat, grafikët, grafikët,…
17
• DMQL – Data Mining Query Language
• Projektuar për të përfshirë këto primitiva
• Lejon përdoruesin të ndërveprojë me sistemet DM
• Sigurimi i një gjuhe të standardizuar si SQL
18
Detyra primitive te DM
Shembull ne DMQL
• Gjurmimi I Rregullave te klasifikimit.
• Supozoni, si menaxher marketingu i
AllElectronics, ju dëshironi të klasifikoni klientët
bazuar në modelet e tyre të blerjes.
• Ju jeni veçanërisht të interesuar për ata klientë,
• paga e të cilëve është jo më pak se 40,000
dollarë dhe
• që kanë blerë artikuj me vlerë më shumë se
1,000 dollarë,
• secili prej të cilëve ka një çmim jo më pak se
100 dollarë.
• Në veçanti, jeni të interesuar për moshën e
klientit, të ardhurat, llojet e artikujve të blerë,
vendndodhjen e blerjes dhe vendin ku janë bërë
artikujt.
• Ju dëshironi të shikoni klasifikimin që rezulton në
formën e rregullave.
• Kjo pyetje e nxjerrjes së të dhënave shprehet në
DMQL si më poshtë, ku çdo rresht i pyetjes është
numëruar për të ndihmuar në diskutimin tonë.
• (1) use database AllElectronics db
• (2) use hierarchy location hierarchy for
T.branch, age hierarchy for C.age
• (3) mine classification as promising customers
• (4) in relevance to C.age, C.income, I.type,
I.place made, T.branch
• (5) from customer C, item I, transaction T
• (6) where I.item ID = T.item ID and C.cust ID =
T.cust ID and C.income ≥ 40,000 and I.price ≥
100
• (7) group by T.cust ID
• (8) having sum(I.price) ≥ 1,000
• (9) display as rules
19
Pse Data Mining Query Language?
• E automatizuar kundrejt pyetjeve?
• Gjetja e të gjitha modeleve në mënyrë autonome në një bazë të dhënash?—joreale
sepse modelet mund të jenë shumë, por jo interesante
• Gjurmimi i të dhënave duhet të jetë një proces ndërveprues
• Përdoruesi drejton se çfarë të gjurmohet
• Përdoruesit duhet të pajisen me një grup primitivësh për t'u përdorur qe te
komunikohet me sistemin e DM
• Përfshirja e këtyre primitiveve në një DMQL
• Ndërveprim më fleksibël i përdoruesit
• Baza për dizejnimin e ndërfaqes grafike të përdoruesit
• Standardizimi i industrisë dhe praktikës së DM
20
Integrimi i Data Mining dhe Data Warehousing
21
• Asnjë bashkim
• Përpunim i rrafshët i skedarëve, pa përdorim të asnjë funksioni të një
sistemi DB/DW
• Nuk rekomandohet
• Lidhje e lirshme
• Marrja e të dhënave nga DB/DW
• Nuk eksploron strukturat e të dhënave dhe metodat e optimizimit të
pyetjeve të ofruara nga sistemi DB/DW
• Vështirë për të arritur shkallëzueshmëri të lartë dhe performancë të
mirë me grupe të mëdha të dhënash
Integrimi i Data Mining dhe Data
Warehousing
• Gjysmë i ngushtë
• Ofrohen implementime efikase të disa primitivëve thelbësorë të nxjerrjes së të
dhënave në një sistem DB/DW, p.sh., renditja, indeksimi, grumbullimi, analiza e
histogramit, bashkimi në shumë drejtime, llogaritja paraprake e disa funksioneve
statistikore.
• Performanca e përmirësuar e DM
• Shtrënguar
• DM është integruar pa probleme në një sistem DB/DW, pyetja gjurmuese është
optimizuar bazuar në analizën e pyetjeve gjurmuese, strukturat e të dhënave,
indeksimi, metodat e përpunimit të pyetjeve të një sistemi DB/DW
• Një mjedis uniform i përpunimit të informacionit, shumë i dëshirueshëm
22
Çështjet kryesore në Data Mining
•Metodologjia e gjurmimit dhe ndërveprimi i përdoruesit
• Gjurmimi i llojeve të ndryshme të njohurive
• DM duhet të mbulojë një spektër të gjerë të analizave të të dhënave dhe detyrave të zbulimit të
njohurive
• Aktivizo përdorimin e bazës së të dhënave në mënyra të ndryshme
• Kërkojnë zhvillimin e teknikave të shumta të DM
• Nxjerrja ndërvepruese e njohurive në nivele të shumta të abstraksionit
• Vështirë të dihet saktësisht se çfarë do të zbulohet
• Lejoni përdoruesit të përqendrojnë kërkimin, të përsosin kërkesat për nxjerrjen e të dhënave
• Nderthurja e njohurive bazë
• Drejtoni procesin e zbulimit
• Lejo që modelet e zbuluara të shprehen në terma konciz dhe nivele të ndryshme abstraksioni
• DMQL dhe nxjerrja e të dhënave ad hoc
• Gjuhët e pyetjeve të nivelit të lartë duhet të zhvillohen
• Duhet të integrohet me një gjuhë pyetjesh DB/DW
23
Çështjet kryesore në Data Mining
•Metodologjia e gjurmimit dhe ndërveprimi i përdoruesit (vazhd…)
• Prezantimi dhe vizualizimi i rezultateve
• Njohuritë duhet të kuptohen lehtësisht dhe të përdoren drejtpërdrejt
• Gjuhë të nivelit të lartë, paraqitje vizuale ose forma të tjera shprehëse
• Kërkoni që sistemi DM të adoptojë teknikat e mësipërme
• Trajtimi i të dhënave të zhurmshme ose jo të plota
• Kërkoni metoda të pastrimit të të dhënave dhe metoda të analizës së të dhënave
që mund të trajtojnë zhurmën
• Vlerësimi i modelit - problemi i interesit
• Si të zhvillohen teknika për të hyrë në interesin e modeleve të zbuluara,
veçanërisht me matje subjektive të bazuara në besim ose pritjet e përdoruesve
24
Çështjet kryesore në Data Mining
•Çështjet e Performancës
• Efikasiteti dhe shkallëzueshmëria
• Sasi e madhe e të dhënave
• Koha e vrapimit duhet të jetë e parashikueshme dhe e pranueshme
• Algoritme gjurmuese paralele, të shpërndara dhe në rritje
• Ndani të dhënat në ndarje dhe te përpunohen paralelisht
• Inkorporoni përditësimet e bazës së të dhënave pa pasur nevojë të gjurmoni përsëri të gjitha të
dhënat nga scratch-i
•Diversiteti i llojeve të bazave të të dhënave
• Baza e të dhënave të tjera që përmbajnë objekte komplekse të të dhënave, të dhëna
multimediale, të dhënat hapësinore etj.
• Prisni që të keni sisteme të ndryshme DM për lloje të ndryshme të dhënash
• Bazat e të dhënave heterogjene dhe sistemet globale të informacionit
• Web mining bëhet një fushë shumë sfiduese dhe me zhvillim të shpejtë në nxjerrjen e të dhënave
25

More Related Content

Featured

Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them wellGood Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Saba Software
 
Introduction to C Programming Language
Introduction to C Programming LanguageIntroduction to C Programming Language
Introduction to C Programming Language
Simplilearn
 

Featured (20)

How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
 
Barbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationBarbie - Brand Strategy Presentation
Barbie - Brand Strategy Presentation
 
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them wellGood Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
 
Introduction to C Programming Language
Introduction to C Programming LanguageIntroduction to C Programming Language
Introduction to C Programming Language
 

leksion 2 Data Mining universiteti aleksander moisiu durres 24.pdf

  • 1. Leksion 2 Data Mining Dr. Senada BUSHATI 1
  • 2. Funksionet Data Mining -Çfarë lloje modelesh mund të gjurmohen? • Përshkrimi i konceptit/klasës: Karakterizimi dhe Diskriminimi • Të dhënat mund të shoqërohen me klasa ose koncepte. • P.sh. klasa artikujsh - kompjuterë, printera,… • konceptet e klientëve – Shpenzues te mëdhenj, Shpenzues te buxhetit,… • Si t'i përshkruani këto objekte ose koncepte? • Përshkrimet mund të nxirren nëpërmjet: • Karakterizimi i të dhënave – përmbledhja e karakteristikave të përgjithshme të nje klase te synuar te të dhënave. • P.sh. duke përmbledhur karakteristikat e klientëve që shpenzojnë më shumë se 1000 dollarë në vit në ‘AllElectronics’. Rezultati mund të jetë një profil i përgjithshëm i klientëve, si p.sh. 40 – 50 vjeç, të punësuar, me vlerësime të shkëlqyera krediti. • Diskriminimi i të dhënave – krahasimi i klasës së synuar/target me një ose një grup klasash krahasuese • P.sh. Krahasoni tiparet e përgjithshme të produkteve softuerike, • shitjet e plota u rritën me 10% në vitin e kaluar me ato, • shitjet e të cilëve u ulën me 30% gjatë së njëjtës periudhë • Ose të dyja të mësipërmet 2
  • 3. Funksionet Data Mining -Çfarë lloje modelesh mund të gjurmohen? •Gjurmimi I Modeleve te shpeshta, shoqerimi dhe Korrelacionet • Grupi i elementeve (Itemset) të shpeshtë: • një grup elementesh që shfaqen shpesh së bashku në një grup të dhënash transaksionale (p.sh. qumësht dhe bukë) • Nënsekuencë e shpeshtë: • një model që klientët priren të blejnë produktin A, i ndjekur nga blerja e produktit B 3
  • 4. Funksionet Data Mining -Çfarë lloje modelesh mund të gjurmohen? • Analiza e shoqërimit: gjeni modele të shpeshta • P.sh. një rezultat i analizës së mostrës - një rregull shoqerues/lidhes: • blen (X, "kompjuter") => blen (X, "software") [mbështetje = 1%, besim = 50%] • (nëse një klient blen një kompjuter, ka 50% mundësi që ai të blejë softuer. 1% e të gjitha transaksioneve në analizë treguan se kompjuteri dhe softueri janë blerë së bashku. ) • Rregullat e shoqerimit hidhen poshtë si jo interesante nëse ato nuk plotësojnë si pragun minimal të mbështetjes ashtu edhe pragun minimal të besimit. • Analiza e korrelacionit: analiza shtesë për të gjetur korrelacionet statistikore midis çifteve të lidhura 4
  • 5. Funksionet Data Mining -Çfarë lloje modelesh mund të gjurmohen? •Klasifikimi dhe parashikimi • Klasifikimi • Procesi i gjetjes së një modeli që përshkruan dhe dallon klasat ose konceptet e të dhënave, me qëllim që të jetë në gjendje të përdoret modeli për të parashikuar klasën e objekte, etiketa e klasës së të cilëve është e panjohur. • Modeli i nxjerrë/derivuar bazohet në analizën e një grupi të dhënash trajnimi (objektet e të dhënave, etiketa e klasës së të cilëve është e njohur). • Modeli mund të përfaqësohet në rregullat e klasifikimit (IF-THEN), pemët e vendimeve, rrjetet nervore etj. • Parashikim • Parashikoni vlerat e të dhënave numerike që mungojnë ose nuk janë të disponueshme 5
  • 6. Funksionet Data Mining -Çfarë lloje modelesh mund të gjurmohen? 6
  • 7. Funksionet Data Mining •Analiza Cluster • Klasa etikete/label është e panjohur: gruponi të dhënat për të formuar klasa të reja • Grupet/clusters e objekteve formohen në bazë të parimit të maksimizimit të ngjashmërisë brenda klasës dhe minimizimit të ngjashmërisë ndërklasore • P.sh. Identifikoni nënpopullatat homogjene të klientëve. Këto grupe mund të përfaqësojnë grupe individuale të synuara për marketing. 7
  • 8. Funksionet Data Mining •Analiza e jashtme/outlier • Të dhëna që nuk përputhen me sjelljen ose modelin e përgjithshëm. • Rastet e ‘jashtzakonshmet/outliers’ zakonisht hidhen poshtë si zhurmë ose përjashtime. • E dobishme për zbulimin e mashtrimit. • P.sh. Zbuloni blerjet e shumave jashtëzakonisht të mëdha •Analiza e Evolucionit • Përshkruan dhe modelon rregullsi ose tendenca për objektet, sjellja e të cilëve ndryshon me kalimin e kohës. • P.sh. Identifikoni rregullsitë e evolucionit të aksioneve për stoqet e përgjithshme dhe për stoqet e kompanive të veçanta. 8
  • 9. A janë interesante të gjitha modelet? • Nxjerrja e të dhënave mund të gjenerojë mijëra modele: Jo të gjitha janë interesante • Një model është interesant nëse • kuptohet lehtësisht nga njerëzit • e vlefshme për të dhënat e reja ose testuese me një farë sigurie, • potencialisht i dobishëm • vërteton disa hipoteza që një përdorues kërkon të konfirmojë • Një masë interesante përfaqëson njohurinë! 9
  • 10. A janë interesante të gjitha modelet? • Matjet objektive • Bazuar në statistikat dhe strukturat e modeleve, p.sh., mbështetja/suporti, besimi, etj. • (Rregullat që nuk plotësojnë një prag konsiderohen jointeresante.) • Matjet subjektive • Reflektoni nevojat dhe interesat e një përdoruesi të caktuar. • P.sh. Një menaxher marketingu është i interesuar vetëm për karakteristikat e klientëve që blejnë shpesh. • Bazuar në besimin e përdoruesit në të dhënat. • p.sh., modelet janë interesante nëse janë të papritura, ose mund të përdoren për planifikim strategjik, etj. • Matjet objektive dhe subjektive duhet të kombinohen. 10
  • 11. A janë interesante të gjitha modelet? • Gjeni të gjitha modelet interesante: Plotësia / Completeness • Jorealiste dhe joefikase • Duhet të përdoren kufizimet e ofruara nga përdoruesi dhe masat e interesit • Kërkoni vetëm modele interesante: Një problem optimizimi • Shumë i dëshirueshme • Nuk ka nevojë të kërkoni nëpër modelet e krijuara për të identifikuar ate me të vërtetë interesant. • Mund të përdoren matje për të renditur modelet e zbuluara sipas interest te tyre. 11
  • 12. Klasifikimi I sistemeve data mining Data Mining Databas e Technol ogy Statistic s Informati on Science Other Disciplin es Visualiz ation Machine Learning 12
  • 13. Klasifikimi I sistemeve data mining • Baza e të dhënave • Relacionale, magazina e të dhënave, transaksionale, rrjedhëse/stream, e orientuar nga objekti/relacion, aktive, hapësinore, seri kohore, tekst, multimedia, heterogjene, e trashëguar, WWW • Njohuri • Karakterizimi, diskriminimi, shoqërimi, klasifikimi, grupimi, tendenca/devijimi, analiza e jashtme, etj. • Funksione të shumta/të integruara dhe gjurmim në nivele të shumta • Teknikat e përdorura • I orientuar nga baza e të dhënave, magazina e të dhënave (OLAP), mësimi i makinave, statistikat, vizualizimi etj. • Aplikacionet e përshtatura • Shitje me pakicë, telekomunikacion, banka, analiza e mashtrimit, gjurmimi i të dhënave bio, analiza e tregut, gjurmimi i tekstit, gjurmimi në internet, etj. 13
  • 14. Detyra primitive te DM •Si të ndërtoni një pyetje/query në Data Mining? • Primitivët lejojnë përdoruesin të komunikojë në mënyrë interaktive me sistemin DM gjatë zbulimit për të drejtuar procesin e gjurmimit ose për të ekzaminuar gjetjet 14
  • 15. Detyra primitive te DM • Primitivat specifikojne: 1 • Bashkesia e të dhënave që kanë të bëjnë me detyrën – cila pjesë e bazës së të dhënave do të përdoret • Emri i bazës së të dhënave ose i magazinës së të dhënave • Tabelat e bazës së të dhënave ose kubet e magazinës së të dhënave(data warehouse cubes) • Kushti për përzgjedhjen e të dhënave • Atributet ose dimensionet përkatëse • Kriteret e grupimit të të dhënave 15
  • 16. Detyra primitive te DM • Primitivat specifikojne: 2 • Lloji i njohurive që do të nxirren/gjurmohen – cilat funksione DB duhet të kryhen • Karakterizimi • Diskriminimi • Shoqerimi • Klasifikimi/parashikimi • Grumbullimi/clustering • Analiza e jashtme(Outlier analysis) • Detyra të tjera të nxjerrjes/gjurmimit të të dhënave 16
  • 17. Detyra primitive te DM • 3.Njohuritë e sfondit/background që do të përdoren – çfarë fushe/domain njohurish, hierarkitë e koncepteve etj. • 4.Matjet dhe pragjet e interesit – mbështetje, besim, etj. • 5.Metodat e vizualizimit – çfarë forme duhet të shfaqet rezultati, p.sh. rregullat, tabelat, grafikët, grafikët,… 17
  • 18. • DMQL – Data Mining Query Language • Projektuar për të përfshirë këto primitiva • Lejon përdoruesin të ndërveprojë me sistemet DM • Sigurimi i një gjuhe të standardizuar si SQL 18 Detyra primitive te DM
  • 19. Shembull ne DMQL • Gjurmimi I Rregullave te klasifikimit. • Supozoni, si menaxher marketingu i AllElectronics, ju dëshironi të klasifikoni klientët bazuar në modelet e tyre të blerjes. • Ju jeni veçanërisht të interesuar për ata klientë, • paga e të cilëve është jo më pak se 40,000 dollarë dhe • që kanë blerë artikuj me vlerë më shumë se 1,000 dollarë, • secili prej të cilëve ka një çmim jo më pak se 100 dollarë. • Në veçanti, jeni të interesuar për moshën e klientit, të ardhurat, llojet e artikujve të blerë, vendndodhjen e blerjes dhe vendin ku janë bërë artikujt. • Ju dëshironi të shikoni klasifikimin që rezulton në formën e rregullave. • Kjo pyetje e nxjerrjes së të dhënave shprehet në DMQL si më poshtë, ku çdo rresht i pyetjes është numëruar për të ndihmuar në diskutimin tonë. • (1) use database AllElectronics db • (2) use hierarchy location hierarchy for T.branch, age hierarchy for C.age • (3) mine classification as promising customers • (4) in relevance to C.age, C.income, I.type, I.place made, T.branch • (5) from customer C, item I, transaction T • (6) where I.item ID = T.item ID and C.cust ID = T.cust ID and C.income ≥ 40,000 and I.price ≥ 100 • (7) group by T.cust ID • (8) having sum(I.price) ≥ 1,000 • (9) display as rules 19
  • 20. Pse Data Mining Query Language? • E automatizuar kundrejt pyetjeve? • Gjetja e të gjitha modeleve në mënyrë autonome në një bazë të dhënash?—joreale sepse modelet mund të jenë shumë, por jo interesante • Gjurmimi i të dhënave duhet të jetë një proces ndërveprues • Përdoruesi drejton se çfarë të gjurmohet • Përdoruesit duhet të pajisen me një grup primitivësh për t'u përdorur qe te komunikohet me sistemin e DM • Përfshirja e këtyre primitiveve në një DMQL • Ndërveprim më fleksibël i përdoruesit • Baza për dizejnimin e ndërfaqes grafike të përdoruesit • Standardizimi i industrisë dhe praktikës së DM 20
  • 21. Integrimi i Data Mining dhe Data Warehousing 21 • Asnjë bashkim • Përpunim i rrafshët i skedarëve, pa përdorim të asnjë funksioni të një sistemi DB/DW • Nuk rekomandohet • Lidhje e lirshme • Marrja e të dhënave nga DB/DW • Nuk eksploron strukturat e të dhënave dhe metodat e optimizimit të pyetjeve të ofruara nga sistemi DB/DW • Vështirë për të arritur shkallëzueshmëri të lartë dhe performancë të mirë me grupe të mëdha të dhënash
  • 22. Integrimi i Data Mining dhe Data Warehousing • Gjysmë i ngushtë • Ofrohen implementime efikase të disa primitivëve thelbësorë të nxjerrjes së të dhënave në një sistem DB/DW, p.sh., renditja, indeksimi, grumbullimi, analiza e histogramit, bashkimi në shumë drejtime, llogaritja paraprake e disa funksioneve statistikore. • Performanca e përmirësuar e DM • Shtrënguar • DM është integruar pa probleme në një sistem DB/DW, pyetja gjurmuese është optimizuar bazuar në analizën e pyetjeve gjurmuese, strukturat e të dhënave, indeksimi, metodat e përpunimit të pyetjeve të një sistemi DB/DW • Një mjedis uniform i përpunimit të informacionit, shumë i dëshirueshëm 22
  • 23. Çështjet kryesore në Data Mining •Metodologjia e gjurmimit dhe ndërveprimi i përdoruesit • Gjurmimi i llojeve të ndryshme të njohurive • DM duhet të mbulojë një spektër të gjerë të analizave të të dhënave dhe detyrave të zbulimit të njohurive • Aktivizo përdorimin e bazës së të dhënave në mënyra të ndryshme • Kërkojnë zhvillimin e teknikave të shumta të DM • Nxjerrja ndërvepruese e njohurive në nivele të shumta të abstraksionit • Vështirë të dihet saktësisht se çfarë do të zbulohet • Lejoni përdoruesit të përqendrojnë kërkimin, të përsosin kërkesat për nxjerrjen e të dhënave • Nderthurja e njohurive bazë • Drejtoni procesin e zbulimit • Lejo që modelet e zbuluara të shprehen në terma konciz dhe nivele të ndryshme abstraksioni • DMQL dhe nxjerrja e të dhënave ad hoc • Gjuhët e pyetjeve të nivelit të lartë duhet të zhvillohen • Duhet të integrohet me një gjuhë pyetjesh DB/DW 23
  • 24. Çështjet kryesore në Data Mining •Metodologjia e gjurmimit dhe ndërveprimi i përdoruesit (vazhd…) • Prezantimi dhe vizualizimi i rezultateve • Njohuritë duhet të kuptohen lehtësisht dhe të përdoren drejtpërdrejt • Gjuhë të nivelit të lartë, paraqitje vizuale ose forma të tjera shprehëse • Kërkoni që sistemi DM të adoptojë teknikat e mësipërme • Trajtimi i të dhënave të zhurmshme ose jo të plota • Kërkoni metoda të pastrimit të të dhënave dhe metoda të analizës së të dhënave që mund të trajtojnë zhurmën • Vlerësimi i modelit - problemi i interesit • Si të zhvillohen teknika për të hyrë në interesin e modeleve të zbuluara, veçanërisht me matje subjektive të bazuara në besim ose pritjet e përdoruesve 24
  • 25. Çështjet kryesore në Data Mining •Çështjet e Performancës • Efikasiteti dhe shkallëzueshmëria • Sasi e madhe e të dhënave • Koha e vrapimit duhet të jetë e parashikueshme dhe e pranueshme • Algoritme gjurmuese paralele, të shpërndara dhe në rritje • Ndani të dhënat në ndarje dhe te përpunohen paralelisht • Inkorporoni përditësimet e bazës së të dhënave pa pasur nevojë të gjurmoni përsëri të gjitha të dhënat nga scratch-i •Diversiteti i llojeve të bazave të të dhënave • Baza e të dhënave të tjera që përmbajnë objekte komplekse të të dhënave, të dhëna multimediale, të dhënat hapësinore etj. • Prisni që të keni sisteme të ndryshme DM për lloje të ndryshme të dhënash • Bazat e të dhënave heterogjene dhe sistemet globale të informacionit • Web mining bëhet një fushë shumë sfiduese dhe me zhvillim të shpejtë në nxjerrjen e të dhënave 25