SlideShare a Scribd company logo
Skupovi podataka - datasetovi
Šta znamo o datasetovima?
• Svrha i vrsta problema za čije se rešavanje koristi
– Regresija, klasifikacija, klasterovanje
• Vrste podataka
– Univarijatni i multivarijatni
– Sekvencijalni
– Vremenske serije
– Tekstualni korpus
– Skup slika sa poznatim, definisanim značenjem
• Tipovi podataka u datasetu
– Realni brojevi, celi brojevi, tipovi kategorije, tekstualni, vreme, nepoznato (?)..
• Dimenzije
– Broj atributa, broj instanci/podataka/vrsta
• Formati
– Comma Separated Values (CSV) datoteka
– Hijerarhijski format - JSON, XML datoteka
– Relacione baze podataka – SQL skript
Tipovi kategorije
• Vrednosti
mogu biti
numeričke
(ocena) i
tekstualne
• Nominalni
– Ne postoji red
• Ordinalni
– Postoji red
Repozitorijum otvorenih datasetova
Irvine univerziteta u Kaliforniji
https://archive.ics.uci.edu/ml/datasets.html
Kaggle datasetovi
https://www.kaggle.com/datasets
Ostali izvori
• Open Data Network
– https://www.opendatanetwork.com/
• Data is Plural
– https://docs.google.com/spreadsheets/d/1wZhPLMCHKJv
wOkP4juclhjFgqIY8fQFMemwKL2c64vk/edit#gid=0
• Datasetovi za deep learning:
– http://deeplearning.net/datasets/
– Muzički, fotografije, lica, tekst, govor, recommender
sistemi
• Datasetovi za računarsku viziju
– https://www.visualdata.io/
• ...
PRIMER: Analiza preživljavanja nesreće
broda Titanik
• https://www.kaggle.com/c/titanic
• Veličine
– Passenger class (nominal)
• 1,2,3
– Sex (nominal)
• male, female
– Age (int)
– Number of siblings + spouses on board (int)
– Number of parents + childs on board (int)
– Fare (real)
– Label of the port of embarkation (nominal)
• S,C,Q
– Survived (nominal)
• NO, YES
PRIMER: Klase ličnih primanja, na osnovu
različitih parametara stanovnika
• https://archive.ics.uci.edu/ml/datasets/Adult
• Veličine
– Starost (int)
– Klasa radnika (nominal)
• Private, Self-emp-not-inc, Self-emp-inc, Federal-gov, Local-gov, State-gov, Without-pay, Never-worked.
– Fnlwgt (int)
– Obrazovanje (nominal)
• Bachelors, Some-college, 11th, HS-grad, Prof-school, Assoc-acdm, Assoc-voc, 9th, 7th-8th, 12th, Masters, 1st-4th, 10th, Doctorate,
5th-6th, Preschool.
– Ocena obrazovanja (int)
– Bračni status (nominal)
• Married-civ-spouse, Divorced, Never-married, Separated, Widowed, Married-spouse-absent, Married-AF-spouse.
– Zanimanje (nominal)
• Tech-support, Craft-repair, Other-service, Sales, Exec-managerial, Prof-specialty, Handlers-cleaners, Machine-op-inspct, Adm-clerical,
Farming-fishing, Transport-moving, Priv-house-serv, Protective-serv, Armed-Forces.
– Porodična veza (nominal)
• Wife, Own-child, Husband, Not-in-family, Other-relative, Unmarried.
– Rasa (nominal)
• White, Asian-Pac-Islander, Amer-Indian-Eskimo, Other, Black.
– Pol (nominal)
• Female, Male
– Prijavljeni prihod (int)
– Prijavljeni rashod (int)
– Broj radnih sati u nedelji (int)
– Nacionalnost (nominal)
• Zemlje
– Klasa ličnih primanja (nominal)
• >50K, <=50K
PRIMER: Klasifikacija cenovnog ranga
mobilnog telefona
• https://www.kaggle.com/iabhishekofficial/mobile-price-classification
• Veličine
– Energija skladištenja baterije u mAh
– Ima bluetooth ili ne
– Brzina procesora
– Dual sim
– Broj megapiksela prednje kamere
– Podržava 4G ili ne
– Količina interne memorije u GB
– Dubina u cm
– Težina
– Broj jezgara
– Broj megapiksela glavne kamere
– Rezolucija u pikselima po visini
– Rezolucija u pikselima po širini
– Količina RAM memorije u GB
– Visina ekrana u cm
– Širina ekrana u cm
– Maksimalna dužina razgovora
– Podržava 3G ili ne
– Ima touch screen ili ne
– Ima wifi ili ne
– Cenovni rang (0 – low cost,1 – medium cost,2 – high cost,3 – very high cost)
PRIMER: Politički stavovi glasača u
Turskoj
• https://www.kaggle.com/yemregundogmus/turkey-political-opinions
• Veličine
– Pol
– Starost
– Oblast stanovanja
– Nivo obrazovanja
– Mišljenje o ekonomskoj snazi
– Mišljenje o potrebi reforme obrazovanja
– Mišljenje o privatizaciji
– Mišljenje o smrtnoj kazni
– Mišljenje o slobodi štampe
– Mišljenje o zabrani točenja alkohola posle 22:00
– Mišljenje o sekularnoj državi
– Mišljenje o zabrani abortusa
– Mišljenje o slobodi
– Mišljenje o potrebi za novom političkom partijom
– Partija za koju glasač glasa
PRIMER: Utvrđivanje verovatnoće
bankrota korisnika kreditnih kartica
• https://archive.ics.uci.edu/ml/datasets/default+of+credit+card+clie
nts
• Veličine
– Limit kreditne kartice
– Pol
– Nivo obrazovanja
– Bračni status
– Godine starosti
– Uplate na račun kreditne kartice u proteklih šest meseci (po svakom
mesecu)
• Na vreme, kašnjenje 1 mesec, 2 meseca, 3 meseca, itd.
– Iznos duga na kraju svakog od proteklih šest meseci
– Iznos uplata za svaki od proteklih šest meseci
– Bankrot utvrđen narednog meseca (da/ne)

More Related Content

More from Milan Zdravković

Social media promotion
Social media promotionSocial media promotion
Social media promotion
Milan Zdravković
 
UPRO01 - Modeliranje poslovnih procesa i BPMN
UPRO01 - Modeliranje poslovnih procesa i BPMNUPRO01 - Modeliranje poslovnih procesa i BPMN
UPRO01 - Modeliranje poslovnih procesa i BPMN
Milan Zdravković
 
UPRO01 - Modeliranje poslovnih procesa
UPRO01 -  Modeliranje poslovnih procesaUPRO01 -  Modeliranje poslovnih procesa
UPRO01 - Modeliranje poslovnih procesa
Milan Zdravković
 
UPRO00 - Uvod u BPM
UPRO00 - Uvod u BPMUPRO00 - Uvod u BPM
UPRO00 - Uvod u BPM
Milan Zdravković
 
MEZN00 - Uvod u upravljanje znanjem
MEZN00 - Uvod u upravljanje znanjemMEZN00 - Uvod u upravljanje znanjem
MEZN00 - Uvod u upravljanje znanjem
Milan Zdravković
 
PA Training Nov 5-6 Day 2 - Talk 2. Content Management Best Practices
PA Training Nov 5-6 Day 2 - Talk 2. Content Management Best PracticesPA Training Nov 5-6 Day 2 - Talk 2. Content Management Best Practices
PA Training Nov 5-6 Day 2 - Talk 2. Content Management Best Practices
Milan Zdravković
 
PA Training Nov 5-6 Day 2 - Talk 1. Web Visibility, SEO elements in content c...
PA Training Nov 5-6 Day 2 - Talk 1. Web Visibility, SEO elements in content c...PA Training Nov 5-6 Day 2 - Talk 1. Web Visibility, SEO elements in content c...
PA Training Nov 5-6 Day 2 - Talk 1. Web Visibility, SEO elements in content c...
Milan Zdravković
 
PA Training Nov 5-6 Day 1 - Talk 1. EURAXESS Portal updates
PA Training Nov 5-6 Day 1 - Talk 1. EURAXESS Portal updatesPA Training Nov 5-6 Day 1 - Talk 1. EURAXESS Portal updates
PA Training Nov 5-6 Day 1 - Talk 1. EURAXESS Portal updates
Milan Zdravković
 
PA Training Nov 5-6 Day 1 - Talk 4. Compliance issues
PA Training Nov 5-6 Day 1 - Talk 4. Compliance issuesPA Training Nov 5-6 Day 1 - Talk 4. Compliance issues
PA Training Nov 5-6 Day 1 - Talk 4. Compliance issues
Milan Zdravković
 
PA Training Nov 5-6 Day 2 - Talk 3. Accessibility Checker
PA Training Nov 5-6 Day 2 - Talk 3. Accessibility CheckerPA Training Nov 5-6 Day 2 - Talk 3. Accessibility Checker
PA Training Nov 5-6 Day 2 - Talk 3. Accessibility Checker
Milan Zdravković
 
IT1 1.5 Analiza podataka
IT1 1.5 Analiza podatakaIT1 1.5 Analiza podataka
IT1 1.5 Analiza podataka
Milan Zdravković
 
IT1 1.3 Internet pod haubom
IT1 1.3 Internet pod haubomIT1 1.3 Internet pod haubom
IT1 1.3 Internet pod haubom
Milan Zdravković
 
IT1 1.1 Opis i metodologija kursa
IT1 1.1 Opis i metodologija kursaIT1 1.1 Opis i metodologija kursa
IT1 1.1 Opis i metodologija kursa
Milan Zdravković
 
Online content management tips and tricks
Online content management tips and tricksOnline content management tips and tricks
Online content management tips and tricks
Milan Zdravković
 
MEZN05 - Jezici za reprezentaciju znanja na Webu – OWL
MEZN05 - Jezici za reprezentaciju znanja na Webu – OWLMEZN05 - Jezici za reprezentaciju znanja na Webu – OWL
MEZN05 - Jezici za reprezentaciju znanja na Webu – OWL
Milan Zdravković
 
MEZN04 - Softver za kreiranje ontologija - Protege
MEZN04 - Softver za kreiranje ontologija - ProtegeMEZN04 - Softver za kreiranje ontologija - Protege
MEZN04 - Softver za kreiranje ontologija - Protege
Milan Zdravković
 
MEZN03 - Jezici za reprezentaciju znanja na Webu – RDF i RDFS
MEZN03 - Jezici za reprezentaciju znanja na Webu – RDF i RDFSMEZN03 - Jezici za reprezentaciju znanja na Webu – RDF i RDFS
MEZN03 - Jezici za reprezentaciju znanja na Webu – RDF i RDFS
Milan Zdravković
 
MEZN01 - Semantički web i osnovne tehnologije za njegovu realizaciju
MEZN01 - Semantički web i osnovne tehnologije za njegovu realizacijuMEZN01 - Semantički web i osnovne tehnologije za njegovu realizaciju
MEZN01 - Semantički web i osnovne tehnologije za njegovu realizaciju
Milan Zdravković
 
MEZN02 - Primena računarske logike za reprezentaciju i rasuđivanje znanja
MEZN02 - Primena računarske logike za reprezentaciju i rasuđivanje znanjaMEZN02 - Primena računarske logike za reprezentaciju i rasuđivanje znanja
MEZN02 - Primena računarske logike za reprezentaciju i rasuđivanje znanja
Milan Zdravković
 
UPRO - Rad sa promenljivama procesa
UPRO - Rad sa promenljivama procesaUPRO - Rad sa promenljivama procesa
UPRO - Rad sa promenljivama procesa
Milan Zdravković
 

More from Milan Zdravković (20)

Social media promotion
Social media promotionSocial media promotion
Social media promotion
 
UPRO01 - Modeliranje poslovnih procesa i BPMN
UPRO01 - Modeliranje poslovnih procesa i BPMNUPRO01 - Modeliranje poslovnih procesa i BPMN
UPRO01 - Modeliranje poslovnih procesa i BPMN
 
UPRO01 - Modeliranje poslovnih procesa
UPRO01 -  Modeliranje poslovnih procesaUPRO01 -  Modeliranje poslovnih procesa
UPRO01 - Modeliranje poslovnih procesa
 
UPRO00 - Uvod u BPM
UPRO00 - Uvod u BPMUPRO00 - Uvod u BPM
UPRO00 - Uvod u BPM
 
MEZN00 - Uvod u upravljanje znanjem
MEZN00 - Uvod u upravljanje znanjemMEZN00 - Uvod u upravljanje znanjem
MEZN00 - Uvod u upravljanje znanjem
 
PA Training Nov 5-6 Day 2 - Talk 2. Content Management Best Practices
PA Training Nov 5-6 Day 2 - Talk 2. Content Management Best PracticesPA Training Nov 5-6 Day 2 - Talk 2. Content Management Best Practices
PA Training Nov 5-6 Day 2 - Talk 2. Content Management Best Practices
 
PA Training Nov 5-6 Day 2 - Talk 1. Web Visibility, SEO elements in content c...
PA Training Nov 5-6 Day 2 - Talk 1. Web Visibility, SEO elements in content c...PA Training Nov 5-6 Day 2 - Talk 1. Web Visibility, SEO elements in content c...
PA Training Nov 5-6 Day 2 - Talk 1. Web Visibility, SEO elements in content c...
 
PA Training Nov 5-6 Day 1 - Talk 1. EURAXESS Portal updates
PA Training Nov 5-6 Day 1 - Talk 1. EURAXESS Portal updatesPA Training Nov 5-6 Day 1 - Talk 1. EURAXESS Portal updates
PA Training Nov 5-6 Day 1 - Talk 1. EURAXESS Portal updates
 
PA Training Nov 5-6 Day 1 - Talk 4. Compliance issues
PA Training Nov 5-6 Day 1 - Talk 4. Compliance issuesPA Training Nov 5-6 Day 1 - Talk 4. Compliance issues
PA Training Nov 5-6 Day 1 - Talk 4. Compliance issues
 
PA Training Nov 5-6 Day 2 - Talk 3. Accessibility Checker
PA Training Nov 5-6 Day 2 - Talk 3. Accessibility CheckerPA Training Nov 5-6 Day 2 - Talk 3. Accessibility Checker
PA Training Nov 5-6 Day 2 - Talk 3. Accessibility Checker
 
IT1 1.5 Analiza podataka
IT1 1.5 Analiza podatakaIT1 1.5 Analiza podataka
IT1 1.5 Analiza podataka
 
IT1 1.3 Internet pod haubom
IT1 1.3 Internet pod haubomIT1 1.3 Internet pod haubom
IT1 1.3 Internet pod haubom
 
IT1 1.1 Opis i metodologija kursa
IT1 1.1 Opis i metodologija kursaIT1 1.1 Opis i metodologija kursa
IT1 1.1 Opis i metodologija kursa
 
Online content management tips and tricks
Online content management tips and tricksOnline content management tips and tricks
Online content management tips and tricks
 
MEZN05 - Jezici za reprezentaciju znanja na Webu – OWL
MEZN05 - Jezici za reprezentaciju znanja na Webu – OWLMEZN05 - Jezici za reprezentaciju znanja na Webu – OWL
MEZN05 - Jezici za reprezentaciju znanja na Webu – OWL
 
MEZN04 - Softver za kreiranje ontologija - Protege
MEZN04 - Softver za kreiranje ontologija - ProtegeMEZN04 - Softver za kreiranje ontologija - Protege
MEZN04 - Softver za kreiranje ontologija - Protege
 
MEZN03 - Jezici za reprezentaciju znanja na Webu – RDF i RDFS
MEZN03 - Jezici za reprezentaciju znanja na Webu – RDF i RDFSMEZN03 - Jezici za reprezentaciju znanja na Webu – RDF i RDFS
MEZN03 - Jezici za reprezentaciju znanja na Webu – RDF i RDFS
 
MEZN01 - Semantički web i osnovne tehnologije za njegovu realizaciju
MEZN01 - Semantički web i osnovne tehnologije za njegovu realizacijuMEZN01 - Semantički web i osnovne tehnologije za njegovu realizaciju
MEZN01 - Semantički web i osnovne tehnologije za njegovu realizaciju
 
MEZN02 - Primena računarske logike za reprezentaciju i rasuđivanje znanja
MEZN02 - Primena računarske logike za reprezentaciju i rasuđivanje znanjaMEZN02 - Primena računarske logike za reprezentaciju i rasuđivanje znanja
MEZN02 - Primena računarske logike za reprezentaciju i rasuđivanje znanja
 
UPRO - Rad sa promenljivama procesa
UPRO - Rad sa promenljivama procesaUPRO - Rad sa promenljivama procesa
UPRO - Rad sa promenljivama procesa
 

OKAP3.5 Skupovi podataka

  • 1. Skupovi podataka - datasetovi
  • 2. Šta znamo o datasetovima? • Svrha i vrsta problema za čije se rešavanje koristi – Regresija, klasifikacija, klasterovanje • Vrste podataka – Univarijatni i multivarijatni – Sekvencijalni – Vremenske serije – Tekstualni korpus – Skup slika sa poznatim, definisanim značenjem • Tipovi podataka u datasetu – Realni brojevi, celi brojevi, tipovi kategorije, tekstualni, vreme, nepoznato (?).. • Dimenzije – Broj atributa, broj instanci/podataka/vrsta • Formati – Comma Separated Values (CSV) datoteka – Hijerarhijski format - JSON, XML datoteka – Relacione baze podataka – SQL skript
  • 3. Tipovi kategorije • Vrednosti mogu biti numeričke (ocena) i tekstualne • Nominalni – Ne postoji red • Ordinalni – Postoji red
  • 4. Repozitorijum otvorenih datasetova Irvine univerziteta u Kaliforniji https://archive.ics.uci.edu/ml/datasets.html
  • 6. Ostali izvori • Open Data Network – https://www.opendatanetwork.com/ • Data is Plural – https://docs.google.com/spreadsheets/d/1wZhPLMCHKJv wOkP4juclhjFgqIY8fQFMemwKL2c64vk/edit#gid=0 • Datasetovi za deep learning: – http://deeplearning.net/datasets/ – Muzički, fotografije, lica, tekst, govor, recommender sistemi • Datasetovi za računarsku viziju – https://www.visualdata.io/ • ...
  • 7. PRIMER: Analiza preživljavanja nesreće broda Titanik • https://www.kaggle.com/c/titanic • Veličine – Passenger class (nominal) • 1,2,3 – Sex (nominal) • male, female – Age (int) – Number of siblings + spouses on board (int) – Number of parents + childs on board (int) – Fare (real) – Label of the port of embarkation (nominal) • S,C,Q – Survived (nominal) • NO, YES
  • 8. PRIMER: Klase ličnih primanja, na osnovu različitih parametara stanovnika • https://archive.ics.uci.edu/ml/datasets/Adult • Veličine – Starost (int) – Klasa radnika (nominal) • Private, Self-emp-not-inc, Self-emp-inc, Federal-gov, Local-gov, State-gov, Without-pay, Never-worked. – Fnlwgt (int) – Obrazovanje (nominal) • Bachelors, Some-college, 11th, HS-grad, Prof-school, Assoc-acdm, Assoc-voc, 9th, 7th-8th, 12th, Masters, 1st-4th, 10th, Doctorate, 5th-6th, Preschool. – Ocena obrazovanja (int) – Bračni status (nominal) • Married-civ-spouse, Divorced, Never-married, Separated, Widowed, Married-spouse-absent, Married-AF-spouse. – Zanimanje (nominal) • Tech-support, Craft-repair, Other-service, Sales, Exec-managerial, Prof-specialty, Handlers-cleaners, Machine-op-inspct, Adm-clerical, Farming-fishing, Transport-moving, Priv-house-serv, Protective-serv, Armed-Forces. – Porodična veza (nominal) • Wife, Own-child, Husband, Not-in-family, Other-relative, Unmarried. – Rasa (nominal) • White, Asian-Pac-Islander, Amer-Indian-Eskimo, Other, Black. – Pol (nominal) • Female, Male – Prijavljeni prihod (int) – Prijavljeni rashod (int) – Broj radnih sati u nedelji (int) – Nacionalnost (nominal) • Zemlje – Klasa ličnih primanja (nominal) • >50K, <=50K
  • 9. PRIMER: Klasifikacija cenovnog ranga mobilnog telefona • https://www.kaggle.com/iabhishekofficial/mobile-price-classification • Veličine – Energija skladištenja baterije u mAh – Ima bluetooth ili ne – Brzina procesora – Dual sim – Broj megapiksela prednje kamere – Podržava 4G ili ne – Količina interne memorije u GB – Dubina u cm – Težina – Broj jezgara – Broj megapiksela glavne kamere – Rezolucija u pikselima po visini – Rezolucija u pikselima po širini – Količina RAM memorije u GB – Visina ekrana u cm – Širina ekrana u cm – Maksimalna dužina razgovora – Podržava 3G ili ne – Ima touch screen ili ne – Ima wifi ili ne – Cenovni rang (0 – low cost,1 – medium cost,2 – high cost,3 – very high cost)
  • 10. PRIMER: Politički stavovi glasača u Turskoj • https://www.kaggle.com/yemregundogmus/turkey-political-opinions • Veličine – Pol – Starost – Oblast stanovanja – Nivo obrazovanja – Mišljenje o ekonomskoj snazi – Mišljenje o potrebi reforme obrazovanja – Mišljenje o privatizaciji – Mišljenje o smrtnoj kazni – Mišljenje o slobodi štampe – Mišljenje o zabrani točenja alkohola posle 22:00 – Mišljenje o sekularnoj državi – Mišljenje o zabrani abortusa – Mišljenje o slobodi – Mišljenje o potrebi za novom političkom partijom – Partija za koju glasač glasa
  • 11. PRIMER: Utvrđivanje verovatnoće bankrota korisnika kreditnih kartica • https://archive.ics.uci.edu/ml/datasets/default+of+credit+card+clie nts • Veličine – Limit kreditne kartice – Pol – Nivo obrazovanja – Bračni status – Godine starosti – Uplate na račun kreditne kartice u proteklih šest meseci (po svakom mesecu) • Na vreme, kašnjenje 1 mesec, 2 meseca, 3 meseca, itd. – Iznos duga na kraju svakog od proteklih šest meseci – Iznos uplata za svaki od proteklih šest meseci – Bankrot utvrđen narednog meseca (da/ne)