10 mavzu(prezent)

Reja:
1. O’qitiluvchi va testlanuvhi ma’lumotlar to’plami.
2. DataSet, DataTable, DataRow va Data Column haqida tushunchalar.
3. Ma'lumotlarni tahlil qilish - DataSetlar.
4. Mashinali o’qitishda Datasetlar.
5. Tanlanmani yaratishda bashoratlash usulining qo’llanilishi
10-Mavzu. Mashinali o'qitishda o’rgatuvchi
tanlanma (Dataset). Mashinali o’qitishda
tanlanmani yaratish usullari

Tayanch iboralar: Ma’lumotlar to’plami (Data set), ma'lumotlar bazasi, o'quv
tanlanma (training set), qvalifikatsiya tanlanmasi (qvalidation set), test tanlanma
(qtesting set), neyron tarmoq, AI-loyihalar (AIprojects), Data Set, Data Table, Data
Row va Data Column, Avtopilot, Google Dataset Search, Kaggle, UCI Machine
Learning Repository, Visual Data, Find Datasets | CMU Libraries, Data.gov, Boston
Housing Dataset, Quandl, World Bank Open Data, IMF Data, Financial Times Market
Data, Google Trends, xView, Labelme, ImageNet, LSUN, MS COCO, COIL100,
Vizual Genom, Google’s Open Images, Labelled Faces in the Wild, Stanford Dogs
Dataset
Tayanch iboralar:

Ma’lumotlar to’plami (Data set).
Ma’lumotlar to’plami - bu o’qitish uchun kerakli bo’lgan ma'lumotlar to'plamidir.
Boshqacha aytganda, ma'lumotlar to'plami ma'lumotlar bazasi jadvalining yoki bitta
statistik ma'lumotlar matritsasining qiymatlari hisoblanib, bunda jadvalning har bir
ustuni ma'lum o'zgaruvchini yoki parametr (x1, x2, ... , xn) qiymatini ifodalasa, har
bir satr esa berilgan parametrlar asosidagi obyekt qiymatiga (X1, X2, ..., X N) to'g'ri
keladi.
Machinali o’qitish loyihalarida biz o'quv ma'lumotlari to'plamidan (training
dataset) foydalanamiz. Bu turli xil harakatlarni bajarish uchun modelni oqitish
uchun ishlatiladigan haqiqiy ma'lumotlar to'plami hisoblanadi..
Ma’lumot to’plamlari (data set) turlari. Mashinan io’qitish jarayonida va
modelning to’liq ishlashini ta’minlash maqsadida quyidagi ma’lumotlar to’plami
turlaridan foydalaniladi:
- o'quv tanlanmasi - to'plami (training set);
- qvalifikatsiya tanlanmasi - to’plami (qvalidation set);
- test tanlanma - to'plami (qtesting set).
1. O’qitiluvchi va testlanuvchi ma’lumotlar to’plami

O’qitiluvchi va testlanuvchi ma’lumotlar to’plami.
Ma'lumotlarni yig'ish - bu neyron tarmoqlar kabi tushunchalarni qanday qo'llashni o'rganish,
natijalarni o'rganish uchun algoritmni tayyorlash uchun ishlatiladigan to'plamdir. Bunga
ma'lumotlar va kutiladigan natijalar kiradi. O’quv tanlanma umumiy ma'lumotlarning ko'p
qismini tashkil etadi, ya’ni taxminan 60-80%. Sinov tanlanma modellarning parametrlariga mos
keladigan og'irliklarni sozlash deb nomlanadigan jarayon hisoblanadi.
Sinov ma'lumotlari to'plami algoritmning o'quv ma'lumotlari bilan qanchalik yaxshi
o'qitilganligini baholash uchun ishlatiladi.
AI-loyihalar(AIprojects)da biz sinov bosqichida o'quv ma'lumotlari to'plamidan foydalana
olmaymiz, chunki algoritm oldindan kutilgan natijani oldindan bilib oladi, bu bizning maqsadimiz
emas.
Sinov to'plamlari ma'lumotlarning 20% ni tashkil etadi, testlar to'plami ma'lumotlar kiritilishi
bilan tasdiqlangan to'g'ri natijalar bilan birgalikda guruhlangan ma'lumotlarni kiritish, odatda inson
tomonidan tekshirilishi bilan ta'minlanadi.
Ma’lumotlarga dastlabki ishlov berish. 1. Shaklni aniqlash: ma'lumotlar turli xil fayllarda
tarqalishi mumkin. Masalan, turli xil valyutalar, tillar va hokazolarga ega bo'lgan turli
mamlakatlardagi savdo natijalari ma'lumotlar to'plamini shakllantirish uchun bir joyga to'planadi.
2. Ma'lumotlarni tozalash: Ushbu bosqichda bizning maqsadimiz etishmayotgan qiymatlar
bilan ishlash va keraksiz belgilarni ma'lumotlardan olib tashlashdan iborat.
3. Xususiyatlarni tanlash: Ushbu bosqichda biz funksiyalar sonini tahlil qilish va
optimallashtirishga e'tibor qaratamiz. Odatda, jamoaning a'zosi bashorat qilish uchun qaysi
xususiyatlar muhimligini aniqlab, tezroq hisoblash va kam xotira sarf qilish uchun ularni tanlashi
kerak.

Ma’lumotlarga dastlabki ishlov berish 10.1-rasmda keltirilgan.
10.1-rasm. Ma’lumotlarga dastlabki ishlov berish sxemasi.

DataSet - ma'lumotlar manbalaridan qat'i nazar, izchil dasturlash modelini ta'minlaydigan
oddiy, doimiy ma'lumotlar bazasi. DataSet - bu tegishli jadvallar, cheklovlar va jadvallar
o'rtasidagi munosabatlarni o'z ichiga olgan to'liq ma'lumotlar to'plami.
Odatda ma'lumotlar to'plami (DataSet) RelationsCollection obyekti tomonidan aniqlangan
munosabatlarni o'z ichiga oladi. DataRelation obyekti xaritasi bir jadvaldagi qatorlar bilan boshqa
ma'lumotlar jadvalidagi satrlar bilan ifodalangan munosabatlar. Bu relyatsion ma'lumotlar
bazasidagi tashqi kalitlarga o'xshash ishlaydi.
DataRelation ikkita DataSetsdagi ustunlarning mosligini aniqlaydi. Aloqalar DataSet ichida
bir jadvaldan boshqasiga o'tishga imkon beradi. DataRelationning asosiy elementlari
quyidagilardir: munosabatlarning nomi, ikkita jadvalning o'zlari bilan bog'lanishi, shuningdek
jadvallarda birlamchi kalit va chet el kalitlari ustunlari. Aloqalar jadvaldagi bir nechta ustunlar,
birlamchi va chet el kalitlari uchun DataColumn moslamalari qatori asosida o'rnatilishi mumkin.
DataRelation yaratilganda, ADO.NET munosabatlar o'rnatilishi mumkinligini tekshiradi.
ADO.NET munosabatlarga salbiy ta'sir ko'rsatishi mumkin bo'lgan keyingi o'zgarishlardan qochib,
faqat bir marta RelationsCollectionga aloqalarni qo'shadi.
DataTable System. Data tomonidan belgilanadi va jadvalning sxemasi va satrlarini
belgilaydigan ColumnsCollection obyekti tomonidan taqdim etilgan ustunlar to'plamini o'z ichiga
olgan xotirada doimiy joylashgan ma'lumotlar jadvalini aks ettiradi. DataTable jadvalga
ma'lumotlarni olib keladigan RowsCollection obyekti tomonidan namoyish etilgan qatorlar
to'plamini o'z ichiga oladi. Joriy holat bilan bir qatorda DataTable obyekti asl holatini saqlab qoladi
va ma'lumotlar bilan sodir bo'lgan barcha o'zgarishlarni kuzatib boradi. DataSet XML orqali
tarkibni aks ettiruvchi ma'lumotlarni saqlashi va qayta yuklashi mumkin.
2. Data Set, Data Table, Data Row va Data Column
haqida tushunchalar

3. Ma'lumotlarni tahlil qilish Data Setlar
Ma'lumotlarni tahlil qilish va mashinada o’qitish juda ko'p
ma'lumotlarni talab qiladi. Siz ularni o'zingiz birlashtira olasiz, ammo
bu zerikarli. Bu erda turli toifadagi tayyor ma'lumotlar to'plamlari
bizning yordamimizga keladi va Datasetlar yordamida quyidagi
ma’lumotlar tahlil qiliniishi mumkun:
• Davlat ma'lumotlar to'plamlari;
• Uy-joy ma'lumotlari;
• Iqtisodiyot va moliya;
• Kompyuterni ko'rish qobiliyati;
• Tuyg'ularni tahlil qilish;
• Tabiiy tilni qayta ishlash;
• Avtopilotlar;
• Tibbiy ma'lumotlar va h.k.

Data set qidirish tizimlari.
Bunday qidiruv tizimlari quyidagilardan iborat.
Google Dataset Search. Dataset Search kalit so'z bilan butun
Internetda ma'lumotlar to'plamlarini qidirishga imkon beradi.
Kaggle. Ko'plab qiziqarli ma'lumotlar to'plamiga ega bo'lgan
mashinasozlik musobaqalari maydonchasi. Ma'lumotlar to'plami ro'yxatida
ramen reytingidan tortib NCAA basketbol ma'lumotlariga va Sietlning uy
hayvonlari litsenziyasining ma'lumotlar bazasiga qadar turli xil namunalar
mavjud.
UCI Machine Learning Repository. Internetdagi ma'lumotlar
to'plamlarining eng qadimgi manbalaridan biri va qiziqarli ma'lumotlar
to'plamini izlash uchun birinchi o'rinda turadi. Garchi ular
foydalanuvchilar tomonidan qo'shilsa va shuning uchun har xil darajadagi
"poklik" ga ega bo'lsa ham, aksariyati tozalanadi. Ma'lumotlarni
ro'yxatdan o'tmasdan darhol yuklab olish mumkin.
Visual Data. Datasetlar kompyuterni ko'rish uchun, toifalarga
ajratilgan va qidiruv mavjud.
Find Datasets | CMU Libraries. Karnegi Mellon universiteti
tomonidan taqdim etilgan Datasetlar to'plami.

Davlat Datasetlari
Data.gov. Bu erda siz turli davlat idoralari ma'lumotlarini topishingiz mumkin. Bular
davlat byudjetidan tortib barcha iforalar ma'lumotlarini yiginfisy mavjud.
Turar joy ma'lumotlari. Boston Housing Dataset. Shet davlati Qo'shma Shtatlarning
aholini ro'yxatga olish byurosi tomonidan tuzilgan Bostondagi uy-joy haqida ma'lumot
mavjud. U StatLib arxividan olingan va algoritmlarni baholashda adabiyotda keng
qo'llanilgan.
Iqtisodiyot va moliyadagi Data setlar. Bularga quyidagilar kiradi:
• Quandl. Iqtisodiy va moliyaviy ma'lumotlarning yaxshi manbai - Iqtisodiy
ko'rsatkichlarni yoki aksiyalar narxlarini bashorat qilish modellarini tuzishda
foydalidir;
• World Bank Open Data. Demografik ma'lumotlarni, butun dunyo bo'ylab ko'plab
iqtisodiy va rivojlanish ko'rsatkichlarini o'z ichiga olgan ma'lumotlar to'plamlari;
• IMF Data. Xalqaro valyuta jamg'armasi xalqaro moliya, qarz ko'rsatkichlari, valyuta
zaxiralari, investitsiyalar va tovarlarning narxlari to'g'risidagi ma'lumotlarni nashr
etadi;
• Financial Times Market Data. Qimmatli qog'ozlar, tovar va valyutalar narxlari
indekslarini o'z ichiga olgan dunyodagi moliya bozorlari to'g'risida dolzarb
ma'lumotlar;
• Google Trends. Internet-qidiruv faoliyati va butun dunyo bo'ylab tendentsiyalar
haqidagi ma'lumotlarni o'rganing va tahlil qiling.

4. Mashinali o’qitishda Data Setlar
• xView. Er yuzidagi eng keng tarqalgan havo tasvirlaridan biri. U dunyoning
turli burchaklaridagi tasvirlar, chegaralangan qutilar bilan izohlangan.
• Labelme. Izohlangan rasmlarning katta ma'lumotlar to'plami.
• ImageNet. WordNet ierarxiyasiga muvofiq tashkil etilgan yangi algoritmlar
uchun rasmlar to'plami, unda yuzlab va minglab tasvirlar ierarxiyadagi har bir tugunni
aks ettiradi.
• LSUN. Ma'lumotlarning qisman belgilanishi bilan sahnalar va toifalarga
bo'lingan rasmlarning ma'lumotlar to'plami;
• MS COCO. Obyektni aniqlash va segmentatsiyalash uchun katta hajmdagi
ma'lumotlar to'plami;
• COIL100. Dumaloq harakat bilan har bir burchak ostida tasvirlangan 100 xil
narsalar;
• Vizual Genom. 100 ming batafsil izohli tasvirga ega ma'lumotlar to'plami;
• Google’s Open Images. Creative Commons-da litsenziyalangan "6000 toifani
o'z ichiga olgan" etiketlangan rasmlarga 9 million URL to'plami;
• Labelled Faces in the Wild. Yuzni aniqlash texnologiyasidan foydalanadigan
dasturlarda foydalanish uchun 13000 ta belgilangan yuzlar tasvirlari to'plami;
• Stanford Dogs Dataset. 120 ta it zotidan 20 580 ta rasm mavjud;
• Indoor Scene Recognition. Binolarni ichki tanib olish uchun ma'lumotlar
to'plami. 15620 ta rasm va 67 ta toifani o'z ichiga oladi.

5. Tanlanmani yaratishda bashoratlash usulining
qo’llanilishi
Kompyuterlaning baxosiga bashoratlashni ko’raylik. Istalgan bashoratlash yuritilayotgan
joyda albatta statistik ma’lumotlar bo’lishi talab qilinadi. Shuning uchun biz kompyuter
qurilmalarini va uning baxolari saqlanayotgan ma’lumotlar bazasini tuzaylik. Ma’lumotlar albatta
kompyuter savdosi bilan shugullanuvchi biror firma yoki tashkilotlardan olinadi. Dastlab biz
kompyuter anjomlari va ularning baxolari sakllanuvchi ma’lumotlar bazasini yarataylik.
Ma’lumotlar bazasini tuzish uchun ma’lumotlar bazasini tashkil qiluvchi ma’lumotlar
nimalardan iborat bo’lishi aniqlanadi va ular tiplarga ajratiladi. Kompyuter qurilmalari
quyidagilardan iborat.
Asosiy qurilmalar:
 MB – ona(materinskaya) plata;
 CPU - markaziy mikroprsessor;
 DIM - vaqtinchalik operativ xotira;
 HDD - axborot saqlovchi qattiq disk;
 VGA - grafiklar uchun video kartalar;
 Dick - disklar bilan ishlovchi moslama (DVD RW);
 Cooler - sovitish moslamalari;
 CASE - barchasini yigib turuvchi korpus;
 Monitor - ekran;
 Keyboard - klaviatura;
 Mouse - sichqoncha.

Qo’shimcha qurilmalar:
 Printer - chop etish qurilmasi;
 Skaner – nusxa oluvchi qurilma;
 UPS – vaqtincha elektr energiyasini saqlovchi moslama;
 Djoystik - xar xil oyinlar uchun moslama;
 Speekr - tovushlarni chiqaruvchi ovoz kolonkalari;
 va xakozalar.
Bu yerdan ko’rinib turibdiki keltirilgan ma’lumotlarni aloxida jadval ko’rinishda
tasvirlasak, ular bir butun kompyuter yigindisini tashkil qiladi. MS Office Access dasturida
ularning jadvallari quyidagicha beriladi (10.2-rasm).
MB – ona(materinskaya) plata HDD - axborot saqlovchi qattiq disk;

CPU - markaziy mikroprsessor; Dick - disklar bilan ishlovchi moslama
(DVD RW)
VGA - grafiklar uchun video kartalar; DIM - vaqtinchalik operativ xotira;

CASE - barchasini yigib turuvchi korpus; Monitor - ekran;
Spektr Modem

Mouse - sichqoncha. Keyboard – klaviatura
10.2-rasm. Asosiy Kompyuter jadvali

Kompyuter qurilmalarining jadvallari boglanish sxemasi 10.3-rasmda keltirilgan.
10.3-rasm

Kompyuter qurilmalarini kiritish uchun foydalanuvchiga qulay bo’lishi uchun
quyidagi shakllar ishlab chiqilgan (10.4-rasm).
10.4-rasm

Bu keltirilgan shakllarning xar biri quyidagicha ko’rinishga ega (10.5-rasm).
10.5-rasm.

Bunda kompyuterning xar bir qurilmasining markalari keltirilgan bo’lib, shaklning
pastki qismida shu tanlargan markali qurilmaning baxosi va vaqti keltirilgan. Agar baxolar
o’zgarsa yoki yangi markadagi qurlma kiritish kerak bo’lsa foydalanuvchi shu shakldan
foydalanadi.
Xar bir shaklni foydalanuvchi birma bir ochib, ma’lumot kiritishi ancha noqulaylik
keltiradi. Shuning uchun barcha qurilmalarga aloxida-aloxida tuzilgan shakllar 10.6-
rasmda keltirilganidek bir joyga yig’iladi.

Bu shakldan kerakli qurilma tanlanishi mumkin. Qurilmalar qatoriga sig’may qolgan
qurilmalarni ko’rish uchun yuqori o’ng tomondagi tugmachadan foydalanishi mumkin
(10.7-rasm).
10.7-rasm.
Endi mijoz talabiga qarab kompyuter qurilmalarini tanlash va ularni baxolarini
chiqarish uchun quyidagi TANLASh shakli ishlab chiqiladi. Bunda kompyuter qurilmalari
mos ro’yxatdan tanlanadi va tugmacha bosiladi (10.8-rasm).

Tugmacha bosilgandan keyin tanlangan qurilmalar bo’yicha kompyuter baxosi
maxmus so’rovlar bilan xisobanib, natija Xisobot shaklida chiqariladi (10.9-rasm).
10.9-rasm.

Firmadagi kompyuterlarning mijozlarga sotilishi kunlik ma’lumotlari dasturdagi
sotilgan kompyuterlar bazasida saqlanadi. Yig’ilgan ma’lumotlar ustida xar-xil statistik
amallarni amalga oshirish mumkin. Bu yerda nafaqat kompyuter yigilmasi, balki xar bir
qurilma bozori chaqqonligini xam taxlil qilish mumkin bo’ladi. Misol uchun CPU
(mikroprosessor) qurilmasining kundagi sotilishi xaqida ma’lumotlar tahlilini 10.10-
rasmdagidek berish mumkin.
Date num
01.05.2010 1
02.05.2010 1
03.05.2010 2
04.05.2010 3
05.05.2010 5
06.05.2010 2
07.05.2010 6
08.05.2010 4
09.05.2010 7
10.05.2010 4
11.05.2010 3
12.05.2010 2
13.05.2010 5
14.05.2010 7
0
1
2
3
4
5
6
7
8
01.05.2010
02.05.2010
03.05.2010
04.05.2010
05.05.2010
06.05.2010
07.05.2010
08.05.2010
09.05.2010
10.05.2010
11.05.2010
12.05.2010
13.05.2010
14.05.2010

Biz keltirilgan ma’lumotlarga qarab keyingi sanalarda savdoning qanday bo’lishi,
ya’ni CPU qurilmasi keyingi vaqtda (15.05.2010 sanasidan keyin) qanday sotilishini
bashorat qilishimiz mumkin. Berilgan m’lumotlarga ko’ra bashorat qilish dasturi ilovada
keltirilgan. Dastur natijalaridan bir nechtasini keltiramiz. Shuni aytish kerakki
bashoratlash uchun berilgan qiymatlarning eng kattasi (8), eng kichigi (1), o’rtacha
qiymati (4.2), ma’lumotlar soni (10) muxim axamiyatg ega (10.11-rasm).
0
1
2
3
4
5
6
7
01.05.10 03.05.10 05.05.10 07.05.10 09.05.10 11.05.10 13.05.10 15.05.10
10.11-rasm. CPU qurilmasining narxini bashoratlash.

Nazorat savollari
1. Ma’lumotlar to’plami (Data set) nima?
2. Ma’lumotlar to’plami ma'lumotlar bazasi jadvalida qanday tasvirlanadi?
3. Ma’lumot to’plamlari (data set) ning qanday turlari bor?
4. O’qitiluvchi va testlanuvchi ma’lumotlar to’plami nima?
5. Oq’uv va sinov tanlanmalarda taxminan necha foiz ma’lumotlar olinadi?
6. Ma’lumotlarga dastlabki ishlov berish qanday bosqichlardan iborat?
7. Ma’lumotlarga dastlabki ishlov berish sxemasi qanday bloklardan iborat?
8. Data Set, Data Table, Data Row va Data Column nima uchun qo’llaniladi?
9. Datasetlar yordamida qanday ma’lumotlar tahlil qiliniishi mumkun?
10. Data set qidirishning qanday tizimlari bor?
11. Qanday davlat Data setlari bor?
12. Turar joy ma'lumotlari haqida qanday Data Setlar bor?
13. Iqtisodiyot va moliyadagi Data setlarga qaysilar kiradi?
14. Mashinali o’qitishda qanday Data Setlardan foydalaniladi?
15. Tanlanmani yaratishda bashoratlash usuli qanday qo’llaniladi?

Masala va topshiriqlar
1. Quyida berilgan variantlar uchun Tnml - o’quv tanlanma (n-xususiytlar soni, m-
obyektlar soni, l-sinflar soni) va Tnm - sinov tanlanmani tuzing hamda tanlanmalardagi
ma’lumotlarni normallashtiring.

10 mavzu(prezent)

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

10 mavzu(prezent)