SlideShare a Scribd company logo
1 of 26
Reja:
1. O’qitiluvchi va testlanuvhi ma’lumotlar to’plami.
2. DataSet, DataTable, DataRow va Data Column haqida tushunchalar.
3. Ma'lumotlarni tahlil qilish - DataSetlar.
4. Mashinali o’qitishda Datasetlar.
5. Tanlanmani yaratishda bashoratlash usulining qo’llanilishi
10-Mavzu. Mashinali o'qitishda o’rgatuvchi
tanlanma (Dataset). Mashinali o’qitishda
tanlanmani yaratish usullari
Tayanch iboralar: Ma’lumotlar to’plami (Data set), ma'lumotlar bazasi, o'quv
tanlanma (training set), qvalifikatsiya tanlanmasi (qvalidation set), test tanlanma
(qtesting set), neyron tarmoq, AI-loyihalar (AIprojects), Data Set, Data Table, Data
Row va Data Column, Avtopilot, Google Dataset Search, Kaggle, UCI Machine
Learning Repository, Visual Data, Find Datasets | CMU Libraries, Data.gov, Boston
Housing Dataset, Quandl, World Bank Open Data, IMF Data, Financial Times Market
Data, Google Trends, xView, Labelme, ImageNet, LSUN, MS COCO, COIL100,
Vizual Genom, Google’s Open Images, Labelled Faces in the Wild, Stanford Dogs
Dataset
Tayanch iboralar:
Ma’lumotlar to’plami (Data set).
Ma’lumotlar to’plami - bu o’qitish uchun kerakli bo’lgan ma'lumotlar to'plamidir.
Boshqacha aytganda, ma'lumotlar to'plami ma'lumotlar bazasi jadvalining yoki bitta
statistik ma'lumotlar matritsasining qiymatlari hisoblanib, bunda jadvalning har bir
ustuni ma'lum o'zgaruvchini yoki parametr (x1, x2, ... , xn) qiymatini ifodalasa, har
bir satr esa berilgan parametrlar asosidagi obyekt qiymatiga (X1, X2, ..., X N) to'g'ri
keladi.
Machinali o’qitish loyihalarida biz o'quv ma'lumotlari to'plamidan (training
dataset) foydalanamiz. Bu turli xil harakatlarni bajarish uchun modelni oqitish
uchun ishlatiladigan haqiqiy ma'lumotlar to'plami hisoblanadi..
Ma’lumot to’plamlari (data set) turlari. Mashinan io’qitish jarayonida va
modelning to’liq ishlashini ta’minlash maqsadida quyidagi ma’lumotlar to’plami
turlaridan foydalaniladi:
- o'quv tanlanmasi - to'plami (training set);
- qvalifikatsiya tanlanmasi - to’plami (qvalidation set);
- test tanlanma - to'plami (qtesting set).
1. O’qitiluvchi va testlanuvchi ma’lumotlar to’plami
O’qitiluvchi va testlanuvchi ma’lumotlar to’plami.
Ma'lumotlarni yig'ish - bu neyron tarmoqlar kabi tushunchalarni qanday qo'llashni o'rganish,
natijalarni o'rganish uchun algoritmni tayyorlash uchun ishlatiladigan to'plamdir. Bunga
ma'lumotlar va kutiladigan natijalar kiradi. O’quv tanlanma umumiy ma'lumotlarning ko'p
qismini tashkil etadi, ya’ni taxminan 60-80%. Sinov tanlanma modellarning parametrlariga mos
keladigan og'irliklarni sozlash deb nomlanadigan jarayon hisoblanadi.
Sinov ma'lumotlari to'plami algoritmning o'quv ma'lumotlari bilan qanchalik yaxshi
o'qitilganligini baholash uchun ishlatiladi.
AI-loyihalar(AIprojects)da biz sinov bosqichida o'quv ma'lumotlari to'plamidan foydalana
olmaymiz, chunki algoritm oldindan kutilgan natijani oldindan bilib oladi, bu bizning maqsadimiz
emas.
Sinov to'plamlari ma'lumotlarning 20% ni tashkil etadi, testlar to'plami ma'lumotlar kiritilishi
bilan tasdiqlangan to'g'ri natijalar bilan birgalikda guruhlangan ma'lumotlarni kiritish, odatda inson
tomonidan tekshirilishi bilan ta'minlanadi.
Ma’lumotlarga dastlabki ishlov berish. 1. Shaklni aniqlash: ma'lumotlar turli xil fayllarda
tarqalishi mumkin. Masalan, turli xil valyutalar, tillar va hokazolarga ega bo'lgan turli
mamlakatlardagi savdo natijalari ma'lumotlar to'plamini shakllantirish uchun bir joyga to'planadi.
2. Ma'lumotlarni tozalash: Ushbu bosqichda bizning maqsadimiz etishmayotgan qiymatlar
bilan ishlash va keraksiz belgilarni ma'lumotlardan olib tashlashdan iborat.
3. Xususiyatlarni tanlash: Ushbu bosqichda biz funksiyalar sonini tahlil qilish va
optimallashtirishga e'tibor qaratamiz. Odatda, jamoaning a'zosi bashorat qilish uchun qaysi
xususiyatlar muhimligini aniqlab, tezroq hisoblash va kam xotira sarf qilish uchun ularni tanlashi
kerak.
Ma’lumotlarga dastlabki ishlov berish 10.1-rasmda keltirilgan.
10.1-rasm. Ma’lumotlarga dastlabki ishlov berish sxemasi.
DataSet - ma'lumotlar manbalaridan qat'i nazar, izchil dasturlash modelini ta'minlaydigan
oddiy, doimiy ma'lumotlar bazasi. DataSet - bu tegishli jadvallar, cheklovlar va jadvallar
o'rtasidagi munosabatlarni o'z ichiga olgan to'liq ma'lumotlar to'plami.
Odatda ma'lumotlar to'plami (DataSet) RelationsCollection obyekti tomonidan aniqlangan
munosabatlarni o'z ichiga oladi. DataRelation obyekti xaritasi bir jadvaldagi qatorlar bilan boshqa
ma'lumotlar jadvalidagi satrlar bilan ifodalangan munosabatlar. Bu relyatsion ma'lumotlar
bazasidagi tashqi kalitlarga o'xshash ishlaydi.
DataRelation ikkita DataSetsdagi ustunlarning mosligini aniqlaydi. Aloqalar DataSet ichida
bir jadvaldan boshqasiga o'tishga imkon beradi. DataRelationning asosiy elementlari
quyidagilardir: munosabatlarning nomi, ikkita jadvalning o'zlari bilan bog'lanishi, shuningdek
jadvallarda birlamchi kalit va chet el kalitlari ustunlari. Aloqalar jadvaldagi bir nechta ustunlar,
birlamchi va chet el kalitlari uchun DataColumn moslamalari qatori asosida o'rnatilishi mumkin.
DataRelation yaratilganda, ADO.NET munosabatlar o'rnatilishi mumkinligini tekshiradi.
ADO.NET munosabatlarga salbiy ta'sir ko'rsatishi mumkin bo'lgan keyingi o'zgarishlardan qochib,
faqat bir marta RelationsCollectionga aloqalarni qo'shadi.
DataTable System. Data tomonidan belgilanadi va jadvalning sxemasi va satrlarini
belgilaydigan ColumnsCollection obyekti tomonidan taqdim etilgan ustunlar to'plamini o'z ichiga
olgan xotirada doimiy joylashgan ma'lumotlar jadvalini aks ettiradi. DataTable jadvalga
ma'lumotlarni olib keladigan RowsCollection obyekti tomonidan namoyish etilgan qatorlar
to'plamini o'z ichiga oladi. Joriy holat bilan bir qatorda DataTable obyekti asl holatini saqlab qoladi
va ma'lumotlar bilan sodir bo'lgan barcha o'zgarishlarni kuzatib boradi. DataSet XML orqali
tarkibni aks ettiruvchi ma'lumotlarni saqlashi va qayta yuklashi mumkin.
2. Data Set, Data Table, Data Row va Data Column
haqida tushunchalar
3. Ma'lumotlarni tahlil qilish Data Setlar
Ma'lumotlarni tahlil qilish va mashinada o’qitish juda ko'p
ma'lumotlarni talab qiladi. Siz ularni o'zingiz birlashtira olasiz, ammo
bu zerikarli. Bu erda turli toifadagi tayyor ma'lumotlar to'plamlari
bizning yordamimizga keladi va Datasetlar yordamida quyidagi
ma’lumotlar tahlil qiliniishi mumkun:
• Davlat ma'lumotlar to'plamlari;
• Uy-joy ma'lumotlari;
• Iqtisodiyot va moliya;
• Kompyuterni ko'rish qobiliyati;
• Tuyg'ularni tahlil qilish;
• Tabiiy tilni qayta ishlash;
• Avtopilotlar;
• Tibbiy ma'lumotlar va h.k.
Data set qidirish tizimlari.
Bunday qidiruv tizimlari quyidagilardan iborat.
Google Dataset Search. Dataset Search kalit so'z bilan butun
Internetda ma'lumotlar to'plamlarini qidirishga imkon beradi.
Kaggle. Ko'plab qiziqarli ma'lumotlar to'plamiga ega bo'lgan
mashinasozlik musobaqalari maydonchasi. Ma'lumotlar to'plami ro'yxatida
ramen reytingidan tortib NCAA basketbol ma'lumotlariga va Sietlning uy
hayvonlari litsenziyasining ma'lumotlar bazasiga qadar turli xil namunalar
mavjud.
UCI Machine Learning Repository. Internetdagi ma'lumotlar
to'plamlarining eng qadimgi manbalaridan biri va qiziqarli ma'lumotlar
to'plamini izlash uchun birinchi o'rinda turadi. Garchi ular
foydalanuvchilar tomonidan qo'shilsa va shuning uchun har xil darajadagi
"poklik" ga ega bo'lsa ham, aksariyati tozalanadi. Ma'lumotlarni
ro'yxatdan o'tmasdan darhol yuklab olish mumkin.
Visual Data. Datasetlar kompyuterni ko'rish uchun, toifalarga
ajratilgan va qidiruv mavjud.
Find Datasets | CMU Libraries. Karnegi Mellon universiteti
tomonidan taqdim etilgan Datasetlar to'plami.
Davlat Datasetlari
Data.gov. Bu erda siz turli davlat idoralari ma'lumotlarini topishingiz mumkin. Bular
davlat byudjetidan tortib barcha iforalar ma'lumotlarini yiginfisy mavjud.
Turar joy ma'lumotlari. Boston Housing Dataset. Shet davlati Qo'shma Shtatlarning
aholini ro'yxatga olish byurosi tomonidan tuzilgan Bostondagi uy-joy haqida ma'lumot
mavjud. U StatLib arxividan olingan va algoritmlarni baholashda adabiyotda keng
qo'llanilgan.
Iqtisodiyot va moliyadagi Data setlar. Bularga quyidagilar kiradi:
• Quandl. Iqtisodiy va moliyaviy ma'lumotlarning yaxshi manbai - Iqtisodiy
ko'rsatkichlarni yoki aksiyalar narxlarini bashorat qilish modellarini tuzishda
foydalidir;
• World Bank Open Data. Demografik ma'lumotlarni, butun dunyo bo'ylab ko'plab
iqtisodiy va rivojlanish ko'rsatkichlarini o'z ichiga olgan ma'lumotlar to'plamlari;
• IMF Data. Xalqaro valyuta jamg'armasi xalqaro moliya, qarz ko'rsatkichlari, valyuta
zaxiralari, investitsiyalar va tovarlarning narxlari to'g'risidagi ma'lumotlarni nashr
etadi;
• Financial Times Market Data. Qimmatli qog'ozlar, tovar va valyutalar narxlari
indekslarini o'z ichiga olgan dunyodagi moliya bozorlari to'g'risida dolzarb
ma'lumotlar;
• Google Trends. Internet-qidiruv faoliyati va butun dunyo bo'ylab tendentsiyalar
haqidagi ma'lumotlarni o'rganing va tahlil qiling.
4. Mashinali o’qitishda Data Setlar
• xView. Er yuzidagi eng keng tarqalgan havo tasvirlaridan biri. U dunyoning
turli burchaklaridagi tasvirlar, chegaralangan qutilar bilan izohlangan.
• Labelme. Izohlangan rasmlarning katta ma'lumotlar to'plami.
• ImageNet. WordNet ierarxiyasiga muvofiq tashkil etilgan yangi algoritmlar
uchun rasmlar to'plami, unda yuzlab va minglab tasvirlar ierarxiyadagi har bir tugunni
aks ettiradi.
• LSUN. Ma'lumotlarning qisman belgilanishi bilan sahnalar va toifalarga
bo'lingan rasmlarning ma'lumotlar to'plami;
• MS COCO. Obyektni aniqlash va segmentatsiyalash uchun katta hajmdagi
ma'lumotlar to'plami;
• COIL100. Dumaloq harakat bilan har bir burchak ostida tasvirlangan 100 xil
narsalar;
• Vizual Genom. 100 ming batafsil izohli tasvirga ega ma'lumotlar to'plami;
• Google’s Open Images. Creative Commons-da litsenziyalangan "6000 toifani
o'z ichiga olgan" etiketlangan rasmlarga 9 million URL to'plami;
• Labelled Faces in the Wild. Yuzni aniqlash texnologiyasidan foydalanadigan
dasturlarda foydalanish uchun 13000 ta belgilangan yuzlar tasvirlari to'plami;
• Stanford Dogs Dataset. 120 ta it zotidan 20 580 ta rasm mavjud;
• Indoor Scene Recognition. Binolarni ichki tanib olish uchun ma'lumotlar
to'plami. 15620 ta rasm va 67 ta toifani o'z ichiga oladi.
5. Tanlanmani yaratishda bashoratlash usulining
qo’llanilishi
Kompyuterlaning baxosiga bashoratlashni ko’raylik. Istalgan bashoratlash yuritilayotgan
joyda albatta statistik ma’lumotlar bo’lishi talab qilinadi. Shuning uchun biz kompyuter
qurilmalarini va uning baxolari saqlanayotgan ma’lumotlar bazasini tuzaylik. Ma’lumotlar albatta
kompyuter savdosi bilan shugullanuvchi biror firma yoki tashkilotlardan olinadi. Dastlab biz
kompyuter anjomlari va ularning baxolari sakllanuvchi ma’lumotlar bazasini yarataylik.
Ma’lumotlar bazasini tuzish uchun ma’lumotlar bazasini tashkil qiluvchi ma’lumotlar
nimalardan iborat bo’lishi aniqlanadi va ular tiplarga ajratiladi. Kompyuter qurilmalari
quyidagilardan iborat.
Asosiy qurilmalar:
 MB – ona(materinskaya) plata;
 CPU - markaziy mikroprsessor;
 DIM - vaqtinchalik operativ xotira;
 HDD - axborot saqlovchi qattiq disk;
 VGA - grafiklar uchun video kartalar;
 Dick - disklar bilan ishlovchi moslama (DVD RW);
 Cooler - sovitish moslamalari;
 CASE - barchasini yigib turuvchi korpus;
 Monitor - ekran;
 Keyboard - klaviatura;
 Mouse - sichqoncha.
Qo’shimcha qurilmalar:
 Printer - chop etish qurilmasi;
 Skaner – nusxa oluvchi qurilma;
 UPS – vaqtincha elektr energiyasini saqlovchi moslama;
 Djoystik - xar xil oyinlar uchun moslama;
 Speekr - tovushlarni chiqaruvchi ovoz kolonkalari;
 va xakozalar.
Bu yerdan ko’rinib turibdiki keltirilgan ma’lumotlarni aloxida jadval ko’rinishda
tasvirlasak, ular bir butun kompyuter yigindisini tashkil qiladi. MS Office Access dasturida
ularning jadvallari quyidagicha beriladi (10.2-rasm).
MB – ona(materinskaya) plata HDD - axborot saqlovchi qattiq disk;
CPU - markaziy mikroprsessor; Dick - disklar bilan ishlovchi moslama
(DVD RW)
VGA - grafiklar uchun video kartalar; DIM - vaqtinchalik operativ xotira;
CASE - barchasini yigib turuvchi korpus; Monitor - ekran;
Spektr Modem
Mouse - sichqoncha. Keyboard – klaviatura
10.2-rasm. Asosiy Kompyuter jadvali
Kompyuter qurilmalarining jadvallari boglanish sxemasi 10.3-rasmda keltirilgan.
10.3-rasm
Kompyuter qurilmalarini kiritish uchun foydalanuvchiga qulay bo’lishi uchun
quyidagi shakllar ishlab chiqilgan (10.4-rasm).
10.4-rasm
Bu keltirilgan shakllarning xar biri quyidagicha ko’rinishga ega (10.5-rasm).
10.5-rasm.
Bunda kompyuterning xar bir qurilmasining markalari keltirilgan bo’lib, shaklning
pastki qismida shu tanlargan markali qurilmaning baxosi va vaqti keltirilgan. Agar baxolar
o’zgarsa yoki yangi markadagi qurlma kiritish kerak bo’lsa foydalanuvchi shu shakldan
foydalanadi.
Xar bir shaklni foydalanuvchi birma bir ochib, ma’lumot kiritishi ancha noqulaylik
keltiradi. Shuning uchun barcha qurilmalarga aloxida-aloxida tuzilgan shakllar 10.6-
rasmda keltirilganidek bir joyga yig’iladi.
Bu shakldan kerakli qurilma tanlanishi mumkin. Qurilmalar qatoriga sig’may qolgan
qurilmalarni ko’rish uchun yuqori o’ng tomondagi tugmachadan foydalanishi mumkin
(10.7-rasm).
10.7-rasm.
Endi mijoz talabiga qarab kompyuter qurilmalarini tanlash va ularni baxolarini
chiqarish uchun quyidagi TANLASh shakli ishlab chiqiladi. Bunda kompyuter qurilmalari
mos ro’yxatdan tanlanadi va tugmacha bosiladi (10.8-rasm).
Tugmacha bosilgandan keyin tanlangan qurilmalar bo’yicha kompyuter baxosi
maxmus so’rovlar bilan xisobanib, natija Xisobot shaklida chiqariladi (10.9-rasm).
10.9-rasm.
Firmadagi kompyuterlarning mijozlarga sotilishi kunlik ma’lumotlari dasturdagi
sotilgan kompyuterlar bazasida saqlanadi. Yig’ilgan ma’lumotlar ustida xar-xil statistik
amallarni amalga oshirish mumkin. Bu yerda nafaqat kompyuter yigilmasi, balki xar bir
qurilma bozori chaqqonligini xam taxlil qilish mumkin bo’ladi. Misol uchun CPU
(mikroprosessor) qurilmasining kundagi sotilishi xaqida ma’lumotlar tahlilini 10.10-
rasmdagidek berish mumkin.
Date num
01.05.2010 1
02.05.2010 1
03.05.2010 2
04.05.2010 3
05.05.2010 5
06.05.2010 2
07.05.2010 6
08.05.2010 4
09.05.2010 7
10.05.2010 4
11.05.2010 3
12.05.2010 2
13.05.2010 5
14.05.2010 7
0
1
2
3
4
5
6
7
8
01.05.2010
02.05.2010
03.05.2010
04.05.2010
05.05.2010
06.05.2010
07.05.2010
08.05.2010
09.05.2010
10.05.2010
11.05.2010
12.05.2010
13.05.2010
14.05.2010
Biz keltirilgan ma’lumotlarga qarab keyingi sanalarda savdoning qanday bo’lishi,
ya’ni CPU qurilmasi keyingi vaqtda (15.05.2010 sanasidan keyin) qanday sotilishini
bashorat qilishimiz mumkin. Berilgan m’lumotlarga ko’ra bashorat qilish dasturi ilovada
keltirilgan. Dastur natijalaridan bir nechtasini keltiramiz. Shuni aytish kerakki
bashoratlash uchun berilgan qiymatlarning eng kattasi (8), eng kichigi (1), o’rtacha
qiymati (4.2), ma’lumotlar soni (10) muxim axamiyatg ega (10.11-rasm).
0
1
2
3
4
5
6
7
01.05.10 03.05.10 05.05.10 07.05.10 09.05.10 11.05.10 13.05.10 15.05.10
10.11-rasm. CPU qurilmasining narxini bashoratlash.
Nazorat savollari
1. Ma’lumotlar to’plami (Data set) nima?
2. Ma’lumotlar to’plami ma'lumotlar bazasi jadvalida qanday tasvirlanadi?
3. Ma’lumot to’plamlari (data set) ning qanday turlari bor?
4. O’qitiluvchi va testlanuvchi ma’lumotlar to’plami nima?
5. Oq’uv va sinov tanlanmalarda taxminan necha foiz ma’lumotlar olinadi?
6. Ma’lumotlarga dastlabki ishlov berish qanday bosqichlardan iborat?
7. Ma’lumotlarga dastlabki ishlov berish sxemasi qanday bloklardan iborat?
8. Data Set, Data Table, Data Row va Data Column nima uchun qo’llaniladi?
9. Datasetlar yordamida qanday ma’lumotlar tahlil qiliniishi mumkun?
10. Data set qidirishning qanday tizimlari bor?
11. Qanday davlat Data setlari bor?
12. Turar joy ma'lumotlari haqida qanday Data Setlar bor?
13. Iqtisodiyot va moliyadagi Data setlarga qaysilar kiradi?
14. Mashinali o’qitishda qanday Data Setlardan foydalaniladi?
15. Tanlanmani yaratishda bashoratlash usuli qanday qo’llaniladi?
Masala va topshiriqlar
1. Quyida berilgan variantlar uchun Tnml - o’quv tanlanma (n-xususiytlar soni, m-
obyektlar soni, l-sinflar soni) va Tnm - sinov tanlanmani tuzing hamda tanlanmalardagi
ma’lumotlarni normallashtiring.
10 mavzu(prezent)

More Related Content

What's hot

Neural networks
Neural networksNeural networks
Neural networksSlideshare
 
Graph Neural Network - Introduction
Graph Neural Network - IntroductionGraph Neural Network - Introduction
Graph Neural Network - IntroductionJungwon Kim
 
非ガウス性を利用した 因果構造探索
非ガウス性を利用した因果構造探索非ガウス性を利用した因果構造探索
非ガウス性を利用した 因果構造探索Shiga University, RIKEN
 
Unshih hewleh uildel хичээл 3
Unshih hewleh uildel хичээл 3Unshih hewleh uildel хичээл 3
Unshih hewleh uildel хичээл 3Urantuya Purevtseren
 
PFP:材料探索のための汎用Neural Network Potential - 2021/10/4 QCMSR + DLAP共催
PFP:材料探索のための汎用Neural Network Potential - 2021/10/4 QCMSR + DLAP共催PFP:材料探索のための汎用Neural Network Potential - 2021/10/4 QCMSR + DLAP共催
PFP:材料探索のための汎用Neural Network Potential - 2021/10/4 QCMSR + DLAP共催Preferred Networks
 
警察庁オープンデータで交通事故の世界にDeepDive!
警察庁オープンデータで交通事故の世界にDeepDive!警察庁オープンデータで交通事故の世界にDeepDive!
警察庁オープンデータで交通事故の世界にDeepDive!Teruyuki Sakaue
 
Paradigmas De Linguagem De Programação.
Paradigmas De Linguagem De Programação.Paradigmas De Linguagem De Programação.
Paradigmas De Linguagem De Programação.Valmon Gaudencio
 
道具としての機械学習:直感的概要とその実際
道具としての機械学習:直感的概要とその実際道具としての機械学習:直感的概要とその実際
道具としての機械学習:直感的概要とその実際Ichigaku Takigawa
 
Neural Turing Machines
Neural Turing MachinesNeural Turing Machines
Neural Turing MachinesIlya Kuzovkin
 
【読書会資料】『StanとRでベイズ統計モデリング』Chapter12:時間や空間を扱うモデル
【読書会資料】『StanとRでベイズ統計モデリング』Chapter12:時間や空間を扱うモデル【読書会資料】『StanとRでベイズ統計モデリング』Chapter12:時間や空間を扱うモデル
【読書会資料】『StanとRでベイズ統計モデリング』Chapter12:時間や空間を扱うモデルMasashi Komori
 
トピックモデル
トピックモデルトピックモデル
トピックモデル貴之 八木
 
因果探索: 観察データから 因果仮説を探索する
因果探索: 観察データから因果仮説を探索する因果探索: 観察データから因果仮説を探索する
因果探索: 観察データから 因果仮説を探索するShiga University, RIKEN
 

What's hot (20)

Neural networks
Neural networksNeural networks
Neural networks
 
Graph Neural Network - Introduction
Graph Neural Network - IntroductionGraph Neural Network - Introduction
Graph Neural Network - Introduction
 
非ガウス性を利用した 因果構造探索
非ガウス性を利用した因果構造探索非ガウス性を利用した因果構造探索
非ガウス性を利用した 因果構造探索
 
Unshih hewleh uildel хичээл 3
Unshih hewleh uildel хичээл 3Unshih hewleh uildel хичээл 3
Unshih hewleh uildel хичээл 3
 
PFP:材料探索のための汎用Neural Network Potential - 2021/10/4 QCMSR + DLAP共催
PFP:材料探索のための汎用Neural Network Potential - 2021/10/4 QCMSR + DLAP共催PFP:材料探索のための汎用Neural Network Potential - 2021/10/4 QCMSR + DLAP共催
PFP:材料探索のための汎用Neural Network Potential - 2021/10/4 QCMSR + DLAP共催
 
Sun’iy neyron modeli
Sun’iy neyron modeliSun’iy neyron modeli
Sun’iy neyron modeli
 
Cikm 2018
Cikm 2018Cikm 2018
Cikm 2018
 
Лекц 7 (Давталтуудын Си хэлэнд)
Лекц 7 (Давталтуудын Си хэлэнд)Лекц 7 (Давталтуудын Си хэлэнд)
Лекц 7 (Давталтуудын Си хэлэнд)
 
警察庁オープンデータで交通事故の世界にDeepDive!
警察庁オープンデータで交通事故の世界にDeepDive!警察庁オープンデータで交通事故の世界にDeepDive!
警察庁オープンデータで交通事故の世界にDeepDive!
 
Sun’iy neyron modeli
Sun’iy neyron modeliSun’iy neyron modeli
Sun’iy neyron modeli
 
Paradigmas De Linguagem De Programação.
Paradigmas De Linguagem De Programação.Paradigmas De Linguagem De Programação.
Paradigmas De Linguagem De Programação.
 
道具としての機械学習:直感的概要とその実際
道具としての機械学習:直感的概要とその実際道具としての機械学習:直感的概要とその実際
道具としての機械学習:直感的概要とその実際
 
Neural Turing Machines
Neural Turing MachinesNeural Turing Machines
Neural Turing Machines
 
【読書会資料】『StanとRでベイズ統計モデリング』Chapter12:時間や空間を扱うモデル
【読書会資料】『StanとRでベイズ統計モデリング』Chapter12:時間や空間を扱うモデル【読書会資料】『StanとRでベイズ統計モデリング』Chapter12:時間や空間を扱うモデル
【読書会資料】『StanとRでベイズ統計モデリング』Chapter12:時間や空間を扱うモデル
 
Salaalsan algoritm
Salaalsan algoritmSalaalsan algoritm
Salaalsan algoritm
 
Recurrent neural networks
Recurrent neural networksRecurrent neural networks
Recurrent neural networks
 
トピックモデル
トピックモデルトピックモデル
トピックモデル
 
Ch11 hmm
Ch11 hmmCh11 hmm
Ch11 hmm
 
rnn BASICS
rnn BASICSrnn BASICS
rnn BASICS
 
因果探索: 観察データから 因果仮説を探索する
因果探索: 観察データから因果仮説を探索する因果探索: 観察データから因果仮説を探索する
因果探索: 観察データから 因果仮説を探索する
 

10 mavzu(prezent)

  • 1. Reja: 1. O’qitiluvchi va testlanuvhi ma’lumotlar to’plami. 2. DataSet, DataTable, DataRow va Data Column haqida tushunchalar. 3. Ma'lumotlarni tahlil qilish - DataSetlar. 4. Mashinali o’qitishda Datasetlar. 5. Tanlanmani yaratishda bashoratlash usulining qo’llanilishi 10-Mavzu. Mashinali o'qitishda o’rgatuvchi tanlanma (Dataset). Mashinali o’qitishda tanlanmani yaratish usullari
  • 2. Tayanch iboralar: Ma’lumotlar to’plami (Data set), ma'lumotlar bazasi, o'quv tanlanma (training set), qvalifikatsiya tanlanmasi (qvalidation set), test tanlanma (qtesting set), neyron tarmoq, AI-loyihalar (AIprojects), Data Set, Data Table, Data Row va Data Column, Avtopilot, Google Dataset Search, Kaggle, UCI Machine Learning Repository, Visual Data, Find Datasets | CMU Libraries, Data.gov, Boston Housing Dataset, Quandl, World Bank Open Data, IMF Data, Financial Times Market Data, Google Trends, xView, Labelme, ImageNet, LSUN, MS COCO, COIL100, Vizual Genom, Google’s Open Images, Labelled Faces in the Wild, Stanford Dogs Dataset Tayanch iboralar:
  • 3. Ma’lumotlar to’plami (Data set). Ma’lumotlar to’plami - bu o’qitish uchun kerakli bo’lgan ma'lumotlar to'plamidir. Boshqacha aytganda, ma'lumotlar to'plami ma'lumotlar bazasi jadvalining yoki bitta statistik ma'lumotlar matritsasining qiymatlari hisoblanib, bunda jadvalning har bir ustuni ma'lum o'zgaruvchini yoki parametr (x1, x2, ... , xn) qiymatini ifodalasa, har bir satr esa berilgan parametrlar asosidagi obyekt qiymatiga (X1, X2, ..., X N) to'g'ri keladi. Machinali o’qitish loyihalarida biz o'quv ma'lumotlari to'plamidan (training dataset) foydalanamiz. Bu turli xil harakatlarni bajarish uchun modelni oqitish uchun ishlatiladigan haqiqiy ma'lumotlar to'plami hisoblanadi.. Ma’lumot to’plamlari (data set) turlari. Mashinan io’qitish jarayonida va modelning to’liq ishlashini ta’minlash maqsadida quyidagi ma’lumotlar to’plami turlaridan foydalaniladi: - o'quv tanlanmasi - to'plami (training set); - qvalifikatsiya tanlanmasi - to’plami (qvalidation set); - test tanlanma - to'plami (qtesting set). 1. O’qitiluvchi va testlanuvchi ma’lumotlar to’plami
  • 4. O’qitiluvchi va testlanuvchi ma’lumotlar to’plami. Ma'lumotlarni yig'ish - bu neyron tarmoqlar kabi tushunchalarni qanday qo'llashni o'rganish, natijalarni o'rganish uchun algoritmni tayyorlash uchun ishlatiladigan to'plamdir. Bunga ma'lumotlar va kutiladigan natijalar kiradi. O’quv tanlanma umumiy ma'lumotlarning ko'p qismini tashkil etadi, ya’ni taxminan 60-80%. Sinov tanlanma modellarning parametrlariga mos keladigan og'irliklarni sozlash deb nomlanadigan jarayon hisoblanadi. Sinov ma'lumotlari to'plami algoritmning o'quv ma'lumotlari bilan qanchalik yaxshi o'qitilganligini baholash uchun ishlatiladi. AI-loyihalar(AIprojects)da biz sinov bosqichida o'quv ma'lumotlari to'plamidan foydalana olmaymiz, chunki algoritm oldindan kutilgan natijani oldindan bilib oladi, bu bizning maqsadimiz emas. Sinov to'plamlari ma'lumotlarning 20% ni tashkil etadi, testlar to'plami ma'lumotlar kiritilishi bilan tasdiqlangan to'g'ri natijalar bilan birgalikda guruhlangan ma'lumotlarni kiritish, odatda inson tomonidan tekshirilishi bilan ta'minlanadi. Ma’lumotlarga dastlabki ishlov berish. 1. Shaklni aniqlash: ma'lumotlar turli xil fayllarda tarqalishi mumkin. Masalan, turli xil valyutalar, tillar va hokazolarga ega bo'lgan turli mamlakatlardagi savdo natijalari ma'lumotlar to'plamini shakllantirish uchun bir joyga to'planadi. 2. Ma'lumotlarni tozalash: Ushbu bosqichda bizning maqsadimiz etishmayotgan qiymatlar bilan ishlash va keraksiz belgilarni ma'lumotlardan olib tashlashdan iborat. 3. Xususiyatlarni tanlash: Ushbu bosqichda biz funksiyalar sonini tahlil qilish va optimallashtirishga e'tibor qaratamiz. Odatda, jamoaning a'zosi bashorat qilish uchun qaysi xususiyatlar muhimligini aniqlab, tezroq hisoblash va kam xotira sarf qilish uchun ularni tanlashi kerak.
  • 5. Ma’lumotlarga dastlabki ishlov berish 10.1-rasmda keltirilgan. 10.1-rasm. Ma’lumotlarga dastlabki ishlov berish sxemasi.
  • 6. DataSet - ma'lumotlar manbalaridan qat'i nazar, izchil dasturlash modelini ta'minlaydigan oddiy, doimiy ma'lumotlar bazasi. DataSet - bu tegishli jadvallar, cheklovlar va jadvallar o'rtasidagi munosabatlarni o'z ichiga olgan to'liq ma'lumotlar to'plami. Odatda ma'lumotlar to'plami (DataSet) RelationsCollection obyekti tomonidan aniqlangan munosabatlarni o'z ichiga oladi. DataRelation obyekti xaritasi bir jadvaldagi qatorlar bilan boshqa ma'lumotlar jadvalidagi satrlar bilan ifodalangan munosabatlar. Bu relyatsion ma'lumotlar bazasidagi tashqi kalitlarga o'xshash ishlaydi. DataRelation ikkita DataSetsdagi ustunlarning mosligini aniqlaydi. Aloqalar DataSet ichida bir jadvaldan boshqasiga o'tishga imkon beradi. DataRelationning asosiy elementlari quyidagilardir: munosabatlarning nomi, ikkita jadvalning o'zlari bilan bog'lanishi, shuningdek jadvallarda birlamchi kalit va chet el kalitlari ustunlari. Aloqalar jadvaldagi bir nechta ustunlar, birlamchi va chet el kalitlari uchun DataColumn moslamalari qatori asosida o'rnatilishi mumkin. DataRelation yaratilganda, ADO.NET munosabatlar o'rnatilishi mumkinligini tekshiradi. ADO.NET munosabatlarga salbiy ta'sir ko'rsatishi mumkin bo'lgan keyingi o'zgarishlardan qochib, faqat bir marta RelationsCollectionga aloqalarni qo'shadi. DataTable System. Data tomonidan belgilanadi va jadvalning sxemasi va satrlarini belgilaydigan ColumnsCollection obyekti tomonidan taqdim etilgan ustunlar to'plamini o'z ichiga olgan xotirada doimiy joylashgan ma'lumotlar jadvalini aks ettiradi. DataTable jadvalga ma'lumotlarni olib keladigan RowsCollection obyekti tomonidan namoyish etilgan qatorlar to'plamini o'z ichiga oladi. Joriy holat bilan bir qatorda DataTable obyekti asl holatini saqlab qoladi va ma'lumotlar bilan sodir bo'lgan barcha o'zgarishlarni kuzatib boradi. DataSet XML orqali tarkibni aks ettiruvchi ma'lumotlarni saqlashi va qayta yuklashi mumkin. 2. Data Set, Data Table, Data Row va Data Column haqida tushunchalar
  • 7. 3. Ma'lumotlarni tahlil qilish Data Setlar Ma'lumotlarni tahlil qilish va mashinada o’qitish juda ko'p ma'lumotlarni talab qiladi. Siz ularni o'zingiz birlashtira olasiz, ammo bu zerikarli. Bu erda turli toifadagi tayyor ma'lumotlar to'plamlari bizning yordamimizga keladi va Datasetlar yordamida quyidagi ma’lumotlar tahlil qiliniishi mumkun: • Davlat ma'lumotlar to'plamlari; • Uy-joy ma'lumotlari; • Iqtisodiyot va moliya; • Kompyuterni ko'rish qobiliyati; • Tuyg'ularni tahlil qilish; • Tabiiy tilni qayta ishlash; • Avtopilotlar; • Tibbiy ma'lumotlar va h.k.
  • 8. Data set qidirish tizimlari. Bunday qidiruv tizimlari quyidagilardan iborat. Google Dataset Search. Dataset Search kalit so'z bilan butun Internetda ma'lumotlar to'plamlarini qidirishga imkon beradi. Kaggle. Ko'plab qiziqarli ma'lumotlar to'plamiga ega bo'lgan mashinasozlik musobaqalari maydonchasi. Ma'lumotlar to'plami ro'yxatida ramen reytingidan tortib NCAA basketbol ma'lumotlariga va Sietlning uy hayvonlari litsenziyasining ma'lumotlar bazasiga qadar turli xil namunalar mavjud. UCI Machine Learning Repository. Internetdagi ma'lumotlar to'plamlarining eng qadimgi manbalaridan biri va qiziqarli ma'lumotlar to'plamini izlash uchun birinchi o'rinda turadi. Garchi ular foydalanuvchilar tomonidan qo'shilsa va shuning uchun har xil darajadagi "poklik" ga ega bo'lsa ham, aksariyati tozalanadi. Ma'lumotlarni ro'yxatdan o'tmasdan darhol yuklab olish mumkin. Visual Data. Datasetlar kompyuterni ko'rish uchun, toifalarga ajratilgan va qidiruv mavjud. Find Datasets | CMU Libraries. Karnegi Mellon universiteti tomonidan taqdim etilgan Datasetlar to'plami.
  • 9. Davlat Datasetlari Data.gov. Bu erda siz turli davlat idoralari ma'lumotlarini topishingiz mumkin. Bular davlat byudjetidan tortib barcha iforalar ma'lumotlarini yiginfisy mavjud. Turar joy ma'lumotlari. Boston Housing Dataset. Shet davlati Qo'shma Shtatlarning aholini ro'yxatga olish byurosi tomonidan tuzilgan Bostondagi uy-joy haqida ma'lumot mavjud. U StatLib arxividan olingan va algoritmlarni baholashda adabiyotda keng qo'llanilgan. Iqtisodiyot va moliyadagi Data setlar. Bularga quyidagilar kiradi: • Quandl. Iqtisodiy va moliyaviy ma'lumotlarning yaxshi manbai - Iqtisodiy ko'rsatkichlarni yoki aksiyalar narxlarini bashorat qilish modellarini tuzishda foydalidir; • World Bank Open Data. Demografik ma'lumotlarni, butun dunyo bo'ylab ko'plab iqtisodiy va rivojlanish ko'rsatkichlarini o'z ichiga olgan ma'lumotlar to'plamlari; • IMF Data. Xalqaro valyuta jamg'armasi xalqaro moliya, qarz ko'rsatkichlari, valyuta zaxiralari, investitsiyalar va tovarlarning narxlari to'g'risidagi ma'lumotlarni nashr etadi; • Financial Times Market Data. Qimmatli qog'ozlar, tovar va valyutalar narxlari indekslarini o'z ichiga olgan dunyodagi moliya bozorlari to'g'risida dolzarb ma'lumotlar; • Google Trends. Internet-qidiruv faoliyati va butun dunyo bo'ylab tendentsiyalar haqidagi ma'lumotlarni o'rganing va tahlil qiling.
  • 10. 4. Mashinali o’qitishda Data Setlar • xView. Er yuzidagi eng keng tarqalgan havo tasvirlaridan biri. U dunyoning turli burchaklaridagi tasvirlar, chegaralangan qutilar bilan izohlangan. • Labelme. Izohlangan rasmlarning katta ma'lumotlar to'plami. • ImageNet. WordNet ierarxiyasiga muvofiq tashkil etilgan yangi algoritmlar uchun rasmlar to'plami, unda yuzlab va minglab tasvirlar ierarxiyadagi har bir tugunni aks ettiradi. • LSUN. Ma'lumotlarning qisman belgilanishi bilan sahnalar va toifalarga bo'lingan rasmlarning ma'lumotlar to'plami; • MS COCO. Obyektni aniqlash va segmentatsiyalash uchun katta hajmdagi ma'lumotlar to'plami; • COIL100. Dumaloq harakat bilan har bir burchak ostida tasvirlangan 100 xil narsalar; • Vizual Genom. 100 ming batafsil izohli tasvirga ega ma'lumotlar to'plami; • Google’s Open Images. Creative Commons-da litsenziyalangan "6000 toifani o'z ichiga olgan" etiketlangan rasmlarga 9 million URL to'plami; • Labelled Faces in the Wild. Yuzni aniqlash texnologiyasidan foydalanadigan dasturlarda foydalanish uchun 13000 ta belgilangan yuzlar tasvirlari to'plami; • Stanford Dogs Dataset. 120 ta it zotidan 20 580 ta rasm mavjud; • Indoor Scene Recognition. Binolarni ichki tanib olish uchun ma'lumotlar to'plami. 15620 ta rasm va 67 ta toifani o'z ichiga oladi.
  • 11. 5. Tanlanmani yaratishda bashoratlash usulining qo’llanilishi Kompyuterlaning baxosiga bashoratlashni ko’raylik. Istalgan bashoratlash yuritilayotgan joyda albatta statistik ma’lumotlar bo’lishi talab qilinadi. Shuning uchun biz kompyuter qurilmalarini va uning baxolari saqlanayotgan ma’lumotlar bazasini tuzaylik. Ma’lumotlar albatta kompyuter savdosi bilan shugullanuvchi biror firma yoki tashkilotlardan olinadi. Dastlab biz kompyuter anjomlari va ularning baxolari sakllanuvchi ma’lumotlar bazasini yarataylik. Ma’lumotlar bazasini tuzish uchun ma’lumotlar bazasini tashkil qiluvchi ma’lumotlar nimalardan iborat bo’lishi aniqlanadi va ular tiplarga ajratiladi. Kompyuter qurilmalari quyidagilardan iborat. Asosiy qurilmalar:  MB – ona(materinskaya) plata;  CPU - markaziy mikroprsessor;  DIM - vaqtinchalik operativ xotira;  HDD - axborot saqlovchi qattiq disk;  VGA - grafiklar uchun video kartalar;  Dick - disklar bilan ishlovchi moslama (DVD RW);  Cooler - sovitish moslamalari;  CASE - barchasini yigib turuvchi korpus;  Monitor - ekran;  Keyboard - klaviatura;  Mouse - sichqoncha.
  • 12. Qo’shimcha qurilmalar:  Printer - chop etish qurilmasi;  Skaner – nusxa oluvchi qurilma;  UPS – vaqtincha elektr energiyasini saqlovchi moslama;  Djoystik - xar xil oyinlar uchun moslama;  Speekr - tovushlarni chiqaruvchi ovoz kolonkalari;  va xakozalar. Bu yerdan ko’rinib turibdiki keltirilgan ma’lumotlarni aloxida jadval ko’rinishda tasvirlasak, ular bir butun kompyuter yigindisini tashkil qiladi. MS Office Access dasturida ularning jadvallari quyidagicha beriladi (10.2-rasm). MB – ona(materinskaya) plata HDD - axborot saqlovchi qattiq disk;
  • 13. CPU - markaziy mikroprsessor; Dick - disklar bilan ishlovchi moslama (DVD RW) VGA - grafiklar uchun video kartalar; DIM - vaqtinchalik operativ xotira;
  • 14. CASE - barchasini yigib turuvchi korpus; Monitor - ekran; Spektr Modem
  • 15. Mouse - sichqoncha. Keyboard – klaviatura 10.2-rasm. Asosiy Kompyuter jadvali
  • 16. Kompyuter qurilmalarining jadvallari boglanish sxemasi 10.3-rasmda keltirilgan. 10.3-rasm
  • 17. Kompyuter qurilmalarini kiritish uchun foydalanuvchiga qulay bo’lishi uchun quyidagi shakllar ishlab chiqilgan (10.4-rasm). 10.4-rasm
  • 18. Bu keltirilgan shakllarning xar biri quyidagicha ko’rinishga ega (10.5-rasm). 10.5-rasm.
  • 19. Bunda kompyuterning xar bir qurilmasining markalari keltirilgan bo’lib, shaklning pastki qismida shu tanlargan markali qurilmaning baxosi va vaqti keltirilgan. Agar baxolar o’zgarsa yoki yangi markadagi qurlma kiritish kerak bo’lsa foydalanuvchi shu shakldan foydalanadi. Xar bir shaklni foydalanuvchi birma bir ochib, ma’lumot kiritishi ancha noqulaylik keltiradi. Shuning uchun barcha qurilmalarga aloxida-aloxida tuzilgan shakllar 10.6- rasmda keltirilganidek bir joyga yig’iladi.
  • 20. Bu shakldan kerakli qurilma tanlanishi mumkin. Qurilmalar qatoriga sig’may qolgan qurilmalarni ko’rish uchun yuqori o’ng tomondagi tugmachadan foydalanishi mumkin (10.7-rasm). 10.7-rasm. Endi mijoz talabiga qarab kompyuter qurilmalarini tanlash va ularni baxolarini chiqarish uchun quyidagi TANLASh shakli ishlab chiqiladi. Bunda kompyuter qurilmalari mos ro’yxatdan tanlanadi va tugmacha bosiladi (10.8-rasm).
  • 21. Tugmacha bosilgandan keyin tanlangan qurilmalar bo’yicha kompyuter baxosi maxmus so’rovlar bilan xisobanib, natija Xisobot shaklida chiqariladi (10.9-rasm). 10.9-rasm.
  • 22. Firmadagi kompyuterlarning mijozlarga sotilishi kunlik ma’lumotlari dasturdagi sotilgan kompyuterlar bazasida saqlanadi. Yig’ilgan ma’lumotlar ustida xar-xil statistik amallarni amalga oshirish mumkin. Bu yerda nafaqat kompyuter yigilmasi, balki xar bir qurilma bozori chaqqonligini xam taxlil qilish mumkin bo’ladi. Misol uchun CPU (mikroprosessor) qurilmasining kundagi sotilishi xaqida ma’lumotlar tahlilini 10.10- rasmdagidek berish mumkin. Date num 01.05.2010 1 02.05.2010 1 03.05.2010 2 04.05.2010 3 05.05.2010 5 06.05.2010 2 07.05.2010 6 08.05.2010 4 09.05.2010 7 10.05.2010 4 11.05.2010 3 12.05.2010 2 13.05.2010 5 14.05.2010 7 0 1 2 3 4 5 6 7 8 01.05.2010 02.05.2010 03.05.2010 04.05.2010 05.05.2010 06.05.2010 07.05.2010 08.05.2010 09.05.2010 10.05.2010 11.05.2010 12.05.2010 13.05.2010 14.05.2010
  • 23. Biz keltirilgan ma’lumotlarga qarab keyingi sanalarda savdoning qanday bo’lishi, ya’ni CPU qurilmasi keyingi vaqtda (15.05.2010 sanasidan keyin) qanday sotilishini bashorat qilishimiz mumkin. Berilgan m’lumotlarga ko’ra bashorat qilish dasturi ilovada keltirilgan. Dastur natijalaridan bir nechtasini keltiramiz. Shuni aytish kerakki bashoratlash uchun berilgan qiymatlarning eng kattasi (8), eng kichigi (1), o’rtacha qiymati (4.2), ma’lumotlar soni (10) muxim axamiyatg ega (10.11-rasm). 0 1 2 3 4 5 6 7 01.05.10 03.05.10 05.05.10 07.05.10 09.05.10 11.05.10 13.05.10 15.05.10 10.11-rasm. CPU qurilmasining narxini bashoratlash.
  • 24. Nazorat savollari 1. Ma’lumotlar to’plami (Data set) nima? 2. Ma’lumotlar to’plami ma'lumotlar bazasi jadvalida qanday tasvirlanadi? 3. Ma’lumot to’plamlari (data set) ning qanday turlari bor? 4. O’qitiluvchi va testlanuvchi ma’lumotlar to’plami nima? 5. Oq’uv va sinov tanlanmalarda taxminan necha foiz ma’lumotlar olinadi? 6. Ma’lumotlarga dastlabki ishlov berish qanday bosqichlardan iborat? 7. Ma’lumotlarga dastlabki ishlov berish sxemasi qanday bloklardan iborat? 8. Data Set, Data Table, Data Row va Data Column nima uchun qo’llaniladi? 9. Datasetlar yordamida qanday ma’lumotlar tahlil qiliniishi mumkun? 10. Data set qidirishning qanday tizimlari bor? 11. Qanday davlat Data setlari bor? 12. Turar joy ma'lumotlari haqida qanday Data Setlar bor? 13. Iqtisodiyot va moliyadagi Data setlarga qaysilar kiradi? 14. Mashinali o’qitishda qanday Data Setlardan foydalaniladi? 15. Tanlanmani yaratishda bashoratlash usuli qanday qo’llaniladi?
  • 25. Masala va topshiriqlar 1. Quyida berilgan variantlar uchun Tnml - o’quv tanlanma (n-xususiytlar soni, m- obyektlar soni, l-sinflar soni) va Tnm - sinov tanlanmani tuzing hamda tanlanmalardagi ma’lumotlarni normallashtiring.