მონაცემთა ტიპები
მაგალითები:
ქორწინებისსტატუსი
გაქვთ თუ არა ხმის
მიცემის უფლება
თვალების ფერი
მაგალითები:
შვილთა რაოდენობა
შეცდომები 1 საათში
(თვლადი ობიექტები)
მონაცემები
კატეგორიული რაოდენობრივი
დისკრეტული უწყვეტი
მაგალითები:
წონა
ძაბვა
(ზომადი მახასიათებლები)
3.
მონაცემთა რაოდენობრივი აღწერა
არითმეტ.საშუალო
მედიანა
მოდა
რაოდენობრივი აღწერა
დისპერსია
სტანდარტული გადახრა
ვარიაციის კოეფიციენტი
დიაპაზონი
კვარტილური დიაპაზონი
ცენტრალური ტენდენცია გაფანტულობა
4.
ცენტრალური ტენდენციის საზომები
ცენტრალურიტენდენცია
საშუალო მედიანა მოდა
n
x
x
n
1i
i∑=
=
დალაგებულ
მონაცემთა
შუა წერტილი
ყველაზე ხშირი
დაკვირვება
არითმეტიკული
საშუალო
5.
(არითმეტიკული) საშუალო (Mean)
ცენტრალური ტენდენციის ყველაზე ხშირად
გამოყენებადი საზომი
N მნიშვნელობათა პოპულაციისათვის:
n ზომის შერჩევისათვის:
შერჩევის ზომა
n
xxx
n
x
x n21
n
1i
i
+++
==
∑= დაკვირვების
ობიექტები
N
xxx
N
x
μ N21
N
1i
i
+++
==
∑=
პოპულაციის ზომა
პოპულაციის
მნიშვნელობები
უპირატესობა:
ყველარაოდენობრივ მონაცემთა ბაზას აქვს საშუალო
საშუალოს დასათვლელად თითოეული მონაცემი არის
გამოყენებული
თითოეული მონაცემი თანაბრად მნიშვნელოვანია
ნაკლოვანება:
არითმეტიკული საშუალო მგრძნობიარეა ამოვარდნილი
მონაცემის მიმართ
არითმეტიკული საშუალოს
თვისებები
8.
მედიანა
დალაგებულ (ზრდადობითან კლებადობით) მწკრივში
მედიანა არის “შუა” რიცხვი (50% მის ზემოთ და 50%
ქვემოთ)
ხდება ექსტრემალური მნიშვნელობების გავლენის
თავიდან აცილება
0 1 2 3 4 5 6 7 8 9 10
Median = 3
0 1 2 3 4 5 6 7 8 9 10
Median = 3
9.
მედიანის პოვნა
თურიცხვთა ოდენობა კენტია, მედიანა შუა
წერტილია
თუ რიცხვთა ოდენობა ლუწია, მედიანა არის ორი
შუა წერტილის საშუალო
მედიანის მდებარეობა = დალაგებული მონაცემების
-ე წევრი
2
1n +
10.
უპირატესობები:
ყველარაოდენობრივ მონაცემთა ბაზას აქვს მედიანა
ადვილად დასათვლელია
არ არის მგრძნობიარე ამოვადნილი მონაცემების მიმართ
• ნაკლოვანება:
არ ითვალისწინებს ყველა მონაცემს
მედიანის თვისებები:
11.
• პროცენტილი (p)წარმოადგენს მონაცემთა განლაგებისა და მათი გაფანტულობის
საზომს
• მონაცემთა სიმრავლის p რიგის პროცენტილი არის ისეთი მნიშვნელობა ,
რომელსაც გააჩნია შემდეგი თვისება: მონაცემთა არაუმეტეს p პროცენტისა
ნაკლებია -ზე და მონაცემთა არაუმეტეს 1-p პროცენტისა მეტია -ზე
• მონაცემის პოზიცია
• თუ მონაცემის პოზიცია არის მთელი რიცხვი მაშინ ამ პოზიციაზე მდებარე რიცხვი
იქნება p პროცენტილი
• ხოლო იმ შემთხვევაში თუ მონაცემის პოზიცია არ არის მთელი რიცხვი მაშინ
ვიღებთ მის წინა და მომდევნო პოზიციაზე მდგომი მონაცემების საშუალოს
პროცენტილები და კვარტილები
px~
px~
px~
)1(
100
+= n
p
12.
თუ გვაქვსშემდეგი მოანცემები:
ვიპოვოთ 30-პროცენტილი ანუ p=30%
ჯერ ვალაგებთ მონაცემებს ზრდის მიხედვით
შემდეგ ვპოულობთ , არ არის მთელი რიცხვი ამიტომ
გვინდა ვიპოვოთ 50-პროცენტილი
ვპოულობთ , მთელი რიცხვია ამიტომ
პროცენტილები და კვარტილები
8.4163.0)1(
100
=•=+n
p
8
2
54
%30 =
+
=
xx
x
158%50 == xx
8165.0)1(
100
=•=+n
p
24 22 20 1 3 9 9 1 23 10 17 7 15 19 21
1 1 3 7 9 9 10 15 17 19 20 21 22 23 24
13.
25 -პროცენტილსეწოდება პირველი კვარტილი და აღინიშნება Q1
75- პროცენტილს ეწოდება მესამე კვარტილი და აღინიშნება Q3
50 - პროცენტილს ეწოდება მეორე კვარტილი და ის ემთხვევა მედიანას
პროცენტილები და კვარტილები
14.
მოდა
ცენტრალური ტენდენციისსაზომი
ყველაზე ხშირი მოვლენა
ექსტრემალური მნიშვნელობების გავლენას ადგილი
არ აქვს
გამოიყენება რაოდენობრივი და კატეგორიული
მონაცემებისათვის
შესაძლებელია გვქონდეს რამდენიმე ან არც ერთი
მოდა
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
მოდა = 9
0 1 2 3 4 5 6
არც ერთი
მოდა
15.
უპირატესობა:
შესაძლებელიათვისებრივი მონაცემების ანალიზისთვის
გამოყენება
ექსტრემალური მნიშვნელობების გავლენას ადგილი არ აქვს
ნაკლოვანება:
შესაძლებელია გვქონდეს რამდენიმე ან არც ერთი მოდა
...თუ მონაცემთა ბაზაში არ გვაქვს მოდა, მაშინ გამოიყენება მოდალური
ინტერვალი, რომელიც არის ინტერვალი სადაც ყველაზე მეტი მონაცემია
თავმოყრილი(ინტერვალის ზომა განსაზღვრული უნდა იყოს შესაბამისი
წესით,რომელიც 1 ლექციაში განვიხილეთ)
მოდას თვისებები:
16.
5 სახლიზღვის პირას
მაგალითი: გამეორება
$2,000 K
$500 K
$300 K
$100 K
$100 K
სახლის ფასები:
$2,000,000
500,000
300,000
100,000
100,000
17.
შემაჯამებელი სტატისტიკები
საშუალო:($3,000,000/5)
= $600,000
მედიანა: დალაგებულ მონაცემთა შუა
წერტილი
= $300,000
მოდა: ყველაზე ხშირი მნიშვნელობა
= $100,000
სახლის ფასები:
$2,000,000
500,000
300,000
100,000
100,000
ჯამი 3,000,000
18.
ძირითადად გამოიყენებასაშუალო, თუ
არ არის ამოვარდნილი მნიშვნელობები
ასეთ შემთხვევაში გამოიყენება მედიანა,
რადგან ის არ არის მგრძნობიარე
ამოვარდნილი მნიშვნელობების მიმართ.
მაგალითი: სახლის მედიანური ფასების
გამოყენება რეგიონისთვის – ნაკლებად
მგრძნობიარე ამოვარდნილი
მნიშვნელობების მიმართ
მდებარეობის რომელი საზომია
“საუკეთესო”?
კვარტილური დიაპაზონი
ამოვარდნილიმნიშვნელობების პრობლემის
დაძლევა გარკვეულწილად შესაძლებელია
კვარტილური დიაპაზონის (interquartile range)
მეშვეობით
ხდება მაღალი და დაბალი მნიშვნელობების
ამოყრა და გაბნევის დიაპაზონის გამოთვლა
მონაცემთა შუა 50%–ისათვის
კვ. დიაპაზონი = მე-3 კვარტილი – 1-ელი კვარტილი
IQR = Q3 – Q1
პოპულაციის საშუალოდანმნიშვნელობათა
კვადრატული გადახრების საშუალო:
პოპულაციის დისპერსია :
პოპულაციის დისპერსია
N
μ)(x
σ
N
1i
2
i
2
∑=
−
=
სადაც = პოპულაციის საშუალო
N = პოპულაციის ზომა
xi = x ცვლადის i–ური მნიშნელობა
μ
25.
საშუალოდან მნიშვნელობათაკვადრატული
გადახრების (მიახლოებითი) საშუალო
შერჩევის დისპერსია:
შერჩევის დისპერსია
1-n
)x(x
s
n
1i
2
i
2
∑=
−
=
სადაც = არითმეტიკული საშუალო
n = შერჩევის ზომა
xi = x ცვლადის i–ური მნიშნელობა
X
26.
პოპულაციის სტანდარტული
გადახრა
გაფანტულობისგაზომვის ყველაზე ხშირად
გამოყენებადი საზომი
გვიჩვენებს ვარიაციას საშუალოს მიმართ
პოპულაციის სტანდარტული გადახრა:
N
μ)(x
σ
N
1i
2
i∑=
−
=
27.
შერჩევის სტანდარტული გადახრა
გაფანტულობის გაზომვის ყველაზე ხშირად
გამოყენებადი საზომი
გვიჩვენებს ვარიაციას საშუალოს მიმართ
შერჩევის სტანდარტული გადახრა :
1-n
)x(x
S
n
1i
2
i∑=
−
=
28.
მაგალითი: შერჩევის
სტანდარტული გადახრა
შერჩევის
მონაცემები(xi)10 12 14 15 17 18 18 24
n = 8 საშუალო = x = 16
4.2426
7
126
18
16)(2416)(1416)(1216)(10
1n
)x(24)x(14)x(12)X(10
s
2222
2222
==
−
−++−+−+−
=
−
−++−+−+−
=
საშუალო მნიშვნელობიდან
“საშუალო” გადახრა
29.
სტანდარტული გადახრების
შედარება
საშუალო= 15.5
s= 3.33811 12 13 14 15 16 17 18 19 20 21
11 12 13 14 15 16 17 18 19 20 21
B მონაცემები
A მონაცემები
საშუალო = 15.5
s = 0.926
11 12 13 14 15 16 17 18 19 20 21
საშუალო = 15.5
s = 4.570
C მონაცემები
30.
დისპერსიის და სტანდარტული
გადახრისუპირატესობები
მონაცემთა სიმრავლის თითოეული
მნიშვნელობა მონაწილეობს გათვლებში
საშუალოდან შედარებით უფრო
დაშორებულ მნიშვნელობებს მეტი წონა
აქვთ
(რადგან საშუალოდან გადახრები კვადრატში
აიყვანება)
31.
ვარიაციის კოეფიციენტი
ზომავსფარდობით განფენილობას
ყოველთვის აისახება პროცენტულად (%)
გვიჩვენებს გაფანტულობას საშუალოსთან
მიმართებაში
შესაძლებელია მისი გამოყენება მონაცემთა
ორი ან მეტი სიმრავლის შემთხვევაში (რომლებიც
ასახულია ზომის განსხვევებულ ერთულებში)
100%
x
s
CV ⋅
=
32.
ვარიაციის კოეფიციენტის
შედარება
Aდასახელების აქცია:
საშუალო ფასი გასულ წელს = $50
სტანდარტული გადახრა = $5
B დასახელების აქცია :
საშუალო ფასი გასულ წელს = $100
სტანდარტული გადახრა = $5
ორივე აქციას
აქვს თანაბარი
სტანდარტული
გადახრა,
მაგრამ B აქცია
ნაკლებად
ცვალებადია
10%100%
$50
$5
100%
x
s
CVA =⋅=⋅
=
5%100%
$100
$5
100%
x
s
CVB =⋅=⋅
=