1_LR.pptx
- 2. خطی رگرسیون
رگرسیون
:
•
ابزاری
کمی مقادیر بینی پیش برای مفید
است
.
•
یک
دیگر متغیر چند یا یک روی از متغیر یک بینیپیش برای ستآماری مدل نوع
.
•
برای ساده بسیار روش یک
«
شده نظارت یادگیری
»
میشود محسوب
.
رگرسیون تحلیل
:
•
وابسته متغیر یک بین ی رابطه برآورد برای آماری فرایندهای از ای مجموعه
(
پاسخ
)
مستقل متغیر چند یا یک و
(
پیش
بینی
کننده
ها
)
باشد می
.
•
رگرسیونی تحلیل
تکنیکی
سازیمدل و بررسی برای آماری
است متغیرها بین ارتباط
.
- 4. متغیرها بین روابط
.C
آماری رابطه
:
•
یک ،است تصادفی و قطعی روابط از ترکیبی
است رابطه
قسمتی که
قطعی
و است
قسمتی
تصادفی نیز
است
.
•
آن در که است ای رابطه
«
روند
»
دار وجود پاسخ و کننده بینی پیش بین
د
(
قطعی قسمت
)
اما ،
«
پراکندگی
»
دارد وجود نیز
(
تصادفی قسمت
.)
م آماری روابط تخمین در رگرسیون تحلیل کاربرد بیشترین
تغیرها
است
.
- 6. خطی رگرسیون
خطی رگرسیون
:
•
آن در که است رگرسیون تحلیل هایروش از یکی
متغیر ،
مستق متغیرهای از خطی ترکیبی صورت به وابسته
بینیپیش ل
است خطی کننده بینی پیش تابع یعنی شودمی
.
•
مجموع نهائی جواب شود؛می ضرب آمده دست به متغیر آن برای که ضریبی در مستقل متغیرهای از کدام هر
بود خواهد ثابت مقدار یک عالوه به هاضربحاصل
.
چندگانه و ساده خطی رگرسیون
:
•
،چندگانه خطی رگرسیون خالف بر که است ساده خطی رگرسیون ،خطی رگرسیون نوع ترینساده
وابست متغیر
تنها تابع ه
یک
مستقل متغیر
باشد می
.
- 8. مدل بندی فرمول
ساده خطی رگرسیون
سازی فرمول
«
آماری رابطه
»
وابسته و مستقل متغیرهای بین
:
•
بین ی رابطه فرم
X
و
Y
:
𝑌𝑖 = f 𝑋𝑖 + 𝜖𝑖
𝜖
،
خطا عبارت
،
از مستقل تصادفی متغیر یک
X
باشد می
.
انحراف دهنده نشان خطا عبارت
Y
رگرسیون تابع از
و است
متغیر ٔ
هوسیل به که ،است وابسته متغیر از تغییراتی شامل
مستقل
شودنمی داده توضیح
.
- 9. ساده خطی رگرسیون مدل بندی فرمول
•
رگرسیون مدل سازی فرمول در گام نخستین
،
فرم تعیین
«
قطعی قسمت
»
است رابطه
.
ساده خطی رگرسیون در
،
f
یک
«
خطی تابع
»
تنها با
«
مستقل متغیر یک
»
باشد می
:
𝑌𝑖 = 𝛽0 + 𝛽1𝑋𝑖 + 𝜖𝑖
- 11. ساده خطی رگرسیون مدل بندی فرمول
مدل مفروضات
𝜖𝑖
ندارند خودهمبستگی ها
(
هستند مستقل هم از
)
:
مقدار یعنی
𝜖𝑖+1
،
مقدار از مستقل
𝜖𝑖
است
.
•
مثال
:
عالمت اگر
𝜖2
باشد مثبت
،
عالمت
𝜖3
نیست حدس قابل
.
𝑦𝑖
ها
ندارند خودهمبستگی
(
از
مستقل هم
هستند
)
:
اینکه تبع به
𝜖𝑖
خودهمبستگی ها
ندارند
،
𝑦𝑖
ها
بود خواهند مستقل هم از
.
•
موقعیت
𝑦𝑖
رگرسیون خط به نسبت
نیست بینی پیش قابل
.
- 12. ساده خطی رگرسیون مدل بندی فرمول
رگرسیون تابع
:
•
هر در
Xi
،
توزیعی
از
𝑌
دارد وجود
؛
شرطی توزیع
𝑌 Xi
.
•
تابع
رگرسیون
انتظار مورد مقدار صورت به را
Y
از تابعی عنوان به
X
میکنیم تعریف
؛
که دهد می دست به را تصور این
Y
روش با
به معینی
از تابعی عنوان
X
می تغییر
کند
.
𝑓 𝑋𝑖 = 𝐸 𝑌 𝑋𝑖 = 𝐸 𝛽0 + 𝛽1𝑋 + 𝜖 𝑋𝑖
= 𝛽0 + 𝛽1𝑋𝑖 + 𝐸(𝜖𝑖)
𝐸 𝜖𝑖 = 0 → 𝑓 𝑋𝑖 = 𝐸 𝑌 𝑋𝑖 = 𝛽0 + 𝛽1𝑋𝑖
•
توجه
:
که میشود مشاهده
𝐸 𝑌 𝑋
به خطی وابسته
X
است
.
- 13. ساده خطی رگرسیون مدل بندی فرمول
𝑌 Xi = 𝛽0 + 𝛽1𝑋 + 𝜖 Xi = 𝛽0 + 𝛽1𝑋𝑖 + )𝜖|𝑋𝑖(
= 𝐶𝑜𝑛𝑠𝑡𝑎𝑛𝑡_𝑉𝑎𝑙𝑢𝑒 + )𝜖|𝑋𝑖(
توزیع میشود ثابت
𝑌 Xi
:
نرمال
است
.
𝐸 𝑌 𝑋𝑖 = 𝛽0 + 𝛽1𝑋𝑖
𝜎𝑌|𝑋𝑖
برابر و ثابت
𝜎𝜖
است
.
- 15. ساده خطی رگرسیون مدل بندی فرمول
•
بین رابطه
X
و
Y
نیست قطعی
؛
رابطه که حالی در
𝑋
و
𝐸 𝑌 𝑋
است راست خط یک
.
•
معادله
ی
(𝐸 𝑌 𝑋 = 𝛽0 + 𝛽1𝑋)
بین ی رابطه برای خطی تقریب بهترین
X
و
Y
را آن و است
«
خط
رگرسیون
جامعه
»
مینامیم
.
•
𝛽0
(
مبدا از عرض
)
و
𝛽1
(
زاویه ضریب یا شیب
)
،
هستند مدل پارامترهای
.
•
اگر
𝛽0
و
𝛽1
باشند مشخص
،
میتوان
𝑦
از استفاده با را
«
برای انتظار مورد مقدار
Y
مشخص مقدار اساس بر
X
»
بینی پیش
کرد
:
𝐸 𝑌 𝑋 = 𝑥𝑖 = 𝐸(𝑌𝑖) = 𝛽0 + 𝛽1𝑥𝑖
𝛽0
:
عرض توانمی
گرفت نظر در مستقل متغیر حذف ازاء به وابسته متغیر متوسط مقدار را مبدا از
.
𝛽1
:
میزان
مستقل متغیر به وابسته متغیر حساسیت
دهد می نشان را
،
معنی این به
در تغییرات متوسط که
Y
واحد هر ازای به
در تغییر
X
است چقدر
.
- 17. مدل برآورد
واقعی کاربردهای در معموال
،
مشخص جمعیت کل
نمونه فقط و نیست
را جمعیت از ای
داریم
.
بنابراین
،
رگرس خط
یون
است نامشخص جمعیت
.
ضرایب
میزنیم تخمین آموزشی های داده از استفاده با را مدل
بنابراین و
Y
مشخص مقادیر اساس بر
X
بینی پیش قابل
بود خواهد
.
𝑦𝑖 = 𝛽0 + 𝛽1𝑥𝑖
•
از
نماد
«
»
دادن نشان برای
«
برآورد
»
استفاده
کرده
ایم
:
𝛽0
:
برآوردگر
𝛽0
𝛽1
:
برآوردگر
𝛽1
𝑦𝑖
:
برآوردگر
𝐸 𝑌 𝑋 = 𝑥𝑖
،
شده بینی پیش مقدار
- 19. مدل برآورد
معمولی مربعات حداقل روش
(
Ordinary Least Squares
: )
•
رگرسیون خط که است آن آل ایده
،
بینی پیش دقیق طور به را وابسته متغیر مقادیر
کند
:
𝑦𝑖 = 𝑦𝑖 for 𝑖 = 1, … , 𝑛
•
باشد خطا با همراه بینی پیش است ممکن عمل در
؛
𝜖𝑖 = 𝑦𝑖 − 𝑦𝑖
معادل
«
پیش خطای
بینی
»
است
.
•
آوردن بدست هدف
ضرایب
𝛽0
و
𝛽1
به
ای گونه
پیش خطای حداقل کلی طور به که است
باشیم داشته را بینی
:
min(
𝑖=1
𝑛
𝜖𝑖
2
=
𝑖=1
𝑛
𝑦𝑖 − 𝑦𝑖
2
=
𝑖=1
𝑛
𝑦𝑖 − 𝛽0 + 𝛽1𝑥𝑖
2
)
•
توجه
:
میکنند خنثی را یکدیگر منفی و مثبت خطاهای اینکه دلیل به
،
مربعات از
خطا
می استفاده
کنیم
.
- 20. مدل برآورد
هدف
OLS
معرفی
باشد داشته هاآن از را فاصله کمترین یا عبورکند موجود هایداده یا هانقطه بیشتر از که است تابعی یا خط
.
پارامترهای
𝛽0
و
𝛽1
کردن کمینه با را
RSS
آورد می دست به
:
RSS (Residual Sum of Squares) :
𝑅𝑆𝑆 = 𝜖1
2
+ 𝜖2
2
+ ⋯ + 𝜖𝑛
2
𝑅𝑆𝑆 = (𝑦1 − (𝛽0 + 𝛽1𝑥1))2
+(𝑦2 − (𝛽0 + 𝛽1𝑥2))2
+ ⋯ + (𝑦𝑛 − (𝛽0 + 𝛽1𝑥𝑛))2
𝛽1 = 𝑖=1
𝑛
(𝑥𝑖−𝑥)(𝑦𝑖−𝑦)
𝑖=1
𝑛
(𝑥𝑖−𝑥)2 , 𝛽0 = 𝑦 − 𝛽1𝑥
•
های فرمول که آنجا از
𝛽0
و
𝛽1
اند آمده دست به مربعات حداقل روش از استفاده با
حاصل خط ،
(
𝑦 = 𝛽0 + 𝛽1x
)
عنوان به غالبا
«
خط
مربعات حداقل
»
میشود یاد
.
- 21. مدل برآورد
برای مربعات حداقل برآورد
𝛽1
•
𝑑
𝑑𝛽1
𝑅𝑆𝑆 = −2 𝑖=1
𝑛
(𝑦𝑖𝑥𝑖 −𝛽0𝑥𝑖 −𝛽1𝑥𝑖
2
)
• −2 𝑖=1
𝑛
𝑦𝑖𝑥𝑖 − 𝑦 −𝛽1𝑥 𝑥𝑖−𝛽1𝑥𝑖
2
= 0
• 𝑖=1
𝑛
(𝑦𝑖𝑥𝑖 − 𝑦𝑥𝑖 +𝛽1𝑥𝑥𝑖 −𝛽1𝑥𝑖
2
) = 0
• 𝛽1= 𝑖=1
𝑛
(𝑦𝑖𝑥𝑖 − 𝑦𝑥𝑖)
𝑖=1
𝑛
(𝑥𝑖
2 − 𝑥𝑥𝑖)
𝛽1= 𝑖=1
𝑛
(𝑥𝑖−𝑥)(𝑦𝑖−𝑦)
𝑖=1
𝑛
(𝑥𝑖−𝑥)2
•
راهنمایی
:
• 𝑖=1
𝑛
(𝑥𝑦𝑖 − 𝑥𝑦) = 𝑥 𝑖=1
𝑛
(𝑦𝑖 − 𝑦) = 0
• 𝑖=1
𝑛
(𝑥2
− 𝑥𝑥𝑖) = 𝑥 𝑖=1
𝑛
(𝑥−𝑥𝑖) = 0
برای مربعات حداقل برآورد
𝛽0
• 𝑅𝑆𝑆 = 𝑖=1
𝑛
(𝑦𝑖 − 𝛽0 − 𝛽1𝑥𝑖)2
•
𝑑
𝑑𝛽0
𝑅𝑆𝑆 = −2 𝑖=1
𝑛
𝑦𝑖 −𝛽0 − 𝛽1𝑥𝑖 = 0
• 𝑖=1
𝑛
𝑦𝑖 − 𝑛𝛽0 − 𝛽1 i=1
n
xi = 0
𝛽0= 𝑦 − 𝛽1𝑥
- 22. مدل برآورد
رگرسیون برای مربعات حداقل برازش
«
فروش تعداد
»
ی
ک
حسب بر خاص محصول
«
در تبلیغات هزینه
TV
»
:
•
خط هر
خاکستری
قائم
میدهد نشان را خطا یک
.
sales = 𝛽0 + 𝛽1 ∗ TV + 𝜖
𝑦 = 𝛽0 + 𝛽1𝑥
sales = β0 + β1 ∗ TV
- 23. مدل برآورد
بعدی سه ی نقشه
RSS
مشخص ی داده نمونه یک برای
:
•
معادل قرمز ی نقطه
(
𝛽0
و
𝛽1
)
دست به مربعات حداقل روش با که است
است آمده
.
•
مقدار که میشود مشاهده
RSS
است کمینه نقطه این در
.
- 24. مدل برآورد
مثال
:
•
𝛽0 = 7.03
و
𝛽1 = 0.0475
است آمده دست به
؛
کردن اضافه با صورت این در
1000
$
تبلیغات ی بودجه به
تلویزیونی
،
میکند؟ تغییری چه محصول فروش میزان
𝑦𝑖 = 𝛽0 + 𝛽1𝑥𝑖
sale𝑖 = 𝛽0 + 𝛽1TV𝑖
𝑦𝑖 = 7.03 + 0.0475𝑥𝑖
𝑦𝑛𝑒𝑤 = 7.03 + 0.0475𝑥𝑛𝑒𝑤 = 7.03 + 0.0475 𝑥𝑝𝑟𝑒𝑣𝑖𝑜𝑢𝑠 + 1000 =
7.03 + 0.0475𝑥𝑝𝑟𝑒𝑣𝑖𝑜𝑢𝑠 + 47.5 = 𝑦𝑝𝑟𝑒𝑣𝑖𝑜𝑢𝑠 + 47.5
محصول فروش
47.5
یابد می افزایش واحد
.
- 26. ضرایب برآورد دقت ارزیابی
بین ی رابطه دقیق فرم
𝑋
و
𝑌
:
Y = f X + ϵ
•
توجه
:
تابع
f
و است نامشخص و ثابت
𝜖
است تصادفی خطای عبارت
.
اگر
f
باشد خطی تابع یک
،
بنویسیم زیر صورت به را رابطه میتوانیم
:
Y = 𝛽0 + 𝛽1X + 𝜖
جمعیت رگرسیون خط
(
𝑦 = 𝛽0 + 𝛽1𝑥
)
بین ی رابطه برای خطی تقریب بهترین
𝑋
و
𝑌
است
.
•
واقعی کاربردهای در معموال
،
است ثابت و نامشخص جامعه رگرسیون خط
.
میتوان
دیتای اساس بر و مربعات حداقل روش از استفاده با
موجود
،
ضرایب
𝛽0
و
𝛽1
را
آورد بدست
.
حاصل خط
(
y
= 𝛽0 + 𝛽1𝑥
)
گوییم مربعات حداقل خط را
.
•
خط
حداقل
نیست یکتا مربعات
.
- 27. ضرایب برآورد دقت ارزیابی
مثال
:
خط
بین واقعی ی رابطه قرمز
X
و
𝑌
دهد می نشان را
،
f(x) = 2 + 3x
،
را آن که
نامیم می جمعیت رگرسیون خط
.
مشاهده های داده مجموعه اساس بر و است مربعات حداقل خط ی دهنده نشان آبی خط
است شده محاسبه شده
.
دیتاست
مدل از استفاده با
𝑦 = 2 + 3x + 𝜖
است شده سازی شبیه
؛
این به
که صورت
100
عدد
𝑥𝑖
مدل از استفاده با و کردیم ایجاد تصادفی
،
𝑦𝑖
را متناظر های
حساب
کردیم
،
𝜖𝑖
ها
دست به صفر میانگین با نرمال توزیع یک از
اند آمده
.
- 28. ضرایب برآورد دقت ارزیابی
مثال ادامه
:
است شده داده نشان قرمز رنگ با جمعیت رگرسیون خط همچنان
.
است نامشخص جمعیت رگرسیون خط معموال که باشید داشته توجه
.
خطوط
آبی
خط ی دهنده نشان
مربعات حداقل
هستند
و
متفاوت های داده مجموعه اساس بر
اند آمده دست به
.
نیست یکتا مربعات حداقل خط
و
چون میکند تغییر کمی دیتا تغییر اساس بر
های نمونه
مختلف
،
میکنند فراهم را اطالعات از مختلفی های مجموعه
.
- 29. ضرایب برآورد دقت ارزیابی
سوال
:
بین ی رابطه تعریف برای متفاوت خط دو دیتاست یک فقط وجود با چرا
𝑋
و
𝑌
دارد؟ وجود
(a
y = β0 + β1x
:
رگرسیون خط
جمعیت
(b
y = β0 + β1x
:
حداقل خط
مربعات
جواب
:
•
این
خط دو
،
مصداق
بزرگ جمعیت یک خصوصیات برآورد برای نمونه یک اطالعات از استفاده استاندارد آماری رویکرد
تر
هستند
.
•
مثال
:
جمعیت میانگین برآورد
(
𝜇
)
تصادفی متغیر
Y
از استفاده با
n
ی مشاهده
𝑦𝑛 , … , 𝑦2 , 𝑦1
:
𝜇 = 𝑦 =
1
𝑛 𝑖=1
𝑛
𝑦𝑖
میکنیم سعی مشابه صورت به
از استفاده با
𝛽0
و
𝛽1
محاسبه
روش با شده
حداقل
مربعات
،
نامشخص پارامترهای
𝛽0
و
𝛽1
را
کنیم برآورد
.
یعنی
هستند قرمز خط برای برآوردی آبی خطوط
.
- 30. ضرایب برآورد دقت ارزیابی
برآوردگر
:
•
تقریبی و است وابسته نمونه اطالعات به که است تصادفی متغیر یک ، جمعیت پارامتر یک برآوردگر
مقدار از
ایجاد را پارامتر این نامشخص
میکند
.
𝜇 = 𝑦
:
برآوردگر
𝜇
𝛽0
:
برآوردگر
𝛽0
𝛽1
:
برآوردگر
𝛽1
- 31. ضرایب برآورد دقت ارزیابی
•
معیاری اریبی
میزان دادن نشان برای
مقدار نزدیکی
برآوردگر انتظار مورد
است پارامتر واقعی مقدار به
:
• 𝐵𝑖𝑎𝑠𝑒 𝜃 = 𝐸 𝜃 − 𝜃
- 32. ضرایب برآورد دقت ارزیابی
•
باشد نااریب یا اریب است ممکن برآوردگر
.
•
برآوردگر
𝜃
نااریب
است
؛
اگر فقط و اگر
:
• 𝐸 𝜃 = 𝜃
•
میانگین
𝛽0
و
𝛽1
زیادی تعداد از استفاده با شده محاسبه های
داده مجموعه
متفاوت
،
به نزدیک بسیار
𝛽0
و
𝛽1
خواهد
بود
(
جمعیت رگرسیون خط به مربعات حداقل خط چندین میانگین
است نزدیک
.)
•
برآوردگرهای
𝛽0
و
𝛽1
هستند نااریب
:
• 𝐸 𝛽0 = 𝛽0
• 𝐸 𝛽1 = 𝛽1
- 33. ضرایب برآورد دقت ارزیابی
برآوردگر نااریبی اثبات
𝛽1
:
• 𝛽1= 𝑖=1
𝑛
(𝑥𝑖−𝑥)(𝑦𝑖−𝑦)
𝑖=1
𝑛
(𝑥𝑖−𝑥)2 = 𝑖=1
𝑛
(𝑥𝑖−𝑥)𝑦𝑖
𝑖=1
𝑛
(𝑥𝑖−𝑥)2 −
𝑦 𝑖=1
𝑛
𝑥𝑖−𝑥
𝑖=1
𝑛
𝑥𝑖−𝑥 2 = 𝑖=1
𝑛
(𝑥𝑖−𝑥)𝑦𝑖
𝑖=1
𝑛
(𝑥𝑖−𝑥)2
(becaus𝑒 𝑖=1
𝑛
𝑥𝑖 − 𝑥 = 0)
• 𝛽1 = 𝑖=1
𝑛
(𝑥𝑖−𝑥)(𝛽0+𝛽1𝑥𝑖+𝜖𝑖)
𝑖=1
𝑛 (𝑥𝑖−𝑥)2 =
1
𝑖=1
𝑛 𝑥𝑖−𝑥 2
(𝛽0 𝑖=1
𝑛
𝑥𝑖 − 𝑥 + 𝛽1 𝑖=1
𝑛
𝑥𝑖 − 𝑥 𝑥𝑖
- 34. ضرایب برآورد دقت ارزیابی
اثبات ادامه
برآوردگر نااریبی
𝛽1
:
• 𝐸 𝛽1 𝑋
• = 𝐸 𝛽1 𝑋 + 𝐸 𝑖=1
𝑛
𝑥𝑖−𝑥 𝜖𝑖
𝑖=1
𝑛
𝑥𝑖−𝑥 2 𝑋
• = 𝛽1 +
1
𝑖=1
𝑛
𝑥𝑖−𝑥 2 𝐸 𝑖=1
𝑛
𝑥𝑖 − 𝑥 𝜖𝑖 𝑋
• = 𝛽1 +
1
𝑖=1
𝑛
𝑥𝑖−𝑥 2 𝑖=1
𝑛
𝐸 𝑥𝑖 − 𝑥 𝜖𝑖 𝑋
• = 𝛽1 +
1
𝑖=1
𝑛 𝑥𝑖−𝑥 2 𝑖=1
𝑛
𝑥𝑖 − 𝑥 𝐸 𝜖𝑖 𝑋
• = 𝛽1
𝛽1
است نااریب
.
- 35. ضرایب برآورد دقت ارزیابی
اثبات
برآوردگر نااریبی
𝛽0
:
• 𝑖=1
𝑛
𝑦𝑖 = 𝑛𝛽0 + 𝛽1 𝑖=1
𝑛
𝑥𝑖 + 𝑖=1
𝑛
𝜖𝑖
• 𝑦 = 𝛽0 + 𝛽1𝑥 + 𝜖 (divide by n)
• 𝛽0= 𝑦 − 𝛽1𝑥 = 𝛽0 + 𝛽1𝑥 + 𝜖 − 𝛽1𝑥 = 𝛽0 + (𝛽1 − 𝛽1)𝑥 + 𝜖
• 𝐸 𝛽0|𝑋 = 𝐸 𝛽0|𝑋 + 𝐸 𝛽1 − 𝛽1 𝑥|𝑋 + 𝐸 𝜖|𝑋 = 𝛽0 + 𝑥 𝛽1 − 𝐸 𝛽1|𝑋 = 𝛽0 + 𝑥 𝛽1 − 𝛽1
= 𝛽0
(because 𝐸 𝜖|𝑋 = 𝐸 𝑖=1
𝑛
𝜖𝑖
𝑛
|𝑋 =
1
𝑛 𝑖=1
𝑛
𝐸 𝜖𝑖 𝑋 = 0)
𝛽0
است نااریب
.
- 36. ضرایب برآورد دقت ارزیابی
•
است کارآمدتر چپ سمت برآوردگر
؛
چون
برای
کمتری مشاهدات به ، معین عملکرد یک به دستیابی
نیاز
دارد
.
•
اگر
شده برآورد مقادیر
،
مت بسیار دیگر نمونه به نمونه یک از
فاوت
اری متوسط طور به برآوردگر یک اینکه دانستن صرفا ، باشد
ب
نیست کافی ، نیست
.
مهم سوال
:
•
؟ است دقیق چقدر تصادفی نمونه یک فقط اساس بر برآورد
•
دیگر عبارت به
،
تص نمونه یک فقط اساس بر شده برآورد مقدار
ادفی
،
است؟ نزدیک جمعیت پارامتر به چقدر
- 37. ضرایب برآورد دقت ارزیابی
معیار انحراف
(
Standard Deviation
: )
•
دهدمی نشان که است پراکندگی های شاخص از یکی
طور به
مقدار از مقدار چه هاداده میانگین
متوسط
دارند فاصله
.
𝜎 = 𝑉𝑎𝑟𝑃𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑜𝑛 = 𝑖=1
𝑁 (𝑌𝑖−𝜇)2
𝑁
, 𝜇 = 𝑖=1
𝑁
𝑌𝑖
𝑁
•
معیار انحراف برآوردگر
:
S = 𝑉𝑎𝑟𝑆𝑎𝑚𝑝𝑙𝑒 = 𝑖=1
𝑛 (𝑌𝑖−𝑌)2
𝑛−1
, 𝑌 = 𝑖=1
𝑛
𝑌𝑖
𝑛
𝑌
جمعیت میانگین برای برآوردی ،
(
یعنی
𝜇
)
است
.
جای به
𝑛
بر
(𝑛 − 1)
تقسیم
، است شده
زیرا
شده برآورد جمعیت میانگین
و
کار این انجام
«
آزادی درجه یک
»
هزینه ما برای
دارد
.
- 39. ضرایب برآورد دقت ارزیابی
میانگین برداری نمونه توزیع
استاندارد خطای
(
(Standard Error
:
•
انحراف
نمونه توزیع یک معیار
برداری
(
آماره توزیع
)
اس
ت
.
•
خطای
انحراف و استاندارد
معیار
برای معیارهای دو هر
هستند تغییر توصیف
.
انحراف
معیار
تغیی دهنده نشان
موجود ر
استاندارد خطای که حالی در ، است نمونه یک در
جمعیت یک های نمونه در تغییرموجود
مشخص را
کند می
.
•
که نااریب برآوردگرهای در
𝐸 𝜃 = 𝜃
باشد می
،
برای
برآورد
پارامتر واقعی مقدار به برآوردگر نزدیکی میزان
شودمی استفاده
.
•
است برآوردگر دقت برای معیاری
.
- 40. ضرایب برآورد دقت ارزیابی
با مرتبط استاندارد خطای
𝑌
:
Var Y = Var(
1
n i=1
n
Yi) =
1
n2 𝑖=1
𝑛
𝑉𝑎𝑟(𝑌𝑖) =
𝑛𝜎2
𝑛2 =
𝜎2
𝑛
SE(𝑌) = Var(𝑌) =
𝜎
𝑛
•
𝜎
معیار انحراف
آن نبودن مشخص صورت در که است جمعیت
،
یعنی آن برآوردگر از
S
میکنیم استفاده
.
•
به
میتوان مشابه صورت
دقت
𝛽0
و
𝛽1
برآورد در را
𝛽0
و
𝛽1
کرد بررسی
.
- 41. ضرایب برآورد دقت ارزیابی
با مرتبط استاندارد خطای
𝛽0
و
𝛽1
:
• 𝑆𝐸 𝛽0
2
= Var 𝛽0 = 𝜎2(
1
𝑛
+
𝑥2
𝑖=1
𝑛
(𝑥𝑖−𝑥)2)
• 𝑆𝐸 𝛽1
2
= Var 𝛽1 =
𝜎2
𝑖=1
𝑛
(𝑥𝑖−𝑥)2
•
توجه
:
𝜎2
= Var(𝜖)
- 42. ضرایب برآورد دقت ارزیابی
باقیمانده استاندارد خطای
(residual standard error)
:
•
مقدار بودن نامشخص صورت در
𝜎
،
کنیم برآورد را آن زیر فرمول از استفاده با میتوانیم
.
• RSE =
𝑅𝑆𝑆
𝑛−2
= 𝑖=1
𝑛
(𝑦𝑖−𝑦𝑖)2
𝑛−2
=
𝜖1
2
+𝜖2
2
+⋯+𝜖𝑛
2
𝑛−2
•
بر را مجموع
(𝑛 − 2)
تقسیم
می
کنیم
استفاده در زیرا ،
از
𝑦𝑖
،
کنیم می برآورد را پارامتر دو ما
-
𝛽0
(
مبدا از عرض
)
و
𝛽1
(
شیب
)
-
یعنی
«
آزادی درجه دو
»
دهیم می دست از را
.
•
فرمول در چنانچه
𝑆𝐸 𝛽𝑖
2
مقدار از
𝜎
کنیم استفاده شده برآورد
،
صورت به را آن باید
𝑆𝐸 𝛽𝑖
2
دهیم نشان
.
سادگی برای اما
عالمت این از
«
hat
»
میکنیم صرفنظر اضافی
.
- 43. ضرایب برآورد دقت ارزیابی
استاندارد خطای ی اندازه بر موثر عوامل
:
.A
نمونه حجم
n
:
•
مخرج
𝑖=1
𝑛
(𝑥𝑖−𝑥)2
به
n
دارد بستگی
.
بزرگتر نمونه حجم چه هر
میشود اضافه مجموع این به بیشتری عبارات ،باشد
.
•
نم اندازه افزایش با رگرسیون خطوط ابر که باشید داشته توجه
ونه
شود می تر فشرده
.
م در مدل بیشتر اطمینان از حاصل نتیجه این
ورد
مکان
است وسط
.
- 44. ضرایب برآورد دقت ارزیابی
.C
مقادیر پراکندگی
𝑥
:
𝑖=1
𝑛
(𝑥𝑖−𝑥)2
.B
خط اطراف در پراکندگی
رگرسیون
:
𝑆𝜖 = 𝑖=1
𝑛
(𝑦𝑖 − 𝑦𝑖)2
𝑛 − 2
- 45. ضرایب برآورد دقت ارزیابی
استنباط
پارامترهای
جمعیت
:
•
در
نهایت
عالقه
ایم کرده مشاهده که خاصی نمونه نه ، هستیم جمعیت مورد در گیری نتیجه به مند
.
•
مورد در مندیم عالقه ، ساده رگرسیون تنظیم در
𝛽0
و
𝛽1
بگیریم یاد
.
•
«
اطمینان فواصل
»
و
«
فرضیه آزمونهای
»
جمعیت پارامترهای مقادیر درباره یادگیری برای ، متفاوت اما ، مرتبط روش دو
هستند
.
•
کردن محاسبه برای استاندارد خطای از میتوان
اطمینان فواصل
انجام یا ،
فرض آزمونهای
کرد استفاده ضرایب روی بر
.
- 46. آمار علم های شاخه
آمار
توصیفی
:
•
نتایج توصیف برای
و
می استفاده ها داده در موجود های ویژگی
شود
.
•
اطالعات
یک از حاصل
، گروه
و کندمی توصیف را گروه همان
شودنمی داده تعمیم مشابه جاتدسته به آمده دست به اطالعات
.
استنباطی آمار
:
•
براساس آماری جامعه شناخت ، هدف
مقادیر
هاینمونه از حاصل
است تصادفی
.
•
کل به را نمونه مطالعه از حاصل نتایج
جمعیت
میدهد تعمیم
.
•
در
از گذر
به نمونه
جامعه
،
شروع احتمال نقش و بحث
شودمی
؛
نتایج واقع در
صورت به را نهایی
احتمالی
دهدمی ارائه
.
•
«
کردن برآورد
»
و
«
آماری فرض آزمون
»
استنباطی آمار روشهای
هستند
.
- 47. برآورد
کردن
برآورد روشهای
پارامتر
جمعیت
،
از استفاده با
نمونه
:
.A
نقطه برآورد
:
م به جمعیت پارامتر برآورد عنوان به را واحدی مقدار
ا
میدهد
،
نمونه میانگین مثال برای
.
.B
اطمینان فاصله برآورد
:
پار شامل احتماال که را مقادیر از طیفی
امتر
میدهد ما به است جمعیت
.
احتمال
را باشد جمعیت پارامتر شامل اطمینان ی بازه آنکه
«
سطح
اعتماد
»
گویند
.
ضرایب از استفاده با ترتیب به داریم قصد
𝛽0
و
𝛽1
استاندارد خطای و
آنها
،
بازه
شامل مشخص احتمال با که کنیم تعیین را مقادیر از هایی
پارامترهای
𝛽0
و
𝛽1
هستند
.
- 50. نرمال توزیع
توزیع
مرکز از فاصله و نرمال
،
انحراف برحسب
معیار
:
•
ی محدوده در
2
±
واحد
معیار انحراف
(
برداری نمونه توزیع در استاندارد خطای
)
از
میانگین
،
حدود
95
%
اند گرفته قرار ها داده
.
- 53. توزیع
t
•
مواقع اکثر در
،
برای
فواصل محاسبه
توزیع جای به اطمینان
z
هایتوزیع از
t
میکنیم استفاده
.
•
برای
ایجاد چندانی تفاوت ،بزرگ هاینمونه
کندنمی
(
با
بزرگتر
شدن
های درجه
،آزادی
های توزیع
𝑡
به
توزیع
𝑧
نزدیکتر
شودمی
)
اما ،
هاینمونه برای
کوچکتر
کند ایجاد زیادی تفاوت تواندمی
.
- 54. پارامتر برای اطمینان ی بازه برآورد
•
بازه
اطمینان ی
مشخص اعتماد سطح با
،
دامنه
با که میکند تعیین را مقادیر از ای
اعتماد سطح با برابر احتمالی
،
نامش مقدار
خص
پارامتر
بود خواهد دامنه این در
.
اطمینان فاصله = مقدار
شده برآورد ± حاشیه
خطا
•
میگردد تعیین اطمینان سطح به توجه با که است استاندارد خطای از ضریبی خطا حاشیه
.
برای اطمینان ی بازه
𝛽1
:
مشخص احتمال با
(
1 − 𝛼
)
،
𝛽1
بازه در
[𝛽1 − 𝑡𝛼
2
, 𝑛−2
* SE(𝛽1) , 𝛽1+ 𝑡𝛼
2
, 𝑛−2
* SE(𝛽1)]
خواهد
بود
.
برای اطمینان ی بازه
𝛽0
:
مشخص احتمال با
(
1 − 𝛼
)
،
𝛽0
بازه در
[𝛽0 − 𝑡𝛼
2
, 𝑛−2
* SE(𝛽0) , 𝛽0+ 𝑡𝛼
2
, 𝑛−2
* SE(𝛽0)]
خواهد
بود
.
•
مقدار که باشید داشته توجه
t
آزادی ی درجه و اعتماد سطح اساس بر
،
توزیع جدول از
t
آید می دست به
.
- 55. پارامتر برای اطمینان ی بازه برآورد
کم اطمینان هایفاصله ،کلی طور به
تر عرض
هستند مفیدتر
.
عرض بر موثر عوامل
فاصله
برای اطمینان
𝛽
:
.A
استاندارد خطای
:
دارد وجود مستقیم ی رابطه
.
•
عوامل
شده بیان قبال استاندارد خطای بر موثر
است
.
.B
اطمینان سطح
:
دارد وجود مستقیم ی رابطه
.
•
واضح
که است
نمی
دهیم کاهش خیلی را اطمینان سطح خواهیم
.
زیر هرگز اطمینان سطح ،معمول طور به
90
تنظیم ٪
شود نمی
.
- 56.
مثال
:
•
دیتاست در
advertising
اطمینان ی بازه
95
%
برای
𝛽0
[6.130 , 7.935]
و
اطمینان ی بازه
95
%
برای
𝛽1
[0.042 , 0.053]
است آمده دست به
.
•
گرفت نتیجه توان می
که
:
در
،فروش ،تبلیغات هرگونه وجود عدم صورت
احتمال به
95
%
مقداری به
بین
6130
تا
7935
کند می سقوط واحد
.
هر ازای به
1000
احتمال به ،تلویزیونی تبلیغات در افزایش دالر
95
%
بین فروش
42
تا
53
واحد
داشت خواهد افزایش
.
- 57.
برای اطمینان ی فاصله روش
زیر سوال به پاسخ
:
کننده بینی پیش بین خطی ارتباط آیا
X
پاسخ و
Y
؟ دارد وجود ساده خطی رگرسیون مدل یک در
آیا
𝛽1 ≠ 0
است
؟
•
اطمینان فاصله
محدوده
واقعی مقدار حاوی ًالاحتما که دهد می ما به را مقادیر از ای
نامشخص و
𝛽1
است
.
فاصله
برای اطمینان
𝛽1
حاوی
0
باشد
:
هیچ
خطی رابطه وجود بر مبنی مدرکی
بین
پیش
کننده بینی
𝑋
پاسخ و
𝑌
جمعیت در
ندارد وجود
.
فاصله
برای اطمینان
𝛽1
حاوی
0
نباشد
:
شواهدی
پیش بین خطی رابطه از
کننده بینی
𝑋
و
پاسخ
𝑌
دارد وجود جمعیت در
.
- 58. ضرایب روی بر فرض آزمون
آزمون
t
برای
زیر سوال به پاسخ
:
کننده بینی پیش بین خطی ارتباط آیا
X
پاسخ و
Y
؟ دارد وجود ساده خطی رگرسیون مدل یک در
آیا
𝛽1 ≠ 0
؟ است
•
کننده بینی پیش بین خطی ارتباط وجود
𝑋
پاسخ و
𝑌
خطی رگرسیون مدل یک در
گذاریم می آزمون به را ساده
:
• (𝐻0: 𝛽1 = 0) VS (𝐻𝑎: 𝛽1 ≠ 0)
•
بین رگرسیون خط
X
و
Y
آزمون از سپس و میکنیم برآورد را
t
رگرسی خط شیب است بعید آیا که ببینیم تا میکنیم استفاده
ون
جمعیت
(
𝛽1
)
خیر یا باشد صفر برابر
.
- 59. آماری فرض آزمون
فرض
آماری
:
•
حدس
ی درباره ادعایی یا
ویژگی
بررسی مورد جمعیت چند یا یک
ممکن و است
باشد نادرست یا درست است
.
فرض آزمون
آماری
:
•
هدف
قابل تقریبا آماری فرض ،نمونه های داده از آمده دست به اطالعات به توجه با که است موضوع این تعیین آماری فرض آزمون
تایید
خیر یا است
.
•
فرضیه
نمونه های داده با اما ، هستند جمعیت مورد در ها
بررسی آنها اعتبار
می
شود
.
•
هدف
آزمودن ،
آن اثبات نه است فرض كردن آزمایش و
.
اثبات و فرضیه آزمون تفاوت
فرضیه
:
•
فرضیه یک بودن غلط یا درست اثبات برای
باید
شکی هیچ بدون آید می بدست که ای نتیجه و کنیم بررسی را جمعیت کل
است برقرار
.
•
نیست قطعی نتیجه و شود می استفاده نمونه های داده از استفاده با فرضیه یک بودن محتمل ارزیابی برای فرضیه آزمون
.
- 60. آماری فرض آزمون
هستند یکدیگر نقیض که دارد وجود فرض دو همواره آزمون یک انجام در
:
.A
صفر فرض
(𝐻0)
:
شود آزمایش است قرار که آماری فرض
.
.B
مقابل فرض
(𝐻𝑎)
:
صفر فرض جایگزین
.
•
فرض
قوی ها داده آنکه مگر ، کند می پیروی صفر فرضیه از که است فرضی جمعیت یک ما جمعیت یعنی است صحیح صفر
آن برخالف ا
کنند حکم
.
•
غیرمحتمل و بعید کامال صفر فرض تحت ها داده اگر
باشند
،
را صفر فرض
رد
میکنیم
.
•
آزمون
برای ،صریحی قواعد ی مجموعه گرفتن کار به از عبارتست آماری فرض یک
آنکه
که بگیریم تصمیم
آیا
صف فرض
ر
به را
نفع
رد مقابل فرض
ندارد وجود آن رد برای کافی شواهد یا کنیم
.
•
جم کل اساس بر نه ، است نمونه اطالعات اساس بر تصمیم زیرا است نشده اثبات آن جایگزین یا صفر فرضیه موردی هیچ در
عیت
.
اما
دارد وجود فرضیه بودن درست بر مبنی شواهدی که کرد اعالم اطمینان درجه با میتوان
.
- 61. آماری فرض آزمون مراحل
مرحله
1
:
صفر فرض کردن بیان
(H0)
مقابل فرض و
(Ha)
مرحله
4
:
معناداری سطح تعیین
𝛼
مرحله
3
:
آزمون ی دنباله کردن مشخص
مرحله
2
:
تعیین
«
آزمون ی آماره
»
آن توزیع و مناسب
مرحله
5
:
رد ناحیه کردن مشخص
مرحله
5
:
کردن مشخص
P_Value
مرحله
6
:
آن رد در شکست یا صفر فرض رد برای گیری تصمیم
- 62. مقابل فرض و صفر فرض
𝐻0
نمون وسیله به داریم قصد که است ادعایی نفی
آن ه
کنیم تایید را
؛
است آن رد ما مطلوب
.
= یا ≤ یا ≥
𝐻𝑎
اطالعات وسیله به داریم قصد که ادعایی خود
کنیم تایید را آن نمونه از حاصل
.
≠ یا < یا >
- 63. فرض و صفر فرض
مقابل
• 𝐻0: 𝛽1 = 0
• 𝐻𝑎: 𝛽1 ≠ 0
بین خطی ارتباط که میزنیم حدس
X
و
Y
دارد وجود
؛
هستیم موضوع این تایید دنبال به
.
بین خطی ارتباط که موضوع این
X
و
Y
میگذاریم آزمون به را ندارد وجود
؛
است آن رد ما مطلوب
.
- 64. آزمون ی آماره
فرض با نمونه سازگاری در موثر عوامل
صفر
:
.A
شده مشاهده نتیجه تفاوت
(
آماره
)
،
صفر فرض در انتظار مورد مقدار با
(
صفر فرض تحت جمعیت پارامتر
: )
•
آیا که کنیم تعیین باید صفر فرض آزمون برای
𝛽1
به
، است دور صفر از کافی ی اندازه
مطمئن توانیم می که چنان آن
که باشیم
𝛽1
غیرصفر
است
(
صفر فرض رد
)
یا ،
نه
.
.B
خطای
استاندارد
آماره
:
•
سوال
:
ی فاصله اندازه چه
𝛽1
صفر از
،
شود؟ رد صفر فرض تا است کافی
•
جواب
:
بستگی
دقت به
𝛽1
دارد
:
اگر
SE(𝛽1)
باشد کوچک
،
کوچک نسبتا مقادیر حتی
𝛽1
که باشد این از حاکی است ممکن نیز
𝛽1 ≠ 0
اگر
SE(𝛽1)
باشد بزرگ
،
باید صفر فرض رد برای
𝛽1
باشد بزرگ کامال
.
- 65. آزمون ی آماره
آزمون ی آماره
:
•
است صفر فرض با نمونه های داده سازگاری میزان ارزیابی برای معیاری
.
•
ارزشی
شود می محاسبه نمونه های داده از که است عددی
.
آزمون ی آماره
t
:
:
فرمول
آماره − پارامتر
جمعیت
با
قبول
فرض
صفر
خطای
استاندارد
آماره
•
برابر
که است معیارهایی انحراف تعداد
𝛽1
از
(𝛽1 = 0)
دارد فاصله
:
𝑡𝑠𝑡𝑎𝑡𝑖𝑠𝑡𝑖𝑐 =
𝛽1− 𝛽1
SE(𝛽1)
- 66. آزمون ی آماره
کند می مقایسه رود می انتظار صفر فرضیه در آنچه با را نمونه های داده ، آزمون آماره
.
.A
صفر آزمون آماره
:
باشد داشته مطابقت صفر فرض انتظارات با ًالکام نمونه از حاصل اطالعات اگر
،
براب آزمون آماره
با ر
است صفر
.
.B
کوچک اندازه با آزمون آماره
:
فرض در تردید برای دلیلی و است داده رخ اتفاقی طور به نتیجه که دارد این بر داللت
صفر یه
ندارد وجود
.
.C
بزرگ اندازه با آزمون آماره
:
نظ به بعید ، صفر فرض صحت تحت که دهد می ارائه را نتایجی ، نمونه که دهد می نشان
می ر
رسد
.
•
باشد بزرگ آزمون آماره اندازه است مطلوب ، صفر فرض رد برای
.
- 67. آزمون ی آماره توزیع
•
است صفر فرض تحت برداری نمونه توزیع
.
•
مطابقت صفر فرض انتظارات با ًالکام نمونه از حاصل اطالعات اگر
داشته
بود خواهد جمعیت پارامتر با برابر نمونه آماره ، باشد
.
•
ش دلیل به شده مشاهده تفاوت که دارد مطابقت ایده این با صفر فرض
انس
است
.
•
ص فرض تحت بیشتری وقوع احتمال ،پارامتر مقدار به نزدیک های داده
فر
دارند
.
، دیگر طرف از
احتمال ، دورتر فاصله در واقع های داده برای
است کمتر صفر فرض تحت وقوع
.
- 69. آزمون ی دنباله
ناحیه
مبنای بر ، آزمون یک رد
فرض جهت
مقابل
(
𝐻1
)
میگردد تعیین
.
دار جهت فرض
:
یک آزمون
_
دنباله
•
میتواند آزمون ، فرض جهت به بسته
«
راست
_
دنباله
»
ی
ا
«
چپ
_
دنباله
»
باشد
.
فرض
جهت بدون
:
آزمون
دو
_
دنباله
فرض
(𝐻𝑎: 𝛽1 ≠ 0)
یک آن آزمون و است جهت بدون
دو آزمون
_
بود خواهد دنباله
.
- 70. معناداری سطح
𝛼
هنگام
درباره تصمیم اتخاذ
صفر فرض رد عدم یا رد
ممکن
پیش خطا نوع دو است
آید
:
.A
اول نوع خطای
:
فرض کردن رد
، صفر
که حالی در
است درست
.
.B
نوع خطای
دوم
:
رد
نکردن
که حالی در ، صفر فرض
نادرست
است
.
• α = P(صفر فرض کردن رد | فرض
باشد درست صفر )
• 𝛽 = P(صفر فرض نکردن رد | فرض
باشد نادرست صفر )
- 71. معناداری سطح
𝛼
𝛼
مقدار
که است اول نوع خطای
در
آن تحمل به حاضر فرض آزمون
هستیم
.
•
از ، معمول طور به
𝛼 = 0.05
شود می استفاده
(
مانند سطوح سایر از است ممکن اگرچه
𝛼 = 0.01
شود استفاده
.)
بدان این
مایلیم ما که است معنی
0.05
که پذیریم می را واقعیت این یعنی ، کنیم تحمل را اول نوع خطای از
1
مورد
از
هر
20
، نمونه
باشد درست اگر حتی کنیم می رد را صفر فرض
.
𝛼
،
آزمون بودن دار معنی سطح
،
یک
بودن دار معنی مورد در قضاوت برای که است آستانه مقدار
آماره
آزمون
شود می استفاده
.
•
آماری معنادار
:
زیا احتمال به دیگر عبارت به و باشد بوده اندک بسیار تصادفی صورت به اتفاقی وقوع احتمال گاه هر
دارای د
گویند معنادار آماری لحاظ به را آن ،استبوده شانس از غیر دلیلی
.
•
ندارد وجود معناداری تفاوت یعنی صفر فرض
.
- 72. صفر فرض رد عدم یا رد برای گیری تصمیم
رد ی ناحیه روش
روش
P_Value
- 73. ناحیه
رد ی
برای رد ناحیه
𝐻0
می نظر به بعید ،صفر فرض صحت صورت در که است آزمون ی آماره مقادیر شامل ،
رسند
.
مقادیر
استفاده با میتوان را بحرانی
مقدار از
𝛼
مربوطه توزیع جدول از ،
(
توزیع اینجا در
t
آزادی درجه با
(𝑛 − 2)
)
آورد دست به
.
- 74. صفر فرض رد عدم یا رد برای گیری تصمیم
رد ی ناحیه روش
روش
P_Value
- 75. P_Value
•
P_Value
:
آنکه احتمال از است عبارت
صفر فرض تحت
(
𝛽1 = 0
)
آماره ،
شده مشاهده نتیجه برابر ، رد ناحیه جهت در آزمون
یا
از تر غیرمعمول حتی
آن
باشد
.
• two_tailed → P_Value = P((t ≥ |𝑡𝑐|)| 𝛽1 = 0 )
• left_tailed → P_Value = P((t ≤ −𝑡𝑐)| 𝛽1 = 0 )
• right_tailed → P_Value = P((t ≥ 𝑡𝑐)| 𝛽1 = 0 )
•
P_Value
صفر فرض تحت که میدهد نشان کوچک
(
𝛽1 = 0
)
،
چنین مشاهده
ای نتیجه
(
𝛽1
)
دلیل به
شانس
،
است بعید
.
•
شانس دلیل به شده مشاهده تفاوت که دارد مطابقت ایده این با صفر فرض
است
.
•
اگر
P_Value
باشد کوچک کافی اندازه به
،
کنیم می رد را صفر فرض
.
- 76. P_Value
حد
P_Value
را صفر فرض رد برای
معناداری سطح برابر
𝛼
میگیریم نظر در
:
.A
اگر
P − Value ≥ α
گزینه باشد
𝐻0
بگیرید نتیجه را
:
P − Value
و است داده رخ اتفاقی طور به نتیجه که دارد این بر داللت بزرگ
ندارد وجود صفر فرضیه در تردید برای دلیلی هیچ
.
.B
اگر
P − Value ≤ α
گزینه باشد
𝐻1
بگیرید نتیجه را
:
P − Value
کوچک
اتفاق تصادفی طور به است ممکن نتیجه که دهد می نشان
باشد نیفتاده
و
گیرد می بر در را خاصی علت عوض در
.
«
رد ناحیه روش
»
و
«
روش
p − value
»
می منجر تصمیم یک به همیشه
شوند
.
چرا؟
- 77. تصمیم خطای
گیری
صفر فرض ما وقتی
به را
نفع
جایگزین فرض
(𝛽1 ≠ 0)
رد
، میکنیم
پذیر امکان زیر واقعیت سه از یک هر
است
:
صفر فرض ما وقتی
(𝛽1 = 0)
را
رد
نکنیم
،
سه از یک هر
پذیر امکان زیر واقعیت
است
:
خطای
نوع
I
است داده رخ
.
واقعیت در یعنی
(𝛽1 = 0)
، است
اما
دهد می نشان که داریم غیرمعمول نمونه یک ما
(𝛽1 ≠ 0)
است
.
خطای
نوع
II
است داده رخ
.
یعنی
واقعیت در
(𝛽1 ≠ 0)
است
،
اما
ما نمونه های داده
شواهد
گیری نتیجه برای کافی
ارائه آن
نک
رده
اند
.
رابطه
بین
X
و
Y
،
خطی درستی به
است
. زیادی رابطه واقع در
بین
X
و
Y
ندارد وجود
.
ب منحنی تابع یک اما ، است متناسب ها داده با خطی تابع یک
داده ا
بود خواهد تر متناسب ها
.
بین
X
و
Y
، دارد وجود رابطه
اما
نیست خطی
.
- 78.
مثال
:
Sales = 𝛽0 + 𝛽1 ∗ TV + 𝜖
o 𝐻0 : 𝛽1 = 0
o 𝐻𝑎: 𝛽1 ≠ 0
• 𝑡 =
𝛽1− 𝛽1
SE(𝛽1)
=
0.0475 − 0
0.0027
= 17.59
•
معموال
حد
P_Value
صفر فرض رد برای
1
%
یا
5
%
در
میشود گرفته نظر
.
وقتی
n = 30
، باشد
آماره
𝑡
با مطابق
تقریبا ترتیب به ، آنها
2.75
و
2
خواهد
بود
.
•
رد صفر فرض
میشود
.
- 79. ضرایب روی بر فرض آزمون
روش
آزمون
F
واریانس تحلیل
(
ANOVA
)
زیر سوال به پاسخ برای
:
کننده بینی پیش بین خطی ارتباط آیا
X
پاسخ و
Y
؟ دارد وجود ساده خطی رگرسیون مدل یک در
آیا
𝛽1 ≠ 0
است
؟
•
فرض
صفر
فرض و
مقابل
:
𝐻0 ∶ 𝛽1 = 0
𝐻𝑎 ∶ 𝛽1 ≠ 0
- 80. آزمون ی آماره
•
𝑦
:
شده برآورد رگرسیون خط
•
𝑦
:
خط
برآورد رگرسیون
در شده
بین ای رابطه که حالتی
X
و
Y
نداشته وجود
باشد
اگر
بین
X
و
Y
پس ، باشد داشته وجود خطی رابطه
«
شده برآورد رگرسیون خط
»
از باید
«
رابطه عدم خط
»
دور
باشد داشته
.
این کمی سنجش برای راهی به
دور
داریم نیاز
.
- 81. آزمون ی آماره
.I
مربعات مجموع
:
•
مجموع
کل مربعات
:
میزان
پاسخهای پراکندگی
مشاهده
می را شده
سن
جد
.
SST = 𝑖=1
𝑛
(𝑦𝑖 − 𝑦)2
•
رگرسیون مربعات مجموع
:
میزان
فاصله
«
رگرسیون خط
برآورد
ش
ده
»
از
«
رابطه عدم خط
»
کند می مشخص را
.
SSR = 𝑖=1
𝑛
(𝑦𝑖 − 𝑦)2
•
خطا مربعات مجموع
:
اطراف در نقاط پراکندگی
«
برآو رگرسیون خط
رد
شده
»
میکند کمیت را
.
SSE = 𝑖=1
𝑛
(𝑦𝑖 − 𝑦𝑖)2
- 82. آزمون ی آماره
(𝑦𝑖−𝑦) = (𝑦𝑖−𝑦𝑖) + (𝑦𝑖 − 𝑦)
𝑖=1
𝑛
(𝑦𝑖−𝑦)2
= 𝑖=1
𝑛
(𝑦𝑖−𝑦𝑖)2
+ 𝑖=1
𝑛
(𝑦𝑖 − 𝑦)2
Proof : 𝑖=1
𝑛
(𝑦𝑖−𝑦𝑖)(𝑦𝑖 − 𝑦) = 0
SST = SSR + SSE
در کل تغییرات
Y
(
SST
)
کرد تقسیم بخش دو به میتوان را
:
.A
در تغییرات دلیل به که بخش یک
X
است
(
SSR
.)
.B
است تصادفی خطای دلیل به که بخش یک
(
SSE
.)
•
اگر
SSR
جزء یک
«
بزرگ
»
از
SST
که دهد می نشان ، باشد
بین
X
و
Y
دارد وجود خطی ارتباط
.
- 83. آزمون ی آماره
.II
مربعات میانگین
:
•
واریانس برآورد
است
آزادی درجه آن در که ،
برای
گیرد می قرار استفاده مورد برآورد و محاسبه
.
مربعات میانگین =
مربعات مجموع
آزادی درجه
- 84. آزمون ی آماره
.III
مقدار
مربعات میانگین انتظار مورد
:
𝐸 𝑀𝑆𝐸 = 𝜎2
𝐸 𝑀𝑆𝑅 = 𝜎2
+ 𝛽1
2
𝑖=1
𝑛
(𝑋𝑖 − 𝑋)2
Proof :
• 𝑦𝑖 − 𝑦 = 𝛽1(𝑥𝑖 − 𝑥)
• 𝑦𝑖 − 𝑦 2
= 𝛽1
2
𝑥𝑖 − 𝑥 2
• 𝑖=1
𝑛
(𝑦𝑖 − 𝑦)2
= 𝛽1
2
𝑖=1
𝑛
(𝑥𝑖 − 𝑥)2
• E 𝑖=1
𝑛
𝑦𝑖 − 𝑦 2
= E MSR = E 𝛽1
2
𝑖=1
𝑛
𝑥𝑖 − 𝑥 2
= 𝑉𝑎𝑟 𝛽1 + E 𝛽1
2
𝑖=1
𝑛
𝑥𝑖 − 𝑥 2
=
•
𝜎2
𝑖=1
𝑛
𝑥𝑖−𝑥 2 + 𝛽1
2
𝑖=1
𝑛
𝑥𝑖 − 𝑥 2
= 𝜎2
+ 𝛽1
2
𝑖=1
𝑛
𝑥𝑖 − 𝑥 2
- 85. آزمون ی آماره
نسبت از
𝑀𝑆𝑅
𝑀𝑆𝐸
آزمودن برای
(𝐻0 ∶ 𝛽1 = 0)
برابر در
(𝐻𝑎 ∶ 𝛽1 ≠ 0)
کنیم می استفاده
:
اگر
𝛽1 = 0
داریم انتظار ، باشد
𝑀𝑆𝑅
𝑀𝑆𝐸
= 1
باشد
.
اگر
𝛽1 ≠ 0
داریم انتظار ، باشد
𝑀𝑆𝑅
𝑀𝑆𝐸
> 1
باشد
.
•
توجه
:
چون
𝛽1
در
𝐸 𝑀𝑆𝑅
از نمیتوانیم ، است دو توان دارای
𝑀𝑆𝑅
𝑀𝑆𝐸
آزمودن برای
(𝐻0 ∶ 𝛽1 = 0)
برابر در
(𝐻𝑎 ∶ 𝛽1 > 0)
یا
𝐻𝑎 ∶ 𝛽1 < 0
کنیم استفاده
.
- 86. آزمون ی آماره توزیع
،صفر فرض صحت صورت در
نسبت
𝑀𝑆𝑅
𝑀𝑆𝐸
توزیع دارای
F
آزادی درجه با
صورت
برابر
1
برابر مخرج آزادی درجه و
(𝑛 − 2)
است
.
Fstatistic =
𝑀𝑆𝑅
𝑀𝑆𝐸
•
را آماره این بر مبتنی آزمون
آزمون
F
گویند واریانس تحلیل
.
- 88. مقایسه
F_test
با
t_test
𝐻0 ∶ 𝛽1 = 0
𝐻𝑎 ∶ 𝛽1 ≠ 0
آزمون
F
دنباله یک
آزمون
t
دنباله دو
سوال
:
چه
زمانی
آزمون از
F
و
از زمانی چه
آزمون
t
کنیم؟ می استفاده
•
آزمون
F
فقط
آزمایش برای
(𝛽1 ≠ 0)
مناسب
است
.
•
از
آزمون
𝑡
برای
شیب بودن مثبت تست
(𝛽1 > 0)
شیب بودن منفی یا
(𝛽1 < 0)
شود می استفاده نیز
.
- 89. شرایط
استنباط
آماری
ی چهارگانه مفروضات
«
رابطه بودن خطی
»
،
«
خطا استقالل
»
،
«
خطا توزیع بودن نرمال
»
و
«
برابر واریانس
»
باید
آزمون هایروش از بتوان تا شوند رعایت
و فرضیه
اطمینان فاصله هایفرمول
برای
𝛽0
و
𝛽1
استفاده
کرد
.
خطا عبارات اگر
(
ها پاسخ نتیجه در و
)
ًاتقریب
نرمال
نیست بزرگی مشکل ،باشند
.
د بزرگی نمونه اگر
،ارید
عبارات
حالت از حدودی تا تواند می حتی خطا
نرمال
منحرف
شوند
.
- 90. مدل دقت ارزیابی
•
است خوب چقدر ما تخمینی مدل برازش که بدانیم مایلیم ،شد کامل رگرسیون مدل یک برآورد که هنگامی
.
دیگ عبارت به
مایلیم ،ر
داده با چقدر تخمینی خط که بدانیم
ها
/
مطابقت شده مشاهده های نمونه
دارد
.
•
«
میزان
داده با مدل تناسب
ها
»
نشان
دهنده
«
میزان
بینی پیش دقت
مدل
»
باشد می
.
•
بر
است تر سخت کمی رگرسیون مدل در دقت دادن نشان ، بندی طبقه خالف
.
•
اکنون
ریاضی مدل یک که
(
مربعات حداقل رگرسیون خط
)
می ،کنیم استفاده بینیپیش برای آن از توانیممی که داریم
خواهیم
بدانیم
:
این
توانیممی چگونه و هستند خوب چقدر هابینیپیش
گیریاندازه را مدل بینی پیش خطای
کنیم
؟
•
دهد می انجام اصلی های داده با مقایسه در مدل که است اشتباهی خطا
.
- 91. مدل دقت ارزیابی
ابزارهای
میزان سنجش
ها داده با ساده خطی رگرسیون مدل تناسب
:
.A
خطای
مانده باقی استاندارد
(
RSE
)
.B
، تعیین ضریب
𝑅2
•
استفاده تناسب معیار کدام اینکه
شود
کند می مشخص را مدل خطای محاسبه نحوه ،
.
- 92. خطای
مانده باقی استاندارد
خطای
مانده باقی استاندارد
(
RSE
)
:
Y = 𝛽0 + 𝛽1X + 𝜖
•
اگر حتی
𝛽0
و
𝛽1
نمیتوان ، باشند مشخص
Y
از دقیق صورت به را
X
کرد بینی پیش
.
انحراف از برآوردی
معیار
𝜖
است
.
رگرسیون خط از پاسخ که متوسطی مقدار
منحرف جمعیت
میکند توصیف را شود می
.
• RSE =
𝜖1
2
+𝜖2
2
+⋯+𝜖𝑛
2
𝑛−2
= 𝑖=1
𝑛 (𝑦𝑖−𝑦𝑖)2
𝑛−2
- 93. خطای
مانده باقی استاندارد
مقدار چرا
RSE
؟ است مهم ما برای
•
برای
پیش دقت میزان مورد در ای ایده آوردن دست به
اهمیت آینده های بینی
دارد
.
•
اندازه اگر
RSE
باشد بزرگ
،
حتی
اگر
𝛽0
و
𝛽1
نمیتوان ، باشد مشخص
𝑌
را
از خوبی دقت با
𝑋
کرد بینی پیش
.
- 94. خطای
مانده باقی استاندارد
RSE
میشود گرفته نظر در ها داده با مدل تناسب عدم برای معیاری عنوان به
.
شود تلقی بزرگ ، قبول قابل غیر طور به آن مقدار اگر
از
استفاده خطی رگرسیون از غیر مدلی
کنید
.
که باشید داشته توجه
برای
تفسیر
RSE
،
نیاز
ها مقیاس و ها اندازه کلی شناخت به
داریم
.
- 95. ضریب
تعیین
تعیین ضریب
،
𝑅2
:
اول موقعیت
:
بین ضعیف خطی رابطه
X
و
Y
شیب
«
خط
برآورد رگرسیون
شده
»
پ افزایش با که دهد می نشان این ، نیست تند خیلی
بینی یش
کننده
𝑥
،
پاسخ متوسط در چندانی تغییر
𝑦
شود نمی ایجاد
.
ذاتی خطای
بزرگ
،
یعنی
ߪ
2
= 𝑉𝑎𝑟(𝜖)
بزرگ اندازه با
دوم موقعیت
:
بین قوی خطی رابطه
X
و
Y
شیب
پی افزایش با که دهد می نشان و است شدیدتر بسیار شده برآورد رگرسیون خط
بینی ش
کننده
𝑥
تغییر ،
ًانسبت
پاسخ در توجهی قابل
𝑦
دارد وجود
.
ذاتی خطای
کوچک
(
خط ، داده نقاط
𝑦
آغوش در را
می
گیرند
.)
•
بتواند که هستیم معیاری دنبال به
، متفاوت بسیار موقعیت دو این بین
تمایز
قائل
شود
.
- 96. ضریب
تعیین
𝑦
:
«
شده برآورد رگرسیون خط
»
• 𝑦 = 𝛽0 + 𝛽1𝑥
𝑦
:
«
عدم خط
رابطه
»
،
دهنده نشان
«
برآورد رگرسیون خط
شده
»
در
ک حالتی
ه
بین ای رابطه
X
و
Y
نداشته وجود
باشد
• 𝑦 = 𝑖=1
𝑛
𝑦𝑖
𝑛
- 97. ضریب
تعیین
(𝑦𝑖−𝑦) = (𝑦𝑖−𝑦𝑖) + (𝑦𝑖 − 𝑦)
𝑖=1
𝑛
(𝑦𝑖−𝑦)2
= 𝑖=1
𝑛
(𝑦𝑖−𝑦𝑖)2
+
𝑖=1
𝑛
(𝑦𝑖 − 𝑦)2
SST = SSE + SSR
•
در تغییر
y
(
یعنی
𝑦𝑖 − 𝑦
)
کرد تقسیم بخش دو به میتوان را
:
𝑦𝑖 − 𝑦
:
متغیرمستقل با که بخشی
x
است بینی پیش قابل
(
قابل بخش
مدل از استفاده با توضیح
.)
𝑦𝑖 − 𝑦𝑖
:
است تصادفی خطای دلیل به که بخشی
(
غیرقابل بخش
مدل از استفاده با توضیح
.)
•
𝑅2
تغییرات از کسری
Y
که است
توسط
داده توضیح مدل
میشود
(
با
متغیرمستقل
است بینی پیش قابل
: )
𝑅2
=
توضیح قابل تغییرات
کل تغییرات
𝑅2
= 𝑖=1
𝑛
(𝑦𝑖−𝑦)2
𝑖=1
𝑛 (𝑦𝑖−𝑦)2 = 1 − 𝑖=1
𝑛
(𝑦𝑖−𝑦𝑖)2
𝑖=1
𝑛 (𝑦𝑖−𝑦)2
- 99. تعیین ضریب
0 ≤ R2 ≤ 1
•
R2
بین مقداری همیشه
0
تا
1
، دارد
از مستقل آن تفسیر که معنی این به
داده معیار
هاست
.
R2
= 1
:
این به
که معناست
هیچ
در خطایی
ندارد وجود رگرسیون خط
(
𝑖=1
𝑛
(𝑦𝑖−𝑦𝑖)2
= 0
)
.
R2
= 0
:
به
که معناست این
بهتر رگرسیون خط
نیست متوسط اندازه از
(
𝑖=1
𝑛
(𝑦𝑖−𝑦𝑖)2
= 𝑖=1
𝑛
(𝑦𝑖−𝑦)2
)
،
از یعنی
اطالعات
استفاده متغیرمستقل
نمی
شود
.
R2
بزرگ
(
یک به نزدیک
)
:
تغییرات از زیادی بخش که میدهد نشان
Y
میشود داده توضیح مدل توسط
(
از استفاده با
X
بخش میتوان
رفتار از زیادی
Y
کرد بینی پیش را
.)
R2
کوچک
(
صفر به نزدیک
)
:
تغییرات نمیتواند رگرسیون مدل که میدهد نشان
Y
دهد توضیح خوبی به را
(
مدل بینی پیش به توان نمی
کرد اعتماد
)
؛
مدل است ممکن
اشتباه
خطای یا باشد
ذاتی
𝜎2
= Var(𝜖)
بزرگ
، باشد
دو هر یا
.
•
نیست معلولی و علت رابطه وجود ضامن باال تعیین ضریب
.
- 100. ضریب
تعیین
است ممکن آیا
R2
منفی
باشد؟
(
𝑖=1
𝑛
(𝑦𝑖−𝑦𝑖)2 > 𝑖=1
𝑛
(𝑦𝑖−𝑦)2
)
•
اگر
مقدار ، باشد میانگین مقدار از استفاده از بدتر رگرسیون خط
R2
خواهد منفی شده محاسبه
بود
.
•
کمترین ، عملی کاربردهای در
R2
است صفر کنید دریافت توانید می که
.
•
معمولی مربعات حداقل رگرسیون کار نحوه
(
OLS regression
)
مشخصی نقطه از که میکند ایجاد خط یک که است صورت این به
است ممکن خطای مربعات مجموع کمترین دارای ، حالت این در و میگذرد
.
•
از رگرسیون معادالت ، فرض پیش طور به
(𝑥,𝑦)
آمده بدست خط ، میکنند استفاده گذرد می آن از رگرسیون خط که ای نقطه عنوان به
مقدار باالترین و ممکن خطای مربعات مجموع کمترین دارای
R2
است ممکن
.
برای منفی مقدار یک توانید نمی شرایط این در
R2
بدست
آورید
.
•
ا گذر با را خطا کمترین که کنید می دریافت را خطی همچنان ، کنید مشخص رگرسیون خط عبور برای را متفاوتی نقطه اگر
نقطه آن ز
است خوب خط آن که نیست معنا آن به این اما ، کند می ایجاد
!!
•
به باعث است ممکن که راههایی از یکی
دست
آمدن
مقدار
برای منفی
R2
است این شود
رگرسیون خط که
را
خاص نقطه یک از عبور به
کنید الزام
(
از عرض تنظیم با ًالمعمو
مبدا
.)
- 102. ضریب
تعیین
مثال
:
•
عرض
خط دو هر برای مبدا از
رگرسیون
تعیین صفر
است شده
.
•
برای
نقاط
ز ممکن رگرسیون خط بهترین از فاصله این ، آبی
یاد
مقدار بنابراین و ، نیست
R2
است مثبت
.
•
برای
نقاط
، قرمز
مبدا از عرض
حدود در باید واقعی
120
، باشد
رگرسیون خط بنابراین
باش باید که جایی از دورتر بسیار
، د
تنظیم
است شده
.
که است این نتیجه
رگرسیون خطای مربعات مجموع
م بنابراین و است میانگین از شده استفاده مقدار از بیشتر
قدار
R2
منفی
است
.
•
که زمانی
R2
است منفی
هر میتوانید
اس که رگرسیونی محاسبه
تفاده
کنار را کنید می
و بگذارید
پیش متوسط مقدار با فقط
برو
ید
!!
- 103. همبستگی ضریب و تعیین ضریب
•
تعیین ضریب
،
قدرت
مدل دهندگی توضیح
را
دهدمی نشان
.
•
یک تعیین ضریب
آماری مقیاس
رویداد یک نتیجه بینی پیش هنگام کند می بررسی که است
معین
،
چگونه
ت
یک در فاوت
در تفاوت با توان می را متغیر
متغیر
(
های
)
داد توضیح کننده بینی پیش
.
•
با آن ارتباط از ناشی تواند می عامل یک بودن متغیر چقدر اینکه توضیح برای تعیین ضریب
عوامل
ب دیگر
می استفاده اشد
شود
.
•
وقتی
بینی پیش یک فقط
در کننده
آماره ،شود گنجانده مدل
𝑅2
معیاری
بین خطی رابطه از
𝑋
و
𝑌
است
.
•
همبستگی ضریب
،
𝑟
،
همچنین
بین خطی رابطه از معیاری
𝑋
و
𝑌
است
.
•
در
خطی رگرسیون تنظیم
ساده
،
𝑅2
= 𝑟2
باشد می
.
•
از میتوانیم
𝑟 = 𝐶𝑜𝑟(𝑋,𝑌)
به
جای
𝑅2
برای
مدل برازش ارزیابی
ساده خطی
کنیم استفاده
.
- 104. ضریب
همبستگی
پیرسون همبستگی ضریب
(
𝑟
)
:
•
کردن یّمک برای
خطی رابطه
بین
متغیر دو
استفاده
میشود
.
•
رابطه جهت همچنین و متغیر دو بین خطی ی رابطه شدت
(
معکوس یا مستقیم
)
دهدمی نشان را
.
کوواریانس
:
•
تصادفی متغیر دو دهد می نشان که است معیاری
با چگونه
هم
کنند می پیدا تغییر
.
•
متغیر دو هر برای همزمان طور به را میانگین از انحراف کوواریانس در ولی است واریانس مشابه کوواریانس
𝑋
و
𝑌
کنیممی محاسبه
.
• 𝑉𝑎𝑟 𝑋 = 𝐸 𝑋 − 𝐸 𝑋
2
=
1
𝑛−1 𝑖=1
𝑛
(𝑥𝑖 − 𝑥)2
• 𝐶𝑜𝑣 𝑋, 𝑌 = 𝐸 𝑋 − 𝐸 𝑋 𝑌 − 𝐸 𝑌 =
1
𝑛−1 𝑖=1
𝑛
(𝑥𝑖 − 𝑥)(𝑦𝑖 − 𝑦)
•
مقدار
مت دو بین منفی رابطه دهنده نشان منفی مقدار که حالی در است متغیر دو بین مثبت رابطه دهنده نشان کواریانس مثبت
است غیر
.
- 106. ضریب
همبستگی
•
خطی رابطه در گرایش نوع دهندهنشان کوواریانس عالمت
است متغیرها بین
:
کوواریانس
مثبت
(
دارد غلبه قرمز بر آبی
)
:
دو
د تمایل متغیر
ارند
کنند حرکت جهت یک در
.
کوواریانس
منفی
(
دارد غلبه آبی بر قرمز
)
:
د تمایل متغیر دو
ارند
حرکت معکوس جهت در
کنند
.
کوواریانس
صفر
:
ندارند هم به خطی وابستگی متغیرها
.