‫مهدوی‬ ‫کیوان‬ ‫داده‬ ‫کالن‬ ‫سازی‬ ‫مدل‬ ‫و‬ ‫تحلیل‬
‫چیست؟‬ ‫داده‬ ‫کالن‬
:‫گارتنر‬ ‫توسط‬ ‫شده‬ ‫ارائه‬ ‫تعریف‬ ‫مطابق‬
«‫کالن‬‫سرعت‬ ،‫حجم‬ ‫دارای‬ ‫داده‬‫دارایی‬ ‫باالی‬ ‫تنوع‬ ‫و‬‫یافته‬ ‫ارتقاع‬ ‫و‬ ‫جدید‬ ‫فرم‬ ‫به‬ ‫که‬ ‫است‬ ‫اطالعاتی‬ ‫های‬‫تصمیم‬ ‫توانایی‬ ‫فرایندهای‬ ‫از‬ ‫ای‬،‫گیری‬
‫بهینه‬ ‫و‬ ،‫درونی‬ ‫اکتشافات‬.‫دارد‬ ‫نیاز‬ ،‫سازی‬»
‫داده‬ ‫تحلیل‬‫ها‬
‫داده‬ ‫تحلیل‬‫به‬ ‫ها‬‫معنای‬‫روش‬ ‫از‬ ‫استفاده‬‫داده‬ ‫تحلیل‬ ‫برای‬ ‫مناسب‬ ‫آماری‬ ‫های‬‫اصالح‬ ‫و‬ ‫استخراج‬ ،‫سازی‬ ‫غنی‬ ‫منظور‬ ‫به‬ ‫عظیم؛‬ ‫اول‬ ‫دست‬ ‫های‬
‫دسته‬ ‫در‬ ‫پنهان‬ ‫مفید‬ ‫اطالعات‬‫داده‬ ‫از‬ ‫ای‬‫داده‬ ‫ذاتی‬ ‫قوانین‬ ‫شناسایی‬ ،‫ها‬‫داده‬ ‫ارزش‬ ‫افزایش‬ ‫و‬ ‫اطالعاتی‬ ‫توابع‬ ‫توسعه‬ ‫هدف‬ ‫با‬ ‫ها‬‫تحلیل‬ .‫است‬ ‫ها‬
‫داده‬‫راهنمای‬ ‫نقش‬ ‫ها‬‫طرح‬ ‫ساخت‬ ‫برای‬ ‫بزرگی‬‫توسعه‬ ‫های‬‫می‬ ‫بازی‬ ‫را‬ ‫کشورها‬ ‫برای‬ ‫ای‬‫پیش‬ ،‫مشتریان‬ ‫های‬ ‫خواسته‬ ‫درک‬ :‫نمونه‬ ‫عنوان‬ ‫به‬ ،‫کند‬
.‫دیگر‬ ‫موارد‬ ‫و‬ ‫بازار‬ ‫روند‬ ‫بینی‬
‫داده‬ ‫کالن‬ ‫تحلیل‬‫می‬ ‫ها‬‫داده‬ ‫از‬ ‫خاص‬ ‫نوع‬ ‫یک‬ ‫تحلیل‬ ‫عنوان‬ ‫به‬ ‫تواند‬‫گردد‬ ‫تلقی‬ ‫ها‬،‫ا‬ ‫در‬ ،‫ساده‬ ‫معرفی‬ ‫هدف‬ ‫با‬ ‫و‬ ‫بهتر‬ ‫بیان‬ ‫برای‬ ‫اما‬‫روش‬ ‫تنها‬ ‫دامه‬
‫می‬ ‫بررسی‬ ‫تحلیلی‬ ‫های‬‫گرد‬‫ن‬‫داده‬ ‫و‬ ‫داده‬ ‫کالن‬ ‫میان‬ ‫که‬ ‫د‬‫می‬ ‫مشترک‬ ‫سنتی‬ ‫های‬‫روش‬ ‫این‬ ،‫باشند‬:‫از‬ ‫اند‬ ‫عبارت‬ ‫ها‬
○‫خوشه‬ ‫تحلیل‬‫ای‬
‫خوشه‬ ‫تحلیل‬ ‫اصطالح‬)‫(کالستر‬ ‫ای‬‫یک‬‫بردارنده‬ ‫در‬ ‫که‬ ‫است‬ ‫آماری‬ ‫روش‬‫ی‬‫الگوریتم‬‫روش‬ ‫و‬ ‫ها‬‫گروه‬ ‫برای‬ ‫هایی‬‫به‬ ‫مشابه‬ ‫اشیاء‬ ‫بندی‬
‫ویژگی‬ ‫به‬ ‫توجه‬ ‫با‬ ‫و‬ ‫صریح‬ ‫صورت‬‫ها‬.‫است‬..
○‫عاملی‬ ‫تحلیل‬
‫د‬‫تحل‬ ،‫آمار‬ ‫ر‬‫ی‬‫ل‬‫عامل‬‫ی‬‫روش‬‫ی‬‫برا‬ ‫است‬‫ی‬‫تحل‬‫ی‬‫ل‬‫وار‬‫ی‬‫انس‬‫ب‬‫ی‬‫ن‬‫متغ‬ ‫چند‬‫ی‬‫ر‬‫توص‬ ‫براساس‬ ‫وابسته‬‫ی‬‫ف‬‫اندک‬ ‫تعداد‬ ‫برحسب‬ ‫آنها‬‫ی‬‫متغ‬‫ی‬‫ر‬
‫د‬ ‫عبارت‬ ‫به‬ .‫نهان‬ )‫(عامل‬‫ی‬،‫گر‬‫تحل‬‫ی‬‫ل‬‫عامل‬‫ی‬‫م‬‫ی‬‫خواهد‬‫داده‬‫ها‬‫ی‬‫پ‬‫ی‬‫چ‬‫ی‬‫ده‬‫توص‬ ‫با‬ ‫را‬‫ی‬‫ف‬‫کمتر‬ ‫تعداد‬ ‫برحسب‬ ‫آنها‬‫ی‬‫متغ‬‫ی‬‫ر‬‫ساده‬‫ساز‬‫ی‬
.‫کند‬..
○‫همبستگی‬ ‫تحلیل‬
‫تحل‬‫ی‬‫ل‬‫همبستگ‬‫ی‬‫ابزار‬‫ی‬‫برا‬‫ی‬‫تع‬‫یی‬‫ن‬‫درجه‬ ‫و‬ ‫نوع‬‫ی‬‫رابطه‬‫ی‬‫ک‬‫متغ‬‫ی‬‫ر‬‫کم‬‫ی‬‫متغ‬ ‫با‬‫ی‬‫ر‬‫کم‬‫ی‬‫د‬‫ی‬‫گر‬‫است‬...
○‫رگرسیون‬ ‫تحلیل‬
‫مدل‬ ‫در‬‫ها‬‫ی‬‫آمار‬‫ی‬،‫تحل‬‫ی‬‫ل‬‫رگرس‬‫ی‬‫ون‬‫ی‬‫ک‬‫فرا‬‫ی‬‫ند‬‫آمار‬‫ی‬‫برا‬‫ی‬‫تخم‬‫ی‬‫ن‬‫ب‬ ‫روابط‬‫ی‬‫ن‬‫متغ‬‫ی‬‫رها‬‫م‬‫ی‬‫باشد‬...
○‫آزمون‬A/B
‫آزمون‬A/B‫نام‬ ‫به‬ ‫که‬‫های‬‫آزمون‬Bucket‫یا‬split‫ن‬‫ی‬‫ز‬‫شناخته‬‫می‬‫ش‬،‫ود‬‫روشی‬‫برا‬ ‫است‬‫ی‬‫تشخ‬‫ی‬‫ص‬‫ا‬‫ی‬‫نکه‬‫م‬ ‫از‬‫ی‬‫ان‬‫و‬ ‫دو‬‫ی‬‫ژگ‬‫ی‬«‫آ‬»‫و‬
«‫ب‬»‫کدام‬‫ی‬‫ک‬‫مناسب‬.‫است‬ ‫تر‬..
○‫آماری‬ ‫تحلیل‬
‫تحل‬‫ی‬‫ل‬‫علم‬‫ی‬‫قضا‬‫ی‬‫ا‬‫مفاه‬ ‫و‬‫ی‬‫م‬.‫است‬ ‫آماری‬ ‫تئوری‬ ‫براساس‬
○‫داده‬‫کاو‬
‫د‬‫اده‬‫کاو‬(‫ی‬‫داده‬ ‫از‬ ‫دانش‬ ‫کشف‬‫ها‬)‫و‬ ‫نهان‬ ‫اطالعات‬ ‫استخراج‬ ‫مفهوم‬ ‫به‬‫ی‬‫ا‬‫ز‬ ‫حجم‬ ‫در‬ ‫مشخص‬ ‫روابط‬ ‫و‬ ‫الگوها‬‫ی‬‫اد‬‫ی‬‫داده‬ ‫از‬‫در‬ ‫ها‬‫ی‬‫ک‬‫ی‬‫ا‬
‫اطالعات‬ ‫بانک‬ ‫چند‬‫ی‬‫بزرگ‬‫شود‬ ‫می‬ ‫گفته‬...
‫ر‬‫فرایند‬ ‫این‬ ‫به‬ ‫بخشیدن‬ ‫سرعت‬ ‫مرسوم‬ ‫های‬ ‫وش‬‫ها‬:‫از‬ ‫اند‬ ‫عبات‬
○‫بولو‬ ‫فیلتر‬‫م‬
‫وقتی‬‫مایلیم‬‫وجود‬‫عضوی‬‫را‬‫در‬‫مجموعه‬‫آزمون‬‫کنیم‬.‫اگر‬‫به‬‫شما‬‫جواب‬‫در‬ ‫عضو‬ ‫آن‬ ‫که‬ ‫دهد‬‫مجموعه‬‫وجود‬‫دارد‬‫احتمال‬‫دارد‬‫که‬
‫وجود‬‫نداشته‬‫باشد‬.‫اما‬‫اگر‬‫عضو‬ ‫آن‬ ‫بگوید‬‫در‬‫مجموعه‬‫وجود‬،‫ندارد‬ً‫ا‬‫قطع‬‫درست‬‫ندارد‬ ‫وجود‬ ‫و‬ ‫هست‬...
‫مهدوی‬ ‫کیوان‬ ‫داده‬ ‫کالن‬ ‫سازی‬ ‫مدل‬ ‫و‬ ‫تحلیل‬
○‫کردن‬ ‫هش‬
‫ب‬ ‫کوتاه‬ ‫عددی‬ ‫مقادیر‬ ‫به‬ ‫ها‬ ‫داده‬ ‫تبدیل‬ ‫برای‬ ‫روشی‬...‫طول‬ ‫ا‬
○‫گذاری‬ ‫شاخص‬
‫هزینه‬ ‫کاهش‬ ‫برای‬ ‫موثر‬ ‫روش‬ ‫یک‬ ‫همیشه‬ ‫شاخص‬...‫نوشتن‬ ‫و‬ ‫خواندن‬
○Triel
‫هش‬ ‫درخت‬ ‫نوع‬ ‫یک‬...
○‫موازی‬ ‫محاسبات‬
‫اجرا‬ ‫به‬ ‫بخشیدن‬ ‫سرعت‬ ‫برای‬ ‫مستقل‬ ‫فرایند‬ ‫چند‬ ‫به‬ ‫آن‬ ‫اختصاص‬ ‫و‬ ‫مسئله‬ ‫یک‬ ‫تجزیه‬...
‫ها‬ ‫داده‬ ‫کالن‬ ‫تحلیل‬ ‫معماری‬ ‫در‬ ‫موثر‬ ‫عوامل‬
‫ساختارهای‬ ،‫منابع‬ ‫تنوع‬ ‫و‬ ‫گسترده‬ ‫طیف‬ ‫به‬ ‫توجه‬ ‫با‬‫تحلیل‬ ‫برای‬ ‫مختلفی‬ ‫های‬ ‫معماری‬ ،‫کاربردی‬ ‫های‬ ‫زمینه‬ ‫و‬ ‫مختلف‬‫کالن‬‫داده‬‫ها‬‫مطرح‬
‫می‬:‫از‬ ‫اند‬ ‫عبارت‬ ‫عوامل‬ ‫این‬ ‫از‬ ‫برخی‬ ،‫شوند‬
○‫تحلیل‬Real-time‫و‬Offline
○‫مختلف‬ ‫سطوح‬ ‫در‬ ‫تحلیل‬
o‫حافظه‬ ‫سطح‬
‫داده‬ ‫کل‬ ‫حجم‬ ‫که‬ ‫مواقعی‬ ‫برای‬‫از‬ ‫حالت‬ ‫این‬ ‫در‬ .‫گیرند‬ ‫قرار‬ ‫حافظه‬ ‫داخل‬ ‫در‬ ‫خوشه‬ ‫یک‬ ‫های‬‫ه‬ ‫فناوری‬‫داخلی‬ ‫داده‬ ‫پایگاه‬ ‫ای‬
‫می‬ ‫استفاده‬‫داده‬ ‫که‬ ‫شود‬‫تحلیل‬ ‫در‬ ‫رویکرد‬ ‫این‬ .‫برسد‬ ‫خود‬ ‫حداکثر‬ ‫به‬ ‫تحلیل‬ ‫کارایی‬ ‫تا‬ ‫بمانند‬ ‫حافظه‬ ‫در‬ ‫باید‬ ‫ها‬real-time
‫است‬ ‫مناسب‬ ‫بسیار‬.
o‫تجاری‬ ‫هوش‬ ‫سطح‬
‫ه‬ ‫داده‬ ‫مقیاس‬ ‫که‬ ‫مواقعی‬ ‫در‬‫می‬ ‫اما‬ ‫است‬ ‫حافظه‬ ‫سطح‬ ‫از‬ ‫فراتر‬ ‫ا‬‫خوش‬ ‫های‬ ‫محیط‬ ‫در‬ ‫توان‬‫گیرند‬ ‫قرار‬ ‫تجاری‬‫می‬ ‫استفاده‬
‫گردد‬‫از‬ ‫باالتر‬ ‫ها‬ ‫محیط‬ ‫این‬ ‫پوشش‬ ‫حاضر‬ ‫حال‬ ‫(در‬TB.)‫است‬
o‫س‬‫طح‬massive
‫داده‬ ‫مقیاس‬ ‫که‬ ‫زمانی‬ ‫برای‬ ‫مناسب‬‫گرفته‬ ‫پیشی‬ ‫تجاری‬ ‫هوش‬ ‫محصوالت‬ ‫ظرفیت‬ ‫از‬ ‫کامل‬ ‫طور‬ ‫به‬ ‫ها‬...‫باشد‬
○‫مختلف‬ ‫های‬ ‫پیچیدگی‬ ‫با‬ ‫تحلیل‬
‫داده‬ ‫کالن‬ ‫کاوش‬ ‫و‬ ‫تحلیل‬ ‫در‬ ‫مطرح‬ ‫ابزارهای‬
‫ن‬‫تایج‬‫سوال‬‫به‬ ‫مربوط‬ ‫اسالیدها‬ ‫در‬ ‫مذکور‬‫سال‬2016:‫است‬ ‫زیر‬ ‫شرح‬ ‫به‬
○R (49%)
○Python (45.8%)
○SQL (35.5%)
○Excel (33.6%)
○RapidMiner (32.6%)
○Hadoop (22.1%)
○Spark (21.6%)
○Tableau (18.5%)
○KNIME (18.0%)
○scikit-learn (17.2%)
‫مهدوی‬ ‫کیوان‬ ‫داده‬ ‫کالن‬ ‫سازی‬ ‫مدل‬ ‫و‬ ‫تحلیل‬
‫مثال‬ ‫یک‬:‫مطالعه‬‫تغییرات‬‫جهانی‬‫آب‬‫و‬‫هوا‬‫براساس‬‫تجزیه‬‫و‬‫تحلیل‬‫داده‬ ‫کالن‬‫از‬‫قطب‬‫جنوب‬
‫ت‬‫مساله‬ ‫عریف‬
‫فیزیک‬ ‫فرایندهای‬ ‫از‬ ‫بسیاری‬ ‫کنترل‬ ‫در‬ ‫کلیدی‬ ‫عامل‬ ‫یک‬ ‫سطحی‬ ‫دمای‬‫منطقه‬ ‫توزیع‬ .‫است‬ ‫بیوشیمیایی‬ ‫و‬ ‫ی‬‫در‬ ‫مهمی‬ ‫کاربرد‬ ‫سطحی‬ ‫دمای‬ ‫از‬ ‫ای‬
‫یک‬ ‫به‬ ‫دستیابی‬ ‫رو‬ ‫این‬ ‫از‬ .‫دارد‬ ‫هوا‬ ‫و‬ ‫آب‬ ‫جهانی‬ ‫تغییرات‬‫برآ‬ ‫و‬ ‫تعریف‬ ‫برای‬ ‫جدید‬ ‫ریاضی‬ ‫مدل‬.‫است‬ ‫کاربردی‬ ‫و‬ ‫مهم‬ ‫بسیار‬ ‫سطحی‬ ‫دمای‬ ‫ورد‬
:‫از‬ ‫اند‬ ‫عبارت‬ ‫دهند‬ ‫می‬ ‫قرار‬ ‫تاثیر‬ ‫تحت‬ ‫را‬ ‫سطحی‬ ‫دمای‬ ‫که‬ ‫عواملی‬
‫حرارت‬ ‫درجه‬ ‫با‬ ‫مرتبط‬ ‫عوامل‬
o‫ارتفاع‬
o‫با‬ ‫سرعت‬‫د‬
o‫تبخیرآب‬ ‫میزان‬
o‫فشارهوا‬
‫سطحی‬ ‫عوامل‬
o‫پوشش‬ ‫نوع‬‫گیاهی‬‫زمین‬
o‫یخ‬ ‫ضخامت‬
‫وضعیت‬ ‫که‬ ‫آنجایی‬ ‫از‬.‫است‬ ‫شده‬ ‫انتحاب‬ ‫هدف‬ ‫عنوان‬ ‫به‬ ‫جنوب‬ ‫قطب‬ ‫ی‬ ‫منطقه‬ ‫مطالعه‬ ‫این‬ ‫برای‬ ‫است‬ ‫متنوع‬ ‫و‬ ‫پیچیده‬ ‫حد‬ ‫از‬ ‫بیش‬ ‫جهانی‬
‫سازی‬ ‫مدل‬ ‫و‬ ‫پردازش‬ ‫پیش‬
‫چون‬ ‫اطالعاتی‬‫ارتفاع‬،‫با‬ ‫سرعت‬،‫د‬‫تبخیرآب‬ ‫میزان‬‫اطالعات‬ ‫مطالعه‬ ‫این‬ ‫برای‬ ‫و‬ ‫اند‬ ‫شده‬ ‫آوری‬ ‫جمع‬ ‫قطب‬ ‫در‬ ‫موجود‬ ‫های‬ ‫سایت‬ ‫توسط‬ ... ‫و‬50
‫از‬ ‫گذشته‬ ‫سال‬‫زیاد‬ ‫شده‬ ‫گم‬ ‫های‬ ‫داده‬ ‫با‬ ‫هایی‬ ‫سایت‬ ‫ابتدا‬ .‫است‬ ‫شده‬ ‫اخذ‬ ‫بریتانیا‬ ‫در‬ ‫مرکزی‬‫می‬ ‫حذف‬ ‫را‬ ‫اعتبار‬ ‫کم‬ ‫و‬‫نهایت‬ ‫در‬ ‫و‬ ‫نماییم‬15
‫افزار‬ ‫نرم‬ ‫از‬ ‫استفاده‬ ‫با‬ ،‫منطقه‬ ‫وضعیت‬ ‫نمایش‬ ‫برای‬ ‫موجود‬ ‫های‬ ‫داده‬ ‫از‬ ‫حال‬ .‫شوند‬ ‫می‬ ‫گزینش‬ ‫سایت‬ArcGIS‫اطالعاتی‬ ‫سیستم‬ ‫یک‬ ‫که‬ ،
‫یک‬ ‫اعمال‬ ‫و‬ ‫است‬ ‫جغرافیایی‬‫بر‬ ‫و‬ ‫قطب‬ ‫نواحی‬ ‫دهی‬ ‫وزن‬ ‫برای‬ ‫فرمول‬‫روش‬ ‫اساس‬Thiessen‫به‬ ‫را‬ ‫قطب‬ ‫سطح‬15‫متفاوت‬ ‫های‬ ‫وزن‬ ‫با‬ ‫ناحیه‬
‫می‬ ‫تبدیل‬‫سایت‬ ‫یک‬ ‫شامل‬ ‫ناحیه‬ ‫هر‬ ‫که‬ ‫بطوری‬ .‫نماییم‬‫باشد‬.
‫روش‬ ‫از‬ ‫ارزیابی‬ ‫برای‬ ‫حال‬‫های‬‫عوا‬ ‫بین‬ ‫روابط‬ ‫و‬ ‫کرده‬ ‫استفاده‬ ‫آماری‬‫می‬ ‫پیدا‬ ‫را‬ ‫سطحی‬ ‫دمای‬ ‫در‬ ‫دخیل‬ ‫مل‬‫آمارهای‬ ‫از‬ ‫استفاده‬ ‫با‬ ‫نیز‬ ‫انتها‬ ‫در‬ .‫کنیم‬
‫جهانی‬ ‫متوسط‬‫و‬ ‫متلب‬ ‫افزار‬ ‫نرم‬ ‫کمک‬ ‫به‬ ‫موجود‬ ‫های‬ ‫سایت‬ ‫و‬‫روش‬ ‫با‬Model Fitting،‫ض‬‫فرمول‬ ‫مجهول‬ ‫رایب‬‫ها‬‫ی‬‫تحلیل‬ ‫از‬ ‫آمده‬ ‫بدست‬
‫را‬ ‫آماری‬‫می‬ ‫بدست‬‫ج‬ ‫با‬ ‫و‬ ‫آوریم‬‫می‬ ‫نظر‬ ‫مد‬ ‫مدل‬ ‫به‬ ‫مقادیر‬ ‫ایگذاری‬.‫رسیم‬

Instructions for Big data analysis and modelling

  • 1.
    ‫مهدوی‬ ‫کیوان‬ ‫داده‬‫کالن‬ ‫سازی‬ ‫مدل‬ ‫و‬ ‫تحلیل‬ ‫چیست؟‬ ‫داده‬ ‫کالن‬ :‫گارتنر‬ ‫توسط‬ ‫شده‬ ‫ارائه‬ ‫تعریف‬ ‫مطابق‬ «‫کالن‬‫سرعت‬ ،‫حجم‬ ‫دارای‬ ‫داده‬‫دارایی‬ ‫باالی‬ ‫تنوع‬ ‫و‬‫یافته‬ ‫ارتقاع‬ ‫و‬ ‫جدید‬ ‫فرم‬ ‫به‬ ‫که‬ ‫است‬ ‫اطالعاتی‬ ‫های‬‫تصمیم‬ ‫توانایی‬ ‫فرایندهای‬ ‫از‬ ‫ای‬،‫گیری‬ ‫بهینه‬ ‫و‬ ،‫درونی‬ ‫اکتشافات‬.‫دارد‬ ‫نیاز‬ ،‫سازی‬» ‫داده‬ ‫تحلیل‬‫ها‬ ‫داده‬ ‫تحلیل‬‫به‬ ‫ها‬‫معنای‬‫روش‬ ‫از‬ ‫استفاده‬‫داده‬ ‫تحلیل‬ ‫برای‬ ‫مناسب‬ ‫آماری‬ ‫های‬‫اصالح‬ ‫و‬ ‫استخراج‬ ،‫سازی‬ ‫غنی‬ ‫منظور‬ ‫به‬ ‫عظیم؛‬ ‫اول‬ ‫دست‬ ‫های‬ ‫دسته‬ ‫در‬ ‫پنهان‬ ‫مفید‬ ‫اطالعات‬‫داده‬ ‫از‬ ‫ای‬‫داده‬ ‫ذاتی‬ ‫قوانین‬ ‫شناسایی‬ ،‫ها‬‫داده‬ ‫ارزش‬ ‫افزایش‬ ‫و‬ ‫اطالعاتی‬ ‫توابع‬ ‫توسعه‬ ‫هدف‬ ‫با‬ ‫ها‬‫تحلیل‬ .‫است‬ ‫ها‬ ‫داده‬‫راهنمای‬ ‫نقش‬ ‫ها‬‫طرح‬ ‫ساخت‬ ‫برای‬ ‫بزرگی‬‫توسعه‬ ‫های‬‫می‬ ‫بازی‬ ‫را‬ ‫کشورها‬ ‫برای‬ ‫ای‬‫پیش‬ ،‫مشتریان‬ ‫های‬ ‫خواسته‬ ‫درک‬ :‫نمونه‬ ‫عنوان‬ ‫به‬ ،‫کند‬ .‫دیگر‬ ‫موارد‬ ‫و‬ ‫بازار‬ ‫روند‬ ‫بینی‬ ‫داده‬ ‫کالن‬ ‫تحلیل‬‫می‬ ‫ها‬‫داده‬ ‫از‬ ‫خاص‬ ‫نوع‬ ‫یک‬ ‫تحلیل‬ ‫عنوان‬ ‫به‬ ‫تواند‬‫گردد‬ ‫تلقی‬ ‫ها‬،‫ا‬ ‫در‬ ،‫ساده‬ ‫معرفی‬ ‫هدف‬ ‫با‬ ‫و‬ ‫بهتر‬ ‫بیان‬ ‫برای‬ ‫اما‬‫روش‬ ‫تنها‬ ‫دامه‬ ‫می‬ ‫بررسی‬ ‫تحلیلی‬ ‫های‬‫گرد‬‫ن‬‫داده‬ ‫و‬ ‫داده‬ ‫کالن‬ ‫میان‬ ‫که‬ ‫د‬‫می‬ ‫مشترک‬ ‫سنتی‬ ‫های‬‫روش‬ ‫این‬ ،‫باشند‬:‫از‬ ‫اند‬ ‫عبارت‬ ‫ها‬ ○‫خوشه‬ ‫تحلیل‬‫ای‬ ‫خوشه‬ ‫تحلیل‬ ‫اصطالح‬)‫(کالستر‬ ‫ای‬‫یک‬‫بردارنده‬ ‫در‬ ‫که‬ ‫است‬ ‫آماری‬ ‫روش‬‫ی‬‫الگوریتم‬‫روش‬ ‫و‬ ‫ها‬‫گروه‬ ‫برای‬ ‫هایی‬‫به‬ ‫مشابه‬ ‫اشیاء‬ ‫بندی‬ ‫ویژگی‬ ‫به‬ ‫توجه‬ ‫با‬ ‫و‬ ‫صریح‬ ‫صورت‬‫ها‬.‫است‬.. ○‫عاملی‬ ‫تحلیل‬ ‫د‬‫تحل‬ ،‫آمار‬ ‫ر‬‫ی‬‫ل‬‫عامل‬‫ی‬‫روش‬‫ی‬‫برا‬ ‫است‬‫ی‬‫تحل‬‫ی‬‫ل‬‫وار‬‫ی‬‫انس‬‫ب‬‫ی‬‫ن‬‫متغ‬ ‫چند‬‫ی‬‫ر‬‫توص‬ ‫براساس‬ ‫وابسته‬‫ی‬‫ف‬‫اندک‬ ‫تعداد‬ ‫برحسب‬ ‫آنها‬‫ی‬‫متغ‬‫ی‬‫ر‬ ‫د‬ ‫عبارت‬ ‫به‬ .‫نهان‬ )‫(عامل‬‫ی‬،‫گر‬‫تحل‬‫ی‬‫ل‬‫عامل‬‫ی‬‫م‬‫ی‬‫خواهد‬‫داده‬‫ها‬‫ی‬‫پ‬‫ی‬‫چ‬‫ی‬‫ده‬‫توص‬ ‫با‬ ‫را‬‫ی‬‫ف‬‫کمتر‬ ‫تعداد‬ ‫برحسب‬ ‫آنها‬‫ی‬‫متغ‬‫ی‬‫ر‬‫ساده‬‫ساز‬‫ی‬ .‫کند‬.. ○‫همبستگی‬ ‫تحلیل‬ ‫تحل‬‫ی‬‫ل‬‫همبستگ‬‫ی‬‫ابزار‬‫ی‬‫برا‬‫ی‬‫تع‬‫یی‬‫ن‬‫درجه‬ ‫و‬ ‫نوع‬‫ی‬‫رابطه‬‫ی‬‫ک‬‫متغ‬‫ی‬‫ر‬‫کم‬‫ی‬‫متغ‬ ‫با‬‫ی‬‫ر‬‫کم‬‫ی‬‫د‬‫ی‬‫گر‬‫است‬... ○‫رگرسیون‬ ‫تحلیل‬ ‫مدل‬ ‫در‬‫ها‬‫ی‬‫آمار‬‫ی‬،‫تحل‬‫ی‬‫ل‬‫رگرس‬‫ی‬‫ون‬‫ی‬‫ک‬‫فرا‬‫ی‬‫ند‬‫آمار‬‫ی‬‫برا‬‫ی‬‫تخم‬‫ی‬‫ن‬‫ب‬ ‫روابط‬‫ی‬‫ن‬‫متغ‬‫ی‬‫رها‬‫م‬‫ی‬‫باشد‬... ○‫آزمون‬A/B ‫آزمون‬A/B‫نام‬ ‫به‬ ‫که‬‫های‬‫آزمون‬Bucket‫یا‬split‫ن‬‫ی‬‫ز‬‫شناخته‬‫می‬‫ش‬،‫ود‬‫روشی‬‫برا‬ ‫است‬‫ی‬‫تشخ‬‫ی‬‫ص‬‫ا‬‫ی‬‫نکه‬‫م‬ ‫از‬‫ی‬‫ان‬‫و‬ ‫دو‬‫ی‬‫ژگ‬‫ی‬«‫آ‬»‫و‬ «‫ب‬»‫کدام‬‫ی‬‫ک‬‫مناسب‬.‫است‬ ‫تر‬.. ○‫آماری‬ ‫تحلیل‬ ‫تحل‬‫ی‬‫ل‬‫علم‬‫ی‬‫قضا‬‫ی‬‫ا‬‫مفاه‬ ‫و‬‫ی‬‫م‬.‫است‬ ‫آماری‬ ‫تئوری‬ ‫براساس‬ ○‫داده‬‫کاو‬ ‫د‬‫اده‬‫کاو‬(‫ی‬‫داده‬ ‫از‬ ‫دانش‬ ‫کشف‬‫ها‬)‫و‬ ‫نهان‬ ‫اطالعات‬ ‫استخراج‬ ‫مفهوم‬ ‫به‬‫ی‬‫ا‬‫ز‬ ‫حجم‬ ‫در‬ ‫مشخص‬ ‫روابط‬ ‫و‬ ‫الگوها‬‫ی‬‫اد‬‫ی‬‫داده‬ ‫از‬‫در‬ ‫ها‬‫ی‬‫ک‬‫ی‬‫ا‬ ‫اطالعات‬ ‫بانک‬ ‫چند‬‫ی‬‫بزرگ‬‫شود‬ ‫می‬ ‫گفته‬... ‫ر‬‫فرایند‬ ‫این‬ ‫به‬ ‫بخشیدن‬ ‫سرعت‬ ‫مرسوم‬ ‫های‬ ‫وش‬‫ها‬:‫از‬ ‫اند‬ ‫عبات‬ ○‫بولو‬ ‫فیلتر‬‫م‬ ‫وقتی‬‫مایلیم‬‫وجود‬‫عضوی‬‫را‬‫در‬‫مجموعه‬‫آزمون‬‫کنیم‬.‫اگر‬‫به‬‫شما‬‫جواب‬‫در‬ ‫عضو‬ ‫آن‬ ‫که‬ ‫دهد‬‫مجموعه‬‫وجود‬‫دارد‬‫احتمال‬‫دارد‬‫که‬ ‫وجود‬‫نداشته‬‫باشد‬.‫اما‬‫اگر‬‫عضو‬ ‫آن‬ ‫بگوید‬‫در‬‫مجموعه‬‫وجود‬،‫ندارد‬ً‫ا‬‫قطع‬‫درست‬‫ندارد‬ ‫وجود‬ ‫و‬ ‫هست‬...
  • 2.
    ‫مهدوی‬ ‫کیوان‬ ‫داده‬‫کالن‬ ‫سازی‬ ‫مدل‬ ‫و‬ ‫تحلیل‬ ○‫کردن‬ ‫هش‬ ‫ب‬ ‫کوتاه‬ ‫عددی‬ ‫مقادیر‬ ‫به‬ ‫ها‬ ‫داده‬ ‫تبدیل‬ ‫برای‬ ‫روشی‬...‫طول‬ ‫ا‬ ○‫گذاری‬ ‫شاخص‬ ‫هزینه‬ ‫کاهش‬ ‫برای‬ ‫موثر‬ ‫روش‬ ‫یک‬ ‫همیشه‬ ‫شاخص‬...‫نوشتن‬ ‫و‬ ‫خواندن‬ ○Triel ‫هش‬ ‫درخت‬ ‫نوع‬ ‫یک‬... ○‫موازی‬ ‫محاسبات‬ ‫اجرا‬ ‫به‬ ‫بخشیدن‬ ‫سرعت‬ ‫برای‬ ‫مستقل‬ ‫فرایند‬ ‫چند‬ ‫به‬ ‫آن‬ ‫اختصاص‬ ‫و‬ ‫مسئله‬ ‫یک‬ ‫تجزیه‬... ‫ها‬ ‫داده‬ ‫کالن‬ ‫تحلیل‬ ‫معماری‬ ‫در‬ ‫موثر‬ ‫عوامل‬ ‫ساختارهای‬ ،‫منابع‬ ‫تنوع‬ ‫و‬ ‫گسترده‬ ‫طیف‬ ‫به‬ ‫توجه‬ ‫با‬‫تحلیل‬ ‫برای‬ ‫مختلفی‬ ‫های‬ ‫معماری‬ ،‫کاربردی‬ ‫های‬ ‫زمینه‬ ‫و‬ ‫مختلف‬‫کالن‬‫داده‬‫ها‬‫مطرح‬ ‫می‬:‫از‬ ‫اند‬ ‫عبارت‬ ‫عوامل‬ ‫این‬ ‫از‬ ‫برخی‬ ،‫شوند‬ ○‫تحلیل‬Real-time‫و‬Offline ○‫مختلف‬ ‫سطوح‬ ‫در‬ ‫تحلیل‬ o‫حافظه‬ ‫سطح‬ ‫داده‬ ‫کل‬ ‫حجم‬ ‫که‬ ‫مواقعی‬ ‫برای‬‫از‬ ‫حالت‬ ‫این‬ ‫در‬ .‫گیرند‬ ‫قرار‬ ‫حافظه‬ ‫داخل‬ ‫در‬ ‫خوشه‬ ‫یک‬ ‫های‬‫ه‬ ‫فناوری‬‫داخلی‬ ‫داده‬ ‫پایگاه‬ ‫ای‬ ‫می‬ ‫استفاده‬‫داده‬ ‫که‬ ‫شود‬‫تحلیل‬ ‫در‬ ‫رویکرد‬ ‫این‬ .‫برسد‬ ‫خود‬ ‫حداکثر‬ ‫به‬ ‫تحلیل‬ ‫کارایی‬ ‫تا‬ ‫بمانند‬ ‫حافظه‬ ‫در‬ ‫باید‬ ‫ها‬real-time ‫است‬ ‫مناسب‬ ‫بسیار‬. o‫تجاری‬ ‫هوش‬ ‫سطح‬ ‫ه‬ ‫داده‬ ‫مقیاس‬ ‫که‬ ‫مواقعی‬ ‫در‬‫می‬ ‫اما‬ ‫است‬ ‫حافظه‬ ‫سطح‬ ‫از‬ ‫فراتر‬ ‫ا‬‫خوش‬ ‫های‬ ‫محیط‬ ‫در‬ ‫توان‬‫گیرند‬ ‫قرار‬ ‫تجاری‬‫می‬ ‫استفاده‬ ‫گردد‬‫از‬ ‫باالتر‬ ‫ها‬ ‫محیط‬ ‫این‬ ‫پوشش‬ ‫حاضر‬ ‫حال‬ ‫(در‬TB.)‫است‬ o‫س‬‫طح‬massive ‫داده‬ ‫مقیاس‬ ‫که‬ ‫زمانی‬ ‫برای‬ ‫مناسب‬‫گرفته‬ ‫پیشی‬ ‫تجاری‬ ‫هوش‬ ‫محصوالت‬ ‫ظرفیت‬ ‫از‬ ‫کامل‬ ‫طور‬ ‫به‬ ‫ها‬...‫باشد‬ ○‫مختلف‬ ‫های‬ ‫پیچیدگی‬ ‫با‬ ‫تحلیل‬ ‫داده‬ ‫کالن‬ ‫کاوش‬ ‫و‬ ‫تحلیل‬ ‫در‬ ‫مطرح‬ ‫ابزارهای‬ ‫ن‬‫تایج‬‫سوال‬‫به‬ ‫مربوط‬ ‫اسالیدها‬ ‫در‬ ‫مذکور‬‫سال‬2016:‫است‬ ‫زیر‬ ‫شرح‬ ‫به‬ ○R (49%) ○Python (45.8%) ○SQL (35.5%) ○Excel (33.6%) ○RapidMiner (32.6%) ○Hadoop (22.1%) ○Spark (21.6%) ○Tableau (18.5%) ○KNIME (18.0%) ○scikit-learn (17.2%)
  • 3.
    ‫مهدوی‬ ‫کیوان‬ ‫داده‬‫کالن‬ ‫سازی‬ ‫مدل‬ ‫و‬ ‫تحلیل‬ ‫مثال‬ ‫یک‬:‫مطالعه‬‫تغییرات‬‫جهانی‬‫آب‬‫و‬‫هوا‬‫براساس‬‫تجزیه‬‫و‬‫تحلیل‬‫داده‬ ‫کالن‬‫از‬‫قطب‬‫جنوب‬ ‫ت‬‫مساله‬ ‫عریف‬ ‫فیزیک‬ ‫فرایندهای‬ ‫از‬ ‫بسیاری‬ ‫کنترل‬ ‫در‬ ‫کلیدی‬ ‫عامل‬ ‫یک‬ ‫سطحی‬ ‫دمای‬‫منطقه‬ ‫توزیع‬ .‫است‬ ‫بیوشیمیایی‬ ‫و‬ ‫ی‬‫در‬ ‫مهمی‬ ‫کاربرد‬ ‫سطحی‬ ‫دمای‬ ‫از‬ ‫ای‬ ‫یک‬ ‫به‬ ‫دستیابی‬ ‫رو‬ ‫این‬ ‫از‬ .‫دارد‬ ‫هوا‬ ‫و‬ ‫آب‬ ‫جهانی‬ ‫تغییرات‬‫برآ‬ ‫و‬ ‫تعریف‬ ‫برای‬ ‫جدید‬ ‫ریاضی‬ ‫مدل‬.‫است‬ ‫کاربردی‬ ‫و‬ ‫مهم‬ ‫بسیار‬ ‫سطحی‬ ‫دمای‬ ‫ورد‬ :‫از‬ ‫اند‬ ‫عبارت‬ ‫دهند‬ ‫می‬ ‫قرار‬ ‫تاثیر‬ ‫تحت‬ ‫را‬ ‫سطحی‬ ‫دمای‬ ‫که‬ ‫عواملی‬ ‫حرارت‬ ‫درجه‬ ‫با‬ ‫مرتبط‬ ‫عوامل‬ o‫ارتفاع‬ o‫با‬ ‫سرعت‬‫د‬ o‫تبخیرآب‬ ‫میزان‬ o‫فشارهوا‬ ‫سطحی‬ ‫عوامل‬ o‫پوشش‬ ‫نوع‬‫گیاهی‬‫زمین‬ o‫یخ‬ ‫ضخامت‬ ‫وضعیت‬ ‫که‬ ‫آنجایی‬ ‫از‬.‫است‬ ‫شده‬ ‫انتحاب‬ ‫هدف‬ ‫عنوان‬ ‫به‬ ‫جنوب‬ ‫قطب‬ ‫ی‬ ‫منطقه‬ ‫مطالعه‬ ‫این‬ ‫برای‬ ‫است‬ ‫متنوع‬ ‫و‬ ‫پیچیده‬ ‫حد‬ ‫از‬ ‫بیش‬ ‫جهانی‬ ‫سازی‬ ‫مدل‬ ‫و‬ ‫پردازش‬ ‫پیش‬ ‫چون‬ ‫اطالعاتی‬‫ارتفاع‬،‫با‬ ‫سرعت‬،‫د‬‫تبخیرآب‬ ‫میزان‬‫اطالعات‬ ‫مطالعه‬ ‫این‬ ‫برای‬ ‫و‬ ‫اند‬ ‫شده‬ ‫آوری‬ ‫جمع‬ ‫قطب‬ ‫در‬ ‫موجود‬ ‫های‬ ‫سایت‬ ‫توسط‬ ... ‫و‬50 ‫از‬ ‫گذشته‬ ‫سال‬‫زیاد‬ ‫شده‬ ‫گم‬ ‫های‬ ‫داده‬ ‫با‬ ‫هایی‬ ‫سایت‬ ‫ابتدا‬ .‫است‬ ‫شده‬ ‫اخذ‬ ‫بریتانیا‬ ‫در‬ ‫مرکزی‬‫می‬ ‫حذف‬ ‫را‬ ‫اعتبار‬ ‫کم‬ ‫و‬‫نهایت‬ ‫در‬ ‫و‬ ‫نماییم‬15 ‫افزار‬ ‫نرم‬ ‫از‬ ‫استفاده‬ ‫با‬ ،‫منطقه‬ ‫وضعیت‬ ‫نمایش‬ ‫برای‬ ‫موجود‬ ‫های‬ ‫داده‬ ‫از‬ ‫حال‬ .‫شوند‬ ‫می‬ ‫گزینش‬ ‫سایت‬ArcGIS‫اطالعاتی‬ ‫سیستم‬ ‫یک‬ ‫که‬ ، ‫یک‬ ‫اعمال‬ ‫و‬ ‫است‬ ‫جغرافیایی‬‫بر‬ ‫و‬ ‫قطب‬ ‫نواحی‬ ‫دهی‬ ‫وزن‬ ‫برای‬ ‫فرمول‬‫روش‬ ‫اساس‬Thiessen‫به‬ ‫را‬ ‫قطب‬ ‫سطح‬15‫متفاوت‬ ‫های‬ ‫وزن‬ ‫با‬ ‫ناحیه‬ ‫می‬ ‫تبدیل‬‫سایت‬ ‫یک‬ ‫شامل‬ ‫ناحیه‬ ‫هر‬ ‫که‬ ‫بطوری‬ .‫نماییم‬‫باشد‬. ‫روش‬ ‫از‬ ‫ارزیابی‬ ‫برای‬ ‫حال‬‫های‬‫عوا‬ ‫بین‬ ‫روابط‬ ‫و‬ ‫کرده‬ ‫استفاده‬ ‫آماری‬‫می‬ ‫پیدا‬ ‫را‬ ‫سطحی‬ ‫دمای‬ ‫در‬ ‫دخیل‬ ‫مل‬‫آمارهای‬ ‫از‬ ‫استفاده‬ ‫با‬ ‫نیز‬ ‫انتها‬ ‫در‬ .‫کنیم‬ ‫جهانی‬ ‫متوسط‬‫و‬ ‫متلب‬ ‫افزار‬ ‫نرم‬ ‫کمک‬ ‫به‬ ‫موجود‬ ‫های‬ ‫سایت‬ ‫و‬‫روش‬ ‫با‬Model Fitting،‫ض‬‫فرمول‬ ‫مجهول‬ ‫رایب‬‫ها‬‫ی‬‫تحلیل‬ ‫از‬ ‫آمده‬ ‫بدست‬ ‫را‬ ‫آماری‬‫می‬ ‫بدست‬‫ج‬ ‫با‬ ‫و‬ ‫آوریم‬‫می‬ ‫نظر‬ ‫مد‬ ‫مدل‬ ‫به‬ ‫مقادیر‬ ‫ایگذاری‬.‫رسیم‬