‫شده‬ ‫توزیع‬ ‫داده‬ ‫پایگاه‬ ‫و‬ ‫داده‬ ‫کالن‬
‫خدا‬ ‫نام‬ ‫به‬
Hadoop
‫بررسی‬ ‫مورد‬ ‫های‬ ‫موضوع‬
•‫داده‬ ‫کالن‬ ‫تعریف‬
•‫دنیا‬ ‫در‬ ‫اطالعات‬ ‫تولید‬ ‫روند‬
•‫ای‬ ‫رابطه‬ ‫غیر‬ ‫های‬ ‫داده‬ ‫پایگاه‬
•Hadoop
•‫ساختار‬Hadoop
•HDFS
•Map-Reduce
•‫مثال‬Map-Reduce
•‫گیری‬ ‫نتیجه‬
01
1/26
‫تعریف‬BIG Data
01
‫موسسه‬ ‫که‬ ‫تعریفی‬‫گارتنر‬‫دارد‬ ‫داده‬ ‫کالن‬ ‫از‬:
‫کالن‬‫دارایی‬ ‫داده‬‫هایی‬‫حجم‬ ‫با‬‫باال‬
،‫فزاینده‬ ‫تولید‬ ‫سرعت‬
‫می‬ ‫باال‬ ‫تنوع‬ ‫با‬ ‫اطالعاتی‬‫باشند‬
‫پردازش‬ ‫از‬ ‫جدیدی‬ ‫اشکال‬ ‫به‬ ‫نیاز‬ ‫که‬‫دارند‬
‫بینش‬ ، ‫گیری‬ ‫تصمیم‬ ‫قدرت‬ ‫بتوانند‬ ‫تا‬‫کشف‬
‫دهند‬ ‫افزایش‬ ‫را‬ ‫فرآیند‬ ‫سازی‬ ‫بهینه‬ ‫و‬
2/26
‫اینترنت‬ ‫دنیای‬ ‫از‬ ‫ارقام‬ ‫و‬ ‫آمار‬
01
1‫میلیارد‬‫بازدید‬‫در‬‫ماه‬‫توسط‬‫کاربران‬
‫مختلف‬
‫بیش‬‫از‬6‫میلیارد‬‫ساعت‬‫ویدیو‬‫در‬‫هر‬‫ماه‬
‫توسط‬‫کاربران‬‫مشاهده‬‫می‬‫شود‬
‫در‬‫هر‬‫دقیقه‬100‫ساعت‬‫ویدیو‬‫آپلود‬
‫می‬‫شود‬.
80‫درصد‬‫ترافیک‬‫از‬‫خارج‬‫آمریکا‬‫وارد‬
‫سایت‬‫می‬‫شود‬.
April 2014
‫بیش‬‫از‬‫یک‬‫میلیارد‬‫کاربر‬
618‫میلیون‬‫کاربر‬‫فعالی‬‫که‬‫روزانه‬‫اطالعات‬‫خود‬‫ر‬‫ا‬
‫بررسی‬‫می‬‫کنند‬.
570‫میلیون‬‫مشاهده‬‫صفحات‬‫در‬‫ماه‬
‫روزانه‬‫بیش‬‫از‬300‫میلیون‬‫عکس‬‫آپلود‬‫می‬‫شود‬
‫معادل‬‫حدود‬3‫میلیارد‬‫عکس‬‫در‬‫ماه‬‫که‬‫تا‬‫کنون‬‫تعد‬‫اد‬
‫این‬‫تصاویر‬‫فراتر‬‫از‬240‫میلیارد‬‫بوده‬‫است‬.
‫پردازش‬‫و‬‫نمایش‬‫بیش‬‫از‬1.2‫میلیارد‬‫عکس‬‫در‬‫ثانیه‬
‫روزانه‬500‫ترابایت‬‫اضافه‬ ‫جدید‬ ‫اطالعات‬‫می‬‫شود‬.
‫حدود‬ ‫ارتباط‬30‫جهان‬ ‫سراسر‬ ‫در‬ ‫سرور‬ ‫هزار‬
February 2013
4/26
01
‫از‬ ‫بیش‬12‫جستجوی‬ ‫درخواست‬ ‫میلیارد‬
‫ماهیانه‬
‫نزدیک‬70‫آمریکا‬ ‫در‬ ‫جستجوها‬ ‫درصد‬
April 2014
October 2012
500‫روزانه‬ ‫رشد‬ ‫با‬ ‫کاربر‬ ‫میلیون‬150،000‫کاربر‬
200‫فعال‬ ‫کاربر‬ ‫میلیون‬
‫روزانه‬540‫توییت‬ ‫میلیون‬!
‫از‬ ‫بیش‬ ‫آپلود‬40‫روز‬ ‫در‬ ‫عکس‬ ‫میلیون‬
8500‫ثانیه‬ ‫هر‬ ‫در‬ ‫الیک‬
‫از‬ ‫بیش‬ ‫ثانیه‬ ‫هر‬ ‫در‬1000‫در‬ ‫نظر‬‫مورد‬
‫می‬ ‫نوشته‬ ‫کاربران‬ ‫توسط‬ ‫تصاویر‬‫شود‬.
January 2013
5/26
01
‫یک‬‫تیغه‬‫توربین‬‫گاز‬‫که‬‫به‬‫منظور‬‫تولی‬‫د‬‫برق‬‫به‬
‫کار‬‫می‬‫رود‬‫روزانه‬520‫گیگابایت‬‫اطالعات‬‫تول‬‫ید‬
‫می‬‫کند‬‫که‬‫در‬‫هر‬‫توربین‬20‫عدد‬‫از‬‫این‬‫تیغه‬‫ها‬
‫وجود‬‫دارد‬.
‫ها‬ ‫ماشین‬ ‫تولیدی‬ ‫اطالعات‬ ‫حجم‬
‫الگ‬‫به‬ ‫مربوط‬‫روترها‬،‫سوییچ‬، ‫ها‬
‫فایروال‬‫و‬...
‫الگ‬‫به‬ ‫مربوط‬‫سنسورها‬
‫الگ‬‫ها‬ ‫دوربین‬ ‫مربوط‬
‫و‬...
6/26
NO-SQL
01
‫مدل‬‫ای‬‫رابطه‬‫سال‬ ‫در‬۱۹۷۰‫توسط‬‫ادگار‬‫کاد‬‫مطرح‬‫شد‬.
‫مدل‬Structured Query Language
‫مشکالت‬
‫داده‬ ‫کالن‬ ‫محیط‬ ‫یک‬ ‫در‬ ‫پاسخگویی‬ ‫عدم‬
‫ابری‬ ‫محیط‬ ‫در‬ ‫مناسب‬ ‫و‬ ‫بنیادی‬ ‫سازگاری‬ ‫عدم‬
‫باال‬ ‫پذیری‬ ‫مقیاس‬ ‫عدم‬
8/26
01
‫توسط‬ ‫بار‬ ‫نخستین‬ ‫برای‬Carlo Strozzi‫در‬
‫سال‬1998‫شد‬ ‫مطرح‬ ‫مفهوم‬ ‫این‬.
‫داده‬ ‫های‬ ‫پایگاه‬ ‫نوع‬ ‫این‬ ‫به‬ ‫بعد‬ ‫مدتی‬NoREL
‫یا‬Not Only Relational
‫مدل‬Not Only SQL
‫های‬ ‫داده‬ ‫پایگاه‬ ‫سمت‬ ‫به‬ ‫گذار‬NO SQL
‫های‬ ‫محدودیت‬ ‫و‬ ‫مشکالت‬ ‫دلیل‬ ‫به‬SQL
‫م‬ ‫های‬ ‫محدودیت‬ ‫دلیل‬ ‫به‬ ‫بلکه‬ ، ‫نبوده‬‫دل‬
‫بوده‬ ‫ای‬ ‫رابطه‬‫است‬.
9/26
01
‫سه‬‫مفوم‬‫تحت‬ ‫دادهای‬ ‫های‬ ‫پایگاه‬ ‫در‬ ‫اصلی‬‫وب‬
•‫سازگاری‬Consistency
‫همه‬‫نودها‬‫دارند‬ ‫دسترسی‬ ‫زمانی‬ ‫واحد‬ ‫یک‬ ‫در‬ ‫یکسان‬ ‫داده‬ ‫یک‬ ‫به‬.
•‫پذیری‬ ‫دسترسی‬Availability
‫باشد‬ ‫داشته‬ ‫جوابی‬ ‫باید‬ ‫درخواست‬ ‫هر‬.
•‫بخش‬‫بخش‬‫سیستم‬ ‫سازی‬Partitioning
‫از‬ ‫یکی‬ ‫در‬ ‫اطالعات‬ ‫رفتن‬ ‫بین‬ ‫از‬ ‫هرگونه‬ ‫صورت‬ ‫در‬ ‫سیستم‬‫نودها‬‫بخش‬ ‫افتادن‬ ‫کار‬ ‫از‬ ‫یا‬ ‫و‬‫از‬ ‫ی‬
‫دهد‬ ‫ادامه‬ ‫خود‬ ‫کار‬ ‫به‬ ‫ها‬ ‫داده‬ ‫دیگر‬ ‫با‬ ‫بتواند‬ ‫سیستم‬.
10/26
01
‫نظریه‬CAP
•‫سال‬ ‫در‬2000‫نظریه‬CAP‫توسط‬
•Eric Brewer‫شد‬ ‫مطرح‬.
•‫کسب‬ ‫توانایی‬ ‫فقط‬ ‫و‬ ‫فقط‬‫دو‬‫مورد‬
‫زمان‬ ‫یک‬ ‫در‬
11/26
01
‫مناسب‬ ‫داده‬ ‫پایگاه‬ ‫انتخاب‬ ‫چگونگی‬
•‫کم‬ ‫خواندن‬ ‫توالی‬ ‫و‬ ‫باال‬ ‫نوشتن‬ ‫توالی‬ ‫با‬ ‫های‬ ‫داده‬:‫شمارنده‬‫تل‬ ‫اطالعات‬ ،‫سکوپ‬
•‫کم‬ ‫نوشتن‬ ‫توالی‬ ‫و‬ ‫باال‬ ‫خواندن‬ ‫توالی‬ ‫با‬ ‫های‬ ‫داده‬:‫اسناد‬ ‫مثل‬Html‫و‬ ‫تصاویر‬ ،...
•‫ک‬ ‫بسیار‬ ‫خدمات‬ ‫توقف‬ ‫با‬ ‫و‬ ‫باال‬ ‫بودن‬ ‫دسترس‬ ‫در‬ ‫قبیل‬ ‫از‬ ‫کاربردهایی‬‫م‬
•‫داده‬‫هایی‬‫شوند‬ ‫همگام‬ ‫جغرافیایی‬ ‫مختلف‬ ‫نقاط‬ ‫در‬ ‫باید‬ ‫که‬.
12/26
01
Apache Hadoop
‫اجرا‬ ‫برای‬ ‫که‬ ‫است‬ ‫پردازشی‬ ‫کلی‬ ‫چارچوب‬ ‫یک‬ ‫هادوپ‬ ،‫ساده‬ ‫زبان‬ ‫به‬‫ی‬
‫پرس‬‫مجموعه‬ ‫روی‬ ‫تکراری‬ ‫عملیات‬ ‫دیگر‬ ‫و‬ ‫وجوها‬‫داده‬ ‫های‬‫با‬ ‫عظیم‬ ‫ای‬
‫حجم‬‫است‬ ‫شده‬ ‫طراحی‬ ‫پتابایت‬ ‫حتی‬ ‫و‬ ‫ترابایت‬ ‫های‬.
•‫خالق‬‫هادوپ‬‫دوگ‬‫کاتینگ‬
•‫برای‬‫توزیع‬ ‫از‬ ‫پشتیبانی‬‫شدگی‬‫ج‬ ‫موتور‬ ‫پروژه‬ ‫در‬‫ستجوی‬
Nutch‫سال‬ ‫در‬2005
•‫نام‬‫کرد‬ ‫انتخاب‬ ‫پسرش‬ ‫عروسکی‬ ‫فیل‬ ‫روی‬ ‫از‬ ‫را‬ ‫پروژه‬.
‫های‬ ‫ویژگی‬Hadoop
•‫باال‬ ‫پذیری‬ ‫دسترسی‬
•‫عالی‬ ‫پذیری‬ ‫مقیاس‬
•‫تکثیر‬ ‫قابلیت‬
•‫قابلیت‬Map-Reduce
14/26
01
‫معماری‬Hadoop
15/26
‫معماری‬HDFS
16/26
01
Replication
‫در‬HDFS
17/26
01
‫از‬ ‫ها‬ ‫شرکت‬ ‫کدام‬‫هادوپ‬‫؟‬ ‫کنند‬ ‫می‬ ‫استفاده‬
18/26
01
‫چارچوب‬Map-Reduce
MapReduce‫توسط‬‫گوگل‬‫در‬‫سال‬2003‫توسعه‬‫داده‬
‫شد‬
‫یک‬‫چارچوب‬‫افزاری‬‫نرم‬‫است‬‫که‬‫بستری‬‫امن‬‫و‬‫مقیاس‬
‫پذیر‬‫برای‬‫توسعه‬‫کاربردهای‬‫توزیعی‬‫فراهم‬‫میکند‬.
‫چارچوب‬ ‫از‬ ‫استفاده‬ ‫مزایای‬Map-Reduce
-‫موازی‬‫سازی‬‫کارها‬‫به‬‫صورت‬‫خودکار‬
-‫تعادل‬‫در‬‫بار‬‫محاسباتی‬‫و‬‫داده‬
-‫بهینه‬‫سازی‬‫در‬‫انتقاالت‬‫دیسک‬‫و‬‫شبکه‬
-‫اداره‬‫کردن‬‫های‬‫نقص‬‫رخ‬‫داده‬‫در‬‫ها‬‫ماشین‬
19/26
01
Map-Reduce
20/26
01
‫نگاشت‬ ‫چارچوب‬ ‫از‬ ‫مثالی‬-‫کاهش‬
21/26
01
‫نگاشت‬ ‫چارچوب‬ ‫از‬ ‫مثالی‬-‫کاهش‬
22/26
01
‫نگاشت‬ ‫چارچوب‬ ‫از‬ ‫مثالی‬-‫کاهش‬
23/26
01
‫نگاشت‬ ‫چارچوب‬ ‫از‬ ‫مثالی‬-‫کاهش‬
24/26
‫های‬ ‫داده‬ ‫پایگاه‬ ‫سمت‬ ‫به‬ ‫گذار‬NO SQL‫های‬ ‫محدودیت‬ ‫و‬ ‫مشکالت‬ ‫دلیل‬ ‫به‬SQL‫به‬ ‫بلکه‬ ، ‫نبوده‬
‫بوده‬ ‫ای‬ ‫رابطه‬ ‫مدل‬ ‫های‬ ‫محدودیت‬ ‫دلیل‬‫است‬.
‫های‬ ‫پایگاه‬RDBMS‫کرد‬ ‫خواهند‬ ‫حفظ‬ ‫را‬ ‫خود‬ ‫بازار‬ ‫همیشه‬.
‫که‬ ‫شود‬ ‫می‬ ‫زمانی‬ ‫به‬ ‫منحصر‬ ‫بیشتر‬ ‫کاربرد‬3V‫شود‬ ‫اثبات‬.
‫گیری‬ ‫نتیجه‬
25/26
‫منابع‬
26/26

بیگ دیتا