Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Big Data Processing in Cloud Computing Environments

3,561 views

Published on

This is my Seminar presentation, adopted from a paper with the same name (Big Data Processing in Cloud Computing Environments), and it is about various issues of Big Data, from its definitions and applications to processing it in cloud computing environments. It also addresses the Big Data technologies and focuses on MapReduce and Hadoop.

Published in: Education

Big Data Processing in Cloud Computing Environments

  1. 1. ‫های‬‫محیط‬ ‫در‬ ‫داده‬‫بزرگ‬ ‫پردازش‬ ‫ابری‬ ‫رایانش‬ ‫نوذریان‬ ‫فرزاد‬ fnozarian@gmail.com ‫امیرکبیر‬ ‫صنعتی‬ ‫دانشگاه‬ ‫اطالعات‬ ‫فناوری‬ ‫و‬ ‫کامپیوتر‬ ‫مهندسی‬ ‫دانشکده‬ 10/‫اردیبهشت‬/93 ‫ابری‬ ‫رایانش‬ ‫های‬‫محیط‬ ‫در‬ ‫داده‬‫بزرگ‬ ‫پردازش‬ ‫نوذریان‬ ‫فرزاد‬ fnozarian@gmail.com ‫امیرکبیر‬ ‫صنعتی‬ ‫دانشگاه‬ ‫اطالعات‬ ‫فناوری‬ ‫و‬ ‫کامپیوتر‬ ‫مهندسی‬ ‫دانشکده‬ 17/‫شهریور‬/93
  2. 2. ‫مطالب‬ ‫فهرست‬ ‫‌داده‬‫گ‬‫بزر‬ ‫‌داده‬‫گ‬‫اندازه‌بزر‬ ‫‌داده‬‫گ‬‫اجزای‌بزر‬ ‫‌داده‬‫گ‬‫‌های‌بزر‬‫ی‬‫فناور‬ ‫خالصه‬ 3
  3. 3. ‫است‬ ‫جدیدی‬ ‫نفت‬ ،‫داده‬! ،‫است‬ ‫ارزشمند‬ ‫خام‬ ‫نفت‬ ‫مثل‬ ‫درست‬ ،‫داده‬ ‫کرد‬ ‫استفاده‬ ‫توان‬‫نمی‬ ‫آن‬ ‫از‬ ‫نشود‬ ‫تصفیه‬ ‫اگر‬ ‫اما‬. ‫های‬‫فعالیت‬ ‫همواره‬ ‫که‬ ‫ارزش‬ ‫با‬ ‫محصوالت‬ ‫تولید‬ ‫برای‬ ‫باید‬ ‫کرد‬ ‫تحلیل‬ ‫را‬ ‫آن‬ ،‫دارد‬ ‫دنبال‬ ‫به‬ ‫را‬ ‫سودآوری‬. ‫مفسر‬‫بازاریابی‬‫مایکل‬‫پالمر‬ Source: http://ana.blogs.com/maestros/2006/11/data_is_the_new.html
  4. 4. ‫داده‬‫بزرگ‬‫چیست؟‬ ‫داده‬‫بزرگ‬‫به‬‫هایی‬‫داده‬‫گفته‬‫شود‬‫می‬‫که‬‫فرات‬‫ر‬‫از‬ ‫توان‬‫پردازشی‬‫های‬‫سیستم‬‫پایگاه‬‫ای‬‫داده‬‫رای‬‫ج‬ ‫هستند‬.‫ها‬‫داده‬‫بسیار‬‫بزرگ‬،‫هستند‬‫با‬‫سرع‬‫ت‬ ‫زیادی‬‫در‬،‫حرکتند‬‫یا‬‫مناسب‬‫ساختار‬‫معماری‬ ‫پایگاه‬‫ی‬‫داده‬‫شما‬‫نیستند‬.‫برای‬‫وری‬‫بهره‬‫از‬ ‫ارزش‬‫ها‬‫داده‬‫شما‬‫باید‬‫راه‬‫دیگری‬‫را‬‫برای‬ ‫پردازش‬‫ها‬‫آن‬‫انتخاب‬‫کنید‬. Edd Dumbill, O’Reilly ‫داده‬‫بزرگ‬4
  5. 5. ‫حجم‬‫سرعت‬‫تنوع‬ 201020152020 0.36ZB ‫حجم‬10.5ZB 2.37ZB ‫تولیدی‬ ‫های‬‫داده‬ ‫جهان‬ ‫در‬ ‫داده‬‫بزرگ‬/‫حجم‬5
  6. 6. ‫حجم‬‫سرعت‬‫تنوع‬ 2×14 ‫هر‬ ‫ماه‬ ‫جهان‬ ‫های‬‫داده‬ ‫رشد‬‫سرعت‬‫به‬ ‫حال‬ ‫در‬‫افزایش‬‫است‬ ‫سرعت‬ ‫هر‬14‫ماه‬‫های‬‫داده‬ ‫ها‬‫شرکت‬‫برابر‬ ‫دو‬‫شود‬‫می‬ ‫داده‬‫بزرگ‬/‫سرعت‬6
  7. 7. ‫بالدرنگ‬ ‫تحلیل‬ ‫ها‬‫داده‬‫بزرگ‬ 8 ‫سرعت‬ ‫در‬ ‫ها‬‫داده‬ ‫دقیقه‬ ‫یک‬ +600‫ویدئو‬ ‫یوتیوب‬ ‫در‬ +200‫میلیون‬ ‫وجوی‬‫جست‬‫گوگلی‬ +400,000 ‫تماس‬ ‫دقیقه‬ ‫اسکایپی‬ +400,000 ‫توییت‬ +700,000 ‫بروزرسانی‬ ‫فیسبوکی‬ +7000‫عکس‬ ‫در‬‫فلیکر‬ +1500‫پست‬ ‫در‬‫ها‬‫بالگ‬ +300,000 ‫خرید‬ ‫دالر‬ ‫آنالین‬ +3500 ‫امنیتی‬ ‫هشدار‬ Source: Industry reporting; CRISIL GR&A analysis ‫داده‬‫بزرگ‬/‫سرعت‬ +200‫میلیون‬ ‫ایمیل‬ 8
  8. 8. ‫حجم‬‫سرعت‬‫تنوع‬ ‫جدید‬ ‫های‬‫داده‬ ‫منابع‬ ‫از‬ ‫ها‬‫شرکت‬‫متنوعی‬‫شوند‬‫می‬ ‫تولید‬: 50% ‫کارها‬‫جریان‬‫در‬‫ابرها‬ ‫انتهای‬ ‫تا‬2014 ‫د‬ ‫تجاری‬ ‫تراکنش‬‫ر‬ ‫اینترنت‬‫تا‬2020 450 ‫میلیار‬‫د‬ ‫جدید‬ ‫ایمیل‬‫در‬60‫پیش‬ ‫ثانیه‬ 204,166,667 200,000,000 ‫گوگلی‬ ‫جوی‬‫و‬‫پرس‬ ‫دقیقه‬ ‫هر‬ ‫در‬ 100‫میلیون‬ ‫جدید‬ ‫تجارت‬ ‫سال‬ ‫هر‬ ‫در‬ ‫داده‬‫بزرگ‬/‫تنوع‬9
  9. 9. 1 ‫های‬‫داده‬ ‫ساختاریاف‬‫ته‬ ‫های‬‫داده‬ ‫ساخت‬ ‫شبه‬‫ار‬ ‫های‬‫داده‬ ‫ساختا‬ ‫بدون‬‫ر‬ Source: Industry reporting; CRISIL GR&A analysis •‫‌ها،‌گروه‌بندی‌شده‌به‌شکل‌سطری‌و‬‫ه‬‫‌های‌موجود‌در‌پایگاه‌داد‬‫ه‬‫داد‬ ‫ستونی‬ •‌ً‫ا‬‫تقریب‬5‌%‫‌های‌موجود‬‫ه‬‫از‌کل‌داد‬ •‫‌های‌ساختار‬‫ه‬‫شکلی‌از‌داد‬‌‫‌های‬‫ل‬‫‌اند‌ولی‌با‌ساختارهای‌رسمی‌مد‬‫ه‬‫یافت‬ ‫‌ای‌مطابقت‌ندارند‬‫ه‬‫داد‬. •‌ً‫ا‬‫تقریب‬10‌%‫‌های‌موجود‬‫ه‬‫از‌کل‌داد‬ •‫‌ها‌به‌شکل‌سطری‌و‌ستونی‌ذخیره‌کر‬‫ن‬‫‌توان‌آ‬‫ی‬‫‌هایی‌که‌نم‬‫ه‬‫داد‬‌‫د،‌مثل‬ ‫‌ها‬‫ک‬‫‌های‌صوتی،‌ویدئو،‌جریان‌کلی‬‫ل‬‫فای‬ •‌ً‫ا‬‫تقریب‬80‌%‫‌های‌موجود‬‫ه‬‫از‌کل‌داد‬ ‫داده‬‫بزرگ‬/‫تنوع‬10
  10. 10. ‫داده‬‫بزرگ‬ ‫است؟‬ ‫بزرگ‬ ‫چقدر‬ ‫مخابرات‬ ‫صنعت‬: ‫رکوردهای‬‫تماس‬ ‫جزئیات‬‫ها‬‫تلفن‬‫آمریکا‬ ‫در‬
  11. 11. ‫آمریکا‬ ‫در‬ ‫بزرگسال‬ ‫و‬ ‫نوجوان‬ 250,000,000 X
  12. 12. 10 ‫روز‬ ‫هر‬ ‫در‬ ‫تماس‬
  13. 13. 2,500,000,000 ‫روز‬ ‫هر‬ ‫در‬ ‫تماس‬ X
  14. 14. 2K ‫تماس‬ ‫جزئیات‬ ‫رکورد‬ ‫اندازه‬ ‫میانگین‬ 5‫اطالعات‬ ‫ترابایت‬
  15. 15. ‫در‬ ‫داده‬ ‫مقدار‬ ‫میانگین‬ ‫ای‬‫خوشه‬‫با‬100‫گره‬ 3200 TB 5‫ترابایت‬/‫رو‬‫ز‬
  16. 16. ‫بزرگ‬ ‫علوم‬ ‫ِرن‬‫س‬ ‫ذرات‬ ‫دهنده‬‫شتاب‬(LHC) •‫ثانیه‬ ‫هر‬ ‫در‬40‫از‬ ‫داده‬ ‫بار‬ ‫میلیون‬150‫کند‬‫می‬ ‫تولید‬ ‫حسگر‬ ‫میلیون‬ •ً‫ا‬‫تقریب‬60‫ثانیه‬ ‫هر‬ ‫در‬ ‫برخورد‬ ‫میلیون‬ •‫با‬ ‫کار‬‫حسگرها‬ ‫همه‬ 150‫سالیانه‬ ‫نرخ‬ ‫پتابایت‬ ‫میلیون‬ 500‫روز‬ ‫هر‬ ‫در‬ ‫اگزابایت‬ •500‫کوینتیلیون‬(1020×5)‫روز‬ ‫هر‬ ‫در‬ ‫بایت‬ ً‫ا‬‫تقریب‬200‫برابر‬ ‫ه‬ ‫ترکیب‬ ‫از‬ ‫بیشتر‬‫مه‬ ‫جهان‬ ‫در‬ ‫دیگر‬ ‫منابع‬! •‫با‬ ‫کار‬0.001%‫حسگرها‬ ‫از‬25‫سال‬ ‫در‬ ‫اطالعات‬ ‫پتابایت‬ http://en.wikipedia.org/wiki/Big_data
  17. 17. ‫بردار‬‫نقشه‬‫دیجیتال‬ ‫آسمانی‬‫اسلون‬(SDSS) •‫سال‬ ‫در‬ ‫نجوم‬ ‫تاریخ‬ ‫اطالعات‬ ‫تمام‬ ‫اندازه‬ ‫به‬ ‫رسیدن‬2000 •200‫گیگابایت‬‫شب‬ ‫هر‬ ‫در‬ •‫سال‬ ‫در‬ ‫آن‬ ‫بعدی‬ ‫نسل‬2016-140‫روز‬ ‫پنج‬ ‫هر‬ ‫در‬ ‫ترابایت‬ http://en.wikipedia.org/wiki/Big_data
  18. 18. ‫بخش‬‫خصوصی‬ ‫داده‬‫بزرگ‬ ‫اندازه‬ •‫شرکت‬eBay.com‫حجم‬ ‫به‬ ‫داده‬ ‫انبار‬ ‫دو‬ ‫از‬7.5‫و‬40‫برای‬ ‫پتابایت‬ ‫و‬ ‫جستجو‬‫پیشنهاددهی‬‫به‬‫کنندگان‬‫مصرف‬‫ک‬‫می‬ ‫استفاده‬ ‫تجارت‬ ‫و‬‫ند‬. •‫والمارت‬‫از‬ ‫بیش‬ ‫ساعت‬ ‫هر‬ ‫در‬1‫این‬ ‫که‬ ‫کند‬‫می‬ ‫اداره‬ ‫را‬ ‫تراکنش‬ ‫میلیون‬ ‫ها‬‫تراکنش‬‫از‬ ‫بیش‬ ‫تخمینی‬ ‫حجم‬ ‫به‬ ‫ای‬‫داده‬ ‫پایگاه‬ ‫داخل‬2.5‫پتابایت‬ ‫شود‬‫می‬ ‫وارد‬.‫اطالعات‬ ‫از‬ ‫مقدار‬ ‫این‬167‫در‬ ‫که‬ ‫است‬ ‫اطالعاتی‬ ‫برابر‬ ‫است‬ ‫موجود‬ ‫آمریکا‬ ‫کنگره‬ ‫کتابخانه‬. •‫فیسبوک‬‫کم‬‫دست‬50‫از‬ ‫عکس‬ ‫میلیارد‬‫کاربرانش‬‫کند‬‫می‬ ‫اداره‬ ‫را‬. •FICO‫اعتباری‬ ‫کارت‬ ‫تقلب‬ ‫تشخیص‬ ‫سیستم‬Falcon‫از‬2.1‫میلیارد‬ ‫کند‬‫می‬ ‫حفاظت‬ ‫جهان‬ ‫در‬ ‫فعال‬ ‫حساب‬. 19 http://en.wikipedia.org/wiki/Big_data
  19. 19. ‫تحل‬ ‫و‬ ‫تجزیه‬‫یل‬ ‫استفاده‬ ‫و‬ ‫و‬ ‫مدیریت‬ ‫داده‬ ‫ذخیره‬ ‫بزرگ‬ ‫های‬‫تحلیل‬ ‫و‬ ‫تجزیه‬ ‫توسعه‬ ‫تحلیل‬ ‫و‬ ‫تجزیه‬ ‫استفاده‬‫داده‬ ‫از‬ ‫ها‬‫برنامه‬ BI‫مصورسازی‬ ‫و‬ ‫داده‬ ‫ساختاریافته‬ ‫ساختار‬ ‫بدون‬ ‫داده‬‫بزرگ‬ ‫ابزارهای‬ Source: Karmasphere ‫داده‬‫بزرگ‬ ‫اجزای‬(‫نشده‬ ‫تکمیل‬)20
  20. 20. ‫ها‬‫سیستم‬ ‫گونه‬ ‫این‬ ‫های‬‫محدودیت‬ ‫ای‬‫رابطه‬ ‫داده‬‫پایگاه‬ ‫مدیریت‬ ‫های‬‫سیستم‬(RDBMS) • • • ‫موازی‬ ً‫ا‬‫شدید‬ ‫رایانش‬ ‫های‬‫سیستم‬ (Massively parallel processing) ‫ها‬‫داده‬ ‫انبار‬(Data Warehouse) ‫اجزای‬‫داده‬‫بزرگ‬/‫مدیریت‬21 Source: Karmasphere
  21. 21. ‫داد‬‫بزرگ‬ ‫های‬‫فناوری‬ ‫بندی‬‫دسته‬‫ه‬ •‫گرا‬‫ستون‬ ‫های‬‫داده‬‫پایگاه‬ ‫داده‬‫بزرگ‬ ‫های‬‫فناوری‬ •‫های‬‫داده‬‫پایگاه‬NoSQL •‫کاهش‬‫نگاشت‬ 22
  22. 22. ‫داده‬‫بزرگ‬ ‫های‬‫فناوری‬/‫گ‬‫ستون‬ ‫های‬‫داده‬‫پایگاه‬‫را‬ ‫داده‬ ‫پایگاه‬ ‫از‬ ‫نوعی‬ ‫گرا‬‫ستون‬ ‫های‬‫داده‬‫پایگاه‬‫ها‬ ‫ش‬ ‫می‬ ‫ذخیره‬ ‫ستونی‬ ‫ها‬‫داده‬ ‫آن‬ ‫در‬ ‫که‬ ‫هستند‬‫وند‬. EmpId Lastname Firstname Salary 10 Smith Joe 40000 12 Jones Mary 50000 11 Johnson Cathy 44000 22 Jones Bob 55000 001:10,Smith,Joe,40000;002:12,Jones,Mary,50000;003:11, Johnson,Cathy,44000;004:22,Jones,Bob,55000; Seeks‫ترین‬‫پرهزینه‬‫است‬ ‫ها‬ ‫دیسک‬ ‫هارد‬ ‫در‬ ‫عملیات‬. ‫بین‬ ‫ها‬‫آن‬ ‫حقوق‬ ‫که‬ ‫هایی‬ ‫رکورد‬ ‫تمام‬40000‫و‬50000 23
  23. 23. 10:001,12:002,11:003,22:004;Smith:001,Jones:002, Johnson:003,Jones:004;Joe:001,Mary:002,Cathy:003,B ob:004;40000:001,50000:002,44000:003,55000:004; 001:40000;002:50000;003:44000;004:55000; …;Smith:001,Jones:002,004,Johnson:003;… ‫ها‬‫آن‬ ‫خانوادگی‬ ‫نام‬ ‫که‬ ‫افرادی‬ ‫تمام‬ ‫یافتن‬Jones‫است‬ ‫‌گذاری‬‫س‬‫اندی‬‌‫بر‌روی‌ستون‬Salary ‫‌های‌جدول‬‫ه‬‫ذخیره‌ستونی‌داد‬ ‫داده‬‫بزرگ‬ ‫های‬‫فناوری‬/‫گرا‬‫ستون‬ ‫های‬‫داده‬‫پایگاه‬24
  24. 24. Column Accumulo Cassandra Druid HBase Document Clusterpoint CouchDB Couchbase MarkLogic MongoDB Key-Value Dynamo FoundationDB MemcachDB Redis Graph Allegro Neo4J InfiniteGraph OrientDB ‫های‬‫داده‬‫پایگاه‬NoSQL‫یا‬Not Only SQL‫سازوکاری‬‫را‬ ‫ب‬ ‫آن‬ ‫مدل‬ ‫که‬ ‫طوری‬ ‫به‬ ‫اطالعات‬ ‫بازیابی‬ ‫و‬ ‫ذخیره‬ ‫برای‬‫ا‬ ‫ا‬‫رابطه‬ ‫های‬‫داده‬‫پایگاه‬ ‫در‬ ‫استفاده‬ ‫مورد‬ ‫ای‬‫رابطه‬ ‫جداول‬‫ی‬ ‫است‬ ‫متفاوت‬. ‫های‬‫فناوری‬‫داده‬‫بزرگ‬/NoSQL25
  25. 25. ‫های‬‫الگوریتم‬ ‫اجرای‬ ‫برای‬ ‫چارچوبی‬ ‫کاهش‬‫نگاشت‬ ‫عظیم‬ ‫های‬‫داده‬ ‫مجموعه‬ ‫روی‬ ‫بر‬ ‫شده‬‫توزیع‬ ‫و‬ ‫موازی‬ ‫است‬ ‫معمولی‬ ‫کامپیوترهای‬ ‫از‬ ‫زیادی‬ ‫تعداد‬ ‫توسط‬. ‫ش‬‫توزیع‬ ‫پردازش‬ ‫از‬ ‫پشتیبانی‬ ‫برای‬‫بر‬ ‫ده‬ ‫شده‬‫توزیع‬ ‫بزرگ‬ ‫های‬‫داده‬ ‫مجموعه‬ ‫روی‬ ‫سال‬ ‫در‬2004‫توسط‬ ‫های‬‫فناوری‬‫داده‬‫بزرگ‬/‫کاهش‬‫نگاشت‬26
  26. 26. Map Shuffle Reduce ‫کاهش‬‫نگاشت‬ ‫از‬ ‫تصویری‬ ‫مثال‬ ‫های‬‫فناوری‬‫داده‬‫بزرگ‬/‫کاهش‬‫نگاشت‬27
  27. 27. (K1 , V1) (K2 , V2)‫نگاشت‬ (K2 , V2) ‫مرتب‬ (K2 , }V2, V2 ,…}) (K2 , }V2, V2 ,…}) ‫کاهش‬ (K3 , V3) ‫کاهش‬‫نگاشت‬ ‫کار‬(MapReduce Job) ‫داده‬‫بزرگ‬ ‫های‬‫فناوری‬/‫کاهش‬‫نگاشت‬28
  28. 28. ‫مهم‬ ‫بسیار‬ ‫های‬‫ویژگی‬ ‫کاهش‬‫نگاشت‬ •‫ای‬‫خوشه‬ ‫مدیریت‬ ‫های‬‫پیچیدگی‬‫در‬‫های‬‫ماشین‬ ‫را‬ ‫ها‬‫گره‬ ‫بین‬ ‫کار‬ ‫اجرای‬ ‫هماهنگی‬ ‫و‬ ‫بزرگ‬ ‫شده‬‫توزیع‬ ‫دارد‬‫می‬ ‫نگه‬ ‫مخفی‬ ‫کامل‬ ‫طور‬‫به‬. •‫است‬ ‫آسان‬ ‫بسیار‬ ‫آن‬ ‫نویسی‬‫برنامه‬ ‫توسعه‬ ‫مدل‬‫؛‬ ‫توابع‬ ‫نوشتن‬ ‫مسئول‬ ‫تنها‬ ‫دهنده‬ ‫توسعه‬ ‫زیرا‬ ‫است‬ ‫کاهش‬ ‫و‬ ‫نگاشت‬. ‫آن‬ ‫ی‬‫وظیفه‬‫فراهم‬ ‫کلی‬ ‫هماهنگی‬ ‫آوردن‬ ‫عملیات‬ ‫اجرای‬ ‫برای‬ •‫های‬‫ماشین‬ ‫انتخاب‬(‫ها‬‫گره‬)‫نگاشتگ‬ ‫اجرای‬ ‫برای‬ ‫مناسب‬‫رها‬ •‫نگاشتگرها‬ ‫اجرای‬ ‫بر‬ ‫نظارت‬ ‫و‬ ‫اندازی‬‫راه‬ •‫کاهشگرها‬ ‫اجرای‬ ‫برای‬ ‫مناسب‬ ‫موقعیت‬ ‫انتخاب‬ •‫تحویل‬ ‫و‬ ‫نگاشتگرها‬ ‫خروجی‬ ‫کردن‬ ‫مخلوط‬ ‫و‬ ‫مرتب‬ ‫به‬ ‫خروجی‬‫کاهشگرها‬ •‫کاهشگرها‬ ‫اجرای‬ ‫بر‬ ‫نظارت‬ ‫و‬ ‫اندازی‬‫راه‬ ‫داده‬‫بزرگ‬ ‫های‬‫فناوری‬/‫کاهش‬‫نگاشت‬29
  29. 29. ‫داده‬‫بزرگ‬ ‫های‬‫فناوری‬/‫کاهش‬‫نگاشت‬30
  30. 30. ‫های‬‫فناوری‬‫داده‬‫بزرگ‬/Hadoop ‫و‬ ‫ذخیره‬ ‫برای‬ ‫باز‬‫متن‬ ‫افزاری‬‫نرم‬ ‫چارچوب‬ ‫یک‬ ‫پردازش‬‫های‬‫داده‬‫مجموعه‬‫روی‬ ‫بر‬ ‫بزرگ‬‫ای‬‫خوشه‬ ‫از‬‫افزارهای‬‫سخت‬‫است‬ ‫معمولی‬ ‫و‬ ‫رایج‬. 31
  31. 31. ‫داده‬‫بزرگ‬ ‫های‬‫فناوری‬/Hadoop 2002 •‫سال‬ ‫در‬2002‫که‬‫درحالی‬Doug Cutting‫و‬Mike Cafarella‫ای‬‫پروژه‬ ‫روی‬ ‫بر‬ ‫نام‬ ‫به‬Nutch‫زیا‬ ‫مقدار‬ ‫پردازش‬ ‫برای‬ ‫را‬ ‫حلی‬‫راه‬ ‫تا‬ ‫کردند‬‫می‬ ‫تالش‬ ‫کردند‬‫می‬ ‫کار‬‫دی‬ ‫کنند‬ ‫پیدا‬ ‫اطالعات‬ ‫از‬. 2004 •‫گوگل‬ ‫سیستم‬ ‫فایل‬ ‫مورد‬ ‫در‬ ‫ای‬‫مقاله‬ ‫گوگل‬(GFS)‫و‬ ‫الگوریتم‬ ‫که‬ ،‫کاهش‬‫نگاشت‬ ‫و‬ ‫ارائ‬ ‫بود‬ ‫بزرگ‬ ‫های‬‫داده‬ ‫مجموعه‬ ‫پردازش‬ ‫برای‬ ‫ای‬‫شده‬‫توزیع‬ ‫نویسی‬‫برنامه‬ ‫بستر‬‫داد‬ ‫ه‬. 2006 •‫سال‬ ‫در‬2006‫د‬ ‫داده‬‫بزرگ‬ ‫های‬‫چالش‬ ‫با‬ ‫کردن‬ ‫نرم‬ ‫وپنجه‬‫دست‬ ‫از‬ ‫بعد‬ ‫یاهو‬ ‫شرکت‬ ،‫ر‬ ‫پس‬ ‫و‬ ‫خود‬ ‫جستجوی‬ ‫موتور‬ ‫اطالعات‬ ‫از‬ ‫زیادی‬ ‫مقدار‬ ‫روی‬ ‫بر‬ ‫گذاری‬‫اندیس‬ ‫با‬ ‫رابطه‬ ‫پروژه‬ ‫های‬‫پیشرفت‬ ‫مشاهده‬ ‫از‬Nutch،Doug Cutting‫کرد‬ ‫استخدام‬ ‫را‬. ‫تاریخچه‬ 32
  32. 32. ‫داده‬‫بزرگ‬ ‫های‬‫فناوری‬/Hadoop ‫ها‬‫ویژگی‬ ‫دیگر‬ ‫از‬ ‫هادوپ‬ ‫شده‬‫توزیع‬ ‫رویکردهای‬ ‫متفاوت‬ ‫مورد‬ ‫چند‬ ‫در‬ ‫است‬ ‫ها‬‫داده‬‫طور‬‫به‬‫پیشرفته‬‫توزیع‬‫شوند؛‬‫می‬ ‫ها‬‫داده‬‫برای‬‫برقراری‬‫قابلیت‬‫اطمینان‬‫و‬‫دستر‬‫سی‬ ‫در‬‫تمام‬‫خوشه‬‫تکرار‬‫شوند؛‬‫می‬ ‫پردازش‬‫ها‬‫داده‬‫جایی‬‫اتفاق‬‫افتد‬‫می‬‫که‬‫ها‬‫داده‬ ‫قرار‬‫دارند؛‬‫بنابراین‬‫گلوگاه‬‫شدن‬‫پهنای‬‫بان‬‫د‬‫از‬ ‫بین‬‫رود‬‫می‬. 33
  33. 33. ‫داده‬‫بزرگ‬ ‫های‬‫فناوری‬/Hadoop ‫ها‬‫ویژگی‬ ‫هادوپ‬ ‫های‬‫ویژگی‬ ‫سازی‬‫ذخیره‬‫مقدار‬‫عظیمی‬‫از‬‫ها‬‫داده‬ ‫پردازش‬‫شده‬‫توزیع‬‫با‬‫دسترسی‬‫سریع‬‫به‬‫داد‬‫ها‬‫ه‬ ‫قابلیت‬،‫اطمینان‬failover‫و‬‫پذیری‬‫مقیاس‬ ‫جداسازی‬ ‫هادوپ‬ ‫ویژگی‬ ‫ترین‬‫مهم‬ ‫شفاف‬‫نویسی‬‫برنامه‬ ‫منطق‬ ‫بین‬‫و‬ ‫است‬ ‫تجهیزات‬ ‫پشتیبانی‬. 34
  34. 34. ‫داده‬‫بزرگ‬ ‫های‬‫فناوری‬/Hadoop ‫ها‬‫ویژگی‬ ‫هادوپ‬ ‫های‬‫ویژگی‬ ‫سازی‬‫ذخیره‬‫مقدار‬‫عظیمی‬‫از‬‫ها‬‫داده‬ ‫پردازش‬‫شده‬‫توزیع‬‫با‬‫دسترسی‬‫سریع‬‫به‬‫داد‬‫ها‬‫ه‬ ‫قابلیت‬،‫اطمینان‬failover‫و‬‫پذیری‬‫مقیاس‬ 35
  35. 35. ‫داده‬‫بزرگ‬ ‫های‬‫فناوری‬/Hadoop ‫معماری‬ 36
  36. 36. ‫اجزای‬‫داده‬‫بزرگ‬(‫کامل‬)37
  37. 37. • http://consumer.media.seagate.com/2012/06/the-digital-den/how-much- data-is-generated-in-a-minute/ • http://www.moyak.com/papers/business-startups-entrepreneurs.html • http://visual.ly/how-big-big-data • http://visual.ly/forces-disrupting-network • http://knowwpcarey.com/article.cfm?cid=25&aid=1171 • http://www.csc.com/insights/flxwd/78931- big_data_growth_just_beginning_to_explode • http://visual.ly/data-overload-how-will-we-deal-650-enterprise-data-growth • http://sites.amd.com/us/Documents/IDC_AMD_Big_Data_Whitepaper.pdf ‫منابع‬38
  38. 38. ‫تشکر‬ ‫با‬

×