Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

متن‌بازسازی کلان‌داده

412 views

Published on

عبارت کلان داده به مجموعه‌های داده‌‌‌ ای اشاره دارد که به اندازه ای بزرگ و حجیم هستند که با ابزارهای مدیریتی و پایگاه‌هاي داده سنتی و معمولی قابل مدیریت نیستند. مشکلات اصلی در کار با این نوع داده‌‌ها مربوط به برداشت و جمع‌آوری، ذخیره‌سازی، جست‌وجو، اشتراک‌گذاری، تحلیل و نمایش آن‌ها می باشد. کلان داده به عنوان یکی از فناوری های کلیدی و نوظهور به اذعان بسیاری از خبرگان می تواند تاثیرات شگرفی بر جای بگذارد. امروزه با گسترش شبکه‌های اجتماعی و ظهور منابع جدید اطلاعاتی، حجم داده‌های تولیدی به شکل روزافزونی در حال افزایش است. نظرات کاربران شبکه‌های اجتماعی، محتواهای بههد اشتراک گذاشته شده و اطلاعات ضبط شده توسط حسگرهای مختلف همگی از انواع منابعی هستند که در این انفجار اطلاعاتی نقش ایفا می کنند. با استفاده از تحلیل حجم‌هاي بیشتری از داده‌ها، مي‌توان تحلیل‌هاي بهتر و پيشرفته‌تري را برای مقاصد مختلف، از جمله مقاصد تجاری، پزشکی‌ و امنیتی، انجام داد و نتایج مناسب‌تری را دریافت‌کرد. پیوند موجود بین کلان داده و ابزارهای متن باز به وضوح با استفاده از ابزار هدوپ شروع شد و این روند در ادامه سرعت بیشتری به خود گرفت

Published in: Software

متن‌بازسازی کلان‌داده

  1. 1. Open Sourcing Big Data Hadi Sotudeh
  2. 2. About Me Hadi Sotudeh - Information Technology hsotudeh@ce.sharif.edu Ce.sharif.edu/~hsotudeh
  3. 3. About Us Dr. Sharif Big Data: From a Business & Managerial Perspective
  4. 4. Bigdata.blog.ir
  5. 5. About Us Torob.ir Co-Founder : Ali Babei
  6. 6. About Us B.S Project : (DRPC) Distributed Real Time Processing Crawler using Apache Storm Dr. Goudarzi
  7. 7. Everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it. Dan Ariely
  8. 8. News
  9. 9. Big Data Definition Is there any standard definition?
  10. 10. Big Data Definitions  Gartner  Mckinsey  ….
  11. 11. Gartner Big data is high-volume, high-velocity and high- variety information assets that demand cost- effective, innovative forms of information processing for enhanced insight and decision making.
  12. 12. Mckinsey datasets whose size is beyond the ability of typical database software tools to capture, store, manage, and analyze
  13. 13. • Sensors • Transactions • GPS • Email • Social Network • Sound Files • Video • Image • Telescope • Log • Tex • .... Data Sources
  14. 14. Tim Berners Lee Open Data Movement
  15. 15. Open Data: 19 State/Org Website UAE http://government.ae/web/guest/uae-data UK http://data.gov.uk US http://data.gov World Bank http://data.worldbank.org/ India http://data.gov.in Russia http://opengovdata.ru EU Open-data.Europa.eu/en/data • Google.com/trends/explore • Google.com/finance
  16. 16. 20
  17. 17. Close Data! 23
  18. 18. ‫اجتماعی‬ ‫های‬ ‫شبکه‬ 24
  19. 19. A Tweet
  20. 20. Edward Snowden
  21. 21. NSA
  22. 22. Log or Dark Data 34
  23. 23. 35
  24. 24. Importance
  25. 25. Analytics is the discovery and communication of meaningful patterns in data Analytics
  26. 26. Types of Analytics  Cube Analytics  Multi Dimensional  Product  Date  Price  BI  Predictive Analytics  Statistics and Machine Learning  Linear Regression  Data Clustering  Find Association
  27. 27. Dimensions of Analytics Variants Real Time  Ability to Analyze the data instantly  Batch  Ability to provide insights after several hours/days when a query is posted
  28. 28. TOOLS
  29. 29. Do It Real Time
  30. 30. Problems Scaling is painful Poor fault-tolerance Coding is tedious
  31. 31. What We Want Guaranteed Data Processing Horizontal scalability Fault-tolerance “just works”
  32. 32. What Is The Key?
  33. 33. Hadoop Batch Oriented System
  34. 34. Storm Guaranteed Data Processing Horizontal scalability Fault-tolerance “just works”
  35. 35. Use cases
  36. 36. Streams
  37. 37. Spouts
  38. 38. Bolts
  39. 39. Topology
  40. 40. Word Count
  41. 41. Tuple Tree
  42. 42. Resources  Book  Apache Storm website
  43. 43. Conclusion • Data, Data, and Data • Data Gathering • Analytics • Visualization • Action • Bottleneck is Creativity not Technology • Discover Use Cases

×