1. ک و کسب و دادهعظیم گریتحلیل گروهار
Big data is mostly about taking numbers and using
those numbers to make predictions about the
future. The bigger the data set you have, the more
accurate the predictions about the future will be.
Anthony Goldbloom
Founder and CEO of Kaggle
75. ک و کسب و دادهعظیم گریتحلیل گروهار
The world is looking for big data scientists, and there just aren't enough
to go around.
(Gurjeet Singh)
Chairman of the Board of Directors, Ayasdi
I keep saying that the hot job in the next 10 years will be statisticians,
and I’m not kidding.
(Hal Varian)
Chief Economist at Google
عظی هایتحلیل با مرتبط انسانی هایمهارتدادهم
84. ک و کسب و دادهعظیم گریتحلیل گروهار
Coursera – Data-Driven Decision Making
EdX – Data Science Essentials
Udacity – Intro to Machine Learning
IBM – Data Science Fundamentals
California Institute of Technology – Learning from Data
Dataquest – Become a Data Scientist
KDNuggets – Data Mining Course
عظی هایتحلیل با مرتبط انسانی هایمهارتدادهم
معرفیبرخیمنابعآنالینآموزشمهارتهایتحلیلگریعظیمداده
عظیم داده در اصل به عنوان یک اصطلاح برای توصیف مجموعه داده هایی عظیم بکار می رفت که نمی توان آنها را با استفاده از پایگاههای داده سنتی ثبت، ذخیره، مدیریت و تجزیه و تحلیل کرد
عظیم داده مرز توانایی یک شرکت درذخیره سازی، پردازش و دسترسی (SPA) به تمام داده
اطلاعاتی با حجم، سرعت و تنوع بسیار زیاد
عظیم داده، داده هایی بیش از ظرفیت پردازش سیستم های پایگاه داده معمولی
متصدیان این رقابتها با استفاده از عظیم داده و تحلیل احساسات و تحلیلهای پیشبینانه روندهای موجود را شناسایی کرده و به مخاظبین منتقل می کنند
اکثر سازمانها وقت و انرژی کافی برای درک خواسته مشتریان خود صرف نمی کنند. یعنی درک اهداف و نتایجی که مشتریان در حال کسب آنها هستند.
چالش اصلی این است که چگونه سازمان شما از بینش مشتری استفاده می کند تا تمام نقاط تعامل مشتری که شامل چرخه زندگی مشتری می شود را بهبود بخشد
تحلیگران و محققان توسعه فناوری، از زمان وقوع اولین انقلاب صنعتی در میانههای قرن هجدهم تا امروز، توسعه خطوط راه آهن و بکارگیری ماشین بخار، گسترش و توسعه صنعت فولاد، استخراج نفت و توسعه صنایع وابسته و صنعت میکروالکترونیک و ارتباطات و فناوری اطلاعات را امواج بلند فناورانه میدانند که هریک در طول مدت 50 الی 60 سال تاثیرات کلیدی بر تمامی تحولات صنعتی، اقتصادی و اجتماعی بشر داشتهاند. صنعت ارتباطات و فناوری اطلاعات از اواخر دهه 70 میلادی رشد سریع خود را آغاز کرده و پیشبینی میشود تا سال 2025 به این رشد ادامه دهد و از آن پس با اشباع نسبی در رشد، جای خود را به فناوریهای زیستی و همگرا به عنوان موج بلند فناورانه بعدی بدهند.
اما صنعت ارتباطات، خود را به عنوان پارادایم غالب توسعه فناوری و خدمات در دهههای اخیر، چند نقطه عطف را در مسیر حرکت و تکامل خود شاهد بوده است: ابداع و توسعه تلفن همراه، اینترنت، شبکههای اجتماعی و خدمات مبتنی بر گوشیهای هوشمند. اکنون اینترنت اشیا به عنوان پنجمین موج در این صنعت مطرح است؛ موجی که برخی از کارشناسان و محققین فناوری آن را با اتصال همه چیز به شبکهها (اینترنت)، آخرین نقطه تکامل در پارادایم صنعت ارتباطات میدانند که تا سال 2025 به اوج خود خواهد رسید و حلقه آخر از تکامل صنعت ارتباطات را به تمام شئون زندگی بشر متصل خواهد نمود Internet of Things (IoT)
یده اتصال زنجیرهای دستگاهها و اشیا در سطح جهانی با ظهور فناوری RFID مطرح شد. اینترنت اشیا به معنی برقراری ارتباط داخلی میان اعضای شبکههای کوچک مختلف است، اما به دلیل عدم سازگاری، این شبکهها امکان ارتباط با یکدیگر را ندارند. لذا ایجاد یک استاندارد و پروتکل واحد برای برقراری سازگاری این ارتباطات، موجب شکلگیری یک شبکه واحد جهانی به نام اینترنت اشیا خواهد شد. به مجموعه استانداردها، پروتکلها، دستگاهها و فناوریهای لازم برای برقراری ارتباط و انتقال اطلاعات بین دستگاههای هوشمند (با یکدیگر و با انسان) در سطح جهانی اینترنت اشیا گفته میشود. اینترنت یک شبکه گسترده جهانی است که کامپیوترها را بر پایه استانداردهای ارتباطی همچون TCP-IP به یکدیگر متصل کرده است، و شی (هوشمند) در این فناوری به صورت یک نهاد مجازی، دیجیتالی یا فیزیکی (هوشمند) تعریف میشود که به طور منحصر به فرد قابل شناسایی است.
اینترنت اشیا مفهومی است که در آن اشیا هوشمند با حسگرها، محرکها، میکروپروسسورهای کوچک، واسطهای ارتباطی و منابع انرژی مجهز شدهاند و قابلیت انجام پردازشهای متعدد و برقراری ارتباط با یکدیگر را دارند. بنابراین فناوری IoT روشهای ارتباطی مختلف (مانندRFID,Zigbee,Wi-Fi,3G/4G/5G)، دستگاههای فشرده و حسگرها را با یکدیگر را ترکیب میکند.
هدف اصلی طراحی این شبکه، به اشتراک گذاردن اطلاعات موجود در هر شی میان سایر اشیا مرتبط با آن، در هر زمان و در هر مکان مورد نیاز است. برای اطمینان از اینکه دادهها در هر زمان و مکان در دسترس باشند، به پردازش مقدار بسیار زیادی داده جمع آوری شده در کاربردهایی مثل نظارت محیط، پیش بینی هوا، حمل و نقل، تجارت، سلامت و بهداشت، کاربردهای نظامی، و موارد دیگر نیاز است. بنابراین استفاده از یک هسته پردازشی قدرتمند مثل ابر در کنار IoT به وضوح مشخص است و ترکیب شبکههای حسگر بی سیم با رایانش ابری، اشتراکگذاری و تحلیل آنی اطلاعات حسگرها را ممکن میسازد. همچنین مساله ذخیرهسازی نیز ممکن است توسط روشهای کم هزینه رایانش ابری پاسخ داده شود که برای ایجاد امنیت و دسترسی آسان به اطلاعات، به صورت گسترده در محیط های توزیع شده و موبایل استفاده میشود.
Radio-Frequency IDentification
گزارش ها نشان می دهد که انتظار می رود تعداد دستگاه های متصل به اینترنت در سال 2016از 22.9 میلیارد دلار به 50 میلیارد تا سال 2020 افزایش یابد (شکل 5). IoT تنها برمانیتورینگ رویدادهای گسسته تمرکز نمی کنند، بلکه بر استخراج اطلاعات جمع آوری شده توسط اشیاء نیز تمرکز می کنند. اکثر ابزار جمع آوری داده ها در محیط IoT دستگاه هایی هستند که دارای سنسور هستند و نیاز به پروتکل های سفارشی ، مانند پیام تله متری MQTT) )و سرویس توزیع داده (DDS) دارند. با توجه به این که این سنسورها تقریبا در تمام صنایع استفاده می شود، انتظار می رود IoT مقدار زیادی اطلاعات را تولید کند.
وقتی همه چیز به همه چیز متصل میشود، ماده بی جان هم صاحب ذهن می شود. ما داریم به سمت دنیایی میریم که همه چیز صاحب جان است و به نوعی شخصیت و اکاهی دارند و زنده اند.انتهای قضیه این است که تکنولوزی تضمین می کند که تفاوت بین انسان و جهان محو خواهد شد. پیشرفت های تکنولوژیکی و همگرایی سریع ارتباطات بی سیم، الکترونیک دیجیتال و سیستم های میکرو الکترومکانیکی (MEMS) منجر به ظهور اینترنت اشیاء شده است. طبق گزارش سیسکو، تعداد اشیاء متصل به اینترنت بیشتر از تعداد انسانها در جهان است.
گسترش فناوری اطلاعات داده های بزرگ یا BIG DATA
Big Data به معنای دراختیار داشتن اطلاعات بسیار زیاد برای انجام کارهای مختلف می باشد. ده سال پیش، تولیدکنندگان به این نتیجه رسیدند که میتوانند و باید دادههای تولیدی را نگهداری و ذخیره کنند، سپس، شروع به اضافه کردن سریع فضای ذخیرهسازی با نرخ هشدار دهنده ای برای این داده های حجیم نمودند.
الزامات بیگ دیتا و انالیتیک در IoT در طول سال ها افزایش یافته است و بهبود چشمگیری را در فرایندهای تصمیم گیری وعده داده است. در نتیجه، تغییر نحوه جمع آوری داده ها، ذخیره سازی و تجزیه و تحلیل آنها تغییر می کند. بیگ دیتا و انالیتیک دارای پتانسیل بالایی برای استخراج اطلاعات معنی دار از داده های تولید شده توسط سنسورهاست. الزامات کلی برای بیگ دیتا و IoT ویژگی های عملکردی و غیر عملکردی را برای تحلیل داده ها تعریف می کنند. الزامات کلیدی برای داده ها و تجزیه و تحلیل بیگ دیتا در محیط IoT در ادامه ارائه می شود که در بهبود خدمات IoT از طریق تجزیه و تحلیل نقش مهمی ایفا می کند.7.1 اتصالپارادایم IoT به تدریج منجر به اتصال هوشمند سنسور در یک محیط هوشمند می شود. یکی از الزامات کلیدی IoT، فراهم آوردن یک اتصال قابل اعتماد برای تجزیه و تحلیل بیگ دیتا جهت تسهیل ترکیب و ادغام حجم زیادی از داده های تولید شده از سنسور است. بنابراین، اشیاء متعدد در اطراف ما پتانسیل زیادی برای اتصال به زیرساخت های محاسباتی با کارایی بالا برای ارتقاء خدمات IoT دارند. علاوه بر این، با حضور فزاینده Wi-Fi و 4G-LTE دسترسی بی سیم به اینترنت، تکامل به سوی اطلاعات و شبکه های ارتباطی در حال حاضر مشهود است . با این حال، قبل از تعبیه هوش در محیط ما، یک ارتباط بدون درز بین اشیاء مختلف در شهرهای هوشمند مانند IoT، محاسبات ابری، بیگ دیتا و انالیتیک باید ایجاد شود.
7.2 ذخیره سازی رشد سریع و مداوم تعداد زیادی از اشیاء فعال شده IoT موجب ذخیره سازی مقدار گسترده ای از اطلاعات ناهمگن در یک زمان واقعی می شود. الزامات کلیدی ذخیره سازی بیگ دیتا در IoT عبارتند از جمع آوری داده های بدون ساختار بسیار زیاد و ارائه تاخیر کم برای تجزیه و تحلیل. علاوه بر این، استفاده از تکنولوژی های داده های بزرگ برای IoT می تواند ذخیره سازی و پردازش اطلاعات کارآمد را برای تولید اطلاعاتی که می تواند سرویس های مختلف شهر هوشمند را ارتقا دهد، فراهم می کند. طیف منابع داده IoT شامل داده های سنسور، تلفن های هوشمند و رسانه های اجتماعی است که از طریق روش های مختلف مدل سازی می شوند و از پروتکل ها و رابط های مختلف ارتباطی استفاده می کنند. اکثر خدمات IoT مبتنی بر پروتکل های ارتباطی M2M هستند که نیاز به مدیریت تعداد زیادی از جریان ها دارند و مستقیما از ظرفیت ذخیره سازی گسترده توزیع زیرساخت های محاسبات ابر استفاده می کنند [46].
3/7 کیفیت خدمات مدیریت منابع سنسورهای IoT و دستگاه های تلفن همراه، الزام اولیه برای کیفیت خدمات (QoS) است تا بتواند مقدار زیادی اطلاعات را تجزیه و تحلیل کند. اگر چه بسیاری از مطالعات به دنبال تطابق با الزام QoS بوده اند، چگونه معماری QoS را به IoT متحد ساخت و ادغام کرد تا از داده های بزرگ و تجزیه و تحلیل پشتیبانی کند. [47]. QoS ارائه شده توسط یک شبکه IoT باید قابل اعتماد باشد و باید انتقال داده های تلفن همراه و کارآمد از آن منابع را که داده های بزرگ تولید می شود، تضمین کند. پشتیبانی QoS در این شبکه برای داده ها و تحلیل های بزرگ بسیار مهم است. با این حال، برای ایجاد یک شبکه قابل اعتماد، بسیاری از فن آوری های شبکه های در حال ظهور باید به IoT معرفی شوند تا انتقال رویداد در زمان واقعی را بهبود بخشد و قابلیت های بزرگ پردازش داده را بهبود بخشد.
7.4 تجزیه و تحلیل بهنگام یکی از مهمترین ویژگی های IOT این است که اطلاعات مربوط به "چیزهای متصل" را بهنگام (real time)یا نزدیک به زمان واقعی ارائه میدهد.
7.5. بنچمارک داده های بزرگ و تحلیلی توجه زیادی را از دانشگاهیان و سازمان های مختلف را به خود جلب کرده است و بسیاری از سازمان ها نیز به دنبال کسب و کارهای IOT هستند. با این حال، این سازمان ها در ذخیره و تجزیه و تحلیل مقادیر وسیعی از داده ها که از طریق سنسورها در محیط IoT جمع آوری می شوند، با چالش هایی مواجه هستند. حل این مشکلات نیاز به یک درک عمیق دارد که می تواند با استفاده از بیگ دیتا و پلت فرم تجزیه و تحلیل به دست آید. بنچمارک در این زمینه نقش مهمی را ایفا می کند و سازمان ها را قادر می سازد راه حل هایی را برای قضاوت در مورد کیفیت بیگ دیتا و راه حل های آنالیتیک ارزیابی کنند. همچنین بنچمارک می تواند مقایسه ساده و مستقیمی از راه حل های مختلف را ارائه دهد.
8. طبقه بندی راه حلهای بیگ دیتا و انالیتیک برای سیستم های IoT.شکل 9، طبقه بندی موضوعی از راه حل های بیگ دیتا و انالیتیک است که برای سیستم های IoT طراحی شده است. این راه حل ها بر اساس ویژگی های زیر دسته بندی می شوند: الف) منابع بیگ دیتا؛ ب) اجزای سیستم؛ ج) تکنولوژی های امکان پذیر بیگ دیتا؛ د) ویژگی های عملکردی؛ ه) نوع تجزیه و تحلیل.8.1 منابع بیگ دیتابیگ دیتا توسط یک زیرساختی ایجاد شده است که برای اجرای کاربردهای مختلف IoT از جمله مدیریت شهر، ساخت و ساز، سیستم های حمل و نقل هوشمند (ITS)، ساختمان هوشمند و سنسورهای مانیتورینگ مورد استفاده قرا میگیرد.مدیریت شهر با استفاده از دوربین های متحرک، سنسورها و ابزارها برای ایجاد امنیت و راحتی شهروندان شهری است. با این حال، این دستگاه ها حجم زیادی از داده ها را تولید می کنند که باید در زمان واقعی مدیریت و تحلیل شوند تا بینش های مربوطه را بدست آورند. به طور مشابه، صنعت تولیدی دستگاه های IoT را مستقر کرده است که به طور مداوم مقدار زیادی اطلاعات را برای به حداکثر رساندن بهره وری و کارایی عملیات خود تولید می کند.برای به دست آوردن بینش از این داده ها، راه حل های بیگ دیتا و انالیتیک در طراحی و آزمایش محصولات جدید، بهینه سازی خدمات و بازاریابی، به حداقل رساندن نقص ها و بهبود عملکرد استفاده شده است. بیگ دیتا در محیط IoT معمولا برای جمع آوری و ذخیره داده ی سنسورهای مانیتورینگ،انالیز داده ها ، پیش بینی ها و دادن هشدار در صورت تشخیص انحرافات غیر طبیعی استفاده می شود. 8.2 اجزای سیستمراه حل های بیگ دیتا و انالیتیک معمولا شامل پنج جزء : یعنی کسب ، ذخیره ، انتقال ، پردازش و نفوذ داده ها است.کسب داده شامل جمع آوری و فیلتر کردن داده ها قبل از انتقال آنها به انبار داده است. این جزء معمولا توسط چهار ویژگی، یعنی حجم، تنوع، سرعت و ارزش مدیریت می شود. ذخیره بیگ دیتا با سیاست های موجود در ارتباط است. سیاست های نگهداری داده های مختلف شامل حفظ حریم خصوصی و نگرانی های قانونی برای شناسایی قوانین بایگانی، زمان نگهداری، فرمت های داده ها و روش های رمزنگاری است. داده های بزرگ باید به سراسر دیتاسایتهای مختلف منتقل شود تا توازن بار، تداوم کسب و کار و ...را تضمین کند.بیگ دیتا یک اصطلاح است که برای مجموعه داده های بزرگ و پیچیده استفاده می شود که نمی توان با نرم افزار سنتی انها را پردازش کرد. چالش های اصلی مربوط به پردازش داده های بزرگ مربوط به گرفتن، ذخیره سازی، تجزیه و تحلیل، جستجو، به روز رسانی، تجسم و حفظ حریم خصوصی است. اهرم یا قدرت نفوذ بیگ دیتا شامل تضمین این است که چگونه یک کسب و کار می تواند از داده های خود بهره مند شود تا درآمد خود را افزایش دهد.8.3 فناوری های توانمند ساز بیگ دیتافناوری های فعال بیگ دیتا در زمینه IoT، مربوط به ارتباطات بی سیم، تحلیل بهنگام، یادگیری ماشین و عناصر ثبت داده مانند سنسورها و سیستم های جاسازی شده است.فن آوری های ارتباطی بی سیم وسیع فراگیر که برای حمل داده های بزرگ در IoT مورد استفاده قرار می گیرند شامل IEEE 802.15.4، IEEE 802.11، IEEE 802.15.1 و IEEE 802.16 هستند.تجزیه و تحلیل بهنگام ، بیگ دیتای تولید شده توسط دستگاه های IoT را به عنوان ورودی سیستم در نظر میگیرد . بر خلاف ابزار تحلیلی سنتی، یادگیری ماشین می تواند بینش های پنهان را از داده های بزرگ مورد استفاده قرار دهد و ارزش ها را از منابع داده های بزرگ با حداقل تعامل با انسان استخراج کند. یادگیری ماشین ها به دلیل منابع مختلف داده ها و مقدار زیادی داده و انواع اطلاعات مرتبط در متن IoT مناسب است.بیگ دیتا در IoT با استفاده از چند سنسور و محرک جمع آوری می شود. این تکنولوژی سنسور نقش کلیدی در پروسهی جمع آوری و انتقال داده ها به منابع لبه ی را دارند. 8.4 عناصر کلیدیراه حل های بیگ دیتا و انالیتیک برای IoT شامل چهار عنصر کلیدی یعنی ورودی، قوانین ، دستگاه های محاسبات لبه و خروجی داده ها است.داده های خام از منابع مختلف جمع آوری شده و به سیستم های تحلیلی لبه منتقل می شوند. این سیستم ها بر اساس قوانینی است که قوانین مربوط به داده های ورودی را تعریف و اعمال می کند تا بینش را بدست آورد. دستگاه محاسبات لبه یکی دیگر از بازیکنان کلیدی در عملکرد سیستم تجزیه و تحلیل است. پردازش داده هایی که توسط دستگاه های IoT بر روی دستگاه های لبه تولید می شود می تواند مزایای متعددی از قبیل تاخیر زمانی کم، مصرف پهنای باند حداقل، یکپارچگی داده ها، امنیت و هزینه کم را به ارمغان بیاورد. این اطلاعات نیز در زمان واقعی به مصرف کننده ارائه می شود. 8.5 نوع تجزیه و تحلیلتجزیه و تحلیل را می توان به سه نوع تقسیم کرد، تجزیه و تحلیل توصیفی، تجزیه و تحلیل پیش بینی و تجزیه و تحلیل تجویزی. تجزیه و تحلیل توصیفی : «چه چیزی اتفاق افتاده است و و چه جیزی دارد اتفاق می افتد» که کمک می کند تا فرصت های کسب و کار جدید و چالش های جدید را پیدا کنید. تجزیه و تحلیل پیش بینی:"چه چیزی اتفاقی می افتد و چرا اتفاق می افتد"، با استفاده از فن آوری های مختلف، مانند تکست / وب / داده کاوی، پیش بینی شرایط و وضعیت های آینده انجام میشوود. تجزیه و تحلیل تجویزی : "چه باید بکنم و چرا باید آن را انجام دهم،" از شبیه سازی، تخصص و سیستم های پشتیبانی تصمیم گیری برای بررسی گزینه های مختلف و ارائه پیشنهادات به تصمیم گیرندگان استفاده می کند.
از داده های تولید شده از دستگاه های IoT می توان در پیدا کردن روند تحقیق بالقوه و بررسی تاثیر رویدادها یا تصمیمات خاص استفاده کرد. این داده ها با استفاده از ابزارهای تحلیلی مختلف پردازش می شوند. شکل 6 روند جمع آوری داده ها، نظارت و تحلیل داده ها را نشان می دهد. اگر چه IoT فرصتهای بی سابقه ای را جهت افزایش درآمد ، کاهش هزینه ها و بهبود راندمان ایجاد کرده است ، اما جمع آوری داده های بزرگ از اطلاعات به تنهایی کافی نیست. برای استفاده از مزایای IoT، شرکت ها باید پلتفرمی را ایجاد کنند که در آن بتوانند حجم وسیعی از داده ی سنسورها را در حالتی مقیاس پذیر و مقرون به صرفه جمع آوری، مدیریت و تجزیه و تحلیل کند . در این زمینه، دستیابی به یک پلت فرم بیگ دیتا که می تواند در مصرف و خواندن منابع متنوع و تسریع روند ادغام داده کمک کند، حیاتی است. ادغام داده و تجزیه و تحلیل ، سازمان ها را قادر می سازند تا روند کسب و کار خود را متحول کنند. به طور خاص، این شرکت ها می توانند از ابزار تجزیه و تحلیل داده ها برای تبدیل حجم زیادی از داده های جمع آوری شده از حسگرها به بینشی ارزشمند استفاده کنند.
اقبال یا شکست یک سازمان در حوزه IOT، درگرو مدیریت تحلیلهای بیگ دیتا استطرفداران IOT که در ارزیابی اهمیت بیگ دیتا ، گزینه “حیاتی” را انتخاب کردهاند تقریباً سه برابر و دستهای که گزینه” بسیار مهم” را انتخاب کردهاند تقریباً دو برابر میانگین پاسخدهندگاناند. نتایج حاصل از این تحقیق همچنین نشان میدهد که اینترنت اشیا، دلیل اصلی طرفداران IoT برای سرمایهگذاری و بهکارگیری تحلیلها و معماری بیگ دیتا است.
روزگاری جورج اورول نوشت آنکه گذشته را کنترل میکند، آینده را کنترل خواهد کرد. دنیای مدرن و فناوری ارتباطات نشان دادهاست که در دنیای کسب و کار "آنهایی که به دادهها و اطلاعات بیشتر و بهتری دسترسی دارند آینده را کنترل خواهند کرد"؛ داشتن اطلاعات در دنیای جدید حکم سقوط سیب در روزگار نیوتون را دارد! اطلاعات بهروز و مفید آنگاه که در زمان مناسب در اختیار اهل فن قرار گیرد، منجر به تولید محصولات و خدماتی میشود که زندگی بشر را هر روز بیش از پیش آسان و آسوده میکند؛ آسان و آسوده، با همهی پیچیدگیها و مصائب جهان امروز.
فیسبوک، آمازون و والمارت بالاترین حقوق رو می دهند. از حدود 167 هزارتا تا 140 هزارتا
Python (66%), Data Analysis and R (both 53%) are the three most in-demand skills for Data Scientists today. Additional skill sets required include machine learning (50%), SQL (50%) and Data Mining (49%).