BigDataJava

Big Data & Java

‫אני משער שלא יפתיע אף אדם המעורב כיום בטכנולוגיה, בעולם התכנות ופיתוח התכנה והיה אם יתקל במושג‬
.‫, אם בטכנולוגיות איתם הוא מתמודד במסכרת העבודה, הפנאי או בשיח הטכנולוגי המקצועי‬Big Data
,‫מושג המרמז על מגמת שינוי תפיסתית, טכנולוגית בעלת השפעות עצומות על עולם של ממסדי הנתונים כיום‬
.‫עם נגיעה בכל שפות התכנות באשר הם‬

.Big Data ‫כמפתח תכנה בשפת ג׳אווה אעסוק במאמר קצר זה על הקשר שבין ג׳אווה ל‬ 1
‫ג׳אווה כפלטפורמה מתפתחת ללא הרף ומתאימה את עצמה לקצב המהיר של החידושים הטכנולוגיים בתחום‬
.‫התוכנה והטכנולוגיה‬
‫, מושג שנתפס כיום על ידי קהל מפתחי התכנה‬Big Data ‫אחד התחומים היותר מדוברים כיום הוא עולם ה‬
‫ ויש‬Big Data ‫כמושג אבסטרקטי ורבים מהחברות ניתן להעז ולאמר שכולם רוצים להיות כיום חלק מעולם ה‬
.‫סביבו הייפ אדיר‬
, Big Data ‫ישנם לא מעט כלים בחוץ שתרמו לפלטפורמת ג׳אווה להיות כיום הכח המניע מאחורי מהפכת ה‬
.‫ ואחרים‬Apache Hadoop, Apache Hive, Apache Pig, Apache HBase : ‫בינהם ניתם למצוא‬

‫כמפתחי ג׳אווה עלינו לשאול את עצמנו האם אנחנו מוכנים להיות גורם אינטגרלי במהפכה ובאפליקציות ג׳אווה‬
?‫החדשות‬

.Big Data ‫ראשית אנסה לפשט את מושג ה‬
‫ הוא מושג רחב מאד ומורכב שנולד כאשר שיטות עיבוד וניתוח נתונים המקבולות‬Big Data ‫מושג ה‬
,‫( נמצאו לא מתאימות. האתגרים שכללו קלט, עיבוד, ניתוח, קטלוג וסידור‬Big Data ‫)שהתקיימו פרה הולדת‬
‫חיפוש, סיתוף, שמירה, והעברה של נתונים ניהיו מורכבים מידי לטכנולוגיות ושיטות העיבוד המקובלות עד לפני‬
.‫זמן מה, מה שהקשה באופן ישיר את היכולת למצות מתוך סך המידע נתונים אחרים רלוונטיים‬
‫בתקופה הטכנולוגית בה אנו נמצאים שבו מידע זה כח היכולת של חברה מסויימת להבין איזה מידע יש‬
‫ברשותה, קטלוג נכון שלה, הבנת משמעותה וחשיבות המידע אותה אספה, ולבסוף מיצוי המידע הרלוונטי‬
.‫הכרחי להמשך רלוונטיות אותה חברה בעולם התחרותי בו היא נמצאת‬
‫ אינו חייב להצביע בהכרח על נפחי מידע גדולים. מידע מיוצר בזמן אמת בקיבולת מאד‬Big Data ‫מושג ה‬
‫גדולה ובמגוון גדול מאד‬
‫ אומר שבכל יום אנו מייצרים 5.2 קווינטיליון בייטים של נתונים. מספר אסטרונומי‬IBM ‫נתון מעניין מחברת‬
‫ודמיוני לכל הדעות, וזה מתגמד בפני הנתון הבא ש 09 אחוזים מהמידע שקיים בעולם נוצר רק בשנתיים‬
.‫האחרונות‬
1
Oracle Java Magazine March 2015
Written by Simon Mor | LinkedIn

Big Data & Java
‫אותו מידע בכמויות הכמעט לא נתפסות שלו שרק ילך ויגדל מגיע ממגוון של מקורות בינהם: חיישנים, קלט‬
‫שאנו בני האדם מייצרים כמו תגובות באתרי מדיה השונים, תמונות דיגיטליות, סרטונים, רישומים שונים של‬
.‫, ועוד רבים אחרים‬GPS ‫פעילויות שונות, טלפונים סלולארים, נתוני‬
‫ הוא לא רק אתגר, אלא למעשה גם הזדמנות לענקיות המידע לחשוף תובנות חדשות מתוך סוגים‬Big Data ‫ה‬
‫חדשים של נתונים, להפוך עסקים לגמישים יותר, תחרותיים יותר ולפתור שאלות שעדיין נותרו ללא מענה מחד‬
‫ומאידך להטמיע תובנות אלה בעולם התאגידי, עסקי, למידת דפוסי התנהגות, הרגלי צריכה של משתמשי‬
‫הקצה והצרכנים, וכן הצגת מידע ומוצרים רלוונטים ספציפית לכל צרכן ומשתמש או קבוצת צרכנים או‬
.‫משתמשים‬

‫כדי להמחיש את מה שנאמר עד כה אציג שתי דוגמאות. האחת היא פייסבוק, נשאל את עצמנו כמה משתמשי‬
?‫פייסבוק מתעדכנים במידע שיש באתר בכל רגע נתון? כמה מהם משתפים או יוצרים מידע חדש בכל רגע נתון‬
‫או לחלופין השניה וגדולה יותר הרי היא ענקית הטכנולוגיה גוגל, כמות מידע שגוגל צריכה לעבד מקלט שנקלט‬
.‫דרך הדפדפן שלה , מנוע החיפוש שלה, ושאר המוצרים והפלטפורמות שלה הוא ענקי לכל שיעור‬

‫מריבוי המשתמשים, הסנסורים, טכנולוגיה , וצרכני קצה  שנובע בהכרח ממתן חשיפה הולכת וגדלה של‬
‫אוכלוסיות בעולם לטכנולוגיה על כל גווניה, ריבוי המידע, הצורך בלקטלג, לעבד, למצות, ולהציג תובנות‬
‫ שלדעתי‬Big Data  ‫אמיתיות, רלוונטיות, מדוייקות לאוכלסיה של צרכנים , חברות ולאינדבדואל נולד הקונספט‬
Machine ‫מצביע על עידן חדש שימשיך את עידן איסוף המידע לעידן של עיבוד המידע שאנו מכירים כיום כ‬
.learning

.Java ‫ מהו נחזור לקשר בינו לבין‬Big Data ‫לאחר שקצת הבנו‬
‫ המערכות הקיימות שנעזרנו בהם להתמודד עם כמויות נתונים גדוותל היו אפליקציות‬Big Data ‫פרה‬
‫ טכנולוגיית‬Big Data ‫ שרצו על מערכת מחשוב אחת. בעולם ה‬Relational DataBase Application System
‫ מתמודדת עם בעיות כמו נפח מידע, מהירות קלט מידע וגיוונה על ידי גידול מקבילי עם‬Apache Hadoop
‫שאר הטכנולוגיות, שימוש בתוכנות ״סלחניות״ לטעויות בשמירת מידע שנוטות להיות זולות יותר וקלות יותר‬
‫לגידול פרופרציונאלי למידע הנקלט וזאת ביחס לגישות הטכנולוגיות שהיו מקובלות עד כה שהסתמכו על גידול‬
‫ מתמודדת עם מגוון הבעיות על ידי שימוש בסוגי אחסנת‬Apache Hadoop .‫לינארי ביחס לחומרה אמינה‬
‫קבצים שתומכים במידע השמור בטבלה ובמידע שלא מחייב שמירה בטבלה. שמירת נתונים שלא בצורה‬
.NoSQL Not only Structured Data Query ‫המקובלת בטבלה נכללת תחת הכותרת‬
.‫ כמנועי אחסון ואחזור מתוחכמים‬NoSQL ‫ניתן איפה להתייחס ל‬
‫ או מערכות דומות שמעגל העבודה שלהם הוא‬WEB ‫ מתאים לעיתים קרובות למערכות‬NoSQL‫מנוע ה‬
‫  בצורה מושלמת. מערכות אלו יכולות לנצל את יכולת השליפה והשמירה‬insertreadupdatedelete
. ‫. דוגמה לכך ניתן לראות ברשימת מועדפים או רשימת חברים‬NoSQL‫הפשוטה והמהירה של מנועי ה‬

Big Data & Java
‫ ואם התוצאה המתקבלת היא‬NoSQL ‫מערכות כאלה יכולות בקלות להישמר ולהישלף בצורה מהירה על מנוע‬
. ‫לא מדוייקת בנקודת זמן מסוימת, אז זה לא עניין של חיים ומוות‬ 2
‫, בכדי לשמור נתונים בצורה קרובה לשרתי‬web cache‫ הוא כ‬NoSQL‫שימוש אחר שרבים מבצעים במנוע ה‬
‫ של משתמשים, לאסוף נתוני זמן אמת ממקורות מהירים שמייצרים‬session ‫ – לדוגמה שמור נתוני‬web‫ה‬
.‫המון מידע בזמן קצר – למשל סנסורים מהירים או מערכות סטטיסטיות‬

‫ כאשר הבחירה בינהם תלויה בבעיה אותה‬NoSQL ‫כיום בשוק ניתן למצוא כמה חברות נותני שירתי טכנולוגית‬
‫יש לפתור, תוך התחשבות בסוגייה איזה סוג נתונים יש לקטלג ולאחסן. דוגמאות טובות לחברות טכנולוגיה אלה‬
:‫הם‬
.Apache Cassandra, Apache HBase, Apache Accumulo ‫שמירה בעמודות‬
.MongoDB, CouchDB, RavenDB ‫שמירה כמסמך‬
.Redis, Riak, Amazon DynamoDB, Aerospike, FoundationDB ‫שמירה לפי ״מפתחערך״‬
.Neo4j, Titan, OrientDB, Apache Giraph, InfiniteGraph ‫שמירה כגרף‬
‫ ומעוניין להתחיל לעבוד איתה ימצא אולי שהיא מורכבת במקצת‬Hadoop ‫מי שלראשונה שומע על טכנולוגיית‬
‫למתחילים ויכולה להוריד מההלהבות ההתחלתית אך ישנם בחוץ לא מעט מדריכים אשר עוזרים למתחילים‬
‫. באינטרנט תוכלו למצוא מדריכים, מקום טוב‬Hadoop:the Definitive Guide ‫כמונו, בינהם המדריך הטוב‬
‫ מומלץ‬Hadoop ‫. לכניסה קלה לטכנולגיית‬yahoo! Hadoop tutorial, "Handson Hadoop" lab ‫להתחיל בו‬
‫ משתמשים בשפה‬Hive and Impala ‫ מפני ש‬Apache Hive, Apache Pig, Cloudera Impala ‫לעיין גם ב‬
.SQL ‫שקרובה מאד ל‬
?NoSQL ‫ ו‬Hadoop ‫בשלב זה וודאי שאלתם את עצמכם כמה מידע אני צריך כדי להשתמש בטכנולוגיות‬
‫ צריכה לסנכרן בין כל‬Hadoop ‫ צריכה לבצע, וזאת מפני ש‬Hadoop ‫ובכן התשובה תלויה בסוג העבודה ש‬
‫ נתונים כך עבודתה‬Hadoop ‫ה״צמתים״ מהם היא מקבלת את המידע, ככל שיש יותר מקורות שמזרימים ל‬
.‫וביצועיה של טכנולוגיה זו נעשית יעילה וטובה יותר‬
‫ פעמים רבות ההחלטה לבחור מפיץ כזה או אחר נעשית מהשיקול של‬NoSQL DB ‫בעזרתה של טכנולוגיית‬
‫דינאמיות ממסד הנתונים הרצוי יותר אפילו מכמות המידע אותו מקבלי ההחלטה צופים לאגור, לדוגמא אפילו‬
MongoDB ‫אם אין לי כמות גדולה של נתונים הנשמרים בצורה של מסמכים כדאי יהיה איפה להשתמש ב‬
‫ מואם יותר לנתונים‬MongoDB ‫( וזאת מפני שמודל ממסד הנתונים‬SQL) ‫מאשר שימוש בממסד נתונים טבלאי‬
.‫הנשמרים בצורת מסמך מאשר בצורת טבלה‬
‫כיום גם אם חברה או אינדבודאל משתמשים בטכנולוגיות ממסדי נתונים טבלאית ניתן לעבור ולהשתמש ב‬
‫ בכדי‬Apache sqoop, DBInputFormat, Apache Flume ‫ זאת על ידי שימוש בכלי עזר כמו‬Hadoop
.Hadoop ‫( לשימוש עם‬SQL) ‫להביא את ממסדי הנתונים הטבלאי‬
2
http://www.ildba.co.il/introtonosql/

Big Data & Java
‫ זאת על ידי האופציות‬Hadoop ‫חברות או פרטיים שלא מתכנתים בשפת ג׳אווה יוכלו עדיין להנות מטכנולוגיית‬
.Apache Spark, Impala, Hadoop Streaming, Pig Latin ,‫הבאות שאותם אציג שמות הטכנולגיות בלבד‬
?‫ יודעת להתמודד‬Hadoop ‫בוודאי בשלב זה שאלתם את עצמכם מהו הקיבולת הגדולה ביותר של מידע איתה‬
HDFS Hadoop ‫ שומרת מידע בתוך קבצים המבוזרים באופן פרופרציונאלי הנקראים‬Hadoop ‫טכנולוגיית‬
Amazon's Simple ‫ וכן גם טכנולוגיות אחסון על בסיס טכנלוגיות עננים לדגומא‬Distributed File System
‫ בסוגייה עם כמה מידע טכנולוגיה זו יודעת ויכולה‬Hadoop ‫. ההגבלה שחלה על‬Storage Service S3
‫להתמודד תלויה באופן ישיר בשאלת ההגלבה של שמירת המידע בתוך אותם קבצים שפירטתי קודם לכן ואלה‬
‫ יכולים לעבור גידול פרופרציונאלי לכמות‬HDFS ‫, וזאת מפני שקבצי‬Hadoop ‫מהווים את צוואר הבקבוק ל‬
.‫המידע שיש לאסחן בהם וזאת נעשה על ידי הקצאת מקום אסחון נוסף לקבצים אלה‬

‫ מבחינת התשתית הבסיסית שלה מזו של ממסדי הנתונים‬Hadoop ‫אעסוק כעת במקצת בהבדלים שבהן שונה‬
‫, אפשר יהיה לגלות כבר עכשיו שיש יותר הבדלים מאשר אלמנטים דומים, אביא לדוגמא שני‬SQL ‫הרגילים‬
.‫הבדלים עיקריים במבנה הבסיסי עליהם יושבות שתי הטכנולוגיות‬
‫ מניחה שהיא מכילה מספר גדול של‬Hadoop .‫ נבנתה על מודל ביזור נורש‬Hadoop ‫האחת , טכנולוגיית‬
‫אשכולות המורכבוים מצמתי קלט מידע לא זולים יחסית ולא לגמרי אמינים, כך שסך כל המערכת בנויה על‬
‫עודף מידע וחוסר רגישות גבוהה לשגיאות. ממסדי הנותים מקושרים לוגית המקבולים בנויים ונסמכים על מספר‬
.‫קטן אך חזק ואמין של צמתי קלט של מקורות מידע‬
‫ הנתונים מופרד מהמטהמידע )המידע המתאר את הנתונים המועברים(. גישה זו נקראת‬Hadoop ‫השניה, ב‬
‫ ומקבצים אלה ליצור טבלאות מתאימות כרצונינו על‬HDFS ‫סכימה לקריאה, לדוגמא ניתן להעלות נתונים לקבצי‬
‫ עצמו והנתונים כמקור נותרים ללא כל‬Hive ‫, סכימת הנתונים קיימת רק בתוך ה‬Apache Hive ‫ידי שימוש ב‬
‫השפעה, כך שתמיד ניתן יהיה לשנות את הדעה או הגישה לגבי סכימת הנתונים, ניתן למחוק כליל טבלאות‬
‫נתונים, ליצור חדשות, ליצור טבלאות נוספות מאותם נתונים. מערכות מקושרות לוגית או סכימה לכתיבה‬
.‫משמעותה שהנתונים מקושרים בניהם כאשר אלה מובאים לתוך המערכת‬

.‫ כשירות‬Hadoop ‫טכנולוגיית‬
‫ על גבי תשתית‬Amazon EMR ‫ כשירות לדוגמא‬Hadoop ‫כיום ניתן למצוא חברות שמספקות את טכנולוגיית‬
.Amazon EC2
‫ אקוסיסטם כגון‬Hadoop ‫ כשירות וכלים רבים נוספים המקיפים את‬Hadoop ‫ יכולה לפרוס‬Qubole ‫חברת‬
.Google's Compute Engine ‫ או ב‬Amazon EC2 ‫ על ידי שימוש ב‬Pig, Apache Oozie, Sqoop
.(ETL) ‫ מחזיקים בממשק אינטואטיבי למעצבי תהליך מיצוי, טרנספורמציה, וטעינה של נותנים‬Xplenty ‫חברת‬
‫ המשתמש בטכנולוגיית הענן‬HDInsight ‫ כשירות תחת הכותר‬Hadoop ‫חברת מייקרוסופט מספקת שירותי‬
.Azure ‫של מייקרוסופט‬


Big Data & Java
‫ הם כבר לא בשיח הטכנולוגי מכיוון שחלק זה הוא כבר חלק‬Big Data ‫יצירה של כלים לניהול ושליטה על‬
‫אינטגרלי בארכטקטורת הנתונים המקבול כיום ככלי מפתח. תפקידים רבים נכללים תחת כלי זה בינהם הבטחת‬
‫ביטחון למידע, שליטה על מתן הרשאות גישה למידע, ניהול של המטהמידע, ושמירה על המשכיות לינארית‬
‫של הנתונים, על אלה מתנקזים בסוף לרמת האנשים ופוליטיקה של חברה מסויימת, אך לרב מערכת בקרה‬
‫ושליטה טובה באים לידי ביטוי בתרבות עירנית של ניהול מידע נכון. בתחום הכלים המוצעים תחת כותר ממשל‬
, ‫ושליטה על נתונים על המפיצים השונים לפתח גישות שונות לניהול מידע בינהם ניתן למצוא‬
Cloudera Manager, Cloudera Navigator, Apache Ranger, Apache Knox Gateway, Apache
.Falcon

?‫ היא מוכנה ליישום על ידי החברות הגדולות והתאגידים‬Hadoop ‫ האם‬
‫לחלוטין כן, וכבר חברות רבות משתמשות בטכנולוגיות הללו, וישנה כבר אקוסיסטם משגשגת סביב‬
.Databricks ‫הטכנולוגיות. וישנם כמה חברות חדשות בתחום כמו חברת‬

.Machine Learning ‫אסיים בכמה מילים על האלגוריתמים של‬
‫ הוא האלגוריתמים המניעים אותו אשר לומדים ממגון הנתונים העצום, אלה יוצרים‬ML ‫הרעיון הגדול והמרכזי ב‬
,‫מודלים שתפקידם חיזוי של קבלת החלטות על בסיס ניתוח מדוייק ונכון עד כמה שניתן של אותם אותם נתונים‬
‫כך למשל בעזרת אותה יכולת חיזוי של אלגוריתמים אלה ניתן יהיה לבנות מוצר או תיק מידע לגבי לקוח או‬
‫משתמש מסויים או אפילו חברה מסויימת באם היא קבוצת אנשים או חברת עסקית קטנה או תאגיד וזאת על‬
‫ידי זיהוי דפוסי התנהגות מסך אותם מצבור עצום של נתונים. ספריה שנמצאת בשימוש רחב היום היא‬
‫ בעלי יכולת סקלביליות גדולה. מאידך אימפלמנטציה חדשה יותר ומהירה יותר המתבססת‬Apache Mahout
‫ היא צוואר הבקבוק של איסוף‬Big Data ‫. גורם מפתח בכל אפליקצית‬MLlib ‫ היא הספיריה‬Apache Spark ‫על‬
‫המידע מאפליקציות אונליין והרצת האלגוריתמים על גבי אותם נתונים שנאספו אשר התובנות שנרכשו מיושמות‬
.‫על ידי אפליקציות אונליין אחרות‬

BigDataJava

Recommended

Recommended

More Related Content

Similar to BigDataJava

Similar to BigDataJava (20)

BigDataJava