‫הנתונים‬ ‫למדעי‬ ‫מבוא‬
‫א‬ ‫הנתונים‬ ‫למדעי‬ ‫מבוא‬'
‫שבוע‬1
‫הנתונים‬ ‫מדעי‬:‫מבוא‬
‫מעניינות‬ ‫דוגמאות‬
‫למידה‬ ‫מהי‬
‫נתונים‬ ‫מדע‬ ‫מהו‬?
‫נתונים‬ ‫מדען‬ ‫מיהו‬?
‫הנתונים‬ ‫מדעי‬:‫מבוא‬
‫נתונים‬ ‫של‬ ‫כוחם‬–‫מקום‬ ‫בכל‬ ‫נתונים‬
•‫בשנת‬2020‫תהיה‬ ‫בעולם‬ ‫נתונים‬ ‫כמות‬
‫בערך‬40 zettabytes
https://techjury.net/stats-about/big-data-statistics/
‫נתונים‬ ‫של‬ ‫כוחם‬–‫מקום‬ ‫בכל‬ ‫נתונים‬
•‫בשנת‬2020‫תהיה‬ ‫בעולם‬ ‫נתונים‬ ‫כמות‬
‫בערך‬40 zettabytes
•‫ב‬ ‫שיש‬ ‫מידע‬ ‫לכמות‬ ‫שווה‬ ‫זה‬:300 000 000 000
‫גבוהה‬ ‫באיכות‬ ‫וידאו‬ ‫סרטי‬HD
https://techjury.net/stats-about/big-data-statistics/
‫נתונים‬ ‫של‬ ‫כוחם‬–‫בכל‬ ‫נתונים‬
‫מקום‬
•90%‫אחרונות‬ ‫בשנתיים‬ ‫נוצרו‬ ‫מהנתונים‬
‫נתונים‬ ‫של‬ ‫כוחם‬–‫בכל‬ ‫נתונים‬
‫מקום‬
•‫מערכי‬ ‫בקצב‬ ‫נוצרים‬ ‫חדשים‬ ‫נתונים‬
‫נתונים‬ ‫של‬ ‫כוחם‬–‫בכל‬ ‫נתונים‬
‫מקום‬
•‫כ‬ ‫לקח‬ ‫פעם‬ ‫אנושי‬ ‫גנום‬ ‫פענוח‬-10‫שנים‬
•‫בשבוע‬ ‫זה‬ ‫לעשות‬ ‫אפשר‬ ‫היום‬–‫למה‬?
‫נתונים‬ ‫מדעי‬–‫זה‬ ‫מה‬?
•‫מדע‬‫ואמנות‬‫להשתמש‬ ‫איך‬‫בנתונים‬‫כדי‬
‫לבנות‬‫מודלים‬‫יותר‬ ‫החלטות‬ ‫לקבל‬ ‫שיעזרו‬
‫ולתת‬ ‫טובות‬‫רווח‬:‫לחברות‬,‫וקהילה‬ ‫אנשים‬
‫נתונים‬ ‫מדעי‬–‫זה‬ ‫מה‬?
•‫מדע‬‫ואמנות‬‫להשתמש‬ ‫איך‬‫בנתונים‬‫כדי‬
‫לבנות‬‫מודלים‬‫יותר‬ ‫החלטות‬ ‫לקבל‬ ‫שיעזרו‬
‫ולתת‬ ‫טובות‬‫רווח‬:‫לחברות‬,‫וקהילה‬ ‫אנשים‬
‫נתונים‬ ‫מדעי‬–‫זה‬ ‫מה‬?
•‫מדע‬‫ואמנות‬‫להשתמש‬ ‫איך‬‫בנתונים‬‫כדי‬
‫לבנות‬‫מודלים‬‫יותר‬ ‫החלטות‬ ‫לקבל‬ ‫שיעזרו‬
‫ולתת‬ ‫טובות‬‫רווח‬:‫לחברות‬,‫וקהילה‬ ‫אנשים‬
‫נתונים‬ ‫מדעי‬ ‫ללמוד‬ ‫כדאי‬ ‫למה‬?
‫נתונים‬ ‫מדעי‬ ‫ללמוד‬ ‫כדאי‬ ‫למה‬?
•‫תואר‬ ‫לסגור‬ ‫כדי‬(‫ברירה‬ ‫אין‬)
‫נתונים‬ ‫מדע‬ ‫ללמוד‬ ‫כדאי‬ ‫למה‬?
•‫תואר‬ ‫לסגור‬ ‫כדי‬(‫ברירה‬ ‫אין‬)
•‫ומבוקש‬ ‫חדש‬ ‫מקצוע‬ ‫ללמוד‬ ‫כדי‬
‫מכון‬ ‫של‬ ‫הערכות‬ ‫לפי‬‫קינזי‬:‫בשנת‬2019‫יהי‬ ‫נתונים‬ ‫במדעני‬ ‫החוסר‬ ‫הברית‬ ‫בארצות‬
‫כ‬-150‫איש‬ ‫אלף‬
‫נתונים‬ ‫מדע‬ ‫ללמוד‬ ‫כדאי‬ ‫למה‬?
•‫תואר‬ ‫לסגור‬ ‫כדי‬(‫ברירה‬ ‫אין‬)
•‫ומבוקש‬ ‫חדש‬ ‫מקצוע‬ ‫ללמוד‬ ‫כדי‬
•‫שלך‬ ‫בתחום‬ ‫במחקר‬ ‫להצליח‬ ‫כדי‬
‫נתונים‬ ‫מדע‬ ‫ללמוד‬ ‫כדאי‬ ‫למה‬?
•‫תואר‬ ‫לסגור‬ ‫כדי‬(‫ברירה‬ ‫אין‬)
•‫ומבוקש‬ ‫חדש‬ ‫מקצוע‬ ‫ללמוד‬ ‫כדי‬
•‫שלך‬ ‫בתחום‬ ‫במחקר‬ ‫להצליח‬ ‫כדי‬
•‫ללמוד‬ ‫כדי‬"‫לדבר‬"‫מחשב‬ ‫עם‬
‫נתונים‬ ‫מדע‬ ‫ללמוד‬ ‫כדאי‬ ‫למה‬?
•‫תואר‬ ‫לסגור‬ ‫כדי‬(‫ברירה‬ ‫אין‬)
•‫ומבוקש‬ ‫חדש‬ ‫מקצוע‬ ‫ללמוד‬ ‫כדי‬
•‫שלך‬ ‫בתחום‬ ‫במחקר‬ ‫להצליח‬ ‫כדי‬
•‫ללמוד‬ ‫כדי‬"‫לדבר‬"‫מחשב‬ ‫עם‬
•‫ופורצות‬ ‫חדשות‬ ‫טכנולוגיות‬ ‫ללמוד‬ ‫כדי‬
‫דרך‬
•...
•...
‫סיכום‬
‫נתונים‬ ‫המון‬ ‫מייצרים‬ ‫אנו‬ ‫היום‬
‫נתונים‬ ‫יש‬ ‫חברות‬ ‫להמון‬,‫עם‬ ‫לדבר‬ ‫שיודעים‬ ‫אנשים‬ ‫חסרים‬ ‫אבל‬
‫נתונים‬:‫נתונים‬ ‫מדען‬
‫איך‬ ‫נלמד‬ ‫אנו‬ ‫בקורס‬"‫לדבר‬"‫מעניינות‬ ‫דוגמאות‬ ‫ונראה‬ ‫נתונים‬ ‫עם‬
‫שונים‬ ‫מתחומים‬
‫שיודע‬ ‫מי‬"‫להקשיב‬"‫החברה‬ ‫של‬ ‫הרווח‬ ‫את‬ ‫להגדיל‬ ‫יכול‬ ‫לנתונים‬
http://harrypotter.wikia.com/wiki/Parseltongue
‫נתונים‬ ‫מדע‬ ‫ללמוד‬ ‫כדאי‬ ‫למה‬?
‫נתונים‬ ‫מדע‬‫נתונים‬ ‫עם‬ ‫לדבר‬ ‫מאפשר‬.‫נתונים‬ ‫עם‬ ‫לדבר‬ ‫שיודע‬ ‫האדם‬
‫נקראה‬‫מדען‬‫נתונים‬.‫מאוד‬ ‫נדירה‬ ‫מיומנות‬ ‫זאת‬,‫ואלולה‬‫להיות‬
‫נלמדת‬ ‫או‬ ‫תורשתית‬.‫מחשבים‬ ‫עם‬ ‫לדבר‬ ‫יודע‬ ‫נתונים‬ ‫מדען‬ ‫כל‬ ‫כמעט‬
‫מיוחדות‬ ‫תוכנות‬ ‫בעזרת‬.
‫יותר‬ ‫לדעת‬ ‫רוצים‬?
•‫גדולים‬ ‫מאוד‬ ‫מספרים‬:
• https://www.thoughtco.com/bigger-than-a-trillion-1857463
•‫לדמיין‬ ‫שניתן‬ ‫גדול‬ ‫הכי‬ ‫המספר‬:‫מספרי‬‫גריהם‬
• https://www.youtube.com/watch?v=02oE8ox_Zms
‫מעניינות‬ ‫דוגמאות‬
IBM Watson
IBM Watson
•‫בחברת‬IBM‫משאבים‬ ‫המון‬ ‫משקיעים‬
‫במדע‬
IBM Watson
•‫בחברת‬IBM‫במדע‬ ‫משאבים‬ ‫המון‬ ‫משקיעים‬
•‫מחשב‬Deep Blue‫שחמט‬ ‫אלוף‬ ‫ניצח‬
(‫אפשרי‬ ‫בלתי‬ ‫שזה‬ ‫חשבו‬ ‫פעם‬)
https://en.wikipedia.org/wiki/Deep_Blue_versus_Garry_Kasparov
IBM Watson
•‫בחברת‬IBM‫במדע‬ ‫משאבים‬ ‫המון‬ ‫משקיעים‬
•‫מחשב‬Deep Blue‫שחמט‬ ‫אלוף‬ ‫ניצח‬(‫פעם‬
‫אפשרי‬ ‫בלתי‬ ‫שזה‬ ‫חשבו‬)
•Blue Gene‫של‬ ‫במיפוי‬ ‫שעוזר‬ ‫מחשב‬
‫אנושי‬ ‫גינום‬
https://en.wikipedia.org/wiki/IBM_Blue_Gene
IBM Watson
•‫בחברת‬IBM‫במדע‬ ‫משאבים‬ ‫המון‬ ‫משקיעים‬
•‫מחשב‬Deep Blue‫שחמט‬ ‫אלוף‬ ‫ניצח‬(‫פעם‬
‫אפשרי‬ ‫בלתי‬ ‫שזה‬ ‫חשבו‬)
•Blue Gene‫גינום‬ ‫של‬ ‫במיפוי‬ ‫שעוזר‬ ‫מחשב‬
‫אנושי‬
•‫ב‬-2005‫שיוכל‬ ‫מחשב‬ ‫לבנות‬ ‫החליטו‬
‫פופולארי‬ ‫במשחק‬ ‫לשחק‬Jeopardy
https://en.wikipedia.org/wiki/Jeopardy!
IBM Watson
•‫בחברת‬IBM‫במדע‬ ‫משאבים‬ ‫המון‬ ‫משקיעים‬
•‫מחשב‬Deep Blue‫שחמט‬ ‫אלוף‬ ‫ניצח‬(‫פעם‬
‫אפשרי‬ ‫בלתי‬ ‫שזה‬ ‫חשבו‬)
•Blue Gene‫גינום‬ ‫של‬ ‫במיפוי‬ ‫שעוזר‬ ‫מחשב‬
‫אנושי‬
•‫ב‬-2005‫שיוכל‬ ‫מחשב‬ ‫לבנות‬ ‫החליטו‬
‫פופולארי‬ ‫במשחק‬ ‫לשחק‬Jeopardy
https://en.wikipedia.org/wiki/Jeopardy!
Watson playing Jeopardy
https://www.youtube.com/watch?v=WFR3lOm_xhE
‫בפברואר‬2011,Watson‫בתחרות‬ ‫משחק‬ ‫אלופי‬ ‫שני‬ ‫ניצח‬
‫למה‬jeopardy‫קשה‬ ‫משחק‬?
‫למה‬jeopardy‫קשה‬ ‫משחק‬?
•‫שונים‬ ‫מתחומים‬ ‫השאלות‬
•‫חידה‬ ‫של‬ ‫בצורה‬ ‫השאלות‬
•‫חדשות‬ ‫שאלות‬ ‫מחברים‬ ‫משחק‬ ‫לכל‬
•‫מבחוץ‬ ‫עזרה‬ ‫לקבל‬ ‫אסור‬
•‫זמן‬ ‫הגבלת‬
•‫מתחרים‬ ‫יש‬
•...
•...
‫נתונים‬ ‫מדע‬ ‫של‬ ‫הקסם‬–‫של‬ ‫הקסם‬Watson
‫נתונים‬ ‫מדע‬ ‫של‬ ‫הקסם‬–‫של‬ ‫הקסם‬Watson
•Watson‫מחשב‬ ‫הוא‬-‫עם‬ ‫על‬3000‫מעבדים‬
•“ Watson‫למד‬"‫דטה‬ ‫המון‬:‫מילונים‬,
‫ספרים‬,‫עיתונים‬,‫אנציקלופדיות‬,UH
•‫ושיטות‬ ‫אלגוריתמים‬ ‫בהמון‬ ‫השתמש‬
‫מתקדמות‬ ‫אופטימיזציה‬
Data
‫אלגוריתמים‬
‫מתקדמים‬
NLP
‫במשחק‬ ‫ניצחון‬
Watson‫היום‬
•‫ב‬ ‫משתמשים‬ ‫היום‬-Watson‫בתחומים‬
‫שונים‬
•‫סרטן‬ ‫לחולי‬ ‫טוב‬ ‫הכי‬ ‫טיפול‬ ‫למצוא‬ ‫כדי‬ ‫למשל‬
https://www.ibm.com/il-en/marketplace/clinical-decision-support-oncology
‫יותר‬ ‫לדעת‬ ‫רוצים‬?
•‫עוזר‬ ‫ובמה‬ ‫משתמשים‬ ‫איך‬Watson‫היום‬?
• https://www.ibm.com/watson/ai-stories/
eHarmony
eHarmony
•‫היכרויות‬ ‫אתר‬
•‫ויחסים‬ ‫לאהבה‬ ‫מדעית‬ ‫גישה‬
•‫בערך‬4-5%‫ב‬ ‫נישואים‬USA-‫הודות‬
‫ל‬-eHarmony
•‫מעל‬ ‫האתר‬ ‫של‬ ‫רווח‬1‫דולר‬ ‫מיליארד‬
https://en.wikipedia.org/wiki/EHarmony
eHarmony: data
•‫משתמש‬ ‫שכל‬ ‫משאלונים‬ ‫באים‬ ‫נתונים‬
‫למלא‬ ‫חייב‬
•‫שאלות‬ ‫מאות‬ ‫כמה‬ ‫יש‬ ‫בשאלון‬
eHarmony: data
•‫תוצאות‬ ‫סמך‬ ‫על‬ ‫זיווג‬ ‫מבצע‬ ‫האתר‬
‫מתקדמים‬ ‫אלגוריתמים‬ ‫ביצעו‬
(‫סודיים‬)‫משתמש‬ ‫נתוני‬ ‫של‬ ‫לאנליזה‬
•‫באתר‬ ‫מחפש‬ ‫לא‬ ‫המשתמש‬
eHarmony: ‫אופטימיזציה‬ ‫בעיית‬
•‫צריך‬ ‫שאלונים‬ ‫של‬ ‫אנליזה‬ ‫אחרי‬
‫אופטימיזציה‬ ‫בעיית‬ ‫לפתור‬–‫איך‬
‫למקסם‬ ‫כדי‬ ‫לזוגות‬ ‫אנשים‬ ‫לחלק‬
‫התאמות‬
eHarmony: ‫אופטימיזציה‬ ‫בעיית‬
•‫צריך‬ ‫שאלונים‬ ‫של‬ ‫אנליזה‬ ‫אחרי‬
‫אופטימיזציה‬ ‫בעיית‬ ‫לפתור‬–‫איך‬
‫למקסם‬ ‫כדי‬ ‫לזוגות‬ ‫אנשים‬ ‫לחלק‬
‫התאמות‬
eHarmony: ‫אופטימיזציה‬ ‫בעיית‬
•‫צריך‬ ‫שאלונים‬ ‫של‬ ‫אנליזה‬ ‫אחרי‬
‫אופטימיזציה‬ ‫בעיית‬ ‫לפתור‬–‫איך‬
‫למקסם‬ ‫כדי‬ ‫לזוגות‬ ‫אנשים‬ ‫לחלק‬
‫התאמות‬
‫יותר‬ ‫טוב‬ ‫אפשר‬ ‫האם‬?
eHarmony: ‫אופטימיזציה‬ ‫בעיית‬
•‫צריך‬ ‫שאלונים‬ ‫של‬ ‫אנליזה‬ ‫אחרי‬
‫אופטימיזציה‬ ‫בעיית‬ ‫לפתור‬–‫איך‬
‫למקסם‬ ‫כדי‬ ‫לזוגות‬ ‫אנשים‬ ‫לחלק‬
‫התאמות‬
eHarmony: ‫אופטימיזציה‬ ‫בעיית‬
•‫צריך‬ ‫שאלונים‬ ‫של‬ ‫אנליזה‬ ‫אחרי‬
‫אופטימיזציה‬ ‫בעיית‬ ‫לפתור‬–‫איך‬
‫למקסם‬ ‫כדי‬ ‫לזוגות‬ ‫אנשים‬ ‫לחלק‬
‫התאמות‬
‫יותר‬ ‫טוב‬ ‫אפשר‬ ‫האם‬?
eHarmony: ‫אופטימיזציה‬ ‫בעיית‬
•‫צריך‬ ‫שאלונים‬ ‫של‬ ‫אנליזה‬ ‫אחרי‬
‫אופטימיזציה‬ ‫בעיית‬ ‫לפתור‬–‫איך‬
‫למקסם‬ ‫כדי‬ ‫לזוגות‬ ‫אנשים‬ ‫לחלק‬
‫התאמות‬
‫יותר‬ ‫טוב‬ ‫אפשר‬ ‫האם‬?‫לא‬!
eHarmony: ‫אופטימיזציה‬ ‫בעיית‬
•‫צריך‬ ‫שאלונים‬ ‫של‬ ‫אנליזה‬ ‫אחרי‬
‫אופטימיזציה‬ ‫בעיית‬ ‫לפתור‬–‫איך‬
‫למקסם‬ ‫כדי‬ ‫לזוגות‬ ‫אנשים‬ ‫לחלק‬
‫התאמות‬
‫יותר‬ ‫טוב‬ ‫אפשר‬ ‫האם‬?‫לא‬!‫למה‬?
‫של‬ ‫הקסם‬eHarmony
Data
regression
optimization
eHarmony: beware
•‫של‬ ‫שגישה‬ ‫הטוענים‬ ‫חוקרים‬ ‫יש‬
eHarmony‫מדעית‬ ‫לא‬
https://www.laweekly.com/ucla-professors-say-eharmony-is-unscientific-
and-its-customers-are-duped-heres-why/
‫החלל‬ ‫מעבורת‬ ‫אסון‬‫צ‬'‫לנג‬'‫ר‬
•‫נאס‬ ‫בתולדות‬ ‫משמעותי‬ ‫אסון‬"‫א‬
•‫החלל‬ ‫מעברת‬ ‫באוויר‬ ‫התפוצצה‬‫צ‬'‫לנג‬'‫ר‬
73‫שהמריאה‬ ‫אחרי‬ ‫שניות‬
https://en.wikipedia.org/wiki/Space_Shuttle_Challenger_disaster
‫החלל‬ ‫מעבורת‬ ‫אסון‬‫צ‬'‫לנג‬'‫ר‬
https://www.youtube.com/watch?v=fSTrmJtHLFU
•24‫בהצלחה‬ ‫הסתיימו‬ ‫קודמות‬ ‫המראות‬
•‫כל‬ ‫אם‬ ‫לקראות‬ ‫יכול‬ ‫אסון‬5O-ring
‫מתקלקלים‬ ‫במעבורת‬
•‫שבהן‬ ‫המראות‬ ‫היו‬1-3O-ring‫התקלקלו‬
•‫קר‬ ‫היה‬ ‫הגורלית‬ ‫המראה‬ ‫ביום‬:‫מינוס‬1
‫צלזיוס‬ ‫מעלות‬(30‫פרנהייט‬)
•‫לבצע‬ ‫מותר‬ ‫האם‬ ‫מעבר‬ ‫נתונים‬ ‫היו‬ ‫לא‬
‫כאלו‬ ‫בתנאים‬ ‫המראה‬
‫החלל‬ ‫מעבורת‬ ‫אסון‬‫צ‬'‫לנג‬'‫ר‬
https://www.youtube.com/watch?v=fSTrmJtHLFU
•‫לבצע‬ ‫מותר‬ ‫האם‬ ‫מעבר‬ ‫נתונים‬ ‫היו‬ ‫לא‬
‫כאלו‬ ‫בתנאים‬ ‫המראה‬
‫החלל‬ ‫מעבורת‬ ‫אסון‬‫צ‬'‫לנג‬'‫ר‬
•‫לבצע‬ ‫מותר‬ ‫האם‬ ‫מעבר‬ ‫נתונים‬ ‫היו‬ ‫לא‬
‫כאלו‬ ‫בתנאים‬ ‫המראה‬
•‫המראות‬ ‫כל‬ ‫על‬ ‫מעבר‬ ‫נתונים‬ ‫היו‬ ‫אבל‬
‫שהיו‬
‫החלל‬ ‫מעבורת‬ ‫אסון‬‫צ‬'‫לנג‬'‫ר‬
•‫לבצע‬ ‫מותר‬ ‫האם‬ ‫מעבר‬ ‫נתונים‬ ‫היו‬ ‫לא‬
‫כאלו‬ ‫בתנאים‬ ‫המראה‬
•‫המראות‬ ‫כל‬ ‫על‬ ‫מעבר‬ ‫נתונים‬ ‫היו‬ ‫אבל‬
‫שהיו‬
•‫לא‬ ‫אבל‬"‫דיברו‬"‫אסון‬ ‫ולכן‬ ‫הנתונים‬ ‫עם‬
‫קרא‬
‫נתונים‬ ‫מדע‬ ‫של‬ ‫הקסם‬
Data
logistic
regression
‫סיכום‬
‫בנתונים‬ ‫לשימוש‬ ‫שונות‬ ‫דוגמאות‬ ‫ראינו‬
‫כסף‬ ‫לחסוך‬ ‫או‬ ‫חיים‬ ‫להציל‬ ‫יכול‬ ‫בנתונים‬ ‫נכון‬ ‫שימוש‬
Past
Today
data and data scientist
computer
‫הנתונים‬ ‫מדעי‬ ‫מהם‬?
‫נתונים‬ ‫מדעי‬ ‫מהם‬?‫מסחרי‬ ‫מבט‬
•‫נתונים‬ ‫של‬ ‫ענקית‬ ‫כמות‬ ‫קיימת‬ ‫היום‬:
•‫מאינטרנט‬ ‫נתונים‬:Google, Yahoo, Facebook
•‫קניות‬ ‫נתוני‬:Amazon, Shufersal
•‫בנקאיות‬ ‫נתוני‬:‫הלוואות‬,‫תשלומים‬
•‫חישוב‬ ‫כוח‬(‫מחשבים‬)‫זול‬ ‫ויותר‬ ‫חזק‬ ‫יותר‬
•‫מתחרים‬ ‫המון‬,‫להפסיד‬ ‫לא‬ ‫חשוב‬
•‫נתונים‬ ‫של‬ ‫ענקית‬ ‫כמות‬ ‫קיימת‬ ‫היום‬:
•‫בחלל‬ ‫בלוויין‬ ‫חיישנים‬
•‫רציף‬ ‫באופן‬ ‫נתונים‬ ‫ואוספים‬ ‫שעבדים‬ ‫טלסקופים‬
•‫ביולוגיים‬ ‫נתונים‬
•‫מדעיות‬ ‫סימולציות‬
•‫לחוקרים‬ ‫עוזר‬ ‫נתונים‬ ‫מדע‬:
•‫השארות‬ ‫לבדוק‬
•‫חדשות‬ ‫השארות‬ ‫למצוא‬
•‫גדולים‬ ‫נתונים‬ ‫של‬ ‫מהיר‬ ‫איבוד‬
‫נתונים‬ ‫מדעי‬ ‫מהם‬?‫מדעי‬ ‫מבט‬
‫נתונים‬ ‫מדעי‬ ‫מהם‬?‫הגדרות‬
•‫יחידה‬ ‫הגדרה‬ ‫אין‬
•‫מנתונים‬ ‫חדש‬ ‫מידע‬ ‫קבלת‬
•‫נתונים‬ ‫של‬ ‫אוטומטית‬ ‫אנליזה‬
‫חשובות‬ ‫תבניות‬ ‫למצוא‬ ‫במטרה‬
‫נתונים‬ ‫מדע‬ ‫מהו‬?‫הגדרות‬
‫סיכום‬
‫נתונים‬ ‫למדעי‬ ‫אחת‬ ‫הגדרה‬ ‫אין‬
‫בנתונים‬ ‫עוסקים‬ ‫נתונים‬ ‫מדעי‬:‫איסוף‬,‫עיבוד‬,‫אנליזה‬,‫קבלת‬
‫החלטות‬
‫מדע‬ ‫וגם‬ ‫אומנות‬ ‫גם‬ ‫הם‬ ‫נתונים‬ ‫מדעי‬
‫חיים‬ ‫להציל‬ ‫או‬ ‫להרוויח‬ ‫מאפשרים‬ ‫נתונים‬ ‫מדעי‬
‫מיהו‬/‫י‬‫מדענ‬/‫ית‬‫נתונים‬
‫מיהו‬/‫י‬‫מדענ‬/‫ית‬‫נתונים‬
•‫מתכנת‬ ‫לא‬
•‫מדע‬ ‫איש‬ ‫הוא‬ ‫נתונים‬ ‫מדען‬:
•‫העולם‬ ‫את‬ ‫להבין‬ ‫מנסה‬
•‫חדשים‬ ‫דברים‬ ‫לגלות‬ ‫אוהב‬
•‫נתונים‬ ‫לאיסוף‬ ‫חדשות‬ ‫שיטות‬ ‫ממציא‬
•‫התוצאות‬ ‫את‬ ‫להבין‬ ‫מנסה‬
•‫טעויות‬ ‫להכיל‬ ‫יכולים‬ ‫שנתונים‬ ‫יודע‬
•‫לתובנות‬ ‫מספרים‬ ‫הופך‬
‫מיהו‬/‫י‬‫מדענ‬/‫ית‬‫נתונים‬
•‫חשובות‬ ‫שאלות‬ ‫שתי‬:
•‫בעיה‬ ‫בהינתן‬–‫שיעזרו‬ ‫נתונים‬ ‫מהם‬
‫אותה‬ ‫לפתור‬
•‫נתונים‬ ‫בהינתן‬–‫שאלות‬ ‫אילו‬
‫לפתור‬ ‫אפשר‬ ‫מעניינות‬
‫מיהו‬/‫י‬‫מדענ‬/‫ית‬‫נתונים‬
‫נתונים‬ ‫על‬ ‫מעניינות‬ ‫שאלות‬
•‫סקרן‬ ‫אדם‬ ‫בן‬ ‫הוא‬ ‫נתונים‬ ‫מדען‬
•‫הנתונים‬ ‫על‬ ‫שאלות‬ ‫לשאול‬ ‫היא‬ ‫נתונים‬ ‫מדען‬ ‫של‬ ‫ממיומנויות‬ ‫אחת‬
•‫מעניינים‬ ‫נתונים‬ ‫של‬ ‫דוגמה‬ ‫נראה‬ ‫הבא‬ ‫בתרגיל‬,‫הדוגמה‬ ‫על‬ ‫תחשבו‬
‫ורשמו‬5‫דאטה‬ ‫על‬ ‫שאלות‬
Internet Movie Database (IMDB)
•IMDB‫סרטים‬ ‫על‬ ‫מידע‬ ‫מאגר‬ ‫הוא‬
•‫מ‬ ‫יותר‬ ‫על‬ ‫רשומות‬ ‫מכיל‬ ‫האתר‬-3.5
‫סרטים‬ ‫מיליוני‬
•‫שלו‬ ‫פרמטרים‬ ‫על‬ ‫מידע‬ ‫יש‬ ‫סרט‬ ‫לכל‬
•‫על‬ ‫מפורט‬ ‫מידע‬ ‫מכיל‬ ‫גם‬ ‫האתר‬
‫שחקנים‬
https://www.imdb.com/
Internet Movie Database (IMDB)
https://www.imdb.com/
Movie Data
Internet Movie Database (IMDB)
https://www.imdb.com/
Movie Data
‫הנתונים‬ ‫מדעי‬ ‫איך‬ ‫מראה‬ ‫הסרט‬
‫בספורט‬ ‫לעזור‬ ‫יכולים‬–‫מומלץ‬
‫לצפייה‬
Internet Movie Database (IMDB)
https://www.imdb.com/
Actor Data
https://www.imdb.com/
Internet Movie Database (IMDB)
•‫מעניינות‬ ‫שאלות‬:
Internet Movie Database (IMDB)
•‫מעניינות‬ ‫שאלות‬:
•‫חדש‬ ‫מסרט‬ ‫מרוצים‬ ‫יהיו‬ ‫אנשים‬ ‫כמה‬ ‫לנבות‬ ‫אפשר‬ ‫האם‬?
•‫חדש‬ ‫סרט‬ ‫של‬ ‫רווח‬ ‫יהי‬ ‫מה‬?
•‫מסוים‬ ‫בסרט‬ ‫שחקנים‬ ‫של‬ ‫גיל‬ ‫מתפלג‬ ‫איך‬?
•‫אחרים‬ ‫מאנשים‬ ‫יותר‬ ‫חיים‬ ‫קולנוע‬ ‫שחקני‬ ‫האם‬?
•‫הרבה‬ ‫הכי‬ ‫מרוויח‬ ‫שחקן‬ ‫איזה‬?
•‫הסרט‬ ‫את‬ ‫יאהב‬ ‫מסוים‬ ‫שצופה‬ ‫סיכוי‬ ‫להעריך‬ ‫אפשר‬ ‫האם‬?
•...
Netflix Prize
https://en.wikipedia.org/w
iki/Netflix_Prize
‫בניו‬ ‫מוניות‬ ‫נתוני‬ ‫מאגר‬-‫יורק‬
•‫וניתן‬ ‫באינטרנט‬ ‫נמצאים‬ ‫הנתונים‬
‫עצמאי‬ ‫באופן‬ ‫אותם‬ ‫להוריד‬
https://data.cityofnewyork.us/Transportation/2018-Yellow-Taxi-
Trip-Data/
‫בניו‬ ‫מוניות‬ ‫נתוני‬ ‫מאגר‬-‫יורק‬
•‫וניתן‬ ‫באינטרנט‬ ‫נמצאים‬ ‫הנתונים‬
‫עצמאי‬ ‫באופן‬ ‫אותם‬ ‫להוריד‬
•‫נסיעות‬ ‫על‬ ‫מידע‬ ‫מכילים‬ ‫הנתונים‬:
‫מרחק‬,‫זמן‬,‫תשלום‬,‫קיבל‬ ‫נהג‬ ‫האם‬
‫וכו‬ ‫טיפ‬'
https://data.cityofnewyork.us/Transportation/2018-Yellow-Taxi-
Trip-Data/
‫בניו‬ ‫מוניות‬ ‫נתוני‬ ‫מאגר‬-‫יורק‬
•‫מעניינות‬ ‫שאלות‬:
‫בניו‬ ‫מוניות‬ ‫נתוני‬ ‫מאגר‬-‫יורק‬
•‫מעניינות‬ ‫שאלות‬:
•‫לילה‬ ‫במשמרת‬ ‫נהג‬ ‫של‬ ‫רווח‬ ‫מה‬?
•‫נסיעה‬ ‫אורך‬ ‫מתפלג‬ ‫איך‬?
•‫העומס‬ ‫בשעות‬ ‫ממוצעת‬ ‫מהירות‬ ‫מהי‬?
•‫טיפ‬ ‫יותר‬ ‫מקבלים‬ ‫זריזים‬ ‫נהגים‬ ‫האם‬?
•‫לנוסע‬ ‫לחכות‬ ‫כדאי‬ ‫איפה‬?
•...
‫סיכום‬
‫מחקר‬ ‫השאלת‬ ‫על‬ ‫לענות‬ ‫כדי‬ ‫צריך‬ ‫נתונים‬ ‫אילו‬ ‫לדעת‬ ‫חשוב‬
‫אפשר‬ ‫שעליכן‬ ‫שאלות‬ ‫מהן‬ ‫לדעת‬ ‫חשוב‬ ‫נתונים‬ ‫מאגר‬ ‫בהינתן‬
‫לענות‬
‫נתונים‬ ‫מדען‬ ‫עובד‬ ‫איך‬?
•‫נראה‬ ‫לא‬ ‫הנתונים‬ ‫עם‬ ‫עבודה‬ ‫תהליך‬
‫כך‬
‫נתונים‬ ‫מדען‬ ‫עובד‬ ‫איך‬?
•‫מורכב‬ ‫הוא‬ ‫נתונים‬ ‫עם‬ ‫עבודה‬ ‫תהליך‬
‫שלבים‬ ‫מספר‬ ‫ומכיל‬ ‫יחסית‬
•‫המקובלים‬ ‫תהליכים‬ ‫מספר‬ ‫קיים‬
‫נתונים‬ ‫עם‬ ‫לעבודה‬
•‫אחד‬ ‫תהליך‬ ‫נלמד‬ ‫אנו‬:DM-CRISP
CRISP-DM
•‫תהליך‬DM-CRISP‫עם‬ ‫לעבוד‬ ‫מאפשר‬
‫ויעיל‬ ‫מסודר‬ ‫באופן‬ ‫נתונים‬
•‫התהליך‬ ‫את‬ ‫נכיר‬ ‫רק‬ ‫היום‬
https://en.wikipedia.org/wiki/Cross-industry_standard_process_for_data_mining
CRISP-DM
•‫תהליך‬DM-CRISP‫עם‬ ‫לעבוד‬ ‫מאפשר‬
‫ויעיל‬ ‫מסודר‬ ‫באופן‬ ‫נתונים‬
•‫התהליך‬ ‫את‬ ‫נכיר‬ ‫רק‬ ‫היום‬
https://en.wikipedia.org/wiki/Cross-industry_standard_process_for_data_mining
‫הבנת‬
‫העסק‬
‫הבנת‬
‫דאטה‬
‫הכנת‬
‫דאטה‬
‫והפעלת‬ ‫בניית‬
‫מודלים‬
‫של‬ ‫הערכה‬
‫תוצאות‬
‫במודל‬ ‫שימוש‬
‫דאטה‬
CRISP-DM: ‫העסק‬ ‫הבנת‬
•‫ראשון‬ ‫שלב‬ ‫זה‬ ‫כלל‬ ‫בדרך‬ ‫העסק‬ ‫הבנת‬
•‫חשוב‬ ‫זה‬ ‫בשלב‬‫להבין‬‫של‬ ‫עסקיות‬ ‫מטרות‬
‫עסק‬:
•‫הוצאות‬ ‫להקטין‬
•‫רווח‬ ‫להגדיל‬
•‫לקוחות‬ ‫של‬ ‫נשירה‬ ‫אחוז‬ ‫למזער‬
•...
https://en.wikipedia.org/wiki/Cross-industry_standard_process_for_data_mining
‫הבנת‬
‫העסק‬
‫הבנת‬
‫דאטה‬
‫הכנת‬
‫דאטה‬
‫והפעלת‬ ‫בניית‬
‫מודלים‬
‫של‬ ‫הערכה‬
‫תוצאות‬
‫במודל‬ ‫שימוש‬
‫דאטה‬
CRISP-DM: ‫דאטה‬ ‫הבנת‬
•‫בתהליך‬ ‫שני‬ ‫שלב‬ ‫דאטה‬ ‫הבנת‬
•‫ראשוני‬ ‫מידע‬ ‫איסוף‬
•‫המידע‬ ‫תיור‬
•‫המידע‬ ‫הבנת‬
•‫המידע‬ ‫איכות‬ ‫וידוא‬
•‫יש‬ ‫עסקיות‬ ‫דרישות‬ ‫על‬ ‫עונה‬ ‫לא‬ ‫דאטה‬ ‫אם‬
‫קודם‬ ‫לשלב‬ ‫לחזור‬
https://en.wikipedia.org/wiki/Cross-industry_standard_process_for_data_mining
‫הבנת‬
‫העסק‬
‫הבנת‬
‫דאטה‬
‫הכנת‬
‫דאטה‬
‫והפעלת‬ ‫בניית‬
‫מודלים‬
‫של‬ ‫הערכה‬
‫תוצאות‬
‫במודל‬ ‫שימוש‬
‫דאטה‬
CRISP-DM: ‫דאטה‬ ‫הכנת‬
•‫בתהליך‬ ‫שלישי‬ ‫שלב‬
•‫שינותח‬ ‫דאטה‬ ‫בחירת‬
•‫הנתונים‬ ‫ניקוי‬
•‫חסרים‬ ‫בערכים‬ ‫טיפול‬
•‫לניתוח‬ ‫נוח‬ ‫לפורמט‬ ‫נתונים‬ ‫העברת‬
•‫חריגים‬ ‫בערכים‬ ‫טיפול‬
https://en.wikipedia.org/wiki/Cross-industry_standard_process_for_data_mining
‫הבנת‬
‫העסק‬
‫הבנת‬
‫דאטה‬
‫הכנת‬
‫דאטה‬
‫והפעלת‬ ‫בניית‬
‫מודלים‬
‫של‬ ‫הערכה‬
‫תוצאות‬
‫במודל‬ ‫שימוש‬
‫דאטה‬
CRISP-DM: ‫מודלים‬ ‫והפעלת‬ ‫בניית‬
•‫רביעי‬ ‫שלב‬–modeling
•‫לנתונים‬ ‫מתאים‬ ‫מדול‬ ‫מודל‬ ‫בחירת‬
•‫לנתונים‬ ‫המודל‬ ‫התאמת‬
•‫שנצטרך‬ ‫ייתכן‬ ‫מתאים‬ ‫מודל‬ ‫נמצא‬ ‫לא‬ ‫אם‬
‫קודם‬ ‫לשלב‬ ‫לחזור‬
https://en.wikipedia.org/wiki/Cross-industry_standard_process_for_data_mining
‫הבנת‬
‫העסק‬
‫הבנת‬
‫דאטה‬
‫הכנת‬
‫דאטה‬
‫והפעלת‬ ‫בניית‬
‫מודלים‬
‫של‬ ‫הערכה‬
‫תוצאות‬
‫במודל‬ ‫שימוש‬
‫דאטה‬
CRISP-DM: ‫תוצאות‬ ‫של‬ ‫הערכה‬
•‫חמישי‬ ‫שלב‬–evaluation
•‫שבנינו‬ ‫המודלים‬ ‫איכות‬ ‫בדיקת‬
•‫טובה‬ ‫מספיק‬ ‫איכות‬ ‫האם‬?
•‫לחזור‬ ‫צורך‬ ‫יש‬ ‫טובה‬ ‫מספיק‬ ‫לא‬ ‫איכות‬ ‫אם‬
‫קודמים‬ ‫לשלבים‬
https://en.wikipedia.org/wiki/Cross-industry_standard_process_for_data_mining
‫הבנת‬
‫העסק‬
‫הבנת‬
‫דאטה‬
‫הכנת‬
‫דאטה‬
‫והפעלת‬ ‫בניית‬
‫מודלים‬
‫של‬ ‫הערכה‬
‫תוצאות‬
‫במודל‬ ‫שימוש‬
‫דאטה‬
CRISP-DM: ‫במודל‬ ‫שימוש‬
•‫שישי‬ ‫שלב‬–deployment
•‫או‬ ‫עסקיות‬ ‫למטרות‬ ‫שבנינו‬ ‫במודל‬ ‫שימוש‬
‫מחקריות‬:
•‫ניבוי‬
•‫אופטימיזציה‬
•‫השארות‬ ‫בדיקת‬
•...
https://en.wikipedia.org/wiki/Cross-industry_standard_process_for_data_mining
‫הבנת‬
‫העסק‬
‫הבנת‬
‫דאטה‬
‫הכנת‬
‫דאטה‬
‫והפעלת‬ ‫בניית‬
‫מודלים‬
‫של‬ ‫הערכה‬
‫תוצאות‬
‫שימוש‬
‫במודל‬
‫דאטה‬
CRISP-DM ‫סיכום‬:
•‫פשוט‬ ‫איננו‬ ‫נתונים‬ ‫עם‬ ‫עבודה‬ ‫תהליך‬
•‫שלבים‬ ‫ממספר‬ ‫מורכב‬ ‫התהליך‬
•‫קודמים‬ ‫לשלבים‬ ‫חוזרים‬ ‫וצורך‬ ‫במידה‬
•‫התהליך‬ ‫למעשה‬‫האמיתי‬‫יותר‬ ‫מורכב‬ ‫הינו‬
https://en.wikipedia.org/wiki/Cross-industry_standard_process_for_data_mining
‫הבנת‬
‫העסק‬
‫הבנת‬
‫דאטה‬
‫הכנת‬
‫דאטה‬
‫והפעלת‬ ‫בניית‬
‫מודלים‬
‫של‬ ‫הערכה‬
‫תוצאות‬
‫במודל‬ ‫שימוש‬
‫דאטה‬
‫ב‬ ‫שלב‬ ‫כל‬:CRISP-DM
‫שלבים‬ ‫מתתי‬ ‫מורכב‬
‫אוכל‬ ‫הכנת‬
‫הבנת‬
‫העסק‬
‫הבנת‬
‫דאטה‬
‫הכנת‬
‫דאטה‬
‫והפעלת‬ ‫בניית‬
‫מודלים‬
‫של‬ ‫הערכה‬
‫תוצאות‬
‫במודל‬ ‫שימוש‬
‫דאטה‬
‫הבנת‬
‫צורך‬
‫איזה‬
‫יש‬ ‫מוצרים‬
‫הכנת‬
‫מוצרים‬
‫אוכל‬ ‫הכנת‬
‫איכות‬ ‫בדיקת‬
‫אוכל‬ ‫של‬
‫אכילה‬
‫דאטה‬
‫סיכום‬
‫פשוט‬ ‫לא‬ ‫הוא‬ ‫נתונים‬ ‫עם‬ ‫עבודה‬ ‫תהליך‬
CRISP-DM‫באופן‬ ‫נתונים‬ ‫עם‬ ‫לעבוד‬ ‫המאפשר‬ ‫פרוטוקול‬
‫ואמין‬ ‫מסודר‬
CRISP-DM‫משלבים‬ ‫מורכב‬,‫במידה‬ ‫לשלב‬ ‫משלב‬ ‫לחזור‬ ‫ניתן‬
‫הצורך‬
‫נתונים‬ ‫למדע‬ ‫נוספות‬ ‫דוגמאות‬
‫נתונים‬ ‫למדע‬ ‫נוספות‬ ‫דוגמאות‬
‫נתונים‬ ‫למדע‬ ‫נוספות‬ ‫דוגמאות‬

מבוא למדעי הנתונים הרצאה 1

  • 1.
    ‫הנתונים‬ ‫למדעי‬ ‫מבוא‬ ‫א‬‫הנתונים‬ ‫למדעי‬ ‫מבוא‬' ‫שבוע‬1
  • 2.
    ‫הנתונים‬ ‫מדעי‬:‫מבוא‬ ‫מעניינות‬ ‫דוגמאות‬ ‫למידה‬‫מהי‬ ‫נתונים‬ ‫מדע‬ ‫מהו‬? ‫נתונים‬ ‫מדען‬ ‫מיהו‬?
  • 3.
  • 4.
    ‫נתונים‬ ‫של‬ ‫כוחם‬–‫מקום‬‫בכל‬ ‫נתונים‬ •‫בשנת‬2020‫תהיה‬ ‫בעולם‬ ‫נתונים‬ ‫כמות‬ ‫בערך‬40 zettabytes https://techjury.net/stats-about/big-data-statistics/
  • 5.
    ‫נתונים‬ ‫של‬ ‫כוחם‬–‫מקום‬‫בכל‬ ‫נתונים‬ •‫בשנת‬2020‫תהיה‬ ‫בעולם‬ ‫נתונים‬ ‫כמות‬ ‫בערך‬40 zettabytes •‫ב‬ ‫שיש‬ ‫מידע‬ ‫לכמות‬ ‫שווה‬ ‫זה‬:300 000 000 000 ‫גבוהה‬ ‫באיכות‬ ‫וידאו‬ ‫סרטי‬HD https://techjury.net/stats-about/big-data-statistics/
  • 6.
    ‫נתונים‬ ‫של‬ ‫כוחם‬–‫בכל‬‫נתונים‬ ‫מקום‬ •90%‫אחרונות‬ ‫בשנתיים‬ ‫נוצרו‬ ‫מהנתונים‬
  • 7.
    ‫נתונים‬ ‫של‬ ‫כוחם‬–‫בכל‬‫נתונים‬ ‫מקום‬ •‫מערכי‬ ‫בקצב‬ ‫נוצרים‬ ‫חדשים‬ ‫נתונים‬
  • 8.
    ‫נתונים‬ ‫של‬ ‫כוחם‬–‫בכל‬‫נתונים‬ ‫מקום‬ •‫כ‬ ‫לקח‬ ‫פעם‬ ‫אנושי‬ ‫גנום‬ ‫פענוח‬-10‫שנים‬ •‫בשבוע‬ ‫זה‬ ‫לעשות‬ ‫אפשר‬ ‫היום‬–‫למה‬?
  • 9.
    ‫נתונים‬ ‫מדעי‬–‫זה‬ ‫מה‬? •‫מדע‬‫ואמנות‬‫להשתמש‬‫איך‬‫בנתונים‬‫כדי‬ ‫לבנות‬‫מודלים‬‫יותר‬ ‫החלטות‬ ‫לקבל‬ ‫שיעזרו‬ ‫ולתת‬ ‫טובות‬‫רווח‬:‫לחברות‬,‫וקהילה‬ ‫אנשים‬
  • 10.
    ‫נתונים‬ ‫מדעי‬–‫זה‬ ‫מה‬? •‫מדע‬‫ואמנות‬‫להשתמש‬‫איך‬‫בנתונים‬‫כדי‬ ‫לבנות‬‫מודלים‬‫יותר‬ ‫החלטות‬ ‫לקבל‬ ‫שיעזרו‬ ‫ולתת‬ ‫טובות‬‫רווח‬:‫לחברות‬,‫וקהילה‬ ‫אנשים‬
  • 11.
    ‫נתונים‬ ‫מדעי‬–‫זה‬ ‫מה‬? •‫מדע‬‫ואמנות‬‫להשתמש‬‫איך‬‫בנתונים‬‫כדי‬ ‫לבנות‬‫מודלים‬‫יותר‬ ‫החלטות‬ ‫לקבל‬ ‫שיעזרו‬ ‫ולתת‬ ‫טובות‬‫רווח‬:‫לחברות‬,‫וקהילה‬ ‫אנשים‬
  • 12.
  • 13.
    ‫נתונים‬ ‫מדעי‬ ‫ללמוד‬‫כדאי‬ ‫למה‬? •‫תואר‬ ‫לסגור‬ ‫כדי‬(‫ברירה‬ ‫אין‬)
  • 14.
    ‫נתונים‬ ‫מדע‬ ‫ללמוד‬‫כדאי‬ ‫למה‬? •‫תואר‬ ‫לסגור‬ ‫כדי‬(‫ברירה‬ ‫אין‬) •‫ומבוקש‬ ‫חדש‬ ‫מקצוע‬ ‫ללמוד‬ ‫כדי‬ ‫מכון‬ ‫של‬ ‫הערכות‬ ‫לפי‬‫קינזי‬:‫בשנת‬2019‫יהי‬ ‫נתונים‬ ‫במדעני‬ ‫החוסר‬ ‫הברית‬ ‫בארצות‬ ‫כ‬-150‫איש‬ ‫אלף‬
  • 15.
    ‫נתונים‬ ‫מדע‬ ‫ללמוד‬‫כדאי‬ ‫למה‬? •‫תואר‬ ‫לסגור‬ ‫כדי‬(‫ברירה‬ ‫אין‬) •‫ומבוקש‬ ‫חדש‬ ‫מקצוע‬ ‫ללמוד‬ ‫כדי‬ •‫שלך‬ ‫בתחום‬ ‫במחקר‬ ‫להצליח‬ ‫כדי‬
  • 16.
    ‫נתונים‬ ‫מדע‬ ‫ללמוד‬‫כדאי‬ ‫למה‬? •‫תואר‬ ‫לסגור‬ ‫כדי‬(‫ברירה‬ ‫אין‬) •‫ומבוקש‬ ‫חדש‬ ‫מקצוע‬ ‫ללמוד‬ ‫כדי‬ •‫שלך‬ ‫בתחום‬ ‫במחקר‬ ‫להצליח‬ ‫כדי‬ •‫ללמוד‬ ‫כדי‬"‫לדבר‬"‫מחשב‬ ‫עם‬
  • 17.
    ‫נתונים‬ ‫מדע‬ ‫ללמוד‬‫כדאי‬ ‫למה‬? •‫תואר‬ ‫לסגור‬ ‫כדי‬(‫ברירה‬ ‫אין‬) •‫ומבוקש‬ ‫חדש‬ ‫מקצוע‬ ‫ללמוד‬ ‫כדי‬ •‫שלך‬ ‫בתחום‬ ‫במחקר‬ ‫להצליח‬ ‫כדי‬ •‫ללמוד‬ ‫כדי‬"‫לדבר‬"‫מחשב‬ ‫עם‬ •‫ופורצות‬ ‫חדשות‬ ‫טכנולוגיות‬ ‫ללמוד‬ ‫כדי‬ ‫דרך‬ •... •...
  • 18.
    ‫סיכום‬ ‫נתונים‬ ‫המון‬ ‫מייצרים‬‫אנו‬ ‫היום‬ ‫נתונים‬ ‫יש‬ ‫חברות‬ ‫להמון‬,‫עם‬ ‫לדבר‬ ‫שיודעים‬ ‫אנשים‬ ‫חסרים‬ ‫אבל‬ ‫נתונים‬:‫נתונים‬ ‫מדען‬ ‫איך‬ ‫נלמד‬ ‫אנו‬ ‫בקורס‬"‫לדבר‬"‫מעניינות‬ ‫דוגמאות‬ ‫ונראה‬ ‫נתונים‬ ‫עם‬ ‫שונים‬ ‫מתחומים‬ ‫שיודע‬ ‫מי‬"‫להקשיב‬"‫החברה‬ ‫של‬ ‫הרווח‬ ‫את‬ ‫להגדיל‬ ‫יכול‬ ‫לנתונים‬
  • 19.
  • 20.
    ‫נתונים‬ ‫מדע‬ ‫ללמוד‬‫כדאי‬ ‫למה‬? ‫נתונים‬ ‫מדע‬‫נתונים‬ ‫עם‬ ‫לדבר‬ ‫מאפשר‬.‫נתונים‬ ‫עם‬ ‫לדבר‬ ‫שיודע‬ ‫האדם‬ ‫נקראה‬‫מדען‬‫נתונים‬.‫מאוד‬ ‫נדירה‬ ‫מיומנות‬ ‫זאת‬,‫ואלולה‬‫להיות‬ ‫נלמדת‬ ‫או‬ ‫תורשתית‬.‫מחשבים‬ ‫עם‬ ‫לדבר‬ ‫יודע‬ ‫נתונים‬ ‫מדען‬ ‫כל‬ ‫כמעט‬ ‫מיוחדות‬ ‫תוכנות‬ ‫בעזרת‬.
  • 21.
    ‫יותר‬ ‫לדעת‬ ‫רוצים‬? •‫גדולים‬‫מאוד‬ ‫מספרים‬: • https://www.thoughtco.com/bigger-than-a-trillion-1857463 •‫לדמיין‬ ‫שניתן‬ ‫גדול‬ ‫הכי‬ ‫המספר‬:‫מספרי‬‫גריהם‬ • https://www.youtube.com/watch?v=02oE8ox_Zms
  • 22.
  • 23.
  • 24.
  • 25.
    IBM Watson •‫בחברת‬IBM‫במדע‬ ‫משאבים‬‫המון‬ ‫משקיעים‬ •‫מחשב‬Deep Blue‫שחמט‬ ‫אלוף‬ ‫ניצח‬ (‫אפשרי‬ ‫בלתי‬ ‫שזה‬ ‫חשבו‬ ‫פעם‬) https://en.wikipedia.org/wiki/Deep_Blue_versus_Garry_Kasparov
  • 26.
    IBM Watson •‫בחברת‬IBM‫במדע‬ ‫משאבים‬‫המון‬ ‫משקיעים‬ •‫מחשב‬Deep Blue‫שחמט‬ ‫אלוף‬ ‫ניצח‬(‫פעם‬ ‫אפשרי‬ ‫בלתי‬ ‫שזה‬ ‫חשבו‬) •Blue Gene‫של‬ ‫במיפוי‬ ‫שעוזר‬ ‫מחשב‬ ‫אנושי‬ ‫גינום‬ https://en.wikipedia.org/wiki/IBM_Blue_Gene
  • 27.
    IBM Watson •‫בחברת‬IBM‫במדע‬ ‫משאבים‬‫המון‬ ‫משקיעים‬ •‫מחשב‬Deep Blue‫שחמט‬ ‫אלוף‬ ‫ניצח‬(‫פעם‬ ‫אפשרי‬ ‫בלתי‬ ‫שזה‬ ‫חשבו‬) •Blue Gene‫גינום‬ ‫של‬ ‫במיפוי‬ ‫שעוזר‬ ‫מחשב‬ ‫אנושי‬ •‫ב‬-2005‫שיוכל‬ ‫מחשב‬ ‫לבנות‬ ‫החליטו‬ ‫פופולארי‬ ‫במשחק‬ ‫לשחק‬Jeopardy https://en.wikipedia.org/wiki/Jeopardy!
  • 28.
    IBM Watson •‫בחברת‬IBM‫במדע‬ ‫משאבים‬‫המון‬ ‫משקיעים‬ •‫מחשב‬Deep Blue‫שחמט‬ ‫אלוף‬ ‫ניצח‬(‫פעם‬ ‫אפשרי‬ ‫בלתי‬ ‫שזה‬ ‫חשבו‬) •Blue Gene‫גינום‬ ‫של‬ ‫במיפוי‬ ‫שעוזר‬ ‫מחשב‬ ‫אנושי‬ •‫ב‬-2005‫שיוכל‬ ‫מחשב‬ ‫לבנות‬ ‫החליטו‬ ‫פופולארי‬ ‫במשחק‬ ‫לשחק‬Jeopardy https://en.wikipedia.org/wiki/Jeopardy!
  • 29.
  • 30.
  • 31.
    ‫למה‬jeopardy‫קשה‬ ‫משחק‬? •‫שונים‬ ‫מתחומים‬‫השאלות‬ •‫חידה‬ ‫של‬ ‫בצורה‬ ‫השאלות‬ •‫חדשות‬ ‫שאלות‬ ‫מחברים‬ ‫משחק‬ ‫לכל‬ •‫מבחוץ‬ ‫עזרה‬ ‫לקבל‬ ‫אסור‬ •‫זמן‬ ‫הגבלת‬ •‫מתחרים‬ ‫יש‬ •... •...
  • 32.
    ‫נתונים‬ ‫מדע‬ ‫של‬‫הקסם‬–‫של‬ ‫הקסם‬Watson
  • 33.
    ‫נתונים‬ ‫מדע‬ ‫של‬‫הקסם‬–‫של‬ ‫הקסם‬Watson •Watson‫מחשב‬ ‫הוא‬-‫עם‬ ‫על‬3000‫מעבדים‬ •“ Watson‫למד‬"‫דטה‬ ‫המון‬:‫מילונים‬, ‫ספרים‬,‫עיתונים‬,‫אנציקלופדיות‬,UH •‫ושיטות‬ ‫אלגוריתמים‬ ‫בהמון‬ ‫השתמש‬ ‫מתקדמות‬ ‫אופטימיזציה‬ Data ‫אלגוריתמים‬ ‫מתקדמים‬ NLP ‫במשחק‬ ‫ניצחון‬
  • 34.
    Watson‫היום‬ •‫ב‬ ‫משתמשים‬ ‫היום‬-Watson‫בתחומים‬ ‫שונים‬ •‫סרטן‬‫לחולי‬ ‫טוב‬ ‫הכי‬ ‫טיפול‬ ‫למצוא‬ ‫כדי‬ ‫למשל‬ https://www.ibm.com/il-en/marketplace/clinical-decision-support-oncology
  • 35.
    ‫יותר‬ ‫לדעת‬ ‫רוצים‬? •‫עוזר‬‫ובמה‬ ‫משתמשים‬ ‫איך‬Watson‫היום‬? • https://www.ibm.com/watson/ai-stories/
  • 36.
  • 37.
    eHarmony •‫היכרויות‬ ‫אתר‬ •‫ויחסים‬ ‫לאהבה‬‫מדעית‬ ‫גישה‬ •‫בערך‬4-5%‫ב‬ ‫נישואים‬USA-‫הודות‬ ‫ל‬-eHarmony •‫מעל‬ ‫האתר‬ ‫של‬ ‫רווח‬1‫דולר‬ ‫מיליארד‬ https://en.wikipedia.org/wiki/EHarmony
  • 38.
    eHarmony: data •‫משתמש‬ ‫שכל‬‫משאלונים‬ ‫באים‬ ‫נתונים‬ ‫למלא‬ ‫חייב‬ •‫שאלות‬ ‫מאות‬ ‫כמה‬ ‫יש‬ ‫בשאלון‬
  • 39.
    eHarmony: data •‫תוצאות‬ ‫סמך‬‫על‬ ‫זיווג‬ ‫מבצע‬ ‫האתר‬ ‫מתקדמים‬ ‫אלגוריתמים‬ ‫ביצעו‬ (‫סודיים‬)‫משתמש‬ ‫נתוני‬ ‫של‬ ‫לאנליזה‬ •‫באתר‬ ‫מחפש‬ ‫לא‬ ‫המשתמש‬
  • 40.
    eHarmony: ‫אופטימיזציה‬ ‫בעיית‬ •‫צריך‬‫שאלונים‬ ‫של‬ ‫אנליזה‬ ‫אחרי‬ ‫אופטימיזציה‬ ‫בעיית‬ ‫לפתור‬–‫איך‬ ‫למקסם‬ ‫כדי‬ ‫לזוגות‬ ‫אנשים‬ ‫לחלק‬ ‫התאמות‬
  • 41.
    eHarmony: ‫אופטימיזציה‬ ‫בעיית‬ •‫צריך‬‫שאלונים‬ ‫של‬ ‫אנליזה‬ ‫אחרי‬ ‫אופטימיזציה‬ ‫בעיית‬ ‫לפתור‬–‫איך‬ ‫למקסם‬ ‫כדי‬ ‫לזוגות‬ ‫אנשים‬ ‫לחלק‬ ‫התאמות‬
  • 42.
    eHarmony: ‫אופטימיזציה‬ ‫בעיית‬ •‫צריך‬‫שאלונים‬ ‫של‬ ‫אנליזה‬ ‫אחרי‬ ‫אופטימיזציה‬ ‫בעיית‬ ‫לפתור‬–‫איך‬ ‫למקסם‬ ‫כדי‬ ‫לזוגות‬ ‫אנשים‬ ‫לחלק‬ ‫התאמות‬ ‫יותר‬ ‫טוב‬ ‫אפשר‬ ‫האם‬?
  • 43.
    eHarmony: ‫אופטימיזציה‬ ‫בעיית‬ •‫צריך‬‫שאלונים‬ ‫של‬ ‫אנליזה‬ ‫אחרי‬ ‫אופטימיזציה‬ ‫בעיית‬ ‫לפתור‬–‫איך‬ ‫למקסם‬ ‫כדי‬ ‫לזוגות‬ ‫אנשים‬ ‫לחלק‬ ‫התאמות‬
  • 44.
    eHarmony: ‫אופטימיזציה‬ ‫בעיית‬ •‫צריך‬‫שאלונים‬ ‫של‬ ‫אנליזה‬ ‫אחרי‬ ‫אופטימיזציה‬ ‫בעיית‬ ‫לפתור‬–‫איך‬ ‫למקסם‬ ‫כדי‬ ‫לזוגות‬ ‫אנשים‬ ‫לחלק‬ ‫התאמות‬ ‫יותר‬ ‫טוב‬ ‫אפשר‬ ‫האם‬?
  • 45.
    eHarmony: ‫אופטימיזציה‬ ‫בעיית‬ •‫צריך‬‫שאלונים‬ ‫של‬ ‫אנליזה‬ ‫אחרי‬ ‫אופטימיזציה‬ ‫בעיית‬ ‫לפתור‬–‫איך‬ ‫למקסם‬ ‫כדי‬ ‫לזוגות‬ ‫אנשים‬ ‫לחלק‬ ‫התאמות‬ ‫יותר‬ ‫טוב‬ ‫אפשר‬ ‫האם‬?‫לא‬!
  • 46.
    eHarmony: ‫אופטימיזציה‬ ‫בעיית‬ •‫צריך‬‫שאלונים‬ ‫של‬ ‫אנליזה‬ ‫אחרי‬ ‫אופטימיזציה‬ ‫בעיית‬ ‫לפתור‬–‫איך‬ ‫למקסם‬ ‫כדי‬ ‫לזוגות‬ ‫אנשים‬ ‫לחלק‬ ‫התאמות‬ ‫יותר‬ ‫טוב‬ ‫אפשר‬ ‫האם‬?‫לא‬!‫למה‬?
  • 47.
  • 48.
    eHarmony: beware •‫של‬ ‫שגישה‬‫הטוענים‬ ‫חוקרים‬ ‫יש‬ eHarmony‫מדעית‬ ‫לא‬ https://www.laweekly.com/ucla-professors-say-eharmony-is-unscientific- and-its-customers-are-duped-heres-why/
  • 49.
    ‫החלל‬ ‫מעבורת‬ ‫אסון‬‫צ‬'‫לנג‬'‫ר‬ •‫נאס‬‫בתולדות‬ ‫משמעותי‬ ‫אסון‬"‫א‬ •‫החלל‬ ‫מעברת‬ ‫באוויר‬ ‫התפוצצה‬‫צ‬'‫לנג‬'‫ר‬ 73‫שהמריאה‬ ‫אחרי‬ ‫שניות‬ https://en.wikipedia.org/wiki/Space_Shuttle_Challenger_disaster
  • 50.
    ‫החלל‬ ‫מעבורת‬ ‫אסון‬‫צ‬'‫לנג‬'‫ר‬ https://www.youtube.com/watch?v=fSTrmJtHLFU •24‫בהצלחה‬‫הסתיימו‬ ‫קודמות‬ ‫המראות‬ •‫כל‬ ‫אם‬ ‫לקראות‬ ‫יכול‬ ‫אסון‬5O-ring ‫מתקלקלים‬ ‫במעבורת‬ •‫שבהן‬ ‫המראות‬ ‫היו‬1-3O-ring‫התקלקלו‬ •‫קר‬ ‫היה‬ ‫הגורלית‬ ‫המראה‬ ‫ביום‬:‫מינוס‬1 ‫צלזיוס‬ ‫מעלות‬(30‫פרנהייט‬) •‫לבצע‬ ‫מותר‬ ‫האם‬ ‫מעבר‬ ‫נתונים‬ ‫היו‬ ‫לא‬ ‫כאלו‬ ‫בתנאים‬ ‫המראה‬
  • 51.
    ‫החלל‬ ‫מעבורת‬ ‫אסון‬‫צ‬'‫לנג‬'‫ר‬ https://www.youtube.com/watch?v=fSTrmJtHLFU •‫לבצע‬‫מותר‬ ‫האם‬ ‫מעבר‬ ‫נתונים‬ ‫היו‬ ‫לא‬ ‫כאלו‬ ‫בתנאים‬ ‫המראה‬
  • 52.
    ‫החלל‬ ‫מעבורת‬ ‫אסון‬‫צ‬'‫לנג‬'‫ר‬ •‫לבצע‬‫מותר‬ ‫האם‬ ‫מעבר‬ ‫נתונים‬ ‫היו‬ ‫לא‬ ‫כאלו‬ ‫בתנאים‬ ‫המראה‬ •‫המראות‬ ‫כל‬ ‫על‬ ‫מעבר‬ ‫נתונים‬ ‫היו‬ ‫אבל‬ ‫שהיו‬
  • 53.
    ‫החלל‬ ‫מעבורת‬ ‫אסון‬‫צ‬'‫לנג‬'‫ר‬ •‫לבצע‬‫מותר‬ ‫האם‬ ‫מעבר‬ ‫נתונים‬ ‫היו‬ ‫לא‬ ‫כאלו‬ ‫בתנאים‬ ‫המראה‬ •‫המראות‬ ‫כל‬ ‫על‬ ‫מעבר‬ ‫נתונים‬ ‫היו‬ ‫אבל‬ ‫שהיו‬ •‫לא‬ ‫אבל‬"‫דיברו‬"‫אסון‬ ‫ולכן‬ ‫הנתונים‬ ‫עם‬ ‫קרא‬
  • 54.
    ‫נתונים‬ ‫מדע‬ ‫של‬‫הקסם‬ Data logistic regression
  • 55.
    ‫סיכום‬ ‫בנתונים‬ ‫לשימוש‬ ‫שונות‬‫דוגמאות‬ ‫ראינו‬ ‫כסף‬ ‫לחסוך‬ ‫או‬ ‫חיים‬ ‫להציל‬ ‫יכול‬ ‫בנתונים‬ ‫נכון‬ ‫שימוש‬
  • 56.
  • 57.
    Today data and datascientist computer
  • 58.
  • 59.
    ‫נתונים‬ ‫מדעי‬ ‫מהם‬?‫מסחרי‬‫מבט‬ •‫נתונים‬ ‫של‬ ‫ענקית‬ ‫כמות‬ ‫קיימת‬ ‫היום‬: •‫מאינטרנט‬ ‫נתונים‬:Google, Yahoo, Facebook •‫קניות‬ ‫נתוני‬:Amazon, Shufersal •‫בנקאיות‬ ‫נתוני‬:‫הלוואות‬,‫תשלומים‬ •‫חישוב‬ ‫כוח‬(‫מחשבים‬)‫זול‬ ‫ויותר‬ ‫חזק‬ ‫יותר‬ •‫מתחרים‬ ‫המון‬,‫להפסיד‬ ‫לא‬ ‫חשוב‬
  • 60.
    •‫נתונים‬ ‫של‬ ‫ענקית‬‫כמות‬ ‫קיימת‬ ‫היום‬: •‫בחלל‬ ‫בלוויין‬ ‫חיישנים‬ •‫רציף‬ ‫באופן‬ ‫נתונים‬ ‫ואוספים‬ ‫שעבדים‬ ‫טלסקופים‬ •‫ביולוגיים‬ ‫נתונים‬ •‫מדעיות‬ ‫סימולציות‬ •‫לחוקרים‬ ‫עוזר‬ ‫נתונים‬ ‫מדע‬: •‫השארות‬ ‫לבדוק‬ •‫חדשות‬ ‫השארות‬ ‫למצוא‬ •‫גדולים‬ ‫נתונים‬ ‫של‬ ‫מהיר‬ ‫איבוד‬ ‫נתונים‬ ‫מדעי‬ ‫מהם‬?‫מדעי‬ ‫מבט‬
  • 61.
    ‫נתונים‬ ‫מדעי‬ ‫מהם‬?‫הגדרות‬ •‫יחידה‬‫הגדרה‬ ‫אין‬ •‫מנתונים‬ ‫חדש‬ ‫מידע‬ ‫קבלת‬ •‫נתונים‬ ‫של‬ ‫אוטומטית‬ ‫אנליזה‬ ‫חשובות‬ ‫תבניות‬ ‫למצוא‬ ‫במטרה‬
  • 62.
  • 63.
    ‫סיכום‬ ‫נתונים‬ ‫למדעי‬ ‫אחת‬‫הגדרה‬ ‫אין‬ ‫בנתונים‬ ‫עוסקים‬ ‫נתונים‬ ‫מדעי‬:‫איסוף‬,‫עיבוד‬,‫אנליזה‬,‫קבלת‬ ‫החלטות‬ ‫מדע‬ ‫וגם‬ ‫אומנות‬ ‫גם‬ ‫הם‬ ‫נתונים‬ ‫מדעי‬ ‫חיים‬ ‫להציל‬ ‫או‬ ‫להרוויח‬ ‫מאפשרים‬ ‫נתונים‬ ‫מדעי‬
  • 64.
  • 65.
  • 66.
    •‫מדע‬ ‫איש‬ ‫הוא‬‫נתונים‬ ‫מדען‬: •‫העולם‬ ‫את‬ ‫להבין‬ ‫מנסה‬ •‫חדשים‬ ‫דברים‬ ‫לגלות‬ ‫אוהב‬ •‫נתונים‬ ‫לאיסוף‬ ‫חדשות‬ ‫שיטות‬ ‫ממציא‬ •‫התוצאות‬ ‫את‬ ‫להבין‬ ‫מנסה‬ •‫טעויות‬ ‫להכיל‬ ‫יכולים‬ ‫שנתונים‬ ‫יודע‬ •‫לתובנות‬ ‫מספרים‬ ‫הופך‬ ‫מיהו‬/‫י‬‫מדענ‬/‫ית‬‫נתונים‬
  • 67.
    •‫חשובות‬ ‫שאלות‬ ‫שתי‬: •‫בעיה‬‫בהינתן‬–‫שיעזרו‬ ‫נתונים‬ ‫מהם‬ ‫אותה‬ ‫לפתור‬ •‫נתונים‬ ‫בהינתן‬–‫שאלות‬ ‫אילו‬ ‫לפתור‬ ‫אפשר‬ ‫מעניינות‬ ‫מיהו‬/‫י‬‫מדענ‬/‫ית‬‫נתונים‬
  • 68.
    ‫נתונים‬ ‫על‬ ‫מעניינות‬‫שאלות‬ •‫סקרן‬ ‫אדם‬ ‫בן‬ ‫הוא‬ ‫נתונים‬ ‫מדען‬ •‫הנתונים‬ ‫על‬ ‫שאלות‬ ‫לשאול‬ ‫היא‬ ‫נתונים‬ ‫מדען‬ ‫של‬ ‫ממיומנויות‬ ‫אחת‬ •‫מעניינים‬ ‫נתונים‬ ‫של‬ ‫דוגמה‬ ‫נראה‬ ‫הבא‬ ‫בתרגיל‬,‫הדוגמה‬ ‫על‬ ‫תחשבו‬ ‫ורשמו‬5‫דאטה‬ ‫על‬ ‫שאלות‬
  • 69.
    Internet Movie Database(IMDB) •IMDB‫סרטים‬ ‫על‬ ‫מידע‬ ‫מאגר‬ ‫הוא‬ •‫מ‬ ‫יותר‬ ‫על‬ ‫רשומות‬ ‫מכיל‬ ‫האתר‬-3.5 ‫סרטים‬ ‫מיליוני‬ •‫שלו‬ ‫פרמטרים‬ ‫על‬ ‫מידע‬ ‫יש‬ ‫סרט‬ ‫לכל‬ •‫על‬ ‫מפורט‬ ‫מידע‬ ‫מכיל‬ ‫גם‬ ‫האתר‬ ‫שחקנים‬ https://www.imdb.com/
  • 70.
    Internet Movie Database(IMDB) https://www.imdb.com/ Movie Data
  • 71.
    Internet Movie Database(IMDB) https://www.imdb.com/ Movie Data ‫הנתונים‬ ‫מדעי‬ ‫איך‬ ‫מראה‬ ‫הסרט‬ ‫בספורט‬ ‫לעזור‬ ‫יכולים‬–‫מומלץ‬ ‫לצפייה‬
  • 72.
    Internet Movie Database(IMDB) https://www.imdb.com/ Actor Data
  • 73.
  • 74.
    Internet Movie Database(IMDB) •‫מעניינות‬ ‫שאלות‬:
  • 75.
    Internet Movie Database(IMDB) •‫מעניינות‬ ‫שאלות‬: •‫חדש‬ ‫מסרט‬ ‫מרוצים‬ ‫יהיו‬ ‫אנשים‬ ‫כמה‬ ‫לנבות‬ ‫אפשר‬ ‫האם‬? •‫חדש‬ ‫סרט‬ ‫של‬ ‫רווח‬ ‫יהי‬ ‫מה‬? •‫מסוים‬ ‫בסרט‬ ‫שחקנים‬ ‫של‬ ‫גיל‬ ‫מתפלג‬ ‫איך‬? •‫אחרים‬ ‫מאנשים‬ ‫יותר‬ ‫חיים‬ ‫קולנוע‬ ‫שחקני‬ ‫האם‬? •‫הרבה‬ ‫הכי‬ ‫מרוויח‬ ‫שחקן‬ ‫איזה‬? •‫הסרט‬ ‫את‬ ‫יאהב‬ ‫מסוים‬ ‫שצופה‬ ‫סיכוי‬ ‫להעריך‬ ‫אפשר‬ ‫האם‬? •...
  • 76.
  • 77.
    ‫בניו‬ ‫מוניות‬ ‫נתוני‬‫מאגר‬-‫יורק‬ •‫וניתן‬ ‫באינטרנט‬ ‫נמצאים‬ ‫הנתונים‬ ‫עצמאי‬ ‫באופן‬ ‫אותם‬ ‫להוריד‬ https://data.cityofnewyork.us/Transportation/2018-Yellow-Taxi- Trip-Data/
  • 78.
    ‫בניו‬ ‫מוניות‬ ‫נתוני‬‫מאגר‬-‫יורק‬ •‫וניתן‬ ‫באינטרנט‬ ‫נמצאים‬ ‫הנתונים‬ ‫עצמאי‬ ‫באופן‬ ‫אותם‬ ‫להוריד‬ •‫נסיעות‬ ‫על‬ ‫מידע‬ ‫מכילים‬ ‫הנתונים‬: ‫מרחק‬,‫זמן‬,‫תשלום‬,‫קיבל‬ ‫נהג‬ ‫האם‬ ‫וכו‬ ‫טיפ‬' https://data.cityofnewyork.us/Transportation/2018-Yellow-Taxi- Trip-Data/
  • 79.
    ‫בניו‬ ‫מוניות‬ ‫נתוני‬‫מאגר‬-‫יורק‬ •‫מעניינות‬ ‫שאלות‬:
  • 80.
    ‫בניו‬ ‫מוניות‬ ‫נתוני‬‫מאגר‬-‫יורק‬ •‫מעניינות‬ ‫שאלות‬: •‫לילה‬ ‫במשמרת‬ ‫נהג‬ ‫של‬ ‫רווח‬ ‫מה‬? •‫נסיעה‬ ‫אורך‬ ‫מתפלג‬ ‫איך‬? •‫העומס‬ ‫בשעות‬ ‫ממוצעת‬ ‫מהירות‬ ‫מהי‬? •‫טיפ‬ ‫יותר‬ ‫מקבלים‬ ‫זריזים‬ ‫נהגים‬ ‫האם‬? •‫לנוסע‬ ‫לחכות‬ ‫כדאי‬ ‫איפה‬? •...
  • 81.
    ‫סיכום‬ ‫מחקר‬ ‫השאלת‬ ‫על‬‫לענות‬ ‫כדי‬ ‫צריך‬ ‫נתונים‬ ‫אילו‬ ‫לדעת‬ ‫חשוב‬ ‫אפשר‬ ‫שעליכן‬ ‫שאלות‬ ‫מהן‬ ‫לדעת‬ ‫חשוב‬ ‫נתונים‬ ‫מאגר‬ ‫בהינתן‬ ‫לענות‬
  • 82.
    ‫נתונים‬ ‫מדען‬ ‫עובד‬‫איך‬? •‫נראה‬ ‫לא‬ ‫הנתונים‬ ‫עם‬ ‫עבודה‬ ‫תהליך‬ ‫כך‬
  • 83.
    ‫נתונים‬ ‫מדען‬ ‫עובד‬‫איך‬? •‫מורכב‬ ‫הוא‬ ‫נתונים‬ ‫עם‬ ‫עבודה‬ ‫תהליך‬ ‫שלבים‬ ‫מספר‬ ‫ומכיל‬ ‫יחסית‬ •‫המקובלים‬ ‫תהליכים‬ ‫מספר‬ ‫קיים‬ ‫נתונים‬ ‫עם‬ ‫לעבודה‬ •‫אחד‬ ‫תהליך‬ ‫נלמד‬ ‫אנו‬:DM-CRISP
  • 84.
    CRISP-DM •‫תהליך‬DM-CRISP‫עם‬ ‫לעבוד‬ ‫מאפשר‬ ‫ויעיל‬‫מסודר‬ ‫באופן‬ ‫נתונים‬ •‫התהליך‬ ‫את‬ ‫נכיר‬ ‫רק‬ ‫היום‬ https://en.wikipedia.org/wiki/Cross-industry_standard_process_for_data_mining
  • 85.
    CRISP-DM •‫תהליך‬DM-CRISP‫עם‬ ‫לעבוד‬ ‫מאפשר‬ ‫ויעיל‬‫מסודר‬ ‫באופן‬ ‫נתונים‬ •‫התהליך‬ ‫את‬ ‫נכיר‬ ‫רק‬ ‫היום‬ https://en.wikipedia.org/wiki/Cross-industry_standard_process_for_data_mining ‫הבנת‬ ‫העסק‬ ‫הבנת‬ ‫דאטה‬ ‫הכנת‬ ‫דאטה‬ ‫והפעלת‬ ‫בניית‬ ‫מודלים‬ ‫של‬ ‫הערכה‬ ‫תוצאות‬ ‫במודל‬ ‫שימוש‬ ‫דאטה‬
  • 86.
    CRISP-DM: ‫העסק‬ ‫הבנת‬ •‫ראשון‬‫שלב‬ ‫זה‬ ‫כלל‬ ‫בדרך‬ ‫העסק‬ ‫הבנת‬ •‫חשוב‬ ‫זה‬ ‫בשלב‬‫להבין‬‫של‬ ‫עסקיות‬ ‫מטרות‬ ‫עסק‬: •‫הוצאות‬ ‫להקטין‬ •‫רווח‬ ‫להגדיל‬ •‫לקוחות‬ ‫של‬ ‫נשירה‬ ‫אחוז‬ ‫למזער‬ •... https://en.wikipedia.org/wiki/Cross-industry_standard_process_for_data_mining ‫הבנת‬ ‫העסק‬ ‫הבנת‬ ‫דאטה‬ ‫הכנת‬ ‫דאטה‬ ‫והפעלת‬ ‫בניית‬ ‫מודלים‬ ‫של‬ ‫הערכה‬ ‫תוצאות‬ ‫במודל‬ ‫שימוש‬ ‫דאטה‬
  • 87.
    CRISP-DM: ‫דאטה‬ ‫הבנת‬ •‫בתהליך‬‫שני‬ ‫שלב‬ ‫דאטה‬ ‫הבנת‬ •‫ראשוני‬ ‫מידע‬ ‫איסוף‬ •‫המידע‬ ‫תיור‬ •‫המידע‬ ‫הבנת‬ •‫המידע‬ ‫איכות‬ ‫וידוא‬ •‫יש‬ ‫עסקיות‬ ‫דרישות‬ ‫על‬ ‫עונה‬ ‫לא‬ ‫דאטה‬ ‫אם‬ ‫קודם‬ ‫לשלב‬ ‫לחזור‬ https://en.wikipedia.org/wiki/Cross-industry_standard_process_for_data_mining ‫הבנת‬ ‫העסק‬ ‫הבנת‬ ‫דאטה‬ ‫הכנת‬ ‫דאטה‬ ‫והפעלת‬ ‫בניית‬ ‫מודלים‬ ‫של‬ ‫הערכה‬ ‫תוצאות‬ ‫במודל‬ ‫שימוש‬ ‫דאטה‬
  • 88.
    CRISP-DM: ‫דאטה‬ ‫הכנת‬ •‫בתהליך‬‫שלישי‬ ‫שלב‬ •‫שינותח‬ ‫דאטה‬ ‫בחירת‬ •‫הנתונים‬ ‫ניקוי‬ •‫חסרים‬ ‫בערכים‬ ‫טיפול‬ •‫לניתוח‬ ‫נוח‬ ‫לפורמט‬ ‫נתונים‬ ‫העברת‬ •‫חריגים‬ ‫בערכים‬ ‫טיפול‬ https://en.wikipedia.org/wiki/Cross-industry_standard_process_for_data_mining ‫הבנת‬ ‫העסק‬ ‫הבנת‬ ‫דאטה‬ ‫הכנת‬ ‫דאטה‬ ‫והפעלת‬ ‫בניית‬ ‫מודלים‬ ‫של‬ ‫הערכה‬ ‫תוצאות‬ ‫במודל‬ ‫שימוש‬ ‫דאטה‬
  • 89.
    CRISP-DM: ‫מודלים‬ ‫והפעלת‬‫בניית‬ •‫רביעי‬ ‫שלב‬–modeling •‫לנתונים‬ ‫מתאים‬ ‫מדול‬ ‫מודל‬ ‫בחירת‬ •‫לנתונים‬ ‫המודל‬ ‫התאמת‬ •‫שנצטרך‬ ‫ייתכן‬ ‫מתאים‬ ‫מודל‬ ‫נמצא‬ ‫לא‬ ‫אם‬ ‫קודם‬ ‫לשלב‬ ‫לחזור‬ https://en.wikipedia.org/wiki/Cross-industry_standard_process_for_data_mining ‫הבנת‬ ‫העסק‬ ‫הבנת‬ ‫דאטה‬ ‫הכנת‬ ‫דאטה‬ ‫והפעלת‬ ‫בניית‬ ‫מודלים‬ ‫של‬ ‫הערכה‬ ‫תוצאות‬ ‫במודל‬ ‫שימוש‬ ‫דאטה‬
  • 90.
    CRISP-DM: ‫תוצאות‬ ‫של‬‫הערכה‬ •‫חמישי‬ ‫שלב‬–evaluation •‫שבנינו‬ ‫המודלים‬ ‫איכות‬ ‫בדיקת‬ •‫טובה‬ ‫מספיק‬ ‫איכות‬ ‫האם‬? •‫לחזור‬ ‫צורך‬ ‫יש‬ ‫טובה‬ ‫מספיק‬ ‫לא‬ ‫איכות‬ ‫אם‬ ‫קודמים‬ ‫לשלבים‬ https://en.wikipedia.org/wiki/Cross-industry_standard_process_for_data_mining ‫הבנת‬ ‫העסק‬ ‫הבנת‬ ‫דאטה‬ ‫הכנת‬ ‫דאטה‬ ‫והפעלת‬ ‫בניית‬ ‫מודלים‬ ‫של‬ ‫הערכה‬ ‫תוצאות‬ ‫במודל‬ ‫שימוש‬ ‫דאטה‬
  • 91.
    CRISP-DM: ‫במודל‬ ‫שימוש‬ •‫שישי‬‫שלב‬–deployment •‫או‬ ‫עסקיות‬ ‫למטרות‬ ‫שבנינו‬ ‫במודל‬ ‫שימוש‬ ‫מחקריות‬: •‫ניבוי‬ •‫אופטימיזציה‬ •‫השארות‬ ‫בדיקת‬ •... https://en.wikipedia.org/wiki/Cross-industry_standard_process_for_data_mining ‫הבנת‬ ‫העסק‬ ‫הבנת‬ ‫דאטה‬ ‫הכנת‬ ‫דאטה‬ ‫והפעלת‬ ‫בניית‬ ‫מודלים‬ ‫של‬ ‫הערכה‬ ‫תוצאות‬ ‫שימוש‬ ‫במודל‬ ‫דאטה‬
  • 92.
    CRISP-DM ‫סיכום‬: •‫פשוט‬ ‫איננו‬‫נתונים‬ ‫עם‬ ‫עבודה‬ ‫תהליך‬ •‫שלבים‬ ‫ממספר‬ ‫מורכב‬ ‫התהליך‬ •‫קודמים‬ ‫לשלבים‬ ‫חוזרים‬ ‫וצורך‬ ‫במידה‬ •‫התהליך‬ ‫למעשה‬‫האמיתי‬‫יותר‬ ‫מורכב‬ ‫הינו‬ https://en.wikipedia.org/wiki/Cross-industry_standard_process_for_data_mining ‫הבנת‬ ‫העסק‬ ‫הבנת‬ ‫דאטה‬ ‫הכנת‬ ‫דאטה‬ ‫והפעלת‬ ‫בניית‬ ‫מודלים‬ ‫של‬ ‫הערכה‬ ‫תוצאות‬ ‫במודל‬ ‫שימוש‬ ‫דאטה‬
  • 93.
  • 94.
    ‫אוכל‬ ‫הכנת‬ ‫הבנת‬ ‫העסק‬ ‫הבנת‬ ‫דאטה‬ ‫הכנת‬ ‫דאטה‬ ‫והפעלת‬ ‫בניית‬ ‫מודלים‬ ‫של‬‫הערכה‬ ‫תוצאות‬ ‫במודל‬ ‫שימוש‬ ‫דאטה‬ ‫הבנת‬ ‫צורך‬ ‫איזה‬ ‫יש‬ ‫מוצרים‬ ‫הכנת‬ ‫מוצרים‬ ‫אוכל‬ ‫הכנת‬ ‫איכות‬ ‫בדיקת‬ ‫אוכל‬ ‫של‬ ‫אכילה‬ ‫דאטה‬
  • 95.
    ‫סיכום‬ ‫פשוט‬ ‫לא‬ ‫הוא‬‫נתונים‬ ‫עם‬ ‫עבודה‬ ‫תהליך‬ CRISP-DM‫באופן‬ ‫נתונים‬ ‫עם‬ ‫לעבוד‬ ‫המאפשר‬ ‫פרוטוקול‬ ‫ואמין‬ ‫מסודר‬ CRISP-DM‫משלבים‬ ‫מורכב‬,‫במידה‬ ‫לשלב‬ ‫משלב‬ ‫לחזור‬ ‫ניתן‬ ‫הצורך‬
  • 96.
  • 97.
  • 98.