08448380779 Call Girls In Bhikaji Cama Palace Women Seeking Men
How we won the 2nd place In KaggleDays Championship.pptx
1. How we won the 2nd place
In Kaggle-Days Championship
CKS Team - Cohen, Cohen, Katz & (Gold)Shlager
2.
3. Kaggle-Days
2022 world
championship -
the numbers
Vestibulum congue
Vestibulum congue
Vestibulum congue
Vestibulum congue
Vestibulum congue
Vestibulum congue
competitions
tournaments
teams made it
to the finals
Simultaneous
competitions
2nd
Place!
36
13
2
17
Grandmasters
Include 5 from
the top 10
1
Team from the
Middle East
:)
4.
5. First competition - Don't stop until you drop!
Predict the yoga pose correctly!
● Training datasets include
2360 images
● 6 yoga pose targets
● 4 hours of competition -
not enough time to clean the
data
● various sources and partly
synthetic
6. How can a model understand an image?
● classical methods (no machine learning)
○ edge detections, contrasts, RGB analysis, ...
● traditional machine learning methods
○ - Fully connected neural networks
● A little bit advanced
○ - CNNs
● State-of-the art (SOTA)
○ - Transformers
10. First competition - Don't stop until you drop!
Our approach - 1st place solution
● Strong augmentation
● SOTA models - SwinTransformer
large and Hybrid EfficientNet +
SwinTransformer
● Ensemble
11. First competition - Don't stop until you drop!
Our approach - results
model Private Score Public Score CV score
swin-l-5-folds 0.96699 0.95364 0.9661
swin-b-5-folds 0.95379 0.94260 0.9597
ensemble 0.96039 0.95805 0.9632
https://github.com/OrKatz7/1st-place-Don-t-stop-until-you-drop
● Trust your CV!!
12.
13.
14. Competition #1
Data:
Tabular data of:
● Datetime
● Location
● Sensor Data
● Country
● Country’s population
Free text:
● Observer description
Target:
Sky clearness rate
15. Our approach
EDA & Data Cleaning
● Correcting the data
● Reasonably fill NaNs
Tabular Feature Extraction
● Time-extracted features
● Seeing the bigger picture
● Population’s temporal statistics
20. Our secret sauce - Killer dataset (before modeling)
AutoEDA and data cleansing
Massive feature extraction using human expertise and
automated techniques
Different methods to categoricals encoding
Missing values imputation
Combine different methods for feature selection
הפלטפורמה kaggle היא פלטפורמה וקהילה בין-לאומית של שיתוף ידע ב-Data Science. היא כוללת:
שיתוף Dataset פומביים
שיתוף קוד data science
פורום
ותחרויות data science
תחרות טיפוסיות ב-kaggle אורכות כ-3 חודשים כשבדר"כ האנשים שמצחים בהם הם אנשים שמשקיעים בערך את כל הזמן שלהם בזה
Kaggle days היא פלטפורמה נפרדת שעושה שיתוף פעולה עם kaggle ומארגת תחרויות DS בכל העולם (גם online וגם פיזית).
ב-2022 הם הכריזו על אירוע מסוג אליפות העולם ב-Data Science שבנוי בצורה הבאה:
החל מחודש נובמבר, יש תחרות online בכל חודש (בסה"כ 13 תחרויות מקדימות)
כל חודש, התחרות בנושא אחר (CV, NLP, Tabular, Time-Series...)
ה-top 3 קבוצות מכל תחרות עולים לגמר
הגמר מתקיים באוקטובר פיזית בברצלונה
לגמר עלו 36 קבוצות, מתוכן היו 17 Kaggle grandmasters!!! (להסביר בקצרה מה זה אומר Kaggle grandmaster)
אנחנו הרכבנו קבוצה של 4 אנשים שנמצאים באותה מהמעבדה באוניברסיטה בבן גוריון – ספי כהן דוקטורנט והמנחה שלי בתואר השני, נורית כהן דוקטורנטית ואור כץ מסטרנט.
הקבוצה שלנו הייתה הקבוצה היחידה מהמזרח התיכון וכמובן מישראל
ביום שלפני התחרות היה כנס, ובו חשפו לנו את ההפתעה שבתחרות הגמר יהיו 2 תחרויות במקביל במשך 11 שעות.
אנחנו השתתפנו בתחרות הראשונה שהייתה וירטואלית
להסביר מה המורכבות בדאטה שקיבלנו:
מידע תמונתי – הרבה יותר כבד ודורש משאבים עצומים בשביל באמת לעשות איתו דברים מעניינים
תנוחה מסויימת נראית לפעמים בצורה שונה אצל אנשים שונים
תמונות שמכילות כמה אנשים
מקורות שונים של מידע (גם תמונות מסונטזות וגם תמונות "מאוד" אמיתיות (איכות תמונה לא אחיד, חתוך, ...) – מכל זה המודל צריך ללמוד
להסביר את המורכבות של איבוד תמונה - לתת את הדוגמא:
"אי אפשר לכתוב אלגוריתם קבוע מראש עם if else-ים שבעזרתו נוכל לזהות מכתב יד איזה מספר כתוב. אנחנו צריכים לייצר ייצוג של מה ניתן כ-input ולנתח אותו"
להסביר קצת על התפתחות תחום הvision.
טרנספורמרים – להסביר בכלליות את רעיון ה-Attention. להסביר שנחקר במקור ב-NLP ושאחר כך התאימו את המנגנון ל-Vision (חלוקת תמונה ל-patches)
להסביר ממש בקצרה על SwinTransformer ואיך הוא משפר את ViT שהיה הפעם הראשונה שהשתמשו בטרנספורמרים ב-CV.
להסביר על ארכיטקטורת הפתרון שלנו – הוצאת embeddings מ-EfficientNet ושילובן כ-features נוספים ביחד עם התמונה למודל SwinTransformer
להסביר שהתחרות נשענה הרבה על משאבים ומימוש בזמן מהיר מאוד.
להסביר את המשמעות של cross-validation ובאופן כללי, איך עושים ולידציה למודלים לפני שמעלים איתם הגשה.
להסביר את איך שהגשות בתחרויות kaggle עובדות – Public Leaderboard, Private Leaderboard...
זכינו מקום ראשון...
ניתנו לנו 2 תחרויות באירוע הגמר
להסביר על הרקע של התחרות הראשונה ואת המטרה
להסביר את הדאטה המגוון שקיבלנו
להסביר שזאת תחרות שמשלבת גם Tabular Data, גם Time-Series וגם NLP.
קודם כל עושים EDA
ממחקר של הדאטה מגלים דברים מעניינים
השלמת חוסרים לפי ההגיון הבריא
חילוץ פיצ'רים חכמים – מבדיל את עצמך מאחרים עם מלא מלא מקום ליצירתיות:
האם יום הבדיקה הוא סופש?
שעת הבדיקה ביום ( חילקנו לבינים של בוקר/צהריים/ערב)
להרחיב את דקירת ה-GPS של הבדיקה למרחב רחב יותר בגלל אופי הבעיה (זיהום אור אינה נוגע רק לנקודה במרחב אלא לטווח גדול יותר). פיצ'ר שתרם לנו הרבה
אנחנו מתייחסים לכל התהליך של מחשבה להוספת פי'צר כמו לאל ניסוי. ומניהול נכון של הניסויים אנחנו כל הזמן משתפרים.
המטרה היא לחקור בצורה עמוקה הדאטה, להעלות השערות, להוכיח אותן, לעלות על תופעות נסתרות, בשביל כמה שיותר לייצג בצורה נכונה את ההתפלגות של הנתונים בדומיין של הבעיה. כל זה רק מהדאטה שמקבלים.
ניצול נתוני ה-time series שקיבלנו
הוצאת פיצ'רים חכמה שמתחשבת באופי הטמפורלי של הנתונים
בהתחלה, זנחנו לגמרי את המידע הזה – התרכזנו בדברים אחרים
כמו שהבנו איך מודל יכול להתמודד עם תמונה, נבין עכשיו איך מודל יכול להתמודד עם טקסט חופשי.
TF-IDF - term frequency–inverse document frequency
באחזור מידע, tf–idf (גם TF*IDF, TFIDF, TF–IDF, או Tf–idf), קיצור של תדירות–תדירות מסמך הפוך, הוא נתון מספרי שנועד לשקף כמה חשובה מילה ל- מסמך באוסף או בקורפוס.[1] הוא משמש לעתים קרובות כגורם שקלול בחיפושים של אחזור מידע, כריית טקסט ומודלים של משתמשים. הערך tf–idf גדל באופן יחסי למספר הפעמים שמילה מופיעה במסמך ומתקזז במספר המסמכים בקורפוס המכילים את המילה, מה שעוזר להתאים את העובדה שמילים מסוימות מופיעות בתדירות גבוהה יותר באופן כללי. tf–idf
Transformers – שיטות SOTA
להסביר על איך מודלי שפה מבוססי טרנספורמרים מאומנים ואיך ניתן להשתמש בהם אחרי זה לטובתנו (Transfer Learning)
להסביר על איך אנחנו השתמשנו בהם בתחרות
להסביר ממש בקצרה על SVD, ועל למה השתמשנו ב-Truncated SVD
תחרות שנייה, שהתקיימה במקביל לכמה שמה שדיברנו עליו עכשיו
איזה דאטה קיבלנו (גם NLP וגם Time-Series) ומה המטרה
ניתן להסביר את c-TF-IDF בצורה הטובה ביותר כנוסחת TF-IDF המאומצת עבור מחלקות מרובות על ידי צירוף כל המסמכים לכל מחלקה. לפיכך, כל מחלקה מומרת למסמך בודד במקום לסט של מסמכים. התדירות של כל מילה x נשלפת עבור כל מחלקה c ומנורמלת l1. זה מהווה את המונח תדר.
לאחר מכן, המונח תדירות מוכפל עם IDF שהוא הלוגריתם של 1 בתוספת המספר הממוצע של מילים למחלקה A חלקי התדירות של המילה x בכל המחלקות.
רק בעזרת מחקר עמוק של הדאטה מאפשר להעשיר אותו ולהפוך אותו להרבה יותר איכותי.
הקסם להכל – ensemble אגרסיבי
להסביר קצת על מה זה ensemble ולמה זה עובד
להסביר על שיטת ensemble חזקה – stacking
להסביר על הפעולה האחרונה - משקול ידני של מודלים מוצלחים מהCV ומה-LB