SlideShare a Scribd company logo
1 of 20
‫مقارب‬ ‫باستخدام‬ ‫المجموعات‬ ‫نشاط‬ ‫على‬ ‫التعرف‬
‫ة‬
‫الحاسوبية‬ ‫الرؤية‬ ‫على‬ ‫معتمدة‬
‫إشراف‬
:
‫د‬
.
‫جعفر‬ ‫آصف‬
‫د‬
.
‫رحال‬ ‫ياسر‬ ‫إعداد‬
:
‫نعمة‬ ‫غريس‬
1
‫مراجعة‬
•
‫البحث‬ ‫مسألة‬
:
‫ما‬ ‫بنشاط‬ ‫يقومون‬ ‫أشخاص‬ ‫عدة‬ ‫على‬ ‫الحاوي‬ ‫المشهد‬ ‫معالجة‬
‫مشكل‬ ‫وهي‬
‫ة‬
‫الفيديو‬ ‫مقاطع‬ ‫تحليل‬ ‫خالل‬ ‫من‬ ‫المجموعة‬ ‫نشاط‬ ‫على‬ ‫التعرف‬
.
•
‫الهدف‬
:
‫على‬ ‫التعرف‬ ‫لمهمة‬ ‫حل‬ ‫لتوفير‬ ‫والميزات‬ ‫لألساليب‬ ‫جيدة‬ ‫تركيبات‬ ‫إيجاد‬
‫نشاط‬
‫الفيديو‬ ‫مقاطع‬ ‫من‬ ‫المجموعة‬
.
2
‫المنجزة‬ ‫المراحل‬
•
‫والنظرية‬ ‫المرجعية‬ ‫الدراسة‬
•
‫ودراستها‬ ‫عليها‬ ‫االختبار‬ ‫سيتم‬ ‫التي‬ ‫المعطيات‬ ‫مجموعة‬ ‫تحديد‬
•
‫االستخ‬ ‫آلية‬ ‫على‬ ‫واالطالع‬ ‫الكلي‬ ‫النموذج‬ ‫بناء‬ ‫من‬ ‫األولية‬ ‫المرحلة‬ ‫في‬ ‫المختار‬ ‫للنموذج‬ ‫اكثر‬ ‫فهم‬
‫دام‬
•
‫اتباعها‬ ‫سيتم‬ ‫التي‬ ‫المراحل‬ ‫وفق‬ ‫العمل‬ ‫آلية‬ ‫تصميم‬
3
‫المتبقية‬ ‫المراحل‬
•
‫برمجيا‬ ‫النموذج‬ ‫تنجيز‬ ‫اكمال‬
•
‫النتائج‬ ‫وتحليل‬ ‫االختبارات‬ ‫إجراء‬
•
‫التوازي‬ ‫على‬ ‫التقرير‬ ‫كتابة‬ ‫استكمال‬
4
‫المرجعية‬ ‫الدراسة‬ ‫ملخص‬
‫نشاط‬ ‫على‬ ‫التعرف‬ ‫مسألة‬ ‫لحل‬ ‫اتباعها‬ ‫تم‬ ‫التي‬ ‫األساليب‬ ‫تقسم‬
‫قسمين‬ ‫إلى‬ ‫المجموعات‬
:
•
‫اليدوية‬ ‫الميزات‬ ‫على‬ ‫القائمة‬ ‫التقليدية‬ ‫األساليب‬
:
‫فئتين‬ ‫إلى‬ ‫تقسم‬
:

‫النشاط‬ ‫على‬ ‫للتعرف‬ ‫المجموعة‬ ‫مستوى‬ ‫على‬ ‫المعلومات‬ ‫تحليل‬ ‫على‬ ‫يعتمد‬ ‫الذي‬ ‫أسفل‬ ‫إلى‬ ‫أعلى‬ ‫من‬ ‫النهج‬
‫ح‬ ‫من‬
‫يث‬
‫المجموعة‬ ‫مستوى‬ ‫على‬ ‫والتفاعل‬ ‫الحركة‬
.

‫التصاعدي‬ ‫النهج‬
‫ي‬ ‫الذي‬
‫الفردي‬ ‫السمات‬ ‫من‬ ‫مجموعة‬ ‫على‬ ‫بناء‬ ‫النشاط‬ ‫ووصف‬ ‫فرد‬ ‫كل‬ ‫على‬ ‫التعرف‬ ‫على‬ ‫ركز‬
‫ة‬
‫وإحصاءاتها‬
.
‫الفردية‬ ‫الميزات‬ ‫استخراج‬ ‫لفشل‬ ‫حساسة‬ ‫فهي‬ ،‫لذلك‬
.
•
‫األساليب‬
‫العميق‬ ‫التعلم‬ ‫على‬ ‫القائمة‬
:
‫تتلخص‬
‫ب‬
‫االنتباه‬ ‫ونمذجة‬ ،‫العالقة‬ ‫ونمذجة‬ ،‫الهرمية‬ ‫الزمنية‬ ‫النمذجة‬
،
‫الموحدة‬ ‫النمذجة‬ ‫عمل‬ ‫إطار‬
5
‫المرجعية‬ ‫الدراسة‬ ‫ملخص‬
•
‫على‬ ‫القائمة‬ ‫األساليب‬ ‫تستخدم‬
‫الهرمية‬ ‫الزمنية‬ ‫النمذجة‬
‫نموذج‬
LSTM
‫الفرد‬ ‫المستوى‬ ‫على‬ ‫لإلجراءات‬ ‫الزمني‬ ‫التمثيل‬ ‫لتعلم‬ ‫مرحلتين‬ ‫من‬
‫ي‬
‫بن‬ ‫األفراد‬ ‫جميع‬ ‫بمعاملة‬ ‫يكون‬ ‫قصورها‬ ‫المجموعة‬ ‫مستوى‬ ‫على‬ ‫تمثيل‬ ‫إلنشاء‬ ‫الفردية‬ ‫الميزات‬ ‫على‬ ‫التجميع‬ ‫وظائف‬ ‫وتطبيق‬
‫األهمية‬ ‫فس‬
.
•
‫على‬ ‫القائمة‬ ‫األساليب‬ ‫تحاول‬
‫االنتباه‬ ‫نمذجة‬
‫المشكل‬ ‫هذه‬ ‫حل‬
‫ة‬
.
‫الزمنية‬ ‫النمذجة‬ ‫على‬ ‫القائمة‬ ‫األساليب‬ ‫من‬ ‫أعلى‬ ‫أداء‬ ‫له‬ ‫األسلوب‬ ‫هذا‬
‫الهرمية‬
.
•
‫مثل‬ ،‫المجموعة‬ ‫نشاط‬ ‫على‬ ‫التعرف‬ ‫في‬ ‫العالقة‬ ‫الستدالل‬ ‫مختلفة‬ ‫طرق‬ ‫تقديم‬ ‫يتم‬
GCN
‫والمحوالت‬
.
‫نمذجة‬ ‫على‬ ‫القائمة‬ ‫األساليب‬ ‫تمتاز‬
‫نشاط‬ ‫ال‬ّ‫ع‬‫ف‬ ‫بشكل‬ ‫تميز‬ ‫أن‬ ‫يمكن‬ ‫التي‬ ‫األشخاص‬ ‫بين‬ ‫والعالقات‬ ‫المحتملة‬ ‫التفاعالت‬ ‫التقاط‬ ‫من‬ ‫بتمكنها‬ ‫العميقة‬ ‫العالقات‬
‫والجماعة‬ ‫الفرد‬
.
•
‫و‬ ‫عصبية‬ ‫شبكة‬ ‫في‬ ‫مشترك‬ ‫بشكل‬ ‫المجموعة‬ ‫نشاط‬ ‫على‬ ‫والتعرف‬ ‫األشخاص‬ ‫اكتشاف‬ ‫إجراء‬ ‫الموحدة‬ ‫النمذجة‬ ‫عمل‬ ‫إطار‬ ‫طرق‬ ‫تحاول‬
‫احدة‬
‫العملية‬ ‫التطبيقات‬ ‫من‬ ‫وتقريبها‬ ‫الخوارزمية‬ ‫تسريع‬ ‫يمكنها‬
.
‫طراز‬ ‫أحدث‬ ‫على‬ ‫التعرف‬ ‫دقة‬ ‫تحقيق‬ ‫يمكنهم‬ ‫ال‬ ،‫ذلك‬ ‫ومع‬
.
•
‫التط‬ ‫في‬ ‫إليها‬ ‫الوصول‬ ‫يتعذر‬ ‫التي‬ ‫التوضيحية‬ ‫التعليقات‬ ‫من‬ ‫المحيط‬ ‫المربع‬ ‫مباشر‬ ‫بشكل‬ ‫الحالية‬ ‫األساليب‬ ‫معظم‬ ‫قر‬ُ‫ت‬
‫العملية‬ ‫بيقات‬
.
‫في‬ ‫البحث‬
‫محدود‬ ‫الموضوع‬ ‫هذا‬
.
6
‫الحاسوبية‬ ‫الرؤية‬ ‫مجال‬ ‫في‬ ‫المحوالت‬
•
‫الطبيعية‬ ‫اللغات‬ ‫معالجة‬ ‫مجال‬ ‫في‬ ‫األخيرة‬ ‫السنوات‬ ‫في‬ ‫المحوالت‬ ‫حققته‬ ‫الذي‬ ‫للنجاح‬ ‫نظرا‬
‫ظهر‬
VIT
‫عانى‬ ‫الذي‬ ‫للصور‬ ‫محوال‬
‫شامل‬ ‫بشكل‬ ‫االهتمام‬ ‫لتطبيق‬ ‫نظرا‬ ‫الكبير‬ ‫التعقيد‬ ‫مشكلة‬ ‫من‬
.
•
‫عام‬ ‫تقديم‬ ‫تم‬
2021
SWIN Transformer
‫يمكن‬ ‫والتي‬ ،‫الكمبيوتر‬ ‫رؤية‬ ‫لمهام‬ ‫العامة‬ ‫لألغراض‬ ‫الفقري‬ ‫العمود‬ ‫باعتباره‬
‫شبكات‬ ‫من‬ ‫أفضل‬ ‫بشكل‬ ،‫والتجزئة‬ ‫والكشف‬ ‫التصنيف‬ ‫إلجراء‬ ‫استخدامها‬
SOTA
‫و‬ ‫التالفيفية‬
ViT
‫إلى‬ ‫الحاجة‬ ‫ظهرت‬ ‫حيث‬ ،
‫ل‬ ّ‫المحو‬ ‫ز‬ّ‫م‬‫مر‬ ‫كتلة‬ ‫داخل‬ ‫االنتباه‬ ‫آلية‬ ‫تعديل‬
.
‫قام‬ ‫حيث‬
SWIN
‫المحلي‬ ‫االهتمام‬ ‫إلى‬ ‫الشامل‬ ‫االهتمام‬ ‫بتحويل‬
.
•
‫بناء‬ ‫تم‬
video swin
‫كمحول‬
video
‫على‬ ‫قائم‬
swin
‫عام‬
2022
‫قبل‬ ‫الفيديو‬ ‫نماذج‬ ‫جميع‬ ‫حيث‬
video swin
‫على‬ ‫مبنية‬
‫والزمانية‬ ‫المكانية‬ ‫األبعاد‬ ‫عبر‬ ‫شامل‬ ‫بشكل‬ ‫التصحيحات‬ ‫تربط‬ ‫التي‬ ‫المحوالت‬ ‫طبقات‬
•
‫نموذج‬
Video Swin Transformer
‫لمحول‬ ‫الهرمي‬ ‫الهيكل‬ ‫بدقة‬ ‫يتبع‬ ،
Swin
‫المحلي‬ ‫االنتباه‬ ‫حساب‬ ‫نطاق‬ ‫يوسع‬ ‫لكنه‬ ،‫األصلي‬
‫المكاني‬ ‫الزماني‬ ‫المجال‬ ‫إلى‬ ‫فقط‬ ‫المكاني‬ ‫المجال‬ ‫من‬
.
7
‫النموذج‬ ‫اختيار‬ ‫دواعي‬
•
‫أعطى‬
‫نموذج‬
video swin
‫بال‬ ‫الخاصة‬ ‫البيانات‬ ‫مجموعات‬ ‫على‬ ‫مميزة‬ ‫نتائج‬
action recognition
:
Something-
Something v2
،
Kinetics-600
،
Kinetics-400
•
‫والمكاني‬ ‫الزماني‬ ‫الترابط‬ ‫التقاط‬ ‫النموذج‬ ‫يستطيع‬
•
‫في‬ ‫معقولة‬ ‫نتيجة‬ ‫سيعطي‬ ‫الصور‬ ‫على‬ ‫التعليق‬ ‫موضوع‬ ‫في‬ ‫جيدة‬ ‫نتائج‬ ‫يعطي‬ ‫الذي‬ ‫النموذج‬ ‫أن‬ ‫فكرة‬ ‫من‬ ‫وانطالقا‬
‫عن‬ ‫الكشف‬
‫الحركة‬
•
‫التالي‬ ‫المقترح‬ ‫نقدم‬
‫التجريبية‬ ‫النتائج‬ ‫بحسب‬ ‫التنجيز‬ ‫أثناء‬ ‫التعديل‬ ‫احتمال‬ ‫مع‬
..
8
‫المقترح‬ ‫النموذج‬ ‫مخطط‬
Visual
Features
Textual
Features
Concate
&
Linear
&
Norm
Concate
Linear
&
Norm
h
Linear
Linear
Linear
Concate
&
Linear
&
Norm
Attention
layer
Attention
layer
Attention
layer
Concate
Linear
&
Norm
Q
K
V
classification
Feature Combination(Cross attention)
3* T*H*W
Video Swin Transformer
Caption Model
Features extraction
P(ac
P(a
9
‫المقترح‬ ‫النموذج‬
.1
Features extraction
:
•
‫أ‬
.
‫الفيديو‬ ‫من‬ ‫المرئية‬ ‫الميزات‬ ‫استخراج‬
:
‫استخدام‬
Swin Transformer
Video
‫من‬ ‫والزمانية‬ ‫المكانية‬ ‫الميزات‬ ‫الستخراج‬
‫الفيديو‬ ‫إطارات‬
.
‫نموذج‬ ‫استخدام‬ ‫خالل‬ ‫من‬
Swin Transformer
‫مسبق‬ ‫مدرب‬
‫ا‬
‫المستخدمة‬ ‫البيانات‬ ‫مجموعة‬ ‫على‬ ‫وضبطه‬
.
•
‫ب‬
.
‫التوضيحية‬ ‫التسمية‬ ‫ميزات‬ ‫استخراج‬
:
‫استخد‬
‫ا‬
‫التوضيحية‬ ‫التسميات‬ ‫الستخراج‬ ‫جاهز‬ ‫لغة‬ ‫نموذج‬ ‫م‬
.
.2
Combination of visual and textual features
:
‫بطريقة‬ ‫الدمج‬ ‫بين‬ ‫المقارنة‬ ‫المرحلة‬ ‫هذه‬ ‫في‬ ‫ستتم‬
concat
‫استخدام‬ ‫بين‬ ‫و‬ ‫فقط‬
cross attention mechanism
‫حيث‬
‫التوضيحية‬ ‫والتعليقات‬ ‫الفيديو‬ ‫ميزات‬ ‫بين‬ ‫المختلفة‬ ‫العالقات‬ ‫بمعرفة‬ ‫للنموذج‬ ‫اآللية‬ ‫هذه‬ ‫تسمح‬
.
‫الميزات‬ ‫لدمج‬ ‫متعددة‬ ‫برؤوس‬ ‫انتباه‬ ‫استخدام‬ ‫يمكن‬
.
‫المستخرج‬ ‫المرئية‬ ‫الميزات‬ ‫بين‬ ‫المتبادل‬ ‫االنتباه‬ ‫إجراء‬ ‫يتم‬ ‫حيث‬
‫من‬ ‫ة‬
Swin
Transformer
‫التوضيحية‬ ‫التسمية‬ ‫نموذج‬ ‫من‬ ‫النصية‬ ‫والميزات‬
(
‫الكابشن‬ ‫توليد‬ ‫قبل‬ ‫معينة‬ ‫طبقة‬ ‫خرج‬ ‫من‬ ‫اخذها‬ ‫ممكن‬
.)
‫سي‬
‫تم‬
‫شرح‬
‫ال‬
‫ذلك‬ ‫لتحقيق‬ ‫المستوى‬ ‫العالية‬ ‫خوارزمية‬
.3
Classification
:
•
‫بطبقة‬ ‫متبوعة‬ ‫بالكامل‬ ‫متصلة‬ ‫طبقة‬ ‫استخدام‬ ‫يمكن‬ ،‫الميزات‬ ‫دمج‬ ‫بمجرد‬
softmax
‫المجموعة‬ ‫أنشطة‬ ‫لتصنيف‬
.
10
Algo of Combination of visual and textual
features
1. Initialize cross attention weights, Wq, Wk, and Wv
2. Calculate the query (Q), key (K), and value (V) matrices
Q_visual = visual_features * Wq_visual
K_text = textual_features * Wk_text
V_text = textual_features * Wv_text
3. Calculate the cross attention scores:
S_visual_to_text = softmax(Q_visual * K_text^T / sqrt(dim_key))
4. Calculate the cross attention context:
C_visual_to_text = S_visual_to_text * V_text
5. Combine the context with the original features:
Combined_visual = concat(visual_features, C_visual_to_text)
11
‫النموذج‬ ‫معمارية‬
swin
:
‫الشب‬ ‫في‬ ‫نتعمق‬ ‫بينما‬ ‫أنه‬ ‫يعكس‬ ‫مما‬ ،‫مرحلة‬ ‫كل‬ ‫في‬ ‫الميزات‬ ‫خرائط‬ ‫حجم‬ ‫الشكل‬ ‫يوضح‬
‫دقة‬ ‫فإن‬ ،‫كة‬
‫يتزايد‬ ‫وعمقها‬ ‫تتناقص‬ ‫الميزات‬ ‫خريطة‬
.
12

‫المرحل‬
‫ة‬
1
:
.1
‫عبر‬ ‫إدخال‬ ‫صورة‬ ‫تمرير‬ ‫يتم‬
patch partition
‫ثابت‬ ‫حجم‬ ‫ذات‬ ‫رقع‬ ‫إلى‬ ‫لتقسيمها‬ ،
.
‫بحجم‬ ‫الصورة‬ ‫كانت‬ ‫إذا‬
H x W
،
‫حجم‬ ‫وكان‬
‫الرقعة‬
4
x
4
،
‫الخرج‬ ‫يكون‬
H/4 x W/4
‫رقعة‬
.
.2
‫تكون‬ ‫رقعة‬ ‫كل‬ ‫فإن‬ ‫لذا‬ ،‫قناة‬ ‫بكل‬ ‫أبعاد‬ ‫لها‬ ‫رقعة‬ ‫كل‬
4
×
4
×
3
=
48
‫بكسل‬
.
‫من‬ ‫رقعة‬ ‫كل‬ ‫لتحويل‬
48
‫أفضل‬ ‫حجم‬ ‫إلى‬
C
‫يتم‬
‫تقوم‬ ‫والتي‬ ،‫طبقة‬ ‫عبر‬ ‫رقعة‬ ‫كل‬ ‫تمرير‬
‫بعد‬ ‫على‬ ‫رقعة‬ ‫كل‬ ‫بإسقاط‬
C
‫بقع‬ ‫لدينا‬ ‫يصبح‬ ‫وبالتالي‬ ،
H / 4 x W / 4
‫بحجم‬ ‫منها‬ ‫كل‬ ،
C
‫بحجم‬ ‫الميزات‬ ‫خريطة‬ ‫تكون‬ ‫وبالتالي‬
H / 4 x W / 4 x C
.
.3
‫محول‬ ‫كتلة‬ ‫عبر‬ ‫هذه‬ ‫الميزات‬ ‫خريطة‬ ‫تمرير‬ ‫يتم‬
SWIN
‫محول‬ ‫كتلة‬ ‫ألن‬ ‫ونظرا‬ ،
SWIN
‫من‬ ‫تتكون‬
‫كتل‬
"
transformer
encoder
"
،
‫فإن‬
‫هو‬ ‫كما‬ ‫يبقى‬ ‫والمخرجات‬ ‫المدخالت‬ ‫حجم‬
.
‫محول‬ ‫كتلة‬ ‫خرج‬ ،‫وبالتالي‬
SWIN
‫المرحلة‬ ‫في‬
1
‫لحجم‬ ‫مماثال‬
‫أي‬ ،‫اإلدخال‬ ‫ميزات‬ ‫خريطة‬
H / 4 x W / 4 x C
‫النموذج‬ ‫معمارية‬
:
13

‫المرحلة‬
2
:
.1
‫بالحجم‬ ‫المعالم‬ ‫خريطة‬ ‫تمرير‬ ‫اآلن‬ ‫يتم‬
H/4 x W/4 x C
‫طبقة‬ ‫عبر‬
patch merging
‫بمقدار‬ ‫الدقة‬ ‫باختزال‬ ‫تقوم‬ ‫التي‬ ،
2
x
‫بمقدار‬ ‫الميزات‬ ‫خريطة‬ ‫عمق‬ ‫وزيادة‬
2
.
‫ال‬ ‫وبالتالي‬
H/ 4 x W/4 x C
‫تصبح‬
H/ 8 x W/8 x 2C
.
2
.
‫محول‬ ‫كتلة‬ ‫عبر‬ ‫الميزات‬ ‫خريطة‬ ‫تمرير‬ ‫يتم‬
SWIN
‫سليمة‬ ‫أبعادها‬ ‫على‬ ‫تحافظ‬ ‫والتي‬ ،‫أخرى‬
.

‫المرحلة‬
3
‫والمرحلة‬
4
:
.1
‫بالمرحلة‬ ‫الخاص‬ ‫اإلجراء‬ ‫نفس‬ ‫تكرار‬ ‫يتم‬
2
‫طبقة‬ ‫كل‬ ‫على‬ ‫المرور‬ ‫بعد‬ ‫النصف‬ ‫بمقدار‬ ‫الميزات‬ ‫خريطة‬ ‫دقة‬ ‫وستقل‬ ،
patch
merging
‫مرحلة‬ ‫كل‬ ‫في‬
.
‫النموذج‬ ‫معمارية‬
:
14
Video Swin Transformer
•
‫أنه‬ ‫على‬ ‫اإلدخال‬ ‫فيديو‬ ‫تعريف‬ ‫يتم‬
‫بحجم‬
T × H × W
×
3
‫من‬ ‫ويتألف‬ ،
T
‫على‬ ‫منها‬ ‫كل‬ ‫يحتوي‬ ‫إطار‬
H × W
×
3
‫بكسل‬
.
•
‫بحجم‬ ‫األبعاد‬ ‫ثالثية‬ ‫رقعة‬ ‫كل‬ ‫مع‬ ‫نتعامل‬
2
×
4
×
4
×
3
‫ك‬
token
.
‫طبقة‬ ‫فإن‬ ،‫وبالتالي‬
D patch partitioning
3
‫تنتج‬
T/2
× H/4 × W/4 tokens
‫كل‬ ‫حيث‬ ‫األبعاد‬ ‫ثالثي‬
patch/token
‫ببعد‬ ‫ميزة‬ ‫من‬ ‫يتكون‬
96
.
•
‫لمحول‬ ‫الهرمية‬ ‫البنية‬ ‫باتباع‬ ‫يسمح‬ ‫الزمني‬ ‫البعد‬ ‫طول‬ ‫على‬ ‫األبعاد‬ ‫اختزال‬ ‫عدم‬
SWIN
‫وتقوم‬ ‫مراحل‬ ‫أربع‬ ‫من‬ ‫تتكون‬ ‫والتي‬ ‫األصلي‬
‫بمقدار‬ ‫المكاني‬ ‫باالختزال‬
2×
‫طبقة‬ ‫في‬
patch merging
‫مرحلة‬ ‫كل‬ ‫من‬
.
•
‫كتلة‬ ‫هو‬ ‫البينة‬ ‫في‬ ‫الرئيسي‬ ‫المكون‬
Video Swin Transformer
‫طريق‬ ‫عن‬ ‫إنشاؤه‬ ‫تم‬ ‫والذي‬ ،
‫متعددة‬ ‫الذاتي‬ ‫االنتباه‬ ‫وحدة‬ ‫استبدال‬
‫الرؤوس‬
‫طبقة‬ ‫في‬
Transformer
‫القياسية‬
‫األبعاد‬ ‫ثالثية‬ ‫النافذة‬ ‫إلى‬ ‫المستندة‬ ‫الرؤوس‬ ‫متعددة‬ ‫الذاتي‬ ‫االنتباه‬ ‫بوحدة‬
(3D(S)W-
MSA)
‫تغيير‬ ‫دون‬ ‫األخرى‬ ‫المكونات‬ ‫على‬ ‫والحفاظ‬
.
15
Video Swin Transformer
•
‫الفيديو‬ ‫محول‬ ‫كتلة‬ ‫تتكون‬ ،‫التحديد‬ ‫وجه‬ ‫على‬
:
•
‫وحدة‬
MSA
‫األبعاد‬ ‫ثالثية‬ ‫النافذة‬ ‫على‬ ‫مبنية‬
‫أمامية‬ ‫تغذية‬ ‫بشبكة‬ ‫متبوعة‬
(
FFN
)
،
‫وتحديدا‬
MLP
‫التنشيط‬ ‫وظيفة‬ ‫مع‬ ،‫الطبقات‬ ‫ثنائي‬
GELU
‫بينهما‬
.
•
‫تطبيق‬ ‫يتم‬
Layer Norm
‫وحدة‬ ‫كل‬ ‫قبل‬
MSA
‫و‬
FFN
،
‫اتصال‬ ‫تطبيق‬ ‫ويتم‬
residual
‫وحدة‬ ‫كل‬ ‫بعد‬
.
16
Video Swin Transformer
•
‫من‬ ‫مؤلف‬ ‫فيديو‬ ‫إلى‬ ‫بالنظر‬
T ′ × H ′ × W ′
‫ال‬ ‫من‬
tokens
‫وحجم‬ ‫األبعاد‬ ‫الثالثية‬
P × M × M
‫يتم‬ ،‫األبعاد‬ ‫ثالثية‬ ‫للنافذة‬
‫متداخلة‬ ‫غير‬ ‫بطريقة‬ ‫بالتساوي‬ ‫المدخل‬ ‫الفيديو‬ ‫لتقسيم‬ ‫النوافذ‬ ‫ترتيب‬
.
•
‫تقسيم‬ ‫يتم‬ ‫أي‬
tokens
‫إلى‬ ‫الدخل‬
⌈
𝑻′
𝑷
⌉ × ⌈
𝑯′
𝑴
⌉ × ⌈
𝑯′
𝑴
⌉
‫المتداخلة‬ ‫غير‬ ‫األبعاد‬ ‫الثالثية‬ ‫النوافذ‬ ‫من‬
.
‫االنتبا‬ ‫تنفيذ‬ ‫ويتم‬
‫الذاتي‬ ‫ه‬
‫من‬ ‫األبعاد‬ ‫ثالثية‬ ‫نافذة‬ ‫كل‬ ‫داخل‬ ‫الرؤوس‬ ‫متعدد‬
Layer 1
.
•
‫للطبقة‬ ‫بالنسبة‬
L + 1
،
‫بمقدار‬ ‫النوافذ‬ ‫إزاحة‬ ‫يتم‬ ‫حيث‬
(2,2,2)
‫النوافذ‬ ‫عدد‬ ‫يصبح‬
3
×
3
×
3
=
27
.
‫عدد‬ ‫زيادة‬ ‫من‬ ‫الرغم‬ ‫على‬
‫ل‬ ّ‫محو‬ ‫في‬ ‫الفعال‬ ‫ُفعات‬‫د‬‫ال‬ ‫حساب‬ ‫اتباع‬ ‫يمكن‬ ،‫النوافذ‬
swin
‫لل‬
shifted configuration
‫النوافذ‬ ‫من‬ ‫النهائي‬ ‫العدد‬ ‫يبقى‬ ‫بحيث‬
‫للحساب‬
8
.
17
‫النموذج‬ ‫نجاح‬ ‫توقع‬ ‫أسباب‬
•
‫فيديو‬ ‫بين‬ ‫تجمع‬ ‫التي‬ ‫المقترحة‬ ‫النموذج‬ ‫بنية‬ ‫تعمل‬ ‫أن‬ ‫المحتمل‬ ‫من‬
Swin Transformer
‫الستخراج‬ ‫التوضيحية‬ ‫التسمية‬ ‫ونموذج‬
‫األسباب‬ ‫لهذه‬ ‫جيد‬ ‫بشكل‬ ‫المجموعة‬ ‫نشاط‬ ‫على‬ ‫للتعرف‬ ‫ميزات‬
:

‫مثل‬ ‫قوي‬ ‫فيديو‬ ‫محول‬ ‫استخدام‬ ‫يؤدي‬ ‫أن‬ ‫يمكن‬
Swin Transformer
‫إ‬ ‫الفيديو‬ ‫بيانات‬ ‫من‬ ‫المكانية‬ ‫الزمانية‬ ‫الميزات‬ ‫الستخراج‬
‫لى‬
‫التقاط‬
‫والزمان‬ ‫المكان‬ ‫من‬ ‫كل‬ ‫في‬ ‫هرمية‬ ‫عالقات‬
‫المعقدة‬ ‫المجموعة‬ ‫ألنشطة‬ ‫مهم‬ ‫أمر‬ ‫وهو‬ ،
.
‫من‬ ‫كل‬ ‫التقاط‬ ‫تعلم‬ ‫يمكنه‬ ‫حيث‬
‫المجموعات‬ ‫وبين‬ ‫المجموعة‬ ‫داخل‬ ‫التفاعالت‬
‫باستخدام‬
‫االهتمام‬ ‫من‬ ‫مختلفة‬ ‫مستويات‬
‫الذاتي‬
‫منها‬ ‫كل‬ ،‫مراحل‬ ‫أربع‬ ‫من‬ ‫يتكون‬ ‫النموذج‬ ‫ألن‬ ‫وذلك‬
‫ودقة‬ ‫نافذة‬ ‫بحجم‬
patch
‫مختلفة‬
.

‫لل‬ ‫دقة‬ ‫وأعلى‬ ‫نافذة‬ ‫حجم‬ ‫أصغر‬ ‫لديها‬ ‫األولى‬ ‫المرحلة‬
patch
،
‫لل‬ ‫دقة‬ ‫وأدنى‬ ‫نافذة‬ ‫حجم‬ ‫أكبر‬ ‫لديها‬ ‫األخيرة‬ ‫المرحلة‬ ‫بينما‬
patch
‫أمامية‬ ‫تغذية‬ ‫وشبكات‬ ‫ذاتية‬ ‫اهتمام‬ ‫طبقات‬ ‫من‬ ‫كتل‬ ‫عدة‬ ‫على‬ ‫مرحلة‬ ‫كل‬ ‫تحتوي‬
.

‫في‬ ‫للرقع‬ ‫األعلى‬ ‫والدقة‬ ‫للنافذة‬ ‫األصغر‬ ‫الحجم‬
‫المحلية‬ ‫التفاصيل‬ ‫على‬ ‫بالتركيز‬ ‫للنموذج‬ ‫تسمح‬ ‫األولى‬ ‫المرحلة‬
‫كل‬ ‫داخل‬
‫مجموعة‬
‫الفردية‬ ‫والوضعيات‬ ‫اإلجراءات‬ ‫مثل‬ ،
.
‫األخيرة‬ ‫المرحلة‬ ‫في‬ ‫للرقع‬ ‫األدنى‬ ‫والدقة‬ ‫للنافذة‬ ‫األكبر‬ ‫الحجم‬
‫تسمح‬
‫للنموذج‬
‫مختلفة‬ ‫مجموعات‬ ‫عبر‬ ‫عام‬ ‫سياق‬ ‫بالتقاط‬
‫والعالقات‬ ‫المجموعات‬ ‫أنشطة‬ ‫مثل‬ ،
.
‫توفر‬
‫ا‬ ‫بين‬ ‫ا‬ً‫ن‬‫تواز‬ ‫المتوسطة‬ ‫المراحل‬
‫لمعلومات‬
‫ــلةـ‬ِ‫والشام‬ ‫المحلية‬
18
‫النموذج‬ ‫نجاح‬ ‫توقع‬ ‫أسباب‬

‫التوضيحية‬ ‫التسمية‬ ‫نموذج‬ ‫باستخدام‬ ‫الفيديو‬ ‫تعليقات‬ ‫استخراج‬ ‫يوفر‬ ‫أن‬ ‫يمكن‬
‫دال‬ ‫ميزات‬
‫على‬ ‫تعتمد‬ ‫لية‬
‫المرئية‬ ‫الميزات‬ ‫تكمل‬ ‫اللغة‬
‫من‬
Swin Transformer
‫إعطاء‬ ‫إلى‬ ‫الطريقتين‬ ‫هاتين‬ ‫بين‬ ‫الجمع‬ ‫يؤدي‬ ‫قد‬
‫لألنشطة‬ ‫قوة‬ ‫أكثر‬ ‫تمثيال‬ ‫النموذج‬
.

‫التقاط‬ ‫الممكن‬ ‫من‬ ،‫والنصية‬ ‫المرئية‬ ‫الميزات‬ ‫بين‬ ‫للجمع‬ ‫المتبادل‬ ‫االنتباه‬ ‫استخدام‬ ‫خالل‬ ‫من‬
‫ال‬
‫الداللية‬ ‫عالقات‬
‫الطريقتين‬ ‫بين‬
‫األداء‬ ‫تحسين‬ ‫إلى‬ ‫تؤدي‬ ‫أن‬ ‫يمكن‬ ‫والتي‬ ،
.
19
‫والصعوبات‬ ‫التحديات‬
•
‫اآلل‬ ‫التعلم‬ ‫مجال‬ ‫في‬ ‫عامة‬ ‫مصطلحات‬ ‫لفهم‬ ‫أكبر‬ ‫وقت‬ ‫استغراق‬ ‫إلى‬ ‫أدى‬ ‫مما‬ ‫المدروس‬ ‫المجال‬ ‫في‬ ‫سابقة‬ ‫معرفة‬ ‫وجود‬ ‫عدم‬
‫بشكل‬ ‫ي‬
‫الجارية‬ ‫البحث‬ ‫عملية‬ ‫لتسهيل‬ ‫عام‬
.
•
‫باال‬ ‫استبداله‬ ‫إلى‬ ‫يدعي‬ ‫مما‬ ‫المقترح‬ ‫النموذج‬ ‫من‬ ‫ما‬ ‫جزء‬ ‫تنجيز‬ ‫في‬ ‫صعوبة‬ ‫أو‬ ‫معينة‬ ‫مشكلة‬ ‫مواجهة‬ ‫العمل‬ ‫أثناء‬ ‫يمكن‬
‫مع‬ ‫تفاق‬
‫المشرفين‬
.
•
‫أثر‬ ‫دراسة‬ ‫يمكن‬ ‫النصية‬ ‫الميزات‬ ‫فعالية‬ ‫عدم‬ ‫تبين‬ ‫إذا‬
object detection
‫باستخدام‬
YOLO
‫الكابشن‬ ‫من‬ ‫بدل‬
.
20

More Related Content

Similar to التعرف على نشاط المجموعات باستخدام مقاربة معتمدة على.pptx

Visual basic.net احترف فيجوال بيسك
Visual basic.net احترف فيجوال بيسك Visual basic.net احترف فيجوال بيسك
Visual basic.net احترف فيجوال بيسك Abdalwahab Noureldien
 
اختبار الأتمتة باستخدام خط أنابيب CI_CD التكامل المستمر_التسليم المستمر.pdf
اختبار الأتمتة باستخدام خط أنابيب CI_CD التكامل المستمر_التسليم المستمر.pdfاختبار الأتمتة باستخدام خط أنابيب CI_CD التكامل المستمر_التسليم المستمر.pdf
اختبار الأتمتة باستخدام خط أنابيب CI_CD التكامل المستمر_التسليم المستمر.pdfBahaa Al Zubaidi
 
BIMarabia11.pdf
BIMarabia11.pdfBIMarabia11.pdf
BIMarabia11.pdfOmar Selim
 
hz-ilovepdf-compressed
hz-ilovepdf-compressedhz-ilovepdf-compressed
hz-ilovepdf-compressedhak moon
 
شرح برنامج البروكون
شرح برنامج البروكونشرح برنامج البروكون
شرح برنامج البروكونBahzad5
 
PHP Developer Tools - Arabic
PHP Developer Tools - ArabicPHP Developer Tools - Arabic
PHP Developer Tools - ArabicKhaled Al-Shamaa
 
الدوائرة الرقمية
الدوائرة الرقميةالدوائرة الرقمية
الدوائرة الرقميةJohnVule
 
الدليل العلمي لنظام الدي سبيس
الدليل العلمي لنظام الدي سبيسالدليل العلمي لنظام الدي سبيس
الدليل العلمي لنظام الدي سبيسAml Sindi
 
المحاضرة الخامسة - فصل الألوان الإلكتروني
المحاضرة الخامسة - فصل الألوان الإلكترونيالمحاضرة الخامسة - فصل الألوان الإلكتروني
المحاضرة الخامسة - فصل الألوان الإلكترونيAhmed Ismail
 
انماط التجول في برامج الوسائط المتعددة
انماط التجول في برامج الوسائط المتعددةانماط التجول في برامج الوسائط المتعددة
انماط التجول في برامج الوسائط المتعددةahmad al-dhafeeri
 
follow up presentation GN.pptx
follow up presentation GN.pptxfollow up presentation GN.pptx
follow up presentation GN.pptxgracen3meh1
 
فهم ماهية هندسة الفوضى Chaos Engineering.pdf
فهم ماهية هندسة الفوضى Chaos Engineering.pdfفهم ماهية هندسة الفوضى Chaos Engineering.pdf
فهم ماهية هندسة الفوضى Chaos Engineering.pdfBahaa Al Zubaidi
 
New Concrete Design Diploma 2019
New Concrete Design Diploma 2019New Concrete Design Diploma 2019
New Concrete Design Diploma 2019Bahzad5
 

Similar to التعرف على نشاط المجموعات باستخدام مقاربة معتمدة على.pptx (20)

Visual basic.net احترف فيجوال بيسك
Visual basic.net احترف فيجوال بيسك Visual basic.net احترف فيجوال بيسك
Visual basic.net احترف فيجوال بيسك
 
اختبار الأتمتة باستخدام خط أنابيب CI_CD التكامل المستمر_التسليم المستمر.pdf
اختبار الأتمتة باستخدام خط أنابيب CI_CD التكامل المستمر_التسليم المستمر.pdfاختبار الأتمتة باستخدام خط أنابيب CI_CD التكامل المستمر_التسليم المستمر.pdf
اختبار الأتمتة باستخدام خط أنابيب CI_CD التكامل المستمر_التسليم المستمر.pdf
 
BIMarabia11.pdf
BIMarabia11.pdfBIMarabia11.pdf
BIMarabia11.pdf
 
Bi marabia11
Bi marabia11Bi marabia11
Bi marabia11
 
hz-ilovepdf-compressed
hz-ilovepdf-compressedhz-ilovepdf-compressed
hz-ilovepdf-compressed
 
Bi marabia11
Bi marabia11Bi marabia11
Bi marabia11
 
Bi marabia11
Bi marabia11Bi marabia11
Bi marabia11
 
Bi marabia11
Bi marabia11Bi marabia11
Bi marabia11
 
شرح برنامج البروكون
شرح برنامج البروكونشرح برنامج البروكون
شرح برنامج البروكون
 
PHP Developer Tools - Arabic
PHP Developer Tools - ArabicPHP Developer Tools - Arabic
PHP Developer Tools - Arabic
 
الدوائرة الرقمية
الدوائرة الرقميةالدوائرة الرقمية
الدوائرة الرقمية
 
الدليل العلمي لنظام الدي سبيس
الدليل العلمي لنظام الدي سبيسالدليل العلمي لنظام الدي سبيس
الدليل العلمي لنظام الدي سبيس
 
المحاضرة الخامسة - فصل الألوان الإلكتروني
المحاضرة الخامسة - فصل الألوان الإلكترونيالمحاضرة الخامسة - فصل الألوان الإلكتروني
المحاضرة الخامسة - فصل الألوان الإلكتروني
 
انماط التجول في برامج الوسائط المتعددة
انماط التجول في برامج الوسائط المتعددةانماط التجول في برامج الوسائط المتعددة
انماط التجول في برامج الوسائط المتعددة
 
follow up presentation GN.pptx
follow up presentation GN.pptxfollow up presentation GN.pptx
follow up presentation GN.pptx
 
فهم ماهية هندسة الفوضى Chaos Engineering.pdf
فهم ماهية هندسة الفوضى Chaos Engineering.pdfفهم ماهية هندسة الفوضى Chaos Engineering.pdf
فهم ماهية هندسة الفوضى Chaos Engineering.pdf
 
Ccnp
Ccnp Ccnp
Ccnp
 
Sd2 areej
Sd2 areejSd2 areej
Sd2 areej
 
Osi layers
Osi layersOsi layers
Osi layers
 
New Concrete Design Diploma 2019
New Concrete Design Diploma 2019New Concrete Design Diploma 2019
New Concrete Design Diploma 2019
 

التعرف على نشاط المجموعات باستخدام مقاربة معتمدة على.pptx

  • 1. ‫مقارب‬ ‫باستخدام‬ ‫المجموعات‬ ‫نشاط‬ ‫على‬ ‫التعرف‬ ‫ة‬ ‫الحاسوبية‬ ‫الرؤية‬ ‫على‬ ‫معتمدة‬ ‫إشراف‬ : ‫د‬ . ‫جعفر‬ ‫آصف‬ ‫د‬ . ‫رحال‬ ‫ياسر‬ ‫إعداد‬ : ‫نعمة‬ ‫غريس‬ 1
  • 2. ‫مراجعة‬ • ‫البحث‬ ‫مسألة‬ : ‫ما‬ ‫بنشاط‬ ‫يقومون‬ ‫أشخاص‬ ‫عدة‬ ‫على‬ ‫الحاوي‬ ‫المشهد‬ ‫معالجة‬ ‫مشكل‬ ‫وهي‬ ‫ة‬ ‫الفيديو‬ ‫مقاطع‬ ‫تحليل‬ ‫خالل‬ ‫من‬ ‫المجموعة‬ ‫نشاط‬ ‫على‬ ‫التعرف‬ . • ‫الهدف‬ : ‫على‬ ‫التعرف‬ ‫لمهمة‬ ‫حل‬ ‫لتوفير‬ ‫والميزات‬ ‫لألساليب‬ ‫جيدة‬ ‫تركيبات‬ ‫إيجاد‬ ‫نشاط‬ ‫الفيديو‬ ‫مقاطع‬ ‫من‬ ‫المجموعة‬ . 2
  • 3. ‫المنجزة‬ ‫المراحل‬ • ‫والنظرية‬ ‫المرجعية‬ ‫الدراسة‬ • ‫ودراستها‬ ‫عليها‬ ‫االختبار‬ ‫سيتم‬ ‫التي‬ ‫المعطيات‬ ‫مجموعة‬ ‫تحديد‬ • ‫االستخ‬ ‫آلية‬ ‫على‬ ‫واالطالع‬ ‫الكلي‬ ‫النموذج‬ ‫بناء‬ ‫من‬ ‫األولية‬ ‫المرحلة‬ ‫في‬ ‫المختار‬ ‫للنموذج‬ ‫اكثر‬ ‫فهم‬ ‫دام‬ • ‫اتباعها‬ ‫سيتم‬ ‫التي‬ ‫المراحل‬ ‫وفق‬ ‫العمل‬ ‫آلية‬ ‫تصميم‬ 3
  • 4. ‫المتبقية‬ ‫المراحل‬ • ‫برمجيا‬ ‫النموذج‬ ‫تنجيز‬ ‫اكمال‬ • ‫النتائج‬ ‫وتحليل‬ ‫االختبارات‬ ‫إجراء‬ • ‫التوازي‬ ‫على‬ ‫التقرير‬ ‫كتابة‬ ‫استكمال‬ 4
  • 5. ‫المرجعية‬ ‫الدراسة‬ ‫ملخص‬ ‫نشاط‬ ‫على‬ ‫التعرف‬ ‫مسألة‬ ‫لحل‬ ‫اتباعها‬ ‫تم‬ ‫التي‬ ‫األساليب‬ ‫تقسم‬ ‫قسمين‬ ‫إلى‬ ‫المجموعات‬ : • ‫اليدوية‬ ‫الميزات‬ ‫على‬ ‫القائمة‬ ‫التقليدية‬ ‫األساليب‬ : ‫فئتين‬ ‫إلى‬ ‫تقسم‬ :  ‫النشاط‬ ‫على‬ ‫للتعرف‬ ‫المجموعة‬ ‫مستوى‬ ‫على‬ ‫المعلومات‬ ‫تحليل‬ ‫على‬ ‫يعتمد‬ ‫الذي‬ ‫أسفل‬ ‫إلى‬ ‫أعلى‬ ‫من‬ ‫النهج‬ ‫ح‬ ‫من‬ ‫يث‬ ‫المجموعة‬ ‫مستوى‬ ‫على‬ ‫والتفاعل‬ ‫الحركة‬ .  ‫التصاعدي‬ ‫النهج‬ ‫ي‬ ‫الذي‬ ‫الفردي‬ ‫السمات‬ ‫من‬ ‫مجموعة‬ ‫على‬ ‫بناء‬ ‫النشاط‬ ‫ووصف‬ ‫فرد‬ ‫كل‬ ‫على‬ ‫التعرف‬ ‫على‬ ‫ركز‬ ‫ة‬ ‫وإحصاءاتها‬ . ‫الفردية‬ ‫الميزات‬ ‫استخراج‬ ‫لفشل‬ ‫حساسة‬ ‫فهي‬ ،‫لذلك‬ . • ‫األساليب‬ ‫العميق‬ ‫التعلم‬ ‫على‬ ‫القائمة‬ : ‫تتلخص‬ ‫ب‬ ‫االنتباه‬ ‫ونمذجة‬ ،‫العالقة‬ ‫ونمذجة‬ ،‫الهرمية‬ ‫الزمنية‬ ‫النمذجة‬ ، ‫الموحدة‬ ‫النمذجة‬ ‫عمل‬ ‫إطار‬ 5
  • 6. ‫المرجعية‬ ‫الدراسة‬ ‫ملخص‬ • ‫على‬ ‫القائمة‬ ‫األساليب‬ ‫تستخدم‬ ‫الهرمية‬ ‫الزمنية‬ ‫النمذجة‬ ‫نموذج‬ LSTM ‫الفرد‬ ‫المستوى‬ ‫على‬ ‫لإلجراءات‬ ‫الزمني‬ ‫التمثيل‬ ‫لتعلم‬ ‫مرحلتين‬ ‫من‬ ‫ي‬ ‫بن‬ ‫األفراد‬ ‫جميع‬ ‫بمعاملة‬ ‫يكون‬ ‫قصورها‬ ‫المجموعة‬ ‫مستوى‬ ‫على‬ ‫تمثيل‬ ‫إلنشاء‬ ‫الفردية‬ ‫الميزات‬ ‫على‬ ‫التجميع‬ ‫وظائف‬ ‫وتطبيق‬ ‫األهمية‬ ‫فس‬ . • ‫على‬ ‫القائمة‬ ‫األساليب‬ ‫تحاول‬ ‫االنتباه‬ ‫نمذجة‬ ‫المشكل‬ ‫هذه‬ ‫حل‬ ‫ة‬ . ‫الزمنية‬ ‫النمذجة‬ ‫على‬ ‫القائمة‬ ‫األساليب‬ ‫من‬ ‫أعلى‬ ‫أداء‬ ‫له‬ ‫األسلوب‬ ‫هذا‬ ‫الهرمية‬ . • ‫مثل‬ ،‫المجموعة‬ ‫نشاط‬ ‫على‬ ‫التعرف‬ ‫في‬ ‫العالقة‬ ‫الستدالل‬ ‫مختلفة‬ ‫طرق‬ ‫تقديم‬ ‫يتم‬ GCN ‫والمحوالت‬ . ‫نمذجة‬ ‫على‬ ‫القائمة‬ ‫األساليب‬ ‫تمتاز‬ ‫نشاط‬ ‫ال‬ّ‫ع‬‫ف‬ ‫بشكل‬ ‫تميز‬ ‫أن‬ ‫يمكن‬ ‫التي‬ ‫األشخاص‬ ‫بين‬ ‫والعالقات‬ ‫المحتملة‬ ‫التفاعالت‬ ‫التقاط‬ ‫من‬ ‫بتمكنها‬ ‫العميقة‬ ‫العالقات‬ ‫والجماعة‬ ‫الفرد‬ . • ‫و‬ ‫عصبية‬ ‫شبكة‬ ‫في‬ ‫مشترك‬ ‫بشكل‬ ‫المجموعة‬ ‫نشاط‬ ‫على‬ ‫والتعرف‬ ‫األشخاص‬ ‫اكتشاف‬ ‫إجراء‬ ‫الموحدة‬ ‫النمذجة‬ ‫عمل‬ ‫إطار‬ ‫طرق‬ ‫تحاول‬ ‫احدة‬ ‫العملية‬ ‫التطبيقات‬ ‫من‬ ‫وتقريبها‬ ‫الخوارزمية‬ ‫تسريع‬ ‫يمكنها‬ . ‫طراز‬ ‫أحدث‬ ‫على‬ ‫التعرف‬ ‫دقة‬ ‫تحقيق‬ ‫يمكنهم‬ ‫ال‬ ،‫ذلك‬ ‫ومع‬ . • ‫التط‬ ‫في‬ ‫إليها‬ ‫الوصول‬ ‫يتعذر‬ ‫التي‬ ‫التوضيحية‬ ‫التعليقات‬ ‫من‬ ‫المحيط‬ ‫المربع‬ ‫مباشر‬ ‫بشكل‬ ‫الحالية‬ ‫األساليب‬ ‫معظم‬ ‫قر‬ُ‫ت‬ ‫العملية‬ ‫بيقات‬ . ‫في‬ ‫البحث‬ ‫محدود‬ ‫الموضوع‬ ‫هذا‬ . 6
  • 7. ‫الحاسوبية‬ ‫الرؤية‬ ‫مجال‬ ‫في‬ ‫المحوالت‬ • ‫الطبيعية‬ ‫اللغات‬ ‫معالجة‬ ‫مجال‬ ‫في‬ ‫األخيرة‬ ‫السنوات‬ ‫في‬ ‫المحوالت‬ ‫حققته‬ ‫الذي‬ ‫للنجاح‬ ‫نظرا‬ ‫ظهر‬ VIT ‫عانى‬ ‫الذي‬ ‫للصور‬ ‫محوال‬ ‫شامل‬ ‫بشكل‬ ‫االهتمام‬ ‫لتطبيق‬ ‫نظرا‬ ‫الكبير‬ ‫التعقيد‬ ‫مشكلة‬ ‫من‬ . • ‫عام‬ ‫تقديم‬ ‫تم‬ 2021 SWIN Transformer ‫يمكن‬ ‫والتي‬ ،‫الكمبيوتر‬ ‫رؤية‬ ‫لمهام‬ ‫العامة‬ ‫لألغراض‬ ‫الفقري‬ ‫العمود‬ ‫باعتباره‬ ‫شبكات‬ ‫من‬ ‫أفضل‬ ‫بشكل‬ ،‫والتجزئة‬ ‫والكشف‬ ‫التصنيف‬ ‫إلجراء‬ ‫استخدامها‬ SOTA ‫و‬ ‫التالفيفية‬ ViT ‫إلى‬ ‫الحاجة‬ ‫ظهرت‬ ‫حيث‬ ، ‫ل‬ ّ‫المحو‬ ‫ز‬ّ‫م‬‫مر‬ ‫كتلة‬ ‫داخل‬ ‫االنتباه‬ ‫آلية‬ ‫تعديل‬ . ‫قام‬ ‫حيث‬ SWIN ‫المحلي‬ ‫االهتمام‬ ‫إلى‬ ‫الشامل‬ ‫االهتمام‬ ‫بتحويل‬ . • ‫بناء‬ ‫تم‬ video swin ‫كمحول‬ video ‫على‬ ‫قائم‬ swin ‫عام‬ 2022 ‫قبل‬ ‫الفيديو‬ ‫نماذج‬ ‫جميع‬ ‫حيث‬ video swin ‫على‬ ‫مبنية‬ ‫والزمانية‬ ‫المكانية‬ ‫األبعاد‬ ‫عبر‬ ‫شامل‬ ‫بشكل‬ ‫التصحيحات‬ ‫تربط‬ ‫التي‬ ‫المحوالت‬ ‫طبقات‬ • ‫نموذج‬ Video Swin Transformer ‫لمحول‬ ‫الهرمي‬ ‫الهيكل‬ ‫بدقة‬ ‫يتبع‬ ، Swin ‫المحلي‬ ‫االنتباه‬ ‫حساب‬ ‫نطاق‬ ‫يوسع‬ ‫لكنه‬ ،‫األصلي‬ ‫المكاني‬ ‫الزماني‬ ‫المجال‬ ‫إلى‬ ‫فقط‬ ‫المكاني‬ ‫المجال‬ ‫من‬ . 7
  • 8. ‫النموذج‬ ‫اختيار‬ ‫دواعي‬ • ‫أعطى‬ ‫نموذج‬ video swin ‫بال‬ ‫الخاصة‬ ‫البيانات‬ ‫مجموعات‬ ‫على‬ ‫مميزة‬ ‫نتائج‬ action recognition : Something- Something v2 ، Kinetics-600 ، Kinetics-400 • ‫والمكاني‬ ‫الزماني‬ ‫الترابط‬ ‫التقاط‬ ‫النموذج‬ ‫يستطيع‬ • ‫في‬ ‫معقولة‬ ‫نتيجة‬ ‫سيعطي‬ ‫الصور‬ ‫على‬ ‫التعليق‬ ‫موضوع‬ ‫في‬ ‫جيدة‬ ‫نتائج‬ ‫يعطي‬ ‫الذي‬ ‫النموذج‬ ‫أن‬ ‫فكرة‬ ‫من‬ ‫وانطالقا‬ ‫عن‬ ‫الكشف‬ ‫الحركة‬ • ‫التالي‬ ‫المقترح‬ ‫نقدم‬ ‫التجريبية‬ ‫النتائج‬ ‫بحسب‬ ‫التنجيز‬ ‫أثناء‬ ‫التعديل‬ ‫احتمال‬ ‫مع‬ .. 8
  • 10. ‫المقترح‬ ‫النموذج‬ .1 Features extraction : • ‫أ‬ . ‫الفيديو‬ ‫من‬ ‫المرئية‬ ‫الميزات‬ ‫استخراج‬ : ‫استخدام‬ Swin Transformer Video ‫من‬ ‫والزمانية‬ ‫المكانية‬ ‫الميزات‬ ‫الستخراج‬ ‫الفيديو‬ ‫إطارات‬ . ‫نموذج‬ ‫استخدام‬ ‫خالل‬ ‫من‬ Swin Transformer ‫مسبق‬ ‫مدرب‬ ‫ا‬ ‫المستخدمة‬ ‫البيانات‬ ‫مجموعة‬ ‫على‬ ‫وضبطه‬ . • ‫ب‬ . ‫التوضيحية‬ ‫التسمية‬ ‫ميزات‬ ‫استخراج‬ : ‫استخد‬ ‫ا‬ ‫التوضيحية‬ ‫التسميات‬ ‫الستخراج‬ ‫جاهز‬ ‫لغة‬ ‫نموذج‬ ‫م‬ . .2 Combination of visual and textual features : ‫بطريقة‬ ‫الدمج‬ ‫بين‬ ‫المقارنة‬ ‫المرحلة‬ ‫هذه‬ ‫في‬ ‫ستتم‬ concat ‫استخدام‬ ‫بين‬ ‫و‬ ‫فقط‬ cross attention mechanism ‫حيث‬ ‫التوضيحية‬ ‫والتعليقات‬ ‫الفيديو‬ ‫ميزات‬ ‫بين‬ ‫المختلفة‬ ‫العالقات‬ ‫بمعرفة‬ ‫للنموذج‬ ‫اآللية‬ ‫هذه‬ ‫تسمح‬ . ‫الميزات‬ ‫لدمج‬ ‫متعددة‬ ‫برؤوس‬ ‫انتباه‬ ‫استخدام‬ ‫يمكن‬ . ‫المستخرج‬ ‫المرئية‬ ‫الميزات‬ ‫بين‬ ‫المتبادل‬ ‫االنتباه‬ ‫إجراء‬ ‫يتم‬ ‫حيث‬ ‫من‬ ‫ة‬ Swin Transformer ‫التوضيحية‬ ‫التسمية‬ ‫نموذج‬ ‫من‬ ‫النصية‬ ‫والميزات‬ ( ‫الكابشن‬ ‫توليد‬ ‫قبل‬ ‫معينة‬ ‫طبقة‬ ‫خرج‬ ‫من‬ ‫اخذها‬ ‫ممكن‬ .) ‫سي‬ ‫تم‬ ‫شرح‬ ‫ال‬ ‫ذلك‬ ‫لتحقيق‬ ‫المستوى‬ ‫العالية‬ ‫خوارزمية‬ .3 Classification : • ‫بطبقة‬ ‫متبوعة‬ ‫بالكامل‬ ‫متصلة‬ ‫طبقة‬ ‫استخدام‬ ‫يمكن‬ ،‫الميزات‬ ‫دمج‬ ‫بمجرد‬ softmax ‫المجموعة‬ ‫أنشطة‬ ‫لتصنيف‬ . 10
  • 11. Algo of Combination of visual and textual features 1. Initialize cross attention weights, Wq, Wk, and Wv 2. Calculate the query (Q), key (K), and value (V) matrices Q_visual = visual_features * Wq_visual K_text = textual_features * Wk_text V_text = textual_features * Wv_text 3. Calculate the cross attention scores: S_visual_to_text = softmax(Q_visual * K_text^T / sqrt(dim_key)) 4. Calculate the cross attention context: C_visual_to_text = S_visual_to_text * V_text 5. Combine the context with the original features: Combined_visual = concat(visual_features, C_visual_to_text) 11
  • 12. ‫النموذج‬ ‫معمارية‬ swin : ‫الشب‬ ‫في‬ ‫نتعمق‬ ‫بينما‬ ‫أنه‬ ‫يعكس‬ ‫مما‬ ،‫مرحلة‬ ‫كل‬ ‫في‬ ‫الميزات‬ ‫خرائط‬ ‫حجم‬ ‫الشكل‬ ‫يوضح‬ ‫دقة‬ ‫فإن‬ ،‫كة‬ ‫يتزايد‬ ‫وعمقها‬ ‫تتناقص‬ ‫الميزات‬ ‫خريطة‬ . 12
  • 13.  ‫المرحل‬ ‫ة‬ 1 : .1 ‫عبر‬ ‫إدخال‬ ‫صورة‬ ‫تمرير‬ ‫يتم‬ patch partition ‫ثابت‬ ‫حجم‬ ‫ذات‬ ‫رقع‬ ‫إلى‬ ‫لتقسيمها‬ ، . ‫بحجم‬ ‫الصورة‬ ‫كانت‬ ‫إذا‬ H x W ، ‫حجم‬ ‫وكان‬ ‫الرقعة‬ 4 x 4 ، ‫الخرج‬ ‫يكون‬ H/4 x W/4 ‫رقعة‬ . .2 ‫تكون‬ ‫رقعة‬ ‫كل‬ ‫فإن‬ ‫لذا‬ ،‫قناة‬ ‫بكل‬ ‫أبعاد‬ ‫لها‬ ‫رقعة‬ ‫كل‬ 4 × 4 × 3 = 48 ‫بكسل‬ . ‫من‬ ‫رقعة‬ ‫كل‬ ‫لتحويل‬ 48 ‫أفضل‬ ‫حجم‬ ‫إلى‬ C ‫يتم‬ ‫تقوم‬ ‫والتي‬ ،‫طبقة‬ ‫عبر‬ ‫رقعة‬ ‫كل‬ ‫تمرير‬ ‫بعد‬ ‫على‬ ‫رقعة‬ ‫كل‬ ‫بإسقاط‬ C ‫بقع‬ ‫لدينا‬ ‫يصبح‬ ‫وبالتالي‬ ، H / 4 x W / 4 ‫بحجم‬ ‫منها‬ ‫كل‬ ، C ‫بحجم‬ ‫الميزات‬ ‫خريطة‬ ‫تكون‬ ‫وبالتالي‬ H / 4 x W / 4 x C . .3 ‫محول‬ ‫كتلة‬ ‫عبر‬ ‫هذه‬ ‫الميزات‬ ‫خريطة‬ ‫تمرير‬ ‫يتم‬ SWIN ‫محول‬ ‫كتلة‬ ‫ألن‬ ‫ونظرا‬ ، SWIN ‫من‬ ‫تتكون‬ ‫كتل‬ " transformer encoder " ، ‫فإن‬ ‫هو‬ ‫كما‬ ‫يبقى‬ ‫والمخرجات‬ ‫المدخالت‬ ‫حجم‬ . ‫محول‬ ‫كتلة‬ ‫خرج‬ ،‫وبالتالي‬ SWIN ‫المرحلة‬ ‫في‬ 1 ‫لحجم‬ ‫مماثال‬ ‫أي‬ ،‫اإلدخال‬ ‫ميزات‬ ‫خريطة‬ H / 4 x W / 4 x C ‫النموذج‬ ‫معمارية‬ : 13
  • 14.  ‫المرحلة‬ 2 : .1 ‫بالحجم‬ ‫المعالم‬ ‫خريطة‬ ‫تمرير‬ ‫اآلن‬ ‫يتم‬ H/4 x W/4 x C ‫طبقة‬ ‫عبر‬ patch merging ‫بمقدار‬ ‫الدقة‬ ‫باختزال‬ ‫تقوم‬ ‫التي‬ ، 2 x ‫بمقدار‬ ‫الميزات‬ ‫خريطة‬ ‫عمق‬ ‫وزيادة‬ 2 . ‫ال‬ ‫وبالتالي‬ H/ 4 x W/4 x C ‫تصبح‬ H/ 8 x W/8 x 2C . 2 . ‫محول‬ ‫كتلة‬ ‫عبر‬ ‫الميزات‬ ‫خريطة‬ ‫تمرير‬ ‫يتم‬ SWIN ‫سليمة‬ ‫أبعادها‬ ‫على‬ ‫تحافظ‬ ‫والتي‬ ،‫أخرى‬ .  ‫المرحلة‬ 3 ‫والمرحلة‬ 4 : .1 ‫بالمرحلة‬ ‫الخاص‬ ‫اإلجراء‬ ‫نفس‬ ‫تكرار‬ ‫يتم‬ 2 ‫طبقة‬ ‫كل‬ ‫على‬ ‫المرور‬ ‫بعد‬ ‫النصف‬ ‫بمقدار‬ ‫الميزات‬ ‫خريطة‬ ‫دقة‬ ‫وستقل‬ ، patch merging ‫مرحلة‬ ‫كل‬ ‫في‬ . ‫النموذج‬ ‫معمارية‬ : 14
  • 15. Video Swin Transformer • ‫أنه‬ ‫على‬ ‫اإلدخال‬ ‫فيديو‬ ‫تعريف‬ ‫يتم‬ ‫بحجم‬ T × H × W × 3 ‫من‬ ‫ويتألف‬ ، T ‫على‬ ‫منها‬ ‫كل‬ ‫يحتوي‬ ‫إطار‬ H × W × 3 ‫بكسل‬ . • ‫بحجم‬ ‫األبعاد‬ ‫ثالثية‬ ‫رقعة‬ ‫كل‬ ‫مع‬ ‫نتعامل‬ 2 × 4 × 4 × 3 ‫ك‬ token . ‫طبقة‬ ‫فإن‬ ،‫وبالتالي‬ D patch partitioning 3 ‫تنتج‬ T/2 × H/4 × W/4 tokens ‫كل‬ ‫حيث‬ ‫األبعاد‬ ‫ثالثي‬ patch/token ‫ببعد‬ ‫ميزة‬ ‫من‬ ‫يتكون‬ 96 . • ‫لمحول‬ ‫الهرمية‬ ‫البنية‬ ‫باتباع‬ ‫يسمح‬ ‫الزمني‬ ‫البعد‬ ‫طول‬ ‫على‬ ‫األبعاد‬ ‫اختزال‬ ‫عدم‬ SWIN ‫وتقوم‬ ‫مراحل‬ ‫أربع‬ ‫من‬ ‫تتكون‬ ‫والتي‬ ‫األصلي‬ ‫بمقدار‬ ‫المكاني‬ ‫باالختزال‬ 2× ‫طبقة‬ ‫في‬ patch merging ‫مرحلة‬ ‫كل‬ ‫من‬ . • ‫كتلة‬ ‫هو‬ ‫البينة‬ ‫في‬ ‫الرئيسي‬ ‫المكون‬ Video Swin Transformer ‫طريق‬ ‫عن‬ ‫إنشاؤه‬ ‫تم‬ ‫والذي‬ ، ‫متعددة‬ ‫الذاتي‬ ‫االنتباه‬ ‫وحدة‬ ‫استبدال‬ ‫الرؤوس‬ ‫طبقة‬ ‫في‬ Transformer ‫القياسية‬ ‫األبعاد‬ ‫ثالثية‬ ‫النافذة‬ ‫إلى‬ ‫المستندة‬ ‫الرؤوس‬ ‫متعددة‬ ‫الذاتي‬ ‫االنتباه‬ ‫بوحدة‬ (3D(S)W- MSA) ‫تغيير‬ ‫دون‬ ‫األخرى‬ ‫المكونات‬ ‫على‬ ‫والحفاظ‬ . 15
  • 16. Video Swin Transformer • ‫الفيديو‬ ‫محول‬ ‫كتلة‬ ‫تتكون‬ ،‫التحديد‬ ‫وجه‬ ‫على‬ : • ‫وحدة‬ MSA ‫األبعاد‬ ‫ثالثية‬ ‫النافذة‬ ‫على‬ ‫مبنية‬ ‫أمامية‬ ‫تغذية‬ ‫بشبكة‬ ‫متبوعة‬ ( FFN ) ، ‫وتحديدا‬ MLP ‫التنشيط‬ ‫وظيفة‬ ‫مع‬ ،‫الطبقات‬ ‫ثنائي‬ GELU ‫بينهما‬ . • ‫تطبيق‬ ‫يتم‬ Layer Norm ‫وحدة‬ ‫كل‬ ‫قبل‬ MSA ‫و‬ FFN ، ‫اتصال‬ ‫تطبيق‬ ‫ويتم‬ residual ‫وحدة‬ ‫كل‬ ‫بعد‬ . 16
  • 17. Video Swin Transformer • ‫من‬ ‫مؤلف‬ ‫فيديو‬ ‫إلى‬ ‫بالنظر‬ T ′ × H ′ × W ′ ‫ال‬ ‫من‬ tokens ‫وحجم‬ ‫األبعاد‬ ‫الثالثية‬ P × M × M ‫يتم‬ ،‫األبعاد‬ ‫ثالثية‬ ‫للنافذة‬ ‫متداخلة‬ ‫غير‬ ‫بطريقة‬ ‫بالتساوي‬ ‫المدخل‬ ‫الفيديو‬ ‫لتقسيم‬ ‫النوافذ‬ ‫ترتيب‬ . • ‫تقسيم‬ ‫يتم‬ ‫أي‬ tokens ‫إلى‬ ‫الدخل‬ ⌈ 𝑻′ 𝑷 ⌉ × ⌈ 𝑯′ 𝑴 ⌉ × ⌈ 𝑯′ 𝑴 ⌉ ‫المتداخلة‬ ‫غير‬ ‫األبعاد‬ ‫الثالثية‬ ‫النوافذ‬ ‫من‬ . ‫االنتبا‬ ‫تنفيذ‬ ‫ويتم‬ ‫الذاتي‬ ‫ه‬ ‫من‬ ‫األبعاد‬ ‫ثالثية‬ ‫نافذة‬ ‫كل‬ ‫داخل‬ ‫الرؤوس‬ ‫متعدد‬ Layer 1 . • ‫للطبقة‬ ‫بالنسبة‬ L + 1 ، ‫بمقدار‬ ‫النوافذ‬ ‫إزاحة‬ ‫يتم‬ ‫حيث‬ (2,2,2) ‫النوافذ‬ ‫عدد‬ ‫يصبح‬ 3 × 3 × 3 = 27 . ‫عدد‬ ‫زيادة‬ ‫من‬ ‫الرغم‬ ‫على‬ ‫ل‬ ّ‫محو‬ ‫في‬ ‫الفعال‬ ‫ُفعات‬‫د‬‫ال‬ ‫حساب‬ ‫اتباع‬ ‫يمكن‬ ،‫النوافذ‬ swin ‫لل‬ shifted configuration ‫النوافذ‬ ‫من‬ ‫النهائي‬ ‫العدد‬ ‫يبقى‬ ‫بحيث‬ ‫للحساب‬ 8 . 17
  • 18. ‫النموذج‬ ‫نجاح‬ ‫توقع‬ ‫أسباب‬ • ‫فيديو‬ ‫بين‬ ‫تجمع‬ ‫التي‬ ‫المقترحة‬ ‫النموذج‬ ‫بنية‬ ‫تعمل‬ ‫أن‬ ‫المحتمل‬ ‫من‬ Swin Transformer ‫الستخراج‬ ‫التوضيحية‬ ‫التسمية‬ ‫ونموذج‬ ‫األسباب‬ ‫لهذه‬ ‫جيد‬ ‫بشكل‬ ‫المجموعة‬ ‫نشاط‬ ‫على‬ ‫للتعرف‬ ‫ميزات‬ :  ‫مثل‬ ‫قوي‬ ‫فيديو‬ ‫محول‬ ‫استخدام‬ ‫يؤدي‬ ‫أن‬ ‫يمكن‬ Swin Transformer ‫إ‬ ‫الفيديو‬ ‫بيانات‬ ‫من‬ ‫المكانية‬ ‫الزمانية‬ ‫الميزات‬ ‫الستخراج‬ ‫لى‬ ‫التقاط‬ ‫والزمان‬ ‫المكان‬ ‫من‬ ‫كل‬ ‫في‬ ‫هرمية‬ ‫عالقات‬ ‫المعقدة‬ ‫المجموعة‬ ‫ألنشطة‬ ‫مهم‬ ‫أمر‬ ‫وهو‬ ، . ‫من‬ ‫كل‬ ‫التقاط‬ ‫تعلم‬ ‫يمكنه‬ ‫حيث‬ ‫المجموعات‬ ‫وبين‬ ‫المجموعة‬ ‫داخل‬ ‫التفاعالت‬ ‫باستخدام‬ ‫االهتمام‬ ‫من‬ ‫مختلفة‬ ‫مستويات‬ ‫الذاتي‬ ‫منها‬ ‫كل‬ ،‫مراحل‬ ‫أربع‬ ‫من‬ ‫يتكون‬ ‫النموذج‬ ‫ألن‬ ‫وذلك‬ ‫ودقة‬ ‫نافذة‬ ‫بحجم‬ patch ‫مختلفة‬ .  ‫لل‬ ‫دقة‬ ‫وأعلى‬ ‫نافذة‬ ‫حجم‬ ‫أصغر‬ ‫لديها‬ ‫األولى‬ ‫المرحلة‬ patch ، ‫لل‬ ‫دقة‬ ‫وأدنى‬ ‫نافذة‬ ‫حجم‬ ‫أكبر‬ ‫لديها‬ ‫األخيرة‬ ‫المرحلة‬ ‫بينما‬ patch ‫أمامية‬ ‫تغذية‬ ‫وشبكات‬ ‫ذاتية‬ ‫اهتمام‬ ‫طبقات‬ ‫من‬ ‫كتل‬ ‫عدة‬ ‫على‬ ‫مرحلة‬ ‫كل‬ ‫تحتوي‬ .  ‫في‬ ‫للرقع‬ ‫األعلى‬ ‫والدقة‬ ‫للنافذة‬ ‫األصغر‬ ‫الحجم‬ ‫المحلية‬ ‫التفاصيل‬ ‫على‬ ‫بالتركيز‬ ‫للنموذج‬ ‫تسمح‬ ‫األولى‬ ‫المرحلة‬ ‫كل‬ ‫داخل‬ ‫مجموعة‬ ‫الفردية‬ ‫والوضعيات‬ ‫اإلجراءات‬ ‫مثل‬ ، . ‫األخيرة‬ ‫المرحلة‬ ‫في‬ ‫للرقع‬ ‫األدنى‬ ‫والدقة‬ ‫للنافذة‬ ‫األكبر‬ ‫الحجم‬ ‫تسمح‬ ‫للنموذج‬ ‫مختلفة‬ ‫مجموعات‬ ‫عبر‬ ‫عام‬ ‫سياق‬ ‫بالتقاط‬ ‫والعالقات‬ ‫المجموعات‬ ‫أنشطة‬ ‫مثل‬ ، . ‫توفر‬ ‫ا‬ ‫بين‬ ‫ا‬ً‫ن‬‫تواز‬ ‫المتوسطة‬ ‫المراحل‬ ‫لمعلومات‬ ‫ــلةـ‬ِ‫والشام‬ ‫المحلية‬ 18
  • 19. ‫النموذج‬ ‫نجاح‬ ‫توقع‬ ‫أسباب‬  ‫التوضيحية‬ ‫التسمية‬ ‫نموذج‬ ‫باستخدام‬ ‫الفيديو‬ ‫تعليقات‬ ‫استخراج‬ ‫يوفر‬ ‫أن‬ ‫يمكن‬ ‫دال‬ ‫ميزات‬ ‫على‬ ‫تعتمد‬ ‫لية‬ ‫المرئية‬ ‫الميزات‬ ‫تكمل‬ ‫اللغة‬ ‫من‬ Swin Transformer ‫إعطاء‬ ‫إلى‬ ‫الطريقتين‬ ‫هاتين‬ ‫بين‬ ‫الجمع‬ ‫يؤدي‬ ‫قد‬ ‫لألنشطة‬ ‫قوة‬ ‫أكثر‬ ‫تمثيال‬ ‫النموذج‬ .  ‫التقاط‬ ‫الممكن‬ ‫من‬ ،‫والنصية‬ ‫المرئية‬ ‫الميزات‬ ‫بين‬ ‫للجمع‬ ‫المتبادل‬ ‫االنتباه‬ ‫استخدام‬ ‫خالل‬ ‫من‬ ‫ال‬ ‫الداللية‬ ‫عالقات‬ ‫الطريقتين‬ ‫بين‬ ‫األداء‬ ‫تحسين‬ ‫إلى‬ ‫تؤدي‬ ‫أن‬ ‫يمكن‬ ‫والتي‬ ، . 19
  • 20. ‫والصعوبات‬ ‫التحديات‬ • ‫اآلل‬ ‫التعلم‬ ‫مجال‬ ‫في‬ ‫عامة‬ ‫مصطلحات‬ ‫لفهم‬ ‫أكبر‬ ‫وقت‬ ‫استغراق‬ ‫إلى‬ ‫أدى‬ ‫مما‬ ‫المدروس‬ ‫المجال‬ ‫في‬ ‫سابقة‬ ‫معرفة‬ ‫وجود‬ ‫عدم‬ ‫بشكل‬ ‫ي‬ ‫الجارية‬ ‫البحث‬ ‫عملية‬ ‫لتسهيل‬ ‫عام‬ . • ‫باال‬ ‫استبداله‬ ‫إلى‬ ‫يدعي‬ ‫مما‬ ‫المقترح‬ ‫النموذج‬ ‫من‬ ‫ما‬ ‫جزء‬ ‫تنجيز‬ ‫في‬ ‫صعوبة‬ ‫أو‬ ‫معينة‬ ‫مشكلة‬ ‫مواجهة‬ ‫العمل‬ ‫أثناء‬ ‫يمكن‬ ‫مع‬ ‫تفاق‬ ‫المشرفين‬ . • ‫أثر‬ ‫دراسة‬ ‫يمكن‬ ‫النصية‬ ‫الميزات‬ ‫فعالية‬ ‫عدم‬ ‫تبين‬ ‫إذا‬ object detection ‫باستخدام‬ YOLO ‫الكابشن‬ ‫من‬ ‫بدل‬ . 20