More Related Content
Similar to Big data clustering with the use of the random projection features reduction and collaborative Fuzzy C-Means (20)
Big data clustering with the use of the random projection features reduction and collaborative Fuzzy C-Means
- 2. مقدمة
تت ضخمة بيانات مجموعات ظهور إلى الرقمي والتسويق التكنولوجيا في الحديثة التطورات أدتبين راوح
من العديدالصناعات.
إمهيكلة شبه بيانات أو مهيكلة بيانات تكون أن يمكن التي البيانات على االعتماد إلى الحاجة نوتعقيد اًضأي
الضخمة البيانات وراء الدافع هو العمل قرار اتخاذ.
في الضخمة البيانات تمييز تم4’Vsالمصداقية و والسرعة والتنوع الحجم لتشمل
(volume, variety, velocity and veracity)
- 3. المقترحة الطريقة
الشكل يوضحمخطط التاليا البيانات لتجميع المقترحة الطريقةلضخمة:
1-البيانات ميزات تقليل
2-تقسيماألصلية الداتاالفرعية البيانات مجموعات إلىN
3-اًيمحل الفرعية البيانات مجموعات تجميعبواسطةFCM
4-التعاوني التكتل تطبيق
- 5. Random Projection Features
Reduction
الشهيرة النظرية من تأتي العشوائي اإلسقاط هذا وراء الرئيسية الفكرةJohnson Lindenstrauss (JL) lemmaتقول والتي:
المنتهية المجموعة لدينا ليكن𝑋 ⊂ 𝑅 𝑛 𝑜𝑓 𝑠𝑖𝑧𝑒 𝑋 = 𝐾
بالشكل معرفة خطية خريطة يوجد عندها:
𝑓: 𝑅 𝑛
→ 𝑅 𝑚
𝑤𝑖𝑡ℎ 𝑚 = 0 (ℰ−2
log(𝐾))
منه و:1 − ℰ 𝑥 − 𝑦 2 ≤ 𝑓 𝑥 − 𝑦 2 ≤ (1 + ℇ) 𝑥 − 𝑦 2
حيث𝑥,𝑦 𝜖 𝑅 𝑛
أياًيخط النقاط هذه تضمين يمكن ، اإلقليدي الفضاء في العالية األبعاد ذات النقاط من مجموعة لدينا يكون عندما
البنية معلومات فقدان وعدم النقاط بين المسافات على الحفاظ مع منخفضة أبعاد ذو فضاء في.
كالتالي عشوائية بمصفوفة األصلية البيانات متجه ضرب طريق عن ضةّفالمخ البيانات على الحصول يتم:
𝑋 𝑛 × 𝑅جديد متجه إلنتاجYالجديدة المخفضة األبعاد مع
- 6. Random Projection Features
Reduction
نظرية تقومJLالتا المعادلة طريق عن منخفضة أبعاد في للبيانات العالية األبعاد إسقاط على العشوائي اإلسقاط فيلية
حيثnالبيانات مجموعة أسطر عدد هو.األبعاد من معين عدد على يعتمد ال التخفيض أن على يدل هذا
أنه اًضأي ويوضحبإعطاءε > 0أكثر نقطتين بين المشوهة المسافة تكون أن يمكن ال ،من(1 ± 𝜀)
عليها الحفاظ يتم النقاط من زوجين بين المسافات جميع أن يعني ممااإلقليدي الفضاء في يكمن الحفاظ هذا لكن.
- 7. Fuzzy C-Means (FCM)
أشكال من شكل هو الضبابي التجميعالعنقدةمن أكثر إلى بيانات نقطة كل تنتمي أن يمكن حيثكالسترواحد.تتضمن
اإل قدر متشابهة المجموعة نفس في الموجودة العناصر أن أي مجموعات إلى بيانات نقاط تعيين الخوارزمية هذه، مكان
اإلمكان قدر متباينة تكون مختلفة مجموعات إلى تنتمي التي العناصر أن حين في.تحديد يتمالكالستراتخالل من
التشابه مقاييس.والكثافة والترابط المسافة من كل التشابه مقاييس تتضمن.
من الهدفFCMالتالي التابع وظيفة تقليل هو:
حيث: 𝑥𝑖 − 𝑣𝑗البيانات عنصر بين اإلقليدية المسافة عن تعبرiمركز والكالسترj
- 8. Fuzzy C-Means (FCM)
أساس على كتلة مركز لكل مقابلة بيانات نقطة لكل عضوية تعيين طريق عن الخوارزمية هذه تعمل
البيانات ونقطة الكتلة مركز بين المسافة.التالية للمعادالت اًقوف الكتلة ومراكز العضوية تحديث يتم تكرار كل بعد:
حيث:n:الداتا نقاط عدد
Vj:مركزالكالسترj
M:الضبابية درجة(𝑚 ∈ 1,∞)
C:مراكز عددالكالسترات
𝜇𝑖𝑗:البيانات عنصر عضوية درجةiمركز إلىالكالسترj
𝑑𝑖𝑗:البيانات عنصر بين اإلقليدية المسافةiمركز والكالسترj
- 9. Collaborative Fuzzy Clustering
العنقدةالضبابية التعاونية
اًعجمي فيها مشتركة بنية إيجاد بهدف اًعم األنماط من فرعية مجموعات عدة معالجة فيها يمكن جديدة تجميع بنية.
خالل من البيانات من منفصلة فرعية مجموعات على تعمل التي التجميع خوارزميات تتعاون ، الهيكل هذا عن للكشف
حول المعلومات تبادلpartition matrices.
التقسيم مصفوفات تشكل التي الضبابية المجموعات مستوى على المطلوبة االتصال روابط إنشاء يتم أي
البيانات قواعد في مباشرة المتوفرة األنماط من ًالبد.
- 11. والتجارب النتائج:
واستخد البيانات من مجموعتين باستخدام نقوم ، المقترحة الطريقة لتقييمامالتقييم أداتيXie-BeniوPartition
Coefficientفي المقترحة الخوارزمية أداء لمقارنةالعنقدةBDC-RPFR-CFCMوخوارزميةFCM.
إلى البيانات بتقسيم قمنا ، الميزات تقليل بعد ، التعاونية للعنقدة بالنسبة10فرعية مجموعات
الجدول في التخفيض بعد والبعد إبسيلون قيمة بين العالقة نحدد
- 12. والتجارب النتائج:
نصية وثائق على كانت األولى التجربة(NIPS):
نصية وثائق عن عبارة وهيمن1987حتى2015
على تحتوي5811ملها المقابل البحثية الورقة ومعرف السنة تمثل والتي ، يزة..الخ
ال عدد تعيين تمclustersإلى12تعيين مع ،epsilon 0.18البيانات تباين نسبة ،وبلغت94٪
ت تمالبعد خفيضمن5811إلى288ميزة.
- 13. والتجارب النتائج:
على الثانية التجربةEpileptic Seizure Recognition Dataset:
تتكونالداتامن5مجلداتمجلد كل يحتويعلى100يمثل ملف
تسجيل موضوع كل23.6ثانية.اختيارها تم عينات من البيانات مجموعة تتكون
مع األصلية البيانات مجموعة من اًيعشوائ11500ن منقاطالو بيانات179ًادعمو
عمود كل يمثل حيثالملف من واحدة ثانية لمدة اًيعشوائ اختيارها تم عينة
نحاولتجميعفي البيانات2clusters
اإلبسيلون تحديد تم0.37تساوي التباين درجة و ،1البعد تخفيض تم ،
من األصلي179إلى68.