تنقيب البيانات (Data Mining)
Upcoming SlideShare
Loading in...5
×
 

تنقيب البيانات (Data Mining)

on

  • 8,441 views

 

Statistics

Views

Total Views
8,441
Views on SlideShare
8,439
Embed Views
2

Actions

Likes
6
Downloads
300
Comments
3

1 Embed 2

https://twitter.com 2

Accessibility

Categories

Upload Details

Uploaded via as Microsoft Word

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
  • Thank you very much ^^
    Are you sure you want to
    Your message goes here
    Processing…
  • nice
    Are you sure you want to
    Your message goes here
    Processing…
  • I'm student h need this slide
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

تنقيب البيانات (Data Mining) تنقيب البيانات (Data Mining) Document Transcript

  • ‫مستودعات البيانات‬ ‫‪Data Warehousing‬‬ ‫يناير ٤٠٠٢‬ ‫قبل المضي قدما يجب تعريف المصطلحات التالية:‬ ‫* ‪ : (OLAP (On-line Analytical Processing‬هي عملية تحليل البيانات المتراكمة في مستودع البيانات.‬ ‫•‪ :(DSS (Decision Support Systems‬وتعرف كذلك ب ‪ (EIS (Executive Information Systems‬وهي أنظمة‬ ‫تساعد القياديين في المؤسسات والمنظمات على اتخاذ القرارات الحاسمة والمعقدة وذلك بتوفير بيانات من‬ ‫مستوى عالي.‬ ‫• تنقيب البيانات )‪ :(Data Mining‬هي عملية البحث داخل مستودع البيانات عن معرفة غير مستكشفة ) اكتشاف‬ ‫المعرفة(.‬ ‫•‪ :(OLTP (On-line Transaction Processing‬هي مجموعة عمليات الضافة والحذف والتعديل بالضافة إلى‬ ‫الستعلم مع بعض التحليل الذي ليرقى لن يكون مساعدا في اتخاذ القرارات. ويتوفر دعم هذه العمليات في‬ ‫قواعد البيانات التقليدية.‬ ‫ماهي مستودعات البيانات؟‬ ‫هي مجموعة من البيانات دائمة تاريخية متكاملة للمساعدة في اتخاذ القرارات الدارية. فهي تساعد على الوصول‬ ‫للبيانات لغراض التحليلت الزمنية واكتشاف المعرفة واتخاذ القرارات لنها مصممة خصيصا لستخلص البيانات‬ ‫ومعاجتها وتمثيلها وتقديمها بصورة مناسبة لهذه الغراض، وتتضمن كمية ضخمة من البيانات قد تكون من مصادر‬ ‫مختلفة، مثل عدة قواعد بيانات من عدة نماذج بيانات، وأحيانا من أنظمة ومنصات مختلفة.‬ ‫خصائص مستودعات البيانات:‬ ‫)1(تستخدم النموذج متعدد البعاد )‪.(Multidimensional Model‬‬ ‫)2(تدعم السلسل الزمنية )‪ (Time Series‬وتحليل التوجهات )‪ (Trends Analysis‬اللذين يحتاجان لبيانات‬ ‫تاريخية لتستطيع قواعد البيانات العادية )‪ (Transactional Databases‬أن توفرها.‬ ‫)3(تحديث البيانات فتري )‪ (Periodic‬أي يتم كل فترة بواسطة أجزاء منه تختص بهذا المر.‬ ‫)4(استرجاع البيانات وتحليلها هو صميم عملها، وتهتم به أكثر.‬ ‫)5(مستويات تجميع )‪ (Aggregation‬وأبعاد )‪ (Dimensions‬غير محدودة.‬ ‫)6(دعم معمارية ‪ Client/server‬وتعددية المستخدمين.‬ ‫)7(الحتفاظ بكمية ضخمة من البيانات قد تصل إلى عدة تيرابايتات )1 ‪. (TB = 1024 GB‬‬ ‫الخاصية الخيرة شكلت مشكلة، ولكن تم حلها بابتكار كل من التي:‬
  • ‫1-مستودعات البيانات الشاملة ) ‪ :(Enterprise-wide Data Warehouses‬وهي مشاريع ضخمة تتطلب‬ ‫استثمارا ضخما في الوقت والموارد.‬ ‫2-مستودعات البيانات الفتراضية )‪ :(Virtual Data Warehouses‬وهي استعلمات على قواعد البيانات‬ ‫الوظيفية مصممة بكفاءة عالية للوصول السريع للبيانات.‬ ‫3-متاجر البيانات )‪ :(Data Marts‬هي أجزاء من مستودع البيانات موجهة لجزء من المؤسسة )كقسم معين‬ ‫منها(.‬ ‫معمارية مستودعات البيانات:‬ ‫نمذجة البيانات داخل مستودع البيانات:‬ ‫كما ذكرنا، مستودعات البيانات تستخدم النموذج متعدد البعاد، وتستفيد من العلقات بين البيانات لتسكينها في‬ ‫مصفوفات متعددة البعاد تسمى مكعبات البيانات )‪ ،(Data Cubes‬وتسمى بالمكعبات الفائقة )‪ (Hyper Cubes‬إذا‬ ‫احتوت على أكثر من ثلثة أبعاد. البيانات المخزنة في هذا النموذج أفضل من ناحية أداء الستعلمات من مثيلتها‬ ‫المخزنة في النموذج العلئقي.‬ ‫مثال للبعاد: في مستودع بيانات خاص بشركة تجارية: أرباع السنة المالية، المنتجات، المناطق. وبإضافة بعد‬ ‫آخر )الزبائن مثل( يتحول لمكعب فائق، مع أنه صعب التخيل والتمثيل.‬
  • ‫المناط‬ ‫المنتجات‬ ‫أرباع السنة‬ ‫المالية‬ ‫في هذا المثال كل خلية في المكعب تحتوي على بيانات بضاعة معينة في ربع سنة مالية معين في منطقة معينة.‬ ‫عملية النتقال من تدرج بعد لخر تسمى بالرتكاز )‪ (Pivoting‬أو الدوران )‪ ،(Rotation‬مثل تدوير المكعب لعرض بيانات‬ ‫المناطق كصفوف ومجموع المبيعات في أرباع السنة المالية كأعمدة، وأنواع البضائع كبعد ثالث. لحظ تشابهه مع‬ ‫دراسة مجسم دالة متعددة المتغيرات في فضاء متعدد البعاد.‬ ‫تخزين النموذج متعدد البعاد يتضمن نوعين من الجداول:‬ ‫1-جدول البعد )‪ :(Dimension Table‬وصفوفه تصف سمات ‪ attributes‬البعد.‬ ‫2-جدول الحقيقة )‪ :(Fact Table‬ويتضمن مقاييس أداء العمل )‪Business Key‬‬ ‫‪ ،(Performance Indicators‬وتعرََف بمؤشرات لجداول البعاد، ويتضمن هذا الجدول‬ ‫البيانات.‬ ‫توجد بنيتين شائعتين لتعريف هذه الجداول، هما:‬ ‫١/ ‪ :Star Schema‬وتتكون من جدول الحقيقة مع جدول وحيد لكل بعد. ويعيبها احتياجها لمساحة كبيرة‬ ‫لتخزين البيانات.‬ ‫٢/ ‪ :Snowflake Schema‬وهي تعديل لل ‪ Star Schema‬وذلك بتطبيق قوانين التطبيع )‪ (Normalization‬عليها.‬ ‫ويعيبها تضييعها لطاقة الجهاز المضيف في عمليات الربط )‪.(Joining‬‬ ‫مثال:‬
  • – ‫جدول بعد‬ poduct_key Time_dim – ‫جدول بعد‬ product_dim quarter_key region_key – ‫جدول بعد‬ qarter_key pod_key revenue region_dim year prod_name ………. begin_date prod_desc – ‫جدول حقيقة‬ Region_key end_date prod_style Sales_fact subregion prod_line Star Schema – ‫جدول بعد‬ Time_dim – ‫جدول بعد‬ – ‫جدول بعد‬ – ‫جدول حقيقة‬ pnames_dim product_dim Sales_fact qarter_key prod_name pod_key poduct_key year prod_desc prod_name quarter_key begin_date prod_style region_key – ‫جدول بعد‬ prod_line revenue region_dim begin_date ………. end_date region_key prod_line_no subregion – ‫جدول بعد‬ prod_line_nam FQ_Dates e – ‫جدول بعد‬ P_lines_dim Snowflake Schema :‫بناء مستودعات البيانات‬ :‫العمليات التي تتم لنجاز هذا العمل موضحة في الشكل التالي‬ ‫قواعد بيانات‬ metadata OLAP Cubes ‫تنظيف‬ ‫إعادة تهيئة‬ ‫مستودع‬ DSS, EIS ‫للبيانات‬ ‫للبيانات‬ ‫البيانات‬ Data Mining ‫وسائل إدخال بيانات‬ ‫تحديثات/ بيانات جديدة‬ poduct_key quarter_key qarter_key region_key year revenue begin_date – ‫جدول بعد‬ – ‫جدول حقيقة‬ end_date Time_dim Region_key – ‫جدول بعد‬ ………. Sales_fact subregion region_dim
  • ‫كما توجد بعض القضايا التي تجب مراعاتها عند بناء مستودعات البيانات ومنها:‬ ‫1-استخلص البيانات من عدة مصادر قد تكون غير متجانسة.‬ ‫2-تهيئة البيانات لضمان تلؤمها )‪ (Consistency‬داخل مستودع البيانات.‬ ‫3-تنظيف البيانات لضمان شرعيتها )‪ ،(Validity‬ويتم ذلك في قاعدة البيانات التي تم أخذ البيانات منها.‬ ‫4-مراقبة وضبط حجم مستودع البيانات خلل وبعد تحميله بالبيانات.‬ ‫5-كل كم فترة يجب تحديث البيانات فيه؟‬ ‫6-ماهو الزمن اللزم لبنائه؟ وماهي جدواه القتصادية بالنسبة للمؤسسة التي استعملته؟‬ ‫7-هل نحتاج لن يكون موزعا )‪ (Distributed‬أم مركزيا )‪(Centralized‬؟‬ ‫الوظائف داخل مستودع البيانات:‬ ‫1-‪ :Roll-up‬حيث يتم تلخيص البيانات في شكل عمومي متزايد )أسبوعيا‬ ‫إلى ربعيا إلى سنويا(.‬ ‫2-‪ :Drill-Down‬حيث تتم زيادة مستويات تفصيل البيانات، بعكس ال -‪Roll‬‬ ‫‪.up‬‬ ‫3-‪ :(Pivot (Rotation‬سبق شرحها أعله.‬ ‫4-‪ :Slice and Dice‬تنفيذ عمليات السقاط على البعاد.‬ ‫5-الترتيب )‪ :(Sorting‬ترتيب البيانات بقيمة قابلة للترتيب.‬ ‫6-الختيار )‪ :(Selection‬اختيار البيانات بقيمة أو مدى قيم.‬ ‫7-الصفات المحسوبة: وهي قيم لصفات يتم حسابها بعمليات على القيم‬ ‫المخزنة والمشتقة.‬ ‫مع أنهما يبدوان متشابهين لول وهلة، إل أن بينهما الفروقات التالية:‬ ‫الفرق ما بين مستودعات البيانات والمرئيات:‬ ‫١- مستودعات البيانات تتواجد كتخزين دائم ول تتشكل عند الطلب كالمرئيات.‬ ‫٢- مستودعات البيانات ليست دائما علئقية، بل متعددة البعاد.‬ ‫٣- مستودعات البيانات يمكن فهرستها لتحسن الداء، بينما ليمكن فهرسة المرئيات مستقلةً عن جداولها‬ ‫القاعدية.‬ ‫٤- مستودعات البيانات تستطيع عمل الوظائف المذكورة أعله، بينما المرئيات لتستطيع عملها كلها.‬ ‫٥- مستودعات البيانات تعطي تخزينا ضخما لبيانات زمنية بصورة أكبر من تلك المحتواة في قاعدة البيانات، بينما‬ ‫المرئيات هي خلصة قاعدة البيانات.‬ ‫الدوات: دوال ‪ ،(ROLAP (Relational OLAP‬دوال ‪ ،(MOLAP ( Multidimensional OLAP‬امتدادات من ‪SQL‬‬ ‫وطرق ربط متقدمة )‪ (Advanced Join Methods‬ومسح ذكي )‪ ،(Intelligent Scanning‬ويتم تحسين أداء هذه الدوات‬ ‫باستخدام المعالجة المتوازية.‬ ‫الصعوبات التي تواجه تطبيق مستودعات البيانات:‬ ‫١/ النشاء يستغرق بعض الزمن، ابتداءً من وضع الخطط حوله وحتى النتهاء من تطبيقه.‬ ‫٢/ إدارة المستودع صعبة نظرا لكبر لحجمه وتعقيده وتتطلب تدريبا أكثر للقائمين عليه، وخصوصا من ناحية‬ ‫مراعاة جودة البيانات )‪.(Data quality‬‬
  • ‫٣/ تقدير احتياجات مستخدميه قبل إنشائه.‬ ‫٤/ ظهور منابع جديدة للبيانات بعد النتهاء من إنشائه يزيد من صعوبة إدارته.‬