نحو مقاربة شاملة لتحليل وتمثيل الوثائق العربية

460 views

Published on

إبراهيم بونحاس و يحيى سليماني, نحو مقاربة شاملة لتحليل وتمثيل الوثائق العربية في الويب الاجتماعي الدلالي. الندوة الدولية لعلوم و هندسة الحاسوب, الحمامات, تونس, 2010, ص. 197-210

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
460
On SlideShare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
10
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

نحو مقاربة شاملة لتحليل وتمثيل الوثائق العربية

  1. 1. ‫نحو مقاربة شاملة لتحليل وتمثيل الوثائق العربية‬ ‫في الويب التجتماعي الدللي‬ ‫إبراهيم بونحاس ويحيى سليماني‬ ‫كلية العلوم بتونس‬ ‫قسم اللعليمية‬ ‫إبراهيم بونحاس ويحيى سليماني, قسم اللعليمية, كلية العلوم بتونس‬
  2. 2. ‫الفهرس‬ ‫.1‬ ‫.2‬ ‫.3‬ ‫.4‬ ‫.5‬ ‫.6‬ ‫.7‬ ‫الويب التجتمالعي الدللي‬ ‫نولعية الستخدام‬ ‫إلعتمادية المعلويمة‬ ‫إلعداد المكانز‬ ‫النموذج التجتمالعي الدللي‬ ‫البنية المقترحة‬ ‫التجارب والنتائج‬ ‫إبراهيم بونحاس ويحيى سليماني, قسم اللعليمية, كلية العلوم2بتونس‬
  3. 3. ‫الويب التجتمالعي الدللي‬ ‫•‬ ‫وضعية الويب الحالية‬ ‫–‬ ‫–‬ ‫–‬ ‫–‬ ‫•‬ ‫كمية هائلة من المعلومات‬ ‫تنامي عدد منتجي المعلومة وناقليها‬ ‫تباين وتجهات النظر‬ ‫تعدد وتنوع حاتجيات المستخدمين‬ ‫التحديات المطروحة‬ ‫–‬ ‫–‬ ‫–‬ ‫–‬ ‫صعوبة العثور على المعلومة‬ ‫صعوبة التحقق من اعتمادية المعلومة‬ ‫صعوبة فهم أو ضبط المجال المعرفي‬ ‫صعوبة حصر وتجهات النظر أو تأويلها‬ ‫إبراهيم بونحاس ويحيى سليماني, قسم اللعليمية, كلية العلوم3بتونس‬
  4. 4. ‫الويب التجتمالعي الدللي‬ ‫•‬ ‫الويب الدللي‬ ‫–‬ ‫–‬ ‫تمثيل المعارف والوثائق على مستوى المفاهيم حتى تتمكن محركات البحث من فهم معنى‬ ‫الوثيقة والتعامل معه‬ ‫إستعمال المكانز الشكلية )‪:(formal ontology‬‬ ‫•‬ ‫•‬ ‫•‬ ‫•‬ ‫•‬ ‫يمثل المكنز نموذتجا للمجال المعرفي يمكن من فهم هيكله وتمثيل معارفه‬ ‫مُ نكَ‬ ‫كما انه وسيلة لفهرسة الوثائق والبحث في المدونة‬ ‫يمكن من حوسبة المعنى وبالتالي من معالجة الوثائق على مستوى المفاهيم‬ ‫مُ نكَ‬ ‫صعوبة تحيين المكانز خاصة مع الصبغة التطورية للويب‬ ‫التركيز على حوسبة المعنى لمعالجته آليا أدت إلى تجاهل الحاتجيات البشرية والتجتماعية‬ ‫للمستخدمين:‬ ‫–‬ ‫–‬ ‫–‬ ‫حاتجيات التصال‬ ‫التفاعل مع المعلومة‬ ‫تبادل ودراسة وتجهات نظر مختلفة‬ ‫إبراهيم بونحاس ويحيى سليماني, قسم اللعليمية, كلية العلوم4بتونس‬
  5. 5. ‫الويب التجتمالعي الدللي‬ ‫•‬ ‫الويب التجتمالعي‬ ‫–‬ ‫–‬ ‫–‬ ‫–‬ ‫–‬ ‫الستجابة للحاتجيات التجتماعية )التصال، التفاعل، تبادل ودراسة وتجهات النظر(‬ ‫تسهيل التفاعل بين مستخدمين موزعين في الزمان والمكان‬ ‫عّ‬ ‫استعمال مكانز لشكلية تسمى المفضلات التجتماعية )‪:(folksonomy‬‬ ‫• ترتيب محتويات موقع بطريقة تعاونية بين المستخدمين باستخدام كلمات تربط بكل‬ ‫مُ‬ ‫محتوى بغرض وصفه، و تعرف هذه الكلمات بالبطاقات )‪(tags‬‬ ‫مُ‬ ‫سهولة وسرعة التحيين‬ ‫يصعب تحقيق تماسك المفضلة التجتماعية والفهارس خاصة مع غياب سلطة إشراف‬ ‫إبراهيم بونحاس ويحيى سليماني, قسم اللعليمية, كلية العلوم5بتونس‬
  6. 6. ‫الويب التجتمالعي الدللي‬ ‫•‬ ‫الويب التجتمالعي الدللي‬ ‫–‬ ‫–‬ ‫–‬ ‫–‬ ‫–‬ ‫إعداد المكانز يجب أن يستجيب للحاتجيات البشرية‬ ‫الوثيقة هي نتيجة للتفاعل بين مستخدمين موزعين في الزمان والمكان‬ ‫معنى الوثيقة يتكون تدريجيا مع التفاعلت التجتماعية‬ ‫تمثيل الوثائق يجب أن يسهل الستعمالت والتفاعلت المستقبلية‬ ‫استعمال مكانز شبه شكلية )‪ (semi-formal‬تسمى المكانز السيميائية‬ ‫)‪ .(semiotic ontology‬تأخذ بعين العتبار‬ ‫•‬ ‫•‬ ‫•‬ ‫•‬ ‫تعقيد العلقات بين الوثائق والتجزاء‬ ‫الصبغة التطورية للوثائق‬ ‫اختلف الرطراف الفاعلة وتنوع أدوارهم وإمكانياتهم‬ ‫سياق إنتاج الوثائق والمواضيع التي تتناولها‬ ‫إبراهيم بونحاس ويحيى سليماني, قسم اللعليمية, كلية العلوم6بتونس‬
  7. 7. ‫الويب التجتمالعي الدللي‬ ‫الخبير‬ ‫تصميم نازل‬ ‫)‪(Top Down Design‬‬ ‫الويب الدللي‬ ‫الويب التجتمالعي الدللي‬ ‫تصميم صاعد‬ ‫)‪( Bottom Up Design‬‬ ‫الويب التجتمالعي‬ ‫شكلي )‪(formal‬‬ ‫شبه شكلي )‪(semi-formal‬‬ ‫لشكلي )‪(informal‬‬ ‫يمجتمع‬ ‫المستخديمين‬ ‫إبراهيم بونحاس ويحيى سليماني, قسم اللعليمية, كلية العلوم7بتونس‬
  8. 8. ‫نولعية الستخدام‬ ‫•‬ ‫•‬ ‫•‬ ‫•‬ ‫•‬ ‫ينتمي المستخدمون إلى جماعات ممارسة كل منها يهتم بالوثيقة بكيفية معينة‬ ‫يسمى نوعية الستخدام‬ ‫حسب انتمائه فإن المستخدم سيهتم بأجزاء دون أخرى أو يرتب هذه الجزاء‬ ‫تَ ه بّ‬ ‫ترتيبا معينا‬ ‫عُ تَ‬ ‫ضرورة تجزئة الوثيقة إلى أجزاء متماسكة‬ ‫ضرورة ربط الجزاء لتمكين المستخدم من البحار الدللي عبر الوثائق‬ ‫تحديد مستوى الحبوبية المثل عند التجزئة: إجراء دراسة اجتماعية وذلك بتحديد‬ ‫تَ تَ‬ ‫ممارسات المستخدمين‬ ‫إبراهيم بونحاس ويحيى سليماني, قسم اللعليمية, كلية العلوم8بتونس‬
  9. 9. ‫إلعتمادية المعلويمة‬ ‫•‬ ‫تعريفات:‬ ‫–‬ ‫–‬ ‫•‬ ‫•‬ ‫دراسة العتمادية ضروري من أجل فهم الوثيقة وتفسيرها واستغللها‬ ‫هذه الدراسة تعتمد على:‬ ‫–‬ ‫–‬ ‫•‬ ‫إعتمادية المعلومة )‪ :(Information Reliabitliy‬مدى ثقة المستخدم بالمعلومة‬ ‫السلطة )‪ :(Authority‬مجموعة المؤشرات التي تثبت )أو يمكن أن تستخدم لدراسة(‬ ‫عُ تَ‬ ‫عُ‬ ‫تَ‬ ‫مصداقية الجهات الفاعلة في إنتاج ونقل المعلومة‬ ‫عناصر داخلية مثل أسماء الكتاب ومعلومات التصال ونصوص حقوق النشر‬ ‫عُ باّ‬ ‫عناصر خارجية مثل سيرة الكتاب‬ ‫عُ باّ‬ ‫ضرورة التعرف على هوية الجهات الفاعلة وأدوارها والعلقات التي تربطها‬ ‫إبراهيم بونحاس ويحيى سليماني, قسم اللعليمية, كلية العلوم9بتونس‬
  10. 10. ‫إلعداد المكانز‬ ‫•‬ ‫•‬ ‫•‬ ‫المكنز في حده الدنى لبد أن يشتمل على عنصرين هما : المصطلحات‬ ‫باّ‬ ‫والعلقات الدللية التي تربطها‬ ‫السماء )البسيطة والمركبة( هي العناصر التي تمثل موضوع الوثيقة‬ ‫إعداد المكانز من الوثائق العربية‬ ‫–‬ ‫التحديات:‬ ‫• إلتباس النصوص العربية: اللغة العربية لغة اشتقاقية تعتمد على التصريف، يضاف إلى ذلك‬ ‫التصاق الحروف ببعضها وغياب الشكل‬ ‫• لعدم توفر يموارد لغوية كافية كالمعاجم والمحللت النحوية‬ ‫–‬ ‫المراحل‬ ‫•‬ ‫•‬ ‫•‬ ‫التحليل الصرفي النحوي: تحديد السماء البسيطة ثم تشكيل مركبات اسمية: ضرورة تخصيص‬ ‫عُ‬ ‫مرحلة تعنى بإزالة أو تقليل اللتباس‬ ‫عُ تَ‬ ‫غربلة المفردات لتحديد المصطلحات التي تمثل المجال المعرفي‬ ‫استخراج العلقات الدللية التي تمكن من ربط المصطلحات وتشكيل هيكل المكنز‬ ‫م نْ‬ ‫عُ تَ باّ‬ ‫01‬ ‫إبراهيم بونحاس ويحيى سليماني, قسم اللعليمية, كلية العلوم بتونس‬
  11. 11. ‫النموذج التجتمالعي الدللي‬ ‫نوعية العلةقة ط - ط‬ ‫علةقة ط - ط‬ ‫نوعية‬ ‫طرف‬ ‫نوعية العلةقة ج - ط‬ ‫نوعية العلةقة ج - ج‬ ‫علةقة ج - ط‬ ‫نوعية‬ ‫علةقة ج – ج‬ ‫نوعية‬ ‫جزء‬ ‫النوع‬ ‫المحتوى‬ ‫إلخ.‬ ‫علةقة م - م‬ ‫نوعية‬ ‫نوعية العلةقة م - م‬ ‫مصطلح‬ ‫نوع - ج‬ ‫نوعية التستخدام‬ ‫11‬ ‫إبراهيم بونحاس ويحيى سليماني, قسم اللعليمية, كلية العلوم بتونس‬
  12. 12. ‫البنية المقترحة‬ ‫4‬ ‫مادا‬ ‫1- الدراتسة‬ ‫الجتماعية‬ ‫المحلل النحوي‬ ‫مزيل اللتباس‬ ‫2‬ ‫المصطلحات‬ ‫الزجزاء‬ ‫مستخرج‬ ‫الهيكل‬ ‫5‬ ‫المهفهرس‬ ‫فُ‬ ‫6‬ ‫مستخرج‬ ‫العلةقات‬ ‫الفهارس‬ ‫ميقي م العتمادية‬ ‫فُ مّ‬ ‫وثيقة‬ ‫وثيقة‬ ‫وثيقة شبه‬ ‫شبه منظمة‬ ‫شبه منظمة‬ ‫منظمة‬ ‫الرطراف‬ ‫3‬ ‫21‬ ‫إبراهيم بونحاس ويحيى سليماني, قسم اللعليمية, كلية العلوم بتونس‬
  13. 13. ‫البنية المقترحة‬ ‫.1‬ ‫الدراسة التجتمالعية‬ ‫]بونحاس و سليماني، 9002ب[‬ ‫1.1 دراسة مراحل إنتاج الوثائق‬ ‫نوعية العلةقة ج - ط‬ ‫1.2 دراسة التنظيم التجتماعي للجهات الفاعلة‬ ‫نوعية العلةقة ط - ط‬ ‫1.3 تحديد فئات المستخدمين وممارساتهم‬ ‫نوعية التستخدام‬ ‫نوع - ج‬ ‫1.4 تحديد أنواع التجزاء وكيفية ترابطها‬ ‫نوعية العلةقة ج - ج‬ ‫نوع - ج‬ ‫1.5 ربط أنواع التجزاء بممارسات المستخدمين‬ ‫نوعية التستخدام‬ ‫31‬ ‫إبراهيم بونحاس ويحيى سليماني, قسم اللعليمية, كلية العلوم بتونس‬
  14. 14. ‫البنية المقترحة‬ ‫استخراج هيكل الوثيقة‬ ‫.2‬ ‫–‬ ‫–‬ ‫–‬ ‫.3‬ ‫استخراج الهيكل المادي )‪(Physical Structure‬‬ ‫استخراج الهيكل المنطقي الكلي )‪ (Logical Structure‬من خل ل تحديد عناوين‬ ‫التجزاء الكبرى كالفصو ل أو البواب: العتماد على النماط‬ ‫التحليل الجزئي للهيكل المنطقي: التعرف على المكونات الجزئية لكل تجزء كلي: استعما ل‬ ‫لُ:يّ‬ ‫قاعدة لغات حرة )‪ (CFG‬يتم تعلمها بطريقة شبه آلية من مجموعة من المثلة‬ ‫عَ :يّ‬ ‫‪ِC‬‬ ‫تقييم اللعتمادية‬ ‫.2‬ ‫.3‬ ‫.4‬ ‫]بونحاس و سليماني، 9002ب[‬ ‫]بونحاس و سليماني، 0102ب[‬ ‫استخراج أسماء الرطراف الفاعلة )‪(Name Entity Recoginition‬‬ ‫التعرف على هوية الرطراف الفاعلة باستعما ل محرك بحث اتجتماعي‬ ‫)‪(Identity Recoginition‬‬ ‫تقييم اعتمادية المعلومة من خل ل قاعدة البيانات حو ل الرطراف‬ ‫41‬ ‫إبراهيم بونحاس ويحيى سليماني, قسم اللعليمية, كلية العلوم بتونس‬
  15. 15. ‫البنية المقترحة‬ ‫التحليل اللغوي‬ ‫.4‬ ‫–‬ ‫–‬ ‫–‬ ‫.5‬ ‫التحليل الصرفي بأداة مادا‬ ‫التحليل النحوي ]بونحاس و سليماني، 9002أ[‬ ‫إزالة اللتباس اللغوي: خوارزمية مبنية على نظرية المكانيات )‪] (Possibilty Theory‬بونحاس و‬ ‫سليماني، 0102ج[‬ ‫الفهرسة النولعية النازلة للوثائق‬ ‫–‬ ‫إعطاء وزن أكبر للمفردات الموتجودة في العناوين:‬ ‫–‬ ‫الفهرسة النازلة:‬ ‫•‬ ‫•‬ ‫.6‬ ‫اتستخراج‬ ‫–‬ ‫–‬ ‫]بونحاس و سليماني، 0102ب[‬ ‫اختيار المفردات التي تميز كل وثيقة: )ت. ل.ع.ت.و, ‪(TF-IDF‬‬ ‫توريث فهرس الوثيقة للتجزاء من المستوى الو ل ثم الثاني,..., إلخ‬ ‫العلةقات الدللية ]بونحاس و سليماني، 0102ب[‬ ‫العلقات الأفقية: ربط اللفاظ التي تتردد في نفس الجزء: قياس درتجة التقارب بين المصطلحات عبر‬ ‫القياس ل. ل.ر‬ ‫العلقات العمودية: ربط اللفاظ التي تظهر في عنوان تجزء معين باللفاظ الموتجودة في فهارس‬ ‫أتجزاءه الفرعية‬ ‫51‬ ‫إبراهيم بونحاس ويحيى سليماني, قسم اللعليمية, كلية العلوم بتونس‬
  16. 16. ‫التجارب والنتائج‬ ‫•‬ ‫تقديم المشروع‬ ‫–‬ ‫–‬ ‫إنتاج خرائط اتجتماعية دللية من كتب الحديث‬ ‫الهداف:‬ ‫•‬ ‫•‬ ‫•‬ ‫تسهيل عمل الباحثين في مجا ل الحديث‬ ‫الستفادة من منهجية علوم الحديث كحل لمشاكل الويب‬ ‫المدونة: كتب الحديث الستة :‬ ‫صحيح البخاري وصحيح مسلم و سنن أبي داود وسنن النسائي‬ ‫وسنن الترمذي وسنن ابن ماتجة‬ ‫–‬ ‫–‬ ‫–‬ ‫–‬ ‫الحديث ينقل أحداثا تاريخية أو أقوال تنسب إلى شخص ما‬ ‫لُ‬ ‫كل حديث يتضمن سلسلة من الرواة تسمى السند أو السناد يحتوي على أسماء الرواة‬ ‫وصيغ التحمل‬ ‫تم تجميع الحاديث من قبل علماء في كتب متخصصة منظمة حسب المواضيع‬ ‫تم إضافة تعاليق تتعلق بصحة الحاديث أو تأويلها أو إشارات إلى روايات أخرى‬ ‫61‬ ‫إبراهيم بونحاس ويحيى سليماني, قسم اللعليمية, كلية العلوم بتونس‬
  17. 17. ‫التجارب والنتائج‬ ‫•‬ ‫التعرف على التجزاء‬ ‫•‬ ‫التذكير‬ ‫)‪(Recall‬‬ ‫أسماء الرواة‬ ‫%59,89‬ ‫السانيد‬ ‫%69,79‬ ‫%66,59‬ ‫الاشارات إلى الروايات الرخرى‬ ‫%45,49‬ ‫%10,39‬ ‫التعاليق‬ ‫%92,48‬ ‫%15,58‬ ‫المجموع‬ ‫%34,89‬ ‫–‬ ‫–‬ ‫الدقة‬ ‫)‪(Precision‬‬ ‫%42,79‬ ‫التعرف على هوية الرواة‬ ‫الدقة: 88.08%‬ ‫التذكير: 79.89%‬ ‫%36,69‬ ‫•‬ ‫استخراج المصطلحات‬ ‫–‬ ‫الدقة: 41,78 %‬ ‫–‬ ‫التذكير: 48,28 %‬ ‫71‬ ‫إبراهيم بونحاس ويحيى سليماني, قسم اللعليمية, كلية العلوم بتونس‬
  18. 18. ‫التجارب والنتائج‬ ‫•‬ ‫يمجمولعات المصطلحات في يموضوع الرشربة‬ ‫المصطلح العام‬ ‫المجموعة‬ ‫وعاء‬ ‫دباء ؛ نقير؛ جرة؛ مزفت؛ قد؛ح؛ سقاء؛ آنية ؛ وعاء ؛ مقير ؛ قربة ؛ الحنتمة و الدباء ورَالنقير ؛ حنتمة ؛ ظر

×