‫آليات التكشيف على الويب وأدواته‬

            ‫الدكتور‬
        ‫عماد عيسى صالح‬
        ‫أستاذ علم المعلومات‬
              ‫المشارك‬
       ‫جامعة الملك عبدالعزيز،‬
              ‫السعودية‬
‫مفاهيم ومصطلحات‬
‫مفاهيم ومصطلحات‬
                                               ‫الكشاف ‪:Index‬‬        ‫‪‬‬

 ‫الكشاف بمعناه العام هو ما يكشف عما هو مغمور أو مجهول‬           ‫‪‬‬

                                       ‫في وسط معين.‬
    ‫) هنري‬   ‫دليل أو مؤشر إلى موقع المعلومات التي نبحث عنها.‬    ‫‪‬‬
                                                      ‫هويتلي(‬

  ‫دليل منظم يرشد إلى ما يمكن البحث عنه أو استرجاعه، من‬          ‫‪‬‬

  ‫مفردات أو حقائق أو معلومات أو نصوص أو وثائق، أو بدائل‬
                            ‫النصوص والوثائق. ) حشمت قاسم(‬

                                  ‫تتلخص وظائف الكشاف في:‬            ‫‪‬‬

‫التحقق من المعلومات التي يمكن أن تكون متصلة بموضوع ما،‬          ‫‪‬‬

           ‫وتحديد موقعها في الوثيقة و أو الوثائق المكشفة.‬
                             ‫/‬
‫استبعاد الحالت التي يرد فيها ذكر الموضوعات على نحو عابر،‬        ‫‪‬‬

                             ‫ول تقدم شيئا يذكر للمستفيد.‬
                                                                ‫‪‬‬
‫) تابع (‬   ‫مفاهيم ومصطلحات‬
                                      ‫وظائف الكشاف ) تابع(:‬     ‫‪‬‬

                       ‫بيان ما بين الموضوعات من علقات.‬      ‫‪‬‬

        ‫توجيه المستفيدين المستفيدين للمصطلحات الكشفية‬       ‫‪‬‬

          ‫المستخدمة بديل عن المصطلحات التي يبحثون بها.‬
    ‫توجيه المستفيدين نحو موضوعات يمكن البحث عنها أيضا‬       ‫‪‬‬

                                     ‫وتتصل بالموضوع.‬

                          ‫‪Indexing L‬‬‫لغة التكشيف ‪anguage‬‬         ‫‪‬‬

‫مجموعة الرموز أو المصطلحات أو المفردات التي تشكل اللغة‬      ‫‪‬‬

   ‫المستهدفة التي تترجم إليها المفاهيم الدالة على المحتوى‬
       ‫الموضوعي للوثيقة الوثائق، بمعنى أنها تمثل المداخل‬
                                      ‫/‬
                             ‫الموضوعية لسترجاع الوثيقة‬
   ‫لغة التكشيف أيا كان شكلها ونوعها هي الساس في نظام‬        ‫‪‬‬

              ‫المضاهاة والسترجاع الموضوعي لوثائق.‬
‫) تابع (‬   ‫مفاهيم ومصطلحات‬
            ‫هناك نوعين من التكشيف في نظم السترجاع:‬                   ‫‪‬‬

                                           ‫التكشيف بالتعيين:‬     ‫‪‬‬

‫يعتمد على الجهد الفكري للمكشف في تحديد عناصر المحتوى‬         ‫‪‬‬

‫الموضوعي للوثيقة ثم اختيار المصطلحات أو الرموز الكشفية‬
                                             ‫الدالة عليها،‬

‫يعتمد في الساس على لغة مقيدة ) مكنز، خطة تصنيف، قائمة‬        ‫‪‬‬

                                       ‫رءوس موضوعات(‬

                          ‫التكشيف الشتقاقي أو بالشتقاق:‬          ‫‪‬‬

       ‫وفيه تقتبس أو تشتق جميع المصطلحات أو الواصفات‬         ‫‪‬‬

  ‫الموضوعية من الوثيقة أو الوثائق المكشفة، فهو يعتمد في‬
                             ‫الساس على اللغة الطبيعية‬
‫خطوات التحليل الموضوعي‬
   ‫الخطوة الولى ، تحليل المفاهيم أو تحليل محتوى مصدر‬                ‫‪‬‬

                                           ‫المعلومات:‬
     ‫تهتم بفحص وتصفح مصدر المعلومات بهدف تحديد المفاهيم‬         ‫‪‬‬

                                ‫والفكار التي يتناولها المصدر.‬
         ‫الخطوة الثانية ، ترجمة أو التعبير عن ناتج التحليل:‬         ‫‪‬‬

‫تهتم بالتعبير عن ناتج تحليل المفاهيم باستخدام مجموعة من نقاط‬    ‫‪‬‬

     ‫الوصول الموضوعية أو مؤشرات المحتوى )مصطلحات، رموز،‬
                                            ‫عبارات أو جمل(‬
  ‫يتم الحصول عليها إما من لغة مصدر المعلومات نفسه أو من لغة‬     ‫‪‬‬

    ‫استفسارات وأسئلة المستفيدين، أو تعيينها من لغة أخرى خارج‬
                                       ‫نطاق مصدر المعلومات.‬
 ‫الخطوة الثالثة: الربط بين نقاط الوصول الموضوعية وبين‬               ‫‪‬‬

                                   ‫مصدر المعلومات:‬
‫نظم التسترجاع‬

INFORMATION NEED              DOCS.    DOCUMENTS
                      User Interface
     QUERY
                       RESULTS

                                       INDEXING
                       RESULT
                   REPRESENTATION



             SEARCH
                                         INDEX
(‫نظم التسترجاع )تابع‬


INFORMATION NEED                DOCS.         DOCUMENTS
                        User Interface
      QUERY                                 SELECT DATA FOR
                                               INDEXING
                         RESULTS

QUERY PROCESSING          RESULT            PARSING & TERM
 (PARSING & TERM      REPRESENTATION         PROCESSING
   PROCESSING)

                         RANKING

LOGICAL VIEW OF THE     SEARCHING
   INFORM. NEED                                  INDEX
‫أنواع الكشافات‬
                                       ‫يمكن تقسيم‬
                                        ‫يمكن تقسيم‬
‫هل يمكن مقابلتها‬
 ‫هل يمكن مقابلتها‬
                                  ‫الكشافات إلى ثلث‬
                                  ‫الكشافات إلى ثلث‬
   ‫بـالنواع التالية::‬
    ‫بـالنواع التالية‬
                                       ‫فئات رئيسية::‬
                                        ‫فئات رئيسية‬

    ‫كشاف الموقع‬       ‫‪‬‬                ‫كشاف الكتاب‬      ‫‪‬‬
                          ‫الويب‬
  ‫كشافات النترانت‬     ‫‪‬‬             ‫كشافات النصوص‬       ‫‪‬‬

          ‫والنترنت‬                        ‫الكشافات‬      ‫‪‬‬

  ‫كشافات الميتاداتا‬   ‫‪‬‬                 ‫الببليوجرافية‬
‫تكشيف الويب‬
                   Web Indexing




Copyright © 2009                  13
Source: Netcraft Web Server Survey, December 2012.
http://news.netcraft.com/archives/2012/12/04/december-2012-web-server-survey.html
2.4 billion – Number of Internet users worldwide
‫خصائص مصادر )الوثائق( الويب‬
‫كم ضخم من البيانات، والنمو المستمر، ارتفاع معدل تغير‬          ‫‪‬‬

                              ‫تنوع كبير وعدم التجانس:‬         ‫‪‬‬

                              ‫جودة ومصداقية المصادر‬       ‫‪‬‬

                   ‫الوثائق الثابتة في مقابل الديناميكية‬   ‫‪‬‬

    ‫أنواع مختلفة من الوسائط ) نص، صور، صوت، الفيديو(‬      ‫‪‬‬

         ‫صيغ مختلفة من الملفات ) ‪(…، H M ،flash ،P‬‬
              ‫‪T L‬‬         ‫‪DF‬‬                              ‫‪‬‬

                         ‫تنوع في الموضوعات، واللغات‬       ‫‪‬‬

                                                ‫العلنات‬       ‫‪‬‬

   ‫النص الفائق ) التشعبي( ، والرتباط ‪ ، linking‬والروابط‬       ‫‪‬‬

                                       ‫‪B‬‬ ‫المعطلة ‪roken‬‬
                                    ‫التكرار ‪Redundancy‬‬        ‫‪‬‬

                                                   ‫موزعة‬      ‫‪‬‬
‫تكشيف الويب‬

‫يعتمد تكشيف الويب وما تحتويه من صفحات ومواقع على‬         ‫‪‬‬

    ‫اختلف أنواعها على أساليب التكشيف اللي حيث أنه‬
  ‫السلوب الذي يتناسب مع طبيعة الويب من حيث الحجم‬
  ‫‪ ، Size‬والتساع ‪ ، scalability‬والتحديث ‪ Update‬المستمر‬
                                           ‫لمحتواها.‬
 ‫‪ (L‬الحاجة إلى التكشيف‬  ‫وصف لينش ) ‪ynch,1996,Online‬‬      ‫‪‬‬

 ‫اليدوي والتكشيف اللي على أنهما ضرورة تفرضها تنوع‬
 ‫احتياجات المستفيدين وتنوع مصادر الويب، حيث يرى أن‬
‫مهارات التصنيف والختيار الدقيق التي يمتلكها المكتبيون‬
‫لبد أن يكملها قدرات وإمكانيات علماء الحاسب اللي في‬
            ‫ميكنة عمليات التكشيف وتخزين المعلومات.‬
                   ‫‪Indexing M‬‬‫أساليب التكشيف ‪ethods‬‬       ‫‪‬‬
‫أول : التكشيف بواسطة الناشرين علي الويب‬

  ‫يتولى الفراد أو المؤسسات التي تضع صفحات معلومات‬          ‫‪‬‬

      ‫علي الويب تكشيف محتويات هذه الصفحات بواسطة‬
‫مجموعة من الكلمات المفتاحية أو الدللية التي تصف بدقه‬
     ‫محتويات هذه الصفحات والتي يمكن أن تستخدم عند‬
         ‫تكشيف هذه الصفحات من خلل محركات البحث.‬
     ‫يتيح أسلوب لتوجيه محركات البحث عند تكشيف هذه‬          ‫‪‬‬

                                        ‫الصفحات.‬
       ‫‪ (M‬أحد اكواد لغة تكويد‬ ‫يعد كود تاج الميتا ) ‪eta T‬‬
                                   ‫‪ag‬‬          ‫/‬           ‫‪‬‬

‫النصوص الفائقة ‪ H M‬من أكثر الوسائل التي يعتمد عليها‬
                                   ‫‪T L‬‬
  ‫ناشري الويب لعداد ميتاداتا تساعد علي وصف المحتوي‬
   ‫الموضوعي لتك الصفحات ) مثل: تاج الكلمات المفتاحيه‬
                    ‫‪ ، K‬وتاج الوصف ‪(Description‬‬ ‫‪eywords‬‬
                                                           ‫‪‬‬
‫أول : التكشيف بواسطة الناشرين علي الويب‬
                                                          ‫) تابع (‬
                                          ‫خداع محركات البحث‬           ‫‪‬‬

  ‫مشكلة تكشيف صفحات الويب تتمثل في قدرة ناشري الويب على‬           ‫‪‬‬

‫معالجة الترتيب من خلل وضع كلمات مفتاحية مكررة في الصفحات‬
 ‫لخداع محركات البحث، وهو ما يشار إليه بالعديد من المصطلحات‬
      ‫‪E‬‬‫) مثل: ،‪ngine Search Persuasion ،Stuffing ،Spam-Indexing‬‬
                                              ‫‪.(K‬‬‫‪eyword Spam‬‬
   ‫تتجاهل العديد من محركات البحث تكشيف الميتاداتا نظرا لنهم‬       ‫‪‬‬

                              ‫يعتبروه حقل مخادع وغير حقيقي.‬

                     ‫من أنواع التكشيف بواسطة البشر:‬                   ‫‪‬‬

                               ‫واصفات البيانات ) الميتاداتا(‬      ‫‪‬‬

                                   ‫التوسيم والفوكسونومي‬           ‫‪‬‬
‫ثانيا : التكشيف فى محركات البحث‬

 ‫تعمل محركات البحث على بناء كشافات لمصادر المعلومات‬        ‫‪‬‬

‫المنشورة على الويب من خلل اشتقاق كلمات أو عبارات من‬
   ‫النصوص نفسها لبناء ملفات تسمح ببحث هذه المشتقات‬
  ‫بالعتماد على أساليب البحث والسترجاع المعروفة ) مثل:‬
        ‫المنطق البولينى، وتجاور المصطلحات، والبتر، الخ(.‬
  ‫أن هذه الملفات ليست أكثر من الملفات المقلوبة التقليدية‬   ‫‪‬‬

        ‫التي استخدمت في السترجاع منذ أن حل السترجاع‬
                      ‫العشوائي محل السترجاع التسلسلي.‬
‫محركات البحث‬
Search Engines
? How far do people look for results




(Source: iprospect.com WhitePaper_2006_SearchEngineUserBehavior.pdf)
‫محركات البحث‬

   ‫تأتي محركات البحث على رأس أدوات البحث والسترجاع‬                ‫‪‬‬

                                ‫للمحتوى على الويب:‬
       ‫نسبة استخدام تقارب 48% من اجمالي إجراءات البحث عن‬      ‫‪‬‬

                                                ‫المحتوى,‬
  ‫بلغ عدد الستفسارت الموجه إلى محركات البحث نحو 051 مليون‬     ‫‪‬‬

                                  ‫استفسار في اليوم الواحد،‬
    ‫%04 من المستخدمين يصلون إلى محتوى الويب من خلل نتائج‬      ‫‪‬‬

                                           ‫محركات البحث .‬
                                                    ‫ومع ذلك:‬      ‫‪‬‬

         ‫تكشف فقط نحو 61% من محتوى الويب القابل للتكشيف‬       ‫‪‬‬

  ‫%08 من المستخدمين ليتجاوزا استخدام أول صفحيتين من نتائج‬     ‫‪‬‬

                                              ‫محركات البحث‬
‫بلغت نسبة التكرار في استرجاع المحتوى بين محركات البحث بعضها‬   ‫‪‬‬

                                         ‫البعض نحو 9.48%‬
Standard Web Search Engine Architecture
                                                                                                     Sponsored Links

                                                                                           CG Appliance Express
                                                                                           Discount Appliances (650) 756-3931
                                                                                           Same Day Certified Installation




                              User
                                                                                           www.cgappliance.com
                                                                                           San Francisco-Oakland-San Jose,
                                                                                           CA

                                                                                           Miele Vacuum Cleaners
                                                                                           Miele Vacuums- Complete Selection
                                                                                           Free Shipping!
                                                                                           www.vacuums.com

                                                                                           Miele Vacuum Cleaners
                                                                                           Miele-Free Air shipping!
                                                                                           All models. Helpful advice.
                                                                                           www.best-vacuum.com




                                Web                                  Results 1 - 10 of about 7,310,000 for miele. (0.12 seconds)

                                Miele, Inc -- Anything else is a compromise
                                At the heart of your home, Appliances by Miele. ... USA. to miele.com. Residential Appliances.
                                Vacuum Cleaners. Dishwashers. Cooking Appliances. Steam Oven. Coffee System ...
                                www.miele.com/ - 20k - Cached - Similar pages




              Web spider        Miele
                                Welcome to Miele, the home of the very best appliances and kitchens in the world.
                                www.miele.co.uk/ - 3k - Cached - Similar pages

                                Miele - Deutscher Hersteller von Einbaugeräten, Hausgeräten ... - [ Translate this
                                page ]
                                Das Portal zum Thema Essen & Geniessen online unter www.zu-tisch.de. Miele weltweit
                                ...ein Leben lang. ... Wählen Sie die Miele Vertretung Ihres Landes.
                                www.miele.de/ - 10k - Cached - Similar pages

                                Herzlich willkommen bei Miele Österreich - [ Translate this page ]
                                Herzlich willkommen bei Miele Österreich Wenn Sie nicht automatisch
                                weitergeleitet werden, klicken Sie bitte hier! HAUSHALTSGERÄTE ...
                                www.miele.at/ - 3k - Cached - Similar pages




                                                                                      Search

              Indexer


  The Web



                    Indexes                                     Ad indexes
‫بنية محرك البحث ‪SE Architecture‬‬

                                         ‫الزواحف ‪: T crawler‬‬
                                            ‫‪he‬‬                        ‫‪‬‬

   ‫برنامج يعمل على توفير المحتوى لمحرك البحث حيث يقوم بتتبع‬       ‫‪‬‬

   ‫الروابط الفائقة بين المواقع للوصول إلى الصفحات التي تشتمل‬
      ‫على المحتوى. ثم استخراج ‪ URL‬واعطائها إلى وحدة التحكم‬
                                  ‫‪s‬‬
                                                     ‫للزاحف.‬

                     ‫وحدة التحكم للزاحف ‪: Crawler Control‬‬             ‫‪‬‬
‫تحديد أي الروابط الفائقة التي سيتم زيارتها مستقبل وتغذية الزاحف‬   ‫‪‬‬

                             ‫بالخوارزميات الخاصة بعملية الزحف.‬
       ‫وحدة تحليل المجموعات ‪:Collection analysis module‬‬               ‫‪‬‬

‫مسئولة عن انشاء الكشافات من واقع تحليل الوثائق وتحديد طبيعة‬       ‫‪‬‬

                                       ‫البني التكوينية للوثائق.‬
‫بنية محرك البحث ) تابع (‬

 ‫المكشف ‪ : Indexer‬يشتمل على ثلثة أنماط من الكشافات.‬                  ‫‪‬‬

       ‫كشافات النص ‪ : text index‬يشتمل على الكلمات المفتاحية‬      ‫‪‬‬

   ‫والعناوين والجمل الدللية الواردة في محتوى الوثيقة المكشفة.‬
‫حيث يعمل على استخراج كافة الكلمات من كافة الصفحات، وتسجيل‬
                   ‫محددات فريدة للمواقع ومكان ظهور كل كلمة.‬
     ‫كشافات البناء ‪ : Structure index‬تعكس الروابط بين الصفحات،‬   ‫‪‬‬

‫وتشتمل على المعلومات التي تتعلق ببنية الروابط الفائقة للصفحات‬
 ‫المكشفة وتحفظ في ملف يعرف بالكشاف الساسي، وتعتمد عليه‬
      ‫الزواحف في تتبع الصفحات لسحبها من خلل الروابط الفائقة.‬
‫كشافات الغراض الخاصة ‪ :Utility index‬ككشافات الكيانات الخرى‬       ‫‪‬‬

 ‫غير الكيانات المكودة بالنصوص الفائقة، مثل كشافات ملفات ‪P‬‬
  ‫‪DF‬‬
                                             ‫وكشافات الصور.‬
‫بنية محرك البحث ) تابع (‬

                       ‫مستودع الوثائق ‪: pages repository‬‬          ‫‪‬‬

‫تقوم محركات البحث باختزان وحفظ الصفحات الملتقطة من الويب‬      ‫‪‬‬

                                    ‫في مستودع الصفحات.‬
                          ‫محرك الستفسار ‪: query engine‬‬            ‫‪‬‬

‫المسئول عن استلم طلبات البحث والستفسارات من المستفيدين.‬       ‫‪‬‬


                              ‫‪: Rank M‬‬‫وحدة الترتيب ‪odule‬‬          ‫‪‬‬

        ‫المسئولة عن ترتيب وفرز النتائج ذات الصلة باستفسارات‬   ‫‪‬‬

                                                ‫المستفيدين.‬
General Web Search Engine Architecture
          CLIENT                                          WWW

QUERIES            RESULTS
                                 PAGE
                                  REPOSITORY
QUERY
              RANKING
ENGINE
                                                     CRAWLER(S)

                    COLLECTION         INDEXER             CRAWL
                   ANALYSIS MOD.       MODULE             CONTROL




                   INDEXES
                             UTILITY   STRUCTURE   TEXT


  USAGE FEEDBACK
‫تفسير‬
    ‫تفسير‬                           ‫محرك البحث ) تابع (‬
    ‫اختلف‬
    ‫اختلف‬
     ‫النتائج‬
    ‫النتائج‬                  ‫تختلف محركات البحث من حيث:‬             ‫‪‬‬
 ‫المسترجعة‬
 ‫المسترجعة‬           ‫طبيعة المواد التي تنتقيها من مصادر الويب‬   ‫‪‬‬

      ‫لنفس‬
     ‫لنفس‬        ‫الساليب التي تستخدمها في تكشيف تلك المواد‬      ‫‪‬‬

  ‫الستفسار‬
  ‫الستفسار‬                       ‫تنوع المصادر المكشفة نفسها‬     ‫‪‬‬

    ‫باختلف‬
    ‫باختلف‬                    ‫القدرات التي تتيحها لبحث المواد‬   ‫‪‬‬

    ‫محركات‬
    ‫محركات‬                          ‫كما تختلف أيضا من حيث:‬          ‫‪‬‬
       ‫البحث‬
‫الجراءات التي تتبعها في تحديد حجم المادة المكشفةالبحث تتراوح‬
       ‫التي‬                                                     ‫‪‬‬

                    ‫ما بين التكشيف النتقائي والتكشيف الشامل،‬
          ‫عدد الحروف أو الكلمات التي يتم تكشيفها من الصفحة.‬     ‫‪‬‬

‫بعض محركات البحث تقوم أول ببناء مستخلص للصفحات المكشفة،‬         ‫‪‬‬

              ‫ثم تستخدم هذا المستخلص في تكشيف الصفحة.‬
‫الزواحف ‪( Crawler (Robots, Spiders‬‬

     ‫تتعامل الزواحف مع الويب من خلل استخدام مجموعة‬                   ‫‪‬‬

        ‫محددات المصدر الموحدة ) ‪ (URL‬كنقاط إرتكازية.‬
                            ‫‪s‬‬
                              ‫تقوم الزواحف بمسح الويب أما:‬           ‫‪‬‬

‫أفقيا: بأن تبدأ بصفحة واحدة ثم تتبع كل الصفحات المرتبطة بها من‬   ‫‪‬‬

            ‫خلل تتبع الروابط الفائقة المتاحة داخل هذه الصفحة‬
‫رأئيا: بأن تتبع رابط فائق واحد من كل صفحة تقابلها حتى تنتهي من‬   ‫‪‬‬

                             ‫العمق المطلوب في تتبع الروابط.‬
  ‫معظم الزواحف تقوم بتقديم معلومات عن الصفحات من‬                     ‫‪‬‬

 ‫أجل تكشيفها ويتم تخزين هذه المعلومات في مستودعات‬
‫للوثائق بمحركات البحث تربط بين معلومات التكشيف وهذه‬
                               ‫الصفحات في مواقعها.‬
  ‫إن نمطية عمل الزواحف يتم تحديدها وفقا لمجموعة من‬                   ‫‪‬‬

                                         ‫السياسات.‬
‫سياسات الزاحف ‪Crawler policies‬‬
    ‫سياسة الختيار ‪ :Selection policy‬حيث يحدد فيها طبيعة‬    ‫‪‬‬

 ‫المحتوى الذي يجب أن يجمع، وتقسم محركات البحث وفقا‬
 ‫لسياسات الختيار إلى: محركات البحث العمودية ‪، Vertical‬‬
        ‫ومحركات البحث العالمية ‪ ، Global‬ومحركات البحث‬
                                             ‫الموضوعية.‬
      ‫‪:P‬‬‫سياسة تكرار زيارة الصفحات ‪age Re-visiting policy‬‬   ‫‪‬‬

‫وتتمثل في تحديد أوقات إعادة التجميع والجدول الزمني لها.‬
  ‫‪ : P‬وتتمثل في‬‫السياسة الخلقية للزاحف ‪oliteness policy‬‬     ‫‪‬‬

 ‫سياسة التهذيب في عدم الثقال على المواقع في تحميلها.‬
‫الكشاف أو الملف المقلوب ‪Inverted Index‬‬
                                  ‫‪((or File‬‬
    ‫هو ذلك الملف الذي يعمل على توفير سبل للوصول إلى‬      ‫‪‬‬

                                     ‫محتوى الوثائق.‬
‫يشتمل على المصطلحات الكشفية بشكل يضمن الفاعلية في‬        ‫‪‬‬

                                        ‫السترجاع.‬
‫يوفر طريقة مختصرة في عملية البحث، بدل من بحث قاعدة‬       ‫‪‬‬

    ‫بيانات الوثائق بأكملها لتحديد المصطلحات الواردة في‬
                                          ‫الستفسار.‬
       ‫يعمل على تنظيم المعلومات في قائمة مختصرة من‬       ‫‪‬‬

    ‫المصطلحات ومن ثم العتماد على المصطلح في تحديد‬
                            ‫مجموعة الوثائق الملئمة.‬
‫الكشاف المقلوب ) تابع (‬

‫نتيجة لتتنوع صيغ الملفات المنشورة على الويب ) ‪، html , pdf‬‬     ‫‪‬‬

                                                     ‫الخ( ؛‬
           ‫‪T‬‬‫لبد من تطويع أو تطبيع النصوص للمعالجة ‪ext‬‬          ‫‪‬‬

                       ‫‪ Normalization‬وفقا لشكل موحد.‬
‫إنشاء مصفوفة المصطلح ــ الوثيقة ‪term-document matrix‬‬           ‫‪‬‬

                                                           ‫:‬
‫‪ :T‬وتشمل تفتيت النصوص الكاملة لكلمات‬‫التأخيذ ‪okenization‬‬    ‫‪‬‬

                                             ‫وتحديدها.‬
‫قائمة الستبعاد ‪ :stopwords‬وتتمثل في استبعاد الكلمات التي‬   ‫‪‬‬

 ‫تحمل دللت معلوماتية ولغوية ضئيلة في الوثيقة، وفي نظم‬
  ‫استرجاع المعلومات عادة ما يتم التخلص من هذة الكلمات‬
                                   ‫لسباب تتعلق بالكفاءة.‬
( ‫الكشاف المقلوب ) تابع‬
                          Term       Doc #       Term       Doc #       Freq
                          now                1   a                  2          1
                          is                 1   aid                1          1
Now is the time
Now is the time           the                1   all                1          1
                          time               1   and                2          1
for all good men
 for all good men         for                1
                                                 come               1          1
                          all                1
                                                 country            1          1
to come to the aid
 to come to the aid       good               1
                          men                1   country            2          1
of their country
 of their country         to                 1   dark               2          1
                          come               1   for                1          1
                          to                 1   good               1          1
                          the                1
 Doc 1                    aid                1
                                                 in                 2          1
                                                 is                 1          1
                          of                 1
                                                 it                 2          1
                          their              1
                          country            1   manor              2          1
                                                 men                1          1
It was a dark and
 It was a dark and        it                 2
                          was                2   midnight           2          1
stormy night in
 stormy night in          a                  2   night              2          1
                          dark               2   now                1          1
the country manor.
 the country manor.       and                2   of                 1          1
                          stormy             2
                                                 past               2          1
                          night              2
The time was past
 The time was past        in                 2
                                                 stormy             2          1
                          the                2   the                1          2
midnight
midnight                  country            2   the                2          2
                          manor              2   their              1          1
Doc 2                     the                2   time               1          1
                          time               2   time               2          1
                          was                2
                                                 to                 1          2
                          past               2
                                                 was                2          2
                          midnight           2
How Inverted Files are Created
Term       Doc #       Freq
a
aid
                   2
                   1
                              1
                              1
                                  Dictionary/Lexicon                       Postings
all                1          1   Term       N docs       Tot Freq       Doc #       Freq
and                2          1   a                   1              1           2          1
come               1          1   aid                 1              1           1          1
country            1          1   all                 1              1           1          1
country            2          1   and                 1              1           2          1
dark               2          1   come                1              1           1          1
                                  country             2              2           1          1
for                1          1
                                  dark                1              1           2          1
good               1          1                                                  2          1
                                  for                 1              1
in                 2          1   good                1              1           1          1
is                 1          1   in                  1              1           1          1
it                 2          1   is                  1              1           2          1
manor              2          1   it                  1              1           1          1
men                1          1   manor               1              1           2          1
                                  men                 1              1           2          1
midnight           2          1
                                  midnight            1              1           1          1
night              2          1
                                  night               1              1           2          1
now                1          1                                                  2          1
                                  now                 1              1
of                 1          1   of                  1              1           1          1
past               2          1   past                1              1           1          1
stormy             2          1   stormy              1              1           2          1
the                1          2   the                 2              4           2          1
the                2          2   their               1              1           1          2
                                  time                2              2           2          2
their              1          1
                                  to                  1              2           1          1
time               1          1
                                  was                 1              2           1          1
time               2          1                                                  2          1
to                 1          2                                                  1          2
was                2          2                                                  2          2
The Hidden / Invisible ‫ماذا عن الويب الخفي‬
                                      Web
  ‫يقصد به مجموعة الصفحات الديناميكية والتفاعلية التي‬                             

  .‫تخزن في قواعد البيانات أو يتم تجميعها حسب الطلب‬
                                                             :‫من بينها‬           

                                            Content found in databases:
                                    Example: ERIC database, Library catalogs.
                                        Subscription database content:
                       Examples: E SCOhost databases, L
                                   B                    exisNexis Academic.
                                    Sites requiring login authorization
                                    Examples: Blackboard, membership sites.
       Sites blocked by Robot Exclusion Protocols (with a no-index
                                                          protocol)
                                                                         etc.
‫واصفات البيانات )الميتاداتا(‬
         ‫‪Metadata‬‬
‫المشكلة والحل...‬
                                                 ‫المشكلة:‬      ‫‪‬‬
‫تضخم مخرجات النشر الفردي والمؤسسي على شبكة الويب‬           ‫‪‬‬

     ‫وما ترتب عليه من إشكالية ضبط وتنظيم مصادر الويب‬
               ‫وتنظيمها لتيسير استكشافها واسترجاعها .‬
                                            ‫الحل المقترح:‬      ‫‪‬‬
  ‫أن تصاحب مصدر المعلومات بياناته الواصفة ) الميتاداتا(‬    ‫‪‬‬

‫التي تيسر تحديد هويته واسترجاعه وضبط استخدامه والذي‬
              ‫يتولى منشئ الوثيقة تضمينها أو من ينوب عنه.‬
‫التعريف والمفهوم‬

  ‫الميتاداتا هي "البيانات المتضمنة في كيا ن ما أو المرتبطة‬
                 ‫ٍ‬                                                ‫‪‬‬
  ‫) ‪ISO‬‬   ‫بكيا ن ما وتصف هذا الكيان وتساعد في استرجاعه”.‬
                                                  ‫ٍ‬
                                                ‫2002-5-9548(‬

  ‫الميتاداتا هي مصطلح ارتبط بوصف وتحديد هوية وملمح‬                ‫‪‬‬
‫وصفات كيان معلوماتي ‪ Information Object‬قائم على‬
                                ‫شاهين(‬   ‫شبكة الويب. ) شريف‬

                   ‫‪: Descriptive M‬‬‫الميتاداتا الوصفية ‪etadata‬‬      ‫‪‬‬
       ‫تستخدم في تحديد خصائص الكيان المعلوماتي ووصفه‬          ‫‪‬‬

‫لغراض التكشيف والسترجاع، فهي تشمل عناصر مثل العنوان‬
                  ‫والمؤلف والمستخلص والكلمات المفتاحية.‬
   ‫توفر معلومات مهيكلة ‪ structured information‬تعزز عمليات‬     ‫‪‬‬

‫‪،F‬‬‫المعالجة اللية ) مثل: إتاحة البحث بالحقول ‪ielded searches‬‬
‫طرق ربط الميتاداتا بمصدر المعلومات‬
                      ‫أو ل: التضمين ‪Embedded metadata‬‬
                                                 ‫ً‬                           ‫‪‬‬
  ‫حيث يتم إنشاء الميتاداتا في نفس وقت إنشاء المصدر ومتضمنة مع لغة‬        ‫‪‬‬
                                                      ‫تكوين الوثيقة.‬
                   ‫ثانيا: المصاحبة ‪Associated metadata‬‬                       ‫‪‬‬
‫وفيها يتم إنشاء ملف يحتوي على الميتاداتا ويصاحب أو يزاوج ملف المصدر‬      ‫‪‬‬
‫محل الوصف؛ بمعنى أن لدينا ملفين الول للمحتوى والثاني لعناصر وصف‬
                                                 ‫المحتوى )الميتاداتا(.‬
                   ‫ثالثا: المستقلة ‪Third-Party metadata‬‬                      ‫‪‬‬
   ‫وفيها يتم الحتفاظ بالميتاداتا بمستودعات مستقلة عن المصادر من قبل‬      ‫‪‬‬
  ‫مؤسسات قد تملك أو ل تملك حق التحكم في المحتوى، وغالبا ما تكون‬
                                    ‫الميتاداتا مخزنة في قواعد بيانات.‬
Web site




  Source




           Metadata
‫خطط الميتاداتا ‪schema‬‬
    ‫خطط الميتاداتا هي عبارة عن مجموعة من عناصر الميتاداتا، مع‬         ‫‪‬‬
 ‫قواعد استخدامها، وقد قصد بهذه المجموعة أن تحقق هدفا معينا.‬
                                       ‫صُ‬
    ‫هناك ثلثة عناصر رئيسية مرتبطة بأي خطة من خطط الميتاداتا،‬          ‫‪‬‬
                                                       ‫وهي:‬
                             ‫دللت عناصر البيانات ‪semantics‬‬       ‫.1‬
                               ‫قواعد المحتوى ‪content rules‬‬       ‫.2‬
        ‫التركيبة أو الصيغة ‪ Syntax‬التي ترد فيها عناصر البيانات‬   ‫.3‬
                                                  ‫معيار دبلن ‪DC‬‬       ‫‪‬‬
 ‫يستهدف دعم استكشاف المصادر اللكترونية على شبكة الويب‬            ‫‪‬‬
                                               ‫ووصفها.‬
‫يتسم بعمومية استخدامه حيث يوجه لكل المشتغلين بالمعلومات‬          ‫‪‬‬
    ‫من أخصائيي مكتبات وموردين ومطوري المحتوى الرقمي.‬
‫عناصر المحتوى‬
‫عنوان ‪ :Title‬اسم يعطى للمصدر، هو السم الذي يعرف به المصدر‬
             ‫صُ‬                                                    ‫‪‬‬
                                                     ‫رسميا.‬
     ‫موضوع وكلمات مفتاحية ‪ :Subject‬يعبر عن موضوع محتوى‬             ‫‪‬‬
   ‫المصدر، بكلمات أو عبارات مفتاحية، أو برموز تصنيف تصف موضوع‬
  ‫المصدر. ويوصى باختيارها من قائمة مصطلحات مقيدة، أو من خطة‬
                                                ‫تصنيف رسمية.‬
‫وصف ‪ :Description‬بيان محتوى المصدر، وتشتمل أمثلة الوصف على:‬        ‫‪‬‬
‫مستخلص، أو قائمة محتويات، أو إشارة إلى تمثيل رسومي للمحتوى، أو‬
             ‫نص حر يصف المحتوى، ولكنه ل يقتصر على ذلك فقط.‬
‫مصدر ‪ :Source‬إشارة إلى مصدر استمد منه المصدر الحالي،قد يستمد‬       ‫‪‬‬
      ‫المصدر الحالي كليا أو جزئيا من مصدر آخر، ويوصى عند تعريف‬
  ‫المصدر استخدام رقم أو سلسلة أرقام تؤخذ من نظام رسمي لتحديد‬
                                                         ‫الهوية.‬
‫)تابع(‬   ‫عناصر المحتوى‬

   ‫لغة ‪ :Language‬لغة المحتوى الفكري للمصدر، ويوصى باستخدام‬           ‫‪‬‬
    ‫المواصفة الدولية 936‪ ISO‬التي تستخدم حرفين أو ثلثة حروف‬
   ‫لتيجان اللغة. ومثال ذلك " ‪ "EN‬أو " ‪ "Eng‬للغة النجليزية، و" ‪"Akk‬‬
   ‫للغة الكادية، و" ‪ "EN-GB‬للغة النجليزية المستخدمة في المملكة‬
                                                         ‫المتحدة.‬
 ‫علقة ‪ :Relation‬إشارة إلى مصدر ذي علقة أو ارتباط، ويوصى عند‬          ‫‪‬‬
‫تعريف المصدر استخدام رقم أو سلسلة تؤخذ من نظام رسمي لتحديد‬
                                                       ‫الهوية.‬
      ‫تغطية ‪ :Coverage‬المدى أو المجال لمحتوى المصدر، وتشتمل‬          ‫‪‬‬
 ‫التغطية على حيز مكاني )اسم مكان، أو إحداثيات جغرافية(، أو فترة‬
‫زمنية )مميز فترة، أو تاريخ، أو مدى تاريخي(، أو سلطة )مثل اسم كيان‬
 ‫إداري(. ويوصى باختيار قيمة من قائمة مصطلحات مقيدة )مثل، مكنز‬
     ‫السماء الجغرافية ] ‪ ( [TGN‬واستخدام أسماء الماكن أو الفترات‬
                                                          ‫الزمنية.‬
‫التوسيم والواسمات‬
  ‫‪Tagging & tags‬‬
‫التعريف والمفهوم‬
  ‫التوسيم مأتى للميتاداتا الموضوعية لنواع متعددة من مصادر الويب‬       ‫‪‬‬
  ‫بواسطة الناس ؛ لغراض التنظيم والسترجاع التشاركي للمعلومات،‬
                               ‫دون قيود أو قواعد تطبيق معقدة،‬
    ‫يمكن أن تتم بواسطة غير الخبراء، وأنها بديل غير مكلف للفهرسة‬       ‫‪‬‬
                        ‫التقليدية لمصادر النترنت. )فتحي عبدالهادي(‬

    ‫الواسمة هي كلمة مفتاحية أو مصطلح غير هرمي يخصص لقطعة‬              ‫‪‬‬
      ‫معلومات )مثل صورة رقمية، ملف كمبيوتر، روابط إنترنت مفضلة،‬
‫الخ(. ويساعد هذا النوع من الميتاداتا في وصف مادة ما والعثور عليها‬
       ‫مرة أخرى إما بواسطة التصفح أو البحث. وبشكل عام يتم اختيار‬
     ‫الكلمات الدللية من جانب منشيء المادة أو من يقوم باستعرضها‬
    ‫إعتمادا على النظام. وقد انتشر التوسيم بارتباطه بالجيل الثاني من‬
     ‫الويب فهو خاصية مهمة للعديد من خدمات الويب 2. )‪(Wikipedia‬‬
‫التعريف والمفهوم )تابع(‬

 ‫الواسمات أو الكلمات الدللية يمكن أن تعتمد على:‬               ‫‪‬‬
                        ‫الموضوع )مثل الطبخ، الميتاداتا(‬   ‫‪‬‬
                          ‫الشكل )مثل الصور، المدونات(‬     ‫‪‬‬
                           ‫الغرض )مثل التسليم، السفر(‬     ‫‪‬‬
              ‫الوقت )مثل فبراير، الن، 9002، المستقبل(‬     ‫‪‬‬
               ‫الفعال او الوضع )مثل تقرأ، تفرز، ملكي(‬     ‫‪‬‬
‫ردود الفعال المؤثرة أو النقدية )مثل بارد، مؤلف أكاديمي(‬   ‫‪‬‬
‫‪ ‬لماذا ننشئ الواسمات..؟‬
                                               ‫لتنظيم المعلومات‬    ‫‪‬‬

                                              ‫لدعم عملية البحث‬     ‫‪‬‬

                                   ‫لجيجاد نفس الواسمات فيما بعد‬    ‫‪‬‬

                        ‫لستكشاف الموقع ومشاركتها مع الرخرجين‬       ‫‪‬‬

‫لتنظيم مجموعة ضخمة في فئات تتناغم مع النموذج العقلي للمستفيد..‬     ‫‪‬‬

                           ‫لكشفها علنا/إظهارها وزجيادة استخدامها‬   ‫‪‬‬

                          ‫للستفادة من الوظيفية/المكانية المتاحة‬    ‫‪‬‬

                                       ‫طرجيقة للتعبير عن آراءهم‬    ‫‪‬‬

                                                     ‫للعب لعبة..‬   ‫‪‬‬
‫أنواع التوسيم‬
                                    ‫توسيم الجمهور ‪:public tagging‬‬               ‫‪‬‬
      ‫فيه يسمح لزائري الموقع إضافة وإدراة واسمات المحتوى الخاص بهم.‬         ‫‪‬‬
‫وبال مقارنة بالتبويب التقليدي وغيرها من أساليب التكشيف؛ فإن التوسيم العام‬
  ‫يسمح للزائرين حرية الختيار للكلمات الدللية/المفتاحية لوصف المحتوى، ب‬
 ‫معنى أن المستفيدين من المحتوى هم الذين يحددون مدى ارتباطها أو صلتها‬        ‫‪‬‬
             ‫بالموضوع، مثل مواقع المفضلت الجتماعية )مثل ,‪Digg.com‬‬
                                                       ‫‪.(Del.icio.us‬‬
‫عندما يقوم المستفيدين بتعيين واسمات ذات صلة بالمحتوى أو الرابط الذي تم‬      ‫‪‬‬
     ‫إرساله أو تحميله للموقع؛ بعدها يمكن للمستفيدين الخرين البحث بهذه‬
   ‫الواسمات للعثور على المحتوى. ومن ثم فإنه عند القيام بعملية بحث يكون‬
    ‫العتماد على توسيم مستخدمي المحتوى واتفاقهم على ارتباط الواسمات‬
  ‫المستخدمة بالمحتوى، أفضل من العتماد فقط على الواسمات التي وضعها‬
                                               ‫منشيء أو ناشر المحتوى.‬
‫أنواع التوسيم‬

                                 ‫توسيم الناشر ‪:publisher tagging‬‬               ‫‪‬‬
   ‫يختلف عن النوع الول فقط في أن منشيء أو ناشر المحتوى هو فقط من‬           ‫‪‬‬
   ‫يقوم بوضع الواسمات أو الكلمات الدللية، ول يسمح لغيره من المستفيدين‬
                                                    ‫بإضافتها أو إنشاءها.‬
‫يعد موقع فليكر ‪ Flicker‬لمشاركة الصور من أكثر المثلة على هذا النوع، حيث‬     ‫‪‬‬
   ‫يمك ن للشخص الذي يقوم بمشاركة الصور من توسيم كل منها بسلسلة من‬
‫الكلمات المفتاحية أو الدللية، بحيث يمكن بعدها لمستخدمي الموقع البحث عن‬
            ‫الصور اعتماداعلى تلك الواسمات المصاغة من قبل ناشري الصور.‬
‫توسيم الناشر‬
                 ‫توسيم الناشر‬




‫توسيم الجمهور‬
 ‫توسيم الجمهور‬
‫نموذج نظم التوسيم ‪Tagging Systems Model‬‬
                                  ‫ممحممم ”مممممميث“ أن النموذج‬
                                                     ‫س‬      ‫أوض‬          ‫‪‬‬
                                 ‫مامممسي ممممم التوسيم يتكون‬
                                                  ‫لنظ‬       ‫الس‬
‫مستفيد‬                           ‫من ثلثة عناصر، هي: المستفيد،‬
                                            ‫والمصادر، والواسمات.‬
                                 ‫ممامممدر هي الكيانات المراد‬
                                                         ‫المص‬            ‫‪‬‬
                                                    ‫توسيمها.‬
                         ‫مصادر‬
                                 ‫الواسمات هي الكلمات المفتاحية‬           ‫‪‬‬
                                                      ‫أو الدللية‬
                                                ‫تحدد نظم التوسيم:‬        ‫‪‬‬
                ‫واسمات‬
                                              ‫من يقوم بعملية التوسيم‬     ‫‪‬‬
                                                 ‫ما الذي يمكن توسيمه‬     ‫‪‬‬
                                  ‫ما نوع الواسمات/الكلمات الدللية التي‬   ‫‪‬‬
                                                       ‫يمكن استخدامها‬
‫العيوب‬
           ‫التضليل في صياغة الواسمات لضمان الوصول للمصدر.‬       ‫‪‬‬
      ‫استخدام الواسمات غير ذات دللة أو الغامضة )مثل أنا كئيب،‬   ‫‪‬‬
       ‫5، ‪ ،(zzzzzzz‬ومن ثم ل تكون واصفة للمواد التي تحويها.‬
‫عدم وجود لغة مقيدة للواسمات يجعل من الصعوبة الوصول لجميع‬        ‫‪‬‬
                                       ‫المواد أو البحث عنها.‬
‫سحب/حشود الواسمات ‪tag cloud‬‬

‫هي عبارة عن تمثيلت مرئية للتيجان؛ تستهدف في الساس التمثيل‬            ‫‪‬‬
   ‫المرئي لمعدلت تكرار أو شدة الستخدام لتيجان بعينها، مما يدلل‬
                      ‫على أهميتها النسبية قياسا بغيرها من التيجان.‬
‫الفوكسونومي‬
‫‪Folksonomy‬‬
‫المفهوم والمصطلح‬

      ‫يرجع ظهور مصطلح ”‪ “Folksonomy‬إلى مقال لـ ”توماس فاندر“ ‪Thomas‬‬                     ‫‪‬‬
   ‫‪ Vander‬عام 4002 ؛ للتعبير عن تصنيف يبتكره المستخدمون, ويتكون المصطلح من‬
          ‫المزج بين مصطلحين: الناس/البشر ”‪ ،“Folk‬والتصنيف ”‪.“Taxonomy‬‬
      ‫الفوكسونومي هو نظام منشا بواسطة المستفيد ‪ User-generated‬يسمح بتوسيم‬
                                                              ‫نُ‬                        ‫‪‬‬
         ‫مصادرهم الرقمية المفضلة باستخدام كلمات أو جمل اللغة الطبيعية التي يخترونها.‬
    ‫الفوكسونومي هو ممارسة لمنهجية تعاونية في إنشاء وإدارة الواسمات لشرح أو توضيح‬        ‫‪‬‬
                                  ‫‪ annotate‬وتبويب ‪ categorize‬المحتوى.‬
    ‫الفوكسونومي هو ناتج التوسيم الحر للمعلومات والكيانات على الويب )أى شئ له عنوان‬      ‫‪‬‬
                     ‫موحد للمصدر ‪ (URL‬بواسطة المستفيد ولرغراضه السترجاعية.‬
     ‫الفوكسونومي هو تعبير عن محتوى الويب من خلل المستخدمين رغير المهنيين، على أن‬        ‫‪‬‬
‫يكون هذا التنظيم وفق رؤيتهم من خلل تأثرهم بالثقافة والمجتمع واللغة وأشياء أخرى كثيرة،‬
                                      ‫على أن يتم استرجاع المحتوى بنفس طريقة التنظيم.‬
‫عناصر الفوكسونومي‬
    ‫تتمثل مقومات إنشاء الفوكسونومي في ثلثة‬       ‫‪‬‬
      ‫عناصر رئيسية: المصادر، والمستفيديون،‬
            ‫والواسمات )الكلمات الدللية/الدالة(‬
‫يضاف إلى العناصر السابقة تطوير بيئة تعاونية‬      ‫‪‬‬
‫مبنية على الويب )الجيل الثاني من الويب ‪web‬‬
                                       ‫0.2(.‬
‫يتولى المستفيدون مهمة صيانة هذا التصنيف من‬       ‫‪‬‬
          ‫خلل إضافتهم للمزيد من الواسمات‬
‫الونواع‬
                             ‫الفوكسونومي العريض ‪Broad Folksonomy‬‬                     ‫)1‬
    ‫وهو التصنيف الذى من خلله يتمكن عدد من المستفيدين من أن يضعوا الرمز أو‬        ‫‪‬‬
         ‫الكلمة الدللية المناسبة من وجهة نظرهم كما هو الحال فى دليشيز )الشكل(‬
‫يستخدم كأداة لكشف اتجاهات مجموعة من المستخدمين أثناء وضعهم لعنصر أو وثيقة‬        ‫‪‬‬
         ‫واحدة، بحيث يمكن بعد ذلك استخدام تلك القائمة التى وضعت لختيار أفضل‬
                           ‫نُ‬
                                        ‫المصطلحات للتعبير عن ذلك المحتوى.‬
                             ‫الفوكسونومي الضيق ‪Narrow Folksonomy‬‬                     ‫)1‬
  ‫فيه يمكن للمستفيد أن يحدد رموزا لسهاماته فقط ويتم وضعها مرة واحدة فقط، ول‬
                                             ‫اً‬                                  ‫‪‬‬
                                  ‫يمكن لمستفيد آخر من توسيم تلك السهامات.‬
‫الفرق الجوهري بين النوعين في من يضع الكلمات الدللية؛ ففي الفوكسونومي الضيق‬       ‫‪‬‬
    ‫يقتصر وضع الواسمات )الكلمات الدللية( على المستخدم الذي رفع المحتوى إلى‬
  ‫الموقع فقط دون رغيره، والعكس في الفوكسونومي العريض حيث يسمح للمستخدمين‬
                                               ‫جميعا بوضع واسمات للمحتوى.‬
http://technorati.com/tag
‫المزايا‬
      ‫الشمولية: فهو ي عكس المفردات المستخدمة من جانب المستفيدين، وهو بذلك يمكن أن‬      ‫‪‬‬
 ‫يوصف بأنه أكثر ديمقراطية مقارنة بالنظم الخرى التى تعتمد على اللغات المقيدة. حيث‬
         ‫يقدم هذا السلوب الفرصة لكل مستفيد للتعبير عن المحتوى الموضوعى بطريقته‬
‫الخاصة، والسماح بمشاركة رغيره من المستفيدين فى الرموز الموضوعة للتعبير عن وثيقة‬
                                                                            ‫واحدة.‬
    ‫الملئمة والتساع: يمكن من خلل الفوكسونومي أن يتسع للمظاهر الجديدة فى مجال‬           ‫‪‬‬
                                                      ‫معين أو لموضوع معين.‬
       ‫يعكس فعليا المصطلحات التي يتم استخدامها من قبل الفراد المستخدمين لمصادر‬
                                  ‫بِ‬                                                   ‫‪‬‬
                                                                    ‫المعلومات.‬
   ‫يعتبر بداية لتصميم نظام )مكنز(، حيث يعتبر نواة لبداية العمل على التنقيح والستبعاد‬   ‫‪‬‬
                                                                   ‫لتكوين مكنز جيد.‬
‫المزايا‬
‫المصطلحات التي يستخدمها الفراد قد تكون أكثر حداثة مقارنة بالمهنيين، وقد يرجع ذلك‬      ‫‪‬‬
   ‫لمتابعتهم المستمرة لكل ما يضاف من مصادر وما يستحدث من مصطلحات في مجال‬
                                                                        ‫اهتماماتهم.‬
                       ‫إمكانية إضافة العديد من المصطلحات للتعبير عن مصدر واحد.‬        ‫‪‬‬
‫عدم وجود مصطلحات أو كلمات دالة يعتمد عليها هذا النوع من التصنيف؛ ومن ثم فيمكن‬         ‫‪‬‬
‫لى مستفيد أن يضع الرموز التى يراها مناسبة من وجهة نظره، وقد تكون مناسبة بالفعل‬
                                                                   ‫وقد ل تكون.‬
 ‫إمكانية استخدام المستخدم للغته الخاصة التي يمكن بها وصف المعلومات بكلمات تعكس‬        ‫‪‬‬
                                                                        ‫ثقافته.‬
‫إمكانية استخدام المستخدم لمصطلحات ذات معاني معينة تعكس مدى اهتمامه بالموضوع.‬          ‫‪‬‬
  ‫المشاركة الموضوعية عن طريق تجميع الهتمامات الخاصة بالمستخدمين كلهم وإتاحة‬           ‫‪‬‬
                                                  ‫المصادر المتعلقة بهذا الهتمام.‬
‫المزايا‬
‫عدم وجود الهرمية في التنظيم؛ وبالتالي ل يحتاج المستخدم أن يكون ملما بنظام تصنيف‬   ‫‪‬‬
 ‫معين ليتصفح الموقع، حيث ل يحتاج إلى فهم المصطلحات وإيجاد الروابط المختلفة أو‬
                     ‫حتى محاولة التفكير في أي رأس موضوع يندرج تحته استفساره.‬
   ‫سهولة وضع الواصفات أو المصطلحات دون الحاجة إلى التدريب على التصنيف أو‬          ‫‪‬‬
                                                                 ‫التكشيف.‬
    ‫استخدام المصطلحات الكثر استخداما )شائعة( كمصطلحات واصفة للمعلومات مما‬         ‫‪‬‬
                      ‫يساعد على سهولة استرجاعها بالطريقة الشائعة لغير المهنيين.‬
                          ‫من السهل إدراج أي واصفات جديدة وتغييرها أو تحديثها.‬     ‫‪‬‬
‫الونتقادات‬
‫نقص الدقة: رغياب الضبط يسمح لمستخدمي الموقع تحديد أو وضع الكلمات التى تعبر‬     ‫‪‬‬
  ‫عن المحتوى الموضوعى لوثيقة ما، وعلى ذلك فيمكن أن نجد أشكال مختلفة للكلمة‬
   ‫الواحدة، صيغة المفرد والجمع للسماء، الختصارات؛ وذلك لتباين ثقافات الفراد‬
                                                                 ‫ومستوياتهم.‬
             ‫التصنيف الحر ل يشتمل على دليل للستخدام أو ملحظات توضيحية.‬         ‫‪‬‬
  ‫ينتج عنه عدد من مشكلت استكشاف العلقات بين الكلمات الدللية؛ كنتيجة طبيعية‬     ‫‪‬‬
  ‫لتفاوت طبيعية مستوى الكلمات المستخدمة للتعبير عن المحتوى ما بين مصطلحات‬
                           ‫رغاية فى العمومية إلى مصطلحات رغاية فى التخصيص.‬
‫صعوبة السترجاع في بعض الحيان؛ فالشخص الذي يبحث عن موضوع معين يجب‬               ‫‪‬‬
‫عليه أن يكون على دراية بثقافة الخرين؛ حتى يتمكن من البحث بالمصطلح الذي أتى‬
                            ‫به بعض الشخاص الواضعين للواصفات من قبلهم.‬
                                 ‫بِ‬
‫الونتقادات‬
     ‫الغموض والختلف في المعاني بجانب كثرة المرادفات من حيث إعطاء أكثر من‬       ‫‪‬‬
                                                ‫مسمى )مصطلح( لمعنى واحد.‬
    ‫تعدد استخدام الشكال لرصد المحتوى، حيث هناك من يضع )كلمة واحدة( لوصف‬        ‫‪‬‬
                        ‫المحتوى وهناك من يضع )شبه جملة( أو )جملة كاملة(.‬
‫تشابه بعض المصطلحات في طريقة الكتابة مع اختلف المعنى، مثال: المغرب )دولة(،‬     ‫‪‬‬
                                        ‫المغرب )صلة(، المغرب )جهة الغرب(.‬
 ‫اختلف التعبير عن المصطلحات فهناك من يعبر )بالصيغة المفردة(، وهناك من يعبر‬     ‫‪‬‬
                                                           ‫)بالصيغة الجمع(.‬
‫عدم وجود رقابة من قبل المسئولين عن الموقع على الواصفات التي يتم وضعها من قبل‬
  ‫بِ‬                                                     ‫نُ‬                    ‫‪‬‬
                          ‫المستخدمين مما يؤدى إلى وجود بعض اللفاظ الخارجة.‬
                  ‫استخدام مصطلحات رغير لغوية من قبل فئة معينة من المستخدمين.‬
                                             ‫بِ‬                                ‫‪‬‬
‫الونتقادات‬
                       ‫استخدام أكثر من لغة واحدة للتعبير عن المحتوى.‬   ‫‪‬‬
        ‫استخدام البعض للكلمات الخاصة أو الضمائر، مثال: كلبي – كلب.‬     ‫‪‬‬
‫استخدام الكثير من العلمات التي تعيق عملية السترجاع، مثـال: & - % -.‬    ‫‪‬‬
                               ‫استخدام المصطلحات العامية كواصفات.‬      ‫‪‬‬
‫مزيد من المعلومات .. قراءات .. مصادر‬
                     .2000 ،‫حشمت قاسم . مدخل لدراسة التكشيف والستخلص.ـ القاهرة: دار غريب‬             
   Larson and Hearst’s slides, at UC-Berkeley. http://www.sims.berkeley.edu/courses/is202/f00/
   Wolfgang Hürst (2006). Web Search, Albert-Ludwigs-University Freiburg, Germany, Summer
    Term
   Zdravko Markov and Daniel T. Larose, Data Mining the Web: Uncovering Patterns in Web
    Content, Structure, and Usage, Wiley, 2007. Slides for Chapter 1: Information Retrieval an Web
    Search
   K.T. Anuradha. Search Engines for Intranets. National Centre for Science Information (NCSI),
    Indian Institute of Science, Bangalore
   Dragomir R. Radev. Search Engine Technology
    ‫خالد عبد الفتاح . تحليل وفرز النتائج في محركات بحث الشبكة العنكبوتية. في: مؤتمر محركات البحث‬     
                                                          .2005 ‫على النترنت، شرم الشيخ، فبراير‬
‫مؤمن سيد النشرتي. التحديات التي تواجه خوارزميات محركات البحث في استرجاع المحتوى العربي على‬           
    .(2012 ‫.- ع 92 )سبتمبر‬Cybrarians Journal -.‫الشبكة العنكبوتية العالمية دراسة مسحية تحليلية‬
‫محمد فتحي عبد الهادي. التجاهات الحديثة في التحليل الموضوعي للمعلومات وموقف قطاع‬           ‫‪‬‬
            ‫المعلومات العربي منها. في: مؤتمر التحاد العربي للمكتبات والمعلومات، المغرب، 9002.‬

‫شريف كامل شاهين. التجاهات الحديثة في التحليل الموضوعي .ـ مجلة المكتبات والمعلومات العربية،‬      ‫‪‬‬
                                                                  ‫س42 ، ع2)4002(. ص 5-14.‬

‫‪‬‬   ‫:‪Smith, Gene. Tagging: People-Powered Metadata for the Social Web.- Berkeley, California‬‬
    ‫8002,‪New Riders‬‬

‫‪‬‬   ‫‪Getting, B. (2007). What Are “Tags” And What Is “Tagging?”. Retrieved 5 2, 2011, from‬‬
    ‫-‪http://www.practicalecommerce.com/articles/589-What-Are-Tags-And-What-Is-Tagging‬‬
آليات التكشيف على الويب وأدواته

آليات التكشيف على الويب وأدواته

  • 1.
    ‫آليات التكشيف علىالويب وأدواته‬ ‫الدكتور‬ ‫عماد عيسى صالح‬ ‫أستاذ علم المعلومات‬ ‫المشارك‬ ‫جامعة الملك عبدالعزيز،‬ ‫السعودية‬
  • 2.
  • 3.
    ‫مفاهيم ومصطلحات‬ ‫الكشاف ‪:Index‬‬ ‫‪‬‬ ‫الكشاف بمعناه العام هو ما يكشف عما هو مغمور أو مجهول‬ ‫‪‬‬ ‫في وسط معين.‬ ‫) هنري‬ ‫دليل أو مؤشر إلى موقع المعلومات التي نبحث عنها.‬ ‫‪‬‬ ‫هويتلي(‬ ‫دليل منظم يرشد إلى ما يمكن البحث عنه أو استرجاعه، من‬ ‫‪‬‬ ‫مفردات أو حقائق أو معلومات أو نصوص أو وثائق، أو بدائل‬ ‫النصوص والوثائق. ) حشمت قاسم(‬ ‫تتلخص وظائف الكشاف في:‬ ‫‪‬‬ ‫التحقق من المعلومات التي يمكن أن تكون متصلة بموضوع ما،‬ ‫‪‬‬ ‫وتحديد موقعها في الوثيقة و أو الوثائق المكشفة.‬ ‫/‬ ‫استبعاد الحالت التي يرد فيها ذكر الموضوعات على نحو عابر،‬ ‫‪‬‬ ‫ول تقدم شيئا يذكر للمستفيد.‬ ‫‪‬‬
  • 4.
    ‫) تابع (‬ ‫مفاهيم ومصطلحات‬ ‫وظائف الكشاف ) تابع(:‬ ‫‪‬‬ ‫بيان ما بين الموضوعات من علقات.‬ ‫‪‬‬ ‫توجيه المستفيدين المستفيدين للمصطلحات الكشفية‬ ‫‪‬‬ ‫المستخدمة بديل عن المصطلحات التي يبحثون بها.‬ ‫توجيه المستفيدين نحو موضوعات يمكن البحث عنها أيضا‬ ‫‪‬‬ ‫وتتصل بالموضوع.‬ ‫‪Indexing L‬‬‫لغة التكشيف ‪anguage‬‬ ‫‪‬‬ ‫مجموعة الرموز أو المصطلحات أو المفردات التي تشكل اللغة‬ ‫‪‬‬ ‫المستهدفة التي تترجم إليها المفاهيم الدالة على المحتوى‬ ‫الموضوعي للوثيقة الوثائق، بمعنى أنها تمثل المداخل‬ ‫/‬ ‫الموضوعية لسترجاع الوثيقة‬ ‫لغة التكشيف أيا كان شكلها ونوعها هي الساس في نظام‬ ‫‪‬‬ ‫المضاهاة والسترجاع الموضوعي لوثائق.‬
  • 5.
    ‫) تابع (‬ ‫مفاهيم ومصطلحات‬ ‫هناك نوعين من التكشيف في نظم السترجاع:‬ ‫‪‬‬ ‫التكشيف بالتعيين:‬ ‫‪‬‬ ‫يعتمد على الجهد الفكري للمكشف في تحديد عناصر المحتوى‬ ‫‪‬‬ ‫الموضوعي للوثيقة ثم اختيار المصطلحات أو الرموز الكشفية‬ ‫الدالة عليها،‬ ‫يعتمد في الساس على لغة مقيدة ) مكنز، خطة تصنيف، قائمة‬ ‫‪‬‬ ‫رءوس موضوعات(‬ ‫التكشيف الشتقاقي أو بالشتقاق:‬ ‫‪‬‬ ‫وفيه تقتبس أو تشتق جميع المصطلحات أو الواصفات‬ ‫‪‬‬ ‫الموضوعية من الوثيقة أو الوثائق المكشفة، فهو يعتمد في‬ ‫الساس على اللغة الطبيعية‬
  • 6.
    ‫خطوات التحليل الموضوعي‬ ‫الخطوة الولى ، تحليل المفاهيم أو تحليل محتوى مصدر‬ ‫‪‬‬ ‫المعلومات:‬ ‫تهتم بفحص وتصفح مصدر المعلومات بهدف تحديد المفاهيم‬ ‫‪‬‬ ‫والفكار التي يتناولها المصدر.‬ ‫الخطوة الثانية ، ترجمة أو التعبير عن ناتج التحليل:‬ ‫‪‬‬ ‫تهتم بالتعبير عن ناتج تحليل المفاهيم باستخدام مجموعة من نقاط‬ ‫‪‬‬ ‫الوصول الموضوعية أو مؤشرات المحتوى )مصطلحات، رموز،‬ ‫عبارات أو جمل(‬ ‫يتم الحصول عليها إما من لغة مصدر المعلومات نفسه أو من لغة‬ ‫‪‬‬ ‫استفسارات وأسئلة المستفيدين، أو تعيينها من لغة أخرى خارج‬ ‫نطاق مصدر المعلومات.‬ ‫الخطوة الثالثة: الربط بين نقاط الوصول الموضوعية وبين‬ ‫‪‬‬ ‫مصدر المعلومات:‬
  • 7.
    ‫نظم التسترجاع‬ INFORMATION NEED DOCS. DOCUMENTS User Interface QUERY RESULTS INDEXING RESULT REPRESENTATION SEARCH INDEX
  • 8.
    (‫نظم التسترجاع )تابع‬ INFORMATIONNEED DOCS. DOCUMENTS User Interface QUERY SELECT DATA FOR INDEXING RESULTS QUERY PROCESSING RESULT PARSING & TERM (PARSING & TERM REPRESENTATION PROCESSING PROCESSING) RANKING LOGICAL VIEW OF THE SEARCHING INFORM. NEED INDEX
  • 10.
    ‫أنواع الكشافات‬ ‫يمكن تقسيم‬ ‫يمكن تقسيم‬ ‫هل يمكن مقابلتها‬ ‫هل يمكن مقابلتها‬ ‫الكشافات إلى ثلث‬ ‫الكشافات إلى ثلث‬ ‫بـالنواع التالية::‬ ‫بـالنواع التالية‬ ‫فئات رئيسية::‬ ‫فئات رئيسية‬ ‫كشاف الموقع‬ ‫‪‬‬ ‫كشاف الكتاب‬ ‫‪‬‬ ‫الويب‬ ‫كشافات النترانت‬ ‫‪‬‬ ‫كشافات النصوص‬ ‫‪‬‬ ‫والنترنت‬ ‫الكشافات‬ ‫‪‬‬ ‫كشافات الميتاداتا‬ ‫‪‬‬ ‫الببليوجرافية‬
  • 13.
    ‫تكشيف الويب‬ Web Indexing Copyright © 2009 13
  • 14.
    Source: Netcraft WebServer Survey, December 2012. http://news.netcraft.com/archives/2012/12/04/december-2012-web-server-survey.html
  • 16.
    2.4 billion –Number of Internet users worldwide
  • 17.
    ‫خصائص مصادر )الوثائق(الويب‬ ‫كم ضخم من البيانات، والنمو المستمر، ارتفاع معدل تغير‬ ‫‪‬‬ ‫تنوع كبير وعدم التجانس:‬ ‫‪‬‬ ‫جودة ومصداقية المصادر‬ ‫‪‬‬ ‫الوثائق الثابتة في مقابل الديناميكية‬ ‫‪‬‬ ‫أنواع مختلفة من الوسائط ) نص، صور، صوت، الفيديو(‬ ‫‪‬‬ ‫صيغ مختلفة من الملفات ) ‪(…، H M ،flash ،P‬‬ ‫‪T L‬‬ ‫‪DF‬‬ ‫‪‬‬ ‫تنوع في الموضوعات، واللغات‬ ‫‪‬‬ ‫العلنات‬ ‫‪‬‬ ‫النص الفائق ) التشعبي( ، والرتباط ‪ ، linking‬والروابط‬ ‫‪‬‬ ‫‪B‬‬ ‫المعطلة ‪roken‬‬ ‫التكرار ‪Redundancy‬‬ ‫‪‬‬ ‫موزعة‬ ‫‪‬‬
  • 18.
    ‫تكشيف الويب‬ ‫يعتمد تكشيفالويب وما تحتويه من صفحات ومواقع على‬ ‫‪‬‬ ‫اختلف أنواعها على أساليب التكشيف اللي حيث أنه‬ ‫السلوب الذي يتناسب مع طبيعة الويب من حيث الحجم‬ ‫‪ ، Size‬والتساع ‪ ، scalability‬والتحديث ‪ Update‬المستمر‬ ‫لمحتواها.‬ ‫‪ (L‬الحاجة إلى التكشيف‬ ‫وصف لينش ) ‪ynch,1996,Online‬‬ ‫‪‬‬ ‫اليدوي والتكشيف اللي على أنهما ضرورة تفرضها تنوع‬ ‫احتياجات المستفيدين وتنوع مصادر الويب، حيث يرى أن‬ ‫مهارات التصنيف والختيار الدقيق التي يمتلكها المكتبيون‬ ‫لبد أن يكملها قدرات وإمكانيات علماء الحاسب اللي في‬ ‫ميكنة عمليات التكشيف وتخزين المعلومات.‬ ‫‪Indexing M‬‬‫أساليب التكشيف ‪ethods‬‬ ‫‪‬‬
  • 19.
    ‫أول : التكشيفبواسطة الناشرين علي الويب‬ ‫يتولى الفراد أو المؤسسات التي تضع صفحات معلومات‬ ‫‪‬‬ ‫علي الويب تكشيف محتويات هذه الصفحات بواسطة‬ ‫مجموعة من الكلمات المفتاحية أو الدللية التي تصف بدقه‬ ‫محتويات هذه الصفحات والتي يمكن أن تستخدم عند‬ ‫تكشيف هذه الصفحات من خلل محركات البحث.‬ ‫يتيح أسلوب لتوجيه محركات البحث عند تكشيف هذه‬ ‫‪‬‬ ‫الصفحات.‬ ‫‪ (M‬أحد اكواد لغة تكويد‬ ‫يعد كود تاج الميتا ) ‪eta T‬‬ ‫‪ag‬‬ ‫/‬ ‫‪‬‬ ‫النصوص الفائقة ‪ H M‬من أكثر الوسائل التي يعتمد عليها‬ ‫‪T L‬‬ ‫ناشري الويب لعداد ميتاداتا تساعد علي وصف المحتوي‬ ‫الموضوعي لتك الصفحات ) مثل: تاج الكلمات المفتاحيه‬ ‫‪ ، K‬وتاج الوصف ‪(Description‬‬ ‫‪eywords‬‬ ‫‪‬‬
  • 20.
    ‫أول : التكشيفبواسطة الناشرين علي الويب‬ ‫) تابع (‬ ‫خداع محركات البحث‬ ‫‪‬‬ ‫مشكلة تكشيف صفحات الويب تتمثل في قدرة ناشري الويب على‬ ‫‪‬‬ ‫معالجة الترتيب من خلل وضع كلمات مفتاحية مكررة في الصفحات‬ ‫لخداع محركات البحث، وهو ما يشار إليه بالعديد من المصطلحات‬ ‫‪E‬‬‫) مثل: ،‪ngine Search Persuasion ،Stuffing ،Spam-Indexing‬‬ ‫‪.(K‬‬‫‪eyword Spam‬‬ ‫تتجاهل العديد من محركات البحث تكشيف الميتاداتا نظرا لنهم‬ ‫‪‬‬ ‫يعتبروه حقل مخادع وغير حقيقي.‬ ‫من أنواع التكشيف بواسطة البشر:‬ ‫‪‬‬ ‫واصفات البيانات ) الميتاداتا(‬ ‫‪‬‬ ‫التوسيم والفوكسونومي‬ ‫‪‬‬
  • 21.
    ‫ثانيا : التكشيففى محركات البحث‬ ‫تعمل محركات البحث على بناء كشافات لمصادر المعلومات‬ ‫‪‬‬ ‫المنشورة على الويب من خلل اشتقاق كلمات أو عبارات من‬ ‫النصوص نفسها لبناء ملفات تسمح ببحث هذه المشتقات‬ ‫بالعتماد على أساليب البحث والسترجاع المعروفة ) مثل:‬ ‫المنطق البولينى، وتجاور المصطلحات، والبتر، الخ(.‬ ‫أن هذه الملفات ليست أكثر من الملفات المقلوبة التقليدية‬ ‫‪‬‬ ‫التي استخدمت في السترجاع منذ أن حل السترجاع‬ ‫العشوائي محل السترجاع التسلسلي.‬
  • 22.
  • 23.
    ? How fardo people look for results (Source: iprospect.com WhitePaper_2006_SearchEngineUserBehavior.pdf)
  • 24.
    ‫محركات البحث‬ ‫تأتي محركات البحث على رأس أدوات البحث والسترجاع‬ ‫‪‬‬ ‫للمحتوى على الويب:‬ ‫نسبة استخدام تقارب 48% من اجمالي إجراءات البحث عن‬ ‫‪‬‬ ‫المحتوى,‬ ‫بلغ عدد الستفسارت الموجه إلى محركات البحث نحو 051 مليون‬ ‫‪‬‬ ‫استفسار في اليوم الواحد،‬ ‫%04 من المستخدمين يصلون إلى محتوى الويب من خلل نتائج‬ ‫‪‬‬ ‫محركات البحث .‬ ‫ومع ذلك:‬ ‫‪‬‬ ‫تكشف فقط نحو 61% من محتوى الويب القابل للتكشيف‬ ‫‪‬‬ ‫%08 من المستخدمين ليتجاوزا استخدام أول صفحيتين من نتائج‬ ‫‪‬‬ ‫محركات البحث‬ ‫بلغت نسبة التكرار في استرجاع المحتوى بين محركات البحث بعضها‬ ‫‪‬‬ ‫البعض نحو 9.48%‬
  • 25.
    Standard Web SearchEngine Architecture Sponsored Links CG Appliance Express Discount Appliances (650) 756-3931 Same Day Certified Installation User www.cgappliance.com San Francisco-Oakland-San Jose, CA Miele Vacuum Cleaners Miele Vacuums- Complete Selection Free Shipping! www.vacuums.com Miele Vacuum Cleaners Miele-Free Air shipping! All models. Helpful advice. www.best-vacuum.com Web Results 1 - 10 of about 7,310,000 for miele. (0.12 seconds) Miele, Inc -- Anything else is a compromise At the heart of your home, Appliances by Miele. ... USA. to miele.com. Residential Appliances. Vacuum Cleaners. Dishwashers. Cooking Appliances. Steam Oven. Coffee System ... www.miele.com/ - 20k - Cached - Similar pages Web spider Miele Welcome to Miele, the home of the very best appliances and kitchens in the world. www.miele.co.uk/ - 3k - Cached - Similar pages Miele - Deutscher Hersteller von Einbaugeräten, Hausgeräten ... - [ Translate this page ] Das Portal zum Thema Essen & Geniessen online unter www.zu-tisch.de. Miele weltweit ...ein Leben lang. ... Wählen Sie die Miele Vertretung Ihres Landes. www.miele.de/ - 10k - Cached - Similar pages Herzlich willkommen bei Miele Österreich - [ Translate this page ] Herzlich willkommen bei Miele Österreich Wenn Sie nicht automatisch weitergeleitet werden, klicken Sie bitte hier! HAUSHALTSGERÄTE ... www.miele.at/ - 3k - Cached - Similar pages Search Indexer The Web Indexes Ad indexes
  • 26.
    ‫بنية محرك البحث‪SE Architecture‬‬ ‫الزواحف ‪: T crawler‬‬ ‫‪he‬‬ ‫‪‬‬ ‫برنامج يعمل على توفير المحتوى لمحرك البحث حيث يقوم بتتبع‬ ‫‪‬‬ ‫الروابط الفائقة بين المواقع للوصول إلى الصفحات التي تشتمل‬ ‫على المحتوى. ثم استخراج ‪ URL‬واعطائها إلى وحدة التحكم‬ ‫‪s‬‬ ‫للزاحف.‬ ‫وحدة التحكم للزاحف ‪: Crawler Control‬‬ ‫‪‬‬ ‫تحديد أي الروابط الفائقة التي سيتم زيارتها مستقبل وتغذية الزاحف‬ ‫‪‬‬ ‫بالخوارزميات الخاصة بعملية الزحف.‬ ‫وحدة تحليل المجموعات ‪:Collection analysis module‬‬ ‫‪‬‬ ‫مسئولة عن انشاء الكشافات من واقع تحليل الوثائق وتحديد طبيعة‬ ‫‪‬‬ ‫البني التكوينية للوثائق.‬
  • 27.
    ‫بنية محرك البحث) تابع (‬ ‫المكشف ‪ : Indexer‬يشتمل على ثلثة أنماط من الكشافات.‬ ‫‪‬‬ ‫كشافات النص ‪ : text index‬يشتمل على الكلمات المفتاحية‬ ‫‪‬‬ ‫والعناوين والجمل الدللية الواردة في محتوى الوثيقة المكشفة.‬ ‫حيث يعمل على استخراج كافة الكلمات من كافة الصفحات، وتسجيل‬ ‫محددات فريدة للمواقع ومكان ظهور كل كلمة.‬ ‫كشافات البناء ‪ : Structure index‬تعكس الروابط بين الصفحات،‬ ‫‪‬‬ ‫وتشتمل على المعلومات التي تتعلق ببنية الروابط الفائقة للصفحات‬ ‫المكشفة وتحفظ في ملف يعرف بالكشاف الساسي، وتعتمد عليه‬ ‫الزواحف في تتبع الصفحات لسحبها من خلل الروابط الفائقة.‬ ‫كشافات الغراض الخاصة ‪ :Utility index‬ككشافات الكيانات الخرى‬ ‫‪‬‬ ‫غير الكيانات المكودة بالنصوص الفائقة، مثل كشافات ملفات ‪P‬‬ ‫‪DF‬‬ ‫وكشافات الصور.‬
  • 28.
    ‫بنية محرك البحث) تابع (‬ ‫مستودع الوثائق ‪: pages repository‬‬ ‫‪‬‬ ‫تقوم محركات البحث باختزان وحفظ الصفحات الملتقطة من الويب‬ ‫‪‬‬ ‫في مستودع الصفحات.‬ ‫محرك الستفسار ‪: query engine‬‬ ‫‪‬‬ ‫المسئول عن استلم طلبات البحث والستفسارات من المستفيدين.‬ ‫‪‬‬ ‫‪: Rank M‬‬‫وحدة الترتيب ‪odule‬‬ ‫‪‬‬ ‫المسئولة عن ترتيب وفرز النتائج ذات الصلة باستفسارات‬ ‫‪‬‬ ‫المستفيدين.‬
  • 29.
    General Web SearchEngine Architecture CLIENT WWW QUERIES RESULTS PAGE REPOSITORY QUERY RANKING ENGINE CRAWLER(S) COLLECTION INDEXER CRAWL ANALYSIS MOD. MODULE CONTROL INDEXES UTILITY STRUCTURE TEXT USAGE FEEDBACK
  • 30.
    ‫تفسير‬ ‫تفسير‬ ‫محرك البحث ) تابع (‬ ‫اختلف‬ ‫اختلف‬ ‫النتائج‬ ‫النتائج‬ ‫تختلف محركات البحث من حيث:‬ ‫‪‬‬ ‫المسترجعة‬ ‫المسترجعة‬ ‫طبيعة المواد التي تنتقيها من مصادر الويب‬ ‫‪‬‬ ‫لنفس‬ ‫لنفس‬ ‫الساليب التي تستخدمها في تكشيف تلك المواد‬ ‫‪‬‬ ‫الستفسار‬ ‫الستفسار‬ ‫تنوع المصادر المكشفة نفسها‬ ‫‪‬‬ ‫باختلف‬ ‫باختلف‬ ‫القدرات التي تتيحها لبحث المواد‬ ‫‪‬‬ ‫محركات‬ ‫محركات‬ ‫كما تختلف أيضا من حيث:‬ ‫‪‬‬ ‫البحث‬ ‫الجراءات التي تتبعها في تحديد حجم المادة المكشفةالبحث تتراوح‬ ‫التي‬ ‫‪‬‬ ‫ما بين التكشيف النتقائي والتكشيف الشامل،‬ ‫عدد الحروف أو الكلمات التي يتم تكشيفها من الصفحة.‬ ‫‪‬‬ ‫بعض محركات البحث تقوم أول ببناء مستخلص للصفحات المكشفة،‬ ‫‪‬‬ ‫ثم تستخدم هذا المستخلص في تكشيف الصفحة.‬
  • 31.
    ‫الزواحف ‪( Crawler(Robots, Spiders‬‬ ‫تتعامل الزواحف مع الويب من خلل استخدام مجموعة‬ ‫‪‬‬ ‫محددات المصدر الموحدة ) ‪ (URL‬كنقاط إرتكازية.‬ ‫‪s‬‬ ‫تقوم الزواحف بمسح الويب أما:‬ ‫‪‬‬ ‫أفقيا: بأن تبدأ بصفحة واحدة ثم تتبع كل الصفحات المرتبطة بها من‬ ‫‪‬‬ ‫خلل تتبع الروابط الفائقة المتاحة داخل هذه الصفحة‬ ‫رأئيا: بأن تتبع رابط فائق واحد من كل صفحة تقابلها حتى تنتهي من‬ ‫‪‬‬ ‫العمق المطلوب في تتبع الروابط.‬ ‫معظم الزواحف تقوم بتقديم معلومات عن الصفحات من‬ ‫‪‬‬ ‫أجل تكشيفها ويتم تخزين هذه المعلومات في مستودعات‬ ‫للوثائق بمحركات البحث تربط بين معلومات التكشيف وهذه‬ ‫الصفحات في مواقعها.‬ ‫إن نمطية عمل الزواحف يتم تحديدها وفقا لمجموعة من‬ ‫‪‬‬ ‫السياسات.‬
  • 32.
    ‫سياسات الزاحف ‪Crawlerpolicies‬‬ ‫سياسة الختيار ‪ :Selection policy‬حيث يحدد فيها طبيعة‬ ‫‪‬‬ ‫المحتوى الذي يجب أن يجمع، وتقسم محركات البحث وفقا‬ ‫لسياسات الختيار إلى: محركات البحث العمودية ‪، Vertical‬‬ ‫ومحركات البحث العالمية ‪ ، Global‬ومحركات البحث‬ ‫الموضوعية.‬ ‫‪:P‬‬‫سياسة تكرار زيارة الصفحات ‪age Re-visiting policy‬‬ ‫‪‬‬ ‫وتتمثل في تحديد أوقات إعادة التجميع والجدول الزمني لها.‬ ‫‪ : P‬وتتمثل في‬‫السياسة الخلقية للزاحف ‪oliteness policy‬‬ ‫‪‬‬ ‫سياسة التهذيب في عدم الثقال على المواقع في تحميلها.‬
  • 33.
    ‫الكشاف أو الملفالمقلوب ‪Inverted Index‬‬ ‫‪((or File‬‬ ‫هو ذلك الملف الذي يعمل على توفير سبل للوصول إلى‬ ‫‪‬‬ ‫محتوى الوثائق.‬ ‫يشتمل على المصطلحات الكشفية بشكل يضمن الفاعلية في‬ ‫‪‬‬ ‫السترجاع.‬ ‫يوفر طريقة مختصرة في عملية البحث، بدل من بحث قاعدة‬ ‫‪‬‬ ‫بيانات الوثائق بأكملها لتحديد المصطلحات الواردة في‬ ‫الستفسار.‬ ‫يعمل على تنظيم المعلومات في قائمة مختصرة من‬ ‫‪‬‬ ‫المصطلحات ومن ثم العتماد على المصطلح في تحديد‬ ‫مجموعة الوثائق الملئمة.‬
  • 34.
    ‫الكشاف المقلوب )تابع (‬ ‫نتيجة لتتنوع صيغ الملفات المنشورة على الويب ) ‪، html , pdf‬‬ ‫‪‬‬ ‫الخ( ؛‬ ‫‪T‬‬‫لبد من تطويع أو تطبيع النصوص للمعالجة ‪ext‬‬ ‫‪‬‬ ‫‪ Normalization‬وفقا لشكل موحد.‬ ‫إنشاء مصفوفة المصطلح ــ الوثيقة ‪term-document matrix‬‬ ‫‪‬‬ ‫:‬ ‫‪ :T‬وتشمل تفتيت النصوص الكاملة لكلمات‬‫التأخيذ ‪okenization‬‬ ‫‪‬‬ ‫وتحديدها.‬ ‫قائمة الستبعاد ‪ :stopwords‬وتتمثل في استبعاد الكلمات التي‬ ‫‪‬‬ ‫تحمل دللت معلوماتية ولغوية ضئيلة في الوثيقة، وفي نظم‬ ‫استرجاع المعلومات عادة ما يتم التخلص من هذة الكلمات‬ ‫لسباب تتعلق بالكفاءة.‬
  • 35.
    ( ‫الكشاف المقلوب) تابع‬ Term Doc # Term Doc # Freq now 1 a 2 1 is 1 aid 1 1 Now is the time Now is the time the 1 all 1 1 time 1 and 2 1 for all good men for all good men for 1 come 1 1 all 1 country 1 1 to come to the aid to come to the aid good 1 men 1 country 2 1 of their country of their country to 1 dark 2 1 come 1 for 1 1 to 1 good 1 1 the 1 Doc 1 aid 1 in 2 1 is 1 1 of 1 it 2 1 their 1 country 1 manor 2 1 men 1 1 It was a dark and It was a dark and it 2 was 2 midnight 2 1 stormy night in stormy night in a 2 night 2 1 dark 2 now 1 1 the country manor. the country manor. and 2 of 1 1 stormy 2 past 2 1 night 2 The time was past The time was past in 2 stormy 2 1 the 2 the 1 2 midnight midnight country 2 the 2 2 manor 2 their 1 1 Doc 2 the 2 time 1 1 time 2 time 2 1 was 2 to 1 2 past 2 was 2 2 midnight 2
  • 36.
    How Inverted Filesare Created Term Doc # Freq a aid 2 1 1 1 Dictionary/Lexicon Postings all 1 1 Term N docs Tot Freq Doc # Freq and 2 1 a 1 1 2 1 come 1 1 aid 1 1 1 1 country 1 1 all 1 1 1 1 country 2 1 and 1 1 2 1 dark 2 1 come 1 1 1 1 country 2 2 1 1 for 1 1 dark 1 1 2 1 good 1 1 2 1 for 1 1 in 2 1 good 1 1 1 1 is 1 1 in 1 1 1 1 it 2 1 is 1 1 2 1 manor 2 1 it 1 1 1 1 men 1 1 manor 1 1 2 1 men 1 1 2 1 midnight 2 1 midnight 1 1 1 1 night 2 1 night 1 1 2 1 now 1 1 2 1 now 1 1 of 1 1 of 1 1 1 1 past 2 1 past 1 1 1 1 stormy 2 1 stormy 1 1 2 1 the 1 2 the 2 4 2 1 the 2 2 their 1 1 1 2 time 2 2 2 2 their 1 1 to 1 2 1 1 time 1 1 was 1 2 1 1 time 2 1 2 1 to 1 2 1 2 was 2 2 2 2
  • 37.
    The Hidden /Invisible ‫ماذا عن الويب الخفي‬ Web ‫يقصد به مجموعة الصفحات الديناميكية والتفاعلية التي‬  .‫تخزن في قواعد البيانات أو يتم تجميعها حسب الطلب‬ :‫من بينها‬   Content found in databases:  Example: ERIC database, Library catalogs.  Subscription database content:  Examples: E SCOhost databases, L B exisNexis Academic.  Sites requiring login authorization  Examples: Blackboard, membership sites.  Sites blocked by Robot Exclusion Protocols (with a no-index protocol)  etc.
  • 38.
  • 39.
    ‫المشكلة والحل...‬ ‫المشكلة:‬ ‫‪‬‬ ‫تضخم مخرجات النشر الفردي والمؤسسي على شبكة الويب‬ ‫‪‬‬ ‫وما ترتب عليه من إشكالية ضبط وتنظيم مصادر الويب‬ ‫وتنظيمها لتيسير استكشافها واسترجاعها .‬ ‫الحل المقترح:‬ ‫‪‬‬ ‫أن تصاحب مصدر المعلومات بياناته الواصفة ) الميتاداتا(‬ ‫‪‬‬ ‫التي تيسر تحديد هويته واسترجاعه وضبط استخدامه والذي‬ ‫يتولى منشئ الوثيقة تضمينها أو من ينوب عنه.‬
  • 40.
    ‫التعريف والمفهوم‬ ‫الميتاداتا هي "البيانات المتضمنة في كيا ن ما أو المرتبطة‬ ‫ٍ‬ ‫‪‬‬ ‫) ‪ISO‬‬ ‫بكيا ن ما وتصف هذا الكيان وتساعد في استرجاعه”.‬ ‫ٍ‬ ‫2002-5-9548(‬ ‫الميتاداتا هي مصطلح ارتبط بوصف وتحديد هوية وملمح‬ ‫‪‬‬ ‫وصفات كيان معلوماتي ‪ Information Object‬قائم على‬ ‫شاهين(‬ ‫شبكة الويب. ) شريف‬ ‫‪: Descriptive M‬‬‫الميتاداتا الوصفية ‪etadata‬‬ ‫‪‬‬ ‫تستخدم في تحديد خصائص الكيان المعلوماتي ووصفه‬ ‫‪‬‬ ‫لغراض التكشيف والسترجاع، فهي تشمل عناصر مثل العنوان‬ ‫والمؤلف والمستخلص والكلمات المفتاحية.‬ ‫توفر معلومات مهيكلة ‪ structured information‬تعزز عمليات‬ ‫‪‬‬ ‫‪،F‬‬‫المعالجة اللية ) مثل: إتاحة البحث بالحقول ‪ielded searches‬‬
  • 41.
    ‫طرق ربط الميتاداتابمصدر المعلومات‬ ‫أو ل: التضمين ‪Embedded metadata‬‬ ‫ً‬ ‫‪‬‬ ‫حيث يتم إنشاء الميتاداتا في نفس وقت إنشاء المصدر ومتضمنة مع لغة‬ ‫‪‬‬ ‫تكوين الوثيقة.‬ ‫ثانيا: المصاحبة ‪Associated metadata‬‬ ‫‪‬‬ ‫وفيها يتم إنشاء ملف يحتوي على الميتاداتا ويصاحب أو يزاوج ملف المصدر‬ ‫‪‬‬ ‫محل الوصف؛ بمعنى أن لدينا ملفين الول للمحتوى والثاني لعناصر وصف‬ ‫المحتوى )الميتاداتا(.‬ ‫ثالثا: المستقلة ‪Third-Party metadata‬‬ ‫‪‬‬ ‫وفيها يتم الحتفاظ بالميتاداتا بمستودعات مستقلة عن المصادر من قبل‬ ‫‪‬‬ ‫مؤسسات قد تملك أو ل تملك حق التحكم في المحتوى، وغالبا ما تكون‬ ‫الميتاداتا مخزنة في قواعد بيانات.‬
  • 44.
    Web site Source Metadata
  • 45.
    ‫خطط الميتاداتا ‪schema‬‬ ‫خطط الميتاداتا هي عبارة عن مجموعة من عناصر الميتاداتا، مع‬ ‫‪‬‬ ‫قواعد استخدامها، وقد قصد بهذه المجموعة أن تحقق هدفا معينا.‬ ‫صُ‬ ‫هناك ثلثة عناصر رئيسية مرتبطة بأي خطة من خطط الميتاداتا،‬ ‫‪‬‬ ‫وهي:‬ ‫دللت عناصر البيانات ‪semantics‬‬ ‫.1‬ ‫قواعد المحتوى ‪content rules‬‬ ‫.2‬ ‫التركيبة أو الصيغة ‪ Syntax‬التي ترد فيها عناصر البيانات‬ ‫.3‬ ‫معيار دبلن ‪DC‬‬ ‫‪‬‬ ‫يستهدف دعم استكشاف المصادر اللكترونية على شبكة الويب‬ ‫‪‬‬ ‫ووصفها.‬ ‫يتسم بعمومية استخدامه حيث يوجه لكل المشتغلين بالمعلومات‬ ‫‪‬‬ ‫من أخصائيي مكتبات وموردين ومطوري المحتوى الرقمي.‬
  • 46.
    ‫عناصر المحتوى‬ ‫عنوان ‪:Title‬اسم يعطى للمصدر، هو السم الذي يعرف به المصدر‬ ‫صُ‬ ‫‪‬‬ ‫رسميا.‬ ‫موضوع وكلمات مفتاحية ‪ :Subject‬يعبر عن موضوع محتوى‬ ‫‪‬‬ ‫المصدر، بكلمات أو عبارات مفتاحية، أو برموز تصنيف تصف موضوع‬ ‫المصدر. ويوصى باختيارها من قائمة مصطلحات مقيدة، أو من خطة‬ ‫تصنيف رسمية.‬ ‫وصف ‪ :Description‬بيان محتوى المصدر، وتشتمل أمثلة الوصف على:‬ ‫‪‬‬ ‫مستخلص، أو قائمة محتويات، أو إشارة إلى تمثيل رسومي للمحتوى، أو‬ ‫نص حر يصف المحتوى، ولكنه ل يقتصر على ذلك فقط.‬ ‫مصدر ‪ :Source‬إشارة إلى مصدر استمد منه المصدر الحالي،قد يستمد‬ ‫‪‬‬ ‫المصدر الحالي كليا أو جزئيا من مصدر آخر، ويوصى عند تعريف‬ ‫المصدر استخدام رقم أو سلسلة أرقام تؤخذ من نظام رسمي لتحديد‬ ‫الهوية.‬
  • 47.
    ‫)تابع(‬ ‫عناصر المحتوى‬ ‫لغة ‪ :Language‬لغة المحتوى الفكري للمصدر، ويوصى باستخدام‬ ‫‪‬‬ ‫المواصفة الدولية 936‪ ISO‬التي تستخدم حرفين أو ثلثة حروف‬ ‫لتيجان اللغة. ومثال ذلك " ‪ "EN‬أو " ‪ "Eng‬للغة النجليزية، و" ‪"Akk‬‬ ‫للغة الكادية، و" ‪ "EN-GB‬للغة النجليزية المستخدمة في المملكة‬ ‫المتحدة.‬ ‫علقة ‪ :Relation‬إشارة إلى مصدر ذي علقة أو ارتباط، ويوصى عند‬ ‫‪‬‬ ‫تعريف المصدر استخدام رقم أو سلسلة تؤخذ من نظام رسمي لتحديد‬ ‫الهوية.‬ ‫تغطية ‪ :Coverage‬المدى أو المجال لمحتوى المصدر، وتشتمل‬ ‫‪‬‬ ‫التغطية على حيز مكاني )اسم مكان، أو إحداثيات جغرافية(، أو فترة‬ ‫زمنية )مميز فترة، أو تاريخ، أو مدى تاريخي(، أو سلطة )مثل اسم كيان‬ ‫إداري(. ويوصى باختيار قيمة من قائمة مصطلحات مقيدة )مثل، مكنز‬ ‫السماء الجغرافية ] ‪ ( [TGN‬واستخدام أسماء الماكن أو الفترات‬ ‫الزمنية.‬
  • 48.
    ‫التوسيم والواسمات‬ ‫‪Tagging & tags‬‬
  • 49.
    ‫التعريف والمفهوم‬ ‫التوسيم مأتى للميتاداتا الموضوعية لنواع متعددة من مصادر الويب‬ ‫‪‬‬ ‫بواسطة الناس ؛ لغراض التنظيم والسترجاع التشاركي للمعلومات،‬ ‫دون قيود أو قواعد تطبيق معقدة،‬ ‫يمكن أن تتم بواسطة غير الخبراء، وأنها بديل غير مكلف للفهرسة‬ ‫‪‬‬ ‫التقليدية لمصادر النترنت. )فتحي عبدالهادي(‬ ‫الواسمة هي كلمة مفتاحية أو مصطلح غير هرمي يخصص لقطعة‬ ‫‪‬‬ ‫معلومات )مثل صورة رقمية، ملف كمبيوتر، روابط إنترنت مفضلة،‬ ‫الخ(. ويساعد هذا النوع من الميتاداتا في وصف مادة ما والعثور عليها‬ ‫مرة أخرى إما بواسطة التصفح أو البحث. وبشكل عام يتم اختيار‬ ‫الكلمات الدللية من جانب منشيء المادة أو من يقوم باستعرضها‬ ‫إعتمادا على النظام. وقد انتشر التوسيم بارتباطه بالجيل الثاني من‬ ‫الويب فهو خاصية مهمة للعديد من خدمات الويب 2. )‪(Wikipedia‬‬
  • 50.
    ‫التعريف والمفهوم )تابع(‬ ‫الواسمات أو الكلمات الدللية يمكن أن تعتمد على:‬ ‫‪‬‬ ‫الموضوع )مثل الطبخ، الميتاداتا(‬ ‫‪‬‬ ‫الشكل )مثل الصور، المدونات(‬ ‫‪‬‬ ‫الغرض )مثل التسليم، السفر(‬ ‫‪‬‬ ‫الوقت )مثل فبراير، الن، 9002، المستقبل(‬ ‫‪‬‬ ‫الفعال او الوضع )مثل تقرأ، تفرز، ملكي(‬ ‫‪‬‬ ‫ردود الفعال المؤثرة أو النقدية )مثل بارد، مؤلف أكاديمي(‬ ‫‪‬‬
  • 51.
    ‫‪ ‬لماذا ننشئالواسمات..؟‬ ‫لتنظيم المعلومات‬ ‫‪‬‬ ‫لدعم عملية البحث‬ ‫‪‬‬ ‫لجيجاد نفس الواسمات فيما بعد‬ ‫‪‬‬ ‫لستكشاف الموقع ومشاركتها مع الرخرجين‬ ‫‪‬‬ ‫لتنظيم مجموعة ضخمة في فئات تتناغم مع النموذج العقلي للمستفيد..‬ ‫‪‬‬ ‫لكشفها علنا/إظهارها وزجيادة استخدامها‬ ‫‪‬‬ ‫للستفادة من الوظيفية/المكانية المتاحة‬ ‫‪‬‬ ‫طرجيقة للتعبير عن آراءهم‬ ‫‪‬‬ ‫للعب لعبة..‬ ‫‪‬‬
  • 52.
    ‫أنواع التوسيم‬ ‫توسيم الجمهور ‪:public tagging‬‬ ‫‪‬‬ ‫فيه يسمح لزائري الموقع إضافة وإدراة واسمات المحتوى الخاص بهم.‬ ‫‪‬‬ ‫وبال مقارنة بالتبويب التقليدي وغيرها من أساليب التكشيف؛ فإن التوسيم العام‬ ‫يسمح للزائرين حرية الختيار للكلمات الدللية/المفتاحية لوصف المحتوى، ب‬ ‫معنى أن المستفيدين من المحتوى هم الذين يحددون مدى ارتباطها أو صلتها‬ ‫‪‬‬ ‫بالموضوع، مثل مواقع المفضلت الجتماعية )مثل ,‪Digg.com‬‬ ‫‪.(Del.icio.us‬‬ ‫عندما يقوم المستفيدين بتعيين واسمات ذات صلة بالمحتوى أو الرابط الذي تم‬ ‫‪‬‬ ‫إرساله أو تحميله للموقع؛ بعدها يمكن للمستفيدين الخرين البحث بهذه‬ ‫الواسمات للعثور على المحتوى. ومن ثم فإنه عند القيام بعملية بحث يكون‬ ‫العتماد على توسيم مستخدمي المحتوى واتفاقهم على ارتباط الواسمات‬ ‫المستخدمة بالمحتوى، أفضل من العتماد فقط على الواسمات التي وضعها‬ ‫منشيء أو ناشر المحتوى.‬
  • 53.
    ‫أنواع التوسيم‬ ‫توسيم الناشر ‪:publisher tagging‬‬ ‫‪‬‬ ‫يختلف عن النوع الول فقط في أن منشيء أو ناشر المحتوى هو فقط من‬ ‫‪‬‬ ‫يقوم بوضع الواسمات أو الكلمات الدللية، ول يسمح لغيره من المستفيدين‬ ‫بإضافتها أو إنشاءها.‬ ‫يعد موقع فليكر ‪ Flicker‬لمشاركة الصور من أكثر المثلة على هذا النوع، حيث‬ ‫‪‬‬ ‫يمك ن للشخص الذي يقوم بمشاركة الصور من توسيم كل منها بسلسلة من‬ ‫الكلمات المفتاحية أو الدللية، بحيث يمكن بعدها لمستخدمي الموقع البحث عن‬ ‫الصور اعتماداعلى تلك الواسمات المصاغة من قبل ناشري الصور.‬
  • 54.
    ‫توسيم الناشر‬ ‫توسيم الناشر‬ ‫توسيم الجمهور‬ ‫توسيم الجمهور‬
  • 55.
    ‫نموذج نظم التوسيم‪Tagging Systems Model‬‬ ‫ممحممم ”مممممميث“ أن النموذج‬ ‫س‬ ‫أوض‬ ‫‪‬‬ ‫مامممسي ممممم التوسيم يتكون‬ ‫لنظ‬ ‫الس‬ ‫مستفيد‬ ‫من ثلثة عناصر، هي: المستفيد،‬ ‫والمصادر، والواسمات.‬ ‫ممامممدر هي الكيانات المراد‬ ‫المص‬ ‫‪‬‬ ‫توسيمها.‬ ‫مصادر‬ ‫الواسمات هي الكلمات المفتاحية‬ ‫‪‬‬ ‫أو الدللية‬ ‫تحدد نظم التوسيم:‬ ‫‪‬‬ ‫واسمات‬ ‫من يقوم بعملية التوسيم‬ ‫‪‬‬ ‫ما الذي يمكن توسيمه‬ ‫‪‬‬ ‫ما نوع الواسمات/الكلمات الدللية التي‬ ‫‪‬‬ ‫يمكن استخدامها‬
  • 56.
    ‫العيوب‬ ‫التضليل في صياغة الواسمات لضمان الوصول للمصدر.‬ ‫‪‬‬ ‫استخدام الواسمات غير ذات دللة أو الغامضة )مثل أنا كئيب،‬ ‫‪‬‬ ‫5، ‪ ،(zzzzzzz‬ومن ثم ل تكون واصفة للمواد التي تحويها.‬ ‫عدم وجود لغة مقيدة للواسمات يجعل من الصعوبة الوصول لجميع‬ ‫‪‬‬ ‫المواد أو البحث عنها.‬
  • 57.
    ‫سحب/حشود الواسمات ‪tagcloud‬‬ ‫هي عبارة عن تمثيلت مرئية للتيجان؛ تستهدف في الساس التمثيل‬ ‫‪‬‬ ‫المرئي لمعدلت تكرار أو شدة الستخدام لتيجان بعينها، مما يدلل‬ ‫على أهميتها النسبية قياسا بغيرها من التيجان.‬
  • 61.
  • 62.
    ‫المفهوم والمصطلح‬ ‫يرجع ظهور مصطلح ”‪ “Folksonomy‬إلى مقال لـ ”توماس فاندر“ ‪Thomas‬‬ ‫‪‬‬ ‫‪ Vander‬عام 4002 ؛ للتعبير عن تصنيف يبتكره المستخدمون, ويتكون المصطلح من‬ ‫المزج بين مصطلحين: الناس/البشر ”‪ ،“Folk‬والتصنيف ”‪.“Taxonomy‬‬ ‫الفوكسونومي هو نظام منشا بواسطة المستفيد ‪ User-generated‬يسمح بتوسيم‬ ‫نُ‬ ‫‪‬‬ ‫مصادرهم الرقمية المفضلة باستخدام كلمات أو جمل اللغة الطبيعية التي يخترونها.‬ ‫الفوكسونومي هو ممارسة لمنهجية تعاونية في إنشاء وإدارة الواسمات لشرح أو توضيح‬ ‫‪‬‬ ‫‪ annotate‬وتبويب ‪ categorize‬المحتوى.‬ ‫الفوكسونومي هو ناتج التوسيم الحر للمعلومات والكيانات على الويب )أى شئ له عنوان‬ ‫‪‬‬ ‫موحد للمصدر ‪ (URL‬بواسطة المستفيد ولرغراضه السترجاعية.‬ ‫الفوكسونومي هو تعبير عن محتوى الويب من خلل المستخدمين رغير المهنيين، على أن‬ ‫‪‬‬ ‫يكون هذا التنظيم وفق رؤيتهم من خلل تأثرهم بالثقافة والمجتمع واللغة وأشياء أخرى كثيرة،‬ ‫على أن يتم استرجاع المحتوى بنفس طريقة التنظيم.‬
  • 64.
    ‫عناصر الفوكسونومي‬ ‫تتمثل مقومات إنشاء الفوكسونومي في ثلثة‬ ‫‪‬‬ ‫عناصر رئيسية: المصادر، والمستفيديون،‬ ‫والواسمات )الكلمات الدللية/الدالة(‬ ‫يضاف إلى العناصر السابقة تطوير بيئة تعاونية‬ ‫‪‬‬ ‫مبنية على الويب )الجيل الثاني من الويب ‪web‬‬ ‫0.2(.‬ ‫يتولى المستفيدون مهمة صيانة هذا التصنيف من‬ ‫‪‬‬ ‫خلل إضافتهم للمزيد من الواسمات‬
  • 65.
    ‫الونواع‬ ‫الفوكسونومي العريض ‪Broad Folksonomy‬‬ ‫)1‬ ‫وهو التصنيف الذى من خلله يتمكن عدد من المستفيدين من أن يضعوا الرمز أو‬ ‫‪‬‬ ‫الكلمة الدللية المناسبة من وجهة نظرهم كما هو الحال فى دليشيز )الشكل(‬ ‫يستخدم كأداة لكشف اتجاهات مجموعة من المستخدمين أثناء وضعهم لعنصر أو وثيقة‬ ‫‪‬‬ ‫واحدة، بحيث يمكن بعد ذلك استخدام تلك القائمة التى وضعت لختيار أفضل‬ ‫نُ‬ ‫المصطلحات للتعبير عن ذلك المحتوى.‬ ‫الفوكسونومي الضيق ‪Narrow Folksonomy‬‬ ‫)1‬ ‫فيه يمكن للمستفيد أن يحدد رموزا لسهاماته فقط ويتم وضعها مرة واحدة فقط، ول‬ ‫اً‬ ‫‪‬‬ ‫يمكن لمستفيد آخر من توسيم تلك السهامات.‬ ‫الفرق الجوهري بين النوعين في من يضع الكلمات الدللية؛ ففي الفوكسونومي الضيق‬ ‫‪‬‬ ‫يقتصر وضع الواسمات )الكلمات الدللية( على المستخدم الذي رفع المحتوى إلى‬ ‫الموقع فقط دون رغيره، والعكس في الفوكسونومي العريض حيث يسمح للمستخدمين‬ ‫جميعا بوضع واسمات للمحتوى.‬
  • 66.
  • 67.
    ‫المزايا‬ ‫الشمولية: فهو ي عكس المفردات المستخدمة من جانب المستفيدين، وهو بذلك يمكن أن‬ ‫‪‬‬ ‫يوصف بأنه أكثر ديمقراطية مقارنة بالنظم الخرى التى تعتمد على اللغات المقيدة. حيث‬ ‫يقدم هذا السلوب الفرصة لكل مستفيد للتعبير عن المحتوى الموضوعى بطريقته‬ ‫الخاصة، والسماح بمشاركة رغيره من المستفيدين فى الرموز الموضوعة للتعبير عن وثيقة‬ ‫واحدة.‬ ‫الملئمة والتساع: يمكن من خلل الفوكسونومي أن يتسع للمظاهر الجديدة فى مجال‬ ‫‪‬‬ ‫معين أو لموضوع معين.‬ ‫يعكس فعليا المصطلحات التي يتم استخدامها من قبل الفراد المستخدمين لمصادر‬ ‫بِ‬ ‫‪‬‬ ‫المعلومات.‬ ‫يعتبر بداية لتصميم نظام )مكنز(، حيث يعتبر نواة لبداية العمل على التنقيح والستبعاد‬ ‫‪‬‬ ‫لتكوين مكنز جيد.‬
  • 68.
    ‫المزايا‬ ‫المصطلحات التي يستخدمهاالفراد قد تكون أكثر حداثة مقارنة بالمهنيين، وقد يرجع ذلك‬ ‫‪‬‬ ‫لمتابعتهم المستمرة لكل ما يضاف من مصادر وما يستحدث من مصطلحات في مجال‬ ‫اهتماماتهم.‬ ‫إمكانية إضافة العديد من المصطلحات للتعبير عن مصدر واحد.‬ ‫‪‬‬ ‫عدم وجود مصطلحات أو كلمات دالة يعتمد عليها هذا النوع من التصنيف؛ ومن ثم فيمكن‬ ‫‪‬‬ ‫لى مستفيد أن يضع الرموز التى يراها مناسبة من وجهة نظره، وقد تكون مناسبة بالفعل‬ ‫وقد ل تكون.‬ ‫إمكانية استخدام المستخدم للغته الخاصة التي يمكن بها وصف المعلومات بكلمات تعكس‬ ‫‪‬‬ ‫ثقافته.‬ ‫إمكانية استخدام المستخدم لمصطلحات ذات معاني معينة تعكس مدى اهتمامه بالموضوع.‬ ‫‪‬‬ ‫المشاركة الموضوعية عن طريق تجميع الهتمامات الخاصة بالمستخدمين كلهم وإتاحة‬ ‫‪‬‬ ‫المصادر المتعلقة بهذا الهتمام.‬
  • 69.
    ‫المزايا‬ ‫عدم وجود الهرميةفي التنظيم؛ وبالتالي ل يحتاج المستخدم أن يكون ملما بنظام تصنيف‬ ‫‪‬‬ ‫معين ليتصفح الموقع، حيث ل يحتاج إلى فهم المصطلحات وإيجاد الروابط المختلفة أو‬ ‫حتى محاولة التفكير في أي رأس موضوع يندرج تحته استفساره.‬ ‫سهولة وضع الواصفات أو المصطلحات دون الحاجة إلى التدريب على التصنيف أو‬ ‫‪‬‬ ‫التكشيف.‬ ‫استخدام المصطلحات الكثر استخداما )شائعة( كمصطلحات واصفة للمعلومات مما‬ ‫‪‬‬ ‫يساعد على سهولة استرجاعها بالطريقة الشائعة لغير المهنيين.‬ ‫من السهل إدراج أي واصفات جديدة وتغييرها أو تحديثها.‬ ‫‪‬‬
  • 70.
    ‫الونتقادات‬ ‫نقص الدقة: رغيابالضبط يسمح لمستخدمي الموقع تحديد أو وضع الكلمات التى تعبر‬ ‫‪‬‬ ‫عن المحتوى الموضوعى لوثيقة ما، وعلى ذلك فيمكن أن نجد أشكال مختلفة للكلمة‬ ‫الواحدة، صيغة المفرد والجمع للسماء، الختصارات؛ وذلك لتباين ثقافات الفراد‬ ‫ومستوياتهم.‬ ‫التصنيف الحر ل يشتمل على دليل للستخدام أو ملحظات توضيحية.‬ ‫‪‬‬ ‫ينتج عنه عدد من مشكلت استكشاف العلقات بين الكلمات الدللية؛ كنتيجة طبيعية‬ ‫‪‬‬ ‫لتفاوت طبيعية مستوى الكلمات المستخدمة للتعبير عن المحتوى ما بين مصطلحات‬ ‫رغاية فى العمومية إلى مصطلحات رغاية فى التخصيص.‬ ‫صعوبة السترجاع في بعض الحيان؛ فالشخص الذي يبحث عن موضوع معين يجب‬ ‫‪‬‬ ‫عليه أن يكون على دراية بثقافة الخرين؛ حتى يتمكن من البحث بالمصطلح الذي أتى‬ ‫به بعض الشخاص الواضعين للواصفات من قبلهم.‬ ‫بِ‬
  • 71.
    ‫الونتقادات‬ ‫الغموض والختلف في المعاني بجانب كثرة المرادفات من حيث إعطاء أكثر من‬ ‫‪‬‬ ‫مسمى )مصطلح( لمعنى واحد.‬ ‫تعدد استخدام الشكال لرصد المحتوى، حيث هناك من يضع )كلمة واحدة( لوصف‬ ‫‪‬‬ ‫المحتوى وهناك من يضع )شبه جملة( أو )جملة كاملة(.‬ ‫تشابه بعض المصطلحات في طريقة الكتابة مع اختلف المعنى، مثال: المغرب )دولة(،‬ ‫‪‬‬ ‫المغرب )صلة(، المغرب )جهة الغرب(.‬ ‫اختلف التعبير عن المصطلحات فهناك من يعبر )بالصيغة المفردة(، وهناك من يعبر‬ ‫‪‬‬ ‫)بالصيغة الجمع(.‬ ‫عدم وجود رقابة من قبل المسئولين عن الموقع على الواصفات التي يتم وضعها من قبل‬ ‫بِ‬ ‫نُ‬ ‫‪‬‬ ‫المستخدمين مما يؤدى إلى وجود بعض اللفاظ الخارجة.‬ ‫استخدام مصطلحات رغير لغوية من قبل فئة معينة من المستخدمين.‬ ‫بِ‬ ‫‪‬‬
  • 72.
    ‫الونتقادات‬ ‫استخدام أكثر من لغة واحدة للتعبير عن المحتوى.‬ ‫‪‬‬ ‫استخدام البعض للكلمات الخاصة أو الضمائر، مثال: كلبي – كلب.‬ ‫‪‬‬ ‫استخدام الكثير من العلمات التي تعيق عملية السترجاع، مثـال: & - % -.‬ ‫‪‬‬ ‫استخدام المصطلحات العامية كواصفات.‬ ‫‪‬‬
  • 73.
    ‫مزيد من المعلومات.. قراءات .. مصادر‬ .2000 ،‫حشمت قاسم . مدخل لدراسة التكشيف والستخلص.ـ القاهرة: دار غريب‬   Larson and Hearst’s slides, at UC-Berkeley. http://www.sims.berkeley.edu/courses/is202/f00/  Wolfgang Hürst (2006). Web Search, Albert-Ludwigs-University Freiburg, Germany, Summer Term  Zdravko Markov and Daniel T. Larose, Data Mining the Web: Uncovering Patterns in Web Content, Structure, and Usage, Wiley, 2007. Slides for Chapter 1: Information Retrieval an Web Search  K.T. Anuradha. Search Engines for Intranets. National Centre for Science Information (NCSI), Indian Institute of Science, Bangalore  Dragomir R. Radev. Search Engine Technology ‫خالد عبد الفتاح . تحليل وفرز النتائج في محركات بحث الشبكة العنكبوتية. في: مؤتمر محركات البحث‬  .2005 ‫على النترنت، شرم الشيخ، فبراير‬ ‫مؤمن سيد النشرتي. التحديات التي تواجه خوارزميات محركات البحث في استرجاع المحتوى العربي على‬  .(2012 ‫.- ع 92 )سبتمبر‬Cybrarians Journal -.‫الشبكة العنكبوتية العالمية دراسة مسحية تحليلية‬
  • 74.
    ‫محمد فتحي عبدالهادي. التجاهات الحديثة في التحليل الموضوعي للمعلومات وموقف قطاع‬ ‫‪‬‬ ‫المعلومات العربي منها. في: مؤتمر التحاد العربي للمكتبات والمعلومات، المغرب، 9002.‬ ‫شريف كامل شاهين. التجاهات الحديثة في التحليل الموضوعي .ـ مجلة المكتبات والمعلومات العربية،‬ ‫‪‬‬ ‫س42 ، ع2)4002(. ص 5-14.‬ ‫‪‬‬ ‫:‪Smith, Gene. Tagging: People-Powered Metadata for the Social Web.- Berkeley, California‬‬ ‫8002,‪New Riders‬‬ ‫‪‬‬ ‫‪Getting, B. (2007). What Are “Tags” And What Is “Tagging?”. Retrieved 5 2, 2011, from‬‬ ‫-‪http://www.practicalecommerce.com/articles/589-What-Are-Tags-And-What-Is-Tagging‬‬

Editor's Notes

  • #61 Margaret Maurer OPAL Conference, August 2008 http://www.personal.kent.edu/~mbmaurer