‫الحاسوبية‬ ‫المدونة‬ ‫لغويات‬:‫مستقل؟‬ ‫علم‬ ‫هو‬ ‫هل‬
‫د‬.‫المجي‬ ‫ناصر‬ ‫بن‬ ‫سلطان‬‫ول‬
‫اآلداب‬ ‫كلية‬-‫العربية‬ ‫اللغة‬ ‫قسم‬
‫الحاسوبية؟‬ ‫المدونة‬ ‫لغويات‬ ‫ما‬
‫علم‬ ‫هو‬ ‫هل‬‫وعلوم‬ ‫الحاسوب‬ ‫علم‬ ‫بين‬ ‫منهج‬ ‫أو‬ ‫مستقل‬‫اللغة؟‬
‫الحاسوبية‬ ‫المدونة‬ ‫لغويات‬ ‫في‬ ‫اللغة‬ ‫نواقل‬ ‫صيغ‬
‫البيانات‬ ‫جمع‬ ‫نظم‬
‫المتقدمة‬ ‫التوسيمات‬(‫التحشية‬)
‫اللغة‬ ‫وبين‬ ‫الحاسب‬ ‫بين‬ ‫اللغوي‬ ‫التصاحب‬
‫الحاسوبية‬ ‫المدونة‬ ‫لغويات‬ ‫في‬ ‫اإلحصاء‬
‫و‬ ‫التامة‬ ‫التعليلية‬‫والتماثلية‬ ‫الدحضية‬
‫حاجة‬‫الحاسوبيين‬ ‫مساعدة‬ ‫إلى‬ ‫اللغويين‬(‫البحثي‬ ‫المنهج‬ ‫إزاء‬ ‫البحثي‬ ‫التطور‬)
‫علم‬ ‫هو‬ ‫هل‬‫مستقل‬‫أم‬‫وعلوم‬ ‫الحاسوب‬ ‫علم‬ ‫بين‬ ‫منهج‬‫اللغة؟‬
‫على‬ ‫يعتمد‬ ‫اآللي‬ ‫اللغوي‬ ‫البحثي‬ ‫لمنهج‬ ‫يعتمد‬
‫إذن‬:‫منهجين‬ ‫من‬ ‫ومنهج‬ ،‫علمين‬ ‫من‬ ‫علم‬ ‫هو‬(‫وهاردي‬ ‫ماكنري‬2012)
‫ولكن‬:‫ماهي؟‬ ‫به؛‬ ‫خاصة‬ ‫وفرضيات‬ ‫نظريات‬ ‫أيضا‬ ‫له‬
‫التعليلية‬accountability‫والدحضية‬falsifiability‫والتماثلية‬
replicability
‫وتحشيتها‬ ‫وتوسيمها‬ ‫النصوص‬ ‫جمع‬ ‫أدوات‬
‫السياق‬ ‫ومكشافات‬ ‫التكرار‬ ‫لبيانات‬ ‫ومعالجتها‬
‫والتطبيقية‬ ‫النظرية‬ ‫اللغوية‬ ‫النظريات‬
‫نواقل‬ ‫صيغ‬‫الحاسوبية‬ ‫المدونة‬ ‫لغويات‬ ‫في‬ ‫اللغة‬
‫أوال‬:‫ال‬‫ل‬ّ‫ث‬‫م‬ُ‫ت‬‫المدونة‬‫الحاسوبية‬‫اللغة‬‫المكتوبة‬‫فقط؛‬‫بل‬‫تمثل‬‫أ‬‫يضا‬:
‫اللغة‬‫المنطوقة‬‫مثل‬‫الجزء‬‫المنطوق‬‫في‬BNC‫و‬COLT
‫اللغة‬‫المرئية‬(‫اإليماءات‬)(Knight et al 2009)
‫اللغة‬‫اإلشارية‬(Crasborn 2008)
‫ثانيا‬:‫المدونة‬‫المكتوبة‬‫أسهل‬‫المدونات‬‫في‬‫البناء‬‫والتصميم‬
‫جمع‬ ‫نظم‬‫البيانات‬
‫المدونة‬‫الراصدة‬monitor corpus
‫المدونة‬‫النفعية‬opportunistic corpus
‫الويب‬‫بوصفه‬‫مدونة‬the Web as corpus
‫مدونة‬‫العينة‬sample corpus(‫زمن‬‫واحد‬)
‫المدونة‬‫اللحظية‬snapshot corpus(‫أزمنة‬‫مختلفة‬)
‫االتزان‬balance‫والتمثيلية‬representativeness‫والتقابلية‬
comparability
‫المدونة‬ ‫بيانات‬ ‫جمع‬ ‫نظم‬ ‫أنواع‬ ‫من‬ ‫نوع‬ ‫كل‬ ‫في‬ ‫االتجاهات‬ ‫هذه‬ ‫تتفاوت‬
‫االتزان‬/‫التمثيلية‬/‫التقابلية‬
‫الراصدة‬/‫النفعية‬/‫الويب‬/‫العينة‬/‫اللحظية‬
‫المتقدمة‬ ‫التوسيمات‬(‫التحشية‬)annotation
•‫يقتصر‬‫التوسيم‬‫اآللي‬automated tagging‫على‬‫أقسام‬‫الكالم‬part-of-
speech‫ويعرف‬‫بـ‬POS tagging.
•‫التوسيم‬‫اليدوي‬‫من‬‫أصعب‬‫أنواع‬،‫التوسيمات‬‫ويتضمن‬‫توسيمات‬‫وتحشيات‬
‫متقدمة‬:
‫البيانات‬
‫الوصفية‬
‫محلل‬
‫االتساق‬
‫النحوي‬
‫التعلق‬ ‫محلل‬
‫النحوي‬
‫واسمات‬
‫أقسام‬‫الكالم‬
‫واسمات‬
‫داللية‬
‫نظام‬‫ثانوي‬
‫ملحق‬
‫اللغة‬/‫الجنس‬/
‫العمر‬/‫التعليم‬
‫الطبقة‬
‫االجتماعية‬/
‫التعليم‬/‫المهنة‬/
‫إلخ‬.
‫النظمية‬ ‫التراكيب‬
syntagmatic
structures
‫القيود‬ ‫نحو‬ ‫نظام‬
constraint
grammar
‫اآللي‬ ‫التوسيم‬
‫اليدو‬ ‫والتوسيم‬‫ي‬
automated
and manual
tagging
‫رميز‬‫للكلمة‬
‫حيث‬ ‫من‬:
‫الداللي‬ ‫الصنف‬
semantic
category
‫والعالقة‬
relation3
‫دات‬َّ‫المجر‬
lemmatisers
‫الصرفية‬ ‫والمجذعات‬
morphological
stemmers
‫العربية‬ ‫للغة‬ ‫التوسيمات‬ ‫جهود‬
‫ملحوظة‬:‫ب‬ ‫في‬ ‫زالت‬ ‫وما‬ ‫النحو‬ ‫في‬ ‫وتسعى‬ ‫بالصرف‬ ‫اهتمت‬ ‫األعمال‬ ‫معظم‬‫داية‬
‫التركيب‬ ‫في‬ ‫الطريق‬
•‫مدونة‬‫القرآن‬‫الكريم‬(‫ليدز‬).
•‫أرابيكوربس‬arabiCorpus.
•‫كاتب‬CATiB(‫ستة‬‫وسوم‬).
•‫البنك‬‫الشجري‬‫العربي‬.
•‫الذخيرة‬‫النصية‬‫اللغوية‬‫للفصحى‬.
•‫ستانفورد‬.
•‫مدى‬MADA.
‫العربية‬ ‫اللغة‬ ‫في‬ ‫النحوي‬ ‫التوسيم‬ ‫واقع‬
‫نلخص‬‫نطاق‬‫المعالجات‬‫المعجمية‬‫والنحوية‬‫والتوسيمات‬‫للمدونات‬‫العرب‬‫ية‬‫على‬
‫مستوى‬‫الكلمة‬word‫والواسم‬tag‫كما‬‫يلي‬:
‫القرآن‬‫الكريم‬‫ستانفورد‬‫مدى‬‫النصية‬ ‫الذخيرة‬
NPCAUSINC
JJPRP$CC
nounpronpart_futinterj
NVAVRPREV
PNEMPHCERTINT
ADJWPFW
noun_numpron_dempart_interrogdigit
PNPCAUSPRO
ADJIMPVCIRCINTG
DTJJVBDIN
noun_quantpron_exclampart_neglatin
IMPNEMPHCERTREM
IMPNPRPCOMNEG
DTJJRVBNRP
noun_proppron_interrogpart_restrict
PRONIMPVCONDRES
PRONCONJCONDPREV
JJRVBPUH
adjpron_relpart_verb
DEMPRPEQRET
DEMSUBEQPRO
RBVBPUNC
adj_compverbpart_voc
RELCONJEXHSUP
RELACCEXHREM
WRBDTNNSVBG
adj_numverb_pseudoPrep
ADJSUBEXLSUR
TAMDEXLRES
CDNOUNNN
advpartAbbrev
NUMACCEXPVOC
LOCANSEXPRET
DTVNNNS
adv_interrogpart_detPunc
TAMDFUT
V
AVRFUTRSLT
PRPNNPDTNN
adv_relpart_focusConj
LOCANSINC
SUPSUPSUPSUP
NNPSNNPSNNPS
conj_subconj_subconj_sub
INLINTGNEG
‫التركيبي‬ ‫الصرفي‬ ‫على‬ ‫القائم‬ ‫التوسيم‬morpho-syntactic tagging
‫باكولتر‬ ‫محلالت‬Buckwalter
‫و‬ ،‫ومدى‬ ،‫وستانفورد‬ ،‫الكريم‬ ‫القرآن‬ ‫وواسمات‬ ‫الشجري‬ ‫العربي‬ ‫البنك‬ ‫بين‬ ‫الفرق‬ ‫ما‬‫الذخيرة‬
‫النصية؟‬
‫مد‬ ‫أي‬ ‫إلى‬‫الدقة‬ ‫تحقيق‬ ‫مكن‬ُ‫ي‬ ‫ى‬accuracy‫والضبط‬precision‫واالسترداد‬recall
‫وبين‬ ‫الحاسب‬ ‫بين‬ ‫اللغوي‬ ‫التصاحب‬‫اللغة‬
‫اللغة‬ ‫في‬ ‫التصاحب‬‫الحاسوبية‬ ‫المدونة‬ ‫في‬ ‫التصاحب‬
‫الجملة‬
‫الحر‬
‫المقيد‬
‫المتسلسل‬ ‫المباشر‬ ‫التصاحب‬
‫النص‬:‫اللفظ‬ ‫التتابع‬(‫النغرامية‬)N-gram
‫النمط‬pattern(Firth 1957)
‫موضوع‬‫المدى‬position span(Sinclair
2004)
‫التركيبي‬ ‫التصاحب‬collostruction(Gries
2010)
‫والواسم‬ ‫الكلمة‬ ‫بين‬ ‫التصاحبات‬ ‫في‬ ‫البحث‬
‫الجدد‬ ‫الفيرثيون‬neo-Firthian‫في‬ ‫اللغويين‬ ‫كل‬‫المدونة‬
‫البحث‬‫األنماط‬ ‫عن‬
‫الموسومة‬ ‫المدونات‬ ‫عن‬ ‫االبتعاد‬
‫الواسمات‬ ‫بواسطة‬ ‫التصاحب‬ ‫عن‬ ‫البحث‬ ‫عدم‬
‫بالضمن‬ ‫البحث‬within and containing
(‫العبارة‬ ‫أو‬ ‫بالكلمة‬)
‫باالتحاد‬ ‫البحث‬meet and union
(‫بالواسم‬)
‫المدونة‬ ‫لغويات‬ ‫في‬ ‫اإلحصاء‬‫الحاسوبية‬(Oakes 1998)
‫التوصيفية‬‫العنقودية‬‫التصاحبية‬
‫النسبي‬ ‫التكرار‬relative‫أو‬
‫المعاير‬normalizedn𝑓
(‫التكرار‬/‫المدونة‬ ‫حجم‬)×‫أساس‬
‫المعايرة‬(1000‫أو‬ ‫ألف‬ ‫لكل‬
‫مليون‬ ‫لكل‬ ‫مليون‬)
‫الفع‬ ‫على‬ ‫النوعية‬ ‫الكلمة‬ ‫نسبة‬‫لية‬
type-token ratio
(type/token)
‫الرئيسة‬ ‫المدونة‬>‫المدونة‬
‫المرجعية‬
‫فهرسة‬‫المستند‬document
indexing
‫المستند‬ ‫عنقدة‬document
clustering
‫األساسية‬ ‫المكونات‬ ‫حليل‬
principal components
analysis
‫العامل‬ ‫تحليل‬factor analysis
‫كاي‬ ‫مربع‬chi-square(‫داللة‬
‫من‬1>0.5/0.01/0.001
‫اللوجارثمية‬ ‫رجحية‬َ‫أل‬‫ا‬log-
likelihood
‫دايس‬ ‫اللوج‬log-Dice(14)
‫الدايس‬(‫صغرى‬ ‫قيم‬)
‫المتبادلة‬ ‫المعلومات‬Mutual
Information(‫من‬ ‫أكثر‬3)
‫وغيرها‬:t-score/z-score/
Fisher
‫الدح‬ ‫البيانات‬ ‫اختيار‬ ‫مقابل‬ ‫في‬ ‫التامة‬ ‫التعليلية‬‫ضية‬
‫والتماثلية‬
‫حاسوبي‬ ‫مدوني‬ ‫لغوي‬ ‫بحث‬ ‫ألي‬ ‫الركائز‬ ‫أهم‬ ‫من‬ ‫المراحل‬ ‫هذه‬ ‫تعد‬
‫الدحضية‬falsifiability
‫التماثلية‬replicability
‫التعليلية‬‫التامة‬total
accountability
‫لماذا‬‫النتائج‬ ‫وما‬ ‫اإلحصاءات؟‬ ‫تلك‬ ‫ولماذا‬ ‫نوعها؟‬ ‫وما‬ ‫معت؟‬ُ‫ج‬ ‫وكيف‬ ‫المدونة؟‬ ‫هذه‬‫متاحة؟‬ ‫هي‬ ‫هل‬ ‫؟‬
‫الحاسوبيين‬ ‫مساعدة‬ ‫إلى‬ ‫اللغويين‬ ‫حاجة‬
(‫اللغوي‬ ‫البحثي‬ ‫التطور‬‫المنهج‬ ‫إزاء‬‫التقليدي‬ ‫البحثي‬)
‫تطور‬‫البحث‬‫اللغوي‬‫العربي‬‫مرهون‬‫بتطور‬‫المدونات‬‫العربية‬‫الحاسوبية‬‫وأدوات‬‫ها‬.
‫فتحت‬‫لغويات‬‫المدونة‬‫الحاسوبية‬‫مجال‬‫التطور‬‫البحثي‬‫اللغوي‬‫على‬‫مستويات‬‫ع‬‫دة‬:‫نحوية‬
‫ونصية‬‫ومعجمية‬‫إلخ‬.
‫معرفة‬‫أدوات‬‫المدونة‬‫الحاسوبية‬‫وأنواعها‬‫وبنائها‬‫من‬‫حيث‬‫التصميم‬‫والغرض‬‫إلى‬‫ج‬‫انب‬
‫األدوات‬‫واإلحصاء‬‫مهمة‬‫ًا‬‫د‬‫ج‬‫لخوض‬‫غمار‬‫البحث‬‫اللغوي‬‫اآللي‬‫المتشعب‬.
‫الدقة‬‫العالية‬‫في‬‫رصد‬‫النتائج‬‫اللغوية‬‫من‬‫النصوص‬.
‫كل‬‫ما‬‫ذكر‬‫سبيله‬‫االستعانة‬‫والتدريب‬‫مع‬‫الحاسوبي‬‫المهتم‬‫بمعالجة‬‫اللغة‬‫والمد‬‫ونة‬‫اللغوية‬.
‫العرض‬ ‫نهاية‬
‫لـ‬ ‫الشكر‬ ‫بجزيل‬ ‫ّم‬‫د‬‫أتق‬
‫الموضوع‬ ‫هذا‬ ‫عن‬ ‫المشاركة‬ ‫فرصة‬ ‫إتاحتها‬ ‫على‬

لغويات المدونة الحاسوبية

  • 1.
    ‫الحاسوبية‬ ‫المدونة‬ ‫لغويات‬:‫مستقل؟‬‫علم‬ ‫هو‬ ‫هل‬ ‫د‬.‫المجي‬ ‫ناصر‬ ‫بن‬ ‫سلطان‬‫ول‬ ‫اآلداب‬ ‫كلية‬-‫العربية‬ ‫اللغة‬ ‫قسم‬
  • 2.
    ‫الحاسوبية؟‬ ‫المدونة‬ ‫لغويات‬‫ما‬ ‫علم‬ ‫هو‬ ‫هل‬‫وعلوم‬ ‫الحاسوب‬ ‫علم‬ ‫بين‬ ‫منهج‬ ‫أو‬ ‫مستقل‬‫اللغة؟‬ ‫الحاسوبية‬ ‫المدونة‬ ‫لغويات‬ ‫في‬ ‫اللغة‬ ‫نواقل‬ ‫صيغ‬ ‫البيانات‬ ‫جمع‬ ‫نظم‬ ‫المتقدمة‬ ‫التوسيمات‬(‫التحشية‬) ‫اللغة‬ ‫وبين‬ ‫الحاسب‬ ‫بين‬ ‫اللغوي‬ ‫التصاحب‬ ‫الحاسوبية‬ ‫المدونة‬ ‫لغويات‬ ‫في‬ ‫اإلحصاء‬ ‫و‬ ‫التامة‬ ‫التعليلية‬‫والتماثلية‬ ‫الدحضية‬ ‫حاجة‬‫الحاسوبيين‬ ‫مساعدة‬ ‫إلى‬ ‫اللغويين‬(‫البحثي‬ ‫المنهج‬ ‫إزاء‬ ‫البحثي‬ ‫التطور‬)
  • 3.
    ‫علم‬ ‫هو‬ ‫هل‬‫مستقل‬‫أم‬‫وعلوم‬‫الحاسوب‬ ‫علم‬ ‫بين‬ ‫منهج‬‫اللغة؟‬ ‫على‬ ‫يعتمد‬ ‫اآللي‬ ‫اللغوي‬ ‫البحثي‬ ‫لمنهج‬ ‫يعتمد‬ ‫إذن‬:‫منهجين‬ ‫من‬ ‫ومنهج‬ ،‫علمين‬ ‫من‬ ‫علم‬ ‫هو‬(‫وهاردي‬ ‫ماكنري‬2012) ‫ولكن‬:‫ماهي؟‬ ‫به؛‬ ‫خاصة‬ ‫وفرضيات‬ ‫نظريات‬ ‫أيضا‬ ‫له‬ ‫التعليلية‬accountability‫والدحضية‬falsifiability‫والتماثلية‬ replicability ‫وتحشيتها‬ ‫وتوسيمها‬ ‫النصوص‬ ‫جمع‬ ‫أدوات‬ ‫السياق‬ ‫ومكشافات‬ ‫التكرار‬ ‫لبيانات‬ ‫ومعالجتها‬ ‫والتطبيقية‬ ‫النظرية‬ ‫اللغوية‬ ‫النظريات‬
  • 4.
    ‫نواقل‬ ‫صيغ‬‫الحاسوبية‬ ‫المدونة‬‫لغويات‬ ‫في‬ ‫اللغة‬ ‫أوال‬:‫ال‬‫ل‬ّ‫ث‬‫م‬ُ‫ت‬‫المدونة‬‫الحاسوبية‬‫اللغة‬‫المكتوبة‬‫فقط؛‬‫بل‬‫تمثل‬‫أ‬‫يضا‬: ‫اللغة‬‫المنطوقة‬‫مثل‬‫الجزء‬‫المنطوق‬‫في‬BNC‫و‬COLT ‫اللغة‬‫المرئية‬(‫اإليماءات‬)(Knight et al 2009) ‫اللغة‬‫اإلشارية‬(Crasborn 2008) ‫ثانيا‬:‫المدونة‬‫المكتوبة‬‫أسهل‬‫المدونات‬‫في‬‫البناء‬‫والتصميم‬
  • 5.
    ‫جمع‬ ‫نظم‬‫البيانات‬ ‫المدونة‬‫الراصدة‬monitor corpus ‫المدونة‬‫النفعية‬opportunisticcorpus ‫الويب‬‫بوصفه‬‫مدونة‬the Web as corpus ‫مدونة‬‫العينة‬sample corpus(‫زمن‬‫واحد‬) ‫المدونة‬‫اللحظية‬snapshot corpus(‫أزمنة‬‫مختلفة‬)
  • 6.
    ‫االتزان‬balance‫والتمثيلية‬representativeness‫والتقابلية‬ comparability ‫المدونة‬ ‫بيانات‬ ‫جمع‬‫نظم‬ ‫أنواع‬ ‫من‬ ‫نوع‬ ‫كل‬ ‫في‬ ‫االتجاهات‬ ‫هذه‬ ‫تتفاوت‬ ‫االتزان‬/‫التمثيلية‬/‫التقابلية‬ ‫الراصدة‬/‫النفعية‬/‫الويب‬/‫العينة‬/‫اللحظية‬
  • 7.
    ‫المتقدمة‬ ‫التوسيمات‬(‫التحشية‬)annotation •‫يقتصر‬‫التوسيم‬‫اآللي‬automated tagging‫على‬‫أقسام‬‫الكالم‬part-of- speech‫ويعرف‬‫بـ‬POStagging. •‫التوسيم‬‫اليدوي‬‫من‬‫أصعب‬‫أنواع‬،‫التوسيمات‬‫ويتضمن‬‫توسيمات‬‫وتحشيات‬ ‫متقدمة‬: ‫البيانات‬ ‫الوصفية‬ ‫محلل‬ ‫االتساق‬ ‫النحوي‬ ‫التعلق‬ ‫محلل‬ ‫النحوي‬ ‫واسمات‬ ‫أقسام‬‫الكالم‬ ‫واسمات‬ ‫داللية‬ ‫نظام‬‫ثانوي‬ ‫ملحق‬ ‫اللغة‬/‫الجنس‬/ ‫العمر‬/‫التعليم‬ ‫الطبقة‬ ‫االجتماعية‬/ ‫التعليم‬/‫المهنة‬/ ‫إلخ‬. ‫النظمية‬ ‫التراكيب‬ syntagmatic structures ‫القيود‬ ‫نحو‬ ‫نظام‬ constraint grammar ‫اآللي‬ ‫التوسيم‬ ‫اليدو‬ ‫والتوسيم‬‫ي‬ automated and manual tagging ‫رميز‬‫للكلمة‬ ‫حيث‬ ‫من‬: ‫الداللي‬ ‫الصنف‬ semantic category ‫والعالقة‬ relation3 ‫دات‬َّ‫المجر‬ lemmatisers ‫الصرفية‬ ‫والمجذعات‬ morphological stemmers
  • 8.
    ‫العربية‬ ‫للغة‬ ‫التوسيمات‬‫جهود‬ ‫ملحوظة‬:‫ب‬ ‫في‬ ‫زالت‬ ‫وما‬ ‫النحو‬ ‫في‬ ‫وتسعى‬ ‫بالصرف‬ ‫اهتمت‬ ‫األعمال‬ ‫معظم‬‫داية‬ ‫التركيب‬ ‫في‬ ‫الطريق‬ •‫مدونة‬‫القرآن‬‫الكريم‬(‫ليدز‬). •‫أرابيكوربس‬arabiCorpus. •‫كاتب‬CATiB(‫ستة‬‫وسوم‬). •‫البنك‬‫الشجري‬‫العربي‬. •‫الذخيرة‬‫النصية‬‫اللغوية‬‫للفصحى‬. •‫ستانفورد‬. •‫مدى‬MADA.
  • 9.
    ‫العربية‬ ‫اللغة‬ ‫في‬‫النحوي‬ ‫التوسيم‬ ‫واقع‬ ‫نلخص‬‫نطاق‬‫المعالجات‬‫المعجمية‬‫والنحوية‬‫والتوسيمات‬‫للمدونات‬‫العرب‬‫ية‬‫على‬ ‫مستوى‬‫الكلمة‬word‫والواسم‬tag‫كما‬‫يلي‬: ‫القرآن‬‫الكريم‬‫ستانفورد‬‫مدى‬‫النصية‬ ‫الذخيرة‬ NPCAUSINC JJPRP$CC nounpronpart_futinterj NVAVRPREV PNEMPHCERTINT ADJWPFW noun_numpron_dempart_interrogdigit PNPCAUSPRO ADJIMPVCIRCINTG DTJJVBDIN noun_quantpron_exclampart_neglatin IMPNEMPHCERTREM IMPNPRPCOMNEG DTJJRVBNRP noun_proppron_interrogpart_restrict PRONIMPVCONDRES PRONCONJCONDPREV JJRVBPUH adjpron_relpart_verb DEMPRPEQRET DEMSUBEQPRO RBVBPUNC adj_compverbpart_voc RELCONJEXHSUP RELACCEXHREM WRBDTNNSVBG adj_numverb_pseudoPrep ADJSUBEXLSUR TAMDEXLRES CDNOUNNN advpartAbbrev NUMACCEXPVOC LOCANSEXPRET DTVNNNS adv_interrogpart_detPunc TAMDFUT V AVRFUTRSLT PRPNNPDTNN adv_relpart_focusConj LOCANSINC SUPSUPSUPSUP NNPSNNPSNNPS conj_subconj_subconj_sub INLINTGNEG
  • 10.
    ‫التركيبي‬ ‫الصرفي‬ ‫على‬‫القائم‬ ‫التوسيم‬morpho-syntactic tagging ‫باكولتر‬ ‫محلالت‬Buckwalter ‫و‬ ،‫ومدى‬ ،‫وستانفورد‬ ،‫الكريم‬ ‫القرآن‬ ‫وواسمات‬ ‫الشجري‬ ‫العربي‬ ‫البنك‬ ‫بين‬ ‫الفرق‬ ‫ما‬‫الذخيرة‬ ‫النصية؟‬ ‫مد‬ ‫أي‬ ‫إلى‬‫الدقة‬ ‫تحقيق‬ ‫مكن‬ُ‫ي‬ ‫ى‬accuracy‫والضبط‬precision‫واالسترداد‬recall
  • 11.
    ‫وبين‬ ‫الحاسب‬ ‫بين‬‫اللغوي‬ ‫التصاحب‬‫اللغة‬ ‫اللغة‬ ‫في‬ ‫التصاحب‬‫الحاسوبية‬ ‫المدونة‬ ‫في‬ ‫التصاحب‬ ‫الجملة‬ ‫الحر‬ ‫المقيد‬ ‫المتسلسل‬ ‫المباشر‬ ‫التصاحب‬ ‫النص‬:‫اللفظ‬ ‫التتابع‬(‫النغرامية‬)N-gram ‫النمط‬pattern(Firth 1957) ‫موضوع‬‫المدى‬position span(Sinclair 2004) ‫التركيبي‬ ‫التصاحب‬collostruction(Gries 2010)
  • 12.
    ‫والواسم‬ ‫الكلمة‬ ‫بين‬‫التصاحبات‬ ‫في‬ ‫البحث‬ ‫الجدد‬ ‫الفيرثيون‬neo-Firthian‫في‬ ‫اللغويين‬ ‫كل‬‫المدونة‬ ‫البحث‬‫األنماط‬ ‫عن‬ ‫الموسومة‬ ‫المدونات‬ ‫عن‬ ‫االبتعاد‬ ‫الواسمات‬ ‫بواسطة‬ ‫التصاحب‬ ‫عن‬ ‫البحث‬ ‫عدم‬ ‫بالضمن‬ ‫البحث‬within and containing (‫العبارة‬ ‫أو‬ ‫بالكلمة‬) ‫باالتحاد‬ ‫البحث‬meet and union (‫بالواسم‬)
  • 13.
    ‫المدونة‬ ‫لغويات‬ ‫في‬‫اإلحصاء‬‫الحاسوبية‬(Oakes 1998) ‫التوصيفية‬‫العنقودية‬‫التصاحبية‬ ‫النسبي‬ ‫التكرار‬relative‫أو‬ ‫المعاير‬normalizedn𝑓 (‫التكرار‬/‫المدونة‬ ‫حجم‬)×‫أساس‬ ‫المعايرة‬(1000‫أو‬ ‫ألف‬ ‫لكل‬ ‫مليون‬ ‫لكل‬ ‫مليون‬) ‫الفع‬ ‫على‬ ‫النوعية‬ ‫الكلمة‬ ‫نسبة‬‫لية‬ type-token ratio (type/token) ‫الرئيسة‬ ‫المدونة‬>‫المدونة‬ ‫المرجعية‬ ‫فهرسة‬‫المستند‬document indexing ‫المستند‬ ‫عنقدة‬document clustering ‫األساسية‬ ‫المكونات‬ ‫حليل‬ principal components analysis ‫العامل‬ ‫تحليل‬factor analysis ‫كاي‬ ‫مربع‬chi-square(‫داللة‬ ‫من‬1>0.5/0.01/0.001 ‫اللوجارثمية‬ ‫رجحية‬َ‫أل‬‫ا‬log- likelihood ‫دايس‬ ‫اللوج‬log-Dice(14) ‫الدايس‬(‫صغرى‬ ‫قيم‬) ‫المتبادلة‬ ‫المعلومات‬Mutual Information(‫من‬ ‫أكثر‬3) ‫وغيرها‬:t-score/z-score/ Fisher
  • 14.
    ‫الدح‬ ‫البيانات‬ ‫اختيار‬‫مقابل‬ ‫في‬ ‫التامة‬ ‫التعليلية‬‫ضية‬ ‫والتماثلية‬ ‫حاسوبي‬ ‫مدوني‬ ‫لغوي‬ ‫بحث‬ ‫ألي‬ ‫الركائز‬ ‫أهم‬ ‫من‬ ‫المراحل‬ ‫هذه‬ ‫تعد‬ ‫الدحضية‬falsifiability ‫التماثلية‬replicability ‫التعليلية‬‫التامة‬total accountability ‫لماذا‬‫النتائج‬ ‫وما‬ ‫اإلحصاءات؟‬ ‫تلك‬ ‫ولماذا‬ ‫نوعها؟‬ ‫وما‬ ‫معت؟‬ُ‫ج‬ ‫وكيف‬ ‫المدونة؟‬ ‫هذه‬‫متاحة؟‬ ‫هي‬ ‫هل‬ ‫؟‬
  • 15.
    ‫الحاسوبيين‬ ‫مساعدة‬ ‫إلى‬‫اللغويين‬ ‫حاجة‬ (‫اللغوي‬ ‫البحثي‬ ‫التطور‬‫المنهج‬ ‫إزاء‬‫التقليدي‬ ‫البحثي‬) ‫تطور‬‫البحث‬‫اللغوي‬‫العربي‬‫مرهون‬‫بتطور‬‫المدونات‬‫العربية‬‫الحاسوبية‬‫وأدوات‬‫ها‬. ‫فتحت‬‫لغويات‬‫المدونة‬‫الحاسوبية‬‫مجال‬‫التطور‬‫البحثي‬‫اللغوي‬‫على‬‫مستويات‬‫ع‬‫دة‬:‫نحوية‬ ‫ونصية‬‫ومعجمية‬‫إلخ‬. ‫معرفة‬‫أدوات‬‫المدونة‬‫الحاسوبية‬‫وأنواعها‬‫وبنائها‬‫من‬‫حيث‬‫التصميم‬‫والغرض‬‫إلى‬‫ج‬‫انب‬ ‫األدوات‬‫واإلحصاء‬‫مهمة‬‫ًا‬‫د‬‫ج‬‫لخوض‬‫غمار‬‫البحث‬‫اللغوي‬‫اآللي‬‫المتشعب‬. ‫الدقة‬‫العالية‬‫في‬‫رصد‬‫النتائج‬‫اللغوية‬‫من‬‫النصوص‬. ‫كل‬‫ما‬‫ذكر‬‫سبيله‬‫االستعانة‬‫والتدريب‬‫مع‬‫الحاسوبي‬‫المهتم‬‫بمعالجة‬‫اللغة‬‫والمد‬‫ونة‬‫اللغوية‬.
  • 16.
    ‫العرض‬ ‫نهاية‬ ‫لـ‬ ‫الشكر‬‫بجزيل‬ ‫ّم‬‫د‬‫أتق‬ ‫الموضوع‬ ‫هذا‬ ‫عن‬ ‫المشاركة‬ ‫فرصة‬ ‫إتاحتها‬ ‫على‬