الاثنين، يوليوز 10، 2006

الجاسوس على القاموس

لا يوجد في اﻹنترنت أي قاموس عربي مفتوح المصدر حاليا غير قاموس بلكولتر الذي يخضع لرخصة BSD و هو قاموس يحتوي أﻻف الكلمات العربية و مشتقاتها و منظم بطريقة جيدة منهجية. إذ نجد الكلمة العربية و بجانبها نوعها حسب تصنيف خاص و ترجمتها و موضعها اﻹعرابي. و الكلمة مشكولة و غير مشكولة. و قد اعتمد في إعداد هذا القاموس على ذخيرة لغوية ستخرجة من الصحف العربية. و قد اعتمد اﻹخوة في تطوير برنامجي الدؤلي و بغداد على هذا القاموس و سنعتمد عليه أيضا، و لكن بدرجة أقل. مزايا هذا القاموس :
- يعتبر هذا القاموس أول قاموس مفتوح المصدر موجود على اﻹنترنت، على الرغم من تواجد العديد من القواميس العربية الخاصة، إلا أن هذا القاموس هو الوحيد المفتوح المصدر و لذا اعتمد عليه جميع العاملين في ميدان البرامج الحرة و اذكر
على سبيل المثال :
* برنامج الدؤلي (من عيون العرب)، قاموس بغداد لمحمد سمير، قاموس hspell لivirix، برنامج aramorph و قد قام مطور برنامج hunspell بتحويله إلى صيغة هانسبال بطريقة آلية. لذا يجدر اﻹشارة إلى أن قصب السبق كان لصاحبه.
- يعتبر هذا القاموس من الناحية العلمية مستندا قيما، إذ يحتوي على شروح خاصة لكل كلمة، فكل مدخل في القاموس يحتوي على
* الكلمة مجردة من الشكل.
* الكلمة مشكولة شكلا تاما.
*التصنيف الصرفي للكلمة.morphological categories
*الترجمة إلى اللغة الإنجليزية.

نقائص هذا القاموس:
- يحتوي هذه القاموس على أعداد كثيرة من الكلمات العامية غير المصرح بها في القواميس العربية القديمة و الحديثة: و
هذا ناتج عن الاعتماد على الصحافة كمصدر لتحليل المعلومات،
- يحتوي على كثير من أسماء اﻷعلام و الدول و المذاهب باللغات اﻷجنبية في حين يفتقر إلى بعض الكلمات العربية اﻷساسية:
مثلا نجد عربسات و كلمات مثل إسلاندا، اسلاندا، إسلاندة و لا نجد كلمات عربية صحيحة.
-يحتو ي القاموس على أشكال متعددة للكلمة الواحدة مما يزيد من حجم القاموس، لا سيما اﻷفعال خاصة المعتلة منها، هذه الأشكال يمكننا تجنبها بتوليدها حسب قواعد معينة:
* مثلا نجد في القاموس الفعل اعتمد و إعتمد و اعتماد و إعتماد، تخيل معي أن عدد اﻷفعال التي تبدأ بهمزة الوصل كبير
جدا ثم نجده مضروبا في اثنين.
*كما نجد الحرفين على و إلى بصيغ أخرى (علي، إلي) و ذلك للتمكن من إضافتها إلى الضمائر المتصلة، مثل عليها و إليهم.
* و بطرح نفس المشكل مع اﻷسماء ذات النهايات المعتلة فنجد كلمة أبناء، ابناؤ، أبنائ،...
- و قد انجر عن النقيصة اﻷخيرة، كثرة الأصناف الصرفية فنجد PV_n_intr, PV_n0_w_intr للدلالة على الفعل الصحيح اللازم
المنتهي بالنون و PV_n, PV_t,PV_h , PV/Atn و ذلك للتمكن من توليد الصيغ الممكنة للفعل. في حين يمكن اختصار ذلك إلى أقصى حد باستعمال قواعد تصريفية. و قد أثرت هذه النقائص على القاموس فجعلته كبير الحجم، و انجرت من جهتها على البرامج التي تستعمله.

عملي على هذا القاموس :
1- أول ما قمت به على هذا القاموس هو استخراج الكلمة غير المشكولة و الصنف الصرفي فقط.
2- ثم محاولة حذف كل اﻷسماء اﻷجنبية للأشخاص و المنظمات المنضوية تحت صنف NP N0 بغرض وضع قاموس عربي قاعدي يتعرف على الكلمات العربية قبل الكلمات الأجنبية.
3- حذف جميع الأشكال المختلفة المنقوصة للكلمة اﻷصلية ، فمثلا تم حذف أبناؤ، أبنائ، و احتفظ بكلمة أبناء. مثال آخر
افبقاء على الكلمات على و إلى و حذف إلي و علي.و بذلك تكون الكلمات الموجودة في القاموس كلها صحيحة بذاتها أولا.
4- أعمل حاليا على تصحيح الكلمات ذات همزة الوصل و افبقاء على الصيغة اﻷصلية الصحيحة مثلا (حذف إعتمد - همزة قطع- و اﻹبقاء على اعتمد -همزة وصل-).
5- أعمل أيضا على إعادة تصنيف الأفعال و اﻷسماء إلى أقسام يمكن تحديد زياداتها.
و في اﻷخير فإن وجود القاموس مهم جدا ﻷعمال أخرى لكن يجب إعادة صياغته بما يتلاءم مع اﻹمكانات المتوفرة في
المدققات اﻹملائية.
و للحديث بقية و السلام

بقلم طه زروقي

هناك 3 تعليقات:

Zayed يقول...

شكرا على مجهوداتكم

غير معرف يقول...

بارك الله فيك !

روووووووووووح يا رجل الله محي اصلك


رح اضل اتابع اخر اخبار المدونه اول باول، كان بدوي اساعد لكني لا افقه شيئ في البرمجه!

على كل حال اذا احتجت شي، اضف تعليق هون

سلام

فريق آيسبل يقول...

شكراً لك أخي على اهتمامك بالموضوع وشكراً لك إيضاَ عل عرضك بمساعدتنا، فسنحتاج إليها وإلى كل الأيادي السخية بوقتها ف مراحل تصنيف الأفعال والأسماء حسب معايير تتوافق مع قواعد الالحاق لخواريزم برنامج Hunspell.
وبالمناسبة فأنا أيضاً لا أفقح في البرمجة - فإنها من اختصاص الأخ طه - وللعلم جانب البرمجة في مشروع القاموس هذا محدود لكون أمورها قد تم حسم أغلبها في البرنامج الأصلى ولم يتبقى إلا القليل يخص اللغة العربية يتكفل به الأخ طه مثل بعض مشاكل التشكيل و التطويل.

محمد كبداني