الاثنين، يوليوز 10، 2006

الجاسوس على القاموس

لا يوجد في اﻹنترنت أي قاموس عربي مفتوح المصدر حاليا غير قاموس بلكولتر الذي يخضع لرخصة BSD و هو قاموس يحتوي أﻻف الكلمات العربية و مشتقاتها و منظم بطريقة جيدة منهجية. إذ نجد الكلمة العربية و بجانبها نوعها حسب تصنيف خاص و ترجمتها و موضعها اﻹعرابي. و الكلمة مشكولة و غير مشكولة. و قد اعتمد في إعداد هذا القاموس على ذخيرة لغوية ستخرجة من الصحف العربية. و قد اعتمد اﻹخوة في تطوير برنامجي الدؤلي و بغداد على هذا القاموس و سنعتمد عليه أيضا، و لكن بدرجة أقل. مزايا هذا القاموس :
- يعتبر هذا القاموس أول قاموس مفتوح المصدر موجود على اﻹنترنت، على الرغم من تواجد العديد من القواميس العربية الخاصة، إلا أن هذا القاموس هو الوحيد المفتوح المصدر و لذا اعتمد عليه جميع العاملين في ميدان البرامج الحرة و اذكر
على سبيل المثال :
* برنامج الدؤلي (من عيون العرب)، قاموس بغداد لمحمد سمير، قاموس hspell لivirix، برنامج aramorph و قد قام مطور برنامج hunspell بتحويله إلى صيغة هانسبال بطريقة آلية. لذا يجدر اﻹشارة إلى أن قصب السبق كان لصاحبه.
- يعتبر هذا القاموس من الناحية العلمية مستندا قيما، إذ يحتوي على شروح خاصة لكل كلمة، فكل مدخل في القاموس يحتوي على
* الكلمة مجردة من الشكل.
* الكلمة مشكولة شكلا تاما.
*التصنيف الصرفي للكلمة.morphological categories
*الترجمة إلى اللغة الإنجليزية.

نقائص هذا القاموس:
- يحتوي هذه القاموس على أعداد كثيرة من الكلمات العامية غير المصرح بها في القواميس العربية القديمة و الحديثة: و
هذا ناتج عن الاعتماد على الصحافة كمصدر لتحليل المعلومات،
- يحتوي على كثير من أسماء اﻷعلام و الدول و المذاهب باللغات اﻷجنبية في حين يفتقر إلى بعض الكلمات العربية اﻷساسية:
مثلا نجد عربسات و كلمات مثل إسلاندا، اسلاندا، إسلاندة و لا نجد كلمات عربية صحيحة.
-يحتو ي القاموس على أشكال متعددة للكلمة الواحدة مما يزيد من حجم القاموس، لا سيما اﻷفعال خاصة المعتلة منها، هذه الأشكال يمكننا تجنبها بتوليدها حسب قواعد معينة:
* مثلا نجد في القاموس الفعل اعتمد و إعتمد و اعتماد و إعتماد، تخيل معي أن عدد اﻷفعال التي تبدأ بهمزة الوصل كبير
جدا ثم نجده مضروبا في اثنين.
*كما نجد الحرفين على و إلى بصيغ أخرى (علي، إلي) و ذلك للتمكن من إضافتها إلى الضمائر المتصلة، مثل عليها و إليهم.
* و بطرح نفس المشكل مع اﻷسماء ذات النهايات المعتلة فنجد كلمة أبناء، ابناؤ، أبنائ،...
- و قد انجر عن النقيصة اﻷخيرة، كثرة الأصناف الصرفية فنجد PV_n_intr, PV_n0_w_intr للدلالة على الفعل الصحيح اللازم
المنتهي بالنون و PV_n, PV_t,PV_h , PV/Atn و ذلك للتمكن من توليد الصيغ الممكنة للفعل. في حين يمكن اختصار ذلك إلى أقصى حد باستعمال قواعد تصريفية. و قد أثرت هذه النقائص على القاموس فجعلته كبير الحجم، و انجرت من جهتها على البرامج التي تستعمله.

عملي على هذا القاموس :
1- أول ما قمت به على هذا القاموس هو استخراج الكلمة غير المشكولة و الصنف الصرفي فقط.
2- ثم محاولة حذف كل اﻷسماء اﻷجنبية للأشخاص و المنظمات المنضوية تحت صنف NP N0 بغرض وضع قاموس عربي قاعدي يتعرف على الكلمات العربية قبل الكلمات الأجنبية.
3- حذف جميع الأشكال المختلفة المنقوصة للكلمة اﻷصلية ، فمثلا تم حذف أبناؤ، أبنائ، و احتفظ بكلمة أبناء. مثال آخر
افبقاء على الكلمات على و إلى و حذف إلي و علي.و بذلك تكون الكلمات الموجودة في القاموس كلها صحيحة بذاتها أولا.
4- أعمل حاليا على تصحيح الكلمات ذات همزة الوصل و افبقاء على الصيغة اﻷصلية الصحيحة مثلا (حذف إعتمد - همزة قطع- و اﻹبقاء على اعتمد -همزة وصل-).
5- أعمل أيضا على إعادة تصنيف الأفعال و اﻷسماء إلى أقسام يمكن تحديد زياداتها.
و في اﻷخير فإن وجود القاموس مهم جدا ﻷعمال أخرى لكن يجب إعادة صياغته بما يتلاءم مع اﻹمكانات المتوفرة في
المدققات اﻹملائية.
و للحديث بقية و السلام

بقلم طه زروقي

الأحد، يوليوز 09، 2006

حجرة الزاوية


توصلت يوم أمس برسالة، أظنها منعرج مهم في المشروع. توصلت بتلك الرسالة من الاخ طه زروقي الذي وافني بالعمل الكبير الذي أنجزه في إنشاء القاموس العربي للمدقق الإملائي Hunspell وخاصة بناء ملف aff الذي لا ينقصه إلاّ التعليق المفسر الضروري في كل مشروع من هذا الحجم لان مستقبله وتطوره واستمراريته مرهونة بدرجة وضوحه لمن يريد الاتحاق بالمشروع وركوب قطاره لاحقاً، أما ملف dic فلم يخرج عن القاعدة المؤلوفة إلى حدود الساعة األا وهي الاعتماد على قاموس Tim Buckwalter.
أظن أن المشروع برمته مرهون أولا وقبل كل شيء بمدى قدرتنا على تحويل قواعد اللغة العربية الصرفية إلى قواعد الإلحاق لملف aff مستثمرين كل ما تتيحه وظائف Hunspell. هذا الشرط الأول مرتبط بمدى معرفتنا واستيعابنا لقواعد اللغة العربية... وبدرجة لا تقل أهمية عن مدى قدرتنا على بناء جداول ملمة بكل الجوانب الصرفبة تكون حلقة وصل بين المادة اللغوية و algorithm المدقق Hunspell المجسد في ملف aff . أفضل أن يكون التذكير بالقواعد والإتيان بالشواهد في هوامش الجداول من البديهيات حتى ناسس لمدقق إملائي بمواصفات علمية وبمستوى يليق بلغة القرآن.
بناء القاموس... هنا حجرة الزاوية في مسار المشروع. من بين المعاجم التي أقوم بتحليل بنيتها هذه الأيام و التي تتميز بترتيب موادها حسب الابجدية فالاشتقاق "الهادي إلى لغة العرب" و"المعجم الوسيط" لمجمع اللغة العربية الذي لا أستبعد أن اعتمده كمرجع أساسي في بناء قاموس المدقق الإملائي. يتميز هذا المعجم بكونه يركز على خصائص أراها تناسب إلى حد ما متطلبات إنشاء مددق للغة العربية حسب طريقة عمل برنامج Hunspell إلاّ أنه سيكون من الضروري إضافة بعض الهيآت ذات خصوصية العلة المتوسطة أو الهمزة المتغيرة كما أبين ذلك هنا ....


بقلم محمد كبداني

السبت، يوليوز 08، 2006

العربي المقلق


لعل البعض منكم ممن يستعمل أوفيس الفرنسي MsOffice، ما زال يتذكر الزوبعة التي أحدثها اكتشاف الترادف بين anti-stress و anti-arabe منذ سنوات ولو أن الساهرين على حماية اللغة العربية - إن وجدوا- اطلعوا على ما يحدثه المدقق الإملائي لوورد Word من خراب في لغة الضاد ، لعملوا – على الأقل - على تحجيم استعماله في المدرسة لعواقب ذلك على تربية الناشئة ولحساسية المرحلة في تكوين الفرد واكتسابه لعادات سليمة في تعامله مع اللغة العربية ولكن يبدوا أن المسؤولين غير واعين بعواقبه ولا يعيرون اهتماماً لذلك.
قمت بتفحص هذا المدقق من بعض نواحي تصريف الأفعال فوجدته لا يعترف (حتى هذا الفعل غير موجود في قاموسه) بتاتاً بالتوكيد ثقيل النون أو خفيفها (مثل يكتبنان) ولا يعير كثير اهتمام لأفعال القلوب. وعندما يتعلق الأمر بالأفعال المتعدية لمفعولين اثنين فلا تنتظر إحاطة بخصائصها كما ينتظره المستعمل ولو كانت من الأفعال الأكثر شيوعاً. اختير كلمة : يعطيكموها .

أسيكتب أم أستكتب، تناقض النتيجة إذ يجهل الأولى ويرضى عن الثانية.، يعترف وتعترف نفس التناقض؟؟؟
أقول: انكسره... ما رايك؟ صحيح أم خطأ؟ صحيح عندما يعود الفعل - ولو كان لازماً - على مصدره، فنقول مثلا: وكم انكسار انكسرته !
أوتدري ... ياحبيبي، أن الكلمة التي تتصدر أغنية عبد الحليم حافظ خاطئة في نظر مدقق وورد:
أوتدري دمي جرى ... أوتدري بما جرى...
وما إلى ذلك ....
في المغرب، عندما كنا ننصح وزارات باستعمال البرامج الحرة المكتبية – مثل وزارتي العدل والمالية – كان ردهم أن غياب بعض الوظائف مثل المدقق الإملائي يمنعهم من إدماج البرامج الحرة المكتبية كما لو أن مدقق Msoffice يعمل ذلك كما ينبغي. أولأن القرصنة المتفشية في بلاد مستعملي اللغة العربية لا تحفز MS على استثمار أموال في مدقق إملائي بمستوى جيد ؟ مدققنا، سيضطرها لذلك إنشاء الله :) concurrence oblige ....


بقلم محمد كبداني

الجمعة، يوليوز 07، 2006

ميلاد نجمة في سماء البرامج الحرة العربية

السلام عليكم ورحمة الله وبركاته،
تهدف هذه المدوننة إلى تتبع تطورات إنشاء القاموس العربي للمدقق الإملائي Hunspell .هذه المدونة مع القائمة البريدية المماثلة لها في الإسم مكملة لمحتوى الموقع الأساسي للمشروع.

يخضع هذا العمل إلى الرخصة العمومية الشاملة...

بقلم محمد كبداني