الاثنين، شتنبر 10، 2007

قاموس آيسبل بين "المستعمل والمهمل" في اللغة العربية


الخصائص البنيوية للغة العربية المتعلقة بالتدقيق الإملائي

  • الخاصيـــة الأولى: الطبيعة الاشتقاقية للغة العربية، وهذا يعني أن هناك مادة لغوية معينة مثل (كتب) يمكن تشكيلها على هيئات مختلفة، كل هيئة منها لها وزن خاص ولها وظيفة خاصة كأن نقول كاتب، مكتوب، مكتب، كتب، كتيب ...ألخ. عدد الجذور في العربية أقل بكثير من العدد الموجود في اللغة الإنجليزية ولكن بتوظيف خاصية الاشتقاق نحصل على مفردات تعد بالملايين بينما في اللغة الإنجليزية لا يتجاوز هذا العدد مآت الآلاف.

  • الخاصيـــة الثانية: الطبيعة الالتصاقية للغة العربية، حيث توجد مادة لغوية يمكن تشكيل صيغ منها عن طريق لصق زوائد في أول المادة أو في آخرها. وباعتبار السوابق واللواحق المعمول بها في اللغة العربية، يمكن للكاتب التعبير بالكلمة نفسها عن التذكير والتأنيث، الإفراد والتثنية والجمع، الاستفهام والنداء ... إلخ. كلمة « أسيعطيكموها؟ » تلخص بصفة جيدة هذه الميزة.

  • الخاصيـــة الثالثة: قلة عدد حروف الحركة (Vowels) في العربية (ا، و، ي) مقارنة باللغة الإنجليزية (a, e, i, o, u, y, w) أو باللغة الفرنسية (,é, è, à, ù, û, ê, â, a, e, i, o, u, y, w)، والاعتماد الأساسي على التشكيل (الكسر، الفتح، الضم وتنونها) لضبط المعنى وتفادي الالتباس. حركات يهملها عادة المستخدم العربي في كتاباته [1].

  • الخاصيـــة الرابعة: الشدّة، على غرار حركات التشكيل الأساسية، يغفل الكاتب عمومًا الترميز للتضعيف بالشدة التي تعني تكرار الحرف في الكلمة العرية: قَدِمَ، قَدَّمَ.

  • الخاصيـــة الخامسة: تعوّد الكاتب العربي في بعض الأقطار مثل مصر على الخلط بين الألف والياء المتطرفة وتفشي عادة استعمال الأحرف مركبة لام-ألف (ﻻ، ﻵ، ﻷ، ﻹ) التي لا محل لها من الإعراب في عصر الحاسوب والتي يعود اصلها إلى إلزامات وإكراهات تقنية مرتبطة بالآلة الكاتبة قي بداية القرن الماضي ومن الصعب التخلص من هذه الرواسب التاريخية نظراً لاستمرار العمل بلوحة المفاتيح الموروثة عن الآلة الراقنة.

علاقة هذه الخصائص اللغوية بعمل المدقق في اكتشاف الخطأ واقتراح البديل الصحيح.

صعوبة اكتشاف الخطأ:
هذا المشكل مشترك بين كل اللغات لأن المدقق يتعامل مع المفردة في معزل عن جوارها و في غياب اعتبار المدقق للسياق الذي تأتي فيه المفردة، تبقى فائدة المدقق الإملائي جد محدودة من الناحية الدلالية، كما أن تعوّد الكاتب العربي على تجاهل التشكيل، لا يزيد الطينة إلاّ بلة لان النتيجة الحتمية هي تشابه المفردات فيما بينها بالرغم مع اختلاف معانيها. مثال: : ك، ت، ب قد تعني كَتَبَ ( الفعل الماضي) وقد تعني كُتُب (جمع كتاب)[1].

صعوبة اقتراح البديل الصحيح:
من عواقب هذه الخصائص اللغوية في مرحلة التصحيح الأساسية، التي يقترح المدقق المفردات البديلة بإضافة حرف أو حذفه أو باستبداله بآخر أو بتقسيم الكلمة الخطأ إلى كلمتين، ارتفاع عدد المفردات المرشحة للتصحيح وبيّنت المقارنة باللغات الأخرى أن العدد المتوسط للكلمات المقترحة هو 3 في اللغة الإنجليزية و 3,5 في الفرنسية و26,5 بالنسبة لمفردات اللغة العرية غير المشكولة [2].


والحالة هذه، كيف السبيل إلى تحسين مردودية المدقق الإملائي والرفع من فعاليته وفائدته؟
.

من بين الحلول الممكنة لتحسين فعالية المدقق الإملائي ضرورة مراعاة السياق الذي ترد فيه المفردة الخطأ : مقارنة المفردة الخاطئة بالمفردات المجاورة وبمفردات النص إجمالاً. هذه النوع من الحلول يدخل ضمن المدققات النحوية، لكن للأسف ما زالت البرامج المكتبية الحرة غير متوفرة على هذا النوع المهم من الأدوات اللغوية!

في عنوان المقالة "المستعمل والمهمل"، يكمن الحل الثاني. اقتبست هذا العنوان من مقال للمفكر المغربي محمد عابد الجابري يحلل فيه مشكل بناء القواميس العربية. يقول الكاتب « وأنا اعتقد أن مبدأ التمييز بين "المستعمل" و"المهمل" صالح للتطبيق(...) كوسيلة لـ "صنع" اللغة العربية المبسطة المطلوبة، وذلك على عدة مستويات، أولها مستوى المعاجم نفسها». يرى المفكر اختيار المفردات والتراكيب المستعملة بكثرة في مختلف مرافق الحياة والاقتصار على الأنماط والبنيات اللغوية الشائعة والضرورية للفهم والتعبير مثل لغة الصحافة والإذاعة والقصة والمقالة والنصوص العلمية.[3]

وعند التساؤل حول المعيار التطبيقي لاختيار هذه البنيات الغوية، نجد الإجابة في المنهجية التي وظفها محررو معجم « المنجد في اللغة العربية المعاصرة ».لقد تم جرد المفردات المنشودة في مرحلة أولى بالبحث في المادة اللغوية العربية عن تلك التي تقابل في معناها الحقيقي أو المجازي ما ورد في المعاجم الفرنسية والإنجليزية المعمول بها حديثاً ثم اضيفت في مرحلة ثانية المفردات التي جاءت في المعاجم العربية الحديثة التي ليس لها مثيل في اللغتين الفرنسية والإنجليزية.
بالاقتصار على التصريفات المستعملة فعلا في كتاباتنا الحديثة وبالتركيز على المفردات الملبية للمعيار أعلاه، يمكن للمدقق ان يعطي نتيجة تلبي حاجيات المستخدم العربي في القرن الواحد والعشرين كما أن سرعة المدقق ستتحسن بشكل ملموس وتكون قائمة المفردات البديلة المقترحة دقيقة ومركزة.

هذه هي إذن المنهجية التي ستعتمد لإعادة بناء قاموس آيسبل للتدقيق الإملائي في المرحلة المقبلة. قاموس، أتمنى أن يستفيد منه المستخدم العربي الذي اختار استعمال البرامج الحرة على غرار ما يجده المستخدم الذي يفضل الحلول المعلوماتية المملوكة...

والله نسأل أن يجعل أعمالنا خالصة لوجهه،
والله وحده ولي التوفيق.

محمد كبداني


[1] http://www.majma.org.jo/G05/06/04/19_files/المحاضرة%20الثانية.doc
[2] http://www.aljabriabed.net/tajdid3.htm
[3] http://www.sciences.univ-nantes.fr/info/recherche/taln2003/articles/zribi.pdf

الأربعاء، غشت 22، 2007

خارطة الطريق

الإصدارات التجريبية (بيطا)

الإصدار بيطا 1
القاموس غير تام؛
قواعد الإلحاق غير كاملة؛
خاصية مقترحات التصحيح التفضيلي REP خاطئة؛
غياب دعم الحروف المركبة ﻻ ﻵ ﻹ ﻷ.

الإصدار بيطا 2
إضافة المصادر الناقصة من المراجع الأساسية؛
إضافة أسماء الفاعل الناقصة باشتقاقها من الأفعال؛
إضافة أسماء المفعول الناقصة باشتقاقها من الأفعال؛
إضافة أسماء الصفة المشبهة الناقصة باشتقاقها من الأفعال؛
إضافة الأسماء الناقصة من المعجم الوسيط والمعجم المحيط؛
تفعيل خاصية التماثل الحرفي/الموضعي: MAP
إعادة بناء خاصية التبادل التفاضلي: REP
تفعيل خاصية تجاهل التشكيل: IGNORE ؟

الإصدار المحسّن (التخفيف/فعالية)
حذف سوابق ولواحق الأفعال نادرة الاستعمال؛
حذف الزيادات السابقة المتضمنة لحروف أو تركيبات حرفية نادرة الاستعمال؛
إعادة بناء اللواحق والزيادات اللاحقة للأفعال المتعلقة بإشكالية التعدي (حصر القاعدة بالأفعال مهموزة اللام فقط أو تحويل هيئاتها إلى ملق القاموس؟)؛
إضافة دعم الحروف المركبة ﻻ ﻵ ﻹ ﻷ؛
استكمال تصنيف عاقل/غير-عاقل، نكرة/تعريف للمفردات الاسمية؛
إضافة تصريف المؤكد للأفعال المستعملة بكثرة؛
إضافة التعدي إلى مفعولين للأفعال المستعملة بكثرة؛
إضافة مفردات ناقصة.
حذف المفردات المكررة؛
حذف المفردات قليلة الأهمية المشوشة على مقترحات التصحيح (ض/ظ، ء/أ/ئ/ؤ)؛
حذف الأفعال والأسماء النادرة؛


الإصدار المخفف الخاص بالأنظمة المحمولة (Embedded version)
الإصدار المندمج (التشكيل الكامل للقاموس، الفهرسة النحوية للمفردات)

بقلم محمد كبداني

الأربعاء، أبريل 04، 2007

التدقيق الإملائي الشامل للأفعال العربية

السلام عليكم،

انتهى بعون الله وتوفيقه الشطر الأول من المشروع المتعلق بالأفعال ويعتمد التدقيق الإملائي للفعل العربي على مادة لغوية تحتوي على حوالي 10.000 فعل عربي وبعد إضافة الأشكال الخاصة بالإبدال/الإعلال والتضعيف/الإدغام وما يجري على الهمزة من تحولات، ارتفع عدد المفردات في قاموس آيسبل Ayaspell إلى ما يقارب 15.000.
بالنسبة للهيئات المتولدة بواسطة ملف الزيادات فإنها تغطي كل صيغ التصريف الممكنة في اللغة العربية ما عدا صيغ المؤكد وتتركب هذه الأفعال مع كل الزيادات السابقة الممكنة (سوابق Prefixes) وبأغلب الزيادات اللاحقة (لواحق Suffixes) باستثناء تلك المتعلقة بالتعدي لمفعولين.
وهكذا بعد الانتهاء من الجزء الخاص بالأفعال نفتح ورشة تصريف الأسماء ثم من بعدها ورشة الحروف والأدوات النحوية وما شابهها إن شاء الله.
إليكم الآن مقارنة بسيطة بما يسمح به مدقق هانسبل Hunspell معتمدًا على قاموس آيسبل Ayaspell في الجزء الخاص بالأفعال بالنسبة لمدقق MsOffice:

اعتماد تصريف أفعال القلوب: جزئيا [مدقق MsOffice: لا] فمثلاً نقول نظننا وتظنينك ولا يجوز قول نضربنا وتضربينك.
اعتماد التعدي إلى مفعولين: ليس بعد [مدقق MsOffice: لا] نحو يعطيكموها.
اعتماد الأفعال النادرة: نعم [مدقق MsOffice: لا] نحو ائتثر - أوجى.
اعتماد الشكل/الحركة: ليس بعد [مدقق MsOffice: نعم] نحو اعتبار الكلمة المشكولة (كَتَبَ) صحيحة.
اعتماد كامل للمبني للمجهول: نعم [مدقق MsOffice: جزئيا] مثل خوطئ من (خطئ) و شوددت من (شادَّ).
اعتماد الهيئات المتغيرة في صيغة الأمر للأفعال المهموزة والمضاعفة: نعم [مدقق MsOffice: لا] مثل "ايدب" و"ائدب" من أدب و"ود" و"ايدد" من ودّ.
اعتماد سابقتين تتضمن همزة الاستفهام: نعم [مدقق MsOffice: لا] مثل أوتدري؟ أفتعلم؟
اعتماد ثلاث سوابق: نعم [مدقق MsOffice: لا] نحو أفستكتبها؟
اعتماد صيغ التوكيد: ليس بعد [مدقق MsOffice: لا] نحو ليكتبنان.
اعتماد التعدي النسبي للأفعال اللازمة: نعم [مدقق MsOffice: لا] نحو: وكم من انتصار انتصرناه بفضل جهاد شعوبنا...!!! ؛-)

تجدر الإشارة إلى كون هذه النتيجة، حصلنا عليها باستثمار خصائص هانسبل Hunspell الأصلية فقط وعندما سنوظف تلك الداعمة للغة العربية سيُحل مشكل الحركة/الشكل وباستثمار نتائج الإبدال/الإعلال سنخفض وزن ملف القاموس بالثلث ، وعند تصريف الأسماء يمكننا (نظريا) استغلال نفس المفردات-المداخل للأفعال لتوليد المشتقات وإذّاك لا نستغرب الحصول على ملف قاموسي خفيف جدا نظراً للخاصية جد اشتقاقية للغة العربية. فترقبوا الأحسن في الإصدارات القادمة إن شاء الله.
تجدر الإشارة إلى أن الوثائق اللغوية المكونة لقاعدة بيانات قاموس آيسبل Ayaspell التي أسسنا عليها مشروع المدقق الإملائي فريدة من نوعها على الشبكة، تطلبت مجهودات في الجمع والتحليل والتركيب استمرت مدة سنة ونتمنى أن يجد طلاب ودارسو اللغة العربية منفعة فيها وأن يقتصدوا وقتًا وجهدًا بواسطتها لأننا وضعناها تحت رهن إشارة الكل تحت رخص البرامج الحرة المناسبة.

ملحوظة: حُوِّلت رخصة قاموس آيسبل Ayaspell من GPL فقط إلى الرخصة الثلاثية GPL/LGPL/MPL حتى نحافظ على الانسجام القانوني مع برنامج هانسبل Hunspell الذي بدونه لن يعمل القاموس أما الوثائق والمستندات فوضعت تحت رخصة Creative Commons: by-sa.

المراجع:
[1] تنزيل قاموس الأفعال لآيسبل Ayaspell عبر الرابط: http://perso.menara.ma/~kebdani/ayaspell-dic/data/verb/verb_ayaspell-dic.tar.bz2
[2] تنصيب الملفات، اتباع الخطوات الواردة في الصفحة التالية: http://perso.menara.ma/~kebdani/ayaspell-dic/installation.html
[3] قاعدة البيانات اللغوية لقاموس Ayaspell آيسبل: http://perso.menara.ma/~kebdani/ayaspell-dic/langue.html

الاتصال:
- في موضوع دعم اللغة العربية في برنامج Hunspell هانسبل : taha_zerrouki AT gawab.com
- في موضوع اللغة العربية في قاموس Ayaspell آيسبل: med.kebdani AT Gmail.com

لمتابعة تطوير المشروع:
القائمة البريدية: http://groups.google.com/group/ayaspell-dic
المدونة: http://ayaspell.blogspot.com
الموقع (مؤقت): http://perso.menara.ma/~kebdani/ayaspell-dic

والسلام عليكم

الاثنين، يناير 15، 2007

مدققات إملاء صخر وأوفيس و آيَسْبَل على المحك

في التدقيق الإملائي، نجد الخطأ خطأ و الصواب خطأ و الخطأ صواباً والصواب صواباً طبعاً :))

الخطأ خطأ مما يعني نجاح المدقق في اكتشاف الخطأ ومن أجل هذه الغاية نستعمل المدققات الإملائية طبعاً :) مثال: بربكانم : خطأ (غياب الجذر والتصريف من القاموس)، أيمسس: خطأ (الجذر حاضر في القاموس ولكن التصريف في هذه الهيئة غائب لأن همزة الاستفهام لا تجزم الفعل المضارع).

الصواب خطأ ونعني به اعتبار المدقق الكلمة الصحيحة خاطئة بسبب غياب جذرها عن القاموس أو إغفال تصرفيها في الهيئة المُدققة. مثال: بركان (اسم مدينة في المغرب) وأنكتبن ّ (غياب تصريف المؤكد وهذا حال مدقق كولتك أو عدم اقتران همزة الاستفهام بالمؤكد في مدقق صخر).

الخطأ صواباً وهذا ما يجب تجنبه قطعاً وإلاّ فقد المدقق من مصداقيته مثال أليكتبون: خطأ ولكن مدقق صخر يعتبر الكلمة صحيحة !؟

الصواب صواباً ويدخل هذا ضمن الكلمات التي جذورها وتصريفاتها حاضرة في القاموس المعتمد.

قمت بمقارنة المدققات الإملائية العربية المعمول بها حالياً من جانب الافعال القلبية والزيادات السابقة ثم وضعت نتيجة الدراسة في صفحة خارجية لعدم تلاؤم الإخراج في المدوتة مع جداول المقارنة. الصفحة تحت الرابط التالي:


للاطلاع على المقارنة انقر هنا

محمد كبداني