ناقشت طالبة الدكتوراه إيمان عبدالكريم موسى نصر أطروحتها في برنامج هندسة وتكنولوجيا المعلومات بعنوان “نحو استخراج مترادفات للغة العربية آليًا”-“Towards Automated Arabic Synonyms Extraction”.
وتكونت اللجنة من رئيسها أ.د. نبيل عرمان، د. ضياء أبوزينة: ممتحنًا داخليًا – جامعة بوليتكنيك فلسطين، أ.د. أحمد الطعاني: ممتحنًا خارجيًا – جامعة اليرموك، د. حسن الطراونة: ممتحنًا خارجيًا – جامعة عمان الأهلية.
وخلال أطروحتها، عملت الطالبة على تطوير أداء تطبيقات معالجة اللغة الطبيعية لاستخراج مرادفات الكلمات باللغة العربية. حيث طُوِّرت مهمة الاستبدال المعجمي لاستخراج المرادفات والتي تهدف إلى إنشاء قائمة من المرادفات لكلمة أو عبارة مستهدفة مع الحفاظ على المعنى الأصلي للجملة؛ وذلك لتحسين الكتابة وزيادة فهم اللغة وتعزيز أداء نماذج معالجة اللغة الطبيعية والتعامل مع الغموض اللغوي. وبالرغم من ثراء مفردات اللغة العربية، إلا أن الأبحاث في هذه المهمة كانت محدودة نظرًا لعدم توفر قاعدة بيانات موسمة. وبذلك قدمت الطالبة أول قاعدة بيانات موسمة للاستبدال اللغوي في اللغة العربية AraLexSubD.
وأُعدت AraLexSubD يدويًا من قبل ثمانية من اللغويين والناطقين الأصليين باللغة العربية (ستة موسمين لغويين، ودكتور، واقتصادي) الذين قاموا بتوسيم 630 جملة. كما شملت AraLexSubD ثلاثة مجالات: المجال العام و المالي والطبي. وتضمنت 2476 كلمة بديلة محتملة مصنفة بناءً على ارتباطها الدلالي. كما وفرت أيضًا نهجاً للاستبدال المعجمي باللغة العربية، AraLexSubPro، الذي يتضمن عدة تقنيات لتوليد البدائل واختيارها وترتيبها.
ولإجراء مقارنة شاملة، اعتمد AraLexSubPro على أربع طرق مختلفة كنقاط مرجعية لتوليد مرشحي البدائل للكلمات المستهدفة: نهج يعتمد على قاموس المرادفات (AWN)، ونهج يعتمد على نموذج لغة مدرب مسبقًا (AraBERT)، إخفاء جزئي AraBERT، ونهج هجين يجمع بين AraBERT و AWN. يتم تصفية البدائل المولدة وترتيبها بناءً على ستة معايير عالية الجودة، بما في ذلك تشابه الكلمات، وتكرارها، (BERT probability), (BERT Loss) (BERTscore) و (BERT similarity) وبعد ذلك، تتم إعادة ترتيب البدائل استنادًا إلى مصنف AraLexSubPro . بالإضافة إلى ذلك، يقدم تحليلًا للأخطاء التي ظهرت خلال التجربة.
ولتقييم آداء منهج AraLexSubPro استخدمت الطالبة أول مجموعة بيانات معيارية للاستبدال اللغوي باللغة العربية AraLexSubD، الذي يمكنه تقييم أنظمة الاستبدال اللغوي في اللغة العربية تلقائيًا. وحسب معرفتنا هذه أول دراسة حول الاستبدال اللغوي في اللغة العربية. كما كانت النتائج مشجعة وأساسية لأبحاث الاستبدال اللغوي في اللغة العربية. وتتوفر AraLexSubD في هذا الرابط لتسريع البحث في هذا الموضوع على منصة GitHub:
https://github.com/karajah2024/Arabic-Lexical-Substitution.git