ناقش طالب الدكتوراة دانيال فوسكرجيان أطروحته في برنامج هندسة وتكنولوجيا المعلومات بعنوان “ابتكار تقنيات جديدة في اختيار الميزات بناء على نماذج المواضيع لتحسين أداء خوارزميات تعلم الآلة في تصنيف المستندات الطبية”-“A Topic Modeling-Based Feature Selection For Text Classification”.
وتكونت لجنة المناقشة من رئيسها المشرف الرئيسي أ. د. مالك يوسف، والمشرف المشارك د. رشيد الجيوسي- جامعة القدس، أ. د. محمود الصاحب ممتحنًا داخليًا – جامعة بوليتكنك فلسطين، وممتحن خارجي أول -أ. د. يوسف أبوزر- جامعة القدس المفتوحة، وممتحن خارجي ثانٍ أ.د. حسن بدير- جامعة عبد المالك السعدي- المغرب.
وأوضح الطالب من خلال أطروحته أن تصنيف المستندات الطبية يعد من أبرز القضايا البحثية النشطة وأكثرها تحديًا في مجال تصنيف النصوص، وتحتوي مجموعات البيانات الطبية عادةً على عدد كبير من الميزات، مما يؤدي إلى وجود العديد من الميزات غير ذات الصلة أو المكررة، والتي تضيف ضوضاء تقلل من كفاءة التصنيف؛ لذا يصبح من الضروري اختيار مجموعة الميزات الفعالة التي تعزز قدرة خوارزميات تعلم الآلة على تمييز فئات المستندات الطبية بشكل دقيق وفعال.
واقترح نهجين مبتكرين، النهج الأول يُعرف بـ TextNetTopics، يقدم طريقة جديدة لاختيار الميزات من خلال الاعتماد على “مجموعة المواضيع” (Bag-of-Topics) بدلًا من “مجموعة الكلمات” التقليدية (Bag-of-Words)، ويقوم هذا النهج باختيار المواضيع بدلًا من الكلمات، ويمثل كل موضوع مجموعة من الكلمات ذات العلاقة الدلالية، كما يتضمن تقييم المواضيع لتحديد المواضيع الأعلى تصنيفًا لاستخدامها في تدريب نماذج التصنيف، مما يضمن تحسين أداء التصنيف بشكل عام.
وأضاف “في المرحلة الثانية، تم تطوير إصدار متقدم يعرف بـ TextNetTopics Pro، يعتمد هذا النهج على إطار عمل مبتكر لتصنيف النصوص القصيرة، حيث يجمع بين الميزات المعجمية المنظمة ضمن مواضيع والميزات الدلالية المستخرجة بواسطة النماذج الموضوعية (Topic Modelling). ويهدف هذا النهج إلى معالجة مشكلة ندرة البيانات وتحسين أداء التصنيف للنصوص القصيرة من خلال تعزيز الميزات الدلالية”.
وتابع “يعتمد كل من TextNetTopics وTextNetTopics Pro على النهج العام المعروف باسم G-S-M (التجميع، التقييم، النمذجة)، الذي طوره البروفيسور مالك يوسف وزملاؤه واستخدم بشكل رئيسي في تحليل البيانات البيولوجية”.
وأشار فوسكرجيان إلى أنه تم تطبيق النهجين على مجموعة بيانات النصوص الخاصة بمشكلة إصابة الكبد الناتجة عن الأدوية (Drug-Induced Liver Injury) ضمن تحديات مؤتمر CAMDA لعامي 2022 و2023، الذي أقيم في الولايات المتحدة وفرنسا. وأظهرت النتائج تفوق الخوارزميات المقترحة على أساليب اختيار الميزات التقليدية، حيث حققت أداءً متميزًا على بيانات الاختبار والتحقق المقدمة من CAMDA. كما أثبت TextNetTopics Pro فعاليته في تحسين تصنيف النصوص القصيرة والتعامل مع البيانات غير المتوازنة.
ولفت إلى أنه تم إجراء دراسة مقارنة شاملة باستخدام 11 نموذجًا موضوعيًا للنصوص العادية و9 نماذج موضوعية للنصوص القصيرة.
“بالنسبة للنصوص العادية: أظهرت النتائج أن TextNetTopics مع نموذج LSI يحقق أداءً متميزًا باستخدام عدد أقل من الميزات، وبالنسبة للنصوص القصيرة: أظهر TextNetTopics Pro تفوقه باستخدام نماذج BTM وDMM (GSDMM وGPU-DMM)، حيث قدم أداءً متميزًا مع تقليل الضوضاء بشكل كبير”، يوضح فوسكرجيان.
وبين أن النتائج النهائية أكدت فعالية النهجين المقترحين في تحسين أداء تصنيف النصوص الطبية من خلال تقديم حلول مبتكرة لتقليل الضوضاء وزيادة كفاءة التصنيف، إذ يوفر هذا العمل مساهمات علمية عملية تعزز إمكانية استخدام هذه الأدوات في مجالات واسعة تشمل التطبيقات الطبية والعلمية.