TY - BOOK AU - Sahar Saeed Rezk Awaad, AU - Kamal Samy Selim TI - Supervised machine learning techniques: a new ensemble-based hybrid model with application U1 - 006.31 PY - 2025/// KW - Machine Learning KW - qrmak KW - التعلم الآلي KW - Artificial Intelligence KW - Selective Ensemble Learning KW - Harmonic Means KW - Binary Metaheuristics KW - School Dropout in Egypt KW - الذكاء الاصطناعي N1 - Thesis (Ph.D)-Cairo University, 2025; Bibliography: pages 231; Issues also as CD N2 - This thesis investigates advanced supervised machine learning approaches with a focus on enhancing classification performance and expanding their practical utility across real-world domains, particularly in education. It is structured around four interrelated studies that together address both theoretical gaps and applied challenges in the area of selective ensemble learning. The first study presents a systematic review of metaheuristic-based selective ensemble learning. This review offers a critical analysis of existing methods in terms of base machine learning model selection, aggregation strategies, and evaluation frameworks. It actually identifies key challenges in such research areas, such as balancing accuracy and diversity, dealing with overconfident predictions, and handling imbalanced data. Motivated by the insights gained from the systematic review, this thesis proposes a novel selective ensemble framework: Coati-based Weighted Truncated Harmonic Mean Ensemble (Coati-WTHM-Ens). This model introduces a new aggregation mechanism that employs a truncated harmonic mean so as to minimize the influence of extreme probability estimates and thereby improving ensemble robustness. As part of a rigorous effort to practically test and validate the proposed model, two empirical studies are conducted to predict school-dropout in Egypt, taking into account their social and economic determinants. Together, these preparatory studies aim to build a solid empirical foundation and enable fair benchmarking. Specifically, they assess the performance of various supervised machine learning classifiers under different resampling strategies designed to address class imbalance. Notably, the second study also introduces the Weighted Unified Performance Metric (WUPM), as holistic metric that integrates several traditional performance indicators to provide a more balanced and informative evaluation in imbalanced classification tasks. In the fourth and final study, the proposed Coati-WTHM-Ens model, which is developed in the same study, is illustrated and applied to the Egyptian school-dropout dataset in addition to eighteen application-based diverse datasets from UCI benchmarking database. Collectively, these evaluations demonstrate the effectiveness of the proposed model both in a real-world social application that investigates the causes of school dropout, and across a wide range of classification problems in various domains, thereby confirming the model’s generalizability and practical utility. The classification results show that the proposed Coati-WTHM-Ens model significantly outperforms seventeen state-of-the-art ensemble methods by achieving higher classification performance in the majority of datasets. Moreover, the model surpasses the baseline metrics of the UCI datasets and achieves a substantial improvement in predicting school-dropout cases. In summary, it could be said that this thesis offers valuable contributions to the fields of ensemble learning, metaheuristic optimization, and educational data mining as an example of applying artificial intelligence to social domains. This provides insights that can help researchers enhance their theoretical understanding and develop their practical applications in these fields through the use of artificial intelligence; تستكشف هذه الأطروحة أساليب متقدمة في التعلم الآلي تحت الإشراف، بهدف تحسين مهام التصنيف وتقديم رؤى حول تطبيقاتها العملية في المجالات الواقعية، وبشكل خاص في قطاع التعليم. تم تنظيم هذه الأطروحة البحثية في أربع دراسات مترابطة، تتكامل تدريجيًا مع بعضها البعض، وتسعى معاً إلى معالجة الفجوات النظرية والتحديات التطبيقية في مجال التعلم القائم على الأداء الموحد الانتقائي. تقدم الدراسة الأولى مراجعة منهجية لأساليب التعلم القائم على الأداء الموحد الانتقائي بالاعتماد على الخوارزميات الميتا-استدلالية، حيث تتناول هذه المراجعة تحليلاً نقديًا للأساليب القائمة من حيث اختيار نماذج التعلم الآلي الأساسية، واستراتيجيات التجميع، وأطر التقييم. كما تسلط هذه الدراسة المرجعية الضوء على التحديات الرئيسية في هذا المجال البحثي، مثل الموازنة بين الدقة والتنوع، والتعامل مع التنبؤات المفرطة الثقة، ومعالجة البيانات غير المتوازنة. استنادًا إلى الرؤى المستخلصة من هذه المراجعة المنهجية، تقترح الرسالة إطارًا جديدًا للتعلم القائم على الأداء الموحد الانتقائي يُعرف باسم: " نموذج التعلم القائم على الأداء الموحد الانتقائي بالاعتماد على المتوسط التوافقي المرجح باستخدام الخوارزمية الميتا-استدلالية الجديدة (Coati-WTHM-Ens) ". ويُقدم هذا النموذج آلية تجميع جديدة تعتمد على المتوسط التوافقي المقتطع بهدف تقليل تأثير القيم الاحتمالية المتطرفة، وبالتالي تحسين استقرار نموذج الأداء الموحد. وسعيا للاختبار التطبيقي الجاد لهذا النموذج المقترح والتحقق من فعاليته، تم إجراء دراستين تطبيقيتين للكشف المبكر عن التسرب المدرسي في مصر تبعا لمسبباته الاجتماعية والاقتصادية، بهدف بناء أساس تجريبي متين وضمان مرجعية تقييم عادلة. تقوم هاتان الدراستان بتقييم أداء مجموعة من نماذج التعلم الآلي تحت الإشراف تحت استراتيجيات إعادة معاينة مختلفة للتعامل مع مشكلة عدم توازن الفئات. ومن الجدير بالذكر أن الدراسة الثانية تقدم أيضًا مقياسًا جديدًا شاملاً للتقييم يُعرف باسم " مقياس الأداء الموحد الموزون" (WUPM) ، والذي يجمع بين عدة مؤشرات أداء تقليدية لتقديم تقييم أكثر توازنًا وشمولًا في سياقات التصنيف غير المتوازن. أما في الدراسة الرابعة والأخيرة، فيتم تطبيق النموذج المقترح Coati-WTHM-Ens المطور في نفس الدراسة على كل من مجموعة بيانات التسرب المدرسي المصرية، فضلا عن ثمانية عشر مجموعة بيانات متنوعة التطبيقات من قاعدة بيانات UCI المعيارية. تُظهر جميع هذه التقييمات في مجملها فعالية النموذج المقترح سواء في سياق تطبيقي اجتماعي واقعي يبحث في مسببات التسرب المدرسي، وكذلك في مجموعة واسعة من مشكلات التصنيف في مجالات مختلفة، مما يؤكد قابلية تعميم النموذج المقترح وفائدته العملية. إذ تُظهر نتائج التصنيف أن هذا النموذج يتفوق بشكل ملحوظ على سبعة عشر نموذجًا تجميعيًا، من حيث تحقيق أداء تصنيفي أعلى في معظم المجموعات. كما يتجاوز هذا النموذج المعايير الأساسية لمجموعات بيانات UCI، وأيضا يُحسن وبفارق كبير القدرة على الكشف المبكر لحالات التسرب المدرسي. وباختصار، يمكن القول إن هذه الرسالة تقدم مساهمات علمية في مجالات التعلم القائم على الأداء الموحد، والتحسين الميتا-استدلالي وفي مجالات التنقيب في بيانات التعليم كمثال للعديد من المجالات الاجتماعية، مما يوفّر رؤى يمكن أن تساعد الباحثين في تعزيز فهمهم النظري وتطوير تطبيقاتهم العملية في هذه المجالات باستخدام الذكاء الاصطناعي ER -