An enhanced classification algorithm for classification problems / by Mohamed Ezzeldin Saleh Mohamed ; Supervised Dr. Nadia Abd-Alsabour.
Material type:
TextLanguage: English Summary language: English, Arabic Producer: 2025Description: 113 Leaves : illustrations ; 30 cm. + CDContent type: - text
- Unmediated
- volume
- خوارزمية محسنة لمشكلات التصنيف [Added title page title]
- 005.13
- Issues also as CD.
| Item type | Current library | Home library | Call number | Status | Barcode | |
|---|---|---|---|---|---|---|
Thesis
|
قاعة الرسائل الجامعية - الدور الاول | المكتبة المركزبة الجديدة - جامعة القاهرة | Cai01.18.02.M.Sc.2025.Mo.E (Browse shelf(Opens below)) | Not for loan | 01010110092931000 |
Thesis (M.Sc)-Cairo University, 2025.
Bibliography: pages 108-113.
In the dynamic telecommunications industry, customer churn prediction (CCP) plays a
crucial role in maintaining competitiveness and ensuring long-term profitability. This thesis
presents a comprehensive exploration into enhancing churn prediction by systematically
improving traditional and ensemble-based machine learning models through robust preprocessing
and model optimization strategies. Using the benchmark Cell2Cell dataset, the study applies a
broad spectrum of preprocessing methods; including multiple imputation techniques,
normalization approaches, feature selection, and class balancing via SMOTE Tomek, resulting in
the generation of 16 distinct, high-quality datasets tailored for effective model training.
The research begins by evaluating how diverse combinations of preprocessing steps affect
the performance of a Decision Tree (DT) model, revealing that K-Nearest Neighbor (KNN)
imputation, MMADN normalization, and Lasso feature selection significantly enhance accuracy
and model robustness. Building upon this, a novel ensemble classifier, the Systematic Forest
(SF), is introduced to address DT’s limitations such as overfitting and lack of generalization. The
SF model achieved notable gains in accuracy and recall, demonstrating better stability in
handling complex feature interactions. Subsequently, the thesis focuses on optimizing tree-based
classifiers, specifically DT (enhanced through grid search as DT+), Random Forest (RF), and
XGBoost (XGB). Grid search-based hyperparameter tuning is employed to refine these models,
and comparative evaluations highlight XGBoost as the top performer with an accuracy of 83%
and ROC-AUC of 88%. RF also shows consistent strength, achieving robust performance due to
its ensemble architecture and adaptability.
Overall, this work offers a unified preprocessing and model evaluation framework for
telecom churn prediction. It emphasizes that meticulous data preparation, model tuning, and
algorithmic innovation collectively lead to interpretable, scalable, and high-performing models.
The findings provide actionable insights for deploying churn prediction solutions in real-world.
في صناعة الاتصالات الديناميكية، يلعب التنبؤ بانسحاب العملاء دورًا محوريًا في الحفاظ على القدرة التنافسية وضمان الربحية على المدى الطويل. تقدم هذه الأطروحة استكشافًا شاملًا لتعزيز التنبؤ بانسحاب العملاء من خلال تحسين منهجي للنماذج التقليدية ونماذج التعلم الآلي القائمة على التجميع، وذلك باستخدام استراتيجيات قوية في المعالجة المسبقة للبيانات وتحسين النماذج.
وباستخدام مجموعة البيانات القياسية "Cell2Cell" ، طبقت الدراسة مجموعة واسعة من أساليب المعالجة المسبقة، بما في ذلك العديد من تقنيات التعويض ، وأساليب تطبيع البيانات، واختيار السمات ، وموازنة الفئات عبر تقنية "SMOTE Tomek" ، مما أدى إلى إنشاء 16 مجموعة بيانات متميزة وعالية الجودة مُعدة خصيصًا لتدريب النماذج بشكل فعال .
تبدأ الدراسة بتقييم كيفية تأثير التركيبات المتنوعة لخطوات المعالجة المسبقة على أداء نموذج شجرة القرار (DT) ،
حيث تكشف النتائج أن تقنيات التعويض بإستخدام طريقة أقرب الجيران ) KNN ) ، و تطبيع البيانات باستخدام "MMADN" ، واختيار السمات باستخدام "Lasso" تعزز بشكل كبير من دقة النموذج وقوته. بناءً على هذه النتائج، تم تقديم مصنف تجميعي جديد يُدعى الغابة الممنهجة (SF) لمعالجة القيود المعروفة في نموذج شجرة القرار، مثل الإفراط في التخصيص وعدم القدرة على التعميم. وقد حقق النموذج تحسينات ملحوظة في الدقة والاستدعاء، مما أظهر قدرة أفضل على التعامل مع التفاعلات المعقدة بين السمات .بعد ذلك، تركز الأطروحة على تحسين المصنفات القائمة على الأشجار، وتحديدًا شجرة القرار المحسنة باستخدام البحث الشبكي والمعروفة باسم "DT+" ، بالإضافة إلى غابة القرار العشوائي و نموذج XGBoost (XGB) تم استخدام ضبط المعلمات الفائقة عبر البحث الشبكي لتحسين هذه النماذج، وأظهرت التقييمات المقارنة أن XGBoost كان الأفضل أداءً بدقة بلغت 83 % ونسبة ROC-AUC مقدارها 88% . كما أظهرت غابة القرار العشوائي قوة متسقة وأداءً قويًا بفضل بنيتها التجميعية وقدرتها على التكيف
Issues also as CD.
Text in English and abstract in Arabic & English.
There are no comments on this title.