Data driven automated machine learning pipeline recommendation framework /
Ibrahim Gomaa Ibrahim Abdelghany,
Data driven automated machine learning pipeline recommendation framework / اطار عمل توصيات آلى مدفوع بالبيانات لخط أنابيب التعلم الآلى by Ibrahim Gomaa Ibrahim Abdelghany ; Supervision Prof. Dr. Hoda Mokhtar Omar Mokhtar, Prof. Dr. Neamat El-Tazi, Dr. Ali Zidane. - 101 Leaves : illustrations ; 30 cm. + CD.
Thesis (Ph.D)-Cairo University, 2025.
Bibliography: pages 92 -101.
Machine Learning (ML) and Automated Machine Learning (Auto-ML)
have attracted more attention in recent years. ML pipelines include
repetitive tasks such as data pre-processing, feature engineering, model
selection, and hyperparameter optimization. Building a machine learning
model requires extensive time for development, stress testing, and multiple
experiments. Besides, building a model with a small search space of
pipeline steps and multiple algorithms takes hours. Hence, Auto-ML has
been widely adapted to save time and effort on such tasks. Auto-ML aims
to minimize human involvement in the loop while building ML tasks.
Consequently, it facilitates the development of ML for business, for ML
experts, and for non-technical users. Auto-ML frameworks can be used in
three broad domains: supervised learning, unsupervised learning, and deep
learning. While these frameworks have shown promise, significant gaps
persist, particularly in supervised and unsupervised learning contexts. This
thesis addresses these limitations through novel methodological
contributions and comprehensive empirical validation.
In the realm of supervised learning, existing Auto-ML frameworks
have many limitations. Most focus only on a part of the ML pipeline, such
as hyperparameter tuning or model selection, rather than optimizing the
end-to-end workflow, leading to suboptimal solutions for specific datasets.
Furthermore, the absence of meta-learning integration restricts their
adaptability, forcing users to initiate exhaustive pipeline searches for every
new task instead of leveraging historical knowledge to derive generalized,
robust solutions. Compounding these issues is the inadequate handling of
class-imbalanced datasets, a prevalent challenge in real-world applications.
To address these gaps, this work introduces SML-AutoML, a meta-
learning-driven framework designed for automated algorithm selection and
pipeline optimization. The proposed system holistically automates the
supervised learning pipeline, spanning data preprocessing, feature
engineering, model selection, and hyperparameter optimization, while
explicitly incorporating meta-learning to transfer knowledge across tasks.
Additionally, it integrates advanced resampling techniques and cost-
sensitive learning to mitigate class imbalance, ensuring robust performance
on skewed datasets.
While Auto-ML research has predominantly focused on supervised
learning, the automation of unsupervised learning, particularly clustering,
remains underexplored despite its broad applicability in domains such as
customer segmentation, financial analytics, and marketing strategy. Current
automated clustering frameworks prioritize dataset characteristics but
neglect critical factors such as algorithmic properties, computational
constraints, and user-specific requirements (e.g., interpretability or
scalability). To bridge this gap, we propose SOL-Auto-Clust, an end-to-end
framework that automates the entire clustering pipeline. SOL-Auto-Clust
synthesizes data characteristics (e.g., dimensionality, sparsity), algorithmic
traits (e.g., sensitivity to noise, scalability), and user-defined objectives to
recommend optimal clustering workflows. The framework automates labor-
intensive tasks, including data normalization, feature transformation, cluster
count estimation via novel validity metrics, and algorithm selection. It
further incorporates multi-objective optimization to balance competing
criteria such as cluster cohesion, runtime efficiency, and alignment with
user-defined objectives.
Both frameworks were rigorously evaluated on diverse open-source
datasets. SML-AutoML demonstrated superior performance over state-of-
the-art tools (e.g., Auto-Sklearn, TPOT) across metrics such as accuracy,
precision, and recall. Similarly, SOL-Auto-Clust outperformed existing
clustering Auto-ML baselines (e.g., AutoCluster, AutoClust, ML2DAC)
across metrics such as silhouette score and Adjusted Rand Index (ARI). حظي تعلم الآلة (ML) وتعلم الآلة الآلي (Auto-ML) باهتمام متزايد في السنوات الأخيرة. تتضمن خط أنابيب تعلم الآلة مهام متكررة مثل المعالجة المسبقة للبيانات، وهندسة الميزات، واختيار النموذج، وتحسين المعلمات الفائقة. يتطلب بناء نموذج تعلم آلة وقتًا طويلاً للتطوير واختبار الإجهاد وإجراء تجارب متعددة. بالإضافة إلى ذلك، يستغرق بناء نموذج بمساحة بحث صغيرة لخطوات خط الأنابيب وخوارزميات متعددة ساعات. وبالتالي، تم تكييف تعلم الآلة الآلي على نطاق واسع لتوفير الوقت والجهد في مثل هذه المهام. يهدف تعلم الآلة الآلي إلى تقليل التدخل البشري في الحلقة أثناء بناء مهام تعلم الآلة. ونتيجة لذلك، فإنه يسهل تطوير تعلم الآلة للأعمال التجارية، ولخبراء تعلم الآلة، وللمستخدمين غير التقنيين. يتم تصنيف أطر تعلم الآلة الآلي على نطاق واسع إلى ثلاثة مجالات: التعلم الخاضع للإشراف، والتعلم غير الخاضع للإشراف، والتعلم العميق. في حين أظهرت هذه الأطر تطوراً، لا تزال هناك فجوات كبيرة، لا سيما في سياقات التعلم الخاضع للإشراف وغير الخاضع للإشراف. تتناول هذه الرسالة هذه القيود من خلال مساهمات منهجية جديدة وتصديق تجريبي شامل.
في مجال التعلم الخاضع للإشراف، تعاني أطر تعلم الآلة الآلي الحالية من العديد من القيود حيث يركز معظمها على جزء من خط أنابيب تعلم الآلة فقط، مثل ضبط المعلمات الفائقة أو اختيار النموذج، بدلاً من تحسين سير العمل الشامل، مما يؤدي إلى حلول دون المستوى الأمثل لمجموعات بيانات محددة. علاوة على ذلك، فإن غياب تكامل التعلم الفوقي يقيد قدرتها على التكيف، مما يجبر المستخدمين على بدء عمليات بحث شاملة في خط الأنابيب لكل مهمة جديدة بدلاً من الاستفادة من المعرفة التاريخية لاستخلاص حلول عامة وقوية. ومما يزيد هذه المشاكل تعقيدًا هو عدم كفاية التعامل مع مجموعات البيانات غير المتوازنة للفئات، وهو تحدٍ شائع في التطبيقات الواقعية. لمعالجة هذه الفجوات، يقدم هذا العمل SML-AutoML، وهو إطار عمل مدفوع بالتعلم الفوقي مصمم للاختيار الآلي للخوارزميات وتحسين خطوط الأنابيب. يقوم النظام المقترح بأتمه شاملة لخط أنابيب التعلم الخاضع للإشراف، الذي يمتد من المعالجة المسبقة للبيانات، وهندسة الميزات، واختيار النموذج، وتحسين المعلمات الفائقة، مع دمج التعلم الفوقي بشكل صريح لنقل المعرفة عبر المهام. بالإضافة إلى ذلك، فإنه يدمج تقنيات إعادة التشكيل المتقدمة والتعلم الحساس للتكلفة للتخفيف من عدم توازن الفئات، مما يضمن أداءً قويًا على مجموعات البيانات المنحرفة.
على الرغم من أن أبحاث تعلم الآلة الآلي ركزت بشكل أساسي على التعلم الخاضع للإشراف، فإن أتمتة التعلم غير الخاضع للإشراف، وخاصة التجميع، لا تزال غير مستكشفة على الرغم من قابليتها للتطبيق على نطاق واسع في مجالات مثل تجزئة العملاء، والتحليلات المالية، واستراتيجية التسويق. تعطي أطر التجميع الآلي الحالية الأولوية لخصائص مجموعة البيانات ولكنها تهمل عوامل حاسمة مثل الخصائص الخوارزمية، والقيود الحسابية، ومتطلبات المستخدم المحددة (مثل قابلية التفسير أو قابلية التوسع). لسد هذه الفجوة، نقترح SOL-Auto-Clust، وهو إطار عمل شامل يقوم بأتمتة خط أنابيب التجميع بأكمله. يقوم SOL-Auto-Clust بتجميع خصائص البيانات (مثل الأبعاد، التناثر)، والسمات الخوارزمية (مثل الحساسية للقيم المتطرفة ، قابلية التوسع)، والأهداف المحددة من قبل المستخدم للتوصية بسير عمل تجميع مثالي. يقوم الإطار بأتمتة المهام كثيفة العمالة، بما في ذلك تطبيع البيانات، وتحويل الميزات، وتقدير عدد التجمعات عبر مقاييس صلاحية جديدة، واختيار الخوارزمية. كما أنه يشتمل على تحسين متعدد الأهداف لتحقيق التوازن بين المعايير المتنافسة مثل تماسك التجمعات، وكفاءة وقت التشغيل، والتوافق مع الأهداف المحددة من قبل المستخدم.
تم تقييم كلا الإطارين بدقة على مجموعات بيانات متنوعة مفتوحة المصدر. أظهر SML-AutoML أداءً متفوقًا على الأدوات الحديثةمثل ( Auto-Sklearn، TPOT ) عبر مقاييس مثل الدقة، والدقة، والاستدعاء. وبالمثل، تفوق SOL-Auto-Clust على خطوط الأساس الحالية لتعلم الآلة الآلي للتجميعمثل ( AutoCluster، AutoClust، ML2DAC) عبر مقاييس مثل درجة الظلية ومؤشر راند المعدل. (ARI)
Text in English and abstract in Arabic & English.
Machine learning
التعلم الآلى
Automated Machine Learning (Auto-ML) hyperparameter optimization (HPO) Meta-learning, supervised learning CASH Automated clustering, unsupervised learning الذكاء الاصطناعى التعلم الألة
006.31
Data driven automated machine learning pipeline recommendation framework / اطار عمل توصيات آلى مدفوع بالبيانات لخط أنابيب التعلم الآلى by Ibrahim Gomaa Ibrahim Abdelghany ; Supervision Prof. Dr. Hoda Mokhtar Omar Mokhtar, Prof. Dr. Neamat El-Tazi, Dr. Ali Zidane. - 101 Leaves : illustrations ; 30 cm. + CD.
Thesis (Ph.D)-Cairo University, 2025.
Bibliography: pages 92 -101.
Machine Learning (ML) and Automated Machine Learning (Auto-ML)
have attracted more attention in recent years. ML pipelines include
repetitive tasks such as data pre-processing, feature engineering, model
selection, and hyperparameter optimization. Building a machine learning
model requires extensive time for development, stress testing, and multiple
experiments. Besides, building a model with a small search space of
pipeline steps and multiple algorithms takes hours. Hence, Auto-ML has
been widely adapted to save time and effort on such tasks. Auto-ML aims
to minimize human involvement in the loop while building ML tasks.
Consequently, it facilitates the development of ML for business, for ML
experts, and for non-technical users. Auto-ML frameworks can be used in
three broad domains: supervised learning, unsupervised learning, and deep
learning. While these frameworks have shown promise, significant gaps
persist, particularly in supervised and unsupervised learning contexts. This
thesis addresses these limitations through novel methodological
contributions and comprehensive empirical validation.
In the realm of supervised learning, existing Auto-ML frameworks
have many limitations. Most focus only on a part of the ML pipeline, such
as hyperparameter tuning or model selection, rather than optimizing the
end-to-end workflow, leading to suboptimal solutions for specific datasets.
Furthermore, the absence of meta-learning integration restricts their
adaptability, forcing users to initiate exhaustive pipeline searches for every
new task instead of leveraging historical knowledge to derive generalized,
robust solutions. Compounding these issues is the inadequate handling of
class-imbalanced datasets, a prevalent challenge in real-world applications.
To address these gaps, this work introduces SML-AutoML, a meta-
learning-driven framework designed for automated algorithm selection and
pipeline optimization. The proposed system holistically automates the
supervised learning pipeline, spanning data preprocessing, feature
engineering, model selection, and hyperparameter optimization, while
explicitly incorporating meta-learning to transfer knowledge across tasks.
Additionally, it integrates advanced resampling techniques and cost-
sensitive learning to mitigate class imbalance, ensuring robust performance
on skewed datasets.
While Auto-ML research has predominantly focused on supervised
learning, the automation of unsupervised learning, particularly clustering,
remains underexplored despite its broad applicability in domains such as
customer segmentation, financial analytics, and marketing strategy. Current
automated clustering frameworks prioritize dataset characteristics but
neglect critical factors such as algorithmic properties, computational
constraints, and user-specific requirements (e.g., interpretability or
scalability). To bridge this gap, we propose SOL-Auto-Clust, an end-to-end
framework that automates the entire clustering pipeline. SOL-Auto-Clust
synthesizes data characteristics (e.g., dimensionality, sparsity), algorithmic
traits (e.g., sensitivity to noise, scalability), and user-defined objectives to
recommend optimal clustering workflows. The framework automates labor-
intensive tasks, including data normalization, feature transformation, cluster
count estimation via novel validity metrics, and algorithm selection. It
further incorporates multi-objective optimization to balance competing
criteria such as cluster cohesion, runtime efficiency, and alignment with
user-defined objectives.
Both frameworks were rigorously evaluated on diverse open-source
datasets. SML-AutoML demonstrated superior performance over state-of-
the-art tools (e.g., Auto-Sklearn, TPOT) across metrics such as accuracy,
precision, and recall. Similarly, SOL-Auto-Clust outperformed existing
clustering Auto-ML baselines (e.g., AutoCluster, AutoClust, ML2DAC)
across metrics such as silhouette score and Adjusted Rand Index (ARI). حظي تعلم الآلة (ML) وتعلم الآلة الآلي (Auto-ML) باهتمام متزايد في السنوات الأخيرة. تتضمن خط أنابيب تعلم الآلة مهام متكررة مثل المعالجة المسبقة للبيانات، وهندسة الميزات، واختيار النموذج، وتحسين المعلمات الفائقة. يتطلب بناء نموذج تعلم آلة وقتًا طويلاً للتطوير واختبار الإجهاد وإجراء تجارب متعددة. بالإضافة إلى ذلك، يستغرق بناء نموذج بمساحة بحث صغيرة لخطوات خط الأنابيب وخوارزميات متعددة ساعات. وبالتالي، تم تكييف تعلم الآلة الآلي على نطاق واسع لتوفير الوقت والجهد في مثل هذه المهام. يهدف تعلم الآلة الآلي إلى تقليل التدخل البشري في الحلقة أثناء بناء مهام تعلم الآلة. ونتيجة لذلك، فإنه يسهل تطوير تعلم الآلة للأعمال التجارية، ولخبراء تعلم الآلة، وللمستخدمين غير التقنيين. يتم تصنيف أطر تعلم الآلة الآلي على نطاق واسع إلى ثلاثة مجالات: التعلم الخاضع للإشراف، والتعلم غير الخاضع للإشراف، والتعلم العميق. في حين أظهرت هذه الأطر تطوراً، لا تزال هناك فجوات كبيرة، لا سيما في سياقات التعلم الخاضع للإشراف وغير الخاضع للإشراف. تتناول هذه الرسالة هذه القيود من خلال مساهمات منهجية جديدة وتصديق تجريبي شامل.
في مجال التعلم الخاضع للإشراف، تعاني أطر تعلم الآلة الآلي الحالية من العديد من القيود حيث يركز معظمها على جزء من خط أنابيب تعلم الآلة فقط، مثل ضبط المعلمات الفائقة أو اختيار النموذج، بدلاً من تحسين سير العمل الشامل، مما يؤدي إلى حلول دون المستوى الأمثل لمجموعات بيانات محددة. علاوة على ذلك، فإن غياب تكامل التعلم الفوقي يقيد قدرتها على التكيف، مما يجبر المستخدمين على بدء عمليات بحث شاملة في خط الأنابيب لكل مهمة جديدة بدلاً من الاستفادة من المعرفة التاريخية لاستخلاص حلول عامة وقوية. ومما يزيد هذه المشاكل تعقيدًا هو عدم كفاية التعامل مع مجموعات البيانات غير المتوازنة للفئات، وهو تحدٍ شائع في التطبيقات الواقعية. لمعالجة هذه الفجوات، يقدم هذا العمل SML-AutoML، وهو إطار عمل مدفوع بالتعلم الفوقي مصمم للاختيار الآلي للخوارزميات وتحسين خطوط الأنابيب. يقوم النظام المقترح بأتمه شاملة لخط أنابيب التعلم الخاضع للإشراف، الذي يمتد من المعالجة المسبقة للبيانات، وهندسة الميزات، واختيار النموذج، وتحسين المعلمات الفائقة، مع دمج التعلم الفوقي بشكل صريح لنقل المعرفة عبر المهام. بالإضافة إلى ذلك، فإنه يدمج تقنيات إعادة التشكيل المتقدمة والتعلم الحساس للتكلفة للتخفيف من عدم توازن الفئات، مما يضمن أداءً قويًا على مجموعات البيانات المنحرفة.
على الرغم من أن أبحاث تعلم الآلة الآلي ركزت بشكل أساسي على التعلم الخاضع للإشراف، فإن أتمتة التعلم غير الخاضع للإشراف، وخاصة التجميع، لا تزال غير مستكشفة على الرغم من قابليتها للتطبيق على نطاق واسع في مجالات مثل تجزئة العملاء، والتحليلات المالية، واستراتيجية التسويق. تعطي أطر التجميع الآلي الحالية الأولوية لخصائص مجموعة البيانات ولكنها تهمل عوامل حاسمة مثل الخصائص الخوارزمية، والقيود الحسابية، ومتطلبات المستخدم المحددة (مثل قابلية التفسير أو قابلية التوسع). لسد هذه الفجوة، نقترح SOL-Auto-Clust، وهو إطار عمل شامل يقوم بأتمتة خط أنابيب التجميع بأكمله. يقوم SOL-Auto-Clust بتجميع خصائص البيانات (مثل الأبعاد، التناثر)، والسمات الخوارزمية (مثل الحساسية للقيم المتطرفة ، قابلية التوسع)، والأهداف المحددة من قبل المستخدم للتوصية بسير عمل تجميع مثالي. يقوم الإطار بأتمتة المهام كثيفة العمالة، بما في ذلك تطبيع البيانات، وتحويل الميزات، وتقدير عدد التجمعات عبر مقاييس صلاحية جديدة، واختيار الخوارزمية. كما أنه يشتمل على تحسين متعدد الأهداف لتحقيق التوازن بين المعايير المتنافسة مثل تماسك التجمعات، وكفاءة وقت التشغيل، والتوافق مع الأهداف المحددة من قبل المستخدم.
تم تقييم كلا الإطارين بدقة على مجموعات بيانات متنوعة مفتوحة المصدر. أظهر SML-AutoML أداءً متفوقًا على الأدوات الحديثةمثل ( Auto-Sklearn، TPOT ) عبر مقاييس مثل الدقة، والدقة، والاستدعاء. وبالمثل، تفوق SOL-Auto-Clust على خطوط الأساس الحالية لتعلم الآلة الآلي للتجميعمثل ( AutoCluster، AutoClust، ML2DAC) عبر مقاييس مثل درجة الظلية ومؤشر راند المعدل. (ARI)
Text in English and abstract in Arabic & English.
Machine learning
التعلم الآلى
Automated Machine Learning (Auto-ML) hyperparameter optimization (HPO) Meta-learning, supervised learning CASH Automated clustering, unsupervised learning الذكاء الاصطناعى التعلم الألة
006.31