000 12450namaa22004451i 4500
003 EG-GICUC
005 20260309113159.0
008 260223s2025 ua a|||frm||| 000 0 eng d
040 _aEG-GICUC
_beng
_cEG-GICUC
_dEG-GICUC
_erda
041 0 _aeng
_beng
_bara
049 _aDeposit
082 0 4 _a006.31
092 _a006.31
_221
097 _aPh.D
099 _aCai01.20.04.Ph.D.2025.Ib.D
100 0 _aIbrahim Gomaa Ibrahim Abdelghany,
_epreparation.
245 1 0 _aData driven automated machine learning pipeline recommendation framework /
_cby Ibrahim Gomaa Ibrahim Abdelghany ; Supervision Prof. Dr. Hoda Mokhtar Omar Mokhtar, Prof. Dr. Neamat El-Tazi, Dr. Ali Zidane.
246 1 5 _aاطار عمل توصيات آلى مدفوع بالبيانات لخط أنابيب التعلم الآلى
264 0 _c2025.
300 _a101 Leaves :
_billustrations ;
_c30 cm. +
_eCD.
336 _atext
_2rda content
337 _aUnmediated
_2rdamedia
338 _avolume
_2rdacarrier
502 _aThesis (Ph.D)-Cairo University, 2025.
504 _aBibliography: pages 92 -101.
520 3 _aMachine Learning (ML) and Automated Machine Learning (Auto-ML) have attracted more attention in recent years. ML pipelines include repetitive tasks such as data pre-processing, feature engineering, model selection, and hyperparameter optimization. Building a machine learning model requires extensive time for development, stress testing, and multiple experiments. Besides, building a model with a small search space of pipeline steps and multiple algorithms takes hours. Hence, Auto-ML has been widely adapted to save time and effort on such tasks. Auto-ML aims to minimize human involvement in the loop while building ML tasks. Consequently, it facilitates the development of ML for business, for ML experts, and for non-technical users. Auto-ML frameworks can be used in three broad domains: supervised learning, unsupervised learning, and deep learning. While these frameworks have shown promise, significant gaps persist, particularly in supervised and unsupervised learning contexts. This thesis addresses these limitations through novel methodological contributions and comprehensive empirical validation. In the realm of supervised learning, existing Auto-ML frameworks have many limitations. Most focus only on a part of the ML pipeline, such as hyperparameter tuning or model selection, rather than optimizing the end-to-end workflow, leading to suboptimal solutions for specific datasets. Furthermore, the absence of meta-learning integration restricts their adaptability, forcing users to initiate exhaustive pipeline searches for every new task instead of leveraging historical knowledge to derive generalized, robust solutions. Compounding these issues is the inadequate handling of class-imbalanced datasets, a prevalent challenge in real-world applications. To address these gaps, this work introduces SML-AutoML, a meta- learning-driven framework designed for automated algorithm selection and pipeline optimization. The proposed system holistically automates the supervised learning pipeline, spanning data preprocessing, feature engineering, model selection, and hyperparameter optimization, while explicitly incorporating meta-learning to transfer knowledge across tasks. Additionally, it integrates advanced resampling techniques and cost- sensitive learning to mitigate class imbalance, ensuring robust performance on skewed datasets. While Auto-ML research has predominantly focused on supervised learning, the automation of unsupervised learning, particularly clustering, remains underexplored despite its broad applicability in domains such as customer segmentation, financial analytics, and marketing strategy. Current automated clustering frameworks prioritize dataset characteristics but neglect critical factors such as algorithmic properties, computational constraints, and user-specific requirements (e.g., interpretability or scalability). To bridge this gap, we propose SOL-Auto-Clust, an end-to-end framework that automates the entire clustering pipeline. SOL-Auto-Clust synthesizes data characteristics (e.g., dimensionality, sparsity), algorithmic traits (e.g., sensitivity to noise, scalability), and user-defined objectives to recommend optimal clustering workflows. The framework automates labor- intensive tasks, including data normalization, feature transformation, cluster count estimation via novel validity metrics, and algorithm selection. It further incorporates multi-objective optimization to balance competing criteria such as cluster cohesion, runtime efficiency, and alignment with user-defined objectives. Both frameworks were rigorously evaluated on diverse open-source datasets. SML-AutoML demonstrated superior performance over state-of- the-art tools (e.g., Auto-Sklearn, TPOT) across metrics such as accuracy, precision, and recall. Similarly, SOL-Auto-Clust outperformed existing clustering Auto-ML baselines (e.g., AutoCluster, AutoClust, ML2DAC) across metrics such as silhouette score and Adjusted Rand Index (ARI).
520 3 _aحظي تعلم الآلة (ML) وتعلم الآلة الآلي (Auto-ML) باهتمام متزايد في السنوات الأخيرة. تتضمن خط أنابيب تعلم الآلة مهام متكررة مثل المعالجة المسبقة للبيانات، وهندسة الميزات، واختيار النموذج، وتحسين المعلمات الفائقة. يتطلب بناء نموذج تعلم آلة وقتًا طويلاً للتطوير واختبار الإجهاد وإجراء تجارب متعددة. بالإضافة إلى ذلك، يستغرق بناء نموذج بمساحة بحث صغيرة لخطوات خط الأنابيب وخوارزميات متعددة ساعات. وبالتالي، تم تكييف تعلم الآلة الآلي على نطاق واسع لتوفير الوقت والجهد في مثل هذه المهام. يهدف تعلم الآلة الآلي إلى تقليل التدخل البشري في الحلقة أثناء بناء مهام تعلم الآلة. ونتيجة لذلك، فإنه يسهل تطوير تعلم الآلة للأعمال التجارية، ولخبراء تعلم الآلة، وللمستخدمين غير التقنيين. يتم تصنيف أطر تعلم الآلة الآلي على نطاق واسع إلى ثلاثة مجالات: التعلم الخاضع للإشراف، والتعلم غير الخاضع للإشراف، والتعلم العميق. في حين أظهرت هذه الأطر تطوراً، لا تزال هناك فجوات كبيرة، لا سيما في سياقات التعلم الخاضع للإشراف وغير الخاضع للإشراف. تتناول هذه الرسالة هذه القيود من خلال مساهمات منهجية جديدة وتصديق تجريبي شامل. في مجال التعلم الخاضع للإشراف، تعاني أطر تعلم الآلة الآلي الحالية من العديد من القيود حيث يركز معظمها على جزء من خط أنابيب تعلم الآلة فقط، مثل ضبط المعلمات الفائقة أو اختيار النموذج، بدلاً من تحسين سير العمل الشامل، مما يؤدي إلى حلول دون المستوى الأمثل لمجموعات بيانات محددة. علاوة على ذلك، فإن غياب تكامل التعلم الفوقي يقيد قدرتها على التكيف، مما يجبر المستخدمين على بدء عمليات بحث شاملة في خط الأنابيب لكل مهمة جديدة بدلاً من الاستفادة من المعرفة التاريخية لاستخلاص حلول عامة وقوية. ومما يزيد هذه المشاكل تعقيدًا هو عدم كفاية التعامل مع مجموعات البيانات غير المتوازنة للفئات، وهو تحدٍ شائع في التطبيقات الواقعية. لمعالجة هذه الفجوات، يقدم هذا العمل SML-AutoML، وهو إطار عمل مدفوع بالتعلم الفوقي مصمم للاختيار الآلي للخوارزميات وتحسين خطوط الأنابيب. يقوم النظام المقترح بأتمه شاملة لخط أنابيب التعلم الخاضع للإشراف، الذي يمتد من المعالجة المسبقة للبيانات، وهندسة الميزات، واختيار النموذج، وتحسين المعلمات الفائقة، مع دمج التعلم الفوقي بشكل صريح لنقل المعرفة عبر المهام. بالإضافة إلى ذلك، فإنه يدمج تقنيات إعادة التشكيل المتقدمة والتعلم الحساس للتكلفة للتخفيف من عدم توازن الفئات، مما يضمن أداءً قويًا على مجموعات البيانات المنحرفة. على الرغم من أن أبحاث تعلم الآلة الآلي ركزت بشكل أساسي على التعلم الخاضع للإشراف، فإن أتمتة التعلم غير الخاضع للإشراف، وخاصة التجميع، لا تزال غير مستكشفة على الرغم من قابليتها للتطبيق على نطاق واسع في مجالات مثل تجزئة العملاء، والتحليلات المالية، واستراتيجية التسويق. تعطي أطر التجميع الآلي الحالية الأولوية لخصائص مجموعة البيانات ولكنها تهمل عوامل حاسمة مثل الخصائص الخوارزمية، والقيود الحسابية، ومتطلبات المستخدم المحددة (مثل قابلية التفسير أو قابلية التوسع). لسد هذه الفجوة، نقترح SOL-Auto-Clust، وهو إطار عمل شامل يقوم بأتمتة خط أنابيب التجميع بأكمله. يقوم SOL-Auto-Clust بتجميع خصائص البيانات (مثل الأبعاد، التناثر)، والسمات الخوارزمية (مثل الحساسية للقيم المتطرفة ، قابلية التوسع)، والأهداف المحددة من قبل المستخدم للتوصية بسير عمل تجميع مثالي. يقوم الإطار بأتمتة المهام كثيفة العمالة، بما في ذلك تطبيع البيانات، وتحويل الميزات، وتقدير عدد التجمعات عبر مقاييس صلاحية جديدة، واختيار الخوارزمية. كما أنه يشتمل على تحسين متعدد الأهداف لتحقيق التوازن بين المعايير المتنافسة مثل تماسك التجمعات، وكفاءة وقت التشغيل، والتوافق مع الأهداف المحددة من قبل المستخدم. تم تقييم كلا الإطارين بدقة على مجموعات بيانات متنوعة مفتوحة المصدر. أظهر SML-AutoML أداءً متفوقًا على الأدوات الحديثةمثل ( Auto-Sklearn، TPOT ) عبر مقاييس مثل الدقة، والدقة، والاستدعاء. وبالمثل، تفوق SOL-Auto-Clust على خطوط الأساس الحالية لتعلم الآلة الآلي للتجميعمثل ( AutoCluster، AutoClust، ML2DAC) عبر مقاييس مثل درجة الظلية ومؤشر راند المعدل. (ARI)
530 _aIssues also as CD.
546 _aText in English and abstract in Arabic & English.
650 0 _aMachine learning
650 0 _aالتعلم الآلى
653 1 _aAutomated Machine Learning (Auto-ML)
_ahyperparameter optimization (HPO)
_aMeta-learning, supervised learning
_aCASH
_aAutomated clustering, unsupervised learning
_aالذكاء الاصطناعى
_aالتعلم الألة
700 0 _aHoda Mokhtar Omar Mokhtar
_ethesis advisor.
700 0 _aNeamat El-Tazi
_ethesis advisor.
700 0 _aAli Zidane
_ethesis advisor.
900 _b01-01-2023
_cHoda Mokhtar Omar Mokhtar
_cNeamat El-Tazi
_cAli Zidane
_UCairo University
_FFaculty of Computers and Artificial Intelligence
_DDepartment of Information Systems
905 _aShimaa
_eEman Ghareb
942 _2ddc
_cTH
_e21
_n0
999 _c178676