Comparing penalized statistical models versus machine learning algorithms : an application in the oro-dental field / Phoebe Magdy Abd El Massieh Metias ; Supervised Prof. Amany Mousa Mohamed, Prof. Mostafa Ibrahim Mostafa, Prof. Shereen Hamdy Abdel-Latif.
Material type:
TextLanguage: English Summary language: English, Arabic Producer: 2024Description: 146 pages :  illustrations ; 30 cm. +  CDContent type: - text
 
- Unmediated
 
- volume
 
- مقارنة النماذج الإحصائية الجزائية مقابل خوارزميات التعلم الآلي : تطبيق فى مجال الفم والأسنان [Added title page title]
 
- 006.31
 
- Issues also as CD.
 
| Item type | Current library | Home library | Call number | Status | Barcode | |
|---|---|---|---|---|---|---|
                            
                                
                                     
                                
                            
                            Thesis
                         | 
                    
                    
                        
                        
                        
                        قاعة الرسائل الجامعية - الدور الاول | المكتبة المركزبة الجديدة - جامعة القاهرة | Cai01.18.04.Ph.D.2024.Ph.C (Browse shelf(Opens below)) | Not for loan | 01010110090836000 | 
Thesis (Ph.D)-Cairo University, 2024.
Bibliography: pages 131-146.
                                                    
                                                        Ectodermal dysplasia (ED) is a monogenic rare genetic disorder. It is characterized by primary glitches in two or more structures that originate from the ectoderm, including hair, nails, teeth, and/or sweat glands. They have varying degrees of phenotypic severity, which can significantly impact their quality of life. Accurate prediction of these patients’ phenotype is vital for future prognoses and early planning for the different modalities of therapies and adequate preparation for genetic counseling for patients and their parents, thus improving their quality of life. The main focus of this thesis is to compare the performance of different machine learning (ML) algorithms to the traditional statistical logistic regression (LR) in classifying the phenotype severity of ED cases from their genotype profiles.  Six different classification models were applied, (K-Nearest Neighbors (KNN), Decision Tree (DT), Random Forest (RF), Extreme Gradient Boosting (XGBoost), Support Vector Machine (SVM), and penalized LR) to a total of 41 ED patients with a total of 569,650 single nucleotide polymorphisms (SNPs), and compared their performances in phenotype prediction. We aimed to optimize the receiver operating characteristics area under the curve (ROC-AUC) as our primary metric of interest in model evaluation and algorithm choice. 
Results showed that the predictions varied greatly when using different feature sets, however final results using a carefully selected set of features revealed that the ensemble techniques (RF and XGboost) along with KNN demonstrated the highest and comparable ROC-AUC values of 0.9 on the external test set, with a 95% confidence interval of 0.723-0.999. Conversely, penalized LR exhibited much lesser predictive ability in distinguishing between various classes, with a ROC-AUC (95% CI) of 0.6 (0.31 – 0.89).
The conclusion was that accurately predicting the phenotype of patients with ED is achievable, and doing so can greatly enhance their quality of life. It was also concluded that the ability to utilize ML in prognostic modeling may depend on various factors, including sample size, selected features, and the specific disease being studied.
                                                    
                                                
                                                    
                                                        من المواضيع العامة التي حظيت بالاهتمام في كلاً من المجالات الإحصائية والطبية هو تحليل البيانات الضخمة ذات الأنواع المتعددة من الدراسات المعقدة والمنظمة جيدًا والتي يتم إنشاؤها يوميًا لفهم الظواهر البيولوجية المعقدة، مثل العديد من الأمراض التي تصيب الإنسان. والموضوع الأكثر تحديدًا والذي يثير اهتمامًا كبيرًا للعديد من الباحثين هو التنبؤ بالأنماط الظاهرية للمرضى من خلال بيانات النمط الجيني الضخمة الخاصة بهم. في السابق، كان التحدي يكمن في توليد البيانات، ولكن التحدي في الوقت الحاضر يكمن في استخراج البيانات واستخلاص المعلومات البيولوجية المفيدة والهادفة من هذا الحجم الضخم من مجموعات البيانات.
 إن ضخامة حجم البيانات يتحدى منهجيات تحليل البيانات بالطريقة الإحصائية الكلاسيكية لوجود قيود عند التعامل مع البيانات الضخمة والتي تم التغلب عليها عن طريق استخدام خوارزميات التعلم الآلي. تهتم الطرق الإحصائية الكلاسيكية بشكل أساسي باستخلاص الاستدلالات من العينة قابلة للتعميم، بينما تهتم خوارزميات تعلم الآلة بإيجاد أنماط تنبؤية. بشكل عام، تعتمد الأساليب الإحصائية التقليدية على الافتراضات المتعلقة بالبيانات، في حين أن تقنيات التعلم الآلي تضع افتراضات أقل. أيضًا، التقنيات الإحصائية الكلاسيكية تفترض ان البيانات تحتوي على عدد من المتغيرات أقل من عدد افراد العينة، في حين أن طرق تعلم الآلة مفيدة بشكل خاص عند مواجهة "البيانات الواسعة"، والتي تشير إلى مجموعات البيانات حيث يتجاوز عدد المتغيرات عدد افراد العينة. في مجال البحث البيولوجي، يتم تحقيق هدفين رئيسيين: الاستدلال والتنبؤ. على الرغم من أن الإحصائيات وتعلم الآلة لهما أدوار مختلفة في دراسة النظم البيولوجية، إلا أنهما متكاملان في استخلاص استنتاجات بيولوجية ذات معنى.
التركيز الرئيسي لهذه الرسالة هو استخدام خوارزميات التنبؤ المختلفة للتنبؤ بالأنماط الظاهرية للمرضى من النمط الوراثي الخاص بهم. كما تم استخدام نموذج تصنيف الانحدار اللوجستي الإحصائي الكلاسيكي المقيد للتصنيف والتنبؤ وتم تطبيق التقنيتين على نفس مجموعة البيانات وتمت مقارنة النتائج. والغرض من ذلك هو تحديد النموذج ذو القدرة على تقديم أعلى قيمة تنبؤية بأقصى قدر ممكن من إمكانية التفسير فيما يتعلق بالمتغيرات المستخدمة للتنبؤ في سياق معين.
عرض خلل التنسج الأديم الظاهر هو حالة تنشأ من عيوب خلقية تؤثر على نمو اثنين أو أكثر من بنيات الجسم المستمدة من الأديم الظاهر. وتشمل هذه البنيات الأظافر والأسنان والجلد والشعر وبعض الغدد، مثل الغدد العرقية.
تم الحصول على البيانات المتاحة للدراسة من المرضى الذين يحضرون عيادة وراثة الفم والأسنان وعيادة الأمراض الجلدية الجينية فى المركز القومى للبحوث- بالقاهرة. خضع جميع المرضى لفحص سريري وفحص شامل للفم والأسنان مع التركيز على الجلد وهياكل الأديم الظاهرى ذات الصلة. تم إجراء صور شعاعية بانورامية كلما أمكن ذلك لتقييم عدد الأسنان المفقودة للمرضى المعينين. تكونت مجموعة الدراسة من 41 حالة، 20 أنثى و21 ذكرًا، تتراوح أعمارهم بين 1.5 إلى 25 عامًا بمتوسط عمر 7 سنوات. غالبًا ما تتراوح السمات المظهرية التي تحدد مرضى خلل التنسج الأديمي الظاهرى من خفيفة - متوسطة إلى شديدة. تم تصنيف المرضى في هذه الدراسة على أن أنماطهم الظاهرية خفيفة إذا تأثرت بنيتان فقط من الأديم الظاهر، ومتوسطة إذا تأثرت ثلاثة بنيات، وشديد إذا تأثر أكثر من ثلاثة بنيات. في هذه الدراسة، كان لدى جميع المرضى خصائص متوسطة (19 مريضًا) أو شديدة (22 مريضًا) مع عدم تصنيف أي حالة على أنها تعاني من أعراض خفيفة.
                                                    
                                                
Issues also as CD.
Text in English and abstract in Arabic & English.
There are no comments on this title.