000 09702namaa22004331i 4500
003 OSt
005 20250413105955.0
008 250325s2024 |||a|||f m||| 000 0 eng d
040 _aEG-GICUC
_beng
_cEG-GICUC
_dEG-GICUC
_erda
041 0 _aeng
_beng
_bara
049 _aDeposit
082 0 4 _a006.31
092 _a006.31
_221
097 _aPh.D
099 _aCai01.18.04.Ph.D.2024.Ph.C
100 0 _aPhoebe Magdy Abd El Massieh Metias,
_epreparation.
245 1 0 _aComparing penalized statistical models versus machine learning algorithms :
_ban application in the oro-dental field /
_cPhoebe Magdy Abd El Massieh Metias ; Supervised Prof. Amany Mousa Mohamed, Prof. Mostafa Ibrahim Mostafa, Prof. Shereen Hamdy Abdel-Latif.
246 1 5 _aمقارنة النماذج الإحصائية الجزائية مقابل خوارزميات التعلم الآلي :
_bتطبيق فى مجال الفم والأسنان /
264 0 _c2024.
300 _a146 pages :
_billustrations ;
_c30 cm. +
_eCD.
336 _atext
_2rda content
337 _aUnmediated
_2rdamedia
338 _avolume
_2rdacarrier
502 _aThesis (Ph.D)-Cairo University, 2024.
504 _aBibliography: pages 131-146.
520 _aEctodermal dysplasia (ED) is a monogenic rare genetic disorder. It is characterized by primary glitches in two or more structures that originate from the ectoderm, including hair, nails, teeth, and/or sweat glands. They have varying degrees of phenotypic severity, which can significantly impact their quality of life. Accurate prediction of these patients’ phenotype is vital for future prognoses and early planning for the different modalities of therapies and adequate preparation for genetic counseling for patients and their parents, thus improving their quality of life. The main focus of this thesis is to compare the performance of different machine learning (ML) algorithms to the traditional statistical logistic regression (LR) in classifying the phenotype severity of ED cases from their genotype profiles. Six different classification models were applied, (K-Nearest Neighbors (KNN), Decision Tree (DT), Random Forest (RF), Extreme Gradient Boosting (XGBoost), Support Vector Machine (SVM), and penalized LR) to a total of 41 ED patients with a total of 569,650 single nucleotide polymorphisms (SNPs), and compared their performances in phenotype prediction. We aimed to optimize the receiver operating characteristics area under the curve (ROC-AUC) as our primary metric of interest in model evaluation and algorithm choice. Results showed that the predictions varied greatly when using different feature sets, however final results using a carefully selected set of features revealed that the ensemble techniques (RF and XGboost) along with KNN demonstrated the highest and comparable ROC-AUC values of 0.9 on the external test set, with a 95% confidence interval of 0.723-0.999. Conversely, penalized LR exhibited much lesser predictive ability in distinguishing between various classes, with a ROC-AUC (95% CI) of 0.6 (0.31 – 0.89). The conclusion was that accurately predicting the phenotype of patients with ED is achievable, and doing so can greatly enhance their quality of life. It was also concluded that the ability to utilize ML in prognostic modeling may depend on various factors, including sample size, selected features, and the specific disease being studied.
520 _aمن المواضيع العامة التي حظيت بالاهتمام في كلاً من المجالات الإحصائية والطبية هو تحليل البيانات الضخمة ذات الأنواع المتعددة من الدراسات المعقدة والمنظمة جيدًا والتي يتم إنشاؤها يوميًا لفهم الظواهر البيولوجية المعقدة، مثل العديد من الأمراض التي تصيب الإنسان. والموضوع الأكثر تحديدًا والذي يثير اهتمامًا كبيرًا للعديد من الباحثين هو التنبؤ بالأنماط الظاهرية للمرضى من خلال بيانات النمط الجيني الضخمة الخاصة بهم. في السابق، كان التحدي يكمن في توليد البيانات، ولكن التحدي في الوقت الحاضر يكمن في استخراج البيانات واستخلاص المعلومات البيولوجية المفيدة والهادفة من هذا الحجم الضخم من مجموعات البيانات. إن ضخامة حجم البيانات يتحدى منهجيات تحليل البيانات بالطريقة الإحصائية الكلاسيكية لوجود قيود عند التعامل مع البيانات الضخمة والتي تم التغلب عليها عن طريق استخدام خوارزميات التعلم الآلي. تهتم الطرق الإحصائية الكلاسيكية بشكل أساسي باستخلاص الاستدلالات من العينة قابلة للتعميم، بينما تهتم خوارزميات تعلم الآلة بإيجاد أنماط تنبؤية. بشكل عام، تعتمد الأساليب الإحصائية التقليدية على الافتراضات المتعلقة بالبيانات، في حين أن تقنيات التعلم الآلي تضع افتراضات أقل. أيضًا، التقنيات الإحصائية الكلاسيكية تفترض ان البيانات تحتوي على عدد من المتغيرات أقل من عدد افراد العينة، في حين أن طرق تعلم الآلة مفيدة بشكل خاص عند مواجهة "البيانات الواسعة"، والتي تشير إلى مجموعات البيانات حيث يتجاوز عدد المتغيرات عدد افراد العينة. في مجال البحث البيولوجي، يتم تحقيق هدفين رئيسيين: الاستدلال والتنبؤ. على الرغم من أن الإحصائيات وتعلم الآلة لهما أدوار مختلفة في دراسة النظم البيولوجية، إلا أنهما متكاملان في استخلاص استنتاجات بيولوجية ذات معنى. التركيز الرئيسي لهذه الرسالة هو استخدام خوارزميات التنبؤ المختلفة للتنبؤ بالأنماط الظاهرية للمرضى من النمط الوراثي الخاص بهم. كما تم استخدام نموذج تصنيف الانحدار اللوجستي الإحصائي الكلاسيكي المقيد للتصنيف والتنبؤ وتم تطبيق التقنيتين على نفس مجموعة البيانات وتمت مقارنة النتائج. والغرض من ذلك هو تحديد النموذج ذو القدرة على تقديم أعلى قيمة تنبؤية بأقصى قدر ممكن من إمكانية التفسير فيما يتعلق بالمتغيرات المستخدمة للتنبؤ في سياق معين. عرض خلل التنسج الأديم الظاهر هو حالة تنشأ من عيوب خلقية تؤثر على نمو اثنين أو أكثر من بنيات الجسم المستمدة من الأديم الظاهر. وتشمل هذه البنيات الأظافر والأسنان والجلد والشعر وبعض الغدد، مثل الغدد العرقية. تم الحصول على البيانات المتاحة للدراسة من المرضى الذين يحضرون عيادة وراثة الفم والأسنان وعيادة الأمراض الجلدية الجينية فى المركز القومى للبحوث- بالقاهرة. خضع جميع المرضى لفحص سريري وفحص شامل للفم والأسنان مع التركيز على الجلد وهياكل الأديم الظاهرى ذات الصلة. تم إجراء صور شعاعية بانورامية كلما أمكن ذلك لتقييم عدد الأسنان المفقودة للمرضى المعينين. تكونت مجموعة الدراسة من 41 حالة، 20 أنثى و21 ذكرًا، تتراوح أعمارهم بين 1.5 إلى 25 عامًا بمتوسط عمر 7 سنوات. غالبًا ما تتراوح السمات المظهرية التي تحدد مرضى خلل التنسج الأديمي الظاهرى من خفيفة - متوسطة إلى شديدة. تم تصنيف المرضى في هذه الدراسة على أن أنماطهم الظاهرية خفيفة إذا تأثرت بنيتان فقط من الأديم الظاهر، ومتوسطة إذا تأثرت ثلاثة بنيات، وشديد إذا تأثر أكثر من ثلاثة بنيات. في هذه الدراسة، كان لدى جميع المرضى خصائص متوسطة (19 مريضًا) أو شديدة (22 مريضًا) مع عدم تصنيف أي حالة على أنها تعاني من أعراض خفيفة.
530 _aIssues also as CD.
546 _aText in English and abstract in Arabic & English.
650 7 _aMachine learning
_2qrmak
653 0 _aLogistic Regression
_aEctodermal Dysplasia
_aMachine Learning
_aPhenotype Prediction
_aPrognostic Modeling
700 0 _aAmany Mousa Mohamed
_ethesis advisor.
700 0 _aMostafa Ibrahim Mostafa
_ethesis advisor.
700 0 _aShereen Hamdy Abdel-Latif
_ethesis advisor.
900 _b01-01-2024
_cShereen Hamdy Abdel-Latif
_cMostafa Ibrahim Mostafa
_cShereen Hamdy Abdel-Latif
_UCairo University
_FFaculty of Graduate Studies for Statistical Research
_DDepartment of Applied Statistics and Econometrics
905 _aShimaa
_eHuda
942 _2ddc
_cTH
_e21
_n0
999 _c171289