| 000 | 09702namaa22004331i 4500 | ||
|---|---|---|---|
| 003 | OSt | ||
| 005 | 20250413105955.0 | ||
| 008 | 250325s2024 |||a|||f m||| 000 0 eng d | ||
| 040 | 
_aEG-GICUC _beng _cEG-GICUC _dEG-GICUC _erda  | 
||
| 041 | 0 | 
_aeng _beng _bara  | 
|
| 049 | _aDeposit | ||
| 082 | 0 | 4 | _a006.31 | 
| 092 | 
_a006.31 _221  | 
||
| 097 | _aPh.D | ||
| 099 | _aCai01.18.04.Ph.D.2024.Ph.C | ||
| 100 | 0 | 
_aPhoebe Magdy Abd El Massieh Metias, _epreparation.  | 
|
| 245 | 1 | 0 | 
_aComparing penalized statistical models versus machine learning algorithms : _ban application in the oro-dental field / _cPhoebe Magdy Abd El Massieh Metias ; Supervised Prof. Amany Mousa Mohamed, Prof. Mostafa Ibrahim Mostafa, Prof. Shereen Hamdy Abdel-Latif.  | 
| 246 | 1 | 5 | 
_aمقارنة النماذج الإحصائية الجزائية مقابل خوارزميات التعلم الآلي :  _bتطبيق فى مجال الفم والأسنان /  | 
| 264 | 0 | _c2024. | |
| 300 | 
_a146 pages :  _billustrations ; _c30 cm. + _eCD.  | 
||
| 336 | 
_atext _2rda content  | 
||
| 337 | 
_aUnmediated _2rdamedia  | 
||
| 338 | 
_avolume _2rdacarrier  | 
||
| 502 | _aThesis (Ph.D)-Cairo University, 2024. | ||
| 504 | _aBibliography: pages 131-146. | ||
| 520 | _aEctodermal dysplasia (ED) is a monogenic rare genetic disorder. It is characterized by primary glitches in two or more structures that originate from the ectoderm, including hair, nails, teeth, and/or sweat glands. They have varying degrees of phenotypic severity, which can significantly impact their quality of life. Accurate prediction of these patients’ phenotype is vital for future prognoses and early planning for the different modalities of therapies and adequate preparation for genetic counseling for patients and their parents, thus improving their quality of life. The main focus of this thesis is to compare the performance of different machine learning (ML) algorithms to the traditional statistical logistic regression (LR) in classifying the phenotype severity of ED cases from their genotype profiles. Six different classification models were applied, (K-Nearest Neighbors (KNN), Decision Tree (DT), Random Forest (RF), Extreme Gradient Boosting (XGBoost), Support Vector Machine (SVM), and penalized LR) to a total of 41 ED patients with a total of 569,650 single nucleotide polymorphisms (SNPs), and compared their performances in phenotype prediction. We aimed to optimize the receiver operating characteristics area under the curve (ROC-AUC) as our primary metric of interest in model evaluation and algorithm choice. Results showed that the predictions varied greatly when using different feature sets, however final results using a carefully selected set of features revealed that the ensemble techniques (RF and XGboost) along with KNN demonstrated the highest and comparable ROC-AUC values of 0.9 on the external test set, with a 95% confidence interval of 0.723-0.999. Conversely, penalized LR exhibited much lesser predictive ability in distinguishing between various classes, with a ROC-AUC (95% CI) of 0.6 (0.31 – 0.89). The conclusion was that accurately predicting the phenotype of patients with ED is achievable, and doing so can greatly enhance their quality of life. It was also concluded that the ability to utilize ML in prognostic modeling may depend on various factors, including sample size, selected features, and the specific disease being studied. | ||
| 520 | _aمن المواضيع العامة التي حظيت بالاهتمام في كلاً من المجالات الإحصائية والطبية هو تحليل البيانات الضخمة ذات الأنواع المتعددة من الدراسات المعقدة والمنظمة جيدًا والتي يتم إنشاؤها يوميًا لفهم الظواهر البيولوجية المعقدة، مثل العديد من الأمراض التي تصيب الإنسان. والموضوع الأكثر تحديدًا والذي يثير اهتمامًا كبيرًا للعديد من الباحثين هو التنبؤ بالأنماط الظاهرية للمرضى من خلال بيانات النمط الجيني الضخمة الخاصة بهم. في السابق، كان التحدي يكمن في توليد البيانات، ولكن التحدي في الوقت الحاضر يكمن في استخراج البيانات واستخلاص المعلومات البيولوجية المفيدة والهادفة من هذا الحجم الضخم من مجموعات البيانات. إن ضخامة حجم البيانات يتحدى منهجيات تحليل البيانات بالطريقة الإحصائية الكلاسيكية لوجود قيود عند التعامل مع البيانات الضخمة والتي تم التغلب عليها عن طريق استخدام خوارزميات التعلم الآلي. تهتم الطرق الإحصائية الكلاسيكية بشكل أساسي باستخلاص الاستدلالات من العينة قابلة للتعميم، بينما تهتم خوارزميات تعلم الآلة بإيجاد أنماط تنبؤية. بشكل عام، تعتمد الأساليب الإحصائية التقليدية على الافتراضات المتعلقة بالبيانات، في حين أن تقنيات التعلم الآلي تضع افتراضات أقل. أيضًا، التقنيات الإحصائية الكلاسيكية تفترض ان البيانات تحتوي على عدد من المتغيرات أقل من عدد افراد العينة، في حين أن طرق تعلم الآلة مفيدة بشكل خاص عند مواجهة "البيانات الواسعة"، والتي تشير إلى مجموعات البيانات حيث يتجاوز عدد المتغيرات عدد افراد العينة. في مجال البحث البيولوجي، يتم تحقيق هدفين رئيسيين: الاستدلال والتنبؤ. على الرغم من أن الإحصائيات وتعلم الآلة لهما أدوار مختلفة في دراسة النظم البيولوجية، إلا أنهما متكاملان في استخلاص استنتاجات بيولوجية ذات معنى. التركيز الرئيسي لهذه الرسالة هو استخدام خوارزميات التنبؤ المختلفة للتنبؤ بالأنماط الظاهرية للمرضى من النمط الوراثي الخاص بهم. كما تم استخدام نموذج تصنيف الانحدار اللوجستي الإحصائي الكلاسيكي المقيد للتصنيف والتنبؤ وتم تطبيق التقنيتين على نفس مجموعة البيانات وتمت مقارنة النتائج. والغرض من ذلك هو تحديد النموذج ذو القدرة على تقديم أعلى قيمة تنبؤية بأقصى قدر ممكن من إمكانية التفسير فيما يتعلق بالمتغيرات المستخدمة للتنبؤ في سياق معين. عرض خلل التنسج الأديم الظاهر هو حالة تنشأ من عيوب خلقية تؤثر على نمو اثنين أو أكثر من بنيات الجسم المستمدة من الأديم الظاهر. وتشمل هذه البنيات الأظافر والأسنان والجلد والشعر وبعض الغدد، مثل الغدد العرقية. تم الحصول على البيانات المتاحة للدراسة من المرضى الذين يحضرون عيادة وراثة الفم والأسنان وعيادة الأمراض الجلدية الجينية فى المركز القومى للبحوث- بالقاهرة. خضع جميع المرضى لفحص سريري وفحص شامل للفم والأسنان مع التركيز على الجلد وهياكل الأديم الظاهرى ذات الصلة. تم إجراء صور شعاعية بانورامية كلما أمكن ذلك لتقييم عدد الأسنان المفقودة للمرضى المعينين. تكونت مجموعة الدراسة من 41 حالة، 20 أنثى و21 ذكرًا، تتراوح أعمارهم بين 1.5 إلى 25 عامًا بمتوسط عمر 7 سنوات. غالبًا ما تتراوح السمات المظهرية التي تحدد مرضى خلل التنسج الأديمي الظاهرى من خفيفة - متوسطة إلى شديدة. تم تصنيف المرضى في هذه الدراسة على أن أنماطهم الظاهرية خفيفة إذا تأثرت بنيتان فقط من الأديم الظاهر، ومتوسطة إذا تأثرت ثلاثة بنيات، وشديد إذا تأثر أكثر من ثلاثة بنيات. في هذه الدراسة، كان لدى جميع المرضى خصائص متوسطة (19 مريضًا) أو شديدة (22 مريضًا) مع عدم تصنيف أي حالة على أنها تعاني من أعراض خفيفة. | ||
| 530 | _aIssues also as CD. | ||
| 546 | _aText in English and abstract in Arabic & English. | ||
| 650 | 7 | 
_aMachine learning _2qrmak  | 
|
| 653 | 0 | 
_aLogistic Regression _aEctodermal Dysplasia _aMachine Learning _aPhenotype Prediction _aPrognostic Modeling  | 
|
| 700 | 0 | 
_aAmany Mousa Mohamed _ethesis advisor.  | 
|
| 700 | 0 | 
_aMostafa Ibrahim Mostafa   _ethesis advisor.  | 
|
| 700 | 0 | 
_aShereen Hamdy Abdel-Latif _ethesis advisor.  | 
|
| 900 | 
_b01-01-2024 _cShereen Hamdy Abdel-Latif _cMostafa Ibrahim Mostafa _cShereen Hamdy Abdel-Latif _UCairo University _FFaculty of Graduate Studies for Statistical Research _DDepartment of Applied Statistics and Econometrics  | 
||
| 905 | 
_aShimaa _eHuda  | 
||
| 942 | 
_2ddc _cTH _e21 _n0  | 
||
| 999 | _c171289 | ||