Comparing penalized statistical models versus machine learning algorithms : (Record no. 171289)

MARC details
000 -LEADER
fixed length control field 09702namaa22004331i 4500
003 - CONTROL NUMBER IDENTIFIER
control field OSt
005 - أخر تعامل مع التسجيلة
control field 20250413105955.0
008 - FIXED-LENGTH DATA ELEMENTS--GENERAL INFORMATION
fixed length control field 250325s2024 |||a|||f m||| 000 0 eng d
040 ## - CATALOGING SOURCE
Original cataloguing agency EG-GICUC
Language of cataloging eng
Transcribing agency EG-GICUC
Modifying agency EG-GICUC
Description conventions rda
041 0# - LANGUAGE CODE
Language code of text/sound track or separate title eng
Language code of summary or abstract eng
-- ara
049 ## - Acquisition Source
Acquisition Source Deposit
082 04 - DEWEY DECIMAL CLASSIFICATION NUMBER
Classification number 006.31
092 ## - LOCALLY ASSIGNED DEWEY CALL NUMBER (OCLC)
Classification number 006.31
Edition number 21
097 ## - Degree
Degree Ph.D
099 ## - LOCAL FREE-TEXT CALL NUMBER (OCLC)
Local Call Number Cai01.18.04.Ph.D.2024.Ph.C
100 0# - MAIN ENTRY--PERSONAL NAME
Authority record control number or standard number Phoebe Magdy Abd El Massieh Metias,
Preparation preparation.
245 10 - TITLE STATEMENT
Title Comparing penalized statistical models versus machine learning algorithms :
Remainder of title an application in the oro-dental field /
Statement of responsibility, etc. Phoebe Magdy Abd El Massieh Metias ; Supervised Prof. Amany Mousa Mohamed, Prof. Mostafa Ibrahim Mostafa, Prof. Shereen Hamdy Abdel-Latif.
246 15 - VARYING FORM OF TITLE
Title proper/short title مقارنة النماذج الإحصائية الجزائية مقابل خوارزميات التعلم الآلي :
Remainder of title تطبيق فى مجال الفم والأسنان /
264 #0 - PRODUCTION, PUBLICATION, DISTRIBUTION, MANUFACTURE, AND COPYRIGHT NOTICE
Date of production, publication, distribution, manufacture, or copyright notice 2024.
300 ## - PHYSICAL DESCRIPTION
Extent 146 pages :
Other physical details illustrations ;
Dimensions 30 cm. +
Accompanying material CD.
336 ## - CONTENT TYPE
Content type term text
Source rda content
337 ## - MEDIA TYPE
Media type term Unmediated
Source rdamedia
338 ## - CARRIER TYPE
Carrier type term volume
Source rdacarrier
502 ## - DISSERTATION NOTE
Dissertation note Thesis (Ph.D)-Cairo University, 2024.
504 ## - BIBLIOGRAPHY, ETC. NOTE
Bibliography, etc. note Bibliography: pages 131-146.
520 ## - SUMMARY, ETC.
Summary, etc. Ectodermal dysplasia (ED) is a monogenic rare genetic disorder. It is characterized by primary glitches in two or more structures that originate from the ectoderm, including hair, nails, teeth, and/or sweat glands. They have varying degrees of phenotypic severity, which can significantly impact their quality of life. Accurate prediction of these patients’ phenotype is vital for future prognoses and early planning for the different modalities of therapies and adequate preparation for genetic counseling for patients and their parents, thus improving their quality of life. The main focus of this thesis is to compare the performance of different machine learning (ML) algorithms to the traditional statistical logistic regression (LR) in classifying the phenotype severity of ED cases from their genotype profiles. Six different classification models were applied, (K-Nearest Neighbors (KNN), Decision Tree (DT), Random Forest (RF), Extreme Gradient Boosting (XGBoost), Support Vector Machine (SVM), and penalized LR) to a total of 41 ED patients with a total of 569,650 single nucleotide polymorphisms (SNPs), and compared their performances in phenotype prediction. We aimed to optimize the receiver operating characteristics area under the curve (ROC-AUC) as our primary metric of interest in model evaluation and algorithm choice. <br/>Results showed that the predictions varied greatly when using different feature sets, however final results using a carefully selected set of features revealed that the ensemble techniques (RF and XGboost) along with KNN demonstrated the highest and comparable ROC-AUC values of 0.9 on the external test set, with a 95% confidence interval of 0.723-0.999. Conversely, penalized LR exhibited much lesser predictive ability in distinguishing between various classes, with a ROC-AUC (95% CI) of 0.6 (0.31 – 0.89).<br/>The conclusion was that accurately predicting the phenotype of patients with ED is achievable, and doing so can greatly enhance their quality of life. It was also concluded that the ability to utilize ML in prognostic modeling may depend on various factors, including sample size, selected features, and the specific disease being studied.
520 ## - SUMMARY, ETC.
Summary, etc. من المواضيع العامة التي حظيت بالاهتمام في كلاً من المجالات الإحصائية والطبية هو تحليل البيانات الضخمة ذات الأنواع المتعددة من الدراسات المعقدة والمنظمة جيدًا والتي يتم إنشاؤها يوميًا لفهم الظواهر البيولوجية المعقدة، مثل العديد من الأمراض التي تصيب الإنسان. والموضوع الأكثر تحديدًا والذي يثير اهتمامًا كبيرًا للعديد من الباحثين هو التنبؤ بالأنماط الظاهرية للمرضى من خلال بيانات النمط الجيني الضخمة الخاصة بهم. في السابق، كان التحدي يكمن في توليد البيانات، ولكن التحدي في الوقت الحاضر يكمن في استخراج البيانات واستخلاص المعلومات البيولوجية المفيدة والهادفة من هذا الحجم الضخم من مجموعات البيانات.<br/> إن ضخامة حجم البيانات يتحدى منهجيات تحليل البيانات بالطريقة الإحصائية الكلاسيكية لوجود قيود عند التعامل مع البيانات الضخمة والتي تم التغلب عليها عن طريق استخدام خوارزميات التعلم الآلي. تهتم الطرق الإحصائية الكلاسيكية بشكل أساسي باستخلاص الاستدلالات من العينة قابلة للتعميم، بينما تهتم خوارزميات تعلم الآلة بإيجاد أنماط تنبؤية. بشكل عام، تعتمد الأساليب الإحصائية التقليدية على الافتراضات المتعلقة بالبيانات، في حين أن تقنيات التعلم الآلي تضع افتراضات أقل. أيضًا، التقنيات الإحصائية الكلاسيكية تفترض ان البيانات تحتوي على عدد من المتغيرات أقل من عدد افراد العينة، في حين أن طرق تعلم الآلة مفيدة بشكل خاص عند مواجهة "البيانات الواسعة"، والتي تشير إلى مجموعات البيانات حيث يتجاوز عدد المتغيرات عدد افراد العينة. في مجال البحث البيولوجي، يتم تحقيق هدفين رئيسيين: الاستدلال والتنبؤ. على الرغم من أن الإحصائيات وتعلم الآلة لهما أدوار مختلفة في دراسة النظم البيولوجية، إلا أنهما متكاملان في استخلاص استنتاجات بيولوجية ذات معنى.<br/>التركيز الرئيسي لهذه الرسالة هو استخدام خوارزميات التنبؤ المختلفة للتنبؤ بالأنماط الظاهرية للمرضى من النمط الوراثي الخاص بهم. كما تم استخدام نموذج تصنيف الانحدار اللوجستي الإحصائي الكلاسيكي المقيد للتصنيف والتنبؤ وتم تطبيق التقنيتين على نفس مجموعة البيانات وتمت مقارنة النتائج. والغرض من ذلك هو تحديد النموذج ذو القدرة على تقديم أعلى قيمة تنبؤية بأقصى قدر ممكن من إمكانية التفسير فيما يتعلق بالمتغيرات المستخدمة للتنبؤ في سياق معين.<br/>عرض خلل التنسج الأديم الظاهر هو حالة تنشأ من عيوب خلقية تؤثر على نمو اثنين أو أكثر من بنيات الجسم المستمدة من الأديم الظاهر. وتشمل هذه البنيات الأظافر والأسنان والجلد والشعر وبعض الغدد، مثل الغدد العرقية.<br/>تم الحصول على البيانات المتاحة للدراسة من المرضى الذين يحضرون عيادة وراثة الفم والأسنان وعيادة الأمراض الجلدية الجينية فى المركز القومى للبحوث- بالقاهرة. خضع جميع المرضى لفحص سريري وفحص شامل للفم والأسنان مع التركيز على الجلد وهياكل الأديم الظاهرى ذات الصلة. تم إجراء صور شعاعية بانورامية كلما أمكن ذلك لتقييم عدد الأسنان المفقودة للمرضى المعينين. تكونت مجموعة الدراسة من 41 حالة، 20 أنثى و21 ذكرًا، تتراوح أعمارهم بين 1.5 إلى 25 عامًا بمتوسط عمر 7 سنوات. غالبًا ما تتراوح السمات المظهرية التي تحدد مرضى خلل التنسج الأديمي الظاهرى من خفيفة - متوسطة إلى شديدة. تم تصنيف المرضى في هذه الدراسة على أن أنماطهم الظاهرية خفيفة إذا تأثرت بنيتان فقط من الأديم الظاهر، ومتوسطة إذا تأثرت ثلاثة بنيات، وشديد إذا تأثر أكثر من ثلاثة بنيات. في هذه الدراسة، كان لدى جميع المرضى خصائص متوسطة (19 مريضًا) أو شديدة (22 مريضًا) مع عدم تصنيف أي حالة على أنها تعاني من أعراض خفيفة.
530 ## - ADDITIONAL PHYSICAL FORM AVAILABLE NOTE
Issues CD Issues also as CD.
546 ## - LANGUAGE NOTE
Text Language Text in English and abstract in Arabic & English.
650 #7 - SUBJECT ADDED ENTRY--TOPICAL TERM
Topical term or geographic name entry element Machine learning
Source of heading or term qrmak
653 #0 - INDEX TERM--UNCONTROLLED
Uncontrolled term Logistic Regression
-- Ectodermal Dysplasia
-- Machine Learning
-- Phenotype Prediction
-- Prognostic Modeling
700 0# - ADDED ENTRY--PERSONAL NAME
Personal name Amany Mousa Mohamed
Relator term thesis advisor.
700 0# - ADDED ENTRY--PERSONAL NAME
Personal name Mostafa Ibrahim Mostafa
Relator term thesis advisor.
700 0# - ADDED ENTRY--PERSONAL NAME
Personal name Shereen Hamdy Abdel-Latif
Relator term thesis advisor.
900 ## - Thesis Information
Grant date 01-01-2024
Supervisory body Shereen Hamdy Abdel-Latif
-- Mostafa Ibrahim Mostafa
-- Shereen Hamdy Abdel-Latif
Universities Cairo University
Faculties Faculty of Graduate Studies for Statistical Research
Department Department of Applied Statistics and Econometrics
905 ## - Cataloger and Reviser Names
Cataloger Name Shimaa
Reviser Names Huda
942 ## - ADDED ENTRY ELEMENTS (KOHA)
Source of classification or shelving scheme Dewey Decimal Classification
Koha item type Thesis
Edition 21
Suppress in OPAC No
Holdings
Source of classification or shelving scheme Home library Current library Date acquired Inventory number Full call number Barcode Date last seen Effective from Koha item type
Dewey Decimal Classification المكتبة المركزبة الجديدة - جامعة القاهرة قاعة الرسائل الجامعية - الدور الاول 25.03.2025 90836 Cai01.18.04.Ph.D.2024.Ph.C 01010110090836000 25.03.2025 25.03.2025 Thesis
Cairo University Libraries Portal Implemented & Customized by: Eng. M. Mohamady Contacts: new-lib@cl.cu.edu.eg | cnul@cl.cu.edu.eg
CUCL logo CNUL logo
© All rights reserved — Cairo University Libraries
CUCL logo
Implemented & Customized by: Eng. M. Mohamady Contact: new-lib@cl.cu.edu.eg © All rights reserved — New Central Library
CNUL logo
Implemented & Customized by: Eng. M. Mohamady Contact: cnul@cl.cu.edu.eg © All rights reserved — Cairo National University Library