Survival Analysis: Statistical Approaches Vs Machine Learning Approaches/ Mariam Khaled Fouad Hegazy ; Supervisors: Prof. Ahmed Mahmoud Gad, Dr. Mahmoud Mostafa Rashwan, Dr. Niveen Ibrahim El Zayat.
Material type:
- text
- Unmediated
- volume
- /تحليل البقاء على الحياة: الأساليب الإحصائية مقابل أساليب التعلم الآلي [Added title page title]
- 519.53
- Issues also as CD.
Item type | Current library | Home library | Call number | Status | Barcode | |
---|---|---|---|---|---|---|
![]() |
قاعة الرسائل الجامعية - الدور الاول | المكتبة المركزبة الجديدة - جامعة القاهرة | Cai01.03.01.M.Sc.2024.Ma.S (Browse shelf(Opens below)) | Not for loan | 01010110090039000 |
Browsing المكتبة المركزبة الجديدة - جامعة القاهرة shelves Close shelf browser (Hides shelf browser)
No cover image available | No cover image available | No cover image available | No cover image available | No cover image available | No cover image available | No cover image available | ||
Cai01.03.01.M.Sc.2023.Do.E Evolution of Geographically Weighted Regression Models and their application to the Modelling of COVID-19 Counts in the United States / | Cai01 03 01 M.Sc 2023 ES.o On Cluster Analysis using Semidefinite Programming / | Cai01.03.01.M.Sc.2023.Sy.S Statistical modelling of climate variations in Africa / | Cai01.03.01.M.Sc.2024.Ma.S Survival Analysis: Statistical Approaches Vs Machine Learning Approaches/ | Cai01.03.01.M.Sc.2024.Sa.S Studying the impact of COVID-19 on quality of employment index in egypt, 2019-2020 / | Cai01.03.01.Ph.D.1974.اح.ن النماذج الاحصائية فى تخطيط التعليم : مع التطبيق على جمهورية مصر العربية / | Cai01.03.01.Ph.D.1977.عب.ن نظرية التقدير والتنبؤ الاحصائى البعدى بالاستدلال لترشيد اتخاذ القرارات / |
Thesis (M.Sc.) -Cairo University, 2024.
Bibliography: pages 85-99.
Survival analysis is a statistical and modelling technique used to analyse time-to-event
data, which measures the time it takes for an event of interest to occur, such as death,
failure, or any other endpoint. It is responsible for predicting the time to event while
accounting for censoring. It is commonly applied in medical research, however, it is
also used in engineering, environmental studies, criminal studies, etc...
Machine learning is rapidly growing as a modern approach for dealing with datasets. It
is concerned with a wide range of algorithms, including decision trees, random forests,
support vector machines, k-nearest neighbours, neural networks, and other algorithms.
Most of the algorithms are specifically trained, tested and validated for classification
problems. However, a number of algorithms were trained to deal with survival analysis
and censoring issues.
Previous researches compared between statistical and machine learning approaches in
prediction as Moncada-Torres et al (2021). However, majority of these comparisons
used only one dataset and did not consider understanding the effect of the dimensions
of the dataset. In addition, previous literature did not deal with the impact of different
natures (complexity of variables, dimensionality of datasets, type of dependent
variables, absence of censoring from dataset, etc…) of datasets. This study aims to deal
with three datasets with various dimensions. For each dataset, the statistical approach
and the machine learning algorithms will be conducted. The performance of each
algorithm would be recorded and the highest preforming technique in prediction for
each dataset was revealed. Moreover, the feature selection should be applied to
understand whether results would significantly change.
iii
The thesis outline includes five chapters. Chapter One starts by introducing machine
learning and statistical approaches in the survival analysis. It introduces the measures
of prediction power for survival models. At the end of the chapter, the research
objectives and the thesis structure were presented. In Chapter Two, a brief review will
be given to survival analysis and the traditional statistical techniques in the field of
survival analysis. It provides information about the history and application for each
statistical technique. The statistical techniques reviewed varied from non-parametric
Kaplan-Meier, semi-parametric Cox regression modelling and the parametric
accelerated failure time model. Afterwards, in Chapter Three, the machine learning
algorithms will be investigated, and their applications will be studied. After reviewing
the survival tree, the evolutions of the algorithm using bagging and boosting methods
were discussed. Therefore, the random survival forest, extreme gradient boosting,
survival support vector regression (with linear/radial basis function/ sigmoid/
polynomial kernel). To conduct the comparison, Chapter Four will show how the
previous literature dealt with the issue and what research gap was found. Furthermore,
the concordance index will then be discussed as performance metric for the algorithms
across various datasets of different dimensions. The algorithms will be applied and
conclusions regarding the dimensions will be drawn. Eventually, in Chapter Five, we
gave a summary of the conclusion drawn, discussed the existing limitations, and
outlined the recommendation for further research.
تعد تحليل البقاء تقنية إحصائية ونمذجة تستخدم لتحليل بيانات الوقت حتى الحدث، والتي تقيس الوقت الذي يستغرقه حدث معين ليحدث، مثل الموت، أو الفشل، أو أي نقطة نهاية أخرى. وهو مسؤول عن التنبؤ بالوقت حتى الحدث مع مراعاة الرقابة. يتم تطبيقه بشكل شائع في البحوث الطبية، ومع ذلك، يتم استخدامه أيضًا في الهندسة، والدراسات البيئية، والدراسات الجنائية، إلخ… التعلم الآلي ينمو بسرعة كنهج حديث للتعامل مع مجموعات البيانات. وهو يشمل مجموعة واسعة من الخوارزميات، بما في ذلك Decision Tree، Random Forest، Support Vector Machine، أKNN-neighbours، Neural networks، وخوارزميات أخرى. تم تدريب معظم الخوارزميات خصيصًا، واختبارها والتحقق من صحتها لمشكلات التصنيف. ومع ذلك، تم تدريب عدد من الخوارزميات للتعامل مع تحليل البقاء وقضايا الرقابة. قارنت الأبحاث السابقة بين المناهج الإحصائية والتعلم الآليومع ذلك، استخدمت غالبية هذه المقارنات مجموعة بيانات واحدة فقط ولم تأخذ في عين الاعتبار فهم تأثير أبعاد مجموعة البيانات. بالإضافة إلى ذلك، لم تتعامل الأدبيات السابقة مع تأثير طبائع مجموعات البيانات المختلفة. هذه الدراسة تهدف إلى التعامل مع ثلاث مجموعات بيانات ذات أبعاد مختلفة. بالنسبة لكل مجموعة بيانات، سيتم إجراء المنهجية. تتضمن الرسالة خمسة فصول. يبدأ الفصل الأول بتقديم التعلم الآلي والمناهج الإحصائية في تحليل البقاء. يقدم مقياس الأداء لنماذج البقاء. في نهاية الفصل، تم تقديم أهداف البحث وهيكل الرسالة. في الفصل الثاني، سيتم إعطاء مراجعة موجزة لتحليل البقاء والتقنيات الإحصائية التقليدية في مجال تحليل البقاء. يوفر معلومات حول التاريخ والتطبيق لكل تقنية إحصائية. تنوعت التقنيات الإحصائية المراجعة من كابلان-ماير غير المعلمة، نمذجة انحدار cox شبه المعلمة ونموذج accelerated failure timeالمعلمي. بعد ذلك، في الفصل الثالث، سيتم التحقيق في خوارزميات التعلم الآلي، وسيتم دراسة تطبيقاتها. بعد مراجعة survival tree، تم مناقشة تطورات الخوارزمية باستخدام طرق التجميع والتعزيز. لذا، random survival forest، الsurvival support regression، fast kernel survival support vector machine (مع وظيفة أساس خطية / شعاعية / سيغمويد / كثيرة حدود). لإجراء المقارنة، سيرى الفصل الرابع كيف تعاملت الأدبيات السابقة مع المشكلة وما هو فجوة البحث التي تم العثور عليها. بعد ذلك، سيتم مناقشة مؤشر التوافق كمؤشر أداء للخوارزميات عبر مجموعات بيانات مختلفة من أبعاد مختلفة. ستطبق الخوارزميات وستُستخرَج استنتاجات بشأن الأبعاد. في نهاية المطاف، في الفصل الخامس، قدَّمنا موجزًا للاستنتاج المستخرَج، وناقشنا القيود الموجودة، وحدَّدنا التوصية لأبحاث أخرى.
Issues also as CD.
Text in English and abstract in Arabic & English.
There are no comments on this title.