000 11243namaa22004331i 4500
003 OSt
005 20250223033338.0
008 241204s2023 |||a|||f m||| 000 0 eng d
040 _aEG-GICUC
_beng
_cEG-GICUC
_dEG-GICUC
_erda
041 0 _aeng
_beng
_bara
049 _aDeposite
082 0 4 _a519.53
092 _a519.53
_221
097 _aM.Sc
099 _aCai01.03.01.M.Sc.2023.Di.M
100 0 _aDina Ashraf Abdelhameed Desoki,
_epreparation.
245 1 0 _aMachine Learning Algorithms for Missing Values in Phase I Statistical Process Monitoring/
_cDina Ashraf Abdelhameed Desoki ; Supervisors: Prof. Abdel-Nasser Saad, Prof. Mahmoud Al-Said, Associate Prof. Nesma Saleh.
246 1 5 _a/خوارزميات تعلم الآلة للقيم المفقودة في المرحلة الأولى للمراقبة الإحصائية للعمليات
264 0 _c2023.
300 _a84 pages :
_billustrations ;
_c25 cm. +
_eCD.
336 _atext
_2rda content
337 _aUnmediated
_2rdamedia
338 _avolume
_2rdacarrier
502 _aThesis (M.Sc.) -Cairo University, 2023.
504 _aBibliography: pages 72-80.
520 _aThe quality of the estimators from Phase I largely determines the performance of the process monitoring in Phase II. Providing Phase II control charts with poor parameters estimates leads to a weak performance. Phase I analysis is essential to understand the variability of the process and determine its stability. In case of incomplete Phase I data, the problem of missing values must be dealt with before going through the parameters estimation process. In literature, various traditional imputation methods were proposed. After extensive research on imputation methods, researchers concluded that none of the imputation methods best suits all different types of statistical analyses. Each imputation method has its advantages and disadvantages. Researchers commonly rely on the Mean Substitution (MS) and/or the Stochastic Regression (SRG) imputation methods. The MS is a straightforward method that is used heavily in literature, while the SRG imputation method has an outstanding performance in many studies. On another side, the use of machine learning algorithms in different applications is a growing field. The number of studies exploiting machine learning algorithms in the SPC field is rapidly increasing. In this study, the MS and the SRG imputation methods are compared to two common, yet powerful machine learning-based imputation methods: k-Nearest Neighbors (kNN) and Support Vector Regression (SVR) in terms of their abilities to handle missing values in Phase I data. Overall, machine learning imputation methods considered in this study are preferable to the traditional methods. In most cases, the performance of the SPC tools under machine learning methods is far more powerful than that under the traditional ones. In the other cases, the performance of the SPC tools under the traditional and the machine learning methods is about the same. As a result, the use of the SVR imputation is recommended in monitoring the process mean, while the kNN is the best imputation method in monitoring the process dispersion. All things considered; machine learning imputation methods are highly recommended in case of monitoring the process mean or the process dispersion. Finally, this study emphasizes the importance of choosing the most suitable imputation method to obtain the best performance possible. This study consists of six chapters as follows: Chapter One provides an overview of the study problem and motivation, then presents the objectives of the study. Chapter Two gives the basic definitions of the most common statistical process control tools. It also reviews the literature on the Hotelling’s T2 chart, change-point approach, and the G-chart. Chapter Three describes the problem of missing data and illustrates the missingness patterns and mechanisms. Additionally, it reviews the literature on the traditional and machine learning-based imputation methods along with their common uses, in general, and in the context of the SPC, in particular. Chapter Four compares the performance of the Hotelling’s T2 and the change-point approach under the traditional imputation methods to that under machine learning imputation methods. Additionally, the traditional and machine learning imputation methods are compared in terms of the quality of the estimates produced. Chapter Five evaluates the performance of the G-chart under the traditional and machine learning imputation methods. Moreover, the quality of the estimates produced by different imputation methods is compared. Chapter Six gives the conclusions, comments, recommendations, and points out some research points to be studied in future work.
520 _aجودة التقديرات في المرحلة الأولى للمراقبة الإحصائية للجودة تحدد بشكل كبير أداء مراقبة العلميات في المرحلة الثانية. تغذية خرائط التحكم في المرحلة الثانية بتقديرات رديئة للمعلمات سيؤدي إلى أداء ضعيف. تحليل المرحلة الأولى ضروري لفهم تباين العلميات وتحديد استقرارها. في حال كانت بيانات المرحلة الأولى غير مكتملة، فإن مشكلة البيانات المفقودة لابد من التعامل معها قبل المضي قدماً في تقدير معلمات العمليات. في الأدبيات السابقة، اقترحت العديد من طرق تعويض البيانات التقليدية. بعد دراسة مكثفة في طرق تعويض البيانات، خلص الباحثون إلى أنه ما من طريقة لتعويض البيانات تناسب جميع التحليلات الإحصائية. لكل طريقة ما لها وما عليها. عادة ما يعتمد الباحثون على التعويض بالوسط الحسابي Mean Substitution (MS) أو الانحدار العشوائي Stochastic Regression (SRG) imputation أو كلاهما. أما التعويض بالوسط الحسابي فهو طريقة مباشرة وتستخدم بكثرة في الأدبيات، بينما لطريقة الانحدار العشوائي أداءً متميزاً في الكثير من الدراسات. على صعيد آخر، يعتبر استخدام طرق التعويض المبنية على خوارزميات تعلم الآلة مجالاً نامياً. يزداد عدد الدراسات التي تستغل خوارزميات تعلم الآلة في مجال المراقبة الضبط الإحصائي للجودة بتسارع. في هذه الدراسة، نقارن التعويض بالوسط الحسابي والانحدار العشوائي بطريقتي تعويض مبنية على تعلم الآلة شائعتين، ولكن قويتين وهما الجار الأقرب k-Nearest Neighbors (kNN) وانحدار المتجه الداعمSupport Vector Regression (SVR) من حيث قدرتهم على التعامل مع القيم المفقودة في بيانات المرحلة الأولى. إجمالاً، تفضل طرق التعويض المبنية على خوارزميات تعلم الآلة التي تم تناولها في هذه الدراسة على الطرق التقليدية. في أغلب الأحيان، أداء لقد أُثبت أن أداء أدوات الضبط الإحصائي للجودة تحت طرق تعويض البيانات المبنية على خوارزميات تعلم الآلة أقوى بكثير مقارنةً بذلك بأدائها تحت طرق تعويض البيانات التقليدية في أغلب الأحيان. في الحالات الأخرى، تقدم طرق تعويض البيانات المبنية على خوارزميات تعلم الآلة أداءاً مماثلاً لأداء طرق تعويض البيانات التقليدية. ولذلك، ينصح باستخدام طريقة SVR أثناء مراقبة الوسط الحسابي للعمليات، بينما تفضل طريقة kNN أثناء مراقبة تباين العمليات. بأخذ جميع الأمور في الاعتبار، ينصح باستخدام طرق تعويض البيانات المبنية على خوارزميات تعلم الآلة في حالة مراقبة الوسط الحسابي أو تباين العلميات. هذه الدراسة تؤكد على أهمية اختيار طريقة تعويض البيانات المناسبة للحصول على أفضل أداء ممكن. تتكون الرسالة من ستة فصول على النحو التالي: الفصل الأول: يعطي لمحة عامة عن المشكلة التي تتعرض لها الدراسة ودافعها، كما يلقي الضوء على أهداف الدراسة الرئيسية. الفصل الثاني: يعطي المفاهيم الأساسية عن أدوات الضبط الإحصائي الشائعة، ثم يستعرض الأدبيات السابقة عن خريطة هوتلنــج، طريقة نقطة التغيير، وخريطة تحكم جي. الفصل الثالث: يصف مشكلة البيانات المفقودة ويوضح نمط وآلية فقد البيانات. علاوة على ذلك، يستعرض الأدبيات السابقة عن طرق تعويض البيانات التقليدية والمبنية على تعلم الآلة مع استخداماتهم الشائعة في العموم وفي نطاق الضبط الإحصائي للجودة بشكل خاص. الفصل الرابع: يقارن تأثير طرق تعويض البيانات، التقليدية والمبنية على تعلم الآلة، على أداء خريطة هوتلنج وطريقة نقطة التغير. يحدد الفصل المقاييس المستخدمة في المقارنة ويخطط لدراسة المحاكاة، ثم يناقش النتائج. الفصل الخامس: يقيس أداء خريطة جي تحت طرق تعويض البيانات، التقليدية والمبنية على تعلم الآلة. كما يقارن بين جودة التقديرات الناتجة عن طرق تعويض البيانات المختلفة. الفصل السادس: يحوي ما خلصت إليه الدراسة، التعليقات، التوصيات ويشير إلى بعض نقاط البحث لتُـــدرس في المستقبل.
530 _aIssues also as CD.
546 _aText in English and abstract in Arabic & English.
650 7 _aStatistics
_2qrmak
653 0 _aMachine Learning
_aMissing Values
_aSPC
_aPhase I
_aHotelling’s T2 Control Chart
_aChange-point
_aStatistical Process Control
700 0 _aAbdel-Nasser Saad
_ethesis advisor.
700 0 _aMahmoud Al-Said
_ethesis advisor.
700 0 _aNesma Saleh
_ethesis advisor.
900 _b01-01-2023
_UCairo University
_FFaculty of Economics and Political Science
_DDepartment of Statistics
_cAbdel-Nasser Saad
_cMahmoud Al-Said
_cNesma Saleh
905 _aAya
_eHuda
942 _2ddc
_cTH
_e21
_n0
999 _c169254