Malak Hassan Mostafa ElBakry,

Data cleaning using predictive techniques / تنقية البيانات باستخدام تقنيات التنبؤية by Malak Hassan Mostafa ElBakry ; Supervised Prof. Dr. Sherif Mazen, Dr.Ayman El-Kilany, Prof. Farid Ali - 84 Leaves : illustrations ; 30 cm. + CD.

Thesis (Ph.D)-Cairo University, 2025.

Bibliography: pages 78-84.

Handling missing values in time series data is a crucial challenge in data analysis.This thesis addresses the challenge of missing values in time series data by proposing two novel imputation techniques. The first uses fuzzy logic, utilizing fuzzy Gaussian and fuzzy triangular membership functions to determine the imputed values based on weighted nearest neighbor. Results show that the fuzzy triangular yield superior accuracy compared to the others. The second approach introduces a predictive ensemble framework called Predictive Missing Values via Voting Ensemble (PMVVE)that integrates multiple classifiers, outperforming traditional methods in accuracy and reliability across real-world datasets. يواجه تحليل بيانات السلاسل الزمنية تحديًا بسبب القيم المفقودة، حيث تؤثر على دقة النماذج واتخاذ القرار. يقترح البحث تقنيتين جديدتين لتعويض القيم المفقودة.يعتمد النهج الأول على المنطق الضبابي، حيث يستخدم التوزيع الغاوسي الضبابي ودالة الانتماء المثلثية الضبابية لتحديد القيم المثلى بناءً على حسابات الجار الأقرب الموزون.أظهرت النتائج التجريبية تفوق هذه الطريقة على التقنيات التقليدية، حيث تفوقت دالة الانتماء المثلثية الضبابية من حيث الدقة مقارنةً بالتوزيع الغاوسي الضبابي.أما النهج الثاني، فيقدم إطارًا تنبؤيًا قائمًا على أسلوب التجميع، يُعرف باسم "التنبؤ بالقيم المفقودة عبر التجميع بالتصويت."يدمج هذا النهج بين عدة مصنفات من تعلم الآلة للتنبؤ بالقيم المفقودة بشكل أكثر كفاءة. أثبتت التقييمات التجريبية، التي أجريت على مجموعات بيانات حقيقية متعددة، أن تقنية التنبؤ بالقيم المفقودة عبر التجميع بالتصويتتتفوق على الطرق التقليدية، حيث توفر دقة أعلى وموثوقية أكبر في إكمال البيانات المفقودة.




Text in English and abstract in Arabic & English.


Data processing
معالجة البيانات

Data Quality Missing Data Machine Learning Fuzzy Logic Time Series Data Data Imputation

003.3