Ahmed Ali Abou Elfotouh,

A proposed approach for statistical analysis and modeling of big data / : أسلوب مقترح للتحليل الإحصائي ونمذجة البيانات الكبيرة / By Ahmed Ali Abou Elfotouh; Superviser Prof. Ahmed Amin El-sheikh. - 83 Leaves : illustrations ; 30 cm. + CD.

Thesis (M.Sc.)-Cairo University, 2023.

Bibliography: pages 80-83.

The digital world has witnessed rapid technological developments, which resulted in the emergence of the term big data, to reflect the presence of a remarkable digital boom in the field of data analysis, in addition to being a pivotal stage in the stages of communication and information systems. Although big data was hardly known a few years ago, it is one of the most discussed topics in business today across many sectors such as medical and scientific research, financial services, retail and networking, mobile phones, telecommunications, etc. It is worth noting that the field of statistics is considered one of the fundamental areas in the analysis of big data due to the usage of many modern and traditional statistical methods to analyze that data, where statistical programs contribute significantly to data analysis and modeling. So, this study aims to identify the definition of big data and its types, in addition to the most prominent methodologies used to analyze big data. It also deals with regression analysis models, sample types and their selection mechanisms. A practical application of big data analysis was also reviewed by applying the linear regression model to the temperature database in Brazil, within this aspect, the regression model is applied to the data after using divide and conquer and sampling methods. شهد العالم الرقمي خلال العقود الأخيرة تطورات تكنولوجية متسارعة، أسفرت عن ظهور مصطلح البيانات الضخمة، لتعكس وجود طفرة رقمية ملحوظة في مجال تحليل البيانات، بالإضافة إلى كونها مرحلة محورية من مراحل نظم الاتصالات والمعلومات، وعلى الرغم من أن البيانات الضخمة بالكاد كانت معروفة منذ بضع سنوات، إلا أنها تعد واحدة من أكثر الموضوعات التي تمت مناقشتها في مجال الأعمال اليوم عبر العديد من القطاعات على غرار المجال الطبي والبحث العلمي، والخدمات المالية والبيع بالتجزئة والشبكات الاجتماعية وما إلى ذلك. ومن الجدير بالذكر أن مجال الإحصاء يٌعتبر من المجالات الجوهرية في تحليل البيانات الضخمة نظرًا لاستخدام العديد من الأساليب الإحصائية الحديثة والتقليدية لتحليل تلك البيانات، حيث تسهم البرامج الإحصائية بشكل كبير في تحليل البيانات والنمذجة. لذا، تهدف الدراسة إلى التعرف على مفهوم البيانات الضخمة، وأنواعها، بالإضافة إلى أبرز الأساليب الإحصائية المستخدمة لتحليل البيانات الضخمة مثل تحليل الانحدار regression analysis وطريقة التقسيم وإعادة التجميع divide and conquer method ، وطرق العينات sampling methods، كما تم استعراض تطبيق عملي لتحليل البيانات الضخمة من خلال تطبيق نموذج الانحدار الخطي على قاعدة بيانات درجات الحرارة في البرازيل، وتم تطبيق نموذج الانحدار على البيانات بعد استخدام أسلوب التقسيم وإعادة التجميع divide and conquer method وأسلوب العينات sampling methods.




Text in English and abstract in English.


Statistical mathematics

Big data Big data analysis Regression analysis Divide and conquer method Sampling methods

519.5