Statistical modeling of heterogeneous big data sets : a computationally intelligent approach / by Sherouk Samir Mohamed Moawad ; Supervised Prof. Magued Osman, Prof. Ahmed Shawky Moussa.
Material type:
TextLanguage: English Summary language: English, Arabic Producer: 2025Description: 144 pages : illustrations ; 25 cm. + CDContent type: - text
- Unmediated
- volume
- النمذجة الإحصائية للبيانات الكبيرة غير المتجانسة : اتجاه الحوسبة الذكية [Added title page title]
- 519.5
- Issues also as CD.
| Item type | Current library | Home library | Call number | Status | Barcode | |
|---|---|---|---|---|---|---|
Thesis
|
قاعة الرسائل الجامعية - الدور الاول | المكتبة المركزبة الجديدة - جامعة القاهرة | Cai01.03.01.Ph.D.2025.Sh.S (Browse shelf(Opens below)) | Not for loan | 01010110092476000 |
Thesis (Ph.D)-Cairo University, 2025.
Bibliography: pages 97-106.
Big Data analytics presents significant challenges due to the vast volume, heterogeneity, and uncertainty inherent in Big Data sets. This research introduces two innovative classification methodologies designed to address these challenges: Fuzzified Cluster-based Ensemble Classification (FCEC) and Fuzzified Cluster-based Parallel Classification (FCPC). Both approaches leverage fuzzified clustering techniques to improve classification accuracy by handling uncertainty and imprecision in data grouping. The FCEC proposes an intelligent classification approach based on fuzzified clustering to capture the uncertainty and imprecise grouping of the data, replacing the unrealistic and unrepresentative crisp boundaries with fuzzy boundaries. In this approach, k base classifiers are trained using k clusters which are formed by soft partitioning of the training data. We developed two soft cluster partitioning methods and applied them to four clustering techniques. The fuzzy membership values representing cluster participation are subsequently used as weights in the training of the base weighted logistic regression and weighted neural network classifiers. The outputs of the classifiers are then aggregated using five different combination rules to produce the final prediction results. To test and empirically validate the proposed solution, we applied FCEC to twelve benchmark datasets and compared its performance against regular classifiers and hard cluster-based classifiers. The experimental results demonstrated that the proposed approach outperformed both the traditional classification models and the crisp cluster-based classification in terms of classification evaluation metrics. FCPC extends the principles of FCEC to Big Data applications by introducing sample reduction and parallelization to enhance the computational performance. The goal of this classification methodology is to represent Big Data with a smaller, yet representative, sample size while preserving its underlying structures. This is achieved by incorporating fuzzy weights into the sampling strategy, drawing weighted subsamples from each cluster, and subsequently applying a cluster-based classifier ensemble for improved accuracy and efficiency. Benchmark Big Data sets are used to compare FCPC with traditional classifiers that can be used if the whole training data fits in memory. Four classification techniques—logistic regression, naive bayes, decision trees, and random forest—were evaluated using classification runing time and evaluation metrics. The proposed model demonstrated improved classification predictive power with a noticeable sample reduction - achieving up to 90% data reduction - leading to enhanced performance and potential reductions in computational resources. Additionally, a comparison with state-of-the-art methods shows that FCPC outperforms existing techniques in terms of classification performance.
تتناول هذه الأطروحة تطوير تقنيات التصنيف للبيانات الضخمة، مع التركيز على مواجهة التحديات الرئيسية مثل عدم اليقين ،الكفاءة الحسابية، وقابلية التوسع. تم اقتراح منهجيتين– التصنيف التجميعي المعتمد على التجميع الضبابي(FCEC) والتصنيف الموازي المعتمد على التجميع الضبابي –(FCPC) بهدف تحسين أداء التصنيف في بيئات البيانات الضخمة. تعتمد كلتا المنهجيتين على تقنيات التجميع الضبابي للتعامل مع عدم اليقين وعدم الدقة في تقسيم البيانات، مما يؤدي إلى تحسين دقة التصنيف.
تقدم منهجيةFCEC نهج تصنيف يعتمد على التجميع المرن، حيث يتم دمج الضبابية مما يسمح لنقاط البيانات بالمساهمة في عدة مصنفات بناءً على قيم العضوية الضبابية. تم تطبيق الأوزان الضبابية في الانحدار اللوجستي المرجح وشبكات الأعصاب المرجحة، حيث تعكس الأوزان قيم العضوية الضبابية للمشاركة في التجمعات. يساعد هذا النهج في تقليل عدم اليقين وتداخل الحدود بين التجمعات، مما يحسن أداء التصنيف. أظهرت النتائج التجريبية أن منهجيةFCEC تتفوق على النهج التقليدية القائمة على التجميع الحاد والنماذج التصنيفية التقليدية، مع تحقيق تحسينات كبيرة في مؤشرات التقييم مثل الدقة )Accuracy(، المساحة تحت منحنى(AUC) ، وقيمةF1 . تم التحقق من صحة هذه المنهجية باستخدام 12 مجموعة بيانات معيارية وتم إثبات إمكانيتها في تطبيقات البيانات الضخمة من خلال استخدامها على بيانات MNIST.
أما منهجية FCPC ، فتم تكييف مفاهيمFCEC لتطبيقات البيانات الضخمة من خلال دمج تقليل العينة والتوازي. تعملFCPC
على تقليل حجم البيانات بنسبة تصل إلى 90% مع الحفاظ على دقة التصنيف، مما يحسن الكفاءة الحسابية. تجمع هذه المنهجية بين التقليل الضبابي لحجم العينات، والتجميع، والتصنيف المتوازي لمعالجة تحديات البيانات الضخمة. يتم استخدام قيم العضوية الضبابية كأوزان في مرحلة أخذ العينات العشوائية المرجحة لتمثيل كل تجمع، مما يضمن الحفاظ على الأنماط والعلاقات المهمة مع تقليل حجم مجموعة البيانات. يتم تدريب المصنفات الأساسية على هذه العينات المرجحة، مكونةً تصنيفًا تجميعيًا قائمًا على التجمع. أظهرتFCPC تفوقها على المصنفات التقليدية والطرق الحديثة، بما في ذلكML-lib وWeka، مما يبرز قابليتها
للتوسع ومتانتها. كما تم تأكيد مرونة هذه المنهجية من خلال دراسة حالة واقعية استكشفت تأثير عدد التجمعات وتوزيع الفئات على الأداء.
Issues also as CD.
Text in English and abstract in Arabic & English.
There are no comments on this title.