000 08402namaa22004331i 4500
003 EG-GICUC
005 20251130115540.0
008 251113s2025 ua a|||frm||| 000 0 eng d
040 _aEG-GICUC
_beng
_cEG-GICUC
_dEG-GICUC
_erda
041 0 _aeng
_beng
_bara
049 _aDeposit
082 0 4 _a‪519.5
092 _a‪519.5
_221
097 _aPh.D
099 _aCai01.03.01.Ph.D.2025.Sh.S
100 0 _aSherouk Samir Mohamed Moawad,
_epreparation.
245 1 0 _aStatistical modeling of heterogeneous big data sets :
_ba computationally intelligent approach /
_cby Sherouk Samir Mohamed Moawad ; Supervised Prof. Magued Osman, Prof. Ahmed Shawky Moussa.
246 1 5 _aالنمذجة الإحصائية للبيانات الكبيرة غير المتجانسة :
_bاتجاه الحوسبة الذكية /
264 0 _c2025.
300 _a144 pages :
_billustrations ;
_c25 cm. +
_eCD.
336 _atext
_2rda content
337 _aUnmediated
_2rdamedia
338 _avolume
_2rdacarrier
502 _aThesis (Ph.D)-Cairo University, 2025.
504 _aBibliography: pages 97-106.
520 3 _aBig Data analytics presents significant challenges due to the vast volume, heterogeneity, and uncertainty inherent in Big Data sets. This research introduces two innovative classification methodologies designed to address these challenges: Fuzzified Cluster-based Ensemble Classification (FCEC) and Fuzzified Cluster-based Parallel Classification (FCPC). Both approaches leverage fuzzified clustering techniques to improve classification accuracy by handling uncertainty and imprecision in data grouping. The FCEC proposes an intelligent classification approach based on fuzzified clustering to capture the uncertainty and imprecise grouping of the data, replacing the unrealistic and unrepresentative crisp boundaries with fuzzy boundaries. In this approach, k base classifiers are trained using k clusters which are formed by soft partitioning of the training data. We developed two soft cluster partitioning methods and applied them to four clustering techniques. The fuzzy membership values representing cluster participation are subsequently used as weights in the training of the base weighted logistic regression and weighted neural network classifiers. The outputs of the classifiers are then aggregated using five different combination rules to produce the final prediction results. To test and empirically validate the proposed solution, we applied FCEC to twelve benchmark datasets and compared its performance against regular classifiers and hard cluster-based classifiers. The experimental results demonstrated that the proposed approach outperformed both the traditional classification models and the crisp cluster-based classification in terms of classification evaluation metrics. FCPC extends the principles of FCEC to Big Data applications by introducing sample reduction and parallelization to enhance the computational performance. The goal of this classification methodology is to represent Big Data with a smaller, yet representative, sample size while preserving its underlying structures. This is achieved by incorporating fuzzy weights into the sampling strategy, drawing weighted subsamples from each cluster, and subsequently applying a cluster-based classifier ensemble for improved accuracy and efficiency. Benchmark Big Data sets are used to compare FCPC with traditional classifiers that can be used if the whole training data fits in memory. Four classification techniques—logistic regression, naive bayes, decision trees, and random forest—were evaluated using classification runing time and evaluation metrics. The proposed model demonstrated improved classification predictive power with a noticeable sample reduction - achieving up to 90% data reduction - leading to enhanced performance and potential reductions in computational resources. Additionally, a comparison with state-of-the-art methods shows that FCPC outperforms existing techniques in terms of classification performance.
520 3 _aتتناول هذه الأطروحة تطوير تقنيات التصنيف للبيانات الضخمة، مع التركيز على مواجهة التحديات الرئيسية مثل عدم اليقين ،الكفاءة الحسابية، وقابلية التوسع. تم اقتراح منهجيتين– التصنيف التجميعي المعتمد على التجميع الضبابي(FCEC) والتصنيف الموازي المعتمد على التجميع الضبابي –(FCPC) بهدف تحسين أداء التصنيف في بيئات البيانات الضخمة. تعتمد كلتا المنهجيتين على تقنيات التجميع الضبابي للتعامل مع عدم اليقين وعدم الدقة في تقسيم البيانات، مما يؤدي إلى تحسين دقة التصنيف. تقدم منهجيةFCEC نهج تصنيف يعتمد على التجميع المرن، حيث يتم دمج الضبابية مما يسمح لنقاط البيانات بالمساهمة في عدة مصنفات بناءً على قيم العضوية الضبابية. تم تطبيق الأوزان الضبابية في الانحدار اللوجستي المرجح وشبكات الأعصاب المرجحة، حيث تعكس الأوزان قيم العضوية الضبابية للمشاركة في التجمعات. يساعد هذا النهج في تقليل عدم اليقين وتداخل الحدود بين التجمعات، مما يحسن أداء التصنيف. أظهرت النتائج التجريبية أن منهجيةFCEC تتفوق على النهج التقليدية القائمة على التجميع الحاد والنماذج التصنيفية التقليدية، مع تحقيق تحسينات كبيرة في مؤشرات التقييم مثل الدقة )Accuracy(، المساحة تحت منحنى(AUC) ، وقيمةF1 . تم التحقق من صحة هذه المنهجية باستخدام 12 مجموعة بيانات معيارية وتم إثبات إمكانيتها في تطبيقات البيانات الضخمة من خلال استخدامها على بيانات MNIST. أما منهجية FCPC ، فتم تكييف مفاهيمFCEC لتطبيقات البيانات الضخمة من خلال دمج تقليل العينة والتوازي. تعملFCPC على تقليل حجم البيانات بنسبة تصل إلى 90% مع الحفاظ على دقة التصنيف، مما يحسن الكفاءة الحسابية. تجمع هذه المنهجية بين التقليل الضبابي لحجم العينات، والتجميع، والتصنيف المتوازي لمعالجة تحديات البيانات الضخمة. يتم استخدام قيم العضوية الضبابية كأوزان في مرحلة أخذ العينات العشوائية المرجحة لتمثيل كل تجمع، مما يضمن الحفاظ على الأنماط والعلاقات المهمة مع تقليل حجم مجموعة البيانات. يتم تدريب المصنفات الأساسية على هذه العينات المرجحة، مكونةً تصنيفًا تجميعيًا قائمًا على التجمع. أظهرتFCPC تفوقها على المصنفات التقليدية والطرق الحديثة، بما في ذلكML-lib وWeka، مما يبرز قابليتها للتوسع ومتانتها. كما تم تأكيد مرونة هذه المنهجية من خلال دراسة حالة واقعية استكشفت تأثير عدد التجمعات وتوزيع الفئات على الأداء.
530 _aIssues also as CD.
546 _aText in English and abstract in Arabic & English.
650 0 _aStatistics
650 0 _aالإحصاء
653 1 _aBig Data
_aClassification
_aCluster-based Classification
_aSoft Data Processing
_aIntelligent Data Analysis
_aClassifier Ensemble
_aData Uncertainty
_aFuzzy Data Classification
700 0 _aMagued Osman
_ethesis advisor.
700 0 _aAhmed Shawky Moussa
_ethesis advisor.
900 _b01-01-2025
_cMagued Osman
_cAhmed Shawky Moussa
_UCairo University
_FFaculty of Economics and Political Science
_DDepartment of Statistics
905 _aShimaa
_eEman Ghareb
942 _2ddc
_cTH
_e21
_n0
999 _c175828