Statistical modeling of heterogeneous big data sets : (Record no. 175828)

MARC details
000 -LEADER
fixed length control field 08402namaa22004331i 4500
003 - CONTROL NUMBER IDENTIFIER
control field EG-GICUC
005 - أخر تعامل مع التسجيلة
control field 20251130115540.0
008 - FIXED-LENGTH DATA ELEMENTS--GENERAL INFORMATION
fixed length control field 251113s2025 ua a|||frm||| 000 0 eng d
040 ## - CATALOGING SOURCE
Original cataloguing agency EG-GICUC
Language of cataloging eng
Transcribing agency EG-GICUC
Modifying agency EG-GICUC
Description conventions rda
041 0# - LANGUAGE CODE
Language code of text/sound track or separate title eng
Language code of summary or abstract eng
-- ara
049 ## - Acquisition Source
Acquisition Source Deposit
082 04 - DEWEY DECIMAL CLASSIFICATION NUMBER
Classification number ‪519.5
092 ## - LOCALLY ASSIGNED DEWEY CALL NUMBER (OCLC)
Classification number ‪519.5
Edition number 21
097 ## - Degree
Degree Ph.D
099 ## - LOCAL FREE-TEXT CALL NUMBER (OCLC)
Local Call Number Cai01.03.01.Ph.D.2025.Sh.S
100 0# - MAIN ENTRY--PERSONAL NAME
Authority record control number or standard number Sherouk Samir Mohamed Moawad,
Preparation preparation.
245 10 - TITLE STATEMENT
Title Statistical modeling of heterogeneous big data sets :
Remainder of title a computationally intelligent approach /
Statement of responsibility, etc. by Sherouk Samir Mohamed Moawad ; Supervised Prof. Magued Osman, Prof. Ahmed Shawky Moussa.
246 15 - VARYING FORM OF TITLE
Title proper/short title النمذجة الإحصائية للبيانات الكبيرة غير المتجانسة :
Remainder of title اتجاه الحوسبة الذكية /
264 #0 - PRODUCTION, PUBLICATION, DISTRIBUTION, MANUFACTURE, AND COPYRIGHT NOTICE
Date of production, publication, distribution, manufacture, or copyright notice 2025.
300 ## - PHYSICAL DESCRIPTION
Extent 144 pages :
Other physical details illustrations ;
Dimensions 25 cm. +
Accompanying material CD.
336 ## - CONTENT TYPE
Content type term text
Source rda content
337 ## - MEDIA TYPE
Media type term Unmediated
Source rdamedia
338 ## - CARRIER TYPE
Carrier type term volume
Source rdacarrier
502 ## - DISSERTATION NOTE
Dissertation note Thesis (Ph.D)-Cairo University, 2025.
504 ## - BIBLIOGRAPHY, ETC. NOTE
Bibliography, etc. note Bibliography: pages 97-106.
520 #3 - SUMMARY, ETC.
Summary, etc. Big Data analytics presents significant challenges due to the vast volume, heterogeneity, and uncertainty inherent in Big Data sets. This research introduces two innovative classification methodologies designed to address these challenges: Fuzzified Cluster-based Ensemble Classification (FCEC) and Fuzzified Cluster-based Parallel Classification (FCPC). Both approaches leverage fuzzified clustering techniques to improve classification accuracy by handling uncertainty and imprecision in data grouping. The FCEC proposes an intelligent classification approach based on fuzzified clustering to capture the uncertainty and imprecise grouping of the data, replacing the unrealistic and unrepresentative crisp boundaries with fuzzy boundaries. In this approach, k base classifiers are trained using k clusters which are formed by soft partitioning of the training data. We developed two soft cluster partitioning methods and applied them to four clustering techniques. The fuzzy membership values representing cluster participation are subsequently used as weights in the training of the base weighted logistic regression and weighted neural network classifiers. The outputs of the classifiers are then aggregated using five different combination rules to produce the final prediction results. To test and empirically validate the proposed solution, we applied FCEC to twelve benchmark datasets and compared its performance against regular classifiers and hard cluster-based classifiers. The experimental results demonstrated that the proposed approach outperformed both the traditional classification models and the crisp cluster-based classification in terms of classification evaluation metrics. FCPC extends the principles of FCEC to Big Data applications by introducing sample reduction and parallelization to enhance the computational performance. The goal of this classification methodology is to represent Big Data with a smaller, yet representative, sample size while preserving its underlying structures. This is achieved by incorporating fuzzy weights into the sampling strategy, drawing weighted subsamples from each cluster, and subsequently applying a cluster-based classifier ensemble for improved accuracy and efficiency. Benchmark Big Data sets are used to compare FCPC with traditional classifiers that can be used if the whole training data fits in memory. Four classification techniques—logistic regression, naive bayes, decision trees, and random forest—were evaluated using classification runing time and evaluation metrics. The proposed model demonstrated improved classification predictive power with a noticeable sample reduction - achieving up to 90% data reduction - leading to enhanced performance and potential reductions in computational resources. Additionally, a comparison with state-of-the-art methods shows that FCPC outperforms existing techniques in terms of classification performance.
520 #3 - SUMMARY, ETC.
Summary, etc. تتناول هذه الأطروحة تطوير تقنيات التصنيف للبيانات الضخمة، مع التركيز على مواجهة التحديات الرئيسية مثل عدم اليقين ،الكفاءة الحسابية، وقابلية التوسع. تم اقتراح منهجيتين– التصنيف التجميعي المعتمد على التجميع الضبابي(FCEC) والتصنيف الموازي المعتمد على التجميع الضبابي –(FCPC) بهدف تحسين أداء التصنيف في بيئات البيانات الضخمة. تعتمد كلتا المنهجيتين على تقنيات التجميع الضبابي للتعامل مع عدم اليقين وعدم الدقة في تقسيم البيانات، مما يؤدي إلى تحسين دقة التصنيف. <br/>تقدم منهجيةFCEC نهج تصنيف يعتمد على التجميع المرن، حيث يتم دمج الضبابية مما يسمح لنقاط البيانات بالمساهمة في عدة مصنفات بناءً على قيم العضوية الضبابية. تم تطبيق الأوزان الضبابية في الانحدار اللوجستي المرجح وشبكات الأعصاب المرجحة، حيث تعكس الأوزان قيم العضوية الضبابية للمشاركة في التجمعات. يساعد هذا النهج في تقليل عدم اليقين وتداخل الحدود بين التجمعات، مما يحسن أداء التصنيف. أظهرت النتائج التجريبية أن منهجيةFCEC تتفوق على النهج التقليدية القائمة على التجميع الحاد والنماذج التصنيفية التقليدية، مع تحقيق تحسينات كبيرة في مؤشرات التقييم مثل الدقة )Accuracy(، المساحة تحت منحنى(AUC) ، وقيمةF1 . تم التحقق من صحة هذه المنهجية باستخدام 12 مجموعة بيانات معيارية وتم إثبات إمكانيتها في تطبيقات البيانات الضخمة من خلال استخدامها على بيانات MNIST. <br/>أما منهجية FCPC ، فتم تكييف مفاهيمFCEC لتطبيقات البيانات الضخمة من خلال دمج تقليل العينة والتوازي. تعملFCPC <br/>على تقليل حجم البيانات بنسبة تصل إلى 90% مع الحفاظ على دقة التصنيف، مما يحسن الكفاءة الحسابية. تجمع هذه المنهجية بين التقليل الضبابي لحجم العينات، والتجميع، والتصنيف المتوازي لمعالجة تحديات البيانات الضخمة. يتم استخدام قيم العضوية الضبابية كأوزان في مرحلة أخذ العينات العشوائية المرجحة لتمثيل كل تجمع، مما يضمن الحفاظ على الأنماط والعلاقات المهمة مع تقليل حجم مجموعة البيانات. يتم تدريب المصنفات الأساسية على هذه العينات المرجحة، مكونةً تصنيفًا تجميعيًا قائمًا على التجمع. أظهرتFCPC تفوقها على المصنفات التقليدية والطرق الحديثة، بما في ذلكML-lib وWeka، مما يبرز قابليتها <br/>للتوسع ومتانتها. كما تم تأكيد مرونة هذه المنهجية من خلال دراسة حالة واقعية استكشفت تأثير عدد التجمعات وتوزيع الفئات على الأداء.
530 ## - ADDITIONAL PHYSICAL FORM AVAILABLE NOTE
Issues CD Issues also as CD.
546 ## - LANGUAGE NOTE
Text Language Text in English and abstract in Arabic & English.
650 #0 - SUBJECT ADDED ENTRY--TOPICAL TERM
Topical term or geographic name entry element Statistics
650 #0 - SUBJECT ADDED ENTRY--TOPICAL TERM
Topical term or geographic name entry element الإحصاء
653 #1 - INDEX TERM--UNCONTROLLED
Uncontrolled term Big Data
-- Classification
-- Cluster-based Classification
-- Soft Data Processing
-- Intelligent Data Analysis
-- Classifier Ensemble
-- Data Uncertainty
-- Fuzzy Data Classification
700 0# - ADDED ENTRY--PERSONAL NAME
Personal name Magued Osman
Relator term thesis advisor.
700 0# - ADDED ENTRY--PERSONAL NAME
Personal name Ahmed Shawky Moussa
Relator term thesis advisor.
900 ## - Thesis Information
Grant date 01-01-2025
Supervisory body Magued Osman
-- Ahmed Shawky Moussa
Universities Cairo University
Faculties Faculty of Economics and Political Science
Department Department of Statistics
905 ## - Cataloger and Reviser Names
Cataloger Name Shimaa
Reviser Names Eman Ghareb
942 ## - ADDED ENTRY ELEMENTS (KOHA)
Source of classification or shelving scheme Dewey Decimal Classification
Koha item type Thesis
Edition 21
Suppress in OPAC No
Holdings
Source of classification or shelving scheme Home library Current library Date acquired Inventory number Full call number Barcode Date last seen Effective from Koha item type
Dewey Decimal Classification المكتبة المركزبة الجديدة - جامعة القاهرة قاعة الرسائل الجامعية - الدور الاول 13.11.2025 92476 Cai01.03.01.Ph.D.2025.Sh.S 01010110092476000 13.11.2025 13.11.2025 Thesis
Cairo University Libraries Portal Implemented & Customized by: Eng. M. Mohamady Contacts: new-lib@cl.cu.edu.eg | cnul@cl.cu.edu.eg
CUCL logo CNUL logo
© All rights reserved — Cairo University Libraries
CUCL logo
Implemented & Customized by: Eng. M. Mohamady Contact: new-lib@cl.cu.edu.eg © All rights reserved — New Central Library
CNUL logo
Implemented & Customized by: Eng. M. Mohamady Contact: cnul@cl.cu.edu.eg © All rights reserved — Cairo National University Library