Statistical modeling of heterogeneous big data sets : (Record no. 175828)
[ view plain ]
| 000 -LEADER | |
|---|---|
| fixed length control field | 08402namaa22004331i 4500 |
| 003 - CONTROL NUMBER IDENTIFIER | |
| control field | EG-GICUC |
| 005 - أخر تعامل مع التسجيلة | |
| control field | 20251130115540.0 |
| 008 - FIXED-LENGTH DATA ELEMENTS--GENERAL INFORMATION | |
| fixed length control field | 251113s2025 ua a|||frm||| 000 0 eng d |
| 040 ## - CATALOGING SOURCE | |
| Original cataloguing agency | EG-GICUC |
| Language of cataloging | eng |
| Transcribing agency | EG-GICUC |
| Modifying agency | EG-GICUC |
| Description conventions | rda |
| 041 0# - LANGUAGE CODE | |
| Language code of text/sound track or separate title | eng |
| Language code of summary or abstract | eng |
| -- | ara |
| 049 ## - Acquisition Source | |
| Acquisition Source | Deposit |
| 082 04 - DEWEY DECIMAL CLASSIFICATION NUMBER | |
| Classification number | 519.5 |
| 092 ## - LOCALLY ASSIGNED DEWEY CALL NUMBER (OCLC) | |
| Classification number | 519.5 |
| Edition number | 21 |
| 097 ## - Degree | |
| Degree | Ph.D |
| 099 ## - LOCAL FREE-TEXT CALL NUMBER (OCLC) | |
| Local Call Number | Cai01.03.01.Ph.D.2025.Sh.S |
| 100 0# - MAIN ENTRY--PERSONAL NAME | |
| Authority record control number or standard number | Sherouk Samir Mohamed Moawad, |
| Preparation | preparation. |
| 245 10 - TITLE STATEMENT | |
| Title | Statistical modeling of heterogeneous big data sets : |
| Remainder of title | a computationally intelligent approach / |
| Statement of responsibility, etc. | by Sherouk Samir Mohamed Moawad ; Supervised Prof. Magued Osman, Prof. Ahmed Shawky Moussa. |
| 246 15 - VARYING FORM OF TITLE | |
| Title proper/short title | النمذجة الإحصائية للبيانات الكبيرة غير المتجانسة : |
| Remainder of title | اتجاه الحوسبة الذكية / |
| 264 #0 - PRODUCTION, PUBLICATION, DISTRIBUTION, MANUFACTURE, AND COPYRIGHT NOTICE | |
| Date of production, publication, distribution, manufacture, or copyright notice | 2025. |
| 300 ## - PHYSICAL DESCRIPTION | |
| Extent | 144 pages : |
| Other physical details | illustrations ; |
| Dimensions | 25 cm. + |
| Accompanying material | CD. |
| 336 ## - CONTENT TYPE | |
| Content type term | text |
| Source | rda content |
| 337 ## - MEDIA TYPE | |
| Media type term | Unmediated |
| Source | rdamedia |
| 338 ## - CARRIER TYPE | |
| Carrier type term | volume |
| Source | rdacarrier |
| 502 ## - DISSERTATION NOTE | |
| Dissertation note | Thesis (Ph.D)-Cairo University, 2025. |
| 504 ## - BIBLIOGRAPHY, ETC. NOTE | |
| Bibliography, etc. note | Bibliography: pages 97-106. |
| 520 #3 - SUMMARY, ETC. | |
| Summary, etc. | Big Data analytics presents significant challenges due to the vast volume, heterogeneity, and uncertainty inherent in Big Data sets. This research introduces two innovative classification methodologies designed to address these challenges: Fuzzified Cluster-based Ensemble Classification (FCEC) and Fuzzified Cluster-based Parallel Classification (FCPC). Both approaches leverage fuzzified clustering techniques to improve classification accuracy by handling uncertainty and imprecision in data grouping. The FCEC proposes an intelligent classification approach based on fuzzified clustering to capture the uncertainty and imprecise grouping of the data, replacing the unrealistic and unrepresentative crisp boundaries with fuzzy boundaries. In this approach, k base classifiers are trained using k clusters which are formed by soft partitioning of the training data. We developed two soft cluster partitioning methods and applied them to four clustering techniques. The fuzzy membership values representing cluster participation are subsequently used as weights in the training of the base weighted logistic regression and weighted neural network classifiers. The outputs of the classifiers are then aggregated using five different combination rules to produce the final prediction results. To test and empirically validate the proposed solution, we applied FCEC to twelve benchmark datasets and compared its performance against regular classifiers and hard cluster-based classifiers. The experimental results demonstrated that the proposed approach outperformed both the traditional classification models and the crisp cluster-based classification in terms of classification evaluation metrics. FCPC extends the principles of FCEC to Big Data applications by introducing sample reduction and parallelization to enhance the computational performance. The goal of this classification methodology is to represent Big Data with a smaller, yet representative, sample size while preserving its underlying structures. This is achieved by incorporating fuzzy weights into the sampling strategy, drawing weighted subsamples from each cluster, and subsequently applying a cluster-based classifier ensemble for improved accuracy and efficiency. Benchmark Big Data sets are used to compare FCPC with traditional classifiers that can be used if the whole training data fits in memory. Four classification techniques—logistic regression, naive bayes, decision trees, and random forest—were evaluated using classification runing time and evaluation metrics. The proposed model demonstrated improved classification predictive power with a noticeable sample reduction - achieving up to 90% data reduction - leading to enhanced performance and potential reductions in computational resources. Additionally, a comparison with state-of-the-art methods shows that FCPC outperforms existing techniques in terms of classification performance. |
| 520 #3 - SUMMARY, ETC. | |
| Summary, etc. | تتناول هذه الأطروحة تطوير تقنيات التصنيف للبيانات الضخمة، مع التركيز على مواجهة التحديات الرئيسية مثل عدم اليقين ،الكفاءة الحسابية، وقابلية التوسع. تم اقتراح منهجيتين– التصنيف التجميعي المعتمد على التجميع الضبابي(FCEC) والتصنيف الموازي المعتمد على التجميع الضبابي –(FCPC) بهدف تحسين أداء التصنيف في بيئات البيانات الضخمة. تعتمد كلتا المنهجيتين على تقنيات التجميع الضبابي للتعامل مع عدم اليقين وعدم الدقة في تقسيم البيانات، مما يؤدي إلى تحسين دقة التصنيف. <br/>تقدم منهجيةFCEC نهج تصنيف يعتمد على التجميع المرن، حيث يتم دمج الضبابية مما يسمح لنقاط البيانات بالمساهمة في عدة مصنفات بناءً على قيم العضوية الضبابية. تم تطبيق الأوزان الضبابية في الانحدار اللوجستي المرجح وشبكات الأعصاب المرجحة، حيث تعكس الأوزان قيم العضوية الضبابية للمشاركة في التجمعات. يساعد هذا النهج في تقليل عدم اليقين وتداخل الحدود بين التجمعات، مما يحسن أداء التصنيف. أظهرت النتائج التجريبية أن منهجيةFCEC تتفوق على النهج التقليدية القائمة على التجميع الحاد والنماذج التصنيفية التقليدية، مع تحقيق تحسينات كبيرة في مؤشرات التقييم مثل الدقة )Accuracy(، المساحة تحت منحنى(AUC) ، وقيمةF1 . تم التحقق من صحة هذه المنهجية باستخدام 12 مجموعة بيانات معيارية وتم إثبات إمكانيتها في تطبيقات البيانات الضخمة من خلال استخدامها على بيانات MNIST. <br/>أما منهجية FCPC ، فتم تكييف مفاهيمFCEC لتطبيقات البيانات الضخمة من خلال دمج تقليل العينة والتوازي. تعملFCPC <br/>على تقليل حجم البيانات بنسبة تصل إلى 90% مع الحفاظ على دقة التصنيف، مما يحسن الكفاءة الحسابية. تجمع هذه المنهجية بين التقليل الضبابي لحجم العينات، والتجميع، والتصنيف المتوازي لمعالجة تحديات البيانات الضخمة. يتم استخدام قيم العضوية الضبابية كأوزان في مرحلة أخذ العينات العشوائية المرجحة لتمثيل كل تجمع، مما يضمن الحفاظ على الأنماط والعلاقات المهمة مع تقليل حجم مجموعة البيانات. يتم تدريب المصنفات الأساسية على هذه العينات المرجحة، مكونةً تصنيفًا تجميعيًا قائمًا على التجمع. أظهرتFCPC تفوقها على المصنفات التقليدية والطرق الحديثة، بما في ذلكML-lib وWeka، مما يبرز قابليتها <br/>للتوسع ومتانتها. كما تم تأكيد مرونة هذه المنهجية من خلال دراسة حالة واقعية استكشفت تأثير عدد التجمعات وتوزيع الفئات على الأداء. |
| 530 ## - ADDITIONAL PHYSICAL FORM AVAILABLE NOTE | |
| Issues CD | Issues also as CD. |
| 546 ## - LANGUAGE NOTE | |
| Text Language | Text in English and abstract in Arabic & English. |
| 650 #0 - SUBJECT ADDED ENTRY--TOPICAL TERM | |
| Topical term or geographic name entry element | Statistics |
| 650 #0 - SUBJECT ADDED ENTRY--TOPICAL TERM | |
| Topical term or geographic name entry element | الإحصاء |
| 653 #1 - INDEX TERM--UNCONTROLLED | |
| Uncontrolled term | Big Data |
| -- | Classification |
| -- | Cluster-based Classification |
| -- | Soft Data Processing |
| -- | Intelligent Data Analysis |
| -- | Classifier Ensemble |
| -- | Data Uncertainty |
| -- | Fuzzy Data Classification |
| 700 0# - ADDED ENTRY--PERSONAL NAME | |
| Personal name | Magued Osman |
| Relator term | thesis advisor. |
| 700 0# - ADDED ENTRY--PERSONAL NAME | |
| Personal name | Ahmed Shawky Moussa |
| Relator term | thesis advisor. |
| 900 ## - Thesis Information | |
| Grant date | 01-01-2025 |
| Supervisory body | Magued Osman |
| -- | Ahmed Shawky Moussa |
| Universities | Cairo University |
| Faculties | Faculty of Economics and Political Science |
| Department | Department of Statistics |
| 905 ## - Cataloger and Reviser Names | |
| Cataloger Name | Shimaa |
| Reviser Names | Eman Ghareb |
| 942 ## - ADDED ENTRY ELEMENTS (KOHA) | |
| Source of classification or shelving scheme | Dewey Decimal Classification |
| Koha item type | Thesis |
| Edition | 21 |
| Suppress in OPAC | No |
| Source of classification or shelving scheme | Home library | Current library | Date acquired | Inventory number | Full call number | Barcode | Date last seen | Effective from | Koha item type |
|---|---|---|---|---|---|---|---|---|---|
| Dewey Decimal Classification | المكتبة المركزبة الجديدة - جامعة القاهرة | قاعة الرسائل الجامعية - الدور الاول | 13.11.2025 | 92476 | Cai01.03.01.Ph.D.2025.Sh.S | 01010110092476000 | 13.11.2025 | 13.11.2025 | Thesis |