Big data clustering : (Record no. 178454)

MARC details
000 -LEADER
fixed length control field 07204namaa22004331i 4500
003 - CONTROL NUMBER IDENTIFIER
control field EG-GICUC
005 - أخر تعامل مع التسجيلة
control field 20260224120633.0
008 - FIXED-LENGTH DATA ELEMENTS--GENERAL INFORMATION
fixed length control field 260214s2025 ua a|||frm||| 000 0 eng d
040 ## - CATALOGING SOURCE
Original cataloguing agency EG-GICUC
Language of cataloging eng
Transcribing agency EG-GICUC
Modifying agency EG-GICUC
Description conventions rda
041 0# - LANGUAGE CODE
Language code of text/sound track or separate title eng
Language code of summary or abstract eng
-- ara
049 ## - Acquisition Source
Acquisition Source Deposit
082 04 - DEWEY DECIMAL CLASSIFICATION NUMBER
Classification number 519.5
092 ## - LOCALLY ASSIGNED DEWEY CALL NUMBER (OCLC)
Classification number 519.5
Edition number 21
097 ## - Degree
Degree M.Sc
099 ## - LOCAL FREE-TEXT CALL NUMBER (OCLC)
Local Call Number Cai01.03.01.M.Sc.2025.Na.B
100 0# - MAIN ENTRY--PERSONAL NAME
Authority record control number or standard number Nayera Mostafa Ahmed,
Preparation preparation.
245 10 - TITLE STATEMENT
Title Big data clustering :
Remainder of title A mathematical programming framework /
Statement of responsibility, etc. by Nayera Mostafa Ahmed ; Supervised Dr Mahmoud Mostafa Rashwan, Dr Ahmed El-Tabey Okasha.
246 15 - VARYING FORM OF TITLE
Title proper/short title التحليل العنقودي للبيانات الضخمة :
Remainder of title إطار برمجة رياضية
264 #0 - PRODUCTION, PUBLICATION, DISTRIBUTION, MANUFACTURE, AND COPYRIGHT NOTICE
Date of production, publication, distribution, manufacture, or copyright notice 2025.
300 ## - PHYSICAL DESCRIPTION
Extent 91 pages :
Other physical details illustrations ;
Dimensions 25 cm. +
Accompanying material CD.
336 ## - CONTENT TYPE
Content type term text
Source rda content
337 ## - MEDIA TYPE
Media type term Unmediated
Source rdamedia
338 ## - CARRIER TYPE
Carrier type term volume
Source rdacarrier
502 ## - DISSERTATION NOTE
Dissertation note Thesis (M.Sc)-Cairo University, 2025.
504 ## - BIBLIOGRAPHY, ETC. NOTE
Bibliography, etc. note Bibliography: pages 68 -75.
520 #3 - SUMMARY, ETC.
Summary, etc. Traditional k-means clustering faces computational bottlenecks with big data due to quadratic <br/>complexity scaling. While parallel implementations exist, most employ heuristic load balancing <br/>without mathematical optimization foundations. This thesis develops a mathematical <br/>programming framework for parallel k-means (MP-PKmean) that explicitly models clustering <br/>objectives and parallelization constraints within a unified optimization formulation. <br/>The framework introduces binary decision variables for cluster and processor assignments with <br/>constraints ensuring optimal workload distribution. Four theoretical guarantees are established: <br/>mathematical equivalence with sequential algorithms, optimal load balancing, realistic speedup <br/>bounds incorporating overhead analysis, and algorithmic equivalence. <br/>Comprehensive validation through 2,200 experiments across synthetic (1K-1M samples) and real-<br/>world datasets from five domains (botanical, chemical, medical, cybersecurity, physics) spanning <br/>150-5M samples demonstrates substantial performance improvements while preserving clustering <br/>quality. Key findings: 50,000 samples threshold for parallel benefits, maximum speedups of 2.79× <br/>(synthetic) and 1.96× (real applications), optimal 37-54% efficiency with 4-core configurations, <br/>and statistical clustering quality equivalence across all configurations. <br/>The framework establishes deployment guidelines: sequential processing for < 50K samples, 4-<br/>core configurations for 50K-500K samples (37-54% efficiency), and 8-core configurations for <br/>>500K samples (speedups >2.5×). Cross-domain validation confirms universal applicability <br/>determined by dataset size rather than domain characteristics. <br/>This research bridges mathematical optimization theory with practical parallel computing, <br/>providing theoretical rigor and empirical validation for scalable clustering solutions.
520 #3 - SUMMARY, ETC.
Summary, etc. يواجه نهج K-means التقليدي صعوبات حسابية كبيرة عند التعامل مع البيانات الضخمة بسبب تعقيده التربيعي في الحسابات. ورغم وجود نسخ موازية له، فإن أغلبها يعتمد على توزيع الاحمال بشكل تقريبي تفتقر إلى أساس رياضي. تهدف هذه الرسالة إلى تطوير إطار برمجة رياضية للتحليل العنقودي البيانات باستخدام K-means بشكل متوازي(MP-PKmeans)، بحيث يجمع بين هدف التحليل العنقوديوقيود المعالجة المتوازية ضمن صياغة موحدة.<br/>يقوم الإطار المقترح بإدخال متغيرات ثنائية لاتخاذ القرارات الخاصة بتخصيص النقاط إلى المجموعات (clusters) والمعالجات (processors)، مع فرض قيود رياضية تضمن توزيع الحمل بشكل مثالي. وقد تم إثبات أربع خصائص نظرية رئيسية: التطابق الرياضي مع النسخة التسلسلية ، تحقيق موازنة حمل مثالية بحد أقصى انحراف نقطة واحدة بين المعالجات، اشتقاق حدود عملية للتسريع (speedup) تأخذ في الاعتبار تكاليف التزامن والاتصال وفق مبادئ الحوسبة المتوازية، والتكافؤ مع المعالجة التسلسلية.<br/>وللتحقق تجريبياً، تم إجراء2,200 تجربة على بيانات مولدة (من 1,000 إلى مليون عينة) وبيانات حقيقية في خمسة مجالات مختلفة (النباتات، الكيمياء، الطب، الأمن السيبراني، والفيزياء) بحجم يتراوح بين 150 و5 مليون عينة. أظهرت النتائج تحسينات كبيرة في الأداء مع الحفاظ على جودة التجميع. ومن أبرز النتائج:تحديد 50,000 عينة كحد فاصل لبدء الاستفادة من المعالجة المتوازية، تحقيق سرعة قصوى2.79× في البيانات المولدة و1.96× في البيانات الحقيقية، كفاءة مثالية بين 37%–54% عند استخدام 4 معالجات للبيانات المتوسطة الحجم، وتطابق إحصائي في جودة التجميع بين النسخة المتوازية والتسلسلية (p > 0.05).<br/>كما يقدّم الإطار إرشادات عملية للتطبيق: المعالجة التسلسلية للبيانات أقل من 50,000 عينة، واستخدام 4 معالجات للبيانات من 50,000 حتى 500,000 ، و8 معالجات للبيانات الأكبر لتحقيق تسريع يفوق 2.5×. وقد أثبتت التجارب عبر مختلف المجالات أن حجم البيانات—وليستخصائصها أو بعدها—هو العامل الحاسم في الأداء، مما يؤكد عالمية الإطار وقابليته للتطبيق على نطاق واسع.<br/>تُسهم هذه الدراسة في ربط النظرية الرياضية للأمثليةبالتطبيق العملي في الحوسبة المتوازية للبيانات الضخمة، مقدمةً أساساً نظرياً صارماً ودعماً تجريبياً موثقاً.
530 ## - ADDITIONAL PHYSICAL FORM AVAILABLE NOTE
Issues CD Issues also as CD.
546 ## - LANGUAGE NOTE
Text Language Text in English and abstract in Arabic & English.
650 #0 - SUBJECT ADDED ENTRY--TOPICAL TERM
Topical term or geographic name entry element Statistics
650 #0 - SUBJECT ADDED ENTRY--TOPICAL TERM
Topical term or geographic name entry element الاحصاء
653 #1 - INDEX TERM--UNCONTROLLED
Uncontrolled term big data clustering
-- parallel k-means
-- mathematical programming
-- load balancing
-- performance optimization
-- scalability analysis
-- K-Meansالمتوازي
-- التحليل العنقودي للبيانات الضخمة
700 0# - ADDED ENTRY--PERSONAL NAME
Personal name Mahmoud Mostafa Rashwan
Relator term thesis advisor.
700 0# - ADDED ENTRY--PERSONAL NAME
Personal name Ahmed El-Tabey Okash
Relator term thesis advisor.
900 ## - Thesis Information
Grant date 01-01-2025
Supervisory body Mahmoud Mostafa Rashwan
-- Ahmed El-Tabey Okasha
Universities Cairo University
Faculties Faculty of Economics and Political Science
Department Department of Statistics
905 ## - Cataloger and Reviser Names
Cataloger Name Shimaa
Reviser Names Eman Ghareb
942 ## - ADDED ENTRY ELEMENTS (KOHA)
Source of classification or shelving scheme Dewey Decimal Classification
Koha item type Thesis
Edition 21
Suppress in OPAC No
Holdings
Source of classification or shelving scheme Home library Current library Date acquired Inventory number Full call number Barcode Date last seen Effective from Koha item type
Dewey Decimal Classification المكتبة المركزبة الجديدة - جامعة القاهرة قاعة الرسائل الجامعية - الدور الاول 14.02.2026 93371 Cai01.03.01.M.Sc.2025.Na.B 01010110093371000 14.02.2026 14.02.2026 Thesis
Cairo University Libraries Portal Implemented & Customized by: Eng. M. Mohamady Contacts: new-lib@cl.cu.edu.eg | cnul@cl.cu.edu.eg
CUCL logo CNUL logo
© All rights reserved — Cairo University Libraries
CUCL logo
Implemented & Customized by: Eng. M. Mohamady Contact: new-lib@cl.cu.edu.eg © All rights reserved — New Central Library
CNUL logo
Implemented & Customized by: Eng. M. Mohamady Contact: cnul@cl.cu.edu.eg © All rights reserved — Cairo National University Library