000 08782namaa22004331i 4500
003 EG-GICUC
005 20260111125030.0
008 251226s2025 ua a|||frm||| 000 0 eng d
040 _aEG-GICUC
_beng
_cEG-GICUC
_dEG-GICUC
_erda
041 0 _aeng
_beng
_bara
049 _aDeposit
082 0 4 _a004.678
092 _a004.678
_221
097 _aM.Sc
099 _aCai01.20.04.M.S.2025.Al.E
100 0 _aAlaa Adel Abd Elhafez,
_epreparation.
245 1 0 _aEnhancing internet of things (IOT) data analytics /
_cby Alaa Adel Abd Elhafez ; Supervision Prof. Dr. Hatem Elkadi, Prof. Dr. Osama Ismael.
246 1 5 _aتحسين تحليلات البيانات لانترنت الاشياء
264 0 _c2025.
300 _a124 Leaves :
_billustrations ;
_c30 cm. +
_eCD.
336 _atext
_2rda content
337 _aUnmediated
_2rdamedia
338 _avolume
_2rdacarrier
502 _aThesis (M.Sc)-Cairo University, 2025.
504 _aBibliography: pages 103-111.
520 3 _aThe Internet of Things' (IoT) explosive expansion has resulted in a huge volume of ongoing data streams produced by networked smart devices. Despite being information-rich, these data streams suffer greatly from redundancy. Significant difficulties arise from this redundancy, such as the need for a lot of storage, longer processing times, and the possibility of machine learning models overfitting. In order to provide real-time, resource-efficient, and scalable analytics in smart settings like automated homes, smart cities, and environmental monitoring systems, these problems must be resolved. This thesis addresses duplication in IoT data streams by introducing a concept known as Cluster-Based Similarity Elimination (CBSE). By reducing duplicate data at the feature and record levels prior to classification, the suggested approach seeks to greatly increase classification speed, computational effectiveness, and model performance. Conventional techniques, including feature selection, are unable to fulfill the processing demands of real-time systems and only partially address the redundancy issue. To handle the problem holistically, CBSE, on the other hand, incorporates an extra redundancy removal phase in between preprocessing and classification. The CBSE model consists of three phases: 1. Preprocessing Phase – Includes basic cleaning, formatting, and normalization to prepare raw sensor data. 2. Redundancy Elimination Phase – Uses clustering techniques to detect and eliminate similar records. This is the core innovation of CBSE and plays a pivotal role in reducing dataset size. 3. Classification Phase – Applies machine learning models to the optimized dataset. Multiple classification algorithms, including Decision Trees, Naive Bayes, were evaluated to ensure generalizability. A number of tests were carried out utilizing real-world IoT datasets, including parts of the Austrian weather dataset, which combines information from several sensors like temperature, humidity, wind speed, and rainfall, in order to verify the efficacy of CBSE. Increased processing times were directly linked to the high degree of redundancy, which in certain situations resulted in a 40% increase in computing time. The exploratory setup included comparing classification execution and computational costs before and after applying the CBSE model. Comes about illustrated an emotional advancement in execution time and classification productivity. Particularly, CBSE was able to diminish the real-time classification execution time to fair 9% of the initial, representing a 94% reduction in handling time for Irregular Timberland classifier. In spite of this significant reduction in information volume, the classification exactness remained steady or indeed made strides in a few cases, owing to the removal of clamor and repetitive information focuses. Assessment measurements included execution time, classification precision, accuracy, review, and F1-score over different machine learning models. According to these measurements, CBSE optimizes framework execution while maintaining foresight control. For instance, using CBSE with an arbitrary timberland classifier resulted in faster reaction times with essentially no impact on accuracy, which made it suitable for setup in real-time systems. The key contribution of this thesis is The development and implementation of a redundancy preprocessing stage integrated into the IoT data classification pipeline. In conclusion, the CBSE model advances the field of IoT analytics by offering a scalable and effective solution for data minimization and classification optimization. By removing redundant data before it reaches the classification stage, CBSE enhances both computational efficiency and analytical effectiveness, thereby supporting real-time decision-making in IoT applications. This research has direct implications for industries relying on fast, accurate, and efficient data analytics, and lays a foundation for future work on intelligent IoT systems.
520 3 _aتقدم هذه الدراسة طريقة جديدة لتقليل التكرار في تدفقات البيانات المستمرة من أجهزة إنترنت الأشياء من خلال الاستفادة من خوارزمية إزالة التشابه القائمة على المجموعة. حيث تركز الدراسة على ضرورة تقنيات معالجة البيانات الفعّالة في بيئات إنترنت الأشياء، خاصة وأن البيانات المكررة يمكن أن تؤدي إلى الإفراط في ملاءمة النموذج وزيادة المتطلبات الحسابية. وحيث أن الأساليب الحالية بما فيها من اختيار الميزات تعالج جزءًا من هذه المشكلات إلا أنها غير كافية للمتطلبات المتزايدة لأجهزة إنترنت الأشياء. وبالتالي تقدم هذه الدراسة منهجية إزالة التشابه القائمة على المجموعة (CBSE)،والتي تقلل بشكل كبير من حجم البيانات من خلال إزالة الميزات والسجلات المكررة من خلال تقنيات تقليل السجلات المقترحة. تم استخدام خوارزميات تصنيف مختلفة ومقاييس تقييم للتحقق من صحة هذه الطريقة مما نتج عنه تحسينات كبيرة في الطرق التقليدية. حيث يقلل نموذج CBSE من وقت تنفيذ التصنيف في الوقت الفعلي إلى 9٪ فقط من الأصل، مما يُظهر انخفاضًا ملحوظًا بنسبة 94٪ في وقت المعالجة مقارنة بالطرق التقليدية. كما تتضمن تسهم الدراسة في تطوير منهجية CBSE التي تدمج مرحلة التقليل قبل عملية التصنيف، مما يؤدي إلى تكثيف مجموعة البيانات بشكل فعال وتعزيز كفاءة ودقة مراحل التجميع والتصنيف. بالإضافة إلى ذلك، فإن التخفيض الكبير في وقت التنفيذ الذي تحققه المنهجية المقترحة أمر بالغ الأهمية لتحليلات بيانات إنترنت الأشياء في الوقت الفعلي، مما يوفر للشركات حلاً عمليًا وقابلًا للتطوير يحافظ على الموارد الحسابية. بشكل عام، تسهم الدراسة في تحقيق تقدم كبير في تحليلات بيانات إنترنت الأشياء في الوقت الفعلي من خلال تحسين حجم البيانات وتحسين كفاءة التصنيف ومعالجة الإفراط في التجهيز وتعزيز الكفاءة الحسابية لتلبية المتطلبات المتزايدة لبيئات المدن الذكية
530 _aIssues also as CD.
546 _aText in English and abstract in Arabic & English.
650 0 _aInternet of things
650 0 _aإنترنت الأشياء
653 1 _aData Minimization
_aIoT Data Analytics
_aReal-Time Data Analytics,
_aMachine Learning
_aClassification Task
_aData Optimization
_aتقليل البيانات
_aتحليلات بيانات إنترنت الأشياء
700 0 _aHatem Elkadi
_ethesis advisor.
700 0 _aOsama Ismael
_ethesis advisor.
900 _b01-01-2025
_cHatem Elkadi
_cOsama Ismael
_UCairo University
_FFaculty of Computers and Artificial Intelligence
_DDepartment of Information Systems
905 _aShimaa
_eEman Ghareb
942 _2ddc
_cTH
_e21
_n0
999 _c177049