| 000 | 08782namaa22004331i 4500 | ||
|---|---|---|---|
| 003 | EG-GICUC | ||
| 005 | 20260111125030.0 | ||
| 008 | 251226s2025 ua a|||frm||| 000 0 eng d | ||
| 040 |
_aEG-GICUC _beng _cEG-GICUC _dEG-GICUC _erda |
||
| 041 | 0 |
_aeng _beng _bara |
|
| 049 | _aDeposit | ||
| 082 | 0 | 4 | _a004.678 |
| 092 |
_a004.678 _221 |
||
| 097 | _aM.Sc | ||
| 099 | _aCai01.20.04.M.S.2025.Al.E | ||
| 100 | 0 |
_aAlaa Adel Abd Elhafez, _epreparation. |
|
| 245 | 1 | 0 |
_aEnhancing internet of things (IOT) data analytics / _cby Alaa Adel Abd Elhafez ; Supervision Prof. Dr. Hatem Elkadi, Prof. Dr. Osama Ismael. |
| 246 | 1 | 5 | _aتحسين تحليلات البيانات لانترنت الاشياء |
| 264 | 0 | _c2025. | |
| 300 |
_a124 Leaves : _billustrations ; _c30 cm. + _eCD. |
||
| 336 |
_atext _2rda content |
||
| 337 |
_aUnmediated _2rdamedia |
||
| 338 |
_avolume _2rdacarrier |
||
| 502 | _aThesis (M.Sc)-Cairo University, 2025. | ||
| 504 | _aBibliography: pages 103-111. | ||
| 520 | 3 | _aThe Internet of Things' (IoT) explosive expansion has resulted in a huge volume of ongoing data streams produced by networked smart devices. Despite being information-rich, these data streams suffer greatly from redundancy. Significant difficulties arise from this redundancy, such as the need for a lot of storage, longer processing times, and the possibility of machine learning models overfitting. In order to provide real-time, resource-efficient, and scalable analytics in smart settings like automated homes, smart cities, and environmental monitoring systems, these problems must be resolved. This thesis addresses duplication in IoT data streams by introducing a concept known as Cluster-Based Similarity Elimination (CBSE). By reducing duplicate data at the feature and record levels prior to classification, the suggested approach seeks to greatly increase classification speed, computational effectiveness, and model performance. Conventional techniques, including feature selection, are unable to fulfill the processing demands of real-time systems and only partially address the redundancy issue. To handle the problem holistically, CBSE, on the other hand, incorporates an extra redundancy removal phase in between preprocessing and classification. The CBSE model consists of three phases: 1. Preprocessing Phase – Includes basic cleaning, formatting, and normalization to prepare raw sensor data. 2. Redundancy Elimination Phase – Uses clustering techniques to detect and eliminate similar records. This is the core innovation of CBSE and plays a pivotal role in reducing dataset size. 3. Classification Phase – Applies machine learning models to the optimized dataset. Multiple classification algorithms, including Decision Trees, Naive Bayes, were evaluated to ensure generalizability. A number of tests were carried out utilizing real-world IoT datasets, including parts of the Austrian weather dataset, which combines information from several sensors like temperature, humidity, wind speed, and rainfall, in order to verify the efficacy of CBSE. Increased processing times were directly linked to the high degree of redundancy, which in certain situations resulted in a 40% increase in computing time. The exploratory setup included comparing classification execution and computational costs before and after applying the CBSE model. Comes about illustrated an emotional advancement in execution time and classification productivity. Particularly, CBSE was able to diminish the real-time classification execution time to fair 9% of the initial, representing a 94% reduction in handling time for Irregular Timberland classifier. In spite of this significant reduction in information volume, the classification exactness remained steady or indeed made strides in a few cases, owing to the removal of clamor and repetitive information focuses. Assessment measurements included execution time, classification precision, accuracy, review, and F1-score over different machine learning models. According to these measurements, CBSE optimizes framework execution while maintaining foresight control. For instance, using CBSE with an arbitrary timberland classifier resulted in faster reaction times with essentially no impact on accuracy, which made it suitable for setup in real-time systems. The key contribution of this thesis is The development and implementation of a redundancy preprocessing stage integrated into the IoT data classification pipeline. In conclusion, the CBSE model advances the field of IoT analytics by offering a scalable and effective solution for data minimization and classification optimization. By removing redundant data before it reaches the classification stage, CBSE enhances both computational efficiency and analytical effectiveness, thereby supporting real-time decision-making in IoT applications. This research has direct implications for industries relying on fast, accurate, and efficient data analytics, and lays a foundation for future work on intelligent IoT systems. | |
| 520 | 3 | _aتقدم هذه الدراسة طريقة جديدة لتقليل التكرار في تدفقات البيانات المستمرة من أجهزة إنترنت الأشياء من خلال الاستفادة من خوارزمية إزالة التشابه القائمة على المجموعة. حيث تركز الدراسة على ضرورة تقنيات معالجة البيانات الفعّالة في بيئات إنترنت الأشياء، خاصة وأن البيانات المكررة يمكن أن تؤدي إلى الإفراط في ملاءمة النموذج وزيادة المتطلبات الحسابية. وحيث أن الأساليب الحالية بما فيها من اختيار الميزات تعالج جزءًا من هذه المشكلات إلا أنها غير كافية للمتطلبات المتزايدة لأجهزة إنترنت الأشياء. وبالتالي تقدم هذه الدراسة منهجية إزالة التشابه القائمة على المجموعة (CBSE)،والتي تقلل بشكل كبير من حجم البيانات من خلال إزالة الميزات والسجلات المكررة من خلال تقنيات تقليل السجلات المقترحة. تم استخدام خوارزميات تصنيف مختلفة ومقاييس تقييم للتحقق من صحة هذه الطريقة مما نتج عنه تحسينات كبيرة في الطرق التقليدية. حيث يقلل نموذج CBSE من وقت تنفيذ التصنيف في الوقت الفعلي إلى 9٪ فقط من الأصل، مما يُظهر انخفاضًا ملحوظًا بنسبة 94٪ في وقت المعالجة مقارنة بالطرق التقليدية. كما تتضمن تسهم الدراسة في تطوير منهجية CBSE التي تدمج مرحلة التقليل قبل عملية التصنيف، مما يؤدي إلى تكثيف مجموعة البيانات بشكل فعال وتعزيز كفاءة ودقة مراحل التجميع والتصنيف. بالإضافة إلى ذلك، فإن التخفيض الكبير في وقت التنفيذ الذي تحققه المنهجية المقترحة أمر بالغ الأهمية لتحليلات بيانات إنترنت الأشياء في الوقت الفعلي، مما يوفر للشركات حلاً عمليًا وقابلًا للتطوير يحافظ على الموارد الحسابية. بشكل عام، تسهم الدراسة في تحقيق تقدم كبير في تحليلات بيانات إنترنت الأشياء في الوقت الفعلي من خلال تحسين حجم البيانات وتحسين كفاءة التصنيف ومعالجة الإفراط في التجهيز وتعزيز الكفاءة الحسابية لتلبية المتطلبات المتزايدة لبيئات المدن الذكية | |
| 530 | _aIssues also as CD. | ||
| 546 | _aText in English and abstract in Arabic & English. | ||
| 650 | 0 | _aInternet of things | |
| 650 | 0 | _aإنترنت الأشياء | |
| 653 | 1 |
_aData Minimization _aIoT Data Analytics _aReal-Time Data Analytics, _aMachine Learning _aClassification Task _aData Optimization _aتقليل البيانات _aتحليلات بيانات إنترنت الأشياء |
|
| 700 | 0 |
_aHatem Elkadi _ethesis advisor. |
|
| 700 | 0 |
_aOsama Ismael _ethesis advisor. |
|
| 900 |
_b01-01-2025 _cHatem Elkadi _cOsama Ismael _UCairo University _FFaculty of Computers and Artificial Intelligence _DDepartment of Information Systems |
||
| 905 |
_aShimaa _eEman Ghareb |
||
| 942 |
_2ddc _cTH _e21 _n0 |
||
| 999 | _c177049 | ||