TY - BOOK AU - Abdullah Mohammed Abdullah Alamri, AU - Ghada Dahy Fathy Kamel AU - Hesham N. Elmahdy TI - A novel framework for threat detection in IoT U1 - 006.3 PY - 2025/// KW - Internet of Things KW - إنترنت الأشياء KW - Internet of Things (IoT) KW - Threat Detection KW - Intrusion Detection System (IDS) KW - Machine Learning (ML) KW - Random Forest KW - Feature Selection KW - Class Balancing KW - TON-IoT KW - Downsampling KW - Adaptive Learning KW - GDPR KW - إنترنت الأشياء (IoT) KW - نظام كشف التسلل N1 - Thesis (M.Sc)-Cairo University, 2025; Bibliography: pages 65-69; Issues also as CD N2 - The rapid proliferation of Internet of Things (IoT) devices has resulted in the formation of highly interconnected ecosystems, simultaneously increasing the attack surface. This is because devices have limited resources, there are many different protocols, and standards that aren't always the same, which makes security holes quite clear. Traditional defenses that use signatures or rules have a hard time keeping up with the changing and multidimensional nature of IoT communications. In response, we propose a machine-learning-based intrusion detection method that combines feature selection with class rebalancing. We used the modern TON-IoT dataset, which comprises IoT/IIoT sensor telemetry, Windows/Linux logs, and network traces, to test this framework. There are four steps in our pipeline. Data preprocessing: StandardScaler is used to standardize numeric attributes and fix duplicates and missing values so that learning is stable. Change in class distribution: Downsampling fixes a big imbalance, so the "Normal" and " Malicious " classes (each with 160k instances) are now equally represented, and the multiclass proportions are almost the same (around 11% for each class). Feature selection: SelectKBest uses mutual information to find the best discriminative features, such as timestamp, source/destination IPs and ports, session duration, connection state, and volume measurements. This cuts down on dimensionality and training costs. Modeling and optimization: We look at Random Forest, Gradient Boosting, K-Nearest Neighbors, Decision Tree, SVM, Gaussian Naive Bayes, LDA, QDA, and MLP. We change the hyperparameters using GridSearchCV and RandomizedSearchCV. A comprehensive evaluation utilizing Accuracy, Precision, Recall, F1-score, and confusion matrices demonstrates the superiority of ensemble approaches. The balanced split yielded an accuracy of 98.79% with the Random Forest model. Gradient Boosting gets 96.75%, KNN gets 96.54%, and Decision Tree gets 95.58%. SVM gets 64.92%, which shows that IoT traffic is hard to separate in a simple way. On the other hand, Gaussian Naive Bayes and QDA only get 5.57% and 4.33%, respectively. The results show how important it is to combine feature selection with class balancing to improve generalization and make the computer work faster. 3 Our main contribution is to develop a robust and scalable Intrusion Detection System (IDS) framework for the Internet of Things (IoT), based on a combination of preprocessing, balancing, and feature selection with model-aware optimization. This includes attack type classification using multiclass categorization. We also offer best practices for deploying intelligent IOS systems across various IoT environments, highlighting practical benefits. Looking ahead, we advocate for lightweight, resource-efficient models that are suitable for limited devices and facilitate adaptive/online learning for monitoring emerging threats. We emphasize the importance of ethical safeguards, including privacy, fairness, openness, and accountability; أدى الانتشار السريع لأجهزة إنترنت الأشياء (IoT) إلى تكوين أنظمة بيئية مترابطة للغاية ، مما أدى في نفس الوقت إلى زيادة سطح الهجوم. وذلك لأن الأجهزة لديها موارد محدودة ، وهناك العديد من البروتوكولات المختلفة ، والمعايير التي ليست دائما متشابهة ، مما يجعل الثغرات الأمنية واضحة تماما. تواجه الدفاعات التقليدية التي تستخدم التوقيعات أو القواعد صعوبة في مواكبة الطبيعة المتغيرة والمتعددة الأبعاد لاتصالات إنترنت الأشياء. ردا على ذلك ، نقترح طريقة الكشف عن التسلل المستندة إلى التعلم الآلي والتي تجمع بين تحديد الميزة وإعادة موازنة الفصل. استخدمنا مجموعة بيانات TON-IoT الحديثة ، والتي تشتمل على القياس عن بعد لمستشعر IoT / IIoT ، وسجلات Windows / Linux ، وتتبع الشبكة ، لاختبار هذا الإطار. هناك أربع خطوات في خط الأنابيب لدينا. المعالجة المسبقة للبيانات: يستخدم StandardScaler لتوحيد السمات الرقمية وإصلاح القيم المكررة والمفقودة بحيث يكون التعلم مستقرا. التغيير في توزيع الفئة: يعمل تقليل العينات على إصلاح خلل كبير ، لذا فإن الفئتين "عادي" و "غير عادي" (لكل منهما 160 ألف مثيل) ممثلة الآن بالتساوي ، والنسب متعددة الفئات هي نفسها تقريبا (حوالي 11٪ لكل فئة). تحديد الميزة: يستخدم SelectKBest المعلومات المتبادلة للعثور على أفضل الميزات التمييزية، مثل الطابع الزمني وعناوين IP والمنافذ المصدر/الوجهة ومدة الجلسة وحالة الاتصال وقياسات الحجم. هذا يقلل من الأبعاد وتكاليف التدريب. النمذجة والتحسين: ننظر إلى الغابة العشوائية ، وتعزيز التدرج ، وأقرب جيران K ، وشجرة القرار ، و SVM ، و Gaussian Naive Bayes ، و LDA ، و QDA ، و MLP. نقوم بتغيير المعلمات الفائقة باستخدام GridSearchCV و RandomizedSearchCV. يوضح التقييم الشامل الذي يستخدم مصفوفات الدقة والدقة والاستدعاء ودرجة F1 والارتباك تفوق مناهج المجموعة. يمنح التقسيم الأولي غير المتوازن دقة Random Forest بفضل التقسيم المتوازن 98.79٪. يحصل تعزيز التدرج على 96.75٪ ، وتحصل KNN على 96.54٪ ، وشجرة القرار تحصل على 95.58٪. تحصل SVM على 64.92٪ ، مما يدل على أنه من الصعب فصل حركة مرور إنترنت الأشياء بطريقة بسيطة. من ناحية أخرى ، يحصل Gaussian Naive Bayes و QDA على 5.57٪ و 4.33٪ فقط على التوالي. توضح النتائج مدى أهمية الجمع بين اختيار الميزة وموازنة الفئة لتحسين التعميم وجعل الكمبيوتر يعمل بشكل أسرع. تتمثل المساهمة الرئيسية في مخطط IDS قوي وقابل للتطوير لإنترنت الأشياء يستخدم مزيجا مبدئيا من المعالجة المسبقة والموازنة واختيار الميزات مع التحسين المدرك للنموذج. توصلنا أيضا إلى نصائح حول أفضل الممارسات لاستخدام IDS الذكي في إعدادات إنترنت الأشياء المختلفة ، بالإضافة إلى فوائد العالم الحقيقي. من خلال تبني المساعي المستقبلية ، ندعو إلى اعتماد نماذج خفيفة الوزن وفعالة في استخدام الموارد مناسبة للأجهزة المقيدة وتسهل التعلم التكيفي / عبر الإنترنت لمراقبة المخاطر الناشئة. نؤكد أيضا على مدى أهمية وجود حماية أخلاقية للخصوصية والإنصاف والانفتاح والمسؤولية. ER -