A machine learning approach to predict student performance using educational data mining / by Muhammad Sammy Abdul Ghany Muhammad ; Supervision Prof. Dr. Ahmed Hamza, Prof. Dr. Ammar Mohammed.
Material type:
TextLanguage: English Summary language: English, Arabic Producer: 2024Description: 152 Leaves : illustrations ; 30 cm. + CDContent type: - text
- Unmediated
- volume
- إسلوب تعلم الألة للتنبؤ بأداء الطالب باستخدام التنقيب في البيانات التعليمية [Added title page title]
- 006.31
- Issues also as CD.
| Item type | Current library | Home library | Call number | Status | Barcode | |
|---|---|---|---|---|---|---|
Thesis
|
قاعة الرسائل الجامعية - الدور الاول | المكتبة المركزبة الجديدة - جامعة القاهرة | Cai01.18.02.M.Sc.2024.Mu.M (Browse shelf(Opens below)) | Not for loan | 01010110090833000 |
Thesis (M.Sc)-Cairo University, 2024.
Bibliography: pages 135-152.
Magnificent progress in machine learning and data mining techniques has been achieved during the last two decades. Education should benefit from these improvements to discover about how people learn in different educational settings. Because of the continuous increase in the number of researchers who are affiliated with education and apply data mining techniques and machine learning methods on educational data, a relatively new discipline called Educational Data Mining has emerged. It aims to use methods, tools and techniques from data mining, statistics, and machine learning to extract meaningful information that cannot be discovered by normal database queries from data generated in educational settings such as learning management systems or e-Learning systems.
The most used application of data mining and machine learning in education is prediction, whether predicting a value (i.e. a regression problem) or predicting a class (i.e. a classification problem). Most efforts are directed toward predicting student performance problem which is one of the most challenging problems in educational data mining. It has been tackled by researchers since the beginning of 2000s and is considered the oldest problem in educational data mining research community. Predicting student performance can be used in early warning systems for student at risk of failure. These systems warn the students and help other stakeholders to intervene and to take the proper actions which increase success rates and decrease failure and dropout rates.
Accuracy of predicting performance of students in most studies do not achieve the state-of-the-art accuracy in contrary with machine learning methods performances on data that come from other fields. The objectives of this study are (1) discovering the most important features that can be used to predict student performance with acceptable performance measures and (2) comparing between different machine learning models for predicting performance of students based on different combinations of their demographic, assessment scores, and virtual learning environment activity information.
The research work introduced six machine learning models, namely artificial neural network model, logistic regression, k-nearest neighbor, Naïve Bayes, support vector machine, and random forest model, to predict student performance. The most used machine learning and data mining techniques in Educational Data Mining studies are decision trees (or random forests) artificial neural network, and Naïve Bayes so they must be included in our research. Furthermore, the performances of all model on different combinations of features were evaluated and compared. We chose a benchmark dataset called the Open University Learning Analytics Dataset to carry out our research. We applied feature engineering techniques to extract and select features and used different combinations of them, and fed these different combinations to all the six machine learning models which were evaluated and compared. After evaluating the performance of all the six machine learning models on different combinations of data, random forest and artificial neural network model proved their applicability on educational data. Also they outperformed other models in other evaluation metrics.
Our results showed that the random forest and artificial neutral network models outperformed all other machine learning models. The accuracy of random forest was 94.68% and that of the artificial neural network model was 90.43%, the accuracy of k-nearest neighbor model is 84.04%, the accuracy of support vector machine model is 86.52%, the accuracy of logistic regression model is 87.94%, and finally, the accuracy of Naïve Bayes model is 78.01%. The results show that accuracy of random forest and artificial neural network on educational data reaches the state-of-the-art accuracies on datasets from other fields and can be efficiently used for predicting student performance and in early warning systems to avoid failure and decrease dropout rates..
Although demographics data can be used to predict student performance, but accuracy of prediction improves significantly when assessment scores and virtual learning environment data were used to predict student performance. The most important features in demographics are age band, index of multiple deprivation, level of highest education, studied credits, and disability.
أدى التطور الرائع والسريع في علم الذكاء الاصطناعي خلال السنوات السابقة إلى ظهور فرع جديد نسبيًا يسمى التنقيب في البيانات التعليمية والذي ما زال في طور التأصيل منذ ما يقرب من عقدين من الزمان، وهو فرع يشمل التقنيات، والأدوات، والإبحاث المصممة لاستخراج معلومات من المستودعات الكبيرة للبيانات التى أنتجت عن طريق أو متعلقة بنشاطات التعلم في بيئات وهيئات تعليمية. غالبًا ما تكون هذه البيانات مستفيضة، ومفصلة، ودقيقة.
تسعى الكثير من المنظمات التعليمية إلى الارتقاء بمستوى نظامها التعليمي من خلال تحقيق معايير الجودة ومن تلك المعايير تحسين الأداء الدراسي للطلاب الملتحقين بها وذلك من خلال زيادة أعداد الناجحين أوالمتميزين وخفض عدد الطلاب الراسبين أو المنسحبين من الدراسة، ومن أجل تحقيق ذلك الهدف، تقوم هذه المنظمات بتحليل بيانات الطلاب بشكل دوري بالطرق الإحصائية المعروفة في علم "التحليلات التعليمية". والجدير بالذكر أن متابعة مستوى الطلاب الحالي، أو وصفه، أو حتى تفسيره ليس وحده كافيًا للارتقاء بالمستوى الأداء الدراسي للطلاب في تلك المنظمات التعليمية، لأن المتابعة والوصف والتفسير يكونون غالبا لما قد حدث مسبقًا أو ما يحدث في الوقت الحاضر ولكن لا يعطون رؤية لما هو متوقع حدوثه في المستقبل، ولكي تتمكن هذه المنظمات التعليمية من الوصول لمستوى تعليمي أفضل لطلابها، عليها أن تستغل البيانات التعليمية المتاحة لتوقع مستوى الطلاب مستقبلًا وذلك له العديد من الفوائد والتطبيقات أهمها أنظمة تنبيه الطلاب الذين هم معرضون لخطر الرسوب أو الانسحاب من الدراسة.
يعد توقع أداء الطلاب من أكثر المواضيع التي تناولها الباحثون في مجال التنقيب في البيانات التعليمية، حيث ترجع بداية البحث في هذا الموضوع إلى مطلع القرن الحالى، وأكثر الطرق التي يستخدمها الباحثون لتوقع أداء الطلاب هي الشبكات العصبية الاصطناعية وشجرة القرار (أو الغابة العشوائية)، ولكن لاحظ الباحث أن مستوى دقة التوقع في مجال التنقيب في البيانات التعليمية لا يتماشى مع دقة التوقع في المجالات الأخرى، حيث أن الدقة في أغلب أبحاث توقع أداء الطلاب من خلال التنقيب في البيانات التعليمية باستخدام الشبكات العصبية الاصطناعية تتراوح ما بين الـ70% والـ80% ونادرًا ما تتخطاها بقليل، بينما وصلت الدقة في بعض المجالات الأخري إلى أكثر من 98% خاصة بعد استخدام تقنية التعلم العميق، مما حدى ببعض الباحثين في مجال التنقيب في البيانات التعليمية إلى إدعاء أن الشبكات العصبية الاصطناعية ليس الاختيار المناسب عند التعامل مع البيانات الناتجة من البيئات التعليمية، مما حث الباحث على تحسين دقة التوقع ودراسة الأبحاث المماثلة في هذا المجال للوقوف على أسباب عدم وصول دقة التوقع في مجال التنقيب في البيانات التعليمية إلى مثيلتها في المجالات الأخرى، بالإضافة إلى الوقوف على أهم الخواص التي قد تؤثر على مستوى الطلاب.
استخدم الباحث قاعدة بيانات كبيرة متاحة من الجامعة المفتوحة في المملكة المتحدة والتي تحتوي على بيانات ديموغرافية ودراسية لأكثر من ثلاثين ألف طالب بالإضافة إلى نشاطهم على البيئة التعليمة الافتراضية. قام الباحث باستخدام طرق للكشف عن أهم الخواص واختيارها لتوقع مستوى الطلاب من قاعدة البيانات، ثم قام بهندسة تلك الخواص لكي تناسب التعامل مع خوارزميات تعلم الآلة حسب نوع البيانات التي تحتويها تلك الخواص، ثم بنى ستة نماذج تعلم آلة للمقارنة بين أدائهم:
• يستخدم النموذج الأول شبكة عصبية اصطناعية بها طبقة مدخلات، والتي تتكون من 31 مدخل يمثلون الخواص المشتقة من قاعدة البيانات بعد أن تم هندسة تلك الخواص، و4 طبقات داخلية مخبئة، تتكون كل واحدةٍ منها من 120 وحدة عصبية، ثم أخيرًا طبقة المخرجات، والتي تتكون من 3 وحدات لتوقع فئة الطالب إن كان متمير، أو ناجح أو راسب.
• يستخدم النموذج الثاني غابة عشوائية تتكون من 500 شجرة والغابة العشوائية هي طريقة تجميع العديد من أشجار القرار واعتماد النتيجة التي يتم الإجماع عليها من هذه الأشجار.
• يستخدم النموذج الثالث نظرية البايز الساذج بإعداداته الإفتراضية.
• يستخدم النموذج الرابع ماكينة المتجهات الداعمة بإعداداته الإفتراضية.
• يستخدم النموذج الخامس ك - أقرب جار بإعداداته الإفتراضية.
• يستخدم النموذج السادس الانحسار اللوجيستي بإعداداته الإفتراضية.
وأخيرًا، قام الباحث باستخدام النماذج الست لتوقع أداء الطلاب، ثم قارن بين أدائهم على تركيبات مختلفة من البيانات.
جاءت النتيجة في المركز الأول لصالح الغابة العشوائية حيث وصلت دقة توقعها إلى 94.68%، وكانت دقة توقع الشبكة العصبية الاصطناعية 90.43%، ثم نموذج الانحسار اللوجيستي بدقة 87,94%، ثم في المركز الرابع ماكينة المتجه الداعم بدقة 86.52%، ويليها في المركز الخامس ك – أقرب جار بدقة توقع 84.04% وأخيرًا بايز الساذج بدقة 78.01%.
وللمزيد من التأكد من كفاءة المصنف الخاص بالشبكة العصبية الاصطناعية قام الباحث بعمل مصفوفة الارتباك واستخرج منها الموجب الصحيح، والموجب الخطأ، والسالب الصحيح، والسالب الخطأ لكل فئة من الطلاب، ثم استخدام العديد من مقاييس التقييم مثل الإحكام، والإرجاع، رقم ف1، ومنحنى مميز مستقبل التشيغل، ومقاييس تقييم أخرى معروفة وقد تفوقتا الغابة العشوائية والشبكية العصبية الاصطناعية على باقي النماذج في كل تلك المقاييس.
في هذا البحث، تمكن الباحث من تحسين دقة التوقع مع البيانات التعليمية وأثبت أن خوارزميات تعلم الآلة تستطيع الوصول إلى دقة توقع عالية عند استخدامها مع البيانات الناتجة من بيئات وهيئات تعليمية مقاربة لتلك التي وصلت إليها تلك الخوارزميات حاليًا في مجالات الأبحاث الأخرى، ولكن يجب الأخذ في الإعتبار ما يلي:
1) استخدام خواص متعلقة بأداء الطالب حتى تكون دقة التوقع عالية مثل درجاته، نشاطه على بيئة التعلم الإفتراضية، أعلى مستوى تعليمي وصل له، سنه، عدد الساعات المعتمدة التي يدرسها، المادة التي يدرسها، إلى أخره.
2) استخدام قاعدة بيانات كبيرة نسبيًا بها العديد من المشاهدات حتى يتسنى للنموذج التعلم من المجموعة التدريبية.
3) عمل توازن بين فئات التصنيف وعدم استخدام بيانات غير متوازنة.
Issues also as CD.
Text in English and abstract in Arabic & English.
There are no comments on this title.