header
Image from OpenLibrary

An intelligent approach for solving traffic problem / by Mostafa Elsayed Ahmed Masoud ; Supervised Prof. Naglaa Ragaa Saeid Hassan, Dr. Heba Sayed Roshdy.

By: Contributor(s): Material type: TextTextLanguage: English Summary language: English, Arabic Producer: 2024Description: 96 leaves : illustrations ; 30 cm. + CDContent type:
  • text
Media type:
  • Unmediated
Carrier type:
  • volume
Other title:
  • أسلوب ذكي لحل مشكلة المرور [Added title page title]
Subject(s): DDC classification:
  • 658.405
Available additional physical forms:
  • Issues also as CD.
Dissertation note: Thesis (M.Sc)-Cairo University, 2024. Summary: In this thesis, the focus was on addressing the traffic signal control problem particularly in the case of two intersections. A comprehensive literature review was conducted revealing that most existing works did not emphasize the use of reinforcement learning approaches. This research gap provided the motivation to suggest and develop two cases for two distinct approaches: Q-learning and Deep Q-Network (DQN). Case 1 about "Q-learning approach for solving traffic signal control problem": In this case, the Q-learning approach was suggested and implemented to tackle the traffic signal control problem. Q-learning is a model-free reinforcement learning algorithm that seeks to find the best action to take given the current state by learning the value of state-action pairs. During the experimentation and analysis phase, the Q-learning approach demonstrated some effectiveness but also exhibited certain limitations. These limitations included the requirement for extensive iterations to converge to an optimal policy and the inability to effectively handle the high-dimensional state space and action space associated with complex traffic environments. These issues prompted the development of the second case, applying the DQN approach. Case 2 about: "Deep Q-Networks Algorithm for Solving Traffic Signal Control Problem": This case involved the application of the DQN approach, which incorporates deep neural networks to enhance the learning and decision-making capabilities of the algorithm. DQN uses a neural network to approximate the Q-values, enabling it to handle larger and more complex state and action spaces. This approach was implemented to overcome the limitations identified in the Q-learning approach. A comparative analysis between the Q-learning and DQN approaches was conducted, considering various metrics such as the number of iterations, optimized actions, and overall reward values aimed at minimizing the number of vehicles at the intersections. Comparative analysis and results demonstrated that the DQN approach outperformed the Q-learning approach, exhibiting superior efficiency and effectiveness. The DQN approach achieved optimized actions and generated higher reward values, leading to a significant reduction in the number of vehicles at the intersections. Specifically, the DQN approach was able to reduce traffic congestion more effectively than the Q-learning approach.Summary: تعتبر مشكلة تنظيم المرور من المشاكل التي تحتاج للعامل البشري لإدارتها متمثلا فى رجال المرور. في بعض الأحيان يتم معالجة هذه المشكلة من خلال تخصيص وقت ثابت لإشارة المرور بحيث يكون وقت إشارة التوقف (الحمراء) مساوية لوقت إشارة المرور (الخضراء) وذلك لإدارتها إلكترونيا كبديل للعامل البشري. إلا أن هذا البديل قد يتسبب فى تكدس السيارات في حالة أن الطريق يحتاج للانسيابية في أحد الاتجاهات بحيث ينبغي أن يزيد وقت المرور في اتجاه عن الآخر مما يدفع للعودة للعامل البشري في حالة التكدس المروري لإدارة المرور بطريقة أكثر ذكاءا اعتمادا على حسن الإدارة من ذوي الخبرة من رجال المرور. في هذه الرسالة تم اقتراح نموذجين جديدين مختلفين للتعلم المعزز وهما (Q- Learning وDeep Q-Networks ) مما يجعل إشارة المرور تدير المرور بطريقة تلقائية: الحالة الاولى (1) " Q-Learning Approach for Solving Traffic Signal Control Problem" ويعتمد هذا النموذج على تعليم الآلة المعزز (Reinforcement learning) إذ أن إشارة المرور في هذه الحالة ستكون مثل الروبوت. ويعتمد اسلوب تعليم الآلة المعزز على إنشاء جدول يتم فيه تقييم القرارات (Actions) وهذا الجدول يسمى ال Q-table. حيث لكل Action يكون هناك قيمة تسمى ال Reward والتي تسهم في تحديث قيم ال (Q-values) أثناء عملية التعليم بطريقة تراكمية معتمدة على معادلة برمجة ديناميكية قام ببنائها العالم Bellman مؤسس البرمجة الديناميكية. في هذا الأسلوب يتم ابتداء ال Q-values بأن تكون كلها أصفار ثم يتم التحديث التدريجي باستخدام هذه المعادلة والجدول النهائي يكون عبارة عن علاقة بين كل حالة (State) في النظام والقرار المناظر لها وهذه العلاقة يعبر عنها برقم وهو ال Q-value. تم تنفيذ هذ الأسلوب على إشارة مرور ذات وجهين. الوجه الأول يخص السيارات التي تتحرك من الشمال للجنوب ومن الجنوب للشمال والوجه الثاني يخص السيارات التي تتحرك من الشرق للغرب والعكس. في العملية التطبيقية لهذا الأسلوب تم عمل محاكاة لما يحدث في الطريق عن طريق توليد عدد من السيارات في كل ثانية في جميع الاتجاهات بشكل عشوائي بحيث ينحصر عدد السيارات المولد في الثانية ما بين صفر إلى سيارتين في كل اتجاه. اما عن القرارات (Actions) هنا ستكون وقت سريان الإشارة الخضراء في الوجه. ويمثل التقييم (Reward) مجموع عدد السيارات في جميع الاتجاهات. مشكلة هذا الأسلوب من التعليم المعزز((Reinforcement learning أنه يحتاج لعدد كبير من التكرارات من أجل تغطية جميع القرارات وخصوصا في حاله أن المشكلة بها العديد من التقاطعات. لذا تم اقتراح حل المشكلة باستخدام الحالة الثانية (2) الحالة الثانية (2) " Deep Q-Networks Algorithm for Solving Traffic Signal Control Problem " ويعتمد هذا النموذج على التعليم العميق المعتمد على الشبكات العصبية (Deep Q-Network). وقد تم استبدال جدول القرارات (Q-table) بشبكة عصبية Neural network تساعد في التنبؤ بالقرار الأمثل لكل حالة على حده. تم عقد مقارنة بين الاسلوبين لتحديد القرار الأمثل لوقت الإشارة الخضراء في طريق الحد الأقصى لكل اتجاه فيه هو ١٠ سيارات مما يؤدي بأن يكون عدد الحالات الممكنة في هذا الطريق ١٠٠٠٠حالة ويناظر كل حالة فيهم اتخاذ قرار ما بين ٥ قرارات لوقت الإشارة الخضراء وهي ١٠و ٢٠و ٣٠و ٤٠ و٥٠ ثانية للوجه. تبين أن التعليم المعزز يحتاج ل ٥٠٠٠٠ تكرار لكي يتم تغطية كل القرارات بينما أسلوب التعليم العميق المعتمد على الشبكات العصبية يحتاج ل ٥٠٠٠ تكرار فقط لكي يتم تعليم الشبكة العصبية كيفية التنبؤ بالقرار الأمثل. أيضا أثبت تطبيق هذا الأسلوب للتعليم العميق أنه يؤدي لانخفاض الازدحام المروري أكثر من التعليم المعزز وذلك من خلال التجربة على ٥٠ حالة. فقد ثبت ان أسلوب التعليم العميق يقلل عدد السيارات في الطريق مع ضمان ثبات للقرار الأمثل بعد حساب الانحراف المعياري بتنفيذ القرار في كل حالة ٣٠ مرة.
Tags from this library: No tags from this library for this title. Log in to add tags.
Star ratings
    Average rating: 0.0 (0 votes)
Holdings
Item type Current library Home library Call number Status Barcode
Thesis Thesis قاعة الرسائل الجامعية - الدور الاول المكتبة المركزبة الجديدة - جامعة القاهرة Cai01.18.05.M.Sc.2024.Mo.I (Browse shelf(Opens below)) Not for loan 01010110091412000

Thesis (M.Sc)-Cairo University, 2024.

Bibliography: pages 84-96.

In this thesis, the focus was on addressing the traffic signal control problem particularly in the case of two intersections. A comprehensive literature review was conducted revealing that most existing works did not emphasize the use of reinforcement learning approaches. This research gap provided the motivation to suggest and develop two cases for two distinct approaches: Q-learning and Deep Q-Network (DQN).
Case 1 about "Q-learning approach for solving traffic signal control problem": In this case, the Q-learning approach was suggested and implemented to tackle the traffic signal control problem. Q-learning is a model-free reinforcement learning algorithm that seeks to find the best action to take given the current state by learning the value of state-action pairs. During the experimentation and analysis phase, the Q-learning approach demonstrated some effectiveness but also exhibited certain limitations. These limitations included the requirement for extensive iterations to converge to an optimal policy and the inability to effectively handle the high-dimensional state space and action space associated with complex traffic environments. These issues prompted the development of the second case, applying the DQN approach.
Case 2 about: "Deep Q-Networks Algorithm for Solving Traffic Signal Control Problem": This case involved the application of the DQN approach, which incorporates deep neural networks to enhance the learning and decision-making capabilities of the algorithm. DQN uses a neural network to approximate the Q-values, enabling it to handle larger and more complex state and action spaces. This approach was implemented to overcome the limitations identified in the Q-learning approach. A comparative analysis between the Q-learning and DQN approaches was conducted, considering various metrics such as the number of iterations, optimized actions, and overall reward values aimed at minimizing the number of vehicles at the intersections.
Comparative analysis and results demonstrated that the DQN approach outperformed the Q-learning approach, exhibiting superior efficiency and effectiveness. The DQN approach achieved optimized actions and generated higher reward values, leading to a significant reduction in the number of vehicles at the intersections. Specifically, the DQN approach was able to reduce traffic congestion more effectively than the Q-learning approach.

تعتبر مشكلة تنظيم المرور من المشاكل التي تحتاج للعامل البشري لإدارتها متمثلا فى رجال المرور. في بعض الأحيان يتم معالجة هذه المشكلة من خلال تخصيص وقت ثابت لإشارة المرور بحيث يكون وقت إشارة التوقف (الحمراء) مساوية لوقت إشارة المرور (الخضراء) وذلك لإدارتها إلكترونيا كبديل للعامل البشري. إلا أن هذا البديل قد يتسبب فى تكدس السيارات في حالة أن الطريق يحتاج للانسيابية في أحد الاتجاهات بحيث ينبغي أن يزيد وقت المرور في اتجاه عن الآخر مما يدفع للعودة للعامل البشري في حالة التكدس المروري لإدارة المرور بطريقة أكثر ذكاءا اعتمادا على حسن الإدارة من ذوي الخبرة من رجال المرور.
في هذه الرسالة تم اقتراح نموذجين جديدين مختلفين للتعلم المعزز وهما (Q- Learning وDeep Q-Networks ) مما يجعل إشارة المرور تدير المرور بطريقة تلقائية:
الحالة الاولى (1) " Q-Learning Approach for Solving Traffic Signal Control Problem" ويعتمد هذا النموذج على تعليم الآلة المعزز (Reinforcement learning) إذ أن إشارة المرور في هذه الحالة ستكون مثل الروبوت. ويعتمد اسلوب تعليم الآلة المعزز على إنشاء جدول يتم فيه تقييم القرارات (Actions) وهذا الجدول يسمى ال Q-table. حيث لكل Action يكون هناك قيمة تسمى ال Reward والتي تسهم في تحديث قيم ال (Q-values) أثناء عملية التعليم بطريقة تراكمية معتمدة على معادلة برمجة ديناميكية قام ببنائها العالم Bellman مؤسس البرمجة الديناميكية. في هذا الأسلوب يتم ابتداء ال Q-values بأن تكون كلها أصفار ثم يتم التحديث التدريجي باستخدام هذه المعادلة والجدول النهائي يكون عبارة عن علاقة بين كل حالة (State) في النظام والقرار المناظر لها وهذه العلاقة يعبر عنها برقم وهو ال Q-value. تم تنفيذ هذ الأسلوب على إشارة مرور ذات وجهين. الوجه الأول يخص السيارات التي تتحرك من الشمال للجنوب ومن الجنوب للشمال والوجه الثاني يخص السيارات التي تتحرك من الشرق للغرب والعكس. في العملية التطبيقية لهذا الأسلوب تم عمل محاكاة لما يحدث في الطريق عن طريق توليد عدد من السيارات في كل ثانية في جميع الاتجاهات بشكل عشوائي بحيث ينحصر عدد السيارات المولد في الثانية ما بين صفر إلى سيارتين في كل اتجاه. اما عن القرارات (Actions) هنا ستكون وقت سريان الإشارة الخضراء في الوجه. ويمثل التقييم (Reward) مجموع عدد السيارات في جميع الاتجاهات.
مشكلة هذا الأسلوب من التعليم المعزز((Reinforcement learning أنه يحتاج لعدد كبير من التكرارات من أجل تغطية جميع القرارات وخصوصا في حاله أن المشكلة بها العديد من التقاطعات. لذا تم اقتراح حل المشكلة باستخدام الحالة الثانية (2)
الحالة الثانية (2) " Deep Q-Networks Algorithm for Solving Traffic Signal Control Problem "
ويعتمد هذا النموذج على التعليم العميق المعتمد على الشبكات العصبية (Deep Q-Network). وقد تم استبدال جدول القرارات (Q-table) بشبكة عصبية Neural network تساعد في التنبؤ بالقرار الأمثل لكل حالة على حده. تم عقد مقارنة بين الاسلوبين لتحديد القرار الأمثل لوقت الإشارة الخضراء في طريق الحد الأقصى لكل اتجاه فيه هو ١٠ سيارات مما يؤدي بأن يكون عدد الحالات الممكنة في هذا الطريق ١٠٠٠٠حالة ويناظر كل حالة فيهم اتخاذ قرار ما بين ٥ قرارات لوقت الإشارة الخضراء وهي ١٠و ٢٠و ٣٠و ٤٠ و٥٠ ثانية للوجه. تبين أن التعليم المعزز يحتاج ل ٥٠٠٠٠ تكرار لكي يتم تغطية كل القرارات بينما أسلوب التعليم العميق المعتمد على الشبكات العصبية يحتاج ل ٥٠٠٠ تكرار فقط لكي يتم تعليم الشبكة العصبية كيفية التنبؤ بالقرار الأمثل. أيضا أثبت تطبيق هذا الأسلوب للتعليم العميق أنه يؤدي لانخفاض الازدحام المروري أكثر من التعليم المعزز وذلك من خلال التجربة على ٥٠ حالة. فقد ثبت ان أسلوب التعليم العميق يقلل عدد السيارات في الطريق مع ضمان ثبات للقرار الأمثل بعد حساب الانحراف المعياري بتنفيذ القرار في كل حالة ٣٠ مرة.

Issues also as CD.

Text in English and abstract in Arabic & English.

There are no comments on this title.

to post a comment.
Share
Under the supervision of New Central Library Manager

Implemented and Customized by: Eng.M.Mohamady
Contact:   info@cl.cu.edu.eg

© All rights reserved  New Central Library