Pseudo Rotated Nets : Widening Cnn Via Kernels Pseudo Rotation / by Mohsen Raafat Abdel-Atty Sayed ; Under the Supervision of Prof. Dr. Mohsen Abdel-Razik Rashwan, Prof. Dr. Hossam Aly Hassan Fahmy
Material type: TextLanguage: English Summary language: English Spoken language: English Producer: 2022Description: 116 pages : illustrations ; 30 cm. + CDContent type:- text
- Unmediated
- volume
- شبكات الاستدارة المستعارة : توسعة الشبكة العصبونية التلافيفية بواسطة المرشحات ذات الاستدارة المستعارة [Added title page title]
- 621.381
- Issued also as CD
Item type | Current library | Home library | Call number | Status | Date due | Barcode | |
---|---|---|---|---|---|---|---|
Thesis | قاعة الرسائل الجامعية - الدور الاول | المكتبة المركزبة الجديدة - جامعة القاهرة | Cai01 13 08 M.Sc 2022 Mo.P (Browse shelf(Opens below)) | Not for loan | 01010110088396000 |
Thesis (M.Sc.)-Cairo University, 2022.
Bibliography: pages 104-111.
In the Data explosion era, terminology like “Big Data” had been commonly used as
the world had been connected and digitalized through the wide availability of personal
computing platforms with their internet connection, rapid spread of the mobile platforms,
popularity of the social media applications and the start of Internet of Things platforms
paradigm accompanied by the invention of smart devices that are almost utilized in all
aspects of today life from wearable devices to kitchen appliances. All of the
aforementioned, had resulted in a daily generation of huge amount of digital data such as
documents, videos, image and speech. These type of data are distinctly characterized by
their personal flavor gaining the attraction to use the Machine learning methods to extract
useful insights, predictions and information from them. Moreover, around 70% of these
data are images and videos increasing the requirement to enhance the computer vision
tasks. Convolutional Neural Network which is a sub domain of Machine learning had
been the key player in today enhanced computer vision tasks. Thanks to its distinct
features such as weight sharing, feature map, channel pooling and receptive field.
This work explores boosting the Convolutional Neural Network performance by
means of width extension. This is done through two main ideas. Firstly, pseudo rotated
kernels where the originally trained kernels are rotated with different pseudo rotation
angles to generate multiple variants from them. Secondly to attach the pooling kernels to
the convolutional layer. This allowed the network to approach several affine
transformation properties. Clearly, it boosts the translation and rotation property by
providing a set of arbitrary chosen pseudo rotated kernels while it promotes the scaling
property through the arbitrary reduction of grid size. Moreover, all these kernels
combined together provide the network with a capability to scale and rotate the feature
map within each convolutional layer increasing its translation invariance property
robustness whereas the network had some built-in self-augmentation methods. To
demonstrate the performance improvement five networks were proposed based on two
different architectures where three of them are based on ResNet while the remaining two
are based on VGG. As well as, challenging their performance impact by testing them on
two different data sets the CIFAR-10 and CIFAR-100
في عصر انفجار البيانات ، اصبح استخدام مصطلحات مثل "البيانات الضخمه" شائعاً حيث تم ربط العالم ورقمنته من خلال التوفر الواسع لمنصات الحوسبة الشخصية المتصلة بالشبكة العنكبوتية ، الانتشار السريع لمنصات الهاتف المحمول ، شعبية تطبيقات الوسائط الاجتماعية وبدء عصر إنترنت الأشياء مصحوبًا باختراع أجهزة ذكية تُستخدم تقريبًا في جميع جوانب الحياة من الأجهزة القابلة للارتداء إلى أجهزة المنزل المختلفه. كل ما سبق ، نتج عنه توليد يومي لكمية هائلة من البيانات الرقمية مثل المستندات و الصور و المقاطع الصوتية و المرئية. يتميز هذا النوع من البيانات بطابعه الشخصي مما ادى الى جاذبية لاستخدام أساليب تعلم الآله لاستخراج رؤى وتنبؤات ومعلومات مفيدة منها. علاوة على ذلك ، فإن حوالي 70٪ من هذه البيانات عبارة عن صور ومقاطع مرئية مما يزيد من متطلبات تحسين تطبيقات الرؤية الحاسوبية. الشبكة العصبونية التلافيفية التي تعد مجالًا فرعيًا من تعلم الآله كانت اللاعب الرئيسي في تعزيز و تحسين تطبيقات الرؤية الحاسوبية المستخدمة اليوم بفضل خصائصها المميزة مثل مشاركة مصفوفة الاوزان وخريطة السمات والمجال الاستقبالي و انتقاء القنوات المختلفة و تجميعها.
يستكشف هذا العمل تعزيز أداء الشبكة العصبونية التلافيفية عن طريق زياده البعد العرضى لها. يتم ذلك من خلال فكرتين رئيسيتين. أولاً تدوير المرشحات التلافيفية باستدارة مستعارة حيث يتم تدوير المرشحات المدربة بزوايا دوران مستعارة مختلفة لتوليد متغيرات متعددة منها. ثانيًا ، إرفاق المرشحات التجميعية بالطبقة التلافيفية. كل هذا سمح للشبكة أن تتقدم أكثر نحو توحيد العديد من خصائص التحويل الأفيني بداخلها. بشكل اكتر وضوحاً، يتم تعزيز خاصية الانعكاس والدوران من خلال توفير مجموعة من المرشحات ذات الاستدارة المستعارة المختارة بشكل اعتباطى بينما يعزز خاصية التحجيم من خلال التغيير الاختيارى لحجم خرائط السمات.علاوة على ذلك ، فإن كل هذه المرشحات المجتمعة توفر للشبكة القدرة على زيادة و تنويع خرائط السمات بداخل كل طبقة تلافيفية مما يزيد من متانة خاصية ثبات الترجمة. لإثبات تحسن الأداء ، تم اقتراح خمس شبكات تعتمد على بنيتين مختلفتين بالإضافة إلى التاكد من أدائهما من خلال اختبارهما على مجموعتين مختلفتين من البيانات
Issued also as CD
Text in English and abstract in Arabic & English.
There are no comments on this title.