000 05006namaa22004091i 4500
003 OSt
005 20250223033422.0
008 250201s2023 |||a|||f m||| 000 0 eng d
040 _aEG-GICUC
_beng
_cEG-GICUC
_dEG-GICUC
_erda
041 0 _aeng
_beng
_bara
049 _aDeposit
082 0 4 _a621.382
092 _a621.382
_221
097 _aPh.D
099 _aCai01.13.08.Ph.D.2023.Ha.A
100 0 _aHany Ahmed Sayed Mansour,
_epreparation.
245 1 0 _aAdvanced Machine Learning Applications Based On Speech Recognition Technology/
_cHany Ahmed Sayed Mansour ; Supervisors: Prof. Dr. Mohsen A. Rashwan.
246 1 5 _a/تطبيقات تعلم الآلة المتقدمة بناءً على تقنية التعرف على الكلام
264 0 _c2023.
300 _a72 pages :
_billustrations ;
_c30 cm. +
_eCD.
336 _atext
_2rda content
337 _aUnmediated
_2rdamedia
338 _avolume
_2rdacarrier
502 _aThesis (Ph.D)-Cairo University, 2023.
504 _aBibliography: pages 65-72.
520 _aBased on the nature of the speech recognition systems and their components like Acoustic modeling and language modeling, we can reuse these components in different applications and different fields. For example, acoustic modeling can be replaced by spatial model in the Optical Character Recognition (OCR) problem and the same language modeling techniques can be used in this case. Another problem is enhancing the performance of most Error-Correction (EC) algorithms that operate on genomics reads in the medical field. We can use language modeling techniques to enhance the performance of these tools. In this thesis, we are going to present different techniques of speech technologies and how we can benefit from them in different applications. Firstly, we proposed the OCR system that can deal with handwritten/typewritten. Secondly, we used language modeling techniques to automatically tune the performance-sensitive configuration parameters for EC algorithms. Using N-Gram and Recurrent neural Network (RNN) language modeling, we validate the intuition that the EC performance can be computed quantitatively and efficiently. Finally, we proposed a system that uses semi-supervised techniques to enhance the quality of speech recognition models. This system competed in an international competition (MGB5) and won the first place with word Accuracy 63% while the second place was 58%.
520 _aبناءً على طبيعة أنظمة التعرف على الكلام ومكوناتها مثل النمذجة الصوتية ونمذجة اللغة، يمكننا إعادة استخدام هذه المكونات في تطبيقات مختلفة ومجالات مختلفة. على سبيل المثال، يمكن استبدال النمذجة الصوتية بالنموذج المكاني في مشكلة التعرف الضوئي على الحروف ويمكن استخدام تقنيات نمذجة اللغة نفسها في هذه الحالة. هناك مشكلة أخرى تتمثل في تحسين أداء معظم خوارزميات تصحيح الخطأEC التي تعمل على قراءة الجينوميات في المجال الطبي. يمكننا استخدام تقنيات النمذجة اللغوية لتحسين أداء هذه الأدوات. في هذه الأطروحة ، سوف نقدم تقنيات مختلفة لتقنيات الكلام وكيف يمكننا الاستفادة منها في تطبيقات مختلفة. أولاً ، اقترحنا نظام التعرف الضوئي على الحروف الذي يمكنه التعامل مع الكتابة اليدوية / المكتوبة على الآلة الكاتبة. ثانيًا ، استخدمنا تقنيات نمذجة اللغة لضبط معلمات التكوين الحساسة للأداء لخوارزميات تلقائيًا. باستخدام نمذجة لغة N-Gram والشبكة العصبية المتكررة، فإننا نتحقق من صحة الحدس القائل بأنه يمكن حساب أداء EC كميًا وفعالًا. أخيرًا ، اقترحنا نظامًا يستخدم تقنيات شبه خاضعة للإشراف لتحسين جودة نماذج التعرف على الكلام. تنافس هذا النظام في مسابقة دولية (MGB5) وفاز بالمركز الأول بدقة كلمة 63٪ بينما كان المركز الثاني 58٪.
530 _aIssues also as CD.
546 _aText in English and abstract in Arabic & English.
650 7 _aCommunications Engineering
_2qrmak
653 0 _aOCR
_aASR
_aGenomic Language Modeling
_aSpatial Modeling
_aAcoustic Modeling
700 0 _aMohsen A. Rashwan
_ethesis advisor.
900 _b01-01-2023
_cMohsen A. Rashwan
_UCairo University
_FFaculty of Engineering
_DDepartment of Electronics and Communications Engineering
905 _aAya
_eHuda
942 _2ddc
_cTH
_e21
_n0
999 _c170531