header

Detecting And Masking Misogyny In Arabic Text Speech Using Deep Learning Techniques / (Record no. 170837)

MARC details
000 -LEADER
fixed length control field 07722namaa22004211i 4500
003 - CONTROL NUMBER IDENTIFIER
control field OSt
005 - أخر تعامل مع التسجيلة
control field 20250225111332.0
008 - FIXED-LENGTH DATA ELEMENTS--GENERAL INFORMATION
fixed length control field 250213s2024 |||a|||fr|m|| 000 0 eng d
040 ## - CATALOGING SOURCE
Original cataloguing agency EG-GICUC
Language of cataloging eng
Transcribing agency EG-GICUC
Modifying agency EG-GICUC
Description conventions rda
041 0# - LANGUAGE CODE
Language code of text/sound track or separate title eng
Language code of summary or abstract eng
-- ara
049 ## - Acquisition Source
Acquisition Source Deposit
082 04 - DEWEY DECIMAL CLASSIFICATION NUMBER
Classification number 005
092 ## - LOCALLY ASSIGNED DEWEY CALL NUMBER (OCLC)
Classification number 005
Edition number 21
097 ## - Degree
Degree M.Sc
099 ## - LOCAL FREE-TEXT CALL NUMBER (OCLC)
Local Call Number Cai01.13.06.M.Sc.2024.Wa.D
100 0# - MAIN ENTRY--PERSONAL NAME
Authority record control number or standard number Wafaa Herb Khalil Abu Jame,
Preparation preparation.
245 10 - TITLE STATEMENT
Title Detecting And Masking Misogyny In Arabic Text Speech Using Deep Learning Techniques /
Statement of responsibility, etc. by Wafaa Herb Khalil Abu Jame ; Under the Supervision of Prof. Mona Farouk, Prof. Mayada Hadhoud
246 15 - VARYING FORM OF TITLE
Title proper/short title اكتشاف النصوص العربية التي تتضمن خطاب كراهية النساء وإخفاؤها باستخدام تقنيات التعلم العميق /
264 #0 - PRODUCTION, PUBLICATION, DISTRIBUTION, MANUFACTURE, AND COPYRIGHT NOTICE
Date of production, publication, distribution, manufacture, or copyright notice 2024.
300 ## - PHYSICAL DESCRIPTION
Extent 65 pages :
Other physical details illustrations ;
Dimensions 30 cm. +
Accompanying material CD.
336 ## - CONTENT TYPE
Content type term text
Source rda content
337 ## - MEDIA TYPE
Media type term Unmediated
Source rdamedia
338 ## - CARRIER TYPE
Carrier type term volume
Source rdacarrier
502 ## - DISSERTATION NOTE
Dissertation note Thesis (M.Sc.)-Cairo University, 2024.
504 ## - BIBLIOGRAPHY, ETC. NOTE
Bibliography, etc. note Bibliography: pages 59-65.
520 ## - SUMMARY, ETC.
Summary, etc. We face significant issues in our society due to the spread of poisonous content on social media<br/>platforms, such as hate speech, insulting language, and misogyny. The need for an appropriate<br/>method to address misogynistic speech detection is very useful for a variety of purposes, such as<br/>providing users with protective settings or helping social media supervisors remove misogynistic<br/>language. This thesis proposes three approaches to identifying and classifying misogynistic behavior<br/>in Arabic tweets for the Arabic Misogyny Identification (ArMI) task. The ArMI task consists of two<br/>related classification subtasks: the first, sub-task A, is a binary classification task for identifying<br/>misogynistic language, and the second, subtask B, is a fine-grained multi-classification task for<br/>identifying the misogynistic behaviors found in a sample of tweets in Arabic (MSA/dialectal). As a<br/>first approach, we are proposing a novel deep learning model that is built using a combination of<br/>CNN, LSTM, and RNN networks. In the second approach, we used transformer models starting from<br/>Arabic pretrained language models such as QARiB, MARBERT, and Multi-dialect-Arabic-BERT.<br/>Then, used hate speech pre-trained models like xlm-r-large-arabic-toxic and dehatebert-mono-<br/>arabic. The last approach uses the ensemble technique by merging multiple models instead of using<br/>a single model. The suggested approaches perform admirably on both tasks. However, the ensemble<br/>model outperformed the other two suggested methods for misogyny identification, with an accuracy<br/>of 0.93 and an F1-score of 0.71 for subtasks A and B, respectively. Regarding the text cleaning<br/>problem, we used the best model that gives high performance, the ensemble model, and specifically<br/>focused on accessing its latest attention layers, which consist of weights that reflect word importance<br/>in establishing classification boundaries. By considering these weights, we can identify words with<br/>higher weights, indicating a stronger association with misogyny. After that, we perform text cleaning<br/>by replacing significant words indicating misogyny with a star symbol, determined by the word’s<br/>letter count. This method hides clear negative content about women but keeps the overall meaning<br/>for further study. It treats sensitive language carefully while still finding important information
520 ## - SUMMARY, ETC.
Summary, etc. نواجه قضايا مهمة في مجتمعنا بسبب انتشار المحتوى السام على منصات التواصل الاجتماعي، مثل خطاب الكراهية، واللغة المسيئة للنساء، والتحرش بهن. تبرز الحاجة الماسة لإيجاد طريقة فعّالة لكشف خطاب كراهية النساء لأغراض متعددة، مثل توفير إعدادات وقائية للمستخدمين ومساعدة مشرفي منصات التواصل الاجتماعي في إزالة لغة الكراهية لضمان بيئة إلكترونية آمنة ومحترمة للنساء. تقترح هذه الأطروحة ثلاثة طرق لتحديد وتصنيف سلوكيات التحرش بالنساء في التغريدات العربية لمهمة التعرف على التحرش بالنساء في النص العربي (ArMI) وتتكون مهمة ArMI من مهمتين فرعيتين مرتبطتين: المهمة الأولى (المهمة الفرعية A) وهي مهمة تصنيف ثنائي للكشف عن لغة كراهية النساء، والمهمة الثانية (المهمة الفرعية B) وهي مهمة تصنيف متعددة المستويات لتحديد نوع الكراهية الموجودة في عينة من التغريدات باللغة العربية (الفصحى/العامية). في النهج الأول، نقترح نموذجًا جديدًا للتعلم العميق يتكون من مزيج من شبكات CNN وLSTM وRNN. أما النهج الثاني، استخدمنا نماذج transformer تستند إلى نماذج لغة عربية مدربة مسبقًا مثل QARiB وMARBERT وMulti-dialect-Arabic-BERT ومن ثم استخدمنا نماذج مدربة مسبقًا لخطاب الكراهية مثل xlm-r-large-arabic-toxic وdehatebert-mono-arabic. أما في النهج الأخير استخدمنا تقنية التجميع بدلاً من استخدام نموذج واحد عن طريق دمج عدة نماذج. كل الاساليب المقترحة السابقة حققت نتائج جيدة في كلا المهام ومع ذلك، تفوق نموذج التجميع على النماذج الأخرى المقترحة في تحديد كراهية النساء في النص العربي، حيث حقق دقة قدرها 0.93 في المهة الفرعية A ومقياس F1 بنسبة 0.71 في المهمة الفرعية B. أما بالنسبة لمشكلة تنظيف النصوص، استخدمنا أفضل نموذج يتمتع بأداء مرتفع وهو نموذج التجميع، وركزنا بشكل خاص على الوصول إلى طبقات الانتباه الأخيرة فيه، التي تحتوي على أوزان تعكس أهمية الكلمات في وضع حدود التصنيف. من خلال مراعاة هذه الأوزان، نحدد الكلمات ذات الأوزان العالية، مما يشير إلى ارتباط أقوى بكراهية النساء، بعد ذلك، نقوم بتنظيف النصوص عن طريق استبدال الكلمات المهمة التي تشير إلى الكراهية برمز النجمة، وذلك وفقًا لعدد الحروف في الكلمة. يتيح هذا النهج تجريد المحتوى لمحتوى الصريح لكراهية النساء مع الاحتفاظ بأنماط السياق، مما يضمن معاملة جيدة للغة الضارة المحتملة مع استخلاص نتائج ذات قيمة
530 ## - ADDITIONAL PHYSICAL FORM AVAILABLE NOTE
Issues CD Issued also as CD
546 ## - LANGUAGE NOTE
Text Language Text in English and abstract in Arabic & English.
650 #7 - SUBJECT ADDED ENTRY--TOPICAL TERM
Topical term or geographic name entry element Computer Engineering
Source of heading or term qrmak
653 #0 - INDEX TERM--UNCONTROLLED
Uncontrolled term Deep Learning
-- Arabic NLP
-- Misogyny Identification
-- Misogyny Detection
-- Transformer Model
700 0# - ADDED ENTRY--PERSONAL NAME
Personal name Mona Farouk
Relator term thesis advisor.
700 0# - ADDED ENTRY--PERSONAL NAME
Personal name Mayada Hadhoud
Relator term thesis advisor.
900 ## - Thesis Information
Grant date 01-01-2024
Supervisory body Mona Farouk
-- Mayada Hadhoud
Discussion body Amr Galal El-din Wassal
-- Reda Abd Alwahab Ahmed
Universities Cairo University
Faculties Faculty of Engineering
Department Department of Computer Engineering
905 ## - Cataloger and Reviser Names
Cataloger Name Eman Ghareeb
942 ## - ADDED ENTRY ELEMENTS (KOHA)
Source of classification or shelving scheme Dewey Decimal Classification
Koha item type Thesis
Edition 21
Suppress in OPAC No
Holdings
Source of classification or shelving scheme Home library Current library Date acquired Inventory number Full call number Barcode Date last seen Effective from Koha item type
Dewey Decimal Classification المكتبة المركزبة الجديدة - جامعة القاهرة قاعة الرسائل الجامعية - الدور الاول 13.02.2025 90523 Cai01.13.06.M.Sc.2024.Wa.D 01010110090523000 13.02.2025 13.02.2025 Thesis