MARC details
000 -LEADER |
fixed length control field |
07722namaa22004211i 4500 |
003 - CONTROL NUMBER IDENTIFIER |
control field |
OSt |
005 - أخر تعامل مع التسجيلة |
control field |
20250225111332.0 |
008 - FIXED-LENGTH DATA ELEMENTS--GENERAL INFORMATION |
fixed length control field |
250213s2024 |||a|||fr|m|| 000 0 eng d |
040 ## - CATALOGING SOURCE |
Original cataloguing agency |
EG-GICUC |
Language of cataloging |
eng |
Transcribing agency |
EG-GICUC |
Modifying agency |
EG-GICUC |
Description conventions |
rda |
041 0# - LANGUAGE CODE |
Language code of text/sound track or separate title |
eng |
Language code of summary or abstract |
eng |
-- |
ara |
049 ## - Acquisition Source |
Acquisition Source |
Deposit |
082 04 - DEWEY DECIMAL CLASSIFICATION NUMBER |
Classification number |
005 |
092 ## - LOCALLY ASSIGNED DEWEY CALL NUMBER (OCLC) |
Classification number |
005 |
Edition number |
21 |
097 ## - Degree |
Degree |
M.Sc |
099 ## - LOCAL FREE-TEXT CALL NUMBER (OCLC) |
Local Call Number |
Cai01.13.06.M.Sc.2024.Wa.D |
100 0# - MAIN ENTRY--PERSONAL NAME |
Authority record control number or standard number |
Wafaa Herb Khalil Abu Jame, |
Preparation |
preparation. |
245 10 - TITLE STATEMENT |
Title |
Detecting And Masking Misogyny In Arabic Text Speech Using Deep Learning Techniques / |
Statement of responsibility, etc. |
by Wafaa Herb Khalil Abu Jame ; Under the Supervision of Prof. Mona Farouk, Prof. Mayada Hadhoud |
246 15 - VARYING FORM OF TITLE |
Title proper/short title |
اكتشاف النصوص العربية التي تتضمن خطاب كراهية النساء وإخفاؤها باستخدام تقنيات التعلم العميق / |
264 #0 - PRODUCTION, PUBLICATION, DISTRIBUTION, MANUFACTURE, AND COPYRIGHT NOTICE |
Date of production, publication, distribution, manufacture, or copyright notice |
2024. |
300 ## - PHYSICAL DESCRIPTION |
Extent |
65 pages : |
Other physical details |
illustrations ; |
Dimensions |
30 cm. + |
Accompanying material |
CD. |
336 ## - CONTENT TYPE |
Content type term |
text |
Source |
rda content |
337 ## - MEDIA TYPE |
Media type term |
Unmediated |
Source |
rdamedia |
338 ## - CARRIER TYPE |
Carrier type term |
volume |
Source |
rdacarrier |
502 ## - DISSERTATION NOTE |
Dissertation note |
Thesis (M.Sc.)-Cairo University, 2024. |
504 ## - BIBLIOGRAPHY, ETC. NOTE |
Bibliography, etc. note |
Bibliography: pages 59-65. |
520 ## - SUMMARY, ETC. |
Summary, etc. |
We face significant issues in our society due to the spread of poisonous content on social media<br/>platforms, such as hate speech, insulting language, and misogyny. The need for an appropriate<br/>method to address misogynistic speech detection is very useful for a variety of purposes, such as<br/>providing users with protective settings or helping social media supervisors remove misogynistic<br/>language. This thesis proposes three approaches to identifying and classifying misogynistic behavior<br/>in Arabic tweets for the Arabic Misogyny Identification (ArMI) task. The ArMI task consists of two<br/>related classification subtasks: the first, sub-task A, is a binary classification task for identifying<br/>misogynistic language, and the second, subtask B, is a fine-grained multi-classification task for<br/>identifying the misogynistic behaviors found in a sample of tweets in Arabic (MSA/dialectal). As a<br/>first approach, we are proposing a novel deep learning model that is built using a combination of<br/>CNN, LSTM, and RNN networks. In the second approach, we used transformer models starting from<br/>Arabic pretrained language models such as QARiB, MARBERT, and Multi-dialect-Arabic-BERT.<br/>Then, used hate speech pre-trained models like xlm-r-large-arabic-toxic and dehatebert-mono-<br/>arabic. The last approach uses the ensemble technique by merging multiple models instead of using<br/>a single model. The suggested approaches perform admirably on both tasks. However, the ensemble<br/>model outperformed the other two suggested methods for misogyny identification, with an accuracy<br/>of 0.93 and an F1-score of 0.71 for subtasks A and B, respectively. Regarding the text cleaning<br/>problem, we used the best model that gives high performance, the ensemble model, and specifically<br/>focused on accessing its latest attention layers, which consist of weights that reflect word importance<br/>in establishing classification boundaries. By considering these weights, we can identify words with<br/>higher weights, indicating a stronger association with misogyny. After that, we perform text cleaning<br/>by replacing significant words indicating misogyny with a star symbol, determined by the word’s<br/>letter count. This method hides clear negative content about women but keeps the overall meaning<br/>for further study. It treats sensitive language carefully while still finding important information |
520 ## - SUMMARY, ETC. |
Summary, etc. |
نواجه قضايا مهمة في مجتمعنا بسبب انتشار المحتوى السام على منصات التواصل الاجتماعي، مثل خطاب الكراهية، واللغة المسيئة للنساء، والتحرش بهن. تبرز الحاجة الماسة لإيجاد طريقة فعّالة لكشف خطاب كراهية النساء لأغراض متعددة، مثل توفير إعدادات وقائية للمستخدمين ومساعدة مشرفي منصات التواصل الاجتماعي في إزالة لغة الكراهية لضمان بيئة إلكترونية آمنة ومحترمة للنساء. تقترح هذه الأطروحة ثلاثة طرق لتحديد وتصنيف سلوكيات التحرش بالنساء في التغريدات العربية لمهمة التعرف على التحرش بالنساء في النص العربي (ArMI) وتتكون مهمة ArMI من مهمتين فرعيتين مرتبطتين: المهمة الأولى (المهمة الفرعية A) وهي مهمة تصنيف ثنائي للكشف عن لغة كراهية النساء، والمهمة الثانية (المهمة الفرعية B) وهي مهمة تصنيف متعددة المستويات لتحديد نوع الكراهية الموجودة في عينة من التغريدات باللغة العربية (الفصحى/العامية). في النهج الأول، نقترح نموذجًا جديدًا للتعلم العميق يتكون من مزيج من شبكات CNN وLSTM وRNN. أما النهج الثاني، استخدمنا نماذج transformer تستند إلى نماذج لغة عربية مدربة مسبقًا مثل QARiB وMARBERT وMulti-dialect-Arabic-BERT ومن ثم استخدمنا نماذج مدربة مسبقًا لخطاب الكراهية مثل xlm-r-large-arabic-toxic وdehatebert-mono-arabic. أما في النهج الأخير استخدمنا تقنية التجميع بدلاً من استخدام نموذج واحد عن طريق دمج عدة نماذج. كل الاساليب المقترحة السابقة حققت نتائج جيدة في كلا المهام ومع ذلك، تفوق نموذج التجميع على النماذج الأخرى المقترحة في تحديد كراهية النساء في النص العربي، حيث حقق دقة قدرها 0.93 في المهة الفرعية A ومقياس F1 بنسبة 0.71 في المهمة الفرعية B. أما بالنسبة لمشكلة تنظيف النصوص، استخدمنا أفضل نموذج يتمتع بأداء مرتفع وهو نموذج التجميع، وركزنا بشكل خاص على الوصول إلى طبقات الانتباه الأخيرة فيه، التي تحتوي على أوزان تعكس أهمية الكلمات في وضع حدود التصنيف. من خلال مراعاة هذه الأوزان، نحدد الكلمات ذات الأوزان العالية، مما يشير إلى ارتباط أقوى بكراهية النساء، بعد ذلك، نقوم بتنظيف النصوص عن طريق استبدال الكلمات المهمة التي تشير إلى الكراهية برمز النجمة، وذلك وفقًا لعدد الحروف في الكلمة. يتيح هذا النهج تجريد المحتوى لمحتوى الصريح لكراهية النساء مع الاحتفاظ بأنماط السياق، مما يضمن معاملة جيدة للغة الضارة المحتملة مع استخلاص نتائج ذات قيمة |
530 ## - ADDITIONAL PHYSICAL FORM AVAILABLE NOTE |
Issues CD |
Issued also as CD |
546 ## - LANGUAGE NOTE |
Text Language |
Text in English and abstract in Arabic & English. |
650 #7 - SUBJECT ADDED ENTRY--TOPICAL TERM |
Topical term or geographic name entry element |
Computer Engineering |
Source of heading or term |
qrmak |
653 #0 - INDEX TERM--UNCONTROLLED |
Uncontrolled term |
Deep Learning |
-- |
Arabic NLP |
-- |
Misogyny Identification |
-- |
Misogyny Detection |
-- |
Transformer Model |
700 0# - ADDED ENTRY--PERSONAL NAME |
Personal name |
Mona Farouk |
Relator term |
thesis advisor. |
700 0# - ADDED ENTRY--PERSONAL NAME |
Personal name |
Mayada Hadhoud |
Relator term |
thesis advisor. |
900 ## - Thesis Information |
Grant date |
01-01-2024 |
Supervisory body |
Mona Farouk |
-- |
Mayada Hadhoud |
Discussion body |
Amr Galal El-din Wassal |
-- |
Reda Abd Alwahab Ahmed |
Universities |
Cairo University |
Faculties |
Faculty of Engineering |
Department |
Department of Computer Engineering |
905 ## - Cataloger and Reviser Names |
Cataloger Name |
Eman Ghareeb |
942 ## - ADDED ENTRY ELEMENTS (KOHA) |
Source of classification or shelving scheme |
Dewey Decimal Classification |
Koha item type |
Thesis |
Edition |
21 |
Suppress in OPAC |
No |