header
Local cover image
Local cover image
Image from OpenLibrary

Detecting And Masking Misogyny In Arabic Text Speech Using Deep Learning Techniques / by Wafaa Herb Khalil Abu Jame ; Under the Supervision of Prof. Mona Farouk, Prof. Mayada Hadhoud

By: Contributor(s): Material type: TextTextLanguage: English Summary language: English, Arabic Producer: 2024Description: 65 pages : illustrations ; 30 cm. + CDContent type:
  • text
Media type:
  • Unmediated
Carrier type:
  • volume
Other title:
  • اكتشاف النصوص العربية التي تتضمن خطاب كراهية النساء وإخفاؤها باستخدام تقنيات التعلم العميق [Added title page title]
Subject(s): DDC classification:
  • 005
Available additional physical forms:
  • Issued also as CD
Dissertation note: Thesis (M.Sc.)-Cairo University, 2024. Summary: We face significant issues in our society due to the spread of poisonous content on social media platforms, such as hate speech, insulting language, and misogyny. The need for an appropriate method to address misogynistic speech detection is very useful for a variety of purposes, such as providing users with protective settings or helping social media supervisors remove misogynistic language. This thesis proposes three approaches to identifying and classifying misogynistic behavior in Arabic tweets for the Arabic Misogyny Identification (ArMI) task. The ArMI task consists of two related classification subtasks: the first, sub-task A, is a binary classification task for identifying misogynistic language, and the second, subtask B, is a fine-grained multi-classification task for identifying the misogynistic behaviors found in a sample of tweets in Arabic (MSA/dialectal). As a first approach, we are proposing a novel deep learning model that is built using a combination of CNN, LSTM, and RNN networks. In the second approach, we used transformer models starting from Arabic pretrained language models such as QARiB, MARBERT, and Multi-dialect-Arabic-BERT. Then, used hate speech pre-trained models like xlm-r-large-arabic-toxic and dehatebert-mono- arabic. The last approach uses the ensemble technique by merging multiple models instead of using a single model. The suggested approaches perform admirably on both tasks. However, the ensemble model outperformed the other two suggested methods for misogyny identification, with an accuracy of 0.93 and an F1-score of 0.71 for subtasks A and B, respectively. Regarding the text cleaning problem, we used the best model that gives high performance, the ensemble model, and specifically focused on accessing its latest attention layers, which consist of weights that reflect word importance in establishing classification boundaries. By considering these weights, we can identify words with higher weights, indicating a stronger association with misogyny. After that, we perform text cleaning by replacing significant words indicating misogyny with a star symbol, determined by the word’s letter count. This method hides clear negative content about women but keeps the overall meaning for further study. It treats sensitive language carefully while still finding important informationSummary: نواجه قضايا مهمة في مجتمعنا بسبب انتشار المحتوى السام على منصات التواصل الاجتماعي، مثل خطاب الكراهية، واللغة المسيئة للنساء، والتحرش بهن. تبرز الحاجة الماسة لإيجاد طريقة فعّالة لكشف خطاب كراهية النساء لأغراض متعددة، مثل توفير إعدادات وقائية للمستخدمين ومساعدة مشرفي منصات التواصل الاجتماعي في إزالة لغة الكراهية لضمان بيئة إلكترونية آمنة ومحترمة للنساء. تقترح هذه الأطروحة ثلاثة طرق لتحديد وتصنيف سلوكيات التحرش بالنساء في التغريدات العربية لمهمة التعرف على التحرش بالنساء في النص العربي (ArMI) وتتكون مهمة ArMI من مهمتين فرعيتين مرتبطتين: المهمة الأولى (المهمة الفرعية A) وهي مهمة تصنيف ثنائي للكشف عن لغة كراهية النساء، والمهمة الثانية (المهمة الفرعية B) وهي مهمة تصنيف متعددة المستويات لتحديد نوع الكراهية الموجودة في عينة من التغريدات باللغة العربية (الفصحى/العامية). في النهج الأول، نقترح نموذجًا جديدًا للتعلم العميق يتكون من مزيج من شبكات CNN وLSTM وRNN. أما النهج الثاني، استخدمنا نماذج transformer تستند إلى نماذج لغة عربية مدربة مسبقًا مثل QARiB وMARBERT وMulti-dialect-Arabic-BERT ومن ثم استخدمنا نماذج مدربة مسبقًا لخطاب الكراهية مثل xlm-r-large-arabic-toxic وdehatebert-mono-arabic. أما في النهج الأخير استخدمنا تقنية التجميع بدلاً من استخدام نموذج واحد عن طريق دمج عدة نماذج. كل الاساليب المقترحة السابقة حققت نتائج جيدة في كلا المهام ومع ذلك، تفوق نموذج التجميع على النماذج الأخرى المقترحة في تحديد كراهية النساء في النص العربي، حيث حقق دقة قدرها 0.93 في المهة الفرعية A ومقياس F1 بنسبة 0.71 في المهمة الفرعية B. أما بالنسبة لمشكلة تنظيف النصوص، استخدمنا أفضل نموذج يتمتع بأداء مرتفع وهو نموذج التجميع، وركزنا بشكل خاص على الوصول إلى طبقات الانتباه الأخيرة فيه، التي تحتوي على أوزان تعكس أهمية الكلمات في وضع حدود التصنيف. من خلال مراعاة هذه الأوزان، نحدد الكلمات ذات الأوزان العالية، مما يشير إلى ارتباط أقوى بكراهية النساء، بعد ذلك، نقوم بتنظيف النصوص عن طريق استبدال الكلمات المهمة التي تشير إلى الكراهية برمز النجمة، وذلك وفقًا لعدد الحروف في الكلمة. يتيح هذا النهج تجريد المحتوى لمحتوى الصريح لكراهية النساء مع الاحتفاظ بأنماط السياق، مما يضمن معاملة جيدة للغة الضارة المحتملة مع استخلاص نتائج ذات قيمة
Tags from this library: No tags from this library for this title. Log in to add tags.
Star ratings
    Average rating: 0.0 (0 votes)

Thesis (M.Sc.)-Cairo University, 2024.

Bibliography: pages 59-65.

We face significant issues in our society due to the spread of poisonous content on social media
platforms, such as hate speech, insulting language, and misogyny. The need for an appropriate
method to address misogynistic speech detection is very useful for a variety of purposes, such as
providing users with protective settings or helping social media supervisors remove misogynistic
language. This thesis proposes three approaches to identifying and classifying misogynistic behavior
in Arabic tweets for the Arabic Misogyny Identification (ArMI) task. The ArMI task consists of two
related classification subtasks: the first, sub-task A, is a binary classification task for identifying
misogynistic language, and the second, subtask B, is a fine-grained multi-classification task for
identifying the misogynistic behaviors found in a sample of tweets in Arabic (MSA/dialectal). As a
first approach, we are proposing a novel deep learning model that is built using a combination of
CNN, LSTM, and RNN networks. In the second approach, we used transformer models starting from
Arabic pretrained language models such as QARiB, MARBERT, and Multi-dialect-Arabic-BERT.
Then, used hate speech pre-trained models like xlm-r-large-arabic-toxic and dehatebert-mono-
arabic. The last approach uses the ensemble technique by merging multiple models instead of using
a single model. The suggested approaches perform admirably on both tasks. However, the ensemble
model outperformed the other two suggested methods for misogyny identification, with an accuracy
of 0.93 and an F1-score of 0.71 for subtasks A and B, respectively. Regarding the text cleaning
problem, we used the best model that gives high performance, the ensemble model, and specifically
focused on accessing its latest attention layers, which consist of weights that reflect word importance
in establishing classification boundaries. By considering these weights, we can identify words with
higher weights, indicating a stronger association with misogyny. After that, we perform text cleaning
by replacing significant words indicating misogyny with a star symbol, determined by the word’s
letter count. This method hides clear negative content about women but keeps the overall meaning
for further study. It treats sensitive language carefully while still finding important information

نواجه قضايا مهمة في مجتمعنا بسبب انتشار المحتوى السام على منصات التواصل الاجتماعي، مثل خطاب الكراهية، واللغة المسيئة للنساء، والتحرش بهن. تبرز الحاجة الماسة لإيجاد طريقة فعّالة لكشف خطاب كراهية النساء لأغراض متعددة، مثل توفير إعدادات وقائية للمستخدمين ومساعدة مشرفي منصات التواصل الاجتماعي في إزالة لغة الكراهية لضمان بيئة إلكترونية آمنة ومحترمة للنساء. تقترح هذه الأطروحة ثلاثة طرق لتحديد وتصنيف سلوكيات التحرش بالنساء في التغريدات العربية لمهمة التعرف على التحرش بالنساء في النص العربي (ArMI) وتتكون مهمة ArMI من مهمتين فرعيتين مرتبطتين: المهمة الأولى (المهمة الفرعية A) وهي مهمة تصنيف ثنائي للكشف عن لغة كراهية النساء، والمهمة الثانية (المهمة الفرعية B) وهي مهمة تصنيف متعددة المستويات لتحديد نوع الكراهية الموجودة في عينة من التغريدات باللغة العربية (الفصحى/العامية). في النهج الأول، نقترح نموذجًا جديدًا للتعلم العميق يتكون من مزيج من شبكات CNN وLSTM وRNN. أما النهج الثاني، استخدمنا نماذج transformer تستند إلى نماذج لغة عربية مدربة مسبقًا مثل QARiB وMARBERT وMulti-dialect-Arabic-BERT ومن ثم استخدمنا نماذج مدربة مسبقًا لخطاب الكراهية مثل xlm-r-large-arabic-toxic وdehatebert-mono-arabic. أما في النهج الأخير استخدمنا تقنية التجميع بدلاً من استخدام نموذج واحد عن طريق دمج عدة نماذج. كل الاساليب المقترحة السابقة حققت نتائج جيدة في كلا المهام ومع ذلك، تفوق نموذج التجميع على النماذج الأخرى المقترحة في تحديد كراهية النساء في النص العربي، حيث حقق دقة قدرها 0.93 في المهة الفرعية A ومقياس F1 بنسبة 0.71 في المهمة الفرعية B. أما بالنسبة لمشكلة تنظيف النصوص، استخدمنا أفضل نموذج يتمتع بأداء مرتفع وهو نموذج التجميع، وركزنا بشكل خاص على الوصول إلى طبقات الانتباه الأخيرة فيه، التي تحتوي على أوزان تعكس أهمية الكلمات في وضع حدود التصنيف. من خلال مراعاة هذه الأوزان، نحدد الكلمات ذات الأوزان العالية، مما يشير إلى ارتباط أقوى بكراهية النساء، بعد ذلك، نقوم بتنظيف النصوص عن طريق استبدال الكلمات المهمة التي تشير إلى الكراهية برمز النجمة، وذلك وفقًا لعدد الحروف في الكلمة. يتيح هذا النهج تجريد المحتوى لمحتوى الصريح لكراهية النساء مع الاحتفاظ بأنماط السياق، مما يضمن معاملة جيدة للغة الضارة المحتملة مع استخلاص نتائج ذات قيمة

Issued also as CD

Text in English and abstract in Arabic & English.

There are no comments on this title.

to post a comment.

Click on an image to view it in the image viewer

Local cover image