Detecting And Masking Misogyny In Arabic Text Speech Using Deep Learning Techniques /
Wafaa Herb Khalil Abu Jame,
Detecting And Masking Misogyny In Arabic Text Speech Using Deep Learning Techniques / اكتشاف النصوص العربية التي تتضمن خطاب كراهية النساء وإخفاؤها باستخدام تقنيات التعلم العميق / by Wafaa Herb Khalil Abu Jame ; Under the Supervision of Prof. Mona Farouk, Prof. Mayada Hadhoud - 65 pages : illustrations ; 30 cm. + CD.
Thesis (M.Sc.)-Cairo University, 2024.
Bibliography: pages 59-65.
We face significant issues in our society due to the spread of poisonous content on social media
platforms, such as hate speech, insulting language, and misogyny. The need for an appropriate
method to address misogynistic speech detection is very useful for a variety of purposes, such as
providing users with protective settings or helping social media supervisors remove misogynistic
language. This thesis proposes three approaches to identifying and classifying misogynistic behavior
in Arabic tweets for the Arabic Misogyny Identification (ArMI) task. The ArMI task consists of two
related classification subtasks: the first, sub-task A, is a binary classification task for identifying
misogynistic language, and the second, subtask B, is a fine-grained multi-classification task for
identifying the misogynistic behaviors found in a sample of tweets in Arabic (MSA/dialectal). As a
first approach, we are proposing a novel deep learning model that is built using a combination of
CNN, LSTM, and RNN networks. In the second approach, we used transformer models starting from
Arabic pretrained language models such as QARiB, MARBERT, and Multi-dialect-Arabic-BERT.
Then, used hate speech pre-trained models like xlm-r-large-arabic-toxic and dehatebert-mono-
arabic. The last approach uses the ensemble technique by merging multiple models instead of using
a single model. The suggested approaches perform admirably on both tasks. However, the ensemble
model outperformed the other two suggested methods for misogyny identification, with an accuracy
of 0.93 and an F1-score of 0.71 for subtasks A and B, respectively. Regarding the text cleaning
problem, we used the best model that gives high performance, the ensemble model, and specifically
focused on accessing its latest attention layers, which consist of weights that reflect word importance
in establishing classification boundaries. By considering these weights, we can identify words with
higher weights, indicating a stronger association with misogyny. After that, we perform text cleaning
by replacing significant words indicating misogyny with a star symbol, determined by the word’s
letter count. This method hides clear negative content about women but keeps the overall meaning
for further study. It treats sensitive language carefully while still finding important information نواجه قضايا مهمة في مجتمعنا بسبب انتشار المحتوى السام على منصات التواصل الاجتماعي، مثل خطاب الكراهية، واللغة المسيئة للنساء، والتحرش بهن. تبرز الحاجة الماسة لإيجاد طريقة فعّالة لكشف خطاب كراهية النساء لأغراض متعددة، مثل توفير إعدادات وقائية للمستخدمين ومساعدة مشرفي منصات التواصل الاجتماعي في إزالة لغة الكراهية لضمان بيئة إلكترونية آمنة ومحترمة للنساء. تقترح هذه الأطروحة ثلاثة طرق لتحديد وتصنيف سلوكيات التحرش بالنساء في التغريدات العربية لمهمة التعرف على التحرش بالنساء في النص العربي (ArMI) وتتكون مهمة ArMI من مهمتين فرعيتين مرتبطتين: المهمة الأولى (المهمة الفرعية A) وهي مهمة تصنيف ثنائي للكشف عن لغة كراهية النساء، والمهمة الثانية (المهمة الفرعية B) وهي مهمة تصنيف متعددة المستويات لتحديد نوع الكراهية الموجودة في عينة من التغريدات باللغة العربية (الفصحى/العامية). في النهج الأول، نقترح نموذجًا جديدًا للتعلم العميق يتكون من مزيج من شبكات CNN وLSTM وRNN. أما النهج الثاني، استخدمنا نماذج transformer تستند إلى نماذج لغة عربية مدربة مسبقًا مثل QARiB وMARBERT وMulti-dialect-Arabic-BERT ومن ثم استخدمنا نماذج مدربة مسبقًا لخطاب الكراهية مثل xlm-r-large-arabic-toxic وdehatebert-mono-arabic. أما في النهج الأخير استخدمنا تقنية التجميع بدلاً من استخدام نموذج واحد عن طريق دمج عدة نماذج. كل الاساليب المقترحة السابقة حققت نتائج جيدة في كلا المهام ومع ذلك، تفوق نموذج التجميع على النماذج الأخرى المقترحة في تحديد كراهية النساء في النص العربي، حيث حقق دقة قدرها 0.93 في المهة الفرعية A ومقياس F1 بنسبة 0.71 في المهمة الفرعية B. أما بالنسبة لمشكلة تنظيف النصوص، استخدمنا أفضل نموذج يتمتع بأداء مرتفع وهو نموذج التجميع، وركزنا بشكل خاص على الوصول إلى طبقات الانتباه الأخيرة فيه، التي تحتوي على أوزان تعكس أهمية الكلمات في وضع حدود التصنيف. من خلال مراعاة هذه الأوزان، نحدد الكلمات ذات الأوزان العالية، مما يشير إلى ارتباط أقوى بكراهية النساء، بعد ذلك، نقوم بتنظيف النصوص عن طريق استبدال الكلمات المهمة التي تشير إلى الكراهية برمز النجمة، وذلك وفقًا لعدد الحروف في الكلمة. يتيح هذا النهج تجريد المحتوى لمحتوى الصريح لكراهية النساء مع الاحتفاظ بأنماط السياق، مما يضمن معاملة جيدة للغة الضارة المحتملة مع استخلاص نتائج ذات قيمة
Text in English and abstract in Arabic & English.
Computer Engineering
Deep Learning Arabic NLP Misogyny Identification Misogyny Detection Transformer Model
005
Detecting And Masking Misogyny In Arabic Text Speech Using Deep Learning Techniques / اكتشاف النصوص العربية التي تتضمن خطاب كراهية النساء وإخفاؤها باستخدام تقنيات التعلم العميق / by Wafaa Herb Khalil Abu Jame ; Under the Supervision of Prof. Mona Farouk, Prof. Mayada Hadhoud - 65 pages : illustrations ; 30 cm. + CD.
Thesis (M.Sc.)-Cairo University, 2024.
Bibliography: pages 59-65.
We face significant issues in our society due to the spread of poisonous content on social media
platforms, such as hate speech, insulting language, and misogyny. The need for an appropriate
method to address misogynistic speech detection is very useful for a variety of purposes, such as
providing users with protective settings or helping social media supervisors remove misogynistic
language. This thesis proposes three approaches to identifying and classifying misogynistic behavior
in Arabic tweets for the Arabic Misogyny Identification (ArMI) task. The ArMI task consists of two
related classification subtasks: the first, sub-task A, is a binary classification task for identifying
misogynistic language, and the second, subtask B, is a fine-grained multi-classification task for
identifying the misogynistic behaviors found in a sample of tweets in Arabic (MSA/dialectal). As a
first approach, we are proposing a novel deep learning model that is built using a combination of
CNN, LSTM, and RNN networks. In the second approach, we used transformer models starting from
Arabic pretrained language models such as QARiB, MARBERT, and Multi-dialect-Arabic-BERT.
Then, used hate speech pre-trained models like xlm-r-large-arabic-toxic and dehatebert-mono-
arabic. The last approach uses the ensemble technique by merging multiple models instead of using
a single model. The suggested approaches perform admirably on both tasks. However, the ensemble
model outperformed the other two suggested methods for misogyny identification, with an accuracy
of 0.93 and an F1-score of 0.71 for subtasks A and B, respectively. Regarding the text cleaning
problem, we used the best model that gives high performance, the ensemble model, and specifically
focused on accessing its latest attention layers, which consist of weights that reflect word importance
in establishing classification boundaries. By considering these weights, we can identify words with
higher weights, indicating a stronger association with misogyny. After that, we perform text cleaning
by replacing significant words indicating misogyny with a star symbol, determined by the word’s
letter count. This method hides clear negative content about women but keeps the overall meaning
for further study. It treats sensitive language carefully while still finding important information نواجه قضايا مهمة في مجتمعنا بسبب انتشار المحتوى السام على منصات التواصل الاجتماعي، مثل خطاب الكراهية، واللغة المسيئة للنساء، والتحرش بهن. تبرز الحاجة الماسة لإيجاد طريقة فعّالة لكشف خطاب كراهية النساء لأغراض متعددة، مثل توفير إعدادات وقائية للمستخدمين ومساعدة مشرفي منصات التواصل الاجتماعي في إزالة لغة الكراهية لضمان بيئة إلكترونية آمنة ومحترمة للنساء. تقترح هذه الأطروحة ثلاثة طرق لتحديد وتصنيف سلوكيات التحرش بالنساء في التغريدات العربية لمهمة التعرف على التحرش بالنساء في النص العربي (ArMI) وتتكون مهمة ArMI من مهمتين فرعيتين مرتبطتين: المهمة الأولى (المهمة الفرعية A) وهي مهمة تصنيف ثنائي للكشف عن لغة كراهية النساء، والمهمة الثانية (المهمة الفرعية B) وهي مهمة تصنيف متعددة المستويات لتحديد نوع الكراهية الموجودة في عينة من التغريدات باللغة العربية (الفصحى/العامية). في النهج الأول، نقترح نموذجًا جديدًا للتعلم العميق يتكون من مزيج من شبكات CNN وLSTM وRNN. أما النهج الثاني، استخدمنا نماذج transformer تستند إلى نماذج لغة عربية مدربة مسبقًا مثل QARiB وMARBERT وMulti-dialect-Arabic-BERT ومن ثم استخدمنا نماذج مدربة مسبقًا لخطاب الكراهية مثل xlm-r-large-arabic-toxic وdehatebert-mono-arabic. أما في النهج الأخير استخدمنا تقنية التجميع بدلاً من استخدام نموذج واحد عن طريق دمج عدة نماذج. كل الاساليب المقترحة السابقة حققت نتائج جيدة في كلا المهام ومع ذلك، تفوق نموذج التجميع على النماذج الأخرى المقترحة في تحديد كراهية النساء في النص العربي، حيث حقق دقة قدرها 0.93 في المهة الفرعية A ومقياس F1 بنسبة 0.71 في المهمة الفرعية B. أما بالنسبة لمشكلة تنظيف النصوص، استخدمنا أفضل نموذج يتمتع بأداء مرتفع وهو نموذج التجميع، وركزنا بشكل خاص على الوصول إلى طبقات الانتباه الأخيرة فيه، التي تحتوي على أوزان تعكس أهمية الكلمات في وضع حدود التصنيف. من خلال مراعاة هذه الأوزان، نحدد الكلمات ذات الأوزان العالية، مما يشير إلى ارتباط أقوى بكراهية النساء، بعد ذلك، نقوم بتنظيف النصوص عن طريق استبدال الكلمات المهمة التي تشير إلى الكراهية برمز النجمة، وذلك وفقًا لعدد الحروف في الكلمة. يتيح هذا النهج تجريد المحتوى لمحتوى الصريح لكراهية النساء مع الاحتفاظ بأنماط السياق، مما يضمن معاملة جيدة للغة الضارة المحتملة مع استخلاص نتائج ذات قيمة
Text in English and abstract in Arabic & English.
Computer Engineering
Deep Learning Arabic NLP Misogyny Identification Misogyny Detection Transformer Model
005