000 10616namaa22004091i 4500
003 OSt
005 20250108125459.0
008 241229s2024 |||a|||f m||| 000 0 eng d
040 _aEG-GICUC
_beng
_cEG-GICUC
_dEG-GICUC
_erda
041 0 _aeng
_beng
_bara
049 _aDeposit
082 0 4 _a005.31
092 _a005.31
_221
097 _aM.Sc
099 _aCai01.18.02.M.Sc.2024.Mo.L
100 0 _aMona Mohamed Abd ElSalam,
_epreparation.
245 1 0 _aSentiment analysis of text incorporating emojis :
_bMachine Learning Approach /
_cby Mona Mohamed Abd ElSalam ; Supervised by Prof. Dr. Hesham Ahmed Hefny, Dr. Ahmed Mohammed Gadallah.
246 1 5 _a: تحليل المشاعر للنص المحتوى على رموز تعبيرية
_b/ أسلوب تعلم الآلة
264 0 _c2024.
300 _a123 leaves :
_billustrations ;
_c30 cm. +
_eCD.
336 _atext
_2rda content
337 _aUnmediated
_2rdamedia
338 _avolume
_2rdacarrier
502 _aThesis (M.Sc)-Cairo University, 2024.
504 _aBibliography: pages 96-109.
520 _aNowadays, people use emojis in their text to communicate their sentiments or summarize their words. Prior artificial intelligence (AI) strategies only included the order of text, emoticons, pictures, or emoticons with text have always been disregarded, resulting in a slew of feelings being overlooked. Sentiment Analysis examines the problem of studying texts, like posts and reviews, uploaded by users on microblogging, social media platforms, forums, and electronic businesses, regarding the opinions they have about a product, service, event, person or idea. It is still difficult for a vast majority of tools to precisely evaluate what truly is a negative, neutral, and a positive statement especially with the extreme use of emoji shapes in the customer reviews. Accordingly, there is a need for more flexible context-sensitive sentiment analysis approaches for texts including emojis. This thesis proposed sentiment analysis approach for text aims mainly to gain benefit of mechanizing rate the assessments as unstructured information which is been an important issue today. The main Goal is approving the effectiveness of emoji on text, that is examined by using two different dataset and developing several classifiers with different matrics for each tweet only onetime and another for tweets and emoji. On other hand, the use of sarcasm is a common language phenomena in online writing that expresses personal thoughts. Sarcasm detection is crucial and advantageous for many NLP applications, including sentiment analysis, opinion mining, and advertising. So, the data is gathered, Exploring and Processing Text Data are done, different algorithms and features are applied on text, and evaluation metrics are performed. The proposed approach is implemented by different machine learning classifiers (Random Forest, Support Vector Machine, Gaussain Naïve Bayes, Logistic Regression, Gradient Boosting, K-Nearset Neighbors) for text and emoji, and for text only. Two different data sets were used to evaluate the proposed approach. The first data set is concerned with Covid-19 tweets. It contains 1000 text tweets. This data set is combined with 1000 random emojis. The data set is divided into 70% training and 30% testing. The proposed approach is used to classify the new combined tweets with accuracy of 0.95, f-score 0.95, precision 0.99 and re-call 0.96. It is found that, when the emojis are eliminated from the first data set, the classification performance became, 0.45, 0.47, 0.67 and 0.45 for Accuracy, F-score, Precision and Recall measures respectively. This ensures the benefits of adding emojis to text tweets. Another experiment has been performed to show the efficacy the proposed approach. The second data set is concerned with evaluation of airline services. It is consisted of 12000 text tweets. The proposed approach is tested to classify this data set in case of only text tweets and when combined with 12000 emojis. The result shows that when the data set is divided into 70% for training and 30% for testing is found to be: 0.96, 0.95, 0.96 and 0.96 for Accuracy, F-score, Precision and Recall measures respectively. On the other hand, when the emojis patterns are eliminated, the classification performance is reduced to: 0.39, 0.53, 0.81 and 0.41 for Accuracy, F-score, Precision and Recall measures respectively. Therefore, the experimental evaluation shows that the proposed approach of adding emojis to text tweets in quite powerful for impressing sentiment classification.
520 _aفي الوقت الحاضر، يستخدم الناس الرموز التعبيرية في نصوصهم للتعبير عن مشاعرهم أو تلخيص كلماتهم. كانت استراتيجيات الذكاء الاصطناعي السابقة تتضمن فقط ترتيب النص، أو الرموز التعبيرية، أو الصور، أو الرموز التعبيرية مع النص، والتي تم تجاهلها دائمًا، مما أدى إلى التغاضي عن عدد كبير من المشاعر. يدرس تحليل المشاعر مشكلة دراسة النصوص، مثل المنشورات والمراجعات، التي يتم تحميلها من قبل المستخدمين على المدونات الصغيرة ومنصات التواصل الاجتماعي والمنتديات والشركات الإلكترونية، فيما يتعلق بآراءهم حول منتج أو خدمة أو حدث أو شخص أو فكرة. لا يزال من الصعب على الغالبية العظمى من الأدوات إجراء تقييم دقيق لما هو بيان سلبي ومحايد وإيجابي، خاصة مع الاستخدام المفرط لأشكال الرموز التعبيرية في مراجعات العملاء. وبناءً على ذلك، هناك حاجة إلى أساليب تحليل المشاعر الأكثر مرونة والتي تراعي السياق بالنسبة للنصوص بما في ذلك الرموز التعبيرية. تهدف هذه الأطروحة إلى منهج تحليل المشاعر للنص بشكل أساسي للاستفادة من ميكنة معدل التقييمات باعتبارها معلومات غير منظمة والتي أصبحت قضية مهمة اليوم. الهدف الرئيسي هو التحقق من فعالية الرموز التعبيرية على النص، والتي يتم فحصها باستخدام مجموعتي بيانات مختلفتين وتطوير عدة مصنفات بمصفوفات مختلفة لكل تغريدة مرة واحدة فقط وأخرى للتغريدات والرموز التعبيرية. من ناحية أخرى، يعد استخدام السخرية ظاهرة لغوية شائعة في الكتابة عبر الإنترنت والتي تعبر عن الأفكار الشخصية. يعد اكتشاف السخرية أمرًا بالغ الأهمية ومفيدًا للعديد من تطبيقات البرمجة اللغوية العصبية، بما في ذلك تحليل المشاعر واستخراج الآراء والإعلانات. لذلك، يتم جمع البيانات، ويتم استكشاف البيانات النصية ومعالجتها، ويتم تطبيق خوارزميات وميزات مختلفة على النص، ويتم تنفيذ مقاييس التقييم. يتم تنفيذ النهج المقترح من خلال مصنفات مختلفة للتعلم الآلي (Random Forest، Support Vector Machine، Gaussain Naïve Bayes، Logistic Regression، Gradient Boosting، K-Nearset Neighbors) للنص والرموز التعبيرية وللنص فقط. تم استخدام مجموعتين مختلفتين من البيانات لتقييم النهج المقترح. تتعلق مجموعة البيانات الأولى بتغريدات كوفيد-19. يحتوي على 1000 تغريدة نصية. تم دمج مجموعة البيانات هذه مع 1000 رمز تعبيري عشوائي. تنقسم مجموعة البيانات إلى 70% تدريب و30% اختبار. تم استخدام الطريقة المقترحة لتصنيف التغريدات المجمعة الجديدة الضبط accuracy 0.95 وf-score 0.95 و precision 0.99 و re-call 0.96. لقد وجد أنه عند حذف الرموز التعبيرية من مجموعة البيانات الأولى، أصبح أداء التصنيف 0.45 و0.47 و0.67 و0.45 Accuracy و F-score و precision و re-call على التوالي. وهذا يضمن فوائد إضافة الرموز التعبيرية إلى التغريدات النصية. وقد تم إجراء تجربة أخرى لإظهار فعالية النهج المقترح. وتتعلق مجموعة البيانات الثانية بتقييم خدمات شركات الطيران. وهي تتألف من 12000 تغريدة نصية. تم اختبار النهج المقترح لتصنيف مجموعة البيانات هذه في حالة التغريدات النصية فقط وعند دمجها مع 12000 رمز تعبيري. تظهر النتيجة أنه عند تقسيم مجموعة البيانات إلى 70% للتدريب و30% للاختبار نجد أن 0.96 و0.95 و0.96 و0.96 لكل من Accuracy و F-score و precision و re-call على التوالي. من ناحية أخرى، عند حذف أنماط الرموز التعبيرية، يتم تقليل أداء التصنيف إلى: 0.39 و0.53 و0.81 و0.41 لكل من Accuracy و F-score و precision و re-call على التوالي. لذلك، أظهر التقييم التجريبي أن النهج المقترح لإضافة الرموز التعبيرية إلى التغريدات النصية قوي جدًا في التأثير على تصنيف المشاعر
530 _aIssues also as CD.
546 _aText in English and abstract in Arabic & English.
650 7 _aMachine Learning
_2qrmak
653 0 _asentiment analysis
_aartificial intelligence
_atext
_aemoticons
_afeelings
_anegative
_aneutral
_aa positive
_asarcasm
_amachine learning
_aevaluation metrics
_aclassifiers
700 0 _aHesham Ahmed Hefny
_ethesis advisor.
700 0 _aAhmed Mohammed Gadallah
_ethesis advisor.
900 _b01-01-2024
_cHesham Ahmed Hefny
_cAhmed Mohammed Gadallah
_UCairo University
_FFaculty of Graduate Studies for Statistical Research
_DDepartment of Computer Sciences
905 _aShimaa
_eHuda
942 _2ddc
_cTH
_e21
_n0
999 _c169828