TY - BOOK AU - Randa Mohamed Abd El-ghafar Ata, AU - Ali El-bastawissy AU - Mervat Gheith AU - Eman Nasr TI - An approach for big data integration U1 - 005.7 PY - 2022/// KW - Data KW - qrmak KW - Big Data KW - Big Data Integration KW - Data Cleansing KW - Schema Alignment N1 - Thesis (Ph.D)-Cairo University, 2022; Bibliography: pages 151-163; Issued also as CD N2 - In this thesis, we proposed two approaches. The first one is an Efficient Multi-Phase Blocking Strategy (EMPBS) for Big Data (BD). The proposed blocking strategy has disjoint blocks and less time complexity compared to some other blocking techniques. The implementation of EMPBS presents promising results as it reduced about 84% of the average number of comparisons. In the second one, we proposed a novel and efficient Entity Resolution approach for BD. The proposed approach utilizes several Natural Language Processing techniques and it is implemented using Apache Spark. It consists of five subsequent phases. The proposed approach is a generic as it accepts different types of datasets. It can integrate data from different sources. We used HashingTF to generate the vectors; which is a fast and space-efficient way of vectoring features. Using Soundex and Stemming before applying Locality Sensitive Hashing help to reduce the length of features and thus feature vectors will be more space-efficient, which enhances the performance time. To test the scalability, we used one, two, three, and four working nodes. The evaluation shows that the proposed approach can distribute the similarity computation and classification among the computational resources and scale with the available working nodes; في هذه الأطروحة ، اقترحنا طريقتين: الأول هو استراتيجية الحجب الفعالة متعددة المراحل (EMPBS) للبيانات الضخمة. تحتوي إستراتيجية الحجب المقترحة على كتل منفصلة وتعقيد زمني أقل مقارنة ببعض تقنيات الحجب الأخرى. يقدم تنفيذ EMPBS نتائج واعدة حيث قلل حوالي 84 ٪ من متوسط عدد المقارنات. اما في الطريقه الثانية ، اقترحنا نهجًا جديدًا وفعالًا لمعالجه تكرارات البيانات الكبيره. يستخدم النهج المقترح العديد من تقنيات معالجة اللغة الطبيعية ويتم تنفيذه باستخدام Apache Spark. ويتكون من خمس مراحل متلاحقه. النهج المقترح عام لأنه يقبل أنواعًا مختلفة من انواع البيانات. ويمكنه كذلك دمج البيانات من مصادر مختلفة. استخدمنا HashingTF ؛ وهي طريقة سريعة وفعالة. ساعد استخدام Soundex و Stemming في تقليل طول الكيانات الداخله في المقارنات ، وبالتالي ستكون أكثر توفيرًا للمساحة ، مما يعزز وقت الأداء. لاختبار قابلية التوسع ، استخدمنا عقد عمل واحدة واثنتين وثلاث وأربع. يوضح التقييم أن النهج المقترح يمكن أن يوزع حساب التشابه والتصنيف بين الموارد المتاحه داخل cluster ER -