Statistical Data Integration Using A Latent Class Model / by Israa Lewaa Elhamd Abdullah Abdelbassir sayed Ahmed; Prof. Mohamed Ali Ismail, Prof. Abd Elnasser Saad, Dr. Mai Sherif Hafez.
Material type: TextLanguage: English Summary language: English, Arabic Producer: 2023Description: 122 pages : illustrations ; 25 cm. + CDContent type:- text
- Unmediated
- volume
- تكامل البيانات إحصائيا باستخدام نموذج متغيرات كامنة [Added title page title]
- 310 21
- Issues also as CD.
Item type | Current library | Home library | Call number | Status | Date due | Barcode | |
---|---|---|---|---|---|---|---|
Thesis | قاعة الرسائل الجامعية - الدور الاول | المكتبة المركزبة الجديدة - جامعة القاهرة | Cai01.03.01.Ph.D.2023.Is.S (Browse shelf(Opens below)) | Not for loan | 01010110087925000 |
Browsing المكتبة المركزبة الجديدة - جامعة القاهرة shelves Close shelf browser (Hides shelf browser)
No cover image available | No cover image available | No cover image available | No cover image available | No cover image available | No cover image available | No cover image available | ||
Cai01.03.01.Ph.D.2021.Am.S The SPML model under the general projected normal distribution / | Cai01.03.01.Ph.D.2022.El.U The Use of Progressive StressAccelerated Life Testing under WeibullExtension Distribution / | Cai01.03.01.Ph.D.2022.Si.M A Multiple Objectives Programming Approach for Multivariate Calibration Estimation in Stratified Random Sampling with Application / | Cai01.03.01.Ph.D.2023.Is.S Statistical Data Integration Using A Latent Class Model / | Cai01.03.01.Ph.D.2023.Ma.O On discrete analogues of generalized lindley distributions and bivariate extension / | Cai01.03.01.Ph.D.2023.Ma.O. Optimal Stochastic Allocation in Multivariate Stratified Sampling / | Cai01.03.01.Ph.D.2023.Sa.S A stochastic programming approach to optimize the multi-response problem / |
Thesis (Ph.D)-Cairo University, 2023.
Bibliography: pages 108-122.
In the era of data revolution, availability and presence of data is a huge wealth that has to be utilized. Instead of making new surveys, benefit can be made from data that already exists. As enormous amounts of data become available, it is becoming essential to undertake research that involves integrating data from multiple sources in order to make the best use out of it. Statistical Data Integration (SDI) is the statistical tool for considering this issue. SDI can be used to integrate data files that have common units, and it also allows to merge unrelated files that don’t share any common units, depending on the input data. The convenient method of data integration is determined according to the nature of the input data. SDI has two main methods, Record Linkage (RL) and Statistical Matching (SM). SM techniques typically aim to achieve a complete data file from different sources which do not contain the same units. This study aims at giving a complete overview of existing SM methods, both classical and recent, in order to provide a unified summary of various SM techniques along with their drawbacks. Also, this study proposes a statistical matching technique for categorical data based on latent class models within a Bayesian framework. Dirichlet Process Mixture of Product of Multinomial distributions model is used in SM through this study which is a fully Bayesian estimation method for latent class models. Performance of the proposed latent class model used for Statistical Matching is evaluated using an empirical comparison with several existing matching procedures depending on simulation studies with many scenarios. Our proposed method, which is based on latent class model, is applied on a real data set. The two data sets, Egyptian Demographic and Health Survey (EDHS) and Egyptian Household Income Consumption Expenditure Survey (HICES) are integrated together. A set of variables are in common in both surveys. The first dataset, EDHS, includes data about domestic violence. The second dataset includes data about income. The main goal is to get one complete data set containing domestic violence and ind income to get the joint distribution between them. On matching the two datasets and imputing the missing parts of the data, it becomes plausible to study the relationship between domestic violence and ind income. Another goal, income will be available at EDHS, and consequently, it will be able to impute wealth index using income from EDHS. Points for future research are suggested at the end of the thesis.
في عصر ثورة البيانات ، يعد توفر البيانات ووجودها ثروة هائلة يجب الاستفادة منها. بدلاً من إجراء استطلاعات جديدة ، يمكن الاستفادة من البيانات الموجودة بالفعل. مع توفر كميات هائلة من البيانات ، أصبح من الضروري إجراء بحث يتضمن دمج البيانات من مصادر متعددة من أجل الاستفادة منها على أفضل وجه. تكامل البيانات الإحصائية هو الأداة الإحصائية للنظر في هذه المسألة. يمكن استخدام تكامل البيانات الإحصائية لدمج ملفات البيانات التي تحتوي على وحدات مشتركة ، كما يسمح بدمج الملفات غير المرتبطة التي لا تشترك في أي وحدات مشتركة ، اعتمادًا على بيانات الإدخال. يتم تحديد الطريقة الملائمة لتكامل البيانات وفقًا لطبيعة بيانات الإدخال. لدى تكامل البيانات الإحصائية طريقتان رئيسيتان ، ارتباط السجل والمطابقة الإحصائية. تهدف تقنيات المطابقة الإحصائية عادةً إلى تحقيق ملف بيانات كامل من مصادر مختلفة لا تحتوي على نفس الوحدات. تهدف هذه الدراسة إلى إعطاء نظرة عامة كاملة عن طرق المطابقة الإحصائية الحالية ، الكلاسيكية والحديثة على حد سواء ، من أجل تقديم ملخص موحد لتقنيات المطابقة الإحصائية المختلفة إلى جانب عيوبها.
تقترح هذه الدراسة أيضًا تقنية مطابقة إحصائية للبيانات الفئوية بناءً على نماذج المتغيرات الكامنة في إطار التقدير البيزى. تم استخدام نموذج التوزيعات متعددة الحدود في المطابقة الإحصائية من خلال هذه الدراسة وهي طريقة التقدير البيزي بالكامل لنماذج المتغيرات الكامنة. يتم تقييم أداء نموذج المتغيرات الكامنة المقترح المستخدم في المطابقة الإحصائية باستخدام مقارنة تجريبية مع العديد من إجراءات المطابقة الحالية اعتمادًا على دراسة المحاكاة. يتم تطبيق طريقتنا المقترحة ، والتي تستند إلى نموذج المتغيرات الكامنة ، على مجموعة بيانات حقيقية. تم دمج مجموعتي البيانات ، المسح الديموغرافي والصحي المصري ومسح الإنفاق على استهلاك دخل الأسرة المصرية معًا. هناك مجموعة من المتغيرات مشتركة في كلا المسحين. تتضمن مجموعة البيانات الأولى بيانات عن العنف المنزلي. تتضمن مجموعة البيانات الثانية بيانات حول الدخل. الهدف الرئيسي هو الحصول على مجموعة بيانات كاملة واحدة تحتوي على العنف المنزلي والدخل للحصول على التوزيع المشترك بينهما. عند مطابقة مجموعتي البيانات ونسب الأجزاء المفقودة من البيانات ، يصبح من المعقول دراسة العلاقة بين العنف المنزلي والدخل. هدف آخر ، سيكون الدخل متاحًا في بيانات المسح الصحي ، وبالتالي ، سيكون قادرًا على احتساب مؤشر الثروة باستخدام الدخل من بيانات المسح الصحي. يتم اقتراح نقاط للبحث المستقبلي في نهاية الرسالة.
Issues also as CD.
Text in English and abstract in Arabic & English.
There are no comments on this title.