مقاله در مورد داده های گمشده
مقاله در مورد داده های گمشده
موضوع:
داده های گمشده
استاد مربوطه :
سرکار خانم جعفرپور
تهیه و تنظیم : محمد رضا شفافی
شماره دانشجویی :861124174
تابستان 92
فهرست مطالب
داده های گمشده 4
شيوه های متفاوت در برخورد با مشكل دادههاي گمشده 4
بی پاسخی و داده های گمشده در آمارگیریهای نمونه ای 6
اثر بی پاسخی بر درستی برآوردها 7
آمارگیریهای پستی همراه با مصاحبه با بی پاسخها 9
مثال تشریحی 9
تعیین کسر بهینۀ بی پاسخهای آغازین برای زیرنمونه در تلاشهای متمرکز 12
سازوکارهایی که مقادیر گمشده از آنها ناشی می شود 13
گمشده کاملاً تصادفی: 14
گمشده تصادفی: 14
مقادیر گمشده غیرقابل چشم پوشی: 14
انواع روشها برای تحلیل داده ها با وجود مقادیر گمشده 18
روشهای مربوط به مورد کامل : 18
روشهای مبتنی بر جانهی : 19
روشهای تجدید وزن دهی: 19
انواع روش های جانهی 20
جانشین کردن میانگین: 20
روش بی درنگ: 21
مثال تشریحی: 22
مدل رگرسیون لوجستیک با وجود مقادیر گمشده تصادفی در متغیر کمکی 24
زمینه و هدف: 24
مواد و روش کار: 24
منابع و مآخذ 30
داده های گمشده
معمولاً در پيمايش ها مواردي پيش ميآيد كه برخي از پاسخگويان به برخي از سوالات پاسخ ندهند. پس از وارد كردن دادهها به نرم افزارهاي آماری موارد بدون پاسخ به صورت خودكار، گمشده تعريف ميشوند. مشكل دادههاي گمشده را ميتوان به دو حالت كلي تقسيم كرد. حالت اول زماني است كه دادهها به صورتي تصادفي گم شده باشند. مثلاً پاسخگويان برخي سوالات را نديده باشند و يا پرسشگران يك يا چند سوال را از قلم انداخته باشند. حالت دوم وقتي پيش ميآيد كه پاسخگو با قصد و نيت از پاسخ دادن به سوال يا سوالاتي خودداري ورزيده باشد.
شرايطي كه تعمدي در بي پاسخ گذاشتن سوالات وجود داشته باشد، بدترين حالت براي پژوهشگر است. در اين حالت هرگونه برخوردي با دادههاي گمشده نتايج پيمايش را به سمت اریبی می کشاند. ممكن است پژوهشگري در اين حالت ترجيح دهد كه پرسشنامههايي را كه شامل دادههاي گمشده باشند به كلي حذف كند. بايد بگويم كه اين بدترين كاري است كه يك پژوهشگر ميتواند با اين مشكل انجام دهد، زيرا با اين كار فقط ميزان اریبی را افزايش خواهد داد. مثلاً در يك پيمايش ممكن است افراد طبقه بالاي جامعه از گفتن ميزان درآمدشان خودداري كرده باشند.
شيوه های متفاوت در برخورد با مشكل دادههاي گمشده
1- حذف ليستي
چنانچه گفتيم، در اين حالت پژوهشگر هر پرسشنامهاي را كه شامل دادههاي گمشده باشد، حذف ميكند. اين كار دو ايراد اساسي دارد. نخست آنكه در صورتي كه دادهها به شكلي تصادفي مفقود نشده باشند، حذف پرسشنامهها نتايج را به سمت اریبی می کشاند. دوم آنكه اگر تعداد افرادي كه به برخي سوالات پاسخ نداده باشند، زياد باشد، به ميزان بسيار زيادي از حجم نمونه كاسته خواهد شد. بديهي است كه اين كار باعث اتلاف وقت و هزينه خواهد شد.
2- حذف جفتي
در اين حالت پژوهشگر پرسشنامهها را حذف نميكند. اما هنگامي كه قصد محاسبه آمارههاي هر متغير را دارد، فقط دادههاي غير گمشده را در نظر ميگيرد. اگر به عنوان مثال پژوهشگر قصد بررسي همبستگي پيرسون بين دو متغير را داشته باشد، فقط موردهايي را در نظر ميگيرد كه مقاديرشان در مورد هيچ يك از دو متغير مورد بررسي گمشده نباشد.
3- انتساب دادهها
در اين روش پژوهشگر تصميم ميگيرد كه مقاديري به دادههاي گمشده انتساب دهد. تكنيكهای متفاوتي براي انتساب مقادير به دادههاي گمشده وجود دارد. مثلاً يكي از اين تكنيكها، انتساب مقدار ميانگين به مقادير گمشده است. اگر به عنوان مثال چند نفر درآمدشان را اعلام نكرده باشند، پژوهشگر تصميم ميگيرد كه ميانگين درآمد كساني را كه درآمدشان را اعلام كردهاند، محاسبه كند و سپس اين مقدار را به عنوان مقدار درآمد افرادي كه درآمدشان را اعلام نكردهاند قرار دهد. پيداست كه اين روش هم معايب بسياري دارد.
4- نيكويي بيشينه (حداكثر درست نمايي)
بهترين و موثرترين روش كار با دادههاي گمشده استفاده از روش نيكويي بيشينه است. عليرغم اينكه اين روش بهترين روش برآورد دادههاي گمشده است، اما به ندرت از سوي پژوهشگران مورد استفاده قرار ميگيرد. علت اين امر آن است كه براي استفاده از اين روش پژوهشگر نيازمند تسلط به دانش رياضيات نسبتاً بالايي است. اما خوشبختانه اخيراً نرم افزارهايي وارد بازار شدهاند كه بدون نياز به دانش رياضياتي به پژوهشگران اجازه ميدهد كه از اين روش به سادگي استفاده كنند. در حال حاضر تنها دو نرم افزار توان انجام محاسبات مربوط به اين روش را دارند. اساس اين روش بر مبناي برآورد خطاهاي استاندارد با توجه به مدل تحقيق است.
نكته قابل توجه در اين است كه اگرچه در هر چهار روش ذكر شده زماني كه گمشدگي دادهها جنبه تصادفي نداشته باشد، پژوهش خواه ناخواه اریب ميگردد، اما ميزان اين اریبی در روش نيكويي بيشينه از ساير روشها كمتر است. روش نيكويي بيشينه حتي در حالتي كه گمشدگي دادهها جنبه تصادفي داشته باشد نيز بهترين روش براي برخورد با مساله دادههاي گمشده ميباشد.
بی پاسخی و داده های گمشده در آمارگیریهای نمونه ای
همین که نمونه انتخاب شد، تلاشی به عمل می آید تا داده های مطلوب ازهمۀ واحدهای شمارش که در نمونه انتخاب شده اند جمع آوری شود. متأسفانه، به ندرت امکان دارد که در تهیۀ داده های کامل از همۀ واحدهای نمونه گیری شده توفیق حاصل شود. در آمارگیری نمونه ای برای بعضی از واحدها ممکن است اصلاً هیچ اطلاعاتی به دست نیاید و برای واحدهای دیگر ممکن است برای بعضی از اقلام سؤالها، ولی نه همۀ اقلام تعیین شده، اطلاعاتی به دست آید. بی پاسخی ازنوع قبلی را بی پاسخی واحد و از نوع بعدی را بی پاسخی سؤال می نامند.
بی پاسخی واحد و بی پاسخی سؤال هر دو تهدید عمده ای برای درستی برآوردهای حاصل ازآمارگیریهای نمونه ای محسوب می شوند و اجتناب از هر دو نوع بی پاسخی در نمونه گیری از جامعه ها بسیار مشکل است. در بسیاری از آمارگیریها ممکن است با تلاش بسیار زیاد و صرف منابع هنگفت، نرخ پاسخگویی حتی به 50 % از همۀ واحدهایی برسد که در اصل در نمونه انتخاب شده اند .
افزایش استفاده از آمارگیریهای نمونه ای طی سالها برای تأمین اطلاعات به منظور تصمیم گیری و سختی فزایندۀ به دست آوردن نرخهای پاسخگویی بالا در آمارگیریهای نمونه ای، منجر به بذل توجه بسیار به این مسئله شده و به ابداع انواع گوناگونی از فنون برای رفتار با بی پاسخی و مقادیر گمشده درآمارگیریهای نمونه ای انجامیده است. در اینجا، دربارۀ اثر بی پاسخی بر درستی برآوردهای حاصل از آمارگیریهای نمونه ای بحث می کنیم و سپس به برخی روشها می پردازیم که برای کاهش بی پاسخی واحد مورد استفاده قرار
گرفته اند و بعضی از روشهایی را بررسی می کنیم که برای رسیدگی به داده های گمشده در وضعیتهای بی پاسخی سؤال به کار رفته اند.
اثر بی پاسخی بر درستی برآوردها
منظور از اجرای بیشتر آمارگیریها آن است که پارامترهای جامعه ای از قبیل میانگینها، مجموعها ونسبتها با بیشترین میزان درستی و قابلیت اعتماد ممکن برآورد شوند. هر یک از شیوه های نمونه گیری می تواند برآوردهایی نااریب (یا دست کم سازگار) از این قبیل پارامترها تهیه کنند، به شرطی که نرخ پاسخگویی به هر سؤال خاص 100 % باشد. واضح است که چنین چیزی به ندرت اتفاق می افتد و بنابراین برآوردهای حاصل، دیگر نااریب نخواهند بود. در واقع، با افزایش نرخ بی پاسخی، مقدار اریبی نیز افزایش خواهد یافت.
برای بررسی رسمیتر این ایده، تعریفهای زیر را ارائه می کنیم:
کل تعداد واحدهای شمارش در جامعه
کل تعداد واحدهای پاسخگوی بالقوه در جامعه
کل تعداد واحدهای بی پاسخ بالقوه در جامعه ()
میانگین سطح مشخصۀ در میان واحد شمارش بالقوۀ پاسخگو
میانگین سطح مشخصۀدر میان واحد شمارش بالقوه بی پاسخ
میانگین سطحدر میان کل جامعۀ متشکل از N واحد شمارش
اگر یک نمونۀ تصادفی ساده متشکل از واحد شمارش انتخاب کنیم و اگر هیچ تلاشی برای گرفتن داده ها از بی پاسخهای بالقوه به عمل نیاوریم، میانگین سطح مشخصۀ را در واقع به جای مجموع واحد شمارش پاسخ دهنده برآورد می کنیم. همچنین می دانیم که اگر نمونه متشکل از واحد شمارش واحد شمارش پاسخگو داشته باشد و اگر معرف میانگین سطح در میان این واحد شمارش پاسخگو باشد، آنگاه مقدار میانگین از فرمول زیر به دست می آید:
و اریبی از فرمول زیر محاسبه می شود :
از بررسی رابطه بالا متوجه می شویم که اریبی ناشی از بی پاسخی مستقل از تعداد واحدی است که با موفقیت نمونه گیری شده اند. واضح است که با افزایش اندازۀ نمونه نمی توان این اریبی را کاهش داد و برای کاهش آن باید اقدامات دیگری به عمل آید. یکی از این اقدامات کاهش نسبت پاسخگویان بالقوه است که در یکی از بخشهای بعد مورد بحث قرار خواهد گرفت . به این ترتیب، اثر بی پاسخی به نسبت بی پاسخها و تفاوت بین میانگین بی پاسخهای بالقوه و پاسخگویان بستگی دارد . متأسفانه، پارامترهای و به ندرت معلوم اند.
حال، این ایده ها را با یک مثال نشان می دهیم.
مثال تشریحی:
فرض کنید قرار است یک آمارگیری نمونه ای متشکل از 100 خانوار که از یک نمونه گیری تصادفی ساده به دست آمده اند در یک منطقۀ روستایی شامل200 خانوار به منظور برآورد نسبت همۀ خانوارهای فاقد گاز خانگی اجرا شود. باز فرض کنید که 20%(400) که از این 2000 خانوار از همکاری با این آمارگیری خودداری کنند یا اگر در نمونه انتخاب شوند، قابل دسترسی نباشند (که البته، این موضوع، پیش از آمارگیری معلوم نخواهد شد) به این ترتیب 2000 خانوار موجود در جامعه از 400 خانوار بی پاسخ بالقوه و 1600 خانوار پاسخگوی بالقوه تشکیل شده است. بالاخره فرض کنید که 100 خانوار ( 25%) از 400 خانوار بی پاسخ بالقوه دارای گاز خانگی نیستند، در حالی که از 1600 خانوار پاسخگوی بالقوه 160 خانوار (10%) فاقد گاز خانگی هستند. به این ترتیب، در کل جامعه 2000 خانواری، 260 خانوار ( 13%) گاز خانگی ندارند.
اگر در شیوۀ آمارگیری، هیچ تلاشی برای به دست آوردن داده ها از خانوارهای بی پاسخ بالقوه به عمل نیاید، توزیع نسبت برآورد شده برای خانوارهای فاقد گاز خانگی که می تواند از آمارگیری به دست آید حول 10/0متمرکز خواهد شد. ( نسبت خا نوارهای فاقد گاز خانگی در میان 1600 خانوار پاسخگوی بالقوه) در حالی که مقدار هدف 13/0است به عبارت دیگر، حذف بی پاسخهای بالقوه منجر به برآوردی اریب خواهد شد .
در این مثال داریم:
2000 25/0 400 10/0= 1600
از رابطه بالا داریم:
آمارگیریهای پستی همراه با مصاحبه با بی پاسخها
آمارگیریهای پستی به طور کلی کم هزینه تر از آمارگیریهای خانواری هستند که با مصاحبۀ حضوری اجرا می شوند. ولی غالباً به دست آوردن نرخ پاسخهای کافی برای تأمین مشخصه های مربوط به معتبربودن و قابلیت اطمینان برآوردها از آمارگیریهای پستی مشکل است. اگر نرخ پاسخگویی آغازین به پرسشنامۀ پستی کم باشد، برآوردهای حاصل به شدت اریب خواهند بود. برای غلبه بر این مشکل می توان از یک شیوۀ نمونه گیری دومرحله ای استفاده کرد که مرحلۀ اول آن آمارگیری پستی و مرحلۀ دوم آن آمارگیری تلفنی و یا مصاحبۀ حضوری از زیرمجموعه ای از کسانی است که به پرسشنامۀ پستی پاسخ نداده اند .این شیوه غالباً می تواند برآوردهایی با قابلیت اطمینان زیاد به دست دهد و با هزینه ای معقول اجرا شود. این نوع طرح نمونه ای به تفصیل در مثال بعد شرح داده شده است.
فایل : 32 صفحه
فرمت : Word
- کاربر گرامی، در این وب سایت تا حد امکان سعی کرده ایم تمام مقالات را با نام پدیدآورندگان آن منتشر کنیم، لذا خواهشمندیم در صورتی که به هر دلیلی تمایلی به انتشار مقاله خود در ارتیکل فارسی را ندارید با ما در تماس باشید تا در اسرع وقت نسبت به پیگیری موضوع اقدام کنیم.