مقاله در مورد داده های گمشده

موضوع:
داده های گمشده
استاد مربوطه :
سرکار خانم جعفرپور
تهیه و تنظیم : محمد رضا شفافی
شماره دانشجویی :861124174
تابستان 92
فهرست مطالب
داده های گمشده 4
شيوه های متفاوت در برخورد با مشكل داده‌هاي گمشده 4
بی پاسخی و داده های گمشده در آمارگیریهای نمونه ای 6
اثر بی پاسخی بر درستی برآوردها 7
آمارگیریهای پستی همراه با مصاحبه با بی پاسخها 9
مثال تشریحی 9
تعیین کسر بهینۀ بی پاسخهای آغازین برای زیرنمونه در تلاشهای متمرکز 12
سازوکارهایی که مقادیر گمشده از آنها ناشی می شود 13
گمشده کاملاً تصادفی: 14
گمشده تصادفی: 14
مقادیر گمشده غیرقابل چشم پوشی: 14
انواع روشها برای تحلیل داده ها با وجود مقادیر گمشده 18
روشهای مربوط به مورد کامل : 18
روشهای مبتنی بر جانهی : 19
روشهای تجدید وزن دهی: 19
انواع روش های جانهی 20
جانشین کردن میانگین: 20
روش بی درنگ: 21
مثال تشریحی: 22
مدل رگرسیون لوجستیک با وجود مقادیر گمشده تصادفی در متغیر کمکی 24
زمینه و هدف: 24
مواد و روش کار: 24
منابع و مآخذ 30
داده های گمشده
معمولاً در پيمايش ها مواردي پيش مي‌آيد كه برخي از پاسخگويان به برخي از سوالات پاسخ ندهند. پس از وارد كردن داده‌ها به نرم افزارهاي آماری موارد بدون پاسخ به صورت خودكار، گمشده تعريف مي‌شوند. مشكل داده‌هاي گمشده را مي‌توان به دو حالت كلي تقسيم كرد. حالت اول زماني است كه داده‌ها به صورتي تصادفي گم شده باشند. مثلاً پاسخگويان برخي سوالات را نديده باشند و يا پرسشگران يك يا چند سوال را از قلم انداخته باشند. حالت دوم وقتي پيش مي‌آيد كه پاسخگو با قصد و نيت از پاسخ دادن به سوال يا سوالاتي خودداري ورزيده باشد.
شرايطي كه تعمدي در بي پاسخ گذاشتن سوالات وجود داشته باشد، بدترين حالت براي پژوهشگر است. در اين حالت هرگونه برخوردي با داده‌هاي گمشده نتايج پيمايش را به سمت اریبی می کشاند. ممكن است پژوهشگري در اين حالت ترجيح دهد كه پرسشنامه‌هايي را كه شامل داده‌هاي گمشده باشند به كلي حذف كند. بايد بگويم كه اين بدترين كاري است كه يك پژوهشگر مي‌تواند با اين مشكل انجام دهد، زيرا با اين كار فقط ميزان اریبی را افزايش خواهد داد. مثلاً در يك پيمايش ممكن است افراد طبقه بالاي جامعه از گفتن ميزان درآمدشان خودداري كرده باشند.
شيوه های متفاوت در برخورد با مشكل داده‌هاي گمشده
1- حذف ليستي
چنانچه گفتيم، در اين حالت پژوهشگر هر پرسشنامه‌اي را كه شامل داده‌هاي گمشده باشد، حذف مي‌كند. اين كار دو ايراد اساسي دارد. نخست آنكه در صورتي كه داده‌ها به شكلي تصادفي مفقود نشده باشند، حذف پرسشنامه‌ها نتايج را به سمت اریبی می کشاند. دوم آنكه اگر تعداد افرادي كه به برخي سوالات پاسخ نداده باشند، زياد باشد، به ميزان بسيار زيادي از حجم نمونه كاسته خواهد شد. بديهي است كه اين كار باعث اتلاف وقت و هزينه خواهد شد.
2- حذف جفتي
در اين حالت پژوهشگر پرسشنامه‌ها را حذف نمي‌كند. اما هنگامي كه قصد محاسبه آماره‌هاي هر متغير را دارد، فقط داده‌هاي غير گمشده را در نظر مي‌گيرد. اگر به عنوان مثال پژوهشگر قصد بررسي همبستگي پيرسون بين دو متغير را داشته باشد، فقط موردهايي را در نظر مي‌گيرد كه مقاديرشان در مورد هيچ يك از دو متغير مورد بررسي گمشده نباشد.
3- انتساب داده‌ها
در اين روش پژوهشگر تصميم مي‌گيرد كه مقاديري به داده‌هاي گمشده انتساب دهد. تكنيكهای متفاوتي براي انتساب مقادير به داده‌هاي گمشده وجود دارد. مثلاً يكي از اين تكنيكها، انتساب مقدار ميانگين به مقادير گمشده است. اگر به عنوان مثال چند نفر درآمدشان را اعلام نكرده باشند، پژوهشگر تصميم مي‌گيرد كه ميانگين درآمد كساني را كه درآمدشان را اعلام كرده‌اند، محاسبه كند و سپس اين مقدار را به عنوان مقدار درآمد افرادي كه درآمدشان را اعلام نكرده‌اند قرار دهد. پيداست كه اين روش هم معايب بسياري دارد.
4- نيكويي بيشينه (حداكثر درست نمايي)
بهترين و موثرترين روش كار با داده‌هاي گمشده استفاده از روش نيكويي بيشينه است. عليرغم اينكه اين روش بهترين روش برآورد داده‌هاي گمشده است، اما به ندرت از سوي پژوهشگران مورد استفاده قرار مي‌گيرد. علت اين امر آن است كه براي استفاده از اين روش پژوهشگر نيازمند تسلط به دانش رياضيات نسبتاً بالايي است. اما خوشبختانه اخيراً نرم افزارهايي وارد بازار شده‌اند كه بدون نياز به دانش رياضياتي به پژوهشگران اجازه مي‌دهد كه از اين روش به سادگي استفاده كنند. در حال حاضر تنها دو نرم افزار توان انجام محاسبات مربوط به اين روش را دارند. اساس اين روش بر مبناي برآورد خطاهاي استاندارد با توجه به مدل تحقيق است.
نكته قابل توجه در اين است كه اگرچه در هر چهار روش ذكر شده زماني كه گمشدگي داده‌ها جنبه تصادفي نداشته باشد، پژوهش خواه ناخواه اریب مي‌گردد، اما ميزان اين اریبی در روش نيكويي بيشينه از ساير روشها كمتر است. روش نيكويي بيشينه حتي در حالتي كه گمشدگي داده‌ها جنبه تصادفي داشته باشد نيز بهترين روش براي برخورد با مساله داده‌هاي گمشده مي‌باشد.
بی پاسخی و داده های گمشده در آمارگیریهای نمونه ای
همین که نمونه انتخاب شد، تلاشی به عمل می آید تا داده های مطلوب ازهمۀ واحدهای شمارش که در نمونه انتخاب شده اند جمع آوری شود. متأسفانه، به ندرت امکان دارد که در تهیۀ داده های کامل از همۀ واحدهای نمونه گیری شده توفیق حاصل شود. در آمارگیری نمونه ای برای بعضی از واحدها ممکن است اصلاً هیچ اطلاعاتی به دست نیاید و برای واحدهای دیگر ممکن است برای بعضی از اقلام سؤالها، ولی نه همۀ اقلام تعیین شده، اطلاعاتی به دست آید. بی پاسخی ازنوع قبلی را بی پاسخی واحد و از نوع بعدی را بی پاسخی سؤال می نامند.
بی پاسخی واحد و بی پاسخی سؤال هر دو تهدید عمده ای برای درستی برآوردهای حاصل ازآمارگیریهای نمونه ای محسوب می شوند و اجتناب از هر دو نوع بی پاسخی در نمونه گیری از جامعه ها بسیار مشکل است. در بسیاری از آمارگیریها ممکن است با تلاش بسیار زیاد و صرف منابع هنگفت، نرخ پاسخگویی حتی به 50 % از همۀ واحدهایی برسد که در اصل در نمونه انتخاب شده اند .
افزایش استفاده از آمارگیریهای نمونه ای طی سالها برای تأمین اطلاعات به منظور تصمیم گیری و سختی فزایندۀ به دست آوردن نرخهای پاسخگویی بالا در آمارگیریهای نمونه ای، منجر به بذل توجه بسیار به این مسئله شده و به ابداع انواع گوناگونی از فنون برای رفتار با بی پاسخی و مقادیر گمشده درآمارگیریهای نمونه ای انجامیده است. در اینجا، دربارۀ اثر بی پاسخی بر درستی برآوردهای حاصل از آمارگیریهای نمونه ای بحث می کنیم و سپس به برخی روشها می پردازیم که برای کاهش بی پاسخی واحد مورد استفاده قرار
گرفته اند و بعضی از روشهایی را بررسی می کنیم که برای رسیدگی به داده های گمشده در وضعیتهای بی پاسخی سؤال به کار رفته اند.
اثر بی پاسخی بر درستی برآوردها
منظور از اجرای بیشتر آمارگیریها آن است که پارامترهای جامعه ای از قبیل میانگینها، مجموعها ونسبتها با بیشترین میزان درستی و قابلیت اعتماد ممکن برآورد شوند. هر یک از شیوه های نمونه گیری می تواند برآوردهایی نااریب (یا دست کم سازگار) از این قبیل پارامترها تهیه کنند، به شرطی که نرخ پاسخگویی به هر سؤال خاص 100 % باشد. واضح است که چنین چیزی به ندرت اتفاق می افتد و بنابراین برآوردهای حاصل، دیگر نااریب نخواهند بود. در واقع، با افزایش نرخ بی پاسخی، مقدار اریبی نیز افزایش خواهد یافت.
برای بررسی رسمیتر این ایده، تعریفهای زیر را ارائه می کنیم:
کل تعداد واحدهای شمارش در جامعه
کل تعداد واحدهای پاسخگوی بالقوه در جامعه
کل تعداد واحدهای بی پاسخ بالقوه در جامعه ()
میانگین سطح مشخصۀ در میان واحد شمارش بالقوۀ پاسخگو
میانگین سطح مشخصۀدر میان واحد شمارش بالقوه بی پاسخ
میانگین سطحدر میان کل جامعۀ متشکل از N واحد شمارش
اگر یک نمونۀ تصادفی ساده متشکل از واحد شمارش انتخاب کنیم و اگر هیچ تلاشی برای گرفتن داده ها از بی پاسخهای بالقوه به عمل نیاوریم، میانگین سطح مشخصۀ را در واقع به جای مجموع واحد شمارش پاسخ دهنده برآورد می کنیم. همچنین می دانیم که اگر نمونه متشکل از واحد شمارش واحد شمارش پاسخگو داشته باشد و اگر معرف میانگین سطح در میان این واحد شمارش پاسخگو باشد، آنگاه مقدار میانگین از فرمول زیر به دست می آید:

و اریبی از فرمول زیر محاسبه می شود :

از بررسی رابطه بالا متوجه می شویم که اریبی ناشی از بی پاسخی مستقل از تعداد واحدی است که با موفقیت نمونه گیری شده اند. واضح است که با افزایش اندازۀ نمونه نمی توان این اریبی را کاهش داد و برای کاهش آن باید اقدامات دیگری به عمل آید. یکی از این اقدامات کاهش نسبت پاسخگویان بالقوه است که در یکی از بخشهای بعد مورد بحث قرار خواهد گرفت . به این ترتیب، اثر بی پاسخی به نسبت بی پاسخها و تفاوت بین میانگین بی پاسخهای بالقوه و پاسخگویان بستگی دارد . متأسفانه، پارامترهای و به ندرت معلوم اند.
حال، این ایده ها را با یک مثال نشان می دهیم.
مثال تشریحی:
فرض کنید قرار است یک آمارگیری نمونه ای متشکل از 100 خانوار که از یک نمونه گیری تصادفی ساده به دست آمده اند در یک منطقۀ روستایی شامل200 خانوار به منظور برآورد نسبت همۀ خانوارهای فاقد گاز خانگی اجرا شود. باز فرض کنید که 20%(400) که از این 2000 خانوار از همکاری با این آمارگیری خودداری کنند یا اگر در نمونه انتخاب شوند، قابل دسترسی نباشند (که البته، این موضوع، پیش از آمارگیری معلوم نخواهد شد) به این ترتیب 2000 خانوار موجود در جامعه از 400 خانوار بی پاسخ بالقوه و 1600 خانوار پاسخگوی بالقوه تشکیل شده است. بالاخره فرض کنید که 100 خانوار ( 25%) از 400 خانوار بی پاسخ بالقوه دارای گاز خانگی نیستند، در حالی که از 1600 خانوار پاسخگوی بالقوه 160 خانوار (10%) فاقد گاز خانگی هستند. به این ترتیب، در کل جامعه 2000 خانواری، 260 خانوار ( 13%) گاز خانگی ندارند.
اگر در شیوۀ آمارگیری، هیچ تلاشی برای به دست آوردن داده ها از خانوارهای بی پاسخ بالقوه به عمل نیاید، توزیع نسبت برآورد شده برای خانوارهای فاقد گاز خانگی که می تواند از آمارگیری به دست آید حول 10/0متمرکز خواهد شد. ( نسبت خا نوارهای فاقد گاز خانگی در میان 1600 خانوار پاسخگوی بالقوه) در حالی که مقدار هدف 13/0است به عبارت دیگر، حذف بی پاسخهای بالقوه منجر به برآوردی اریب خواهد شد .
در این مثال داریم:
2000 25/0 400 10/0= 1600
از رابطه بالا داریم:

آمارگیریهای پستی همراه با مصاحبه با بی پاسخها
آمارگیریهای پستی به طور کلی کم هزینه تر از آمارگیریهای خانواری هستند که با مصاحبۀ حضوری اجرا می شوند. ولی غالباً به دست آوردن نرخ پاسخهای کافی برای تأمین مشخصه های مربوط به معتبربودن و قابلیت اطمینان برآوردها از آمارگیریهای پستی مشکل است. اگر نرخ پاسخگویی آغازین به پرسشنامۀ پستی کم باشد، برآوردهای حاصل به شدت اریب خواهند بود. برای غلبه بر این مشکل می توان از یک شیوۀ نمونه گیری دومرحله ای استفاده کرد که مرحلۀ اول آن آمارگیری پستی و مرحلۀ دوم آن آمارگیری تلفنی و یا مصاحبۀ حضوری از زیرمجموعه ای از کسانی است که به پرسشنامۀ پستی پاسخ نداده اند .این شیوه غالباً می تواند برآوردهایی با قابلیت اطمینان زیاد به دست دهد و با هزینه ای معقول اجرا شود. این نوع طرح نمونه ای به تفصیل در مثال بعد شرح داده شده است.

فایل : 32 صفحه

فرمت : Word

دیدگاهتان را بنویسید لغو پاسخ

کاربر گرامی، در این وب سایت تا حد امکان سعی کرده ایم تمام مقالات را با نام پدیدآورندگان آن منتشر کنیم، لذا خواهشمندیم در صورتی که به هر دلیلی تمایلی به انتشار مقاله خود در ارتیکل فارسی را ندارید با ما در تماس باشید تا در اسرع وقت نسبت به پیگیری موضوع اقدام کنیم.