مقاله در مورد خطای اندازه گیری در رگرسیون

عنوان پروژه:
خطای اندازه گیری در رگرسیون
استاد مربوطه:
دکتر صفرپارسی
ترجمه :
بهمن معاضدی
پاییز1391
خطای اندازه گیری در مدل های رگرسیون
خطی ساده
1.1 مقدمه
در اکثر آزمایشاتی که در سراسر دنیا صورت می گیرد، مشاهدات علمی مقدار واقعی نبوده بلکه مقادیر به دست آمده همراه با یک نوع خطا است. در علوم آماری چنین خطایی به خطای اندازه گیری معروف است. به خصوص در علومی مانند علوم آموزشی، علوم زیستی خطای اندازه گیری غیرقابل انکار است. به عنوان مثال در تعیین سطح نمرات یک کلاس یا تعیین ضریب هوشی افراد بسته به موقعیت زمانی، نوع سؤالات و وضعیت روحی افراد چنین خطایی وجود دارد. به عنوان مثال دیگر، در اندازه گیری فشار و کلسترول خون افراد، نمی توان به صورت دقیق مقادیر واقعی آن ها را اندازه گیری کرد. به عبارتی دیگر در بسیاری از آزمایشات در علوم مختلف، اگر اندازه گیری بر روی یک فرد تکرار شود، انتظار نمی رود همیشه به نتایج یکسانی دست پیدا کرد. این نوع خطا ممکن است به دلایل مختلفی از جمله دقت پایین دستگاه اندازه گیری، شرایط نامناسب زمان آزمایش و اشتباه در ثبت اطلاعات رخ دهد. چنین خطایی باعث بروز مشکلاتی در تحلیل داده ها شده و می تواند اعتبار نتایج به دست آمده را زیر سوال ببرد و حتی نادیده گرفتن چنین خطایی معمولا باعث نتیجه های گمراه کننده ای می شود (دگرسی و فولر،1972). از نقطه نظر تاریخی هنگامی که فولر (1987) قصد داشت رابطه رگرسیونی بین ذرت به دست آمده و نیتروژن موجود در خاک را برازش دهد، متوجه این نوع خطا شد. ایشان بعد از آزمایشات دقیق متوجه شد که نیتروژن موجود در خاک را نتوانسته به صورت دقیق اندازه گیری کند. سپس نشان داد که با نادیده گرفتن خطای اندازه گیری پارامترهای مدل های رگرسیونی اریب برآورد شده و در نتیجه باعث برازش مدل های گمراه
کننده شده است. به علاوه ایشان مطالعات گسترده ای روی مدل های رگرسیونی ساده که متغیرهای تبیینی یا متغیر پاسخ یا هردوی آن ها آمیخته به خطای اندازه گیری است انجام داد و ثابت کرد که در صورت معلوم بودن نرخ قابلیت اعتماد، می توان پارامترهای مدل را با دقت زیادی برآورد کرد و مدل دقیق تری را برازش داد. حاصل تلاش های وی منجر به نگارش کتاب جامع ای به نام مدل های خطای اندازه گیری شد. البته موضوع خطای اندازه گیری تنها محدود به مدل های رگرسیونی خطی نشده بلکه در مدل های مختلف از جمله مدل های رگرسیونی غیرخطی (کارول و همکاران،2006) و بد رده بندی (گلداستاین و همکاران، 2008) نیز گسترش یافته است.
به منظور مطالعه دقیق تاثیر خطای اندازه گیری بر نتایج حاصل از مدل های رگرسیونی، در این فصل به مفاهیم اولیه خطای اندازه گیری پرداخته می شود.
2.1 خطای اندازه گیری در رگرسیون خطی ساده
برای ارائه تصویر روشنی از موضوع خطای اندازه گیری و تأثیر آن در برازش یک مدل و برآورد پارامترهای آن، مدل رگرسیونی خطی ساده مورد مطالعه قرار داده می شود. بدین منظور مدل رگرسیونی خطی ساده
(1.2.1)
را در نظر بگیرید، که در آن خطاهای مدل هستند که دارای توزیع نرمال با میانگین صفر و واریانس ثابت می باشند و متغیر پاسخ و متغیر پیشگوی
رگرسیونی است واضح است که و و پارامترهای مدل هستند. در مدل (1.2.1) ها ترکیبی از انواع خطاها از جمله خطای رگرسیونی لحاظ نمی شود. به طور دقیق تر ها ترکیبی از انواع خطاها از جمله خطای اندازه گیری، خطای لحاظ نکردن متغیرهای تبیینی دیگر در مدل و … است که نادیده گرفتن هریک از این خطاها باعث برازش مدل های غیرواقعی می شود. فرض معمول در رگرسیون این است که ها مقادیر کنترل شده معلوم هستند. اما برای مدل (1.2.1) فرض می شود مقادیر دقیق ها معلوم نیستند. به عبارتی دیگر قبول می کنیم که در این مدل ها مقادیر واقعی هستند لیکن به دلیل آلودگی با خطای اندازه گیری آن ها را مشاهده نکردیم. چنین متغیرهایی در آمار به متغیرهای پنهان معروف اند. آنگاه خطای اندازه گیری به صورت اختلاف مقادیر مشاهده شده و متغیر پنهان تعریف می شود. از این رو می توان نوشت:
(2.2.1)
که در آن ها مقادیر مشاهده شده متناظر با ها و ها خطاهای اندازه گیری است. فرض می شود ها دارای توزیع نرمال با میانگین و واریانس و ها هم دارای توزیع نرمال با میانگین صفر و واریانس هستند. توجه کنید که در مدل هایی با متغیرهای آلوده به خطای اندازه گیری، معمولاً فرض می شود واریانس خطای اندازه گیری مقداری معلوم است. در رابطه (2.2.1) فرض می شود ها هم توزیع، مستقل از هم و مستقل از ها و متغیرهای پنهان (ها) هستند. با توجه به رابطه (2.2.1) و اینکه واضح است که
(3.2.1)
علاوه بر این می توان ملاحظه نمود که ها دارای توزیع نرمال دومتغیره با میانگین و واریانس به ترتیب
(4.2.1)
و
(5.2.1)

است. در این صورت ها به شرط مقادیر مشاهده شده (Xiها) دارای توزیع نرمال تک متغیره خواهد بود. همچنین با توجه به روابط (1.2.1) و (2.2.1) می توان نوشت:
(6.2.1)
مدل (6.2.1) به مدل ساده (NAIVE) معروف است که در آن Vi=دارای توزیع نرمال با میانگین صفر و واریانس نامعلوم + است. از این به بعد پارامترهای این مدل را با اندیس NAIVE نشان داده می شود تا با پارامترهای مدل های آتی قابل تمییز باشند.
حال که نحوه مدل بندی رگرسیونی با حضور خطای اندازه گیری تشریح شد، چگونگی برآورد پارامترهای چنین مدل هایی در ذیل ارائه می شود. با پیروی از فولر (1987) برای برآورد پارامترهای نامعلوم که در آن ، فرض کنید برآوردگر آن وقتی خطای اندازه گیری در مدل وجود نداشته باشد با و در صورت وجود خطای اندازه گیری و لحاظ نکردن آن در برآورد پارامترها به صورت نمایش داده شود. به دلیل اینکه برآوردگر حاصل تحت هر دو حالت تابعی از متغیرهای درگیر مربوطه است، برای حالت اول و دوم به ترتیب می نویسیم: و ، که در آن ها T تابعی دلخواه است. توجه شود که چون Xi مقادیر مشاهده شده ی xi هستند فرم تابعی T در دو برآوردگر تغییری نیافته است. به عبارتی دیگر می توان گفت برآوردگر همان برآوردگر است که به جای xi از مقادیر مشاهده شده اش یعنی Xi استفاده شده است. با توجه به رابطه (6.2.1) برآورد کمترین توان های دوم پارامتر ضریب رگرسیونی که معمولاً با نشان داده می شود به صورت
(7.2.1)
خواهد بود. از آن جایی که برآوردگر NAIVE یک برآوردگر بر اساس مقادیر مشاهده شده است، برآوردگری اریب برای پارامتر است.
به منظور از بین بردن اریبی برآوردگر NAIVE در مدل رگرسیونی خطی، کمیتی مرتبط با خطای اندازه گیری ارائه می شود که به نرخ قابلیت اعتماد معروف است. نرخ قابلیت اعتماد x که فاکتوری مهم در برآورد پارامترهای مدل هایی که متغیرهای آن آلوده به خطای اندازه گیری است، به صورت تقسیم واریانس متغیر پنهان xi بر واریانس مقادیر مشاهده شده تعریف می شود. این کمیت که در علوم زیستی به نرخ وراثت پذیری نیز معروف بوده معمولا با نماد Kx نشان داده می شود و عبارت است از:
(8.2.1)
همان طور که مشخص است مقدار Kx همیشه بین صفر و یک قرار دارد. زمانی که پراکندگی خطاهای اندازه گیری خیلی زیاد باشد مقدار نرخ قابلیت اعتماد به صفر نزدیک بوده و زمانی که پراکندگی این خطا نزدیک صفر باشد، مقدار نرخ قابلیت اعتماد نزدیک یک است. واضح است که اگر مقدار Kx نزدیک یک باشد می توان گفت شخص در اندازه گیری xi ها مرتکب خطای کمتری شده است. معمولاً فرض می شود که مقدار نرخ قابلیت اعتماد برای یک جامعه معلوم است. با این حال در صورت مجهول بودن آن می توان با برآورد واریانس خطای اندازه گیری آن را هم به راحتی برآورد کرد.
با معلوم بودن نرخ قابلیت اعتماد x برآورد پارامترهای مدل رگرسیونی عبارت اند از:
(9.2.1)
آلوده بودن متغیرهای رگرسیونی به خطای اندازه گیری نه تنها تأثیر شگرفی در برآورد پارامترها و برازش مدل دارد، بلکه در اکثر کمیت های آماری مرتبط با مدل مورد نظر نیز تأثیرگذار خواهد بود. به عنوان مثال از جمله کمیت های مهم در رگرسیون خطی ضریب تعیین خط رگرسیونی است. برای مدل رگرسیونی واقعی ضریب تعیین به صورت
(10.2.1)
تعریف می شود. ضریب تعیین شاخصی است که نشان می دهد تا چه اندازه معادله رگرسیونی، داده ها را به نیکویی برازش می دهد. اما در عمل به دلیل پنهان بودن متغیر تبیینی (xi) مقدار دقیق قابل محاسبه نیست. ولی با توجه به رابطه (9.2.1) و نرخ قابلیت اعتماد (Kx)، به راحتی می توان ضریب تعیین خط رگرسیونی را با استفاده از ضریب تعیین مدل NAIVE به صورت
(11.2.1)
به دست آورد. در این صورت هرچقدر نرخ قابلیت اعتماد نزدیک یک باشد، مدل رگرسیونی برازش شده بر اساس مقادیر مشاهده شده به مدل واقعی نزدیک خواهد شد.
اکنون به طور گذرا به تأثیر خطای اندازه گیری در استنباط آماری پارامترهای مدل های رگرسیونی پرداخته می شود. از آنجایی که دارای توزیع نرمال دومتغیره است، بنابراین به شرط Xi دارای توزیع نرمال، به ترتیب با میانگین و واریانس
(12.2.1)
و
(13.2.1)

خواهد بود. با توجه به واریانس شرطی فوق، می توان گفت که در صورت نادیده گرفتن خطای اندازه گیری، در برآورد واریانس برآوردگر پارامتر ضریب رگرسیونی با مشکل کم برآوردی مواجه خواهیم شد. در نتیجه علاوه بر برآورد اریب پارامترها، طول فاصله اطمینان به دست آمده نیز کمتر از طول فاصله اطمینان در حالت عادی خواهد شد. همچنین با توجه به این که در مدل های رگرسیونی خطی ساده میانگین
توان های دوم خطا یک برآوردگر نااریب برای است، بنابراین یک برآوردگر نااریب برای واریانس به شرط Xi به صورت
(14.2.1)

است، که در آن
(15.2.1)
از آنجایی که دارای توزیع خطی دو با n-1 درجه آزادی است، آنگاه با توجه به رابطه (13.2.1) واریانس غیرشرطی برآوردگر به صورت
(16.2.1)
خواهد بود. با توجه به اینکه (14.2.1) یک برآوردگر نااریب برای واریانس به شرط مقادیر مشاهده شده Xi است، بنابراین برآوردگر نااریب برای واریانس به شرط Xi به صورت
(17.2.1)

فایل : 21 صفحه

فرمت : Word

دیدگاهتان را بنویسید لغو پاسخ

کاربر گرامی، در این وب سایت تا حد امکان سعی کرده ایم تمام مقالات را با نام پدیدآورندگان آن منتشر کنیم، لذا خواهشمندیم در صورتی که به هر دلیلی تمایلی به انتشار مقاله خود در ارتیکل فارسی را ندارید با ما در تماس باشید تا در اسرع وقت نسبت به پیگیری موضوع اقدام کنیم.