تجزیه و تحلیل رگرسیون: چگونه می توانیم ضریب تعیین و ارزیابی همقوارگی را تفسیر کنیم؟
باقیمانده ها (Residual) در رگرسیون به صورت زیر تعریف می شود:
مقدار برازش شده – مقدار مشاهده شده = باقیمانده ها
رگرسیون، یک معادله را که فاصله بین خط برازش شده و همه نقاط داده شده را به حداقل برساند، ارائه میکند. به طور کلی رگرسیون مجموع مربعات باقیمانده ها را حداقل میکند.
یک مدل برازش شده برای داده ها خوب است اگر تفاوت بین مقادیر مشاهده شده و مقادیر پیش بینی مدل کوچک و نااریب باشند.
قبل از آنکه به مقادیر آماری برای برازش خوب (همقوارگی) نگاه شود بایستی نمودار باقیمانده ها بررسی گردد. نمودارهای باقیمانده می تواند الگوهای موجود در باقیمانده و نتایج اریب را نشان دهند. پس از بررسی نمودار باقیمانده ها و در صورت عدم مشاهده هیچ الگوی خاصی در این نمودار مقادیر آماری برای برازش خوب مثل ضریب تعیین (R ۲ ) را می توان بررسی نمود.
ضریب تعیین R ۲ چیست؟
R ۲ اندازه گیری آماری نزدیک داده ها به خط رگرسیون برازش شده میباشد. به R ۲ ، ضریب تعیین یا ضریب تشخیص نیز گفته می شود.
تعریف ضریب تعیین (R ۲ ) نسبتاً ساده است: “ضریب تعیین (R ۲ ) نشان میدهد که چند درصد تغییرات متغیر وابسته به وسیله متغیر مستقل تبیین می شود” یا به عبارت دیگر ضریب تعیین نشان دهنده این است که “چه مقدار از تغییرات متغیر وابسته تحت تاثیر متغیر مستقل مربوطه بوده و مابقی تغییرات متغیر وابسته مربوط به سایر عوامل میباشد.”
R-squared = Explained variation / Total variation
ضریب تعیین همیشه بین ۰ و ۱۰۰٪ است:
۰٪ نشان می دهد که مدل هیچ یک از تغییرپذیری داده های پاسخ در اطراف میانگین آن را تبیین نمی کند.
۱۰۰٪ نشان می دهد که مدل همه تغییرپذیری داده های پاسخ در اطراف میانگین آن را تبیین می کند.
نمایش گرافیکی از ضریب تعیین (R ۲ )
نمودار مقادیر برازش شده توسط مقادیر مشاهده به صورت گرافیکی مقادیر ضریب تعیین مختلف برای مدل های رگرسیونی را نشان می دهد.
مدل رگرسیون سمت چپ R ۲ =۳۸.۰% و مدل سمت راست دارای R ۲ =۸۷.۴% است. مقدار ضریب تعیین بالاتر نشان می دهد که در مدل رگرسیونی مقدار مشاهده شده به خط برازش شده نزدیک تر هستند. از لحاظ تئوری اگر R ۲ =۱۰۰.۰% شود تمامی مقادیر مشاهده شده با مقادیر برازش شده یکسان خواهند بود و همه نقاط داده ها بر روی خط برازش شده قرار خواهند گرفت.
محدودیت های کلیدی ضریب تعیین (R ۲ )
ضریب تعیین نمی تواند تعیین کند که آیا مدل برازش شده اریب است یا نه، به همین دلیل باید نمودارهای باقیمانده را ارزیابی نمود. ضریب تعیین (R ۲ ) نشان نمی دهد که آیا یک مدل رگرسیون مناسب است یا نه. نکته قابل تأمل آن است که یک مدل رگرسیونی خوب ممکن است ضریب تعیین (R ۲ ) پایین داشته باشید و یک مدل رگرسیونی با مقدار ضریب تعیین (R ۲ ) بالا ممکن است برای برازش داده ها مناسب نباشد!
آیا ضریب تعیین (R ۲ ) پایین ذاتاً بد است؟
نه! دو دلیل مهم که چرا مقادیر ضریب تعیین (R ۲ ) پایین می تواند بد نباشد، وجود دارد.
در برخی از زمینه ها، به طور کلی انتظار می رود که مقادیر ضریب تعیین (R ۲ ) پایین باشد. به عنوان مثال، در زمینه تلاش برای پیش بینی رفتار انسان (مانند روانشناسی) معمولا مقادیر ضریب تعیین (R ۲ ) کمتر از ۵۰٪ است. رفتار انسان ها به سادگی مانند فرآیندهای فیزیکی قابل پیش بینی نیست.
به علاوه، ممکن است ضریب تعیین (R ۲ ) پایین باشند، اما متغیرهای پیش بینی معنی دار از نظر آماری وجود داشته باشند، در این صورت هنوز هم میتوان نتیجه گیری مهمی در مورد چگونگی تغییر در مقدار متغیر پاسخ در ارتباط به متغیر ورودی ترسیم نمود. صرف نظر از ضریب تعیین (R ۲ ) ضرایب معنادار آماری مدل رگرسیونی هنوز میانگین تغییر در متغیر پاسخ برای یک واحد تغییر در متغیر ورودی را ارائه می کند. بدیهی است، این نوع از اطلاعات می تواند بسیار با ارزش است.
یک ضریب تعیین (R ۲ ) پایین زمانی که قصد آن وجود دارد که یک پیش بینی با دقت معقول انجام شود (دارای یک بازه ی پیش بینی به اندازه کافی کوچک) بیشتر مشکل ساز خواهد بود. سئوالی که مطرح می شود آن است که چقدر یک ضریب تعیین (R ۲ ) برای پیش بینی باید بزرگ باشد؟ این امر بستگی به نیاز مطالعه برای عرض یک بازه پیش بینی و میزان تغییرپذیری در داده ها دارد. مادامی که یک ضریب تعیین (R ۲ ) بالا برای پیش بینی ها دقیق مورد نیاز است، همانطور که در ادامه نشان داده خواهد شد این امر به خودی خود برای صحت مدل کافی نیست. همچنین زمانی که قصد داریم تمامی جوانب احتمالی متغیر پاسخ را برای جامعه ای با تغییرپذیری بالا بررسی کنیم (مثل پیش بینی تعداد آری احتمالی یک کاندیدا برای ریاست جمهوری)، داشتن یک بازه بزرگ تر برای مقادیر پیش بینی (یعنی ضریب تعیین (R ۲ ) کوچک) نیز قابل استفاده خواهد بود.
آیا ضریب تعیین (R ۲ ) بالا ذاتاً خوب است؟
نه! ضریب تعیین (R ۲ ) بالا لزوماً نشان نمی دهد که صحت یک مدل مناسب است. ممکن است متعجب شود، اما به دو نمودار زیر (نمودار خط برازش شده و نمودار باقیمانده ها) نگاه کنید. نمودار خط برازش شده رابطه بین تحرک الکترون نیمه هادی و لگاریتم طبیعی چگالی برای داده های تجربی واقعی نشان می دهد.
مودار نشان می دهد که داده ها با یک تابع با ضریب تعیین ۹۸٫۵٪، که مقدار بزرگی است برازش شده است. با این حال، با نگاه دقیق تر به خط رگرسیون مشخص می شود که در نقاط مختلف در طول منحنی رگرسیون داده های به صورت سیستماتیک زیر و بالای خط برازش شده قرار دارند. این نشان دهند وجود اریبی در معادله برازش شده است. همچنین یک الگو در نمودار باقیمانده ها مشاهده می شود. در این نمودار انتظار می رود در حالت مطلوب هیچ الگوی خاصی وجود نداشته باشد و باقیمانده ها رفتاری تصادفی و توزیع نرمال داشته باشند. لذا وجود این الگوها نشان دهنده یک برازش با صحت نامناسب است. به همین دلیل می باشد که علاوه بر ضریب تعیین (R ۲ ) برای بررسی مناسب بودن صحت یک مدل برازش شده باید روندها در نمودار باقیمانده ها را نیز بررسی نمود.
با این حال هنگامی که مدل رگرسیونی متغیرهای پیش بینی مهمی (مثل اثرات متقابل یا چند جمله ای) را از دست می دهد اریبی های مشابه با نمودار فوق ممکن است، اتفاق بی افتد.
برای کسب اطلاعات بیشتر که چرا یک ضریب تعیین (R ۲ ) بالا همیشه نشان دهنده خوب بودن مدل نمی باشد پست مربوط به پنج دلیل که چرا ضریب تعیین (R ۲ ) می تواند بیش از حد بزرگ باشد را ملاحظه نمایید.
حرف پایانی در خصوص ضریب تعیین (R ۲ )
ضریب تعیین (R ۲ ) برای اینکه تعیین کند چقدر خوب یک معادله رگرسیونی داده ها را برازش می کند مفید است. اما همانگونه که ملاحظه شده ضریب تعیین به تنهایی برای بررسی صحت مدل کفایت نمی کند و بایستی علاوه بر ضریب تعیین (R ۲ )، نرمال بودن داده ها یا باقیمانده ها، ثابت بودن واریاس در سطوح مختلف، استقلال داده ها نسبت به زمان و اریب نبودن مشاهدات برای صحت مدل برازش شده مورد ارزیابی قرار گیرند.
در حالی که ضریب تعیین (R ۲ ) تخمینی از قدرت رابطه بین مدل و متغیر پاسخ فراهم می کند، اما یک آزمون فرضیه رسمی برای این رابطه ارائه نمی دهد. از آزمون F-TEST برای تعیین اینکه رابطه معنادار آماری وجود دارد یک خیر استفاده می شود.
در پست ها بعدی در خصوص تجزیه و تحلیل رگرسیون سعی خواهد شده به این موضوع که ضریب تعیین (R ۲ ) تنها ناقص است دو نوع ضریب تعیین دیگر adjustedR2 و predictedR2 را نیز مورد بررسی قرار دهیم.
دانلود پایان نامه مدیریت درباره : همبستگی پیرسون
همبستگی نیز منفی است. همچنین اگر شیب خط رگرسیون صفر باشد، ضریب همبستگی نیز صفر می شود. ضریب همبستگی از ریشه دوم ضریب تعیین بدست می آید.
3-11-2-2-ضریب تعیین:
ضریب تعیین شاخصی است که نسبت تغییرات بیان شده توسط متغیرهای مستقل به کل تغییرات متغیروابسته را نشان می دهد. به عبارت دیگر ضریب تعیین بیان می کند که متغیرهای مستقل تا چه حد قادر هستند تغییرات متغیر وابسته را بیان نمایند. مقدار اختصاص یافته به ضریب تعیین بین صفر و یک می باشد و بدین صورت تحلیل می گردد: چنانچه ضریب همبستگی صفر باشد هیچ مقدار از تغییرات متغیر وابسته را نمی توان به تغییرات در متغیر مستقل نسبت داد. اگر ضریب تعیین یک باشد کل تغییرات متغیر وابسته را می توان به تغییرات در متغیر مستقل نسبت داد. و نهایتا اینکه اگر ضریب تعیین بین صفر و یک باشد مقداری از تغییرات متغیر وابسته قابل استناد به تغییرات متغیر مستقل است
3-12- نرمال بودن اجزای خطا
این فرض مبین این است که متوسط مقادیر خطا برابر صفر است. بر اساس این فرض اندازه میانگین باقیماندهها بر حسب Xi مفروض، صفر است. هر مجموعهY مربوط به یک X مفروض، در اطراف مقدار متوسط آن توزیع شده اند که بعضی از مقادیر Y، بالای میانگین و برخی دیگر پایین آن قرار دارند. فواصل بالا و پایین مقادیر میانگینها، همان Ui ها هستند که میانگین آنها صفر است. با توجه به قضیه حد مرکزی انتظار میرود که خطاهای مدل دارای توزیع نرمال باشد.طبق قضیه حد مرکزی، اگر اندازه نمونه به قدر کافی بزرگ باشد(حداقل 30 تحلیل رگرسیون و ضریب همبستگی مورد)، انتظار میرود که تخمین زننده دارای توزیع نرمال(البته به صورت تقریبی) در نمونه ها باشد. در این پژوهش به دلیل بالا بودن اندازه نمونه و تعداد داده ها نیازی به بررسی این فرض نمی باشد.
3-13- آزمون خود همبستگی
خود همبستگی زمانی رخ میدهد که خطاها با هم رابطه داشته باشند. به بیان دیگر جزء اخلال مربوط به یک مشاهده تحت تأثیر جزء اخلال یک مشاهده دیگر قرار دارد. اغلب در داده های مقطعی انتظار میرود که متغیر مستقل یک مشاهده فقط بر متغیر وابسته همان مشاهده تأثیر گذارد و با مشاهدات دیگر ارتباطی نداشته باشد .
برای تشخیص خود همبستگی از آماره دوربین– واتسون استفاده میشود که طبق فرمول زیر محاسبه میگردد.
=2(1-p)
جمله خطا در زمان t، : جمله خطا در زمان t-1 است.
چنانچه این آماره با توجه به سطح اطمینان 95% ، نزدیک به عدد2 باشد، خود همبستگی وجود ندارد .
3-14- رگرسیون خطی چندگانه
آمار استنباطی مجموعهای از تکنیکهای آماری است که به کمک آن میتوان روند گذشته را به آینده تعمیم داد. اساس تکنیکهای تعمیم روند گذشته به آینده فنون تحلیل رگرسیون میباشد. براساس این دسته از فنون آماری، میتوان با بررسی ارتباط بین حداقل دو متغیر مانند x و y بر اساس داده های گذشته، به گونهای بین x و y ارتباط برقرار کرد که رابطه آنها به صورت یک معادله ریاضی تعریف شود. اگر دو یا چند متغیر تأثیری عمده روی متغیری وابسته داشته باشند، از رگرسیون خطی چندگانه استفاده میشود. در رگرسیون خطی چند متغیره معادله زیر معرف جامعه است که فضایی سه بعدی دارد:
که در این معادله y متغیر وابسته، x متغیر مستقل به ترتیب مقادیر ثابت شیب خط رگرسیون و اثر سایر عوامل تحلیل رگرسیون و ضریب همبستگی بر معادله میباشند.
3-15- آزمون های مناسب مدل و بررسی رابطه متغیر ها
فرضیه تحقیق و مدلهای استفاده شده، به واسطه نتایج حاصل از اقتصاد سنجی و رگرسیون چند متغیره از 5 جنبه مورد بررسی قرار گرفتهاند و با تجزیه و تحلیل آنها، نسبت به تأثیر یا رد فرضیه اقدام شده است.
3-15-1- آزمون معنیدار بودن مدل مربوط به فرضیهها
جهت بررسی معنیدار بودن مدلهای رگرسیون استفاده شده در تحقیق، آزمون تمامی ضرایب آنها که دلالت بر معنیدار بودن روابط بین متغیرهای مستقل و متغیر وابسته است از آماره F استفاده شده است. با مقایسه آماره F که طبق فرمول زیر بدست میآید و F جدول که با درجات آزادی K-1 و n-K در سطح خطای 5% محاسبه شده، مدل فرضیه مورد بررسی قرار گرفته است.
از آنجائیکه در این تحقیق برای آزمون آماری، فرضیه به عنوان فرض جایگزین () در نظر گرفته شده است، زمانی فرضیه تأیید میشود که F محاسبه شده از F جدول بزرگتر باشد.
3-15-2- آزمون معنیدار بودن متغیر مستقل
برای بررسی معنیدار بودن ضرایب متغیرهای مستقل در هر مدل از آماره t استفاده شده است. برای محاسبه این آماره از فرمول زیر استفاده می شود.
: ضریب تخمینی، : انحراف معیار ضریب تخمینی،
: مجذور اختلاف بین مشاهدات واقعی و برآوردی، n: مقدار مشاهدات، k: تعداد پارامترها.
آماره t بدست آمده با t جدول که با درجه آزادی n-K در سطح اطمینان90%، 95% و 99% محاسبه شده مقایسه میشود، چنانچه قدر مطلق t محاسبه شده از t جدول بزرگتر باشد، ضریب مورد نظر معنیدار خواهد بود که دلالت بر وجود ارتباط بین متغیر مستقل و وابسته است.
3-15-3- آزمون F
این آزمون تعمیم یافته آزمون t است و برای ارزیابی یکسان بودن یا یکسان نبودن دو جامعه و یا چند جامعه به کار برده میشود. در این آزمون واریانس کل جامعه به عوامل اولیه آن تجزیه میشود. به همین دلیل به آن آزمون آنالیز واریانس (ANOVA) نیز میگویند.
وقتی بخواهیم بجای دو جامعه، همقوارگی چند جامعه را تواما با هم مقایسه نماییم از این آزمون استفاده میشود، چون مقایسه میانگین های چند جامعه با آزمون T بسیار مشکل است.
>مقایسه میانگین ها و همقوارگی چند جامعه بوسیله این آزمون ( Fیا ANOVA) راحت تر از آزمون t امکانپذیر است. (مومنی، 1386).
3-15-4- آزمون t
این آزمون برای ارزیابی میزان همقوارگی یا یکسان بودن و نبودن میانگین نمونه ای با میانگین جامعه در حالتی به کار می رود که انحراف معیار جامعه مجهول باشد.
چون توزیع t در مورد نمونه های کوچک بااستفاده ازدرجات آزادی تعدیل میشود، میتوان ازاین آزمون برای نمونه های بسیار کوچک استفاده نمود. همچنین این آزمون مواقعی که خطای استانداردجامعه نامعلوم وخطای استاندارد نمونه (s)معلوم باشد، کاربرد دارد.(مومنی، آذر 1383).
که در آن خطای استاندارد توزیع نمونه ای
برای دانلود متن کامل پایان نامه ، مقاله ، تحقیق ، پروژه ، پروپوزال ،سمینار مقطع کارشناسی ، ارشد و دکتری در موضوعات مختلف با فرمت ورد می توانید به سایت 77u.ir مراجعه نمایید
رشته مدیریت همه موضوعات و گرایش ها : صنعتی ، دولتی ، MBA ، مالی ، بازاریابی (تبلیغات – برند – مصرف کننده -مشتری ،نظام کیفیت فراگیر ، بازرگانی بین الملل ، صادرات و واردات ، اجرایی ، کارآفرینی ، بیمه ، تحول ، فناوری اطلاعات ، مدیریت دانش ،استراتژیک ، سیستم های اطلاعاتی ، مدیریت منابع انسانی و افزایش بهره وری کارکنان سازمان
در این سایت مجموعه بسیار بزرگی از مقالات و پایان نامه ها با منابع و ماخذ کامل درج شده که قسمتی از آنها به صورت رایگان و بقیه برای فروش و دانلود درج شده اند
و = میانگین برآورد شده نمونه ای ، میانگین جامعه ، تعداد نمونه
برای به کاربردن این آزمون، متغیر مورد مطالعه باید در مقیاس فاصله ای باشد، شکل توزیع آن نرمال و باشد. آزمونt در حالتهای زیر کاربرد دارد:
– مقایسه یک عدد فرضی با میانگین جامعه نمونه
– مقایسه میانگین دو جامعه
– مقایسه یک نسبت فرضی با یک نسبتی که از نمونه بدست آمده
– مقایسه دو نسبت از دو جامعه
3-15-5- آزمون دوربین – واتسن
یکی از مفروضاتی که در رگرسیون مد نظر قرار می گیرد، استقلال باقی مانده ها (تفاوت بین مقادیر واقعی و مقادیر پیش بینی شده توسط معادله رگرسیون ) از یکدیگر است . در صورتی که فرضیه استقلال باقی مانده ها رد شود و باقی مانده ها با یکدیگر همبستگی داشته باشند امکان استفاده از رگرسیون ندارد. به منظور بررسی استقلال باقی مانده ها از یکدیگر از آزمون دوربین – واتسن استفاده می شود که آماره آن به کمک رابطه زیر محاسبه می گردد در این رابطه میزان باقی مانده ها در دوره زمانی t و میزان باقی مانده ها در دوره زمانی قبل t است .
اگر همبستگی بین باقی مانده ها را با ρ نشان دهیم در این صورت آماره دوربین –واتسن به صورت زیرمحاسبه می شود:
مقدار آماره این آزمون در دامنه 0 تا 4+ قرار دارد زیرا :
اگر ρ =0 آن گاه DW = 2 خواهد بود که نشان می دهد باقی مانده ها از یکدیگر مستقل هستند.
اگر ρ = 1 آن گاه DW =0 خواهد بود که نشان می دهد باقی مانده ها دارای خود همبستگی مثبت هستند.
اگر ρ = -1 آن گاه DW =4 خواهد بود که نشان می دهد باقی مانده ها دارای خود همبستگی منفی هستند.
چنانچه این آماره در بازه 1.5 تا 2.5 قرار گیرد فرض صفر آزمون (عدم همبستگی بین باقی مانده ها) پذیرفته می شود و در غیر این صورت فرض صفر رد می شود (همبستگی بین باقی مانده ها). (مومنی،1386).
3-15-6- آزمون کلوموگروف اسمیرنوف
با بهره گرفتن از آزمون کلوموگروف اسمرینوف نرمال بودن متغیرهای تحقیق مورد بررسی و از این آزمون جهت بررسی ادعای مطرح شده در مورد توزیع داده های یک متغیر کمی مورد استفاده قرار می گیرد. از مزایای این آزمون این است که هر یک از مشاهدات را به صورت اصلی در نظر می گیرد و در مواردی که تعداد مشاهدات کوچک است به دلیل دقیق بودن اعمال شدنی است و از سادگی و سهولت برخوردار است. عدم نرمال بودن متغیرهای تحقیق میتواند سبب عدم برقراری شرط نرمال بودن باقیماندهها در رگرسیون هدف شود..اگر مقدار احتمال مربوط به این آزمون بزرگتر از 05/0 باشد با اطمینان 95% می توانیم نرمال بودن باقیمانده ها را مورد تایید قرار دهیم. (مومنی، آذر1383).
3-15-7- آماره وونگ
یکی از مناسب ترین و پرتوان ترین آزمون های آماری در مقایسه دو مدل رگرسیونی رقیب جهت تعمیم نتایج اختلاف میزان قدرت تبیین و بار اطلاعاتی همراه جهت تعمیم مدل برازش داده شده به جامعه آماری استفاده از آماره وونگ است. یک آزمون آماری برای تعیین این که کدام یک از دو مدل، متغیر وابسته را بهتر توضیح میدهد، ارائه نمود. تفاوت آزمون وونگ و سایر آزمونهای آماری در این است که در آزمون وونگ، توزیع آماره نسبت احتمال با این فرض بدست میآید که هیچ کدام از مدلها حقیقی نیستند. به عبارت دیگر آماره وونگ بر اساس توزیع آماره نسبت احتمال و بدون در نظرگرفتن فرضیه صفر آماری مبنی بر حقیقیبودن هر یک از دو مدل، محاسبه میشود. این آماره اگر چه برای هر دو مدل، قدرت توضیحدهندگی در نظر میگیرد، اما از طرف دیگر نشان میدهد که کدام یک از این دو مدل به فرآیند واقعی ایجاد دادهها نزدیکتر است. در بسیاری پژوهشها از این آزمون به منظور سنجش معناداری یک مدل رگرسیون در مقابل مدل دیگر از طریق مقایسه دو ضریب تعیین مورد استفاده قرار میگیرد. این آماره دارای توزیع مجانبی نرمال بوده وکمتر بودن آن نشاندهنده بهتربودن برازش مدل میباشد.بعد از برازش دو مدل داریم:
که در آن و و و به ترتیب میانگین مربعات باقی ماندهها در مدل و باقی ماندههای مربوط به دو مدل میباشند. با توجه صفربودن میانگین باقیماندهها با تقسیم بر انحراف معیار باقیماندههای استاندارد ایجاد میگردد . از طرفی همانطور که واضح است تفاوت توان دوم مقادیر استاندارد شده باقیماندهها باعث بزرگ شدن مقادیر K میشود که نشاندهنده تفاوت در قدرت تبیین و بار اطلاعاتی دو مدل میباشد. اما آیا میتوان پذیرفت که مقادیر K مخالف صفر هستند.
فصل چهارم
تجزیه و تحلیل داده ها
4-1- مقدمه
تجزیه و تحلیل داده ها به عنوان یکی از مراحل اصلی روش تحقیق علمی شناخته می شود. پس از تدوین مبانی نظری و روش تحقیق، لازم است که فرضیه های تحقیق آزمون شود. از طرفی، آزمون تجربی فرضیه ها متکی بر اطلاعات و داده هایی است که به روش علمی جمع آوری شده اند. برای یافتن پاسخ علمی این فرضیه ها، باید اطلاعات و داده های خام جمع آوری شده را با بهره گرفتن از یک مدل مناسب مورد تجزیه و تحلیل دقیق قرار داد. تبیین داده های خام بدون تحلیل آنها امری دشوار یا ناممکن است. نخست باید داده ها را تجزیه و تحلیل کرد و سپس نتایج این تجزیه و تحلیل را مورد تفسیر قرار داد. بنابراین مقصود اصلی از تحلیل عبارت است از تنظیم و خلاصه کردن داده ها به صورت اطلاعاتی روشن، خوانا، مستدل و تفسیر پذ
یر به گونه ای که بتوان روابط موجود در مسائل پژوهشی را کشف، بررسی و آزمون کرد. تجزیه و تحلیل یعنی دسته بندی، مرتب کردن و خلاصه کردن اطلاعات که باید قبل از اجرای پژوهش برنامه ریزی شده باشد و الگو یا مدل های تجزیه و تحلیل نیز تهیه و طرح ریزی گردند. در این فصل داده های گردآوری شده تحقیق در دو بخش توصیفی و استنباطی، تجزیه و تحلیل شده تا شواهدی برای قبول یا رد فرضیه های تحقیق فراهم شود. فرضیه های پژوهش با بهره گرفتن از ضریب همبستگی پیرسون و رگرسیون خطی چند متغیره آزمون می شوند و برای تجزیه و تحلیل داده های تحقیق از نرم افزار آماری spss21 استفاده می گردد. همچنین لازم به ذکر است که داده های جمع آوری شده بر مبنای روش تحقیق، تجزیه و تحلیل می شوند.
4-2-آزمون نرمال بودن متغیرها
جدول 4-1 نتایج آزمون کلموگروف اسمیرنف
ماکیاولی گری
رفاه فردی
قضاوت تخصصی
قضاوت عمومی
قضاوت حرفه ای
تعداد
90
90
90
90
90
آماره Z
763.
994.
900.
862.
765.
سطح معناداریsig
625.
276.
392.
447.
601.
با بهره گرفتن از آزمون کلموگروف اسمیرنف برای همه متغیر ها با توجه به سطح معناداری که بزرگتر از 0.05 می باشد پس در سطح اطمینان 95% فرض نرمال بودن آنها رد نشده است، بنابراین همه متغیر ها نرمال می باشند.
4-3-آمار توصیفی
در این بخش از تجزیه و تحلیل آماری به بررسی چگونگی توزیع نمونههای آماری از حیث متغیرهایی چون جنسیت،وضعیت تاهل، سمت شغلی و تحصیلات پرداخته میشود. همچنین جداول و نمودار های مربوطه در پیوست ارائه شده است.
جدول 4-2 مشخصات جمعیت دموگرافیک
متغیر
گروه
فراوانی
درصد
جنسیت
مرد
64
1/71
زن
26
9/28
وضعیت تاهل
متاهل
68
6/75
مجرد
22
4/24
تحصیلات
کاردانی
12
3/13
کارشناسی
60
7/66
کارشناسی ارشد
13
4/14
دکتری
5
6/5
سمت شغلی
سرپرست
7
8/7
حسابرس ارشد
10
1/11
حسابرس
54
60
کمک حسابرس
19
1/21
با توجه به جدول فوق از 90 نفر افراد نمونه که جواب داده اند 64 نفر مرد،26 نفر زن بوده که نشان میدهد 71 درصد مرد و 29 درصد زن بوده و 76 درصد متاهل می باشند. از نظر سمت شغلی 9 درصد سرپرست ، 11 درصد حسابرس ارشد ، 60 درصد حسابرس و 21 درصد کمک حسابرس هستند. همچنین 67 درصد دارای مدرک کارشناسی،14 درصد مدرک کارشناسی ارشد، 13 درصد کاردانی و 6 درصد مدرک دکتری را شامل می شود.
4-4- مقایسه متغیر های پژوهش با حد وسط مقیاس اندازه گیری
آزمون t یک نمونه برای مقایسه میانگین مشاهده شده متغیرهای پژوهش با میانگین نظری مقیاس اندازهگیری نشان داده است که با توجه به سطح معناداری کوچکتر از 0.05 ، میانگین متغیر ویژگی ماکیاولیگری به صورت معنادار متفاوت از میانگین نظری است و با توجه به میانگین متغیر ویژگی ماکیاولیگری که کمتر از 3 می باشد بنابراین میانگین متغیر ویژگی
رگرسیون خطی چند متغییره در شبیه سازی بارش رواناب
اگر از این مقاله خوشت اومد، کلیک کن
مدل های داده محور در هیدرولوژی کاربرد زیادی دارند و یکی از آن ها مدل رگرسیون خطی چند متغییره است. در این نوشته به معرفی این روش پرداخته شده است و در آخر یک مدل بارش رواناب با استفاده از رگرسیون خطی چند متغییره ایجاد شده است.
با استفاده از رگرسیون خطی چند متغیره میتوان رابطه خطی بین مجموعهای از متغیرهای مستقل با یک متغیر وابسته را به شیوهای بررسی کرد که در آن، روابط موجود فی مابین متغیرهای مستقل نیز مورد ملاحظه قرار گیرد و وظیفه رگرسیون این است که به تبیین واریانس متغیر وابسته کمک کند و این وظیفه تا حدودی از طریق برآورد مشارکت متغیرها در این واریانس به انجام میرسند. تحلیل رگرسیون چند متغیره برای مطالعه تأثیرات چند متغیر مستقل در متغیر تحلیل رگرسیون و ضریب همبستگی تحلیل رگرسیون و ضریب همبستگی وابسته کاملاً مناسب است.
در رگرسیون چند متغیره، مقادیر یک متغیر(متغیر وابسته یا y) از روی مقادیر دو یا چند متغیر دیگر (متغیرهای مستقل x1, x2, …,xk) برآورد میشود. این کار از طریق ساختن یک معادله خطی به شکل زیر انجام میشود.
f(y)=ax0+bx1+…+zxn
مفروضات رگرسیون خطی چند متغییره
جهت استفاده از رگرسیون خطی باید شرایط زیر ایجاد گردد
میانگین (امید ریاضی) خطاها صفر باشد
واریانس خطاها ثابت باشد
بین خطاهای مدل، همبستگی وجود نداشته باشد. به منظور بررسی این شرط از آزمون دوربین-واتسون استفاده میشود
متغیر وابسته مقیاس فاصلهای یا نسبی و دارای توزیع نرمال باشد
رگرسیون خطی در نرم افزار SPSS
برای ورود متغیرهای رگرسیونی به مدل، چهار روش اصلی وجود دارد که در ادامه توضیح داده می شود.
روش همزمان (Enter Method)
در این روش کلیه متغیرهای مستقل بطور همزمان وارد مدل می شوند تا تأثیر کلیه متغیرهای مهم و غیر مهم بر متغیر وابسته مشخص گردد. در این روش تمام متغیرها در یک مرحله به ترتیب حداقل تولرانس وارد تحلیل می شوند. یکی از مشکلات روش همزمان این است که چون تمامی متغیرها بدون توجه به ضریب همبستگی شان با متغیر وابسته وارد معادله می شوند بنابراین احتمالاً متغیرهایی هم که حضورشان در معادله معنی دار نیست، در آن باقی می مانند که در اثر حضور نابجا، مقادیر F و R2 کاهش می یابد.
روش حذف پس رو (Backward Method)
در این روش همانند روش Enter ابتدا کلیه متغیرهای مستقل وارد معادله شده و اثر کلیه متغیرها روی متغیر وابسته سنجیده می شود. اما بر خلاف روش Enter، در این روش به مرور متغیرهای ضعیف تر و کم اثرتر یکی پس از دیگری از معادله خارج شده و در نهایت این مراحل تا زمانی ادامه می یابد که خطای آزمون معنی داری به ده درصد برسد.
روش پیش رونده (Froward Method)
ابتدا همبستگی ساده بین هر یک از متغیرهای مستقل را با متغیر وابسته محاسبه می شود. سپس متغیر مستقلی که بیشترین همبستگی را با متغیر وابسته دارد و به عبارتی بیشترین مقدار واریانس را تبیین می کند، وارد تحلیل می کند. دومین متغیری که وارد تحلیل می شود، متغیری است که پس از تفکیک متغیر اول، بیشترین ضریب همبستگی را با متغیر وابسته دارد.
روش گام به گام (Stepwise Method)
در این روش، مانند روش Foreward متغیرها یک به یک وارد مدل می شوند. یعنی ابتدا متغیری که بیشترین همبستگی را با متغیر وابسته دارد انتخاب می شود. دومین متغیری که وارد تحلیل می شود متغیری است متغیری است که پس از تفکیک متغیر مقدم بر آن موجب بیشترین افزایش در مقدار ضریب R2 می شود. فرق اصل این روش با روش Forward در آن است که در روش Forward متغیرهای وارد شده در تحلیل در معادله باقی می مانند ولی در روش Stepwise با ورود متغیر جدید، متغیرهایی که قبلاً وارد معادله شده اند از نو آزموده می شوند تا مشخص گردد آیا هنوز هم حضور آن ها در مدل به موفقیت آن کمک می کند یا خیر؟ بنابراین احتمال دارد برخی از متغیرهایی که در مرحله اول قدرت تبیین بالایی داشته اند در مرحله بعدی حذف شوند.
مدل رگرسیون خطی
در این جا با استفاده از روش Enter و با استفاده از داده های بارش و رواناب مدل رگرسیونی خطی چند متغییره بارش رواناب با استفاده از دبی های روز قبل، دو روز قبل، و بارش های این روز ها یک مدل رگرسیون خطی ساخته شده است.
در تصویرر زیر محل قرار گیر مدل رگرسیون خطی چند متغییره آمده است.
رگرسیون خطی چند متغییره در SPSS
در شکل زیر متغییر وابسته و متغییرهای مستقل را به SPSS معرفی می کنیم. در این جا دبی امروز متغییر وابسته و داده های بارش و رواناب روزهای قبل متغییر مستقل هستند.
معرفی متغییرهای مستقل تحلیل رگرسیون و ضریب همبستگی و وابسته و متد ساخت
نتیجه مدل در جدول زیر آمده است.
نتایج مدل
رگرسیون خطی چیست؟
در آمار، رگرسیون خطی یک روریکرد مدل خطی بین متغیر پاسخ (Response) با یک یا چند متغیر توصیفی (Explanatory) است.
اغلب برای کشف مدل رابطهی خطی بین متغیرها از رگرسیون (Regression) استفاده میشود.
در این حالت فرض بر این است که یک یا چند متغیر توصیفی که مقدار آنها مستقل از بقیه متغیرها یا تحت کنترل محقق است، میتواند در پیشبینی متغیر پاسخ که مقدارش وابسته به متغیرهای توصیفی و تحت کنترل محقق نیست، موثر باشد.
هدف از انجام تحلیل رگرسیون شناسایی مدل خطی این رابطه است.
ضریب همبستگی رگرسیون خطی چیست؟
برای سنجش شدت رابطه بین متغیر وابسته و مستقل میتوان از ضریب همبستگی استفاده کرد.
هر چه ضریب همبستگی به ۱ یا ۱- نزدیکتر باشد، شدت رابطه خطی بین متغیرهای مستقل و وابسته شدیدتر است.
البته اگر ضریب همبستگی نزدیک به ۱ باشد جهت تغییرات هر دو متغیر یکسان است که به آن رابطه مستقیم میگوییم و اگر ضریب همبستگی به ۱- نزدیک باشد، جهت تغییرات متغیرها معکوس یکدیگر خواهد بود و به آن رابطه عکس میگوییم.
ولی در هر دو حالت امکان پیشبینی مقدار متغیر وابسته برحسب متغیر مستقل وجود دارد.
هرچند ضریب همبستگی راهی برای نشان دادن رابطه بین دو متغیر مستقل و وابسته است ولی مدل رابطه بین این دو متغیر را نشان نمیدهد.
با رگرسیون میتوان قانونی که بین دادهها وجود دارد را کشف و به کار بست.
بسیاری از رابطههای فیزیک یا شیمی به کمک رگرسیون بدست آمده است.
برای مثال مقدار ثابت گازها در فیزیک کلاسیک از طریق رگرسیون قابل محاسبه است.
نمایش رابطهی خطی بین دو متغیر مستقل و وابسته معمولا توسط «نمودار نقطهای» (Scatter Plot) انجام میشود.
رابطه مستقیم بین متغییر وابسته با خط رگریسون
با توجه به تصویر بالا مشخص است که محور افقی مقدارهای متغیر مستقل و محور عمودی مقدارهای متغیر وابسته را نشان میدهد و رابطهی بین دو متغیر مستقیم است.
ولی در تصویر زیر رابطه شدید ولی در جهت عکس بین دو متغیر مستفل و وابسته دیده میشود.
رگرسیون گام به گام درSPSS – آموزش ساده
یک مجله می خواهد رضایت مشتریان را بهبود بخشد. آنها برخی از خوانندگان را در مورد 1 رضایت کلی و همچنین 2 رضایت از برخی جنبه های کیفی بررسی کردند. سوال اصلی آنها این است که “کدام جنبه ها بیشترین تأثیر را در رضایت مشتری دارند؟” ما سعی خواهیم کرد با تحلیل رگرسیون به این سوال پاسخ دهیم. رضایت کلی، متغیر وابسته(یا معیار) ما است و جنبه های کیفیت متغیرهای مستقل (یا پیش بینی کننده ها) ما هستند. این داده ها از magazine_reg.sav قابل بارگیری است که در آموزش قبلی در آماده سازی داده ها برای رگرسیون در SPSS بررسی و آماده شده اند.
تنظیمات اولیه
داده های ما شامل یک متغیر FILTER است که با دستور زیر آن را روشن خواهیم کرد. و همچنین می خواهیم هم نام متغیرها و هم برچسب ها را در خروجی خود ببینیم بنابراین آن را نیز تنظیم خواهیم کرد.
*1. Switch filter variable on.
filter by filt1.
*2. Show variable names and labels in output.
set tvars both.
واردکردن رگرسیون در spss
ابتدا رگرسیون خطی پیش فرض را بر روی داده های خود اجرا می کنیم. همانطور که در تصاویر زیر نشان داده شده است.
بیایید اکنون گفتگو و زیر دیالوگ ها را مانند تصویر زیر پر کنید.
توجه داشته باشید که معمولاً در شماره 6 در تصویر فوق، حذف موارد به صورت دو به دو را انتخاب می کنیم زیرا در محاسبه همبستگی هایی که رگرسیون ما بر اساس آنها ساخته شده است، از بیشتر موارد استفاده می شود. با کلیک روی Paste، دستور زیر حاصل می شود. بلافاصله آن را اجرا خواهیم کرد.
دستور واردکردن رگرسیون در spss
*Basic regression syntax. Note that “method=enter” in last line.
REGRESSION
/MISSING PAIRWISE
/STATISTICS COEFF CI(99) OUTS R ANOVA COLLIN TOL
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT satov
/METHOD=ENTER sat1 sat2 sat3 sat4 sat5 sat6 sat7 sat8 sat9.
خروجی واردکردن رگرسیون در spss
در خروجی، ابتدا جدول ضرایب خود را همانطور که در زیر نشان داده شده است، بررسی و تفسیر می کنیم.
بعضی چیزها در اینجا به طرز وحشتناکی اشتباه پیش می روند:
1 ضریب (B) 0.075- نشان می دهد که پایین بودن متغییر “قابلیت اعتماد به اطلاعات” با رضایت بالاتر همراه است! با این حال، این متغیرها همبستگی مثبتی دارند (0.28 = r و 0.000=p-value است)
2- خوشبختانه این ضریب عجیب b از نظر آماری معنادار نیست: 0.063 احتمال داشت که در حالی که در جامعه این ضریب صفر باشد ما ضریب نزدیک به معنی داری در نمونه پیدا کنیم. این برای برخی دیگر از پیش بینی کننده ها نیز صدق می کند. این تحلیل رگرسیون و ضریب همبستگی مشکل به عنوان همخطی شناخته می شود: ما متغیرهای پیش بینی کننده زیادی که خیلی باهم مرتبط اند را وارد مدل رگرسیون خود کردیم. مربع r در اینجا 9 متغیر پیش بینی کننده را دارای مشکل نشان م ی دهد. بنابراین، تاثیر منحصر به فرد برخی از متغیرها آنقدر کم می شود که دیگر نمی توان تفاوت آنها را از صفر تشخیص داد.
3 فواصل اطمینان این را تأیید می کند: برای سه ضرایب b صفر را شامل می شود.
4 یک قانون کلی این است که تحمل 0.01 نشانگر چند خطی بودن است. در این مورد، تحمل آماری به طور چشم گیری شکست می خورد، در تشخیص چند خطی بودن که به وضوح وجود دارد. تجربه ما این است که معمولاً همینطور است.
حل چند خطی بودن با رگرسیون گام به گام
روشی که تقریباً همیشه چند خطی را برطرف می کند، رگرسیون گام به گام است. ما مشخص می کنیم که می خواهیم کدام یک از پیش بینی کننده ها را شامل شوند. سپس SPSS بررسی می کند که کدام یک از این پیش بینی ها واقعاً در پیش بینی متغیر وابسته ما نقش دارند و مواردی را که این کار را نمی کنند، مستثنی می کند. به همین ترتیب، ما معمولاً با پیش بینی کننده های کمتری نسبت به آنچه مشخص می کنیم، درنهایت به نتیجه می رسیم. با این حال، آنهایی که باقی می مانند دارای ضرایب b ثابت و قابل توجهی در جهت مورد انتظار هستند: نمرات بالاتر کیفیت با نمرات بالاتر رضایت همراه است. خب بیاید انجامش بدیم.
دستور رگرسیون گام به گام درSPSS
دستور قبلی خود را کپی پیست کرده و METHOD = STEPWISE را در سطر آخر قرار می دهیم. به همین ترتیب، در انتها به دستور زیر می رسیم. آن را اجرا خواهیم کرد و نتایج اصلی را توضیح خواهیم داد.
*Basic stepwise regression.
REGRESSION
/MISSING PAIRWISE
/STATISTICS COEFF OUTS CI(99) R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT satov
/METHOD=stepwise sat1 sat2 sat3 sat4 sat5 sat6 sat7 sat8 sat9.
دیدگاه شما