تحلیل رگرسیون و ضریب همبستگی


رگرسیون خطی چند متغییره در SPSS

تجزیه و تحلیل رگرسیون: چگونه می توانیم ضریب تعیین و ارزیابی همقوارگی را تفسیر کنیم؟

باقیمانده ها (Residual) در رگرسیون به صورت زیر تعریف می شود:

مقدار برازش شده – مقدار مشاهده شده = باقیمانده ها

رگرسیون، یک معادله را که فاصله بین خط برازش شده و همه نقاط داده شده را به حداقل برساند، ارائه میکند. به طور کلی رگرسیون مجموع مربعات باقیمانده ها را حداقل میکند.

یک مدل برازش شده برای داده ها خوب است اگر تفاوت بین مقادیر مشاهده شده و مقادیر پیش بینی مدل کوچک و نااریب باشند.

قبل از آنکه به مقادیر آماری برای برازش خوب (همقوارگی) نگاه شود بایستی نمودار باقیمانده ها بررسی گردد. نمودارهای باقیمانده می تواند الگوهای موجود در باقیمانده و نتایج اریب را نشان دهند. پس از بررسی نمودار باقیمانده ها و در صورت عدم مشاهده هیچ الگوی خاصی در این نمودار مقادیر آماری برای برازش خوب مثل ضریب تعیین (R ۲ ) را می توان بررسی نمود.

ضریب تعیین R ۲ چیست؟

R ۲ اندازه گیری آماری نزدیک داده ها به خط رگرسیون برازش شده میباشد. به R ۲ ، ضریب تعیین یا ضریب تشخیص نیز گفته می شود.

تعریف ضریب تعیین (R ۲ ) نسبتاً ساده است: “ضریب تعیین (R ۲ ) نشان میدهد که چند درصد تغییرات متغیر وابسته به وسیله متغیر مستقل تبیین می شود” یا به عبارت دیگر ضریب تعیین نشان دهنده این است که “چه مقدار از تغییرات متغیر وابسته تحت تاثیر متغیر مستقل مربوطه بوده و مابقی تغییرات متغیر وابسته مربوط به سایر عوامل میباشد.”

R-squared = Explained variation / Total variation

ضریب تعیین همیشه بین ۰ و ۱۰۰٪ است:

۰٪ نشان می دهد که مدل هیچ یک از تغییرپذیری داده های پاسخ در اطراف میانگین آن را تبیین نمی کند.

۱۰۰٪ نشان می دهد که مدل همه تغییرپذیری داده های پاسخ در اطراف میانگین آن را تبیین می کند.

نمایش گرافیکی از ضریب تعیین (R ۲ )

نمودار مقادیر برازش شده توسط مقادیر مشاهده به صورت گرافیکی مقادیر ضریب تعیین مختلف برای مدل های رگرسیونی را نشان می دهد.

مدل رگرسیون سمت چپ R ۲ =۳۸.۰% و مدل سمت راست دارای R ۲ =۸۷.۴% است. مقدار ضریب تعیین بالاتر نشان می دهد که در مدل رگرسیونی مقدار مشاهده شده به خط برازش شده نزدیک تر هستند. از لحاظ تئوری اگر R ۲ =۱۰۰.۰% شود تمامی مقادیر مشاهده شده با مقادیر برازش شده یکسان خواهند بود و همه نقاط داده ها بر روی خط برازش شده قرار خواهند گرفت.

محدودیت های کلیدی ضریب تعیین (R ۲ )

ضریب تعیین نمی تواند تعیین کند که آیا مدل برازش شده اریب است یا نه، به همین دلیل باید نمودارهای باقیمانده را ارزیابی نمود. ضریب تعیین (R ۲ ) نشان نمی دهد که آیا یک مدل رگرسیون مناسب است یا نه. نکته قابل تأمل آن است که یک مدل رگرسیونی خوب ممکن است ضریب تعیین (R ۲ ) پایین داشته باشید و یک مدل رگرسیونی با مقدار ضریب تعیین (R ۲ ) بالا ممکن است برای برازش داده ها مناسب نباشد!

آیا ضریب تعیین (R ۲ ) پایین ذاتاً بد است؟

نه! دو دلیل مهم که چرا مقادیر ضریب تعیین (R ۲ ) پایین می تواند بد نباشد، وجود دارد.

در برخی از زمینه ها، به طور کلی انتظار می رود که مقادیر ضریب تعیین (R ۲ ) پایین باشد. به عنوان مثال، در زمینه تلاش برای پیش بینی رفتار انسان (مانند روانشناسی) معمولا مقادیر ضریب تعیین (R ۲ ) کمتر از ۵۰٪ است. رفتار انسان ها به سادگی مانند فرآیندهای فیزیکی قابل پیش بینی نیست.

به علاوه، ممکن است ضریب تعیین (R ۲ ) پایین باشند، اما متغیرهای پیش بینی معنی دار از نظر آماری وجود داشته باشند، در این صورت هنوز هم میتوان نتیجه گیری مهمی در مورد چگونگی تغییر در مقدار متغیر پاسخ در ارتباط به متغیر ورودی ترسیم نمود. صرف نظر از ضریب تعیین (R ۲ ) ضرایب معنادار آماری مدل رگرسیونی هنوز میانگین تغییر در متغیر پاسخ برای یک واحد تغییر در متغیر ورودی را ارائه می کند. بدیهی است، این نوع از اطلاعات می تواند بسیار با ارزش است.

flp_highvar

یک ضریب تعیین (R ۲ ) پایین زمانی که قصد آن وجود دارد که یک پیش بینی با دقت معقول انجام شود (دارای یک بازه ی پیش بینی به اندازه کافی کوچک) بیشتر مشکل ساز خواهد بود. سئوالی که مطرح می شود آن است که چقدر یک ضریب تعیین (R ۲ ) برای پیش بینی باید بزرگ باشد؟ این امر بستگی به نیاز مطالعه برای عرض یک بازه پیش بینی و میزان تغییرپذیری در داده ها دارد. مادامی که یک ضریب تعیین (R ۲ ) بالا برای پیش بینی ها دقیق مورد نیاز است، همانطور که در ادامه نشان داده خواهد شد این امر به خودی خود برای صحت مدل کافی نیست. همچنین زمانی که قصد داریم تمامی جوانب احتمالی متغیر پاسخ را برای جامعه ای با تغییرپذیری بالا بررسی کنیم (مثل پیش بینی تعداد آری احتمالی یک کاندیدا برای ریاست جمهوری)، داشتن یک بازه بزرگ تر برای مقادیر پیش بینی (یعنی ضریب تعیین (R ۲ ) کوچک) نیز قابل استفاده خواهد بود.

آیا ضریب تعیین (R ۲ ) بالا ذاتاً خوب است؟

نه! ضریب تعیین (R ۲ ) بالا لزوماً نشان نمی دهد که صحت یک مدل مناسب است. ممکن است متعجب شود، اما به دو نمودار زیر (نمودار خط برازش شده و نمودار باقیمانده ها) نگاه کنید. نمودار خط برازش شده رابطه بین تحرک الکترون نیمه هادی و لگاریتم طبیعی چگالی برای داده های تجربی واقعی نشان می دهد.

مودار نشان می دهد که داده ها با یک تابع با ضریب تعیین ۹۸٫۵٪، که مقدار بزرگی است برازش شده است. با این حال، با نگاه دقیق تر به خط رگرسیون مشخص می شود که در نقاط مختلف در طول منحنی رگرسیون داده های به صورت سیستماتیک زیر و بالای خط برازش شده قرار دارند. این نشان دهند وجود اریبی در معادله برازش شده است. همچنین یک الگو در نمودار باقیمانده ها مشاهده می شود. در این نمودار انتظار می رود در حالت مطلوب هیچ الگوی خاصی وجود نداشته باشد و باقیمانده ها رفتاری تصادفی و توزیع نرمال داشته باشند. لذا وجود این الگوها نشان دهنده یک برازش با صحت نامناسب است. به همین دلیل می باشد که علاوه بر ضریب تعیین (R ۲ ) برای بررسی مناسب بودن صحت یک مدل برازش شده باید روندها در نمودار باقیمانده ها را نیز بررسی نمود.

با این حال هنگامی که مدل رگرسیونی متغیرهای پیش بینی مهمی (مثل اثرات متقابل یا چند جمله ای) را از دست می دهد اریبی های مشابه با نمودار فوق ممکن است، اتفاق بی افتد.

برای کسب اطلاعات بیشتر که چرا یک ضریب تعیین (R ۲ ) بالا همیشه نشان دهنده خوب بودن مدل نمی باشد پست مربوط به پنج دلیل که چرا ضریب تعیین (R ۲ ) می تواند بیش از حد بزرگ باشد را ملاحظه نمایید.

حرف پایانی در خصوص ضریب تعیین (R ۲ )

ضریب تعیین (R ۲ ) برای اینکه تعیین کند چقدر خوب یک معادله رگرسیونی داده ها را برازش می کند مفید است. اما همانگونه که ملاحظه شده ضریب تعیین به تنهایی برای بررسی صحت مدل کفایت نمی کند و بایستی علاوه بر ضریب تعیین (R ۲ )، نرمال بودن داده ها یا باقیمانده ها، ثابت بودن واریاس در سطوح مختلف، استقلال داده ها نسبت به زمان و اریب نبودن مشاهدات برای صحت مدل برازش شده مورد ارزیابی قرار گیرند.

در حالی که ضریب تعیین (R ۲ ) تخمینی از قدرت رابطه بین مدل و متغیر پاسخ فراهم می کند، اما یک آزمون فرضیه رسمی برای این رابطه ارائه نمی دهد. از آزمون F-TEST برای تعیین اینکه رابطه معنادار آماری وجود دارد یک خیر استفاده می شود.

در پست ها بعدی در خصوص تجزیه و تحلیل رگرسیون سعی خواهد شده به این موضوع که ضریب تعیین (R ۲ ) تنها ناقص است دو نوع ضریب تعیین دیگر adjustedR2 و predictedR2 را نیز مورد بررسی قرار دهیم.

دانلود پایان نامه مدیریت درباره : همبستگی پیرسون

همبستگی نیز منفی است. همچنین اگر شیب خط رگرسیون صفر باشد، ضریب همبستگی نیز صفر می شود. ضریب همبستگی از ریشه دوم ضریب تعیین بدست می آید.
3-11-2-2-ضریب تعیین:
ضریب تعیین شاخصی است که نسبت تغییرات بیان شده توسط متغیرهای مستقل به کل تغییرات متغیروابسته را نشان می دهد. به عبارت دیگر ضریب تعیین بیان می کند که متغیرهای مستقل تا چه حد قادر هستند تغییرات متغیر وابسته را بیان نمایند. مقدار اختصاص یافته به ضریب تعیین بین صفر و یک می باشد و بدین صورت تحلیل می گردد: چنانچه ضریب همبستگی صفر باشد هیچ مقدار از تغییرات متغیر وابسته را نمی توان به تغییرات در متغیر مستقل نسبت داد. اگر ضریب تعیین یک باشد کل تغییرات متغیر وابسته را می توان به تغییرات در متغیر مستقل نسبت داد. و نهایتا اینکه اگر ضریب تعیین بین صفر و یک باشد مقداری از تغییرات متغیر وابسته قابل استناد به تغییرات متغیر مستقل است
3-12- نرمال بودن اجزای خطا
این فرض مبین این است که متوسط مقادیر خطا برابر صفر است. بر اساس این فرض اندازه میانگین باقیماندهها بر حسب Xi مفروض، صفر است. هر مجموعهY مربوط به یک X مفروض، در اطراف مقدار متوسط آن توزیع شده اند که بعضی از مقادیر Y، بالای میانگین و برخی دیگر پایین آن قرار دارند. فواصل بالا و پایین مقادیر میانگینها، همان Ui ها هستند که میانگین آنها صفر است. با توجه به قضیه حد مرکزی انتظار میرود که خطاهای مدل دارای توزیع نرمال باشد.طبق قضیه حد مرکزی، اگر اندازه نمونه به قدر کافی بزرگ باشد(حداقل 30 تحلیل رگرسیون و ضریب همبستگی مورد)، انتظار میرود که تخمین زننده دارای توزیع نرمال(البته به صورت تقریبی) در نمونه ها باشد. در این پژوهش به دلیل بالا بودن اندازه نمونه و تعداد داده ها نیازی به بررسی این فرض نمی باشد.
3-13- آزمون خود همبستگی
خود همبستگی زمانی رخ میدهد که خطاها با هم رابطه داشته باشند. به بیان دیگر جزء اخلال مربوط به یک مشاهده تحت تأثیر جزء اخلال یک مشاهده دیگر قرار دارد. اغلب در داده های مقطعی انتظار میرود که متغیر مستقل یک مشاهده فقط بر متغیر وابسته همان مشاهده تأثیر گذارد و با مشاهدات دیگر ارتباطی نداشته باشد .
برای تشخیص خود همبستگی از آماره دوربین– واتسون استفاده میشود که طبق فرمول زیر محاسبه میگردد.
=2(1-p)
جمله خطا در زمان t، : جمله خطا در زمان t-1 است.
چنانچه این آماره با توجه به سطح اطمینان 95% ، نزدیک به عدد2 باشد، خود همبستگی وجود ندارد .
3-14- رگرسیون خطی چندگانه
آمار استنباطی مجموعهای از تکنیکهای آماری است که به کمک آن می‌توان روند گذشته را به آینده تعمیم داد. اساس تکنیکهای تعمیم روند گذشته به آینده فنون تحلیل رگرسیون میباشد. براساس این دسته از فنون آماری، میتوان با بررسی ارتباط بین حداقل دو متغیر مانند x و y بر اساس داده های گذشته، به گونهای بین x و y ارتباط برقرار کرد که رابطه آن‌ها به صورت یک معادله ریاضی تعریف شود. اگر دو یا چند متغیر تأثیری عمده روی متغیری وابسته داشته باشند، از رگرسیون خطی چندگانه استفاده میشود. در رگرسیون خطی چند متغیره معادله زیر معرف جامعه است که فضایی سه بعدی دارد:
که در این معادله y متغیر وابسته، x متغیر مستقل به ترتیب مقادیر ثابت شیب خط رگرسیون و اثر سایر عوامل تحلیل رگرسیون و ضریب همبستگی بر معادله می‌باشند.
3-15- آزمون های مناسب مدل و بررسی رابطه متغیر ها
فرضیه تحقیق و مدلهای استفاده شده، به واسطه نتایج حاصل از اقتصاد سنجی و رگرسیون چند متغیره از 5 جنبه مورد بررسی قرار گرفتهاند و با تجزیه و تحلیل آن‌ها، نسبت به تأثیر یا رد فرضیه اقدام شده است.
3-15-1- آزمون معنیدار بودن مدل مربوط به فرضیه‌ها
جهت بررسی معنیدار بودن مدلهای رگرسیون استفاده شده در تحقیق، آزمون تمامی ضرایب آن‌ها که دلالت بر معنیدار بودن روابط بین متغیرهای مستقل و متغیر وابسته است از آماره F استفاده شده است. با مقایسه آماره F که طبق فرمول زیر بدست میآید و F جدول که با درجات آزادی K-1 و n-K در سطح خطای 5% محاسبه شده، مدل فرضیه مورد بررسی قرار گرفته است.

از آنجائیکه در این تحقیق برای آزمون آماری، فرضیه به عنوان فرض جایگزین () در نظر گرفته شده است، زمانی فرضیه تأیید میشود که F محاسبه شده از F جدول بزرگتر باشد.
3-15-2- آزمون معنی‌دار بودن متغیر مستقل
برای بررسی معنیدار بودن ضرایب متغیرهای مستقل در هر مدل از آماره t استفاده شده است. برای محاسبه این آماره از فرمول زیر استفاده می شود.

: ضریب تخمینی، : انحراف معیار ضریب تخمینی،
: مجذور اختلاف بین مشاهدات واقعی و برآوردی، n: مقدار مشاهدات، k: تعداد پارامترها.
آماره t بدست آمده با t جدول که با درجه آزادی n-K در سطح اطمینان90%، 95% و 99% محاسبه شده مقایسه میشود، چنانچه قدر مطلق t محاسبه شده از t جدول بزرگتر باشد، ضریب مورد نظر معنیدار خواهد بود که دلالت بر وجود ارتباط بین متغیر مستقل و وابسته است.
3-15-3- آزمون F
این آزمون تعمیم یافته آزمون t است و برای ارزیابی یکسان بودن یا یکسان نبودن دو جامعه و یا چند جامعه به کار برده می‌شود. در این آزمون واریانس کل جامعه به عوامل اولیه آن تجزیه می‌شود. به همین دلیل به آن آزمون آنالیز واریانس (ANOVA) نیز می‌گویند.
وقتی بخواهیم بجای دو جامعه، همقوارگی چند جامعه را تواما با هم مقایسه نماییم از این آزمون استفاده می‌شود، چون مقایسه میانگین های چند جامعه با آزمون T بسیار مشکل است.

>مقایسه میانگین ها و همقوارگی چند جامعه بوسیله این آزمون ( Fیا ANOVA) راحت تر از آزمون t امکانپذیر است. (مومنی، 1386).
3-15-4- آزمون t
این آزمون برای ارزیابی میزان همقوارگی یا یکسان بودن و نبودن میانگین نمونه ای با میانگین جامعه در حالتی به کار می رود که انحراف معیار جامعه مجهول باشد.
چون توزیع t در مورد نمونه های کوچک بااستفاده ازدرجات آزادی تعدیل می‌شود، می‌توان ازاین آزمون برای نمونه های بسیار کوچک استفاده نمود. همچنین این آزمون مواقعی که خطای استانداردجامعه نامعلوم وخطای استاندارد نمونه (s)معلوم باشد، کاربرد دارد.(مومنی، آذر 1383).
که در آن خطای استاندارد توزیع نمونه ای

برای دانلود متن کامل پایان نامه ، مقاله ، تحقیق ، پروژه ، پروپوزال ،سمینار مقطع کارشناسی ، ارشد و دکتری در موضوعات مختلف با فرمت ورد می توانید به سایت 77u.ir مراجعه نمایید
رشته مدیریت همه موضوعات و گرایش ها : صنعتی ، دولتی ، MBA ، مالی ، بازاریابی (تبلیغات – برند – مصرف کننده -مشتری ،نظام کیفیت فراگیر ، بازرگانی بین الملل ، صادرات و واردات ، اجرایی ، کارآفرینی ، بیمه ، تحول ، فناوری اطلاعات ، مدیریت دانش ،استراتژیک ، سیستم های اطلاعاتی ، مدیریت منابع انسانی و افزایش بهره وری کارکنان سازمان

در این سایت مجموعه بسیار بزرگی از مقالات و پایان نامه ها با منابع و ماخذ کامل درج شده که قسمتی از آنها به صورت رایگان و بقیه برای فروش و دانلود درج شده اند

و = میانگین برآورد شده نمونه ای ، میانگین جامعه ، تعداد نمونه
برای به کاربردن این آزمون، متغیر مورد مطالعه باید در مقیاس فاصله ای باشد، شکل توزیع آن نرمال و باشد. آزمونt در حالتهای زیر کاربرد دارد:
– مقایسه یک عدد فرضی با میانگین جامعه نمونه
– مقایسه میانگین دو جامعه
– مقایسه یک نسبت فرضی با یک نسبتی که از نمونه بدست آمده
– مقایسه دو نسبت از دو جامعه
3-15-5- آزمون دوربین – واتسن
یکی از مفروضاتی که در رگرسیون مد نظر قرار می گیرد، استقلال باقی مانده ها (تفاوت بین مقادیر واقعی و مقادیر پیش بینی شده توسط معادله رگرسیون ) از یکدیگر است . در صورتی که فرضیه استقلال باقی مانده ها رد شود و باقی مانده ها با یکدیگر همبستگی داشته باشند امکان استفاده از رگرسیون ندارد. به منظور بررسی استقلال باقی مانده ها از یکدیگر از آزمون دوربین – واتسن استفاده می شود که آماره آن به کمک رابطه زیر محاسبه می گردد در این رابطه میزان باقی مانده ها در دوره زمانی t و میزان باقی مانده ها در دوره زمانی قبل t است .

اگر همبستگی بین باقی مانده ها را با ρ نشان دهیم در این صورت آماره دوربین –واتسن به صورت زیرمحاسبه می شود:

مقدار آماره این آزمون در دامنه 0 تا 4+ قرار دارد زیرا :
اگر ρ =0 آن گاه DW = 2 خواهد بود که نشان می دهد باقی مانده ها از یکدیگر مستقل هستند.
اگر ρ = 1 آن گاه DW =0 خواهد بود که نشان می دهد باقی مانده ها دارای خود همبستگی مثبت هستند.
اگر ρ = -1 آن گاه DW =4 خواهد بود که نشان می دهد باقی مانده ها دارای خود همبستگی منفی هستند.
چنانچه این آماره در بازه 1.5 تا 2.5 قرار گیرد فرض صفر آزمون (عدم همبستگی بین باقی مانده ها) پذیرفته می شود و در غیر این صورت فرض صفر رد می شود (همبستگی بین باقی مانده ها). (مومنی،1386).
3-15-6- آزمون کلوموگروف اسمیرنوف
با بهره گرفتن از آزمون کلوموگروف اسمرینوف نرمال بودن متغیرهای تحقیق مورد بررسی و از این آزمون جهت بررسی ادعای مطرح شده در مورد توزیع داده های یک متغیر کمی مورد استفاده قرار می گیرد. از مزایای این آزمون این است که هر یک از مشاهدات را به صورت اصلی در نظر می گیرد و در مواردی که تعداد مشاهدات کوچک است به دلیل دقیق بودن اعمال شدنی است و از سادگی و سهولت برخوردار است. عدم نرمال بودن متغیرهای تحقیق می‌تواند سبب عدم برقراری شرط نرمال بودن باقیمانده‌ها در رگرسیون هدف شود..اگر مقدار احتمال مربوط به این آزمون بزرگتر از 05/0 باشد با اطمینان 95% می توانیم نرمال بودن باقیمانده ها را مورد تایید قرار دهیم. (مومنی، آذر1383).
3-15-7- آماره وونگ
یکی از مناسب ترین و پرتوان ترین آزمون های آماری در مقایسه دو مدل رگرسیونی رقیب جهت تعمیم نتایج اختلاف میزان قدرت تبیین و بار اطلاعاتی همراه جهت تعمیم مدل برازش داده شده به جامعه آماری استفاده از آماره وونگ است. یک آزمون آماری برای تعیین این که کدام یک از دو مدل، متغیر وابسته را بهتر توضیح می‌دهد، ارائه نمود. تفاوت آزمون وونگ و سایر آزمون‌های آماری در این است که در آزمون وونگ، توزیع آماره نسبت احتمال با این فرض بدست می‌آید که هیچ کدام از مدل‌ها حقیقی نیستند. به عبارت دیگر آماره وونگ بر اساس توزیع آماره نسبت احتمال و بدون در نظر‌گرفتن فرضیه صفر آماری مبنی بر حقیقی‌بودن هر یک از دو مدل، محاسبه می‌شود. این آماره اگر چه برای هر دو مدل، قدرت توضیح‌دهندگی در نظر می‌گیرد، اما از طرف دیگر نشان می‌دهد که کدام یک از این دو مدل به فرآیند واقعی ایجاد داده‌ها نزدیک‌تر است. در بسیاری پژوهش‌ها از این آزمون به منظور سنجش معناداری یک مدل رگرسیون در مقابل مدل دیگر از طریق مقایسه دو ضریب تعیین مورد استفاده قرار می‌گیرد. این آماره دارای توزیع مجانبی نرمال بوده وکمتر بودن آن نشان‌دهنده بهتر‌بودن برازش مدل می‌باشد.بعد از برازش دو مدل داریم:

که در آن و و و به ترتیب میانگین مربعات باقی مانده‌ها در مدل و باقی مانده‌های مربوط به دو مدل می‌باشند. با توجه صفر‌بودن میانگین باقی‌مانده‌ها با تقسیم بر انحراف معیار باقی‌مانده‌های استاندارد ایجاد می‌گردد . از طرفی همان‌طور که واضح است تفاوت توان دوم مقادیر استاندارد شده باقی‌مانده‌ها باعث بزرگ شدن مقادیر K می‌شود که نشان‌دهنده تفاوت در قدرت تبیین و بار اطلاعاتی دو مدل می‌باشد. اما آیا می‌توان پذیرفت که مقادیر K مخالف صفر هستند.

فصل چهارم
تجزیه و تحلیل داده ها
4-1- مقدمه
تجزیه و تحلیل داده ها به عنوان یکی از مراحل اصلی روش تحقیق علمی شناخته می شود. پس از تدوین مبانی نظری و روش تحقیق، لازم است که فرضیه های تحقیق آزمون شود. از طرفی، آزمون تجربی فرضیه ها متکی بر اطلاعات و داده هایی است که به روش علمی جمع آوری شده اند. برای یافتن پاسخ علمی این فرضیه ها، باید اطلاعات و داده های خام جمع آوری شده را با بهره گرفتن از یک مدل مناسب مورد تجزیه و تحلیل دقیق قرار داد. تبیین داده های خام بدون تحلیل آنها امری دشوار یا ناممکن است. نخست باید داده ها را تجزیه و تحلیل کرد و سپس نتایج این تجزیه و تحلیل را مورد تفسیر قرار داد. بنابراین مقصود اصلی از تحلیل عبارت است از تنظیم و خلاصه کردن داده ها به صورت اطلاعاتی روشن، خوانا، مستدل و تفسیر پذ
یر به گونه ای که بتوان روابط موجود در مسائل پژوهشی را کشف، بررسی و آزمون کرد. تجزیه و تحلیل یعنی دسته بندی، مرتب کردن و خلاصه کردن اطلاعات که باید قبل از اجرای پژوهش برنامه ریزی شده باشد و الگو یا مدل های تجزیه و تحلیل نیز تهیه و طرح ریزی گردند. در این فصل داده های گردآوری شده تحقیق در دو بخش توصیفی و استنباطی، تجزیه و تحلیل شده تا شواهدی برای قبول یا رد فرضیه های تحقیق فراهم شود. فرضیه های پژوهش با بهره گرفتن از ضریب همبستگی پیرسون و رگرسیون خطی چند متغیره آزمون می شوند و برای تجزیه و تحلیل داده های تحقیق از نرم افزار آماری spss21 استفاده می گردد. همچنین لازم به ذکر است که داده های جمع آوری شده بر مبنای روش تحقیق، تجزیه و تحلیل می شوند.
4-2-آزمون نرمال بودن متغیرها
جدول 4-1 نتایج آزمون کلموگروف اسمیرنف

ماکیاولی گری
رفاه فردی
قضاوت تخصصی
قضاوت عمومی
قضاوت حرفه ای
تعداد
90
90
90
90
90
آماره Z
763.
994.
900.
862.
765.
سطح معناداریsig
625.
276.
392.
447.
601.
با بهره گرفتن از آزمون کلموگروف اسمیرنف برای همه متغیر ها با توجه به سطح معناداری که بزرگتر از 0.05 می باشد پس در سطح اطمینان 95% فرض نرمال بودن آنها رد نشده است، بنابراین همه متغیر ها نرمال می باشند.
4-3-آمار توصیفی
در این بخش از تجزیه و تحلیل آماری به بررسی چگونگی توزیع نمونه‌های آماری از حیث متغیرهایی چون جنسیت،وضعیت تاهل، سمت شغلی و تحصیلات پرداخته می‌شود. همچنین جداول و نمودار های مربوطه در پیوست ارائه شده است.
جدول 4-2 مشخصات جمعیت دموگرافیک
متغیر
گروه
فراوانی

درصد
جنسیت
مرد
64
1/71
زن
26
9/28
وضعیت تاهل
متاهل
68
6/75
مجرد
22
4/24
تحصیلات
کاردانی
12
3/13
کارشناسی
60
7/66
کارشناسی ارشد
13
4/14
دکتری
5
6/5
سمت شغلی
سرپرست
7
8/7
حسابرس ارشد
10
1/11
حسابرس
54
60
کمک حسابرس
19
1/21
با توجه به جدول فوق از 90 نفر افراد نمونه که جواب داده اند 64 نفر مرد،26 نفر زن بوده که نشان میدهد 71 درصد مرد و 29 درصد زن بوده و 76 درصد متاهل می باشند. از نظر سمت شغلی 9 درصد سرپرست ، 11 درصد حسابرس ارشد ، 60 درصد حسابرس و 21 درصد کمک حسابرس هستند. همچنین 67 درصد دارای مدرک کارشناسی،14 درصد مدرک کارشناسی ارشد، 13 درصد کاردانی و 6 درصد مدرک دکتری را شامل می شود.
4-4- مقایسه متغیر های پژوهش با حد وسط مقیاس اندازه گیری
آزمون t یک نمونه برای مقایسه میانگین مشاهده شده متغیرهای پژوهش با میانگین نظری مقیاس اندازه‌گیری نشان داده است که با توجه به سطح معناداری کوچکتر از 0.05 ، میانگین متغیر ویژگی ماکیاولی‌گری به ‌صورت معنادار متفاوت از میانگین نظری است و با توجه به میانگین متغیر ویژگی ماکیاولی‌گری که کمتر از 3 می باشد بنابراین میانگین متغیر ویژگی

رگرسیون خطی چند متغییره در شبیه سازی بارش رواناب

اگر از این مقاله خوشت اومد، کلیک کن

مدل های داده محور در هیدرولوژی کاربرد زیادی دارند و یکی از آن ها مدل رگرسیون خطی چند متغییره است. در این نوشته به معرفی این روش پرداخته شده است و در آخر یک مدل بارش رواناب با استفاده از رگرسیون خطی چند متغییره ایجاد شده است.

با استفاده از رگرسیون خطی چند متغیره می‌توان رابطه خطی بین مجموعه‌ای از متغیرهای مستقل با یک متغیر وابسته را به شیوه‌ای بررسی کرد که در آن، روابط موجود فی مابین متغیرهای مستقل نیز مورد ملاحظه قرار گیرد و وظیفه رگرسیون این است که به تبیین واریانس متغیر وابسته کمک کند و این وظیفه تا حدودی از طریق برآورد مشارکت متغیرها در این واریانس به انجام می‌رسند. تحلیل رگرسیون چند متغیره برای مطالعه تأثیرات چند متغیر مستقل در متغیر تحلیل رگرسیون و ضریب همبستگی تحلیل رگرسیون و ضریب همبستگی وابسته کاملاً مناسب است.

در رگرسیون چند متغیره، مقادیر یک متغیر(متغیر وابسته یا y) از روی مقادیر دو یا چند متغیر دیگر (متغیرهای مستقل x1, x2, …,xk) برآورد می‌شود. این کار از طریق ساختن یک معادله خطی به شکل زیر انجام می‌شود.

f(y)=ax0+bx1+…+zxn

مفروضات رگرسیون خطی چند متغییره

جهت استفاده از رگرسیون خطی باید شرایط زیر ایجاد گردد

میانگین (امید ریاضی) خطاها صفر باشد

واریانس خطاها ثابت باشد

بین خطاهای مدل، همبستگی وجود نداشته باشد. به منظور بررسی این شرط از آزمون دوربین-واتسون استفاده می‌شود

متغیر وابسته مقیاس فاصله‌ای یا نسبی و دارای توزیع نرمال باشد

رگرسیون خطی در نرم افزار SPSS

برای ورود متغیرهای رگرسیونی به مدل، چهار روش اصلی وجود دارد که در ادامه توضیح داده می شود.

روش همزمان (Enter Method)

در این روش کلیه متغیرهای مستقل بطور همزمان وارد مدل می شوند تا تأثیر کلیه متغیرهای مهم و غیر مهم بر متغیر وابسته مشخص گردد. در این روش تمام متغیرها در یک مرحله به ترتیب حداقل تولرانس وارد تحلیل می شوند. یکی از مشکلات روش همزمان این است که چون تمامی متغیرها بدون توجه به ضریب همبستگی شان با متغیر وابسته وارد معادله می شوند بنابراین احتمالاً متغیرهایی هم که حضورشان در معادله معنی دار نیست، در آن باقی می مانند که در اثر حضور نابجا، مقادیر F و R2 کاهش می یابد.

روش حذف پس رو (Backward Method)

در این روش همانند روش Enter ابتدا کلیه متغیرهای مستقل وارد معادله شده و اثر کلیه متغیرها روی متغیر وابسته سنجیده می شود. اما بر خلاف روش Enter، در این روش به مرور متغیرهای ضعیف تر و کم اثرتر یکی پس از دیگری از معادله خارج شده و در نهایت این مراحل تا زمانی ادامه می یابد که خطای آزمون معنی داری به ده درصد برسد.

روش پیش رونده (Froward Method)

ابتدا همبستگی ساده بین هر یک از متغیرهای مستقل را با متغیر وابسته محاسبه می شود. سپس متغیر مستقلی که بیشترین همبستگی را با متغیر وابسته دارد و به عبارتی بیشترین مقدار واریانس را تبیین می کند، وارد تحلیل می کند. دومین متغیری که وارد تحلیل می شود، متغیری است که پس از تفکیک متغیر اول، بیشترین ضریب همبستگی را با متغیر وابسته دارد.

روش گام به گام (Stepwise Method)

در این روش، مانند روش Foreward متغیرها یک به یک وارد مدل می شوند. یعنی ابتدا متغیری که بیشترین همبستگی را با متغیر وابسته دارد انتخاب می شود. دومین متغیری که وارد تحلیل می شود متغیری است متغیری است که پس از تفکیک متغیر مقدم بر آن موجب بیشترین افزایش در مقدار ضریب R2 می شود. فرق اصل این روش با روش Forward در آن است که در روش Forward متغیرهای وارد شده در تحلیل در معادله باقی می مانند ولی در روش Stepwise با ورود متغیر جدید، متغیرهایی که قبلاً وارد معادله شده اند از نو آزموده می شوند تا مشخص گردد آیا هنوز هم حضور آن ها در مدل به موفقیت آن کمک می کند یا خیر؟ بنابراین احتمال دارد برخی از متغیرهایی که در مرحله اول قدرت تبیین بالایی داشته اند در مرحله بعدی حذف شوند.

مدل رگرسیون خطی

در این جا با استفاده از روش Enter و با استفاده از داده های بارش و رواناب مدل رگرسیونی خطی چند متغییره بارش رواناب با استفاده از دبی های روز قبل، دو روز قبل، و بارش های این روز ها یک مدل رگرسیون خطی ساخته شده است.

در تصویرر زیر محل قرار گیر مدل رگرسیون خطی چند متغییره آمده است.

رگرسیون خطی چند متغییره در SPSS

رگرسیون خطی چند متغییره در SPSS

در شکل زیر متغییر وابسته و متغییرهای مستقل را به SPSS معرفی می کنیم. در این جا دبی امروز متغییر وابسته و داده های بارش و رواناب روزهای قبل متغییر مستقل هستند.

معرفی متغییرهای مستقل و وابسته و متد ساخت

معرفی متغییرهای مستقل تحلیل رگرسیون و ضریب همبستگی و وابسته و متد ساخت

نتیجه مدل در جدول زیر آمده است.

نتایج مدل

نتایج مدل

رگرسیون خطی چیست؟

رگرسیون خطی

در آمار، رگرسیون خطی یک روریکرد مدل خطی بین متغیر پاسخ (Response) با یک یا چند متغیر توصیفی (Explanatory) است.

اغلب برای کشف مدل رابطه‌ی خطی بین متغیرها از رگرسیون (Regression) استفاده می‌شود.

در این حالت فرض بر این است که یک یا چند متغیر توصیفی که مقدار آن‌ها مستقل از بقیه متغیرها یا تحت کنترل محقق است، می‌تواند در پیش‌بینی متغیر پاسخ که مقدارش وابسته به متغیرهای توصیفی و تحت کنترل محقق نیست، موثر باشد.

هدف از انجام تحلیل رگرسیون شناسایی مدل خطی این رابطه‌ است.

ضریب همبستگی رگرسیون خطی چیست؟

برای سنجش شدت رابطه بین متغیر وابسته و مستقل می‌توان از ضریب همبستگی استفاده کرد.

هر چه ضریب همبستگی به ۱ یا ۱- نزدیکتر باشد،‌ شدت رابطه خطی بین متغیرهای مستقل و وابسته شدیدتر است.

البته اگر ضریب همبستگی نزدیک به ۱ باشد جهت تغییرات هر دو متغیر یکسان است که به آن رابطه مستقیم می‌گوییم و اگر ضریب همبستگی به ۱- نزدیک باشد، جهت تغییرات متغیرها معکوس یکدیگر خواهد بود و به آن رابطه عکس می‌گوییم.

ولی در هر دو حالت امکان پیش‌بینی مقدار متغیر وابسته برحسب متغیر مستقل وجود دارد.

هرچند ضریب همبستگی راهی برای نشان دادن رابطه بین دو متغیر مستقل و وابسته است ولی مدل رابطه بین این دو متغیر را نشان نمی‌دهد.

با رگرسیون می‌توان قانونی که بین داده‌ها وجود دارد را کشف و به کار بست.

بسیاری از رابطه‌های فیزیک یا شیمی به کمک رگرسیون بدست آمده است.

برای مثال مقدار ثابت گازها در فیزیک کلاسیک از طریق رگرسیون قابل محاسبه است.

نمایش رابطه‌ی خطی بین دو متغیر مستقل و وابسته معمولا توسط «نمودار نقطه‌ای» (Scatter Plot) انجام می‌شود.

رگرسیون خطی

رابطه مستقیم بین متغییر وابسته با خط رگریسون

با توجه به تصویر بالا مشخص است که محور افقی مقدارهای متغیر مستقل و محور عمودی مقدارهای متغیر وابسته را نشان می‌دهد و رابطه‌ی بین دو متغیر مستقیم است.

ولی در تصویر زیر رابطه شدید ولی در جهت عکس بین دو متغیر مستفل و وابسته دیده می‌شود.

رگرسیون گام به گام درSPSS – آموزش ساده

یک مجله می خواهد رضایت مشتریان را بهبود بخشد. آنها برخی از خوانندگان را در مورد 1 رضایت کلی و همچنین 2 رضایت از برخی جنبه های کیفی بررسی کردند. سوال اصلی آنها این است که “کدام جنبه ها بیشترین تأثیر را در رضایت مشتری دارند؟” ما سعی خواهیم کرد با تحلیل رگرسیون به این سوال پاسخ دهیم. رضایت کلی، متغیر وابسته(یا معیار) ما است و جنبه های کیفیت متغیرهای مستقل (یا پیش بینی کننده ها) ما هستند. این داده ها از magazine_reg.sav قابل بارگیری است که در آموزش قبلی در آماده سازی داده ها برای رگرسیون در SPSS بررسی و آماده شده اند.

تنظیمات اولیه

داده های ما شامل یک متغیر FILTER است که با دستور زیر آن را روشن خواهیم کرد. و همچنین می خواهیم هم نام متغیرها و هم برچسب ها را در خروجی خود ببینیم بنابراین آن را نیز تنظیم خواهیم کرد.

*1. Switch filter variable on.

filter by filt1.

*2. Show variable names and labels in output.

set tvars both.

واردکردن رگرسیون در spss

ابتدا رگرسیون خطی پیش فرض را بر روی داده های خود اجرا می کنیم. همانطور که در تصاویر زیر نشان داده شده است.

بیایید اکنون گفتگو و زیر دیالوگ ها را مانند تصویر زیر پر کنید.

توجه داشته باشید که معمولاً در شماره 6 در تصویر فوق، حذف موارد به صورت دو به دو را انتخاب می کنیم زیرا در محاسبه همبستگی هایی که رگرسیون ما بر اساس آنها ساخته شده است، از بیشتر موارد استفاده می شود. با کلیک روی Paste، دستور زیر حاصل می شود. بلافاصله آن را اجرا خواهیم کرد.

دستور واردکردن رگرسیون در spss

*Basic regression syntax. Note that “method=enter” in last line.

REGRESSION
/MISSING PAIRWISE
/STATISTICS COEFF CI(99) OUTS R ANOVA COLLIN TOL
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT satov
/METHOD=ENTER sat1 sat2 sat3 sat4 sat5 sat6 sat7 sat8 sat9.

خروجی واردکردن رگرسیون در spss

در خروجی، ابتدا جدول ضرایب خود را همانطور که در زیر نشان داده شده است، بررسی و تفسیر می کنیم.

بعضی چیزها در اینجا به طرز وحشتناکی اشتباه پیش می روند:

1 ضریب (B) 0.075- نشان می دهد که پایین بودن متغییر “قابلیت اعتماد به اطلاعات” با رضایت بالاتر همراه است! با این حال، این متغیرها همبستگی مثبتی دارند (0.28 = r و 0.000=p-value است)

2- خوشبختانه این ضریب عجیب b از نظر آماری معنادار نیست: 0.063 احتمال داشت که در حالی که در جامعه این ضریب صفر باشد ما ضریب نزدیک به معنی داری در نمونه پیدا کنیم. این برای برخی دیگر از پیش بینی کننده ها نیز صدق می کند. این تحلیل رگرسیون و ضریب همبستگی مشکل به عنوان همخطی شناخته می شود: ما متغیرهای پیش بینی کننده زیادی که خیلی باهم مرتبط اند را وارد مدل رگرسیون خود کردیم. مربع r در اینجا 9 متغیر پیش بینی کننده را دارای مشکل نشان م ی دهد. بنابراین، تاثیر منحصر به فرد برخی از متغیرها آنقدر کم می شود که دیگر نمی توان تفاوت آنها را از صفر تشخیص داد.

3 فواصل اطمینان این را تأیید می کند: برای سه ضرایب b صفر را شامل می شود.

4 یک قانون کلی این است که تحمل 0.01 نشانگر چند خطی بودن است. در این مورد، تحمل آماری به طور چشم گیری شکست می خورد، در تشخیص چند خطی بودن که به وضوح وجود دارد. تجربه ما این است که معمولاً همینطور است.

حل چند خطی بودن با رگرسیون گام به گام

روشی که تقریباً همیشه چند خطی را برطرف می کند، رگرسیون گام به گام است. ما مشخص می کنیم که می خواهیم کدام یک از پیش بینی کننده ها را شامل شوند. سپس SPSS بررسی می کند که کدام یک از این پیش بینی ها واقعاً در پیش بینی متغیر وابسته ما نقش دارند و مواردی را که این کار را نمی کنند، مستثنی می کند. به همین ترتیب، ما معمولاً با پیش بینی کننده های کمتری نسبت به آنچه مشخص می کنیم، درنهایت به نتیجه می رسیم. با این حال، آنهایی که باقی می مانند دارای ضرایب b ثابت و قابل توجهی در جهت مورد انتظار هستند: نمرات بالاتر کیفیت با نمرات بالاتر رضایت همراه است. خب بیاید انجامش بدیم.

دستور رگرسیون گام به گام درSPSS

دستور قبلی خود را کپی پیست کرده و METHOD = STEPWISE را در سطر آخر قرار می دهیم. به همین ترتیب، در انتها به دستور زیر می رسیم. آن را اجرا خواهیم کرد و نتایج اصلی را توضیح خواهیم داد.

*Basic stepwise regression.

REGRESSION
/MISSING PAIRWISE
/STATISTICS COEFF OUTS CI(99) R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT satov
/METHOD=stepwise sat1 sat2 sat3 sat4 sat5 sat6 sat7 sat8 sat9.



اشتراک گذاری

دیدگاه شما

اولین دیدگاه را شما ارسال نمایید.