سلام خدمت دوستان عزیز.
چند تا مفهوم مهم آماری رو می خوام به شکل ساده برای دوستان عزیزم بیان کنم. امیداوارم مفید باشه. این مفاهیم در نقشه ها زیاد دیده می شن.
1- کواریانس Covariance
کواریانس، معیاری هست که وجود یا عدم وجود و نیز نوع هبستگی خطی بین دو متغیر تصادفی رو مشخص می کنه. کواریانس دو متغییر تصادفی X و Y با نماد Cov(X,Y) نشون داده می شه.
تفسیر:
Cov(X,Y)>0 به این معنی هست که بین دو متغیر همبستگی خطی مثبت وجود داره.
Cov(X,Y)<0 به این معنی هست که بین دو متغیر همبستگی خطی منفی وجود داره.
Cov(X,Y)=0 به این معنی هست که بین دو متغیر همبستگی خطی منفی وجود نداره.
2- ضریب هبستگی Correlation
کواریانس وجود یا عدم وجود و نوع هبستگی خطی بین دو متغیر رو مشخص می کنه ولی شدت همبستگی رو معلوم نمی کنه. برای تعیین شدت همبستگی بین دو متغیر از معیار دیگه ای استفاده میشه به اسم ضریب همبستگی که با نماد r نشون داده میشه.
ضریب هبستگی مثبت بیانگر این است که دو متغیر در یک جهت و پا به پای همدیگه تغییر می کنن. یعنی افزایش یکی با افزایش دیگری و بر عکس کاهش یکی با کاهش دیگری همراه هست. وقتی ضریب همبستگی مثبت باشه خط رگرسیون شیب مثبت داره.
همبستگی منفی بیانگر این هست که دو متغیر در جهت عکس همدیگه تغییر می کنن. وقتی یکی افزایش پیدا میکنه متغیر دیگه کاهش پیدا میکنه و بر عکس.
ضریب هبستگی صفر بیانگر این هست که تغییرات دو متغیر با روش قابل پیش بینی به هم مرتبط نیستند.
مهم:
رابطه همبستگی در برابر رابطه علیت
یک ضریب همبستگی بالا بین دو متغیر الزاما به این معنی نیست که یکی از دو متغیر علت متغیر دیگه هست. چون احتمال داره که متغیر سومی دلیل تغییرات هر دوی اون متغیرها بوده باشه.
مثلا فرض کنید بررسی ما نشون داده باشه که بین مقدار برگ یک درخت و تعداد پرنده هایی که روی اون درخت میشینن، ضریب همبستگی مثبت وجود داره. اما وجود این همبستگی مثبت اصلا به این معنی نیست که مثلا بگیم "ریختن برگ درخت باعث میشه که پرنده ها از اون درخت دور بشن" یا مثلا "پراوز پرنده ها و بال و پر زدشون باعث میشه که برگ درخت بریزه". در واقع تغییر تعداد برگ های درخت علت تغییر تعداد پرنده ها یا تغییر تعداد پرنده های روی درخت علت تغییر برگ های درخت نیست و در عمل متغیر سومی که تغییر فصل هست علت تغییر هر دو تای اون هاست. یعنی اومدن فصل پاییز هم باعث ریختن برگ درخت و هم کم شدن تعداد پرنده ها بوده.
بنابراین ضریب همبستگی رو فقط بر اساس ارتباط همبستگی و برای پیش بینی میشه تفسیر کرد نه به عنوان یک رابطه علت و معلولی.
ارتباط قوی بین دو متغیر اما ضریب همبستگی پایین یا کوچک
در دو حالت زیر ضریب همبستگی کوچک بین دو متغیر X و Y به این معنی نیست که این دو متغیر ارتباط قوی با همدیگه ندارند:
الف: غیر خطی بودن ارتباط بین دو متغیر (Nonlinearity). برای حل این مشکل از تکنیک های همبستگی غیر خطی استفاده میشه.
ب: ناقص بودن دامنه ی نمونه. یعنی داد های ما اندک بوده یا تمام دامنه تغییرات دو متغیر رو شامل نشده.
3. رگرسیون Regression
تحلیل رگرسیون وقتی پیش میاد که فقط تبعیت یک متغیر از متغیر یا متغیرهای دیگر مورد بررسی هست.
دو موضوع رو در رگرسیون خطی مورد بررسی قرار می دیم:
1- رسم خطی که به بهترین شکل داده ها را برازش (پوشش) می کنه و خط رگرسیون نامیده میشه.
2- به دست آوردن معادله خط رگرسیون و پیش بینی اندازه یک متغیر با در اختیار داشتن اندازه ی متغیر دیگه ای که همبسته اون (متغیر اول) هست.
باید توجه داشت که در خیلی از بررسی های آماری به جای یک متغیر با دو متغیر سر و کار داریم و مطالعه ی رفتار مشترک این دو متغیر مورد نظر ما هست. مثلا فرض کنید می خواهیم بررسی کنیم که بین ساعات مطالعه ی دانشجوها و نمره ای که در امتحان میگیرن چه رابطه ای وجود داره، بین اندازه قد پدر و قد فرزندان پسر چی؟ یا مثلا بین آبیاری یک باغ و رشد درختان. در هواشناسی مثلا می خواهیم بررسی کنیم که بین شاخص NAO و مقادیر بارش چه رابطه ای وجود داره. و از این جور.
با پیدا کردن و شناختن این رابطه ی احتمالی، میشه یکی از دو متغیر رو کنترل یا پیش بینی کرد.
اگه بین دو متغیر X و Y همبستگی معنی داری وجود داشته باشه، مقدار هر کدوم از این دو متغیر رو میشه بر حسب متغیر دیگه پیش بینی کرد. تکنیکی که به کار گرفته میشه تحلیل رگرسیون نامیده میشه. اغلب پیش بینی بر این فرض استوار هستند که ارتباط بین دو متغیر از نوع خطی هستند. که این سادترین نوع رگرسیون هست و به اون می گن رگرسیون خطی دو متغیره.
مثالی از رگرسیون دو متغیره خطی
برای توضیح این مفهوم، فرض کنید داده های زیر از تعداد ساعات مطالعه 10 دانشجو برای گذراندن یک آزمون جمع آوری شده باشه (نمره آزمون از 100 هست):
حالا این داده ها رو به صورت نقاطی در محورهای مختصات مشخص می کنیم. به همچین نموداری می گن نمودار پراکنش:
هدف ما این هست که معادله خطی رو پیدا کنیم که از بیشتر این نقاط گذشته و حداقل فاصله رو از نقاطی که از اون ها نمی گذره داشته باشه. در واقع می خواهیم خطی رسم کنیم که در مقایسه با هر خطی دیگه ای در مجموع کمترین فاصله رو از تمامی نقاط پراکنش داشته باشه. به این خط می گن خط بهترین برازش یا خط رگرسیون.
فرض کنید واسه این نمودار پراکنش، خط نقطه چین قرمز، خط رگرسیون باشه:
حالا فایده ی این خط رگرسیون چیه؟
خط رگرسیون ما رو قادر به پیش بینی ویژگی های تمام اون چیزهایی که در نمونه ما وجود نداره، میکنه.
توی مثال ما توضیح این مطلب به این صورت میشه: جدول قبلی 10 نمونه از اطلاعات مربوط به ساعات مطالعه و نمره امتحانی رو داشت. خوب حالا که ما خط رگرسیون رو داریم، فرض کنید از ما سوال بشه که پیش بینی ما از نمره امتحانی دانشجویانی که 15 ساعت و یا حدود 24 ساعت مطالعه داشتن چیه؟ همون طور که می بینید از روی جدول بالایی نمی شه نمره احتمالی این دانشجوها رو اعلام کرد. اما با توجه به اینکه ما خط رگرسیون رو داریم کافیه روی محور X ها مقادیر 24 و 15 رو پیدا کنیم و بعدش از اونجا به خط رگرسیون وصل کنیم و بعد هم یه عمود رسم کنیم روی محور Y ها تا ببینیم نمره دانشجو بر اساس این تحلیل چه عددی پیش بینی میشه. بر این اساس همون طور که توی شکل زیر مشاهده می کنین، پیش بینی ما این هست که دانشجویی که 15 ساعت مطالعه کرده نمره 70 بگیره (دایره سبز) و دانشجویی که 24 ساعت مطالعه داشت نمره کامل یعنی 100 بگیره (دایره آبی).
خوب حالا فرض کنید بعد از امتحان می خواهیم به صورت دستی دقت پیش بینی مون رو بررسی کنیم. فرض کنید داده های واقعی نشون میدن که شش تا از دانشجویانی که حدود 24 ساعت مطالعه داشتن نمره ای در حدود 100 در امتحان گرفتن. خوب تا اینجا ما خیلی به خودمون امیدوار میشیم اما ناگهان یه دانشجو پیدا میشه که 24 ساعت و حتی بیشتر مطالعه کرده ولی نمره اش شده مثلا 10 (امتحان از 100 نمره بود)، در حالیکه بر طبق پییش بینی ما، این دانشجو باید نمره ی در حدود 100 می گرفت! در این مورد پیش بینی ما خطای زیادی داشته. اینجاست که متوجه میشیم شاید ما عامل تاثیر گذاری مثل عدم یادگیری برخی از دانشجوها رو در نظر نگرفته بودیم! پس یکی از دلایل این خطای بسیار زیاد می تونه این باشه که بین نمونه های ما در جدول بالا، چنین دانشجویانی آمار برداری نشده بودند و همین باعث شده در این مورد خط رگرسیون ما چندان دقت نداشته باشه.
هدفم از طرح این موضوع این بود که کار پیش بینی با کمترین خطا از روی همچین خط رگرسیونی به این سادگی ها هم نیست. دقت پیش بینی هم دارای تعریف آماری خودش هست و به این معنی نیست که در تمامی موارد کاملا با واقعیت های عینی مطابقت وجود داره.
اما در هر حال، همون طور که متوجه شدید پیدا کردن معادله خط رگرسیون اهمیت زیادی داره. البته باید اشاره کنم توضیحاتی که دادم در مورد رگرسیون دو متغیره خطی بود. رگرسیون های چند متغیره (بیشتر از دو متغیر) و غیر خطی هم داریم که در اون ها پیدا کردن معادله منحنی برازش داده ها خیلی پیچیده تر هست.
در مورد هر کدوم از مفاهیمی که گفتم رابطه های ریاضی زیادی واسه بدست آوردن مقادیرشون وجود داره اما من برای ساده تر شدن بحث، هیچ کدوم از اونها رو اینجا نیاوردم. اگه مطلب طولانی شد ببخشید.