رگرسیون خطی (Linear Regression) چیست؟
تمامی افراد در شاخههای مختلف سعی بر این دارند که کارهایشان به آسانترین شکل ممکن پیش برود. برای مثال، پزشکان با استفاده از هوش مصنوعی تورمورهای بدخیم و یا خوش خیم را طبقه بندی میکنند. هواشناسان برای پیش بینی آب و هوا از این تکنولوژی استفاده میکنند و اقتصاد دانان از آن برای پیش بینی قیمتی و شرایط بازار در آینده کمک میگیرند. رگرسیون خطی یکی از الگوریتمهای ابتدایی است که بیشتر علاقهمندان به یادگیری ماشین با آن شروع میکنند. چرا که رگرسیون خطی و یا (Linear Regression) یکی از مهمترین روشهای تحلیل داده در کسب و کار، است. علاوه بر این، رگرسیون خطی یکی از مهمترین الگوریتمهای یادگیری ماشین هم میباشد.
تاریخچه رگرسیون خطی
واژه رگرسیون خطی برای اولین بار در یک مقاله معروف «فرانسیس گالتون» (Sir Francis Galton) عنوان شد که به بررسی قد فرزندان و والدین میپرداخت. در این مقاله که در سال 1877 منتشر شد، به این اشاره میکند که قد فرزندان قد بلند به میانگین قد جامعه میل میکند. فرانسیس گالتون این رابطه را بازگشت و یا (Regress) نامگذاری کرد.
در ابتدا این واژه در شاخه علوم زیستی معرفی شد. اما روشی که امروزه مورد استقبال شاخههای دیگر نیز قرار گرفته، توسط «گاوس» (Gauss) در سال ۱۸۰۹ معرفی شد تا به کمک آن پارامترهای مجهول رابطه بین مدار سیارههای منظومه شمسی را بررسی کند.
سپس، روش گاوس توسط «پیرسون» (Pearson) توسعه یافت و با مفاهیم آماری تلفیق شد. همچنین پیرسون توزیع توام متغیر وابسته و مستقل را توزیع گاوسی در نظر گرفت. بعدها «فیشر» (R. A. Fisher) توزیع متغیر وابسته به شرط متغیر مستقل را توزیع گاوسی محسوب کرد.
آموزش نرم افزار متلب با بهترین هزینه
رگرسیون خطی چیست؟
به صورت کلی، رگرسیون به معنی بازگشت است. يعني پيش بينی و بيان تغييرات يک متغير بر اساس اطلاعات متغير ديگر. رابطه میان قد و وزن انسان را در نظر بگیرید. میتوان به صورت حدودی گفت که افراد قد بلند، وزن بیشتری دارند. در این حالت ارتباط میان قد و وزن با روش آماری رگرسیون خطی شکل میگیرد و به صورت کمی اطلاعاتی را در اختیار افراد قرار میدهد. این روش، کمک میکند تا پیشبینیهایی در مورد مقدار یک متغیر بر اساس متغیرهای دیگر انجام شود. حتی این روش برای برآورد قیمتی یک محصول نیز مورد استفاده قرار میگیرد تا نشان دهد که چگونه مواردی مانند وزن، ابعاد و مواد اولیه بر روی قیمت این محصول تاثیرگذار هستند. رگرسیون خطی برای بررسی رابطه علت و معلول میان متغیرها روشی کاربردی است و به بهینه سازی این دو مورد کمک میکند.
مطلب پیشنهادی: فرمول محاسبه محیط دایره
مزایای رگرسیون خطی
رگرسیون خطی، به عنوان یک روش آماری محبوب، مزایای متعددی را ارائه میدهد که آن را به ابزاری ارزشمند برای تحلیل دادهها در طیف گستردهای از زمینهها تبدیل میکند. در این قسمت به بررسی شماری از مزایای رگرسیون خطی میپردازیم.
کارایی
الگوریتمهای رگرسیون خطی از نظر محاسباتی کارآمد هستند و میتوان آنها را به سرعت روی مجموعههای دادههای بزرگ اجرا کرد. این امر آنها را برای کاربردهای عملی که نیاز به تجزیه و تحلیل سریع دادهها دارند، ایدهآل میکند.
پیشبینی
رگرسیون خطی را میتوان برای ایجاد مدلهای پیشبینی کننده برای متغیر وابسته بر اساس مقادیر متغیرهای مستقل استفاده کرد. این مدلها میتوانند برای پیشبینی نتایج آینده یا تصمیمگیری آگاهانهتر استفاده شوند.
قابل تفسیر
معادله رگرسیون خطی به وضوح نشان میدهد که چگونه هر متغیر مستقل بر متغیر وابسته تأثیر میگذارد. این تفسیر واضح بینشهای ارزشمندی در مورد روابط بین متغیرها ارائه میدهد.
سادگی
رگرسیون خطی بر اساس یک مفهوم ساده ریاضی بنا شده است که به راحتی قابل درک و تفسیر است. این امر، آن را به روشی قابل دسترس برای مبتدیان و متخصصان باتجربه تبدیل میکند.
مبنای یادگیری ماشین
رگرسیون خطی مبنای بسیاری از الگوریتمهای یادگیری ماشین پیچیدهتر است. درک رگرسیون خطی برای یادگیری و استفاده از این الگوریتمهای پیشرفته ضروری است.
مطلب پیشنهادی: فرمول و محاسبه مساحت دایره
معایب رگرسیون خطی
رگرسیون خطی یک ابزار قدرتمند برای مدلسازی روابط بین متغیرها است، اما در عین حال، معایبی هم دارد که باید قبل از استفاده از آن در نظر گرفته شود.
فرضیه خطی بودن
رگرسیون خطی فرض میکند که رابطه بین متغیر وابسته و مستقل خطی است. به عبارت دیگر، فرض میکند که با افزایش واحد در متغیر مستقل، متغیر وابسته به طور ثابت افزایش یا کاهش مییابد. این فرضیه در همه موارد درست نیست و در بسیاری از سناریوهای واقعی، روابط بین متغیرها غیرخطی هستند. استفاده از رگرسیون خطی برای مدلسازی روابط غیرخطی میتواند منجر به نتایج گمراهکننده شود.
حساسیت به دادههای پرت
رگرسیون خطی به دادههای پرت بسیار حساس است. نقاط دادهای که به طور قابل توجهی از بقیه نقاط دور هستند میتوانند تأثیر زیادی بر خط رگرسیون داشته باشند و منجر به انحراف آن از مسیر واقعی شوند. اگر مجموعه داده شما شامل دادههای پرت باشد، باید قبل از انجام رگرسیون خطی، آنها را شناسایی و حذف کنید.
همخطی
همخطی زمانی اتفاق میافتد که دو یا چند متغیر مستقل به شدت با هم مرتبط باشند. این امر میتواند منجر به مشکلات آماری در برآورد ضرایب رگرسیون و افزایش خطای استاندارد آنها شود. در موارد شدید، همخطی میتواند منجر به نتایج غیرقابل اعتماد یا بیمعنی شود.
عدم در نظر گرفتن تعاملات
رگرسیون خطی فقط میتواند اثرات اصلی متغیرهای مستقل را مدلسازی کند. این بدان معناست که نمیتواند تعاملات بین متغیرها را در نظر بگیرد، یعنی اینکه چگونه اثر یک متغیر مستقل میتواند با وجود متغیر مستقل دیگر تغییر کند. اگر تعاملات مهمی در دادههای شما وجود داشته باشد، رگرسیون خطی ممکن است نتواند آنها را به درستی، تصویرسازی کند.