رگرسیون خطی (Linear Regression) چیست؟

27 اردیبهشت 1403 - آخرین بروزرسانی: 29 اردیبهشت 1403
نمودار
زمان تقریبی مطالعه: 4 دقیقه

تمامی افراد در شاخه‌های مختلف سعی بر این دارند که کارهایشان به آسان‌ترین شکل ممکن پیش برود. برای مثال، پزشکان با استفاده از هوش مصنوعی تورمورهای بدخیم و یا خوش خیم را طبقه بندی می‌کنند. هواشناسان برای پیش بینی آب و هوا از این تکنولوژی استفاده می‌کنند و اقتصاد دانان از آن برای پیش بینی قیمتی و شرایط بازار در آینده کمک می‌گیرند. رگرسیون خطی یکی از الگوریتم‌های ابتدایی است که بیشتر علاقه‌مندان به یادگیری ماشین با آن شروع می‌کنند. چرا که رگرسیون خطی و یا (Linear Regression) یکی از مهم‌ترین روش‌های تحلیل داده در کسب و کار، است. علاوه بر این، رگرسیون خطی یکی از مهمترین الگوریتم‌های یادگیری ماشین هم می‌باشد.

 

تاریخچه رگرسیون خطی

واژه رگرسیون خطی برای اولین بار در یک مقاله معروف «فرانسیس گالتون» (Sir Francis Galton) عنوان شد که به بررسی قد فرزندان و والدین می‌پرداخت. در این مقاله که در سال 1877 منتشر شد، به این اشاره می‌کند که قد فرزندان قد بلند به میانگین قد جامعه میل می‌کند. فرانسیس گالتون این رابطه را بازگشت و یا (Regress) نامگذاری کرد.

در ابتدا این واژه در شاخه علوم زیستی معرفی شد. اما روشی که امروزه مورد استقبال شاخه‌های دیگر نیز قرار گرفته، توسط «گاوس» (Gauss) در سال ۱۸۰۹ معرفی شد تا به کمک آن پارامترهای مجهول رابطه بین مدار سیاره‌های منظومه شمسی را بررسی کند.
سپس، روش گاوس توسط «پیرسون» (Pearson) توسعه یافت و با مفاهیم آماری تلفیق شد. همچنین پیرسون توزیع توام متغیر وابسته و مستقل را توزیع گاوسی در نظر گرفت. بعدها «فیشر» (R. A. Fisher) توزیع متغیر وابسته به شرط متغیر مستقل را توزیع گاوسی محسوب کرد.

 

آموزش نرم افزار متلب با بهترین هزینه

 

رگرسیون خطی چیست؟

نمودار

به صورت کلی، رگرسیون به معنی بازگشت است. يعني پيش بينی و بيان تغييرات يک متغير بر اساس اطلاعات متغير ديگر. رابطه میان قد و وزن انسان را در نظر بگیرید.  می‌توان به صورت حدودی گفت که افراد قد بلند، وزن بیشتری دارند. در این حالت ارتباط میان قد و وزن با روش آماری رگرسیون خطی شکل می‌گیرد و به صورت کمی اطلاعاتی را در اختیار افراد قرار می‌دهد. این روش، کمک می‌کند تا پیش‌بینی‌هایی در مورد مقدار یک متغیر بر اساس متغیرهای دیگر انجام شود. حتی این روش برای برآورد قیمتی یک محصول نیز مورد استفاده قرار می‌گیرد تا نشان دهد که چگونه مواردی مانند وزن، ابعاد و مواد اولیه بر روی قیمت این محصول تاثیرگذار هستند. رگرسیون خطی برای بررسی رابطه علت و معلول میان متغیرها روشی کاربردی است و به بهینه سازی این دو مورد کمک می‌کند.

 

مطلب پیشنهادی: فرمول محاسبه محیط دایره 

 

مزایای رگرسیون خطی

رگرسیون خطی، به عنوان یک روش آماری محبوب، مزایای متعددی را ارائه می‌دهد که آن را به ابزاری ارزشمند برای تحلیل داده‌ها در طیف گسترده‌ای از زمینه‌ها تبدیل می‌کند. در این قسمت به بررسی شماری از مزایای رگرسیون خطی می‌پردازیم.

نمودار

کارایی

الگوریتم‌های رگرسیون خطی از نظر محاسباتی کارآمد هستند و می‌توان آن‌ها را به سرعت روی مجموعه‌های داده‌های بزرگ اجرا کرد. این امر آنها را برای کاربردهای عملی که نیاز به تجزیه و تحلیل سریع داده‌ها دارند، ایده‌آل می‌کند.

پیش‌بینی

رگرسیون خطی را می‌توان برای ایجاد مدل‌های پیش‌بینی کننده برای متغیر وابسته بر اساس مقادیر متغیرهای مستقل استفاده کرد. این مدل‌ها می‌توانند برای پیش‌بینی نتایج آینده یا تصمیم‌گیری آگاهانه‌تر استفاده شوند.

قابل تفسیر

معادله رگرسیون خطی به وضوح نشان می‌دهد که چگونه هر متغیر مستقل بر متغیر وابسته تأثیر می‌گذارد. این تفسیر واضح بینش‌های ارزشمندی در مورد روابط بین متغیرها ارائه می‌دهد.

سادگی

رگرسیون خطی بر اساس یک مفهوم ساده ریاضی بنا شده است که به راحتی قابل درک و تفسیر است. این امر، آن را به روشی قابل دسترس برای مبتدیان و متخصصان باتجربه تبدیل می‌کند.

مبنای یادگیری ماشین

رگرسیون خطی مبنای بسیاری از الگوریتم‌های یادگیری ماشین پیچیده‌تر است. درک رگرسیون خطی برای یادگیری و استفاده از این الگوریتم‌های پیشرفته ضروری است.

 

مطلب پیشنهادی: فرمول و محاسبه مساحت دایره

 

معایب رگرسیون خطی

رگرسیون خطی یک ابزار قدرتمند برای مدل‌سازی روابط بین متغیرها است، اما در عین حال، معایبی هم دارد که باید قبل از استفاده از آن در نظر گرفته شود.

نمودار

فرضیه خطی بودن

رگرسیون خطی فرض می‌کند که رابطه بین متغیر وابسته و مستقل خطی است. به عبارت دیگر، فرض می‌کند که با افزایش واحد در متغیر مستقل، متغیر وابسته به طور ثابت افزایش یا کاهش می‌یابد. این فرضیه در همه موارد درست نیست و در بسیاری از سناریوهای واقعی، روابط بین متغیرها غیرخطی هستند. استفاده از رگرسیون خطی برای مدل‌سازی روابط غیرخطی می‌تواند منجر به نتایج گمراه‌کننده شود.

حساسیت به داده‌های پرت

رگرسیون خطی به داده‌های پرت بسیار حساس است. نقاط داده‌ای که به طور قابل توجهی از بقیه نقاط دور هستند می‌توانند تأثیر زیادی بر خط رگرسیون داشته باشند و منجر به انحراف آن از مسیر واقعی شوند. اگر مجموعه داده شما شامل داده‌های پرت باشد، باید قبل از انجام رگرسیون خطی، آنها را شناسایی و حذف کنید.

هم‌خطی

هم‌خطی زمانی اتفاق می‌افتد که دو یا چند متغیر مستقل به شدت با هم مرتبط باشند. این امر می‌تواند منجر به مشکلات آماری در برآورد ضرایب رگرسیون و افزایش خطای استاندارد آنها شود. در موارد شدید، هم‌خطی می‌تواند منجر به نتایج غیرقابل اعتماد یا بی‌معنی شود.

عدم در نظر گرفتن تعاملات

رگرسیون خطی فقط می‌تواند اثرات اصلی متغیرهای مستقل را مدل‌سازی کند. این بدان معناست که نمی‌تواند تعاملات بین متغیرها را در نظر بگیرد، یعنی اینکه چگونه اثر یک متغیر مستقل می‌تواند با وجود متغیر مستقل دیگر تغییر کند. اگر تعاملات مهمی در داده‌های شما وجود داشته باشد، رگرسیون خطی ممکن است نتواند آنها را به درستی، تصویرسازی کند.

آیا این مطلب برای شما مفید بود؟
بلهخیر
نویسنده مطلب ژاله برومند
توسعه محتوا، سئو و سوشیال مدیا مارکتینگ از علایق من هست و برای رسیدن به موفقیت و بهترین‌ها همیشه در تلاش هستم. در کنار تلاش برای رسیدن به موفقیت، همواره سعی در بروزرسانی اطلاعاتم دارم و کمک میکنم تا بین رقبای کسب و کار خودتون بدرخشید و برندی متمایز داشته باشید.

دیدگاه شما

بدون دیدگاه