در این آموزش، روشهای اساسی تحلیل علم داده با استفاده از نرمافزار منبع باز مدرن پایتون (scikit-learnو غیره) بررسی میشود؛ ، تجزیهوتحلیل داده و گردش کار را برای انجام یادگیری ماشینی به کمک کتابخانه scikit-learn نرم افزار پایتون پوشش میدهند. سرفصل مطالب مورد بحث در این دوره شامل موارد زیر است؛ 1- فراخوانی داده با pandas 2- نمایش داده matplotlib، 3- پیش پردازش داده و تبدیل داده 4- رگرسیون خطی 5- رگرسیون خطی ( بررسی قواعد) 6- رگرسیون خطی (فرمول نویسی رابطه هاstatsmodels) 7- رگرسیون (غیرخطیsvr..) 8- ایجاد pipeline 9- بهینه سازی پارامترهاgrid search 10- طبقهبندی (لجستیک،svm) 11- طبقهبندی (xboost،random forest) 12- طبقهبندی:بهینه سازی پارامترها 13- طبقهبندی :بررسی اهمیت متغیرها feature extraction 14- ارزیابی کمی و کیفی 15- روش های کاهش بعد داده 16- بایدها و نبایدها در این کارگاه گردش کار مدرن تحلیل داده در پایتون براساس فصل دهگانه scikit-learn.org آموزش داده میشود که شامل اصول اولیه داده کاوی، روش های طبقه بندی، روش های رگرسیون، روش های کاهش بعد داده و روش های خوشه بندی به کمک افزونههای افزونه Pandas برای تلفیق پانل داده با داده مکانی، افزونههای numpyمحاسبات علمی پایتون برای محاسبات جبری، افزونه matplotlib برای تجسم داده، و scikit-learn برای یادگیری ماشین مبتنی بر بررسی دادهها ، طبقهبندی و رگرسیون خواهد بود. البته بر همین اساس به شرکت¬کنندگان توصیه میشود که برای توضیح و تفصیل این موارد به بخش آموزش برنامهنویسی پایتون مقدماتی، پیشرفته (پایتون عددی ) مراجعه نمایند.
مبتدی: برای کسانی که می خواهند تازه شروع به یادگیری کنند
متوسط: برای کسانی که آشنایی دارند و تا حدی بلدند
حرفه ای: برای کسانی که بلدند ولی می خواهند بیشتر یاد بگیرند