В репозитории представлены проекты, которые были реализованы в рамках обучения профессии Data Scientist на Yandex.Practium
!pip install seaborn -U
!pip install catboost
!pip install lightgbm
Тема_индустрия | Проект | Инструменты | Ключевые слова проекта |
---|---|---|---|
1_Базовый Python_DA |
Какой жанр музыки популярен в Москве, а какой в Санкт-Петербурге? | Pandas ,Data Analytics |
обработка данных , дубликаты , пропуски , логическая индексация , группировка , сортировка |
2_Предобработка данных_bank |
Вернет ли заемщик кредит в банк? | PyMystem3 ,Data Preprocessing ,Lemmatization |
обработка данных , дубликаты , пропуски , категоризация , декомпозиция |
3_Исследователький анализ данных_estate |
Какие параметры влияют на стоимость недвижимости в Спб? | Matplotlib ,Seaborn ,EDA |
обработка данных , histogram , boxplot , scattermatrix ,категоризация , scatterplot , фрод-мониторинг |
4_Статитический анализ данных_telekom |
Какой тариф приносит больше денег телеком-компании? | Matplotlib ,Seaborn ,SciPy ,SDA ,Hypothesis testing |
обработка данных , histogram , boxplot , статистический тест , критерий Стьюдента |
5_Сборный проект №1_game |
Какие факторы влияют на успешность компьютерной игры и какое направление выгоднее рекламировать? | Matplotlib ,Seaborn ,SciPy ,NumPy ,Data preprocessing ,EDA ,SDA ,Hypothesis testing |
обработка дубликатов , графики , пропуски , категоризация , столбчатые диаграммы , boxplot , heatmap , p-value |
6_Ведение в МО_telecom |
Модель задачи классификации с наиболее выгодным тарифом для пользователя | Classification ,Pandas ,SKlearn |
классификация , подбор гиперпараметров , выбор модели МО |
7_Обучение с учителем_bank |
Модель классификации для прогноза оттока клиентов банка | Data Analyst ,Pandas ,Инвестиции ,Finance Analyst ,SKlearn ,NumPy ,Disbalance solving ,Calssification |
классификация , подбор гиперпараметров , выбор модели МО |
8_Машинное обучение в бизнесе_neft |
Выбор района для пробития нефтяной сквыжины. Выбор лучших скважин, расчет рисков. Регрессия | Regression ,Pandas ,Developing business model ,SKlearn ,Business analyst ,Bootstrap |
регрессия , разработка бизнес-модели , бутстреп |
9_Сборный проект №2_zoloto |
Модель предсказания коэффицента золота из золотосодержащей руды.Графики содержания золота на этапах обработки руды. Регрессия. | Regression ,Pandas ,sMape ,Data Analytics ,SKlearn ,Business Analyst ,Matplotlib ,Seaborn ,NumPy ,GridSearchCV ,Data Preprocessing ,EDA |
анализ данных , регрессия , кастомные метрики |
10_Численные методы_auto |
Какие факторы влияют на стоимость авто? | Regression ,Pandas ,EDA ,SKlearn , LGBM Regressor ,CatBoostRegressor ,Feature importances ,matplotlib ,Seaborn ,NumPy |
градиентный бустинг , регрессия |
11_Временные ряды_taxi |
Сколько заказов такси будет в следующий час? | Pandas ,Matplotlib ,TimeSeriesSplit ,trends ,seasons |
временные ряды , регрессия , предсказания |
12_Машинное обучение для текстов_ecom |
Сколько токсичных комментариев отставили пользователи интенет-магазина? | NLP ,Pandas ,SKlearn ,NLTK , pymystem3 , spaCy |
обработка естественного языка , NLP |
13_Компьютерное зрение_Нейронные сети_retail |
Анализ возраста клиента по фотографии | CV ,Pandas ,Keras ,LeNet50 ,ResNet |
обработка изображенй , нейронные сети |
14_Выпускной проект_telecom |
Прогнозирование оттока клиентов телеком-компании | EDA ,Pandas ,Marketing Analyst ,SKlearn ,NumPy ,Data Preprocessing ,SDA ,Feature Engineering ,Machine Learning ,OOP |
масштабирование признаков , кодирование признаков , feature_importances , соединение таблиц , анализ данных , модели градиентного бустинга для МО , классификация |