Skip to content

bicerinka/data_science_portfolio

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

18 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Проекты, выполненные во время обучения в Яндекс.Практикуме по программе специалист по Data Scientist:

Тема Проект Инструменты
1. Предобработка данных Исследование надёжности заёмщиков банка pandas, pymystem3, collections
2. Исследовательский анализ данных Исследование объявлений о продаже квартир pandas, numpy, matplotlib
3. Статистический анализ данных Определение перспективного тарифа для телеком компании pandas, numpy, matplotlib, scipy
4. Анализ данных Прогноз продаж компьютерных игр pandas, re, numpy, matplotlib, scipy
5. Машинное обучение 1 Рекомендация тарифов pandas, sklearn
6. Машинное обучение 2 Отток клиентов банка pandas, sklearn, numpy, matplotlib
7. Машинное обучение 3 Выбор места для скважины pandas, sklearn, numpy
8. Машинное обучение 4 Предсказания для золотодобычи pandas, sklearn, numpy, seaborn
9. Линейная алгебра Защита персональных данных клиентов pandas, sklearn, numpy
10. Численные методы Определение стоимости автомобилей pandas, sklearn, lightgbm, time, numpy
11. Временные ряды Прогноз количества заказов такси на следующий час pandas, sklearn, catboost, statsmodels, matplotlib
12. Машинное обучение для текстов Поиск негативных комментариев pandas, sklearn, re, nltk
13. Компьютерное зрение Определение возраста по фотографии pandas, matplotlib, keras

Все проекты выполнялись на Python в Jupyter Notebook

Общее для всех проектов - предобработка данных: удаление дубликатов, обнаружение пропусков и их заполнение(средним, медианой, наиболее часто встречающимся значением в столбце, расчётными значения из других столбцов или на основании логики на своё усмотрение) или удаление.

В разных проектах использовала:

Построение сводных таблиц для расчётов или отображения результатов.

Построение графиков и диаграмм разных видов(круговые диаграммы, гистограммы, "ящик с усами" - диаграмма размаха ).

Проверка гипотез(нулевой и альтернативной) с помощью критериев, задание порогового значения.

Разделение даннных на обучающую и тестовую выборки

Улучшение качества модели, учитывая дисбаланс классов

Подбор лучших параметров модели с помощью GridSearchCV

Обработка категориальных признаков техникой One-Hot Encoding

Масштабирование числовых данных StandardScaler

Шифрование данных умножением на случайную матрицу

Выделение сезонности времени дня, дня недели с помощью statsmodels.

Использовала такие модели:

Случайный лес, решающее дерево, линейная и логистическая регрессия, векторная регрессию SVR, модели градиентного бустинга из библиотек LightGBM и CatBoost, градиентный спуск SGDClassifier

При оценке качества предсказания моделей использовала метрики: accuracy, F1, R2, AUC-ROC, RMSE, MAE, скорость предсказания, время обучения.