Проекты, выполненные во время обучения в Яндекс.Практикуме по программе специалист по Data Scientist:
Тема | Проект | Инструменты |
---|---|---|
1. Предобработка данных | Исследование надёжности заёмщиков банка | pandas, pymystem3, collections |
2. Исследовательский анализ данных | Исследование объявлений о продаже квартир | pandas, numpy, matplotlib |
3. Статистический анализ данных | Определение перспективного тарифа для телеком компании | pandas, numpy, matplotlib, scipy |
4. Анализ данных | Прогноз продаж компьютерных игр | pandas, re, numpy, matplotlib, scipy |
5. Машинное обучение 1 | Рекомендация тарифов | pandas, sklearn |
6. Машинное обучение 2 | Отток клиентов банка | pandas, sklearn, numpy, matplotlib |
7. Машинное обучение 3 | Выбор места для скважины | pandas, sklearn, numpy |
8. Машинное обучение 4 | Предсказания для золотодобычи | pandas, sklearn, numpy, seaborn |
9. Линейная алгебра | Защита персональных данных клиентов | pandas, sklearn, numpy |
10. Численные методы | Определение стоимости автомобилей | pandas, sklearn, lightgbm, time, numpy |
11. Временные ряды | Прогноз количества заказов такси на следующий час | pandas, sklearn, catboost, statsmodels, matplotlib |
12. Машинное обучение для текстов | Поиск негативных комментариев | pandas, sklearn, re, nltk |
13. Компьютерное зрение | Определение возраста по фотографии | pandas, matplotlib, keras |
Все проекты выполнялись на Python в Jupyter Notebook
Общее для всех проектов - предобработка данных: удаление дубликатов, обнаружение пропусков и их заполнение(средним, медианой, наиболее часто встречающимся значением в столбце, расчётными значения из других столбцов или на основании логики на своё усмотрение) или удаление.
В разных проектах использовала:
Построение сводных таблиц для расчётов или отображения результатов.
Построение графиков и диаграмм разных видов(круговые диаграммы, гистограммы, "ящик с усами" - диаграмма размаха ).
Проверка гипотез(нулевой и альтернативной) с помощью критериев, задание порогового значения.
Разделение даннных на обучающую и тестовую выборки
Улучшение качества модели, учитывая дисбаланс классов
Подбор лучших параметров модели с помощью GridSearchCV
Обработка категориальных признаков техникой One-Hot Encoding
Масштабирование числовых данных StandardScaler
Шифрование данных умножением на случайную матрицу
Выделение сезонности времени дня, дня недели с помощью statsmodels.
Использовала такие модели:
Случайный лес, решающее дерево, линейная и логистическая регрессия, векторная регрессию SVR, модели градиентного бустинга из библиотек LightGBM и CatBoost, градиентный спуск SGDClassifier
При оценке качества предсказания моделей использовала метрики: accuracy, F1, R2, AUC-ROC, RMSE, MAE, скорость предсказания, время обучения.