Начальный анализ данных с помощью Python: оцениваем датасет, ищем пропуски и не только

 

Python по праву занимает место одного из ведущих инструментов дата-аналитика: загрузка данных, пристрелочный анализ, подготовка данных к дальнейшему исследованию, проверка гипотез, визуализация - всё это становится гораздо более понятным, если автоматизировать свою работу с помощью основ Python и набора общеиспользуемых библиотек В этом видео мы искали в датасете дорогой вискарь, и попутно - знакомились с основами Python, пропуская этап "Hello, world" Даже если до этого вы совсем не касались этой предметной области - в вашем распоряжении появится первый набор инструментов, который можно начать использовать по аналогии 00:00 Почему именно Python стал так популярен среди дата-аналитиков 16:25 Демо. Обзор датасета 21:00 Загрузка и предпросмотр датасета 26:38 Описательная статистика 37:21 Подготовка и очистка данных 40:07 Отсутствующие данные и доля пропусков 45:18 Поиск выбросов 48:15 Способы поиска дубликатов записей 54:04 Немного визуализации 58:30 Итоги и вопрос-ответ Ссылка на датасет в Kaggle:
Ссылка на ноутбук в Google Colab: