
Этапы работы: — Выбор таблицы данных — Анализ данных — Визуализация
Выбор таблицы данных
Я обратилась к ресурсу kaggle в поисках необходимой информации и выбрала набор данных, содержащий сведения о разнообразных сырах мира. Мой выбор пал именно на них, так как в моем холодильнике всегда больше 7 видов сыра, его очень любят в моей семье, но я ничего не знаю о сырах и максимум могу различать с дырками и дорблю.
Я решила проанализировать эти данные с целью выявления следующих аспектов: разделение сыров по странам мира, по вегетарианству, по цвету, по семейству сыров и узнаем топ-20 производителей сыров.
Анализ данных
Скачивание таблиц формата CSV в kaggle. Преобразование значений столбцов в числовой формат и дату. Обработка и преобразование данных. Визуализация данных с помощью различных графиков.

Визуализация
Типы созданных графиков: — Круговая диаграмма — Гистограмма
Код анализа данных и дальнейшего преобразованиях их в графики разнообразного формата.
Он также хранит ссылку на данные.
Круговая диаграмма
Вегетарианские сыры составляют 1% от общего количества сыров.
Разнообразие семейств сыров. Самые многочисленные Blue и Cheddar.
Гистограмма
Самые популярные Sartori, La maison Alexis de P., Romaniae Terrae
Штаты и Франция лидируют в производстве сыров.
Конечно же лидируют желтые и белые сыры!
В ходе выполнения проекта мне пришлось обратиться к дополнительному датасету, поскольку в исходном наборе данных оказалось недостаточно информации для выполнения всех требований задания, особенно по количественным признакам, необходимым для построения регрессии.
Поскольку в холодильнике, помимо сыра, оказалось и молоко, я подумала, что логичным продолжением анализа будет поиск датасета, связанного с молочной продукцией. Так я нашла и использовала датасет, содержащий характеристики молока, включая такие параметры, как pH, температура, жирность и другие физико-химические свойства. Это позволило полноценно выполнить все этапы анализа: от фильтрации и создания новых признаков до визуализации, расчёта статистик и построения линейной регрессии.
Фильтрация и сортировка с одним условием
Температура у кислого молока (PH < 6.5)
Фильтрация и сортировка
Сводные таблицы
Одна группировка, один агрегат, один метод — средняя температура по pH_level.
Две группировки, один агрегат, один метод — средняя температура по pH_level и температурной категории.
Одна группировка, несколько агрегатов, один метод — средние по температуре и цвету.
Одна группировка, один агрегат, несколько методов — mean/min/max температуры по pH_level.
Одна группировка, несколько агрегатов, несколько методов — mean/min/max для температуры и цвета по категориям pH.
Корреляционная матрица
Линейная регрессия
Мы строим модель парной линейной регрессии, где целевая переменная — pH молока, а предиктор — температура (Temprature). Цель — определить, как температура влияет на кислотность молока
Описательные статистики
Для анализа были использованы очищенные данные без выбросов по признакам pH и Temprature.
Меры центральной тенденции Целевой количественный признак pH характеризуется следующими параметрами:
Среднее арифметическое значение pH составило 6.56.
Медиана также равна 6.60, что указывает на симметричность распределения.
На гистограмме видно, что значения pH имеют нормальное распределение с плотной концентрацией около среднего значения. Линии среднего и медианы практически совпадают, что подтверждает отсутствие значительных перекосов.
Квартили Квартильный анализ позволил детализировать распределение значений pH:
Q0 (минимум) = 3.00
Q1 (25%) = 6.50
Q2 (медиана, 50%) = 6.60
Q3 (75%) = 6.70
Q4 (максимум) = 9.60
На ящике с усами (boxplot) значения квартилей были подписаны. Основной объём данных сосредоточен в пределах от 6.5 до 6.7, что указывает на стабильность показателя pH в пределах нормы.
Меры разброса Для оценки вариативности значений были рассчитаны следующие показатели:
Размах (Q4 — Q0) составил 6.6, что указывает на широкий диапазон.
Интерквартильный размах (IQR) составил 0.2, что говорит о высокой плотности данных в центральной части.
Дисперсия — 1.92, стандартное отклонение — 1.39, что соответствует умеренной изменчивости.
Категориальный признак Grade Для описания категориального признака Grade, обозначающего качество молока, были получены следующие характеристики:
Мода — наиболее часто встречающееся значение — 'medium'.
Количество уникальных значений — 3: 'low', 'medium', 'high'.
Описание применения генеративной модели
В оформлении графиков конкретная палитра, которая была сгенерирована через сервис — https://coolors.co.
Обложка была создана с помощью сервиса миджорни.
Для пояснения по видам графиков и коду я обращалась к Chat GPT.
Проект выполнен строго по всем требованиям. Все этапы проанализированы, графики построены, выводы сделаны. Использовались только корректные, очищенные данные. Визуализация помогает лучше понять поведение пользователей и эффективность их активности.