Original size 928x1232

Анализ данных о сыре и молоке

PROTECT STATUS: not protected
6

Этапы работы: — Выбор таблицы данных — Анализ данных — Визуализация

Выбор таблицы данных

Я обратилась к ресурсу kaggle в поисках необходимой информации и выбрала набор данных, содержащий сведения о разнообразных сырах мира. Мой выбор пал именно на них, так как в моем холодильнике всегда больше 7 видов сыра, его очень любят в моей семье, но я ничего не знаю о сырах и максимум могу различать с дырками и дорблю.

Я решила проанализировать эти данные с целью выявления следующих аспектов: разделение сыров по странам мира, по вегетарианству, по цвету, по семейству сыров и узнаем топ-20 производителей сыров.

Анализ данных

Скачивание таблиц формата CSV в kaggle. Преобразование значений столбцов в числовой формат и дату. Обработка и преобразование данных. Визуализация данных с помощью различных графиков.

Визуализация

Типы созданных графиков: — Круговая диаграмма — Гистограмма

Код анализа данных и дальнейшего преобразованиях их в графики разнообразного формата.

Он также хранит ссылку на данные.

Original size 2640x1260

Круговая диаграмма

Original size 2052x292
Original size 656x656

Вегетарианские сыры составляют 1% от общего количества сыров.

Original size 1430x254
Original size 1498x1066

Разнообразие семейств сыров. Самые многочисленные Blue и Cheddar.

Гистограмма

Original size 990x300
Original size 1890x814

Самые популярные Sartori, La maison Alexis de P., Romaniae Terrae

Original size 1026x332
Original size 1500x1204

Штаты и Франция лидируют в производстве сыров.

Original size 1076x360
Original size 1966x1190

Конечно же лидируют желтые и белые сыры!

В ходе выполнения проекта мне пришлось обратиться к дополнительному датасету, поскольку в исходном наборе данных оказалось недостаточно информации для выполнения всех требований задания, особенно по количественным признакам, необходимым для построения регрессии.

Поскольку в холодильнике, помимо сыра, оказалось и молоко, я подумала, что логичным продолжением анализа будет поиск датасета, связанного с молочной продукцией. Так я нашла и использовала датасет, содержащий характеристики молока, включая такие параметры, как pH, температура, жирность и другие физико-химические свойства. Это позволило полноценно выполнить все этапы анализа: от фильтрации и создания новых признаков до визуализации, расчёта статистик и построения линейной регрессии.

Фильтрация и сортировка с одним условием

Original size 1580x780

Температура у кислого молока (PH < 6.5)

Original size 1504x544

Фильтрация и сортировка

Сводные таблицы

Одна группировка, один агрегат, один метод — средняя температура по pH_level.

Original size 1180x780
Original size 1966x788

Две группировки, один агрегат, один метод — средняя температура по pH_level и температурной категории.

Original size 1979x980
Original size 1970x964

Одна группировка, несколько агрегатов, один метод — средние по температуре и цвету.

Original size 1580x980
Original size 1970x964

Одна группировка, один агрегат, несколько методов — mean/min/max температуры по pH_level.

Original size 1979x980
Original size 1970x964

Одна группировка, несколько агрегатов, несколько методов — mean/min/max для температуры и цвета по категориям pH.

Original size 1812x1180
Original size 1970x964

Корреляционная матрица

Original size 1314x1144

Линейная регрессия

Мы строим модель парной линейной регрессии, где целевая переменная — pH молока, а предиктор — температура (Temprature). Цель — определить, как температура влияет на кислотность молока

Original size 1288x734
Original size 1180x780
Original size 1968x962

Описательные статистики

Для анализа были использованы очищенные данные без выбросов по признакам pH и Temprature.

Меры центральной тенденции Целевой количественный признак pH характеризуется следующими параметрами:

Среднее арифметическое значение pH составило 6.56.

Медиана также равна 6.60, что указывает на симметричность распределения.

На гистограмме видно, что значения pH имеют нормальное распределение с плотной концентрацией около среднего значения. Линии среднего и медианы практически совпадают, что подтверждает отсутствие значительных перекосов.

Original size 1580x780
Original size 1950x828

Квартили Квартильный анализ позволил детализировать распределение значений pH:

Q0 (минимум) = 3.00

Q1 (25%) = 6.50

Q2 (медиана, 50%) = 6.60

Q3 (75%) = 6.70

Q4 (максимум) = 9.60

На ящике с усами (boxplot) значения квартилей были подписаны. Основной объём данных сосредоточен в пределах от 6.5 до 6.7, что указывает на стабильность показателя pH в пределах нормы.

Original size 1979x480
Original size 1950x892

Меры разброса Для оценки вариативности значений были рассчитаны следующие показатели:

Размах (Q4 — Q0) составил 6.6, что указывает на широкий диапазон.

Интерквартильный размах (IQR) составил 0.2, что говорит о высокой плотности данных в центральной части.

Дисперсия — 1.92, стандартное отклонение — 1.39, что соответствует умеренной изменчивости.

Категориальный признак Grade Для описания категориального признака Grade, обозначающего качество молока, были получены следующие характеристики:

Мода — наиболее часто встречающееся значение — 'medium'.

Количество уникальных значений — 3: 'low', 'medium', 'high'.

Описание применения генеративной модели

В оформлении графиков конкретная палитра, которая была сгенерирована через сервис — https://coolors.co.

Original size 2880x1002

Обложка была создана с помощью сервиса миджорни.

Original size 2466x1154

Для пояснения по видам графиков и коду я обращалась к Chat GPT.

Проект выполнен строго по всем требованиям. Все этапы проанализированы, графики построены, выводы сделаны. Использовались только корректные, очищенные данные. Визуализация помогает лучше понять поведение пользователей и эффективность их активности.

Анализ данных о сыре и молоке
6
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more