Исходный размер 894x1173

Анализ датасета из ресурса Kaggle Diabetes Health Dataset Analysis

Я выбрала именно этот датасет, так как мне всегда хотелось поучаствовать в научных исследованиях и привнести какой-то вклад. Но раз уж не научный, так аналитический, а я к тому же ещё и дизайнер, так что попробую помочь научным работникам визуализировать данные и работать с ними для решения проблем диабетиков.

Виды графиков

  1. Хитмэп график;
  2. Столбчатый график;
  3. Хитмэп корреляций признаков;
  4. Линейный график зависимости;
  5. Скеттер график после кластеризации.

Этапы работы

  1. Выбор данных, которые интересно проанализировать, предобработка данных;
  2. Анализ данных;
  3. Визуализация.

Оформление графиков

В оформлении графиков я использовала разные символы, которые напоминают детские пластыри в сочетании с разноцветными графиками, что отражает тему датасета.

Описание датасета

Данный датасет содержит комплексные данные о здоровье 1,879 пациентов, уникально определённых идентификаторами в диапазоне от 6,000 до 7,878. Данные включают демографические сведения, факторы образа жизни, медицинскую историю, клинические измерения, использование лекарств, симптомы, оценки качества жизни, экологические воздействия и здоровые привычки. Каждый пациент связан с конфиденциальным врачом, ответственным за него, обеспечивая конфиденциальность и неразглашение данных. Этот датасет идеален для исследователей и дата-саентистов, желающих изучить факторы, связанные с диабетом, разработать прогностические модели и провести статистические анализы.

Сделаю общую предобработку (импорт библиотек, поверхностный анализ и т. д.).

Исходный размер 2664x872

Ещё я почищу данные. Например, я выяснила, что ID пациента и доктор, который отвечает за пациента, нас не особо интересуют. Поэтому я уберу эти колонки, чтобы «чище» посмотреть на визуализацию.

Исходный размер 886x108

Сначала хочу общо рассмотреть данные в датасете по признакам, так я сделаю интерактивный график, чтобы переключаться между графиками, так как признаков очень много.

Ещё я стилизовала с помощью ChatGPT в красно-оранжевые цвета, он предложил «использовать цветовую палитру „RdYlBu“ из библиотеки Seaborn для создания красно-жёлтых оттенков на гистограмме и текстовых элементах графика. Таким образом, вы сможете стилизовать график в соответствии с заданными цветовыми предпочтениями.»

ПРОМТ — сделай код стилизованным в красно-жёлтых оттенках.

Исходный размер 1418x828
Исходный размер 1312x896

Теперь я хочу посмотреть на корреляцию признаков и выявить те, которые стоит подробнее исследовать.

Исходный размер 1470x714
Исходный размер 1684x1426

От меня полезнее будет исследование вредных привычек и их влияние на здоровье людей разных возрастов и гендера, поэтому я сгруппирую их в отдельный датафрейм.

Исходный размер 2662x714
Исходный размер 2158x718

Тут я попросила ChatGPT стилизовать колонки каким-то принтом (напоминает детский пластырь).

ПРОМТ — стилизуй график, чтобы колонки были с принтом.

Исходный размер 1584x846

Распределение вредных привычек по возрасту и гендеру

Теперь я построю график для визуализации матрицы корреляции факторов здоровья среди различных групп людей (по полу и кластерам), предварительно используя метод группировки данных с помощью алгоритма KMeans и интерактивные возможности библиотеки Plotly Express. График позволяет визуально сравнить взаимосвязь между различными факторами здоровья (индекс массы тела, курение, потребление алкоголя, физическая активность, качество диеты, качество сна) и выделенными кластерами людей. Это поможет вам лучше понять взаимосвязи между этими факторами и группировкой людей по их характеристикам здоровья.

Исходный размер 2226x868
Исходный размер 1408x961

Матрица корреляции факторов здоровья по полу и кластерам

Надеюсь, что моё мини-исследование поможет в научной сфере или хотя бы предупредит людей остерегаться вредных привычек во избежания заболеваний.

Анализ датасета из ресурса Kaggle Diabetes Health Dataset Analysis
Проект создан 25.09.2024
Мы используем файлы cookies для улучшения работы сайта и большего удобства его использования. Более подробную информац...
Показать больше