
Введение
В данном проекте я выбрала для анализа данные компании Uber (Убер) — это американская международная публичная компания из Сан-Франциско, создавшая одноимённое мобильное приложение для поиска, вызова и оплаты такси или частных водителей и доставки еды. Эти данные взяты с ресурса Kaggle. В датасете содержится информация о том, когда было больше всего поездок, статистика деловых и личных поездок, популярные цели поездок, а так же время vs. расстояние — насколько долго длятся поездки на разные расстояния.
Для начала я импортировала все необходимые мне библиотеки: pandas, matplotlib, seaborn и считала выбранный мной csv-файл с датасетом

Для анализа я использовала:
1)линейный график 2)точечный график или диаграмму рассеяния 3)гистрограмму 4)круговую диаграмму 5)тепловую карту 6)график оценки плотности вероятности
В качестве основных цветов я выбрала черный и белый, а также оттенки серого, которые Uber использует в своей айдентике.

График №(1)
На начальном этапе анализа данных мною была исследована взаимосвязь между переменными. В качестве ключевых признаков были выбраны дата начала поездки и пройденное расстояние. Поскольку распределение значений расстояния характеризовалось равномерностью, а целью исследования являлось выявление тренда изменения пройденного расстояния в рамках временного интервала, для визуализации данных был определен наиболее подходящий метод — построение линейного графика. Данный подход позволяет наглядно отобразить динамику изменения целевого показателя во времени.
В середине апреля 2016 года наблюдалось значительное превышение пройденного расстояния за поездки относительно среднего значения данного признака. Для остальных месяцев исследуемого периода данные демонстрируют однородный характер без выраженных аномалий или отклонений.
График №(2)
На следующем этапе анализа мною была исследована потенциальная зависимость между расстоянием поездки и её продолжительностью. Оба признака являются числовыми, что обусловило выбор метода визуализации — диаграммы рассеяния (scatter plot). Данный подход позволяет оценить наличие корреляционной связи между переменными, а также визуализировать распределение точек данных в двумерном пространстве, что способствует выявлению возможных закономерностей или аномалий.
Подавляющее большинство данных, за исключением незначительных выбросов, сосредоточено в диапазоне продолжительности поездок до 25 минут и расстояний до 25 миль. Наиболее часто встречаются поездки, характеризующиеся короткими дистанциями и небольшими временными интервалами. Кроме того, на графике наблюдается выраженная положительная корреляция между анализируемыми признаками: с увеличением продолжительности поездки возрастает и пройденное расстояние, что свидетельствует о взаимосвязи между временем в пути и расстоянием.
График №(3)
Далее мною были рассмотрены стартовая и конечная локации поездок. Оба признака относятся к категориальному типу данных, что определило выбор метода визуализации — построение гистограмм. Для повышения наглядности и удобства сравнения распределения стартовых и конечных локаций я наложила одну гистограмму на другую (дважды вызвав sns.histplot () для каждого из признаков)
Число поездок, исходящих и заканчивающихся в локации Cary, значительно превышает количество поездок из других локаций. Это свидетельствует о преобладании Cary как основного пункта отправления в рассматриваемом наборе данных. Ещё одно наблюдение — большинство поездок завершаются в том же городе, где и начинаются.
График №(4)
Следующий рассматриваемый мной признак — цель поездки. Он также категориальный, поэтому для его визуализации мной была использована обычная круговая диаграмма.
Данные демонстрируют дисбаланс в распределении целей поездок: количество поездок, связанных с деловыми встречами или обеденными перерывами, существенно превосходит количество поездок между офисами. Это указывает на неравномерное распределение активности в зависимости от типа поездки.
График №(5)
Мы уже установили наличие аномалии в данных, связанной с апрелем. Чтобы глубже изучить эту особенность, я решила детализировать анализ и визуализировать данные с помощью тепловой карты. На ней отображено количество поездок для каждой комбинации параметров Месяц/Цель поездки.
Наиболее часто встречающимися комбинациями месяца и цели поездки являются июнь с поездками на обед или для выполнения поручений, а также июль с поездками на деловые встречи. Это свидетельствует о сезонной активности, где данные месяцы выделяются повышенной частотой указанных типов поездок.
График №(6)
Кроме того, я создала график оценки плотности вероятности для признаков Месяц/Цель поездки. На этом графике отчетливо видно, что наибольшая концентрация плотности распределения сосредоточена в окрестностях апреля. Это подтверждает ранее выявленную аномалию и подчеркивает, что именно в этом месяце наблюдается значительная активность, связанная с определенными целями поездок.
Наибольшая плотность поездок наблюдается в апреле, что согласуется с ранее выявленной аномалией (на первом графике): в этом месяце было зафиксировано значительное превышение пройденного расстояния за поездки относительно среднего значения данного показателя.
Заключение
На основании проведенного анализа датасета поездок Uber можно сделать следующие выводы. Наибольший спрос на услуги такси зафиксирован в апреле, что делает этот месяц пиковым в течение года. Средняя продолжительность поездок не превышает 25 минут, а среднее расстояние составляет 25 миль, что свидетельствует о преобладании коротких и частых поездок. Наиболее распространенными комбинациями месяца и цели поездки являются июнь с поездками на обед и для выполнения поручений, а также июль с поездками на деловые встречи. Город Cary выделяется как локация с наибольшим спросом на услуги такси, что подтверждает его лидирующую позицию среди других городов в исследуемом датасете.