Original size 1024x1536

ФОРМУЛА ХИТА: анализ данных IMDb

PROTECT STATUS: not protected
4

ВВЕДЕНИЕ

Для этого проекта я выбрала тему, которая мне как режиссёру особенно близка — кинематограф. А если точнее — я решила попробовать найти формулу успеха в мире кино, проанализировав, как бюджет, жанр, год выпуска и другие факторы влияют на рейтинг и популярность фильмов.

В качестве источника я использовала открытый датасет с сайта Kaggle, содержащий данные о более чем 9000 фильмах из базы IMDb. В таблице есть такие параметры, как:

○ название фильма

○ год выхода

○ бюджет и кассовые сборы

○ жанры

○ средний рейтинг

○ количество просмотров зрителей

Почему именно эти данные? Потому что кино — это не только искусство, но и индустрия. И мне стало интересно посмотреть: Есть ли зависимость между бюджетом и рейтингом? Какие жанры чаще получают высокие оценки? Как менялось количество фильмов с течением времени? Сколько хитов появляется каждый год?

С помощью библиотеки pandas для обработки данных и matplotlib / seaborn для визуализации я попыталась собрать не просто таблицы и цифры, а выстроить свой личный взгляд на то, из чего складывается формула хита.

СТИЛИЗАЦИЯ ГРАФИКОВ

Для стилизации графиков я выбрала чёрный фон, чтобы создать атмосферу, которая напоминает кинозал — это соответствовало тематике кино и придавало визуалу стильную глубину. Источником вдохновения послужили эстетика ночных интерфейсов и современный минимализм, где важна контрастность и чистота визуала, — это можно увидеть, например, в интерфейсах стриминговых сервисов типа Netflix. Также подобная цветовая гамма, конечно же, отсылает к черно-белым фильмам и кинохлопушке :)

Цвета и шрифты выбраны так, чтобы графики были легко читаемыми на тёмном фоне: аккуратные линии сетки и убранные лишние рамки (использовала sns.despine ()).

ЭТАПЫ РАБОТЫ

Для начала я загрузила датасет с помощью библиотеки kagglehub (код можно посмотреть там же, на сайте kaggle), которая помогла скачать набор данных с IMDb про фильмы с разными жанрами.

После загрузки посмотрела на первые строки таблицы, колонки и общую информацию, чтобы понять структуру данных и типы столбцов:

Original size 696x234

i. распределение рейтингов фильмов

Original size 807x488

Для первой визуализации я построил гистограмму, чтобы увидеть, как распределяются оценки фильмов. Это позволяет понять, какие рейтинги самые популярные и есть ли перекосы, например, много ли фильмов с высокими или низкими оценками. Я добавила линию сглаживания (KDE), чтобы было проще увидеть общую форму распределения, а не только столбцы гистограммы.

Original size 1384x684

получившийся график

Большинство фильмов имеют рейтинг от 6 до 7.5 баллов, что говорит о преобладании «средне-хорошего» контента. Высокие оценки (8+) — редкость, и это подчёркивает, насколько трудно добиться по-настоящему высоких откликов от зрителей. Возможно, кинохит — это не просто бюджет и известный режиссёр, а ещё и попадание в эмоциональный нерв времени.

ii. средний рейтинг по жанрам

Original size 980x696

Следующим шагом я проанализировала, как средний рейтинг меняется в зависимости от жанра. Для этого выделил из списка жанров только главный (первый), чтобы сравнивать именно их. Построил столбчатую диаграмму, где высота столбца — это средний рейтинг по жанру. Чтобы сделать график более информативным, добавил числовые подписи сверху каждого столбца. Стилизация в том же тёмном стиле с белыми элементами, чтобы сохранить визуальную целостность.

Original size 1384x684

получившийся график

На первых местах по среднему рейтингу — вестерны и фильмы-нуары. Это неудивительно, так как подобные жанры снимались в начале пути кинематографа и чаще всего имеют культовый статус, поэтому чаще всего получают положительные оценки, — скорее всего ими наслаждаются синефилы. Жанры вроде ужасов или фэнтези — наоборот, чаще получают более низкие оценки (возможно, из-за массового производства в случае ужастиков и узости аудитории в случае фэнтези).

iii. количество фильмов по годам

Original size 973x557

Чтобы увидеть динамику кинопроизводства, подсчитал, сколько фильмов выходило в каждом году. Представил эту информацию в виде линейного графика с точками на каждом году. Это позволяет понять, есть ли рост или спад выпуска фильмов за разные периоды.

Original size 1384x684

получившийся график

До 2016 года по данным датасета видно устойчивый рост в производстве фильмов, особенно с 2000-х годов. Это может быть связано с цифровизацией, снижением стоимости производства и ростом онлайн-платформ. Чем больше фильмов выходит, тем сложнее создать что-то оригинальное — и тем ценнее настоящие хиты.

iv. взаимосвязь продолжительности фильма и рейтинга

Original size 877x485

Наконец, я исследовала, влияет ли длительность фильма на его рейтинг. Для этого построил диаграмму рассеяния, где каждая точка — один фильм с координатами: длительность по оси X и рейтинг по оси Y. Добавил прозрачность точек, чтобы визуально не перегружать график и было понятно, где точек больше.

Original size 1384x983

получившийся график

На графике видно, что фильмы с длительностью от 90 до 130 минут чаще всего получают хорошие оценки. Очень короткие и очень длинные фильмы — либо нишевые, либо требуют идеального баланса содержания. Это может стать частью формулы хита: удобная длина + мощная драматургия = хорошие шансы на успех.

ВЫВОДЫ:

Современное кино — это машина, которая производит сотни фильмов в год, и при этом держится на среднем уровне качества.

Большинство фильмов получают рейтинги от 6 до 7.5, редко выходя за эти рамки. Это не плохо — это значит, что зрители получают стабильный продукт, но шедевры и провалы — редкость.

Жанры сильно влияют на восприятие. Вестерны и нуары получают самые высокие оценки — вероятно, из-за их культового статуса и любви синефилов. Ужасы и фэнтези, наоборот, внизу рейтинга — возможно, из-за переизбытка однотипных лент и узкой аудитории, возможно, потому что их цель чаще в развлечении, а не в художественной ценности.

Кино стало больше. С 90-х годов индустрия только набирала обороты — пик пришёлся на 2010-е, но потом пошёл спад. Причины? Стриминги, пандемия, новый ритм жизни. Мы живём во времени, когда один тикток может быть мощнее, чем короткометражка.

Длина фильма не гарантирует успех. Ни короткие, ни длинные фильмы не показывают прямой связи с рейтингом. Но можно сказать: зритель любит фильмы в районе 100 минут — и, вероятно, индустрия тоже.

Обложка проекта создана при участии ChatGPT (OpenAI) с использованием визуальных стилей, адаптированных под концепцию исследования.

ФОРМУЛА ХИТА: анализ данных IMDb
4
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more