Original size 1240x1750

Обучение генеративной нейросети под стиль комиксов W.I.T.C.H.

Концепция проекта

Целью данного проекта является обучение генеративной нейросети Stable Diffusion для создания изображений в стиле итальянского комикса W.I.T.C.H. — популярной серии о пяти девушках, обладающих магическими способностями. Этот комикс отличается уникальной эстетикой: яркими, выразительными персонажами, динамичной прорисовкой эмоций, характерной цветовой палитрой и стилизованными элементами фэнтези-антуража.

Original size 1650x1080

Иллюстрации персонажей из комиксов

Ключевой задачей являлось научить нейросеть воспроизводить уникальные черты стиля, такие как характерный дизайн персонажей (крупные глаза, стилизованные прически, динамичные позы), а также узнаваемую цветовую палитру (яркие, но не кричащие оттенки, контрастные тени).

Подготовка датасета и инструментов

Для обучения нейросети использовались:

Датасет: - 31 изображений из комиксов (размер 1000×1000 px), отобранные для сохранения стилевой целостности.

Платформы: - Hugging Face (для доступа к предобученным моделям Stable Diffusion). - Kaggle (для обработки данных и тестирования)

Original size 1650x1080

Часть изображений из датасета

Результирующая серия изображений

Сгенерированные изображения демонстрируют, на мой взгляд, успешное усвоение стиля, но с некоторыми отклонениями. Например, на этих 2 изображениях выше был использован промпт где была подробно расписана внешность (цвет и структура волос, эмоции, глаза), а также указан акцент на высокое качество детализации и качества, поэтому персонажи отлично передают характерные черты: большие глаза с бликами, сложные прически, яркие улыбки, овал лиц и тд. Однако есть проблемные моменты с анатомией, как мы видим, руки вышли деформированными, и довольно хаотичный фон из неудачных копий персонажей.

На этих 2 сгенерированных изображениях в промптах был акцент на 3 вещах: на количество персонажей (указывалось ровно 5), на их одежу ведьмочек/чародеек, а также на магию и стихии (огонь, вода, воздух, земля) Хочется отметить что нейросеть действительно неплохо сделала акцент на магии и стихиях, например она хорошо изобразила стихию огня и воды. Также она изобразила героинь в костюмах как и было прописано в промпте.

Проблемные моменты: руки деформированы, глаза асимметричны либо их вообще нет, конечности смешиваются с другими Также нейросеть иногда добавляла лишних персонажей (например, вместо 5 героинь — 7–9 фигур).

Некоторые изображения довольно близко попали в стиль оригинала благодаря точной прорисовки лиц, эмоций, теней, цветовой палитре, прическам.

Другие содержат «чужие» элементы, как например на этих 2 изображениях, где в промптах шел акцент на готику, мрачные черно-багровые тона в злодейском стиле, поэтому данный стиль довольно сильно отошел от оригинального в плане цветовой палитры и рисовки, однако сохранил некоторые детали и черты лица и волос

Процесс обучения нейросети

Original size 1650x1080

Фрагменты начального этапа генерации

Original size 1650x1080

Импорт подготовленного датасета

Original size 1650x1080

Настройка необходимых параметров для генерации изображений

После того как полученная модель сохранялась в Hugging Face, можно было приступать к этапу генерации промптов.

Original size 1650x1080

prompt: a photo collage in CHARODEYKI style, A detailed portrait of a smiling young red-haired girl with short hair

Для получения более качественных и детализированных изображений, использовались ChatGPT и DeepSeek, которые помогали при составлении и улучшении промптов

Например, для получения такого качественного и довольно близкого к заданному стилю изображению, chatGPT подсказал использовать следующий промпт: «a photo collage in CHARODEYKI style, A detailed portrait of a one smiling young red-haired girl with short hair, wearing a stylish magical school uniform, bright green eyes, confident smile. Art style inspired by WITCH comics, clean line art, vibrant colors, soft shading, expressive face. High detail, sharp focus, 4K resolution, professional coloring»

Вывод

В рамках данного проекта была успешно адаптирована модель Stable Diffusion для генерации изображений в стиле комиксов W.I.T.C.H. Использование датасета из 31 изображения и методов настройки необходимых инструментов позволило добиться следующих выводов: - Нейросеть научилась воспроизводить ключевые элементы стиля, а именно характерный дизайн персонажей (крупные глаза, улыбка, черты лиц) и узнаваемую цветовую палитру - Однако проявились и типичные проблемы генеративных моделей, такие как искажения в анатомии (руки, глаза), ошибки в количестве персонажей и иногда потеря детализации в сложных сценах (чаще всего это были те где несколько персонажей)

Диск с кодом и датасетом

Обучение генеративной нейросети под стиль комиксов W.I.T.C.H.

Amal Tilloeva

artificial intelligence

We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...