Original size 2324x3280

Обучение генеративной модели на основе картин Шона Тана

PROTECT STATUS: not protected
29

Концепция

Учебный проект направленный на дообучение модели Stable Diffusion на стиль конкретного автора. Я решил остановится на творчестве Шона Тана, поскольку мне безумно симпатизирует его около мифическая техника рисования. Руководствуясь этим я решил сгенерировать сказку о красной шапочке с помощью стиля этого автора. Мне кажется что стиль этого художника прекрасно подходит для такого рода сказках которые можно отразить и как семейные ламповые истории, так и около мрачные мистический сказы.

Картины Шона Тана из базы данных для обучения

big
Original size 2000x1366

Картина Шона Тана из базы данных для обучения

Обучение модели

Перед началом я обновил окружение и установил все необходимые библиотеки. Среди них — diffusers для генерации изображений, transformers, accelerate, а также скрипт с GitHub, который отвечает за обучение модели с использованием LoRA. Это обеспечило готовую техническую основу для кастомизации Stable Diffusion под стилистику Шона Тана.

big
Original size 2088x1035

Затем я загрузил в рабочую директорию подготовленный датасет из 30+ квадратных иллюстраций, выполненных в стиле Шона Тана. Изображения были собраны вручную из его книг — в основном из «The Arrival», «Tales from Outer Suburbia», «The Lost Thing» и других. Чтобы убедиться, что изображения перенеслись корректно и читаются без ошибок, нужно визуализировать несколько случайных примеров из датасета.

Original size 2088x1035

Далее нужно сгенерировать описания к каждому изображению с помощью BLIP — модели, которая автоматически формирует краткие текстовые промты по содержимому картинки. Эти текстовые описания необходимы, чтобы нейросеть могла связать визуальные образы с понятными текстовыми запросами во время генерации.

Original size 2088x869

После генерации описаний я добавил к каждому из них специальный маркер — токен photo collage in SHAUNTAN style. Это необходимо для того, чтобы во время генерации Stable Diffusion распознавал, какой стиль требуется воссоздать. Все полученные строки я сохранил в отдельный файл с подписями. Далее я проверил соответствуют ли промты заданным параметрам.

Original size 2088x400

Я настроил конфигурацию обучения через accelerate config, чтобы распределить ресурсы и подготовить окружение. Далее я авторизовался на Hugging Face, получил токен доступа и добавил его в проект, чтобы позже можно было загрузить модель в облако.

Original size 2088x339

После всех подготовительных этапов я перешёл к самому обучению. Использовал kohya-trainer, который позволяет проводить дообучение Stable Diffusion с помощью LoRA. Запустил процесс через accelerate launch, модель начала распознавать стиль Шона Тана — приглушённую палитру, текстурные поверхности, сюрреалистичную композицию и эмоциональную глубину.

Original size 2088x1161

Когда обучение завершилось, я выгрузил полученную модель на Hugging Face. Она получила уникальный идентификатор и теперь доступна для использования в генерации изображений.

Original size 2088x1177

Финальный этап — генерация изображений в стиле Шона Тана. Я загрузил стандартную модель Stable Diffusion и подключил к ней свою обученную LoRA. Далее стал использовать текстовые описания, чтобы создать серию сцен из сказки «Красная Шапочка» — через призму странного, лиричного и тревожного мира, в духе иллюстраций Тана.

Сгенерированная серия

Я выбрал стиль Шона Тана для переосмысления «Красной Шапочки», потому что его визуальный язык отлично передаёт атмосферу тревоги, одиночества и странности. В его стилистике лес превращается в метафору внутреннего мира, а путь героини — в символ взросления и столкновения с неизвестным. Такой подход позволяет рассказать знакомую сказку через визуальные образы, наполненные тишиной, текстурами и эмоциональной глубиной.

Природа

С генерацией леса как основного места действия не возникло никаких проблем. После обучения нейросети она смогла выдать неплохой результат. Лес получился таинственный полный мелких деталей и с некой мистической атмосферой.

Original size 3184x2118

Атмосфера сказки, смешанная с лёгкой меланхолией, — именно то, что характерно для стиля Шона Тана, и нейросети удалось довольно точно передать это ощущение. Конечно, уникальную манеру Тана с его вниманием к мельчайшим деталям сложно воспроизвести полностью, но даже при ограниченном обучении результат оказался выразительным. Возможно, при более глубокой настройке модель смогла бы приблизиться ещё ближе к его визуальному языку и по-настоящему удивить.

Красная шапочка

К моему удивлению, нейросети удалось довольно точно передать пропорции и стилистику, в которой Шон Тан изображает детей. Хотя результат получился неидеальным, он всё же оказался близким к оригиналу и хорошо передаёт характерную наивность и уязвимость персонажей в его работах.

Волк

Однако с животными, особенно с образом волка, возникли сложности — нейросеть не всегда справлялась с их анатомией и характерной подачей. В работах Тана существа часто выглядят одновременно фантастическими и уместными в рамках его мира, что сложно воспроизвести без дополнительного обучения на специфичных примерах.

После нескольких попыток результат стал заметно лучше — волк выглядел уже более уместно и аккуратно. Однако всё ещё сложно представить, что Шон Тан изобразил бы его именно так. Образ получился слишком типичным, лишённым той странности и фантазийности, которые характерны для его существ, даже если с технической точки зрения всё выполнено неплохо.

Original size 2088x1311

Бабушка

Бабушку нейросеть сгенерировала без особых проблем — её образ получился в духе общей стилистики, с правильным настроением и характером. Хотя я заметил, что при попытках усложнить промт результат становился менее стабильным и предсказуемым: появлялись странные детали или искажения, не всегда уместные в контексте.

Original size 2130x1024

А вот и тигрёнок — совершенно не по сюжету, но получился на удивление милым. Пусть и не имеет отношения к «Красной Шапочке», но смотрится органично, почти как гость из другой сказки.

Original size 2088x1024

Вывод

В итоге, нейросети удалось достаточно точно уловить атмосферу работ Шона Тана и перенести её на классическую историю «Красной Шапочки». Несмотря на отдельные сложности с генерацией животных и непредсказуемостью при сложных промтах, результат оказался выразительным и визуально цельным. Образы персонажей получились близкими к оригинальной стилистике — особенно дети и окружающая среда. Проект показал, что при грамотной подготовке датасета и подходе к обучению можно добиться довольно убедительной стилизации, а с дальнейшей доработкой — приблизиться ещё ближе к тонкому и поэтичному миру, характерному для Шона.

Описание процесса работы

- Для дополнения кода был использован Chat-GPT

- Для генерации изображений была использована Stable Diffusion

- Все промты и сгенерированные изображения можно найти в коде

Обучение генеративной модели на основе картин Шона Тана
29
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more