
Концепция
Учебный проект направленный на дообучение модели Stable Diffusion на стиль конкретного автора. Я решил остановится на творчестве Шона Тана, поскольку мне безумно симпатизирует его около мифическая техника рисования. Руководствуясь этим я решил сгенерировать сказку о красной шапочке с помощью стиля этого автора. Мне кажется что стиль этого художника прекрасно подходит для такого рода сказках которые можно отразить и как семейные ламповые истории, так и около мрачные мистический сказы.


Картины Шона Тана из базы данных для обучения

Картина Шона Тана из базы данных для обучения
Обучение модели
Перед началом я обновил окружение и установил все необходимые библиотеки. Среди них — diffusers для генерации изображений, transformers, accelerate, а также скрипт с GitHub, который отвечает за обучение модели с использованием LoRA. Это обеспечило готовую техническую основу для кастомизации Stable Diffusion под стилистику Шона Тана.

Затем я загрузил в рабочую директорию подготовленный датасет из 30+ квадратных иллюстраций, выполненных в стиле Шона Тана. Изображения были собраны вручную из его книг — в основном из «The Arrival», «Tales from Outer Suburbia», «The Lost Thing» и других. Чтобы убедиться, что изображения перенеслись корректно и читаются без ошибок, нужно визуализировать несколько случайных примеров из датасета.
Далее нужно сгенерировать описания к каждому изображению с помощью BLIP — модели, которая автоматически формирует краткие текстовые промты по содержимому картинки. Эти текстовые описания необходимы, чтобы нейросеть могла связать визуальные образы с понятными текстовыми запросами во время генерации.
После генерации описаний я добавил к каждому из них специальный маркер — токен photo collage in SHAUNTAN style. Это необходимо для того, чтобы во время генерации Stable Diffusion распознавал, какой стиль требуется воссоздать. Все полученные строки я сохранил в отдельный файл с подписями. Далее я проверил соответствуют ли промты заданным параметрам.
Я настроил конфигурацию обучения через accelerate config, чтобы распределить ресурсы и подготовить окружение. Далее я авторизовался на Hugging Face, получил токен доступа и добавил его в проект, чтобы позже можно было загрузить модель в облако.
После всех подготовительных этапов я перешёл к самому обучению. Использовал kohya-trainer, который позволяет проводить дообучение Stable Diffusion с помощью LoRA. Запустил процесс через accelerate launch, модель начала распознавать стиль Шона Тана — приглушённую палитру, текстурные поверхности, сюрреалистичную композицию и эмоциональную глубину.
Когда обучение завершилось, я выгрузил полученную модель на Hugging Face. Она получила уникальный идентификатор и теперь доступна для использования в генерации изображений.
Финальный этап — генерация изображений в стиле Шона Тана. Я загрузил стандартную модель Stable Diffusion и подключил к ней свою обученную LoRA. Далее стал использовать текстовые описания, чтобы создать серию сцен из сказки «Красная Шапочка» — через призму странного, лиричного и тревожного мира, в духе иллюстраций Тана.
Сгенерированная серия
Я выбрал стиль Шона Тана для переосмысления «Красной Шапочки», потому что его визуальный язык отлично передаёт атмосферу тревоги, одиночества и странности. В его стилистике лес превращается в метафору внутреннего мира, а путь героини — в символ взросления и столкновения с неизвестным. Такой подход позволяет рассказать знакомую сказку через визуальные образы, наполненные тишиной, текстурами и эмоциональной глубиной.
Природа
С генерацией леса как основного места действия не возникло никаких проблем. После обучения нейросети она смогла выдать неплохой результат. Лес получился таинственный полный мелких деталей и с некой мистической атмосферой.
Атмосфера сказки, смешанная с лёгкой меланхолией, — именно то, что характерно для стиля Шона Тана, и нейросети удалось довольно точно передать это ощущение. Конечно, уникальную манеру Тана с его вниманием к мельчайшим деталям сложно воспроизвести полностью, но даже при ограниченном обучении результат оказался выразительным. Возможно, при более глубокой настройке модель смогла бы приблизиться ещё ближе к его визуальному языку и по-настоящему удивить.
Красная шапочка
К моему удивлению, нейросети удалось довольно точно передать пропорции и стилистику, в которой Шон Тан изображает детей. Хотя результат получился неидеальным, он всё же оказался близким к оригиналу и хорошо передаёт характерную наивность и уязвимость персонажей в его работах.


Волк
Однако с животными, особенно с образом волка, возникли сложности — нейросеть не всегда справлялась с их анатомией и характерной подачей. В работах Тана существа часто выглядят одновременно фантастическими и уместными в рамках его мира, что сложно воспроизвести без дополнительного обучения на специфичных примерах.


После нескольких попыток результат стал заметно лучше — волк выглядел уже более уместно и аккуратно. Однако всё ещё сложно представить, что Шон Тан изобразил бы его именно так. Образ получился слишком типичным, лишённым той странности и фантазийности, которые характерны для его существ, даже если с технической точки зрения всё выполнено неплохо.


Бабушка
Бабушку нейросеть сгенерировала без особых проблем — её образ получился в духе общей стилистики, с правильным настроением и характером. Хотя я заметил, что при попытках усложнить промт результат становился менее стабильным и предсказуемым: появлялись странные детали или искажения, не всегда уместные в контексте.


А вот и тигрёнок — совершенно не по сюжету, но получился на удивление милым. Пусть и не имеет отношения к «Красной Шапочке», но смотрится органично, почти как гость из другой сказки.
Вывод
В итоге, нейросети удалось достаточно точно уловить атмосферу работ Шона Тана и перенести её на классическую историю «Красной Шапочки». Несмотря на отдельные сложности с генерацией животных и непредсказуемостью при сложных промтах, результат оказался выразительным и визуально цельным. Образы персонажей получились близкими к оригинальной стилистике — особенно дети и окружающая среда. Проект показал, что при грамотной подготовке датасета и подходе к обучению можно добиться довольно убедительной стилизации, а с дальнейшей доработкой — приблизиться ещё ближе к тонкому и поэтичному миру, характерному для Шона.
Описание процесса работы
- Для дополнения кода был использован Chat-GPT
- Для генерации изображений была использована Stable Diffusion
- Все промты и сгенерированные изображения можно найти в коде