Original size 1140x1600

Обучение генеративной нейросети Stable Diffusion под стиль Sakamoto Shinich

Идея проекта

В качестве исходных изображений, под чей стиль будет обучаться нейросеть StableDiffusion, я решила выбрать работы японского художника-мангаки Синъити Сакамото, который также известен по манге «Безвинный». Стиль этого художника достаточно уникален, приближен к реализму. Также поражает его невероятная кропотливость в изображении деталей, поэтому мне стало интересно, насколько хорошо нейросеть сможет сгенерировать итоговые изображения, учитывая эти особенности.

Подготовительные данные

В проекте использовались следующие инструменты:

— ChatGPT 4 для генерации промптов — Stable Diffusion — Google Colab — Hugging Face

Исходные изображения

Изображения для обучения были отобраны непосредственно из манги «Безвинный» Синъити Сакамото. Основная часть из них была обрезана под квадратный размер. Учитывая особенность манги в целом, все изображения были черно-белыми. Цель проекта заключалась в том, чтобы нейросеть смогла попасть именно в уникальный детализированный стиль автора.

Original size 3013x736

Пример исходных изображений

Original size 3013x736

Пример исходных изображений

Процесс обучения

После того как все изображения были собраны и подготовлены, можно было приступать уже к самому обучению нейросети.

Загрузка необходимых библиотек для работы

После установки всего необходимого, нужно было загрузить сами изображения. Для этого я использовала встроенную функцию в Google Colab.

Original size 1230x701

Загрузка изображений

Original size 1740x619

Проверка, что загрузка прошла успешно, и что в папке действительно все на месте

Еще один этап подготовки датасета для обучения — генерация подписей к каждому изображению с помощью BLIP.

Создание подписей для каждого изображения

Когда весь подготовительный этап был окончательно завершен, необходимо было ввести сгенерированный токен в систему Hugging Face. После чего можно было приступать к обучению нейросети. Для более быстрой и оптимизированный работы я выбрала разрешение изображений в 512 пикселей, максимальный шаг — 500, а чекпоинт — 250. Таким образом, все время тренировки составило 40 минут.

Обучение нейросети

Когда обучение было завершено, можно было сохранить полученную модель на Hugging Face, после чего приступать к генерации новых изображений.

Сохранение модели

Генерация изображений

Для первой пробы генерации был использован промпт «art in SAKAMOTO SHINICHI style, girl with a two-handed sword in Victorian clothes». Нейросеть отлично передала детализацию в изображении волос и одежды, и в целом общую атмосферу работ Синъити Сакамото. Однако явно заметны проблемы в изображении рук и черт лица, они слишком уж сломанные.

Сгенерированное изображение//Оригинальная работа

Следующие генерации были гораздо менее удачными: очевидно нейросеть с трудом изображает более одного человека на картинке, также ей не очень удается точно изобразить окружение в комбинации с людьми. Все еще наблюдаются проблемы с лицами и руками.

Для этого захода были использованы промпты:

art in SAKAMOTO SHINICHI style, a portarit of male worker in a Victorian factory, surrounded by machinery, with a concentrated expression on his face, in a smoky and noisy room.
art in SAKAMOTO SHINICHI style, a portarit of a Victorian scientist in a laboratory working on an experiment surrounded by glass flasks and books, with a desk lamp illuminating his face
art in SAKAMOTO SHINICHI style, a portarit of a young musician playing the violin in an elegant suit

Сгенерированные изображения мужчин

Что было подмечено, так это то, что изображения, сгенерированные промптами, где присутствует слово «portrait» и обозначение века выглядят еще хуже. Также я заметила, что на ухудшаемость генерации влияет наличие слов, обозначающих эмоции. Поэтому было решено сокращать следующие промпты для генерации.

Сгенерированное изображение//Оригинальное изображение

Обученная нейросеть так или иначе хорошо справляется с изображением деталей, которые присущи стилю Сакамото.

Использованные промпты для изображений ниже:

art in SAKAMOTO SHINICHI style, a young woman from high society, wearing a luxurious dress with a corset
art in SAKAMOTO SHINICHI style, a young lady, wearing wearing a fashionable dress and a large hat with feathers

Сгенерированные изображения

Также интересным было то, как нейросеть генерировала уже цветные изображения. Для этого захода я решила протестировать еще и генерацию картинок именно какого-то окружения, без людей.

Использованные промпты для изображений ниже:

art in SAKAMOTO SHINICHI style, framed composition of rose bouquets
art in SAKAMOTO SHINICHI style composition of a blooming garden in spring, with various flowers such as tulips, daffodils and roses
art in SAKAMOTO SHINICHI style, composition of a blooming garden in spring, with various flowers such as tulips, daffodils and roses, sky and grass

Цветные сгенерированные изображения

С генерацией изображений с каким-то окружением у нейросети обстоят дела куда лучше, объекты распознаваемы, при этом сохраняется стиль Сакамото Синъити. Узнается его характерный тонкий лайн и изображение теней.

Цветные сгенерированные изображения

Итог

В итоге нейросеть была обучена следующему: - Прорисовке деталей на одежде и волосах; - Тонкому лайну, характерному для работ художника; - Изображать людей в стиле «семи-реализм», который также присутствует в работах Синъити Сакамото.

Очевидно, такая нейросеть никак не способна заменить самого художника, как минимум, потому что она генерирует изображения с большим количеством артефактов, что, конечно же, никак нельзя ставить на один уровень с мастерством Синъити Сакамото.

Ссылка на блокнот с кодом

Обучение генеративной нейросети Stable Diffusion под стиль Sakamoto Shinich

Daria Markina

artificial intelligence

We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...