
Идея проекта
В качестве исходных изображений, под чей стиль будет обучаться нейросеть StableDiffusion, я решила выбрать работы японского художника-мангаки Синъити Сакамото, который также известен по манге «Безвинный». Стиль этого художника достаточно уникален, приближен к реализму. Также поражает его невероятная кропотливость в изображении деталей, поэтому мне стало интересно, насколько хорошо нейросеть сможет сгенерировать итоговые изображения, учитывая эти особенности.
Подготовительные данные
В проекте использовались следующие инструменты:
— ChatGPT 4 для генерации промптов — Stable Diffusion — Google Colab — Hugging Face
Исходные изображения
Изображения для обучения были отобраны непосредственно из манги «Безвинный» Синъити Сакамото. Основная часть из них была обрезана под квадратный размер. Учитывая особенность манги в целом, все изображения были черно-белыми. Цель проекта заключалась в том, чтобы нейросеть смогла попасть именно в уникальный детализированный стиль автора.

Пример исходных изображений

Пример исходных изображений
Процесс обучения
После того как все изображения были собраны и подготовлены, можно было приступать уже к самому обучению нейросети.
Загрузка необходимых библиотек для работы
После установки всего необходимого, нужно было загрузить сами изображения. Для этого я использовала встроенную функцию в Google Colab.
Загрузка изображений
Проверка, что загрузка прошла успешно, и что в папке действительно все на месте
Еще один этап подготовки датасета для обучения — генерация подписей к каждому изображению с помощью BLIP.
Создание подписей для каждого изображения
Когда весь подготовительный этап был окончательно завершен, необходимо было ввести сгенерированный токен в систему Hugging Face. После чего можно было приступать к обучению нейросети. Для более быстрой и оптимизированный работы я выбрала разрешение изображений в 512 пикселей, максимальный шаг — 500, а чекпоинт — 250. Таким образом, все время тренировки составило 40 минут.
Обучение нейросети
Когда обучение было завершено, можно было сохранить полученную модель на Hugging Face, после чего приступать к генерации новых изображений.
Сохранение модели
Генерация изображений
Для первой пробы генерации был использован промпт «art in SAKAMOTO SHINICHI style, girl with a two-handed sword in Victorian clothes». Нейросеть отлично передала детализацию в изображении волос и одежды, и в целом общую атмосферу работ Синъити Сакамото. Однако явно заметны проблемы в изображении рук и черт лица, они слишком уж сломанные.


Сгенерированное изображение//Оригинальная работа
Следующие генерации были гораздо менее удачными: очевидно нейросеть с трудом изображает более одного человека на картинке, также ей не очень удается точно изобразить окружение в комбинации с людьми. Все еще наблюдаются проблемы с лицами и руками.
Для этого захода были использованы промпты:
Сгенерированные изображения мужчин
Что было подмечено, так это то, что изображения, сгенерированные промптами, где присутствует слово «portrait» и обозначение века выглядят еще хуже. Также я заметила, что на ухудшаемость генерации влияет наличие слов, обозначающих эмоции. Поэтому было решено сокращать следующие промпты для генерации.


Сгенерированное изображение//Оригинальное изображение
Обученная нейросеть так или иначе хорошо справляется с изображением деталей, которые присущи стилю Сакамото.
Использованные промпты для изображений ниже:


Сгенерированные изображения
Также интересным было то, как нейросеть генерировала уже цветные изображения. Для этого захода я решила протестировать еще и генерацию картинок именно какого-то окружения, без людей.
Использованные промпты для изображений ниже:
Цветные сгенерированные изображения
С генерацией изображений с каким-то окружением у нейросети обстоят дела куда лучше, объекты распознаваемы, при этом сохраняется стиль Сакамото Синъити. Узнается его характерный тонкий лайн и изображение теней.


Цветные сгенерированные изображения
Итог
В итоге нейросеть была обучена следующему: - Прорисовке деталей на одежде и волосах; - Тонкому лайну, характерному для работ художника; - Изображать людей в стиле «семи-реализм», который также присутствует в работах Синъити Сакамото.
Очевидно, такая нейросеть никак не способна заменить самого художника, как минимум, потому что она генерирует изображения с большим количеством артефактов, что, конечно же, никак нельзя ставить на один уровень с мастерством Синъити Сакамото.