Идея проекта
В качестве исходных изображений, под чей стиль будет обучаться нейросеть StableDiffusion, я решила выбрать работы японского художника-мангаки Синъити Сакамото, который также известен по манге «Безвинный». Стиль этого художника достаточно уникален, приближен к реализму. Также поражает его невероятная кропотливость в изображении деталей, поэтому мне стало интересно, насколько хорошо нейросеть сможет сгенерировать итоговые изображения, учитывая эти особенности.
Подготовительные данные
В проекте использовались следующие инструменты:
— ChatGPT 4 для генерации промптов — Stable Diffusion — Google Colab — Hugging Face
Исходные изображения
Изображения для обучения были отобраны непосредственно из манги «Безвинный» Синъити Сакамото. Основная часть из них была обрезана под квадратный размер. Учитывая особенность манги в целом, все изображения были черно-белыми. Цель проекта заключалась в том, чтобы нейросеть смогла попасть именно в уникальный детализированный стиль автора.
Пример исходных изображений
Пример исходных изображений
Процесс обучения
После того как все изображения были собраны и подготовлены, можно было приступать уже к самому обучению нейросети.
Загрузка необходимых библиотек для работы
После установки всего необходимого, нужно было загрузить сами изображения. Для этого я использовала встроенную функцию в Google Colab.
Загрузка изображений
Проверка, что загрузка прошла успешно, и что в папке действительно все на месте
Еще один этап подготовки датасета для обучения — генерация подписей к каждому изображению с помощью BLIP.
Создание подписей для каждого изображения
Когда весь подготовительный этап был окончательно завершен, необходимо было ввести сгенерированный токен в систему Hugging Face. После чего можно было приступать к обучению нейросети. Для более быстрой и оптимизированный работы я выбрала разрешение изображений в 512 пикселей, максимальный шаг — 500, а чекпоинт — 250. Таким образом, все время тренировки составило 40 минут.
Обучение нейросети
Когда обучение было завершено, можно было сохранить полученную модель на Hugging Face, после чего приступать к генерации новых изображений.
Сохранение модели
Генерация изображений
Для первой пробы генерации был использован промпт «art in SAKAMOTO SHINICHI style, girl with a two-handed sword in Victorian clothes». Нейросеть отлично передала детализацию в изображении волос и одежды, и в целом общую атмосферу работ Синъити Сакамото. Однако явно заметны проблемы в изображении рук и черт лица, они слишком уж сломанные.
Сгенерированное изображение//Оригинальная работа
Следующие генерации были гораздо менее удачными: очевидно нейросеть с трудом изображает более одного человека на картинке, также ей не очень удается точно изобразить окружение в комбинации с людьми. Все еще наблюдаются проблемы с лицами и руками.
Для этого захода были использованы промпты:
- art in SAKAMOTO SHINICHI style, a portarit of male worker in a Victorian factory, surrounded by machinery, with a concentrated expression on his face, in a smoky and noisy room.
- art in SAKAMOTO SHINICHI style, a portarit of a Victorian scientist in a laboratory working on an experiment surrounded by glass flasks and books, with a desk lamp illuminating his face
- art in SAKAMOTO SHINICHI style, a portarit of a young musician playing the violin in an elegant suit
Сгенерированные изображения мужчин
Что было подмечено, так это то, что изображения, сгенерированные промптами, где присутствует слово «portrait» и обозначение века выглядят еще хуже. Также я заметила, что на ухудшаемость генерации влияет наличие слов, обозначающих эмоции. Поэтому было решено сокращать следующие промпты для генерации.
Сгенерированное изображение//Оригинальное изображение
Обученная нейросеть так или иначе хорошо справляется с изображением деталей, которые присущи стилю Сакамото.
Использованные промпты для изображений ниже:
- art in SAKAMOTO SHINICHI style, a young woman from high society, wearing a luxurious dress with a corset
- art in SAKAMOTO SHINICHI style, a young lady, wearing wearing a fashionable dress and a large hat with feathers
Сгенерированные изображения
Также интересным было то, как нейросеть генерировала уже цветные изображения. Для этого захода я решила протестировать еще и генерацию картинок именно какого-то окружения, без людей.
Использованные промпты для изображений ниже:
- art in SAKAMOTO SHINICHI style, framed composition of rose bouquets
- art in SAKAMOTO SHINICHI style composition of a blooming garden in spring, with various flowers such as tulips, daffodils and roses
- art in SAKAMOTO SHINICHI style, composition of a blooming garden in spring, with various flowers such as tulips, daffodils and roses, sky and grass
Цветные сгенерированные изображения
С генерацией изображений с каким-то окружением у нейросети обстоят дела куда лучше, объекты распознаваемы, при этом сохраняется стиль Сакамото Синъити. Узнается его характерный тонкий лайн и изображение теней.
Цветные сгенерированные изображения
Итог
В итоге нейросеть была обучена следующему: — Прорисовке деталей на одежде и волосах; — Тонкому лайну, характерному для работ художника; — Изображать людей в стиле «семи-реализм», который также присутствует в работах Синъити Сакамото.
Очевидно, такая нейросеть никак не способна заменить самого художника, как минимум, потому что она генерирует изображения с большим количеством артефактов, что, конечно же, никак нельзя ставить на один уровень с мастерством Синъити Сакамото.




