Original size 1140x1600

Обучение генеративной нейросети под стиль Здзислава Бексиньского

Идея проекта

Польский художник Здислав Бексиньский как будто предвосхитил взгляд машины — его картины буквально выглядят как результат нейросетевого сна — фрактальные, безвременные, постчеловеческие.

Изображённые фигуры и пространства — архитектуры без формы, которые как будто создал неживой организм. Картины Бексиньского — это предчувствие цифрового сознания, которое не знает, что такое человек, но бесконечно пытается его воссоздать.

Мне стало интересно попробовать обучить генеративную нейросеть на визуальных паттернах польского художника, чтобы увидеть, как машина интерпретирует то, что уже было похоже на «машинное» задолго до неё.

Процесс обучения

Для обучения нейросети был выбран Google Colab — он предоставляет бесплатный доступ к графическому процессору и очень прост и удобен в своих настройках и интерфейсе.

Original size 783x398

В самом начале я сменяю среду выполнения на графический процессор и с помощью кода проверяю доступ к GPU и его характеристикам, ведь без него мой процесс обучения был невозможен и выдавал ошибку при работе.

Далее я скачиваю необходимые библиотеки, а также загружаю скрипт обучения LoRA.

Original size 1788x490

Заранее был сформирован датасет — для обучения были найдены 200 различных картин Бексиньского, где максимально представлены его ключевые мотивы — сплетённые тела, обезображенные, безликие люди, разрушенные архитектуры и ландшафты, органические текстуры. Эти изображения отражают разнообразие форм, цветовых гамм и композиций, характерных для его творчества. Мне казалось, что такой подход позволил бы модели уловить в полной мере визуальные особенности и стилистическую логику художника.

Исходные изображения для обучения

После подготовки датасета в коде запускается демонстрация нескольких изображений, для того, чтобы проверить, что данные действительно загружены и отображаются корректно.

Потом модель генерирует текстовые описания к изображениям и сохраняет их с именами файлов в «metadata.jsonl». Далее содержимое файла выводится для проверки.

К сожалению, для обучения пришлось выбрать низкие настройки — оно происходило в течение 500 шагов и все изображения приводились к разрешению 512×512 пикселей. При попытках провести более длительное и качественное обучение, код работал не сразу и четырёх часов бесплатного использования графического процессора не хватало для окончания обучения и последующей генерации конечных изображений.

Original size 617x402

После того, как обучение завершилось, готовая LoRA-модель добавилась на Hugging Face. Затем загрузилась базовая модель SDXL с VAE-декодером, к ней подключилась обученная LoRA, после чего модель перенеслась на GPU для производительности.

Первая генерация изображения создавалась по базовому промпту для проверки, а затем можно было приступить к более проработанным описаниям сцен с детальным промптом.

Original size 1301x696

Результирующая серия изображений

Все изображения объединяет постапокалиптическая, мрачная атмосфера, изолированные объекты, окружённые пустотой и туманом. Визуально модель довольно узнаваемо воспроизводит общие стилистические и композиционные приёмы Бексиньского.

При внимательном рассмотрении становится очевидно, что между подлинными картинами и имитациями модели есть существенная пропасть. Сгенерированные изображения часто слишком буквальные, слишком структурированные, легко читаемые, с чёткой архитектурной логикой. У Бексиньского архитектура нередко теряет реальные очертания, превращается в нечто органическое, подверженное гниению, сомнению, сном или страху.

Текстура у сгенерированных изображений получилась слишком плавная. Она передаёт ощущение старости, пыли, но в ней нет той органической глубины, с которой работает Бексиньский.

Сгенерированные изображения слишком прямолинейны. У Бексиньского такие символы всегда более абстрактны, и потому сильнее — они вызывают тревогу именно потому, что не до конца понятны.

Интересно, что при создании изображений в стиле Бексиньского от модели, наоборот, ожидались менее «умелые» и более ошибочные, странные, «недоделанные» визуализации — как в самом начале становления ИИ. Ведь сам художник в своих работах балансирует на грани узнаваемого и бессознательного, скомканного ощущения, подсознательного ужаса.

Изначально казалось, что модель будет выдавать что-то похожее по природе своей — не до конца логичное, с нарушенной перспективой, неуместными пропорциями, разорванной композицией — и именно это могло бы быть ближе к духу Бексиньского. Но по итогу происходит парадокс — генеративная модель стремится быть слишком правильной. Она выстраивает композицию с архитектурной логикой, уж слишком точно имитирует стиль — и именно в этом теряет хаос, неуверенность, рваность формы, которая и делает стиль Бексиньского таким живым.

Ссылка на код

Используемые генеративные модели

Chat GPT — помощь в исправлении ошибок в коде и в формулировке промптов для серии изображений

Обучение генеративной нейросети под стиль Здзислава Бексиньского

Nikolay Savelev

artificial intelligence

We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...