Original size 2480x3500

Конструирование снов с помощью обучения нейросети

PROTECT STATUS: not protected
16

О задуманном

Норман Чарльз Блейми, художник, подаривший основу этому проекту, прожил свою историю очень разнообразно, ассоциируя себя с профессиями и делами часто не связанными между собой. В общем, был очень трудолюбивым, любопытным, хоть и спокойным, а также рукастым человеком. Фундаментом его стиля стали сама его сущность и опыт, сохраненные в жизни. Так, в его проектах часто встречаются портреты людей-профессионалов, а также вытянутые как и сам он картины, проецирующие то, что он как будто снял со своей сетчатки глаза.

big
Original size 4168x983

Самое интересное в творчестве Блейми — то, как он передает лица. На всех картинах они получаются невесомыми, мягкими, очень аккуратными, как изображения призраков времени. В прочем, так оно и бывает с портретами.

big
Original size 4168x654

Обучение нейросети в данном случае сосредоточилось на том, как лица с портретов Нормана Чарльза Блейми напоминают сгенерированные нашим мозгом во сне. Я предложила Chat GPT написать 12 сценариев для сновидений — абсурдных, колоритных и похожих на истории из фэнтезийных книжек. А нейросеть, специально обученная рисовать в стиле нашего художника, смогла эти сценарии визуализировать и оживить.

Процесс обучения

В Google Colab были загружены необходимые библиотеки и проверена работа удаленного процессора. После этого я приступила к загрузке данных: создала папку с удобным названием и загрузила туда 23 квадратных изображения с картинами Нормана Чарльза Блейми. Затем изменила их размер на удобный для обучения генеративной модели и вывела на экран для удобства.

big
Original size 4168x1007

Следующим важным этапом стали подписи к каждой картинке, формируемые с помощью BLIP.

Original size 4168x1157

Далее, пропуская некоторые мелкие особенности, я перешла к тренировке модели через accelerate config, на что потребовалось почти 2 часа реального времени. Так вышло потому что я уменьшила показатель checkpointing_steps для большей вариативности при генерации. После этого сохранила модель и быстро перешла к генерации, пока удаленный графический процессор еще был активен.

Original size 4168x1907

Также прилагаю часть кода с процессом генерации. Я несколько раз меняла чекпоинты и на каждый промпт генерировала по 3 картинки, чтобы потом выбрать наиболее точные и подходящие. В итоге с 12-ю промптами получилось 36 картинок, многие из которых совсем странные, но есть и очень эстетичные экземпляры.

Original size 4168x1757

Результат генерации

Original size 3713x1197

Промпт: A figure made of starlight stands in a vast, empty library.

Первый промпт предполагал, что в центре композиции окажется фигура, сделанная из звездного света, стоящая посреди библиотеки. Нейросеть восприняла это задание немного по-другому, посреди библиотечного коридора встал священник или мудрец. На первых двух фотографиях это мужчины, устремившие свой взгляд к потолку из звезд. Такой результат не слишком похож на картины Блейми из-за излишней сюрреалистичности и плавных градиентов. Однако с последней картинкой нейросеть уже уподобилась в исполнении технике художника, использовав более текстурные заливки и совмещая рядом контрастные цвета. Мне очень понравилось, что над головой женщины появилось круглое окно с одинокой звездой, продолжающей движение снизу вверх по картинке.

Original size 3713x1197

Промпт: A person with a clock for a head is watering flowers that grow upwards into the sky.

Второй промпт также был воспринят не совсем правильно. У мужчины вместо головы должны были появиться часы, а цветы должны были расти с неба и олицетворять движение всего живого ко времени. Больше всего мне откликнулась первая картинка, опять же из-за своей текстурности, интересной и приятной композиции и цветов. Самые длинные растения расположились по краям картинки, а короткие посередине. Часы сами стали поливать цветы, что в целом тоже подходит концепции, а также в самой середине сюжета расположилась эмоциональная сцена с садовником и раздосадованным офисным работником.

Original size 3713x1197

Промпт: Someone wearing a suit made of mirrors walks across a field of melting clocks.

Исполнение с данным заданием разделилось на две части по правильности: вторая и третья картинки сосредоточились на тающих часах, как на картине у Дали, однако упустили стиль художника и первую часть промпта. Гораздо лучше с задачей справилось первое изображение, хоть и часов на поле не видно, но костюм офисного работника начинает отражать окружение и светиться, а также в композиции появляется динамика и интересный смысл, ее хочется разглядывать, чтобы понять, стаканы там вокруг него или нечто другое.

Original size 3713x1197

Промпт: A face half human, half blooming rose, whispers secrets into a seashell.

Мне лично очень понравился промпт, предложенный Chat GPT для четвертой генерации. Девушка, лицо которой наполовину состоит из цветущей розы, шепчет в морскую ракушку. В этот раз нейросеть очень хорошо справилась с передачей стиля художника, особенно в моменте с цветами и ракушками. Вторая картинка очень приятно передает розовую половину лица у девушки, аккуратно закольцовывает композицию касанием рукой девушки цветка. Но больше всего мне понравилось, как нейросеть сгенерировала первую картинку. Да, шепчет девушка там не в ракушку, а в саму розу, но ракушки-чешуйки начинают обволакивать ее образ, составляя костюм как от кутюрье, насыщенные переливами и светом. Помимо прочего, на этой картинке лицо девушки более всего похоже на лица от Блейми — вытянутое, рельефное, необычное.

Original size 3713x1197

Промпт: A person whose skin is made of cracked porcelain gazes at a lunar eclipse.

Человек, чья кожа похожа на потрескавшийся фарфор, смотрит на полную луну. Первые два изображения смогли хорошо передать запрос, создав не только картинку в стиле Чарльза Нормана Блейми, но и в целом композиционно и стилистически красивые сюжеты, которые могли бы понравиться многим. На первой очень хорошо то, что лицо героя деконструировалось в соответствии с идеей, а окружение из сухих камней дополнило одинокое существование фигуры. Вторая картинка вышла чуть ли не самой красивой во всем проекте, так как эмоция, переданная на лице девушки коррелирует и с заданием и с ощущением вокруг, заставляя прочувствовать сонную атмосферу и приятный ночной ветерок.

Original size 3713x1197

Промпт: A silhouette filled with swirling nebulae floats above a city made of candy.

Единственная часть обучения, которой я полностью недовольна. Даже из трех картинок, созданных генерациями с разными чекпоинтами, ни одна не смогла точно передать ни запрос, ни стиль художника. Проблески отклика нейросети на задачу появляются только на второй картинке, она более сбалансирована по цветам, там присутствует текстурность и более детализированные дома. Если это хтоническое облако можно принять за силуэт, наполненный скрученными галактиками, то эту картинку можно назвать лучшей из этапа генерации.

Original size 3713x1197

Промпт: A figure with eyes that are galaxies weeps tears that turn into butterflies.

Очень хорошие результаты для всех трех попыток получились в этом задании. Девушка, чьи глаза похожи на галактики, плачет и ее слезы превращаются в бабочек. Все изображения получились высокого качества, где-то более стилизованные, где-то менее. Правая картинка хорошо передает плач девушки, оставляя водянистые разводы на ее лице. Но более всего мне нравится первый результат, так как лицо опять наиболее приближается к работам Блейми, а картинка выглядит очень живописно, чувствуется, будто ее слезы заполонили все пространство, а через воду видно даже продолжение ее головы. Такое изображение наиболее похоже на работы сюрреалистов-живописцев.

Original size 3713x1197

Промпт: A person with hands of tree branches holds a birdcage containing the sun.

Этот промпт, может, и не был передан полностью по своей задумке, но получился очень интересным на выходе. Три изображения практически сформировались в видео секвенцию, в которой гнездовье солнце расширяется и обволакивает птичью клетку. Если бы на второй картинке не пропала птичка, а руки остались бы на своем месте под клеткой, получился бы идеальный результат.

Loading...

Я попробовала сгенерировать видео на основе трех key-frames с нейросетью Runway Gen 4, не задавая дополнительных промптов. Опять же, если бы на второй картинке не менялась композиция, переходы получились бы очень плавными и идеально красивыми.

Original size 3713x1197

Промпт: Someone submerged in water, but breathing air, is reading a book made of leaves.

Какой сумасшедший промпт предложил мне Chat GPT, такой же сумасшедший результат я и получила. Первое изображение напоминает бумажный самолетик, приземлившийся на воду. Такую картинку вполне можно было бы встретить где-то в социальной сети Одноклассники с фразой о жизни. Вторая и третья картинки вышли из странной рекламы зеленого чая, но последняя наиболее точно передает стиль Блейми и интересную технику.

Original size 3713x1197

Промпт: A face covered in geometric patterns stares intently at a single, floating feather.

Очень красивые картинки получились для этого промпта. Несмотря на то, что идея с пером потерялась, геометрические паттерны и текстуры чудесно легли в основу образа снежной королевы на этих изображениях. Особенно вторая картинка могла бы послужить для рекламы, например, новой коллекции духов Brocard с тематикой русского фольклора.

Original size 3713x1197

Промпт: A figure whose body is a hollow, echoing cave listens to the sound of rain.

Фигура, чье тело представляет собой полую, гулкую пещеру, прислушивается к шуму дождя. Все картинки получились интересные, но на второй тема с дождем немного потерялась. Больше мне понравилась первая генерация, на которой фигура смотрит в пещеру, но еще лучше получилась третья, где фигура выходит оттуда и смотрит вдаль как маленький ребенок. В этой картинке точно передаются и стиль, и идея и ощущение.

Original size 3713x1197

Промпт: Someone wearing a hat that’s a miniature, upside-down world is dancing on a cloud.

Самая сюрреалистичная генерация из всех в проекте. Очень много вводных данных: и маленькая шляпа, и перевернутый мир, и танцы в облаках. Очень сложно даже вообразить что-то однородное и крепкое под эту идею, поэтому неудивительно, что нейросеть начала глитчить и добавлять странные детали, как шляпа-гриб, ноги у летающего мира и девочка в облаках. Лучше остальных вышла средняя картинка, она получилась задорной и интересной, а мальчик на ниточке — очень похожим на Пиноккио.

Итог

Original size 3389x2426

В итоговую серию изображений я выбрала лучшие из 12ти генераций. Только одну я не взяла для серии вообще, заменила очень хорошей картинкой из другого пулла. Некоторыми итоговыми изображениями я более чем довольна с эстетической стороны и нейросеть свободна ухватить часть от техники художника, в моем случае Чарльза Нормана Блейми. Однако и без того ясно, что нейросеть живет без опыта и без понимания ручного труда, поэтому ей всегда будет не хватать оригинальности, идейности и точности.

Описание применения генеративной модели

1.

Перед началом генерации я использовала Chat GPT для 12 тем генерации сонных сюжетов. Ссылка на модель: chatgpt.com Промпт: Напиши на английском 12 кратких сценариев для сновидений, которые можно было бы использовать как промпт для генерации картинок

2.

При оценке результатов я захотела сгенерировать видео на основе изображений с помощью сервиса Runway Gen-3. Ссылка на модель: runwayml.com Генерация произошла без конкретного промпта, только картинки.

Конструирование снов с помощью обучения нейросети
16
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more