Soft Forms на Mediiia

01 Концепция

Мой проект посвящён исследованию визуального стиля bubble design. Основная задача заключалась в создании нейросетевой модели, которая способна воспроизводить не только форму объектов, но и их материальные свойства.

Мне было важно, чтобы модель понимала:

глянец поверхности
мягкие тени
световые блики
ощущение «надутости» и объёма

Таким образом, проект направлен на изучение того, может ли нейросеть усвоить визуальную логику материала, а не только форму объектов.

02 Исходные изображения

Исходный размер 3000x726

Для обучения модели был собран датасет из 30 изображений, выполненных в эстетике bubble design. В него вошли как абстрактные формы, так и более прикладные объекты — 3D-буквы, логотипы и надувные скульптуры. При отборе изображений я ориентировалась не столько на сюжет, сколько на разнообразие визуальных характеристик материала и формы.

Для обучения использовались изображения из открытых источников с допустимыми лицензиями.

Исходный размер 2487x1229

Исходный размер 3746x1229

Основное внимание уделялось передаче свойств поверхности. В датасет были включены изображения с различной степенью глянца — от мягкого рассеянного блеска до ярко выраженных зеркальных отражений. Это позволило зафиксировать, как свет ведёт себя на «пластиковой» или силиконовой поверхности и как формируются характерные блики.

Отдельно учитывалась форма объектов. Были выбраны изображения с различными типами объёмов: от простых сфер и каплевидных элементов до более сложных, переплетённых и деформированных структур. Важно было показать не только «идеальный шар», но и вариативность мягких, надувных форм, которые меняют силуэт, но сохраняют общую логику пластичности.

Исходный размер 2979x1483

03 Процесс обучения модели

После подготовки датасета я перешла к обучению модели. В качестве базовой архитектуры использовалась модель Stable Diffusion v1.5, позволяющая генерировать изображения на основе текстовых описаний.

Исходный размер 1590x268

Для реализации обучения была использована библиотека diffusers от Hugging Face, а также дополнительные инструменты transformers, accelerate, bitsandbytes и xformers. Эти библиотеки обеспечивают работу с диффузионными моделями, ускорение вычислений и оптимизацию обучения.

Исходный размер 1590x332

Для адаптации модели под выбранный визуальный стиль был использован подход DreamBooth в сочетании с технологией LoRA (Low-Rank Adaptation). Такой метод позволяет дообучать модель, не изменяя её полностью, а добавляя небольшие обучаемые веса, что делает процесс более быстрым и эффективным.

Исходный размер 1590x262

В процессе обучения был введён специальный триггер-токен — bubblestyle, который использовался в текстовых запросах. Этот токен позволяет активировать обученный стиль и связывает текстовое описание с визуальными характеристиками bubble design.

Исходный размер 1590x262

Перед запуском обучения были заданы основные параметры и подготовлены директории для хранения датасета и результатов. Данные размещались в отдельной папке, что позволило корректно передать их в обучающий скрипт.

Исходный размер 1590x454

Обучение проводилось с использованием скрипта train_dreambooth_lora.py, который реализует подход DreamBooth с поддержкой LoRA. Были заданы ключевые параметры: разрешение 512×512, размер батча — 1, скорость обучения — 1e-4, количество шагов — 500, а также фиксированный seed для воспроизводимости.

Исходный размер 1590x568

Несмотря на относительно небольшое количество шагов, модель продемонстрировала стабильное обучение. В процессе наблюдалось снижение функции потерь, что свидетельствует о том, что модель успешно усвоила основные визуальные характеристики стиля — глянцевость, мягкие отражения и объём.

Исходный размер 1590x256

Блокнот с кодом

04 Результаты генераций

Исходный размер 2047x669

Исходный размер 2047x672

Исходный размер 2047x673

Исходный размер 2061x669

04 Комментарий результатов

В результате обучения была получена модель, способная воспроизводить визуальный стиль bubble design и адаптировать его к различным типам изображений — от абстрактных форм до более предметных и типографических решений.

Несмотря на относительно небольшой объём датасета и ограниченное количество шагов обучения, модель продемонстрировала устойчивость стиля, хорошую вариативность и визуальную выразительность. Это говорит о том, что даже при ограниченных ресурсах возможно обучить модель, способную не просто воспроизводить отдельные изображения, а усваивать и применять визуальную логику материала.

В сгенерированных изображениях отчётливо прослеживаются ключевые характеристики bubble design: глянцевые поверхности, мягкие переходы света и тени, округлые формы и выраженные блики. При этом стиль сохраняется независимо от содержания изображения, что указывает на успешное отделение визуального языка от конкретных объектов датасета.

Можно наблюдать различия в акцентах генерации: в одних изображениях модель фокусируется на форме и силуэте объектов, создавая более графичные композиции, в других — на передаче материала, уделяя внимание отражениям, прозрачности и световым эффектам. Это демонстрирует гибкость модели и её способность по-разному интерпретировать один и тот же стиль.

Отдельно важно отметить вариативность результатов: при изменении текстовых запросов модель создаёт различные композиции, сохраняя при этом единые стилистические признаки. Это подтверждает, что стиль был усвоен как система визуальных характеристик, а не как набор зафиксированных образов.

Среди ограничений можно выделить тенденцию к упрощению сложной геометрии: при генерации более детализированных или нестандартных форм модель иногда сглаживает структуру объектов. Тем не менее, даже в этих случаях сохраняются ключевые признаки материала — глянец, мягкость и характер освещения.

Таким образом, результаты демонстрируют, что модель успешно усвоила не только форму, но и материальность объектов, что было основной задачей проекта.

05 Описание применения генеративной модели

В проекте использовалась генеративная модель Stable Diffusion v1.5, дообученная с применением подхода DreamBooth и технологии LoRA (Low-Rank Adaptation).

На основе подготовленного датасета была обучена LoRA-модель, позволяющая воспроизводить характерные особенности визуального стиля bubble design и переносить их на новые объекты и сцены.

Обучение и генерация изображений осуществлялись с использованием библиотеки diffusers от Hugging Face, а также инструментов transformers, accelerate, bitsandbytes и xformers, обеспечивающих эффективную работу с диффузионными моделями и оптимизацию вычислений.

В качестве среды разработки использовалась платформа Google Colab, что позволило выполнять обучение модели и генерацию изображений без необходимости локальной настройки вычислительных ресурсов.

Для активации обученного стиля в процессе генерации применялся специальный триггер-токен «bubblestyle», связывающий текстовое описание с визуальными характеристиками, усвоенными моделью.

Дополнительно генеративный искусственный интеллект использовался на этапе разработки проекта для: — подбора и уточнения текстовых промптов — анализа визуальных результатов — формулирования текстового описания проекта

Используемая модель: Stable Diffusion v1.5 https://github.com/huggingface/diffusers