Original size 2480x3500

Обучение нейросети для создания изображений в стиле клипа Хаски—«Сказки»

Идея проекта

Хаски известен нестандартными клипами, граничащими с работами современного искусства, и клип на песню «Сказки» — тому подтверждение. Это — мрачная, гротескная притча, исследующая тёмные грани русской культуры. Чёрно-белая палитра, искаженные образы, переосмысление сказок, религии и истории создают в клипе атмосферу русской мистики.

В рамках проекта я попросила искусственный интеллект написать небольшую легенду, на основе которой я сформировала 9 промтов для иллюстраций. Полученную историю я визуализировала с помощью модели Stable Difusion, дообученной на стиле клипа Хаски «Сказки».

Исходные изображения

Original size 2480x789

Описание процесса генерации

Подготовка

1. На начальном этапе была проведена проверка доступности и характеристик GPU. 2. Затем были установлены необходимые библиотеки Python (transformers, diffusers, accelerate, peft и другие). 3. Был загружен скрипт train_dreambooth_lora_sdxl.py из репозитория diffusers. 4. Была создана директория для хранения входных изображений и сгенерированных метаданных.

Предобработка данных

1. Был загружен набор изображений, представляющих желаемый стиль. 2. Для контроля качества загруженные изображения были отображены в виде сетки. 3. Использовалась модель BLIP (Bootstrapping Language-Image Pre-training) для автоматической генерации текстовых описаний для каждого изображения. 4. Были созданы метаданные в формате JSON, содержащие пары «имя файла — текстовое описание». Эти метаданные используются скриптом обучения для связи изображений с их текстовыми представлениями.

Обучение LoRA-модели

1. Был запущен скрипт train_dreambooth_lora_sdxl.py с передачей необходимых параметров. Параметры включали путь к предварительно обученной модели Stable Diffusion, путь к каталогу с изображениями и метаданными, а также параметры, определяющие процесс обучения, такие как скорость обучения, размер пакета и количество шагов обучения. 2. Для уменьшения потребления памяти была применена техника FP16 и градиентного накопления.

Сохранение модели

После завершения обучения полученная LoRA-модель была загружена на платформу Hugging Face Hub для использования модели другими пользователями.

Ссылка на ноутбук

Результирующая серия изображений

Original size 2480x789

Сначала я пробовала генерировать фотографии только на базе собранного датасета. Однако фото получались очень похожими на исходные кадры. Более того, если создавать нечеловеческие фигуры (какие-то объекты), модель выдает абстрактные разводы. Такой результат меня не устроил, поэтому я решила генерировать с использованием разного процента влияния исходных картинок.

Original size 1024x1024

Original size 2480x2483

Вся серия изображений

В целом, нейросети удалось считать стиль клипа Хаски «Сказки». Я думаю, получилось передать мрачную атмосферу русской сказки. Главные черты фотографий — черно-белая гамма, темнота, размытие, туман. Мне нравится, как в данном случае работают некоторые «баги» stable diffusion, они добавляют мистики, будто обитатели леса находятся под влиянием темного колдовства.   Также, мне кажется, смотря на сгенерированные фотографии, можно примерно угадать сюжет легенды, к чему я и стремилась.

Мне не понравилось, что каждый раз получались разные эффекты размытия. Где-то зерно, в других случаях шум, свечение или расплывание, из-за этого фотографии выглядели немного разрозненно. Чтобы изображения были серийными, пришлось пробовать много раз и экспериментировать с процентом влияния датасета.

Также в разных вариантах отличалась контрастность, какие-то изображения получались приглушенными, в то время как другие почти не имели полутонов.

Применение генеративных моделей искуственного интеллекта

Помимо дообучения stable diffusion, я использовала ChatGPT для генерации легенды и описания процесса обучения нейросети.

Промт: Придумай короткую мистическую легенду о парне, который заблудился в лесу и встретился с его темными обитателями.

Промт 2: Напиши описание процесса обучения генеративной модели, опираясь на приложенные фотографии.

Ссылка: @gpt3_unlim_chatbot (имя телеграмм-бота)

Также я использовала телеграмм-бот для генерации обложки.

Промт: generate a glow of spirit --sref https://gochromic.hb.ru-msk.vkcs.cloud/1168765230/sref/c8c4fa9d91f7a3e332d2a5745d6ba63e.png

Ссылка: @chromic666_bot (имя телеграмм-бота)

Обучение нейросети для создания изображений в стиле клипа Хаски—«Сказки»

Serafima Veselova

artificial intelligence

neural network

style

russian art

We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...