
Идея проекта
Хаски известен нестандартными клипами, граничащими с работами современного искусства, и клип на песню «Сказки» — тому подтверждение. Это — мрачная, гротескная притча, исследующая тёмные грани русской культуры. Чёрно-белая палитра, искаженные образы, переосмысление сказок, религии и истории создают в клипе атмосферу русской мистики.
В рамках проекта я попросила искусственный интеллект написать небольшую легенду, на основе которой я сформировала 9 промтов для иллюстраций. Полученную историю я визуализировала с помощью модели Stable Difusion, дообученной на стиле клипа Хаски «Сказки».
Исходные изображения


Описание процесса генерации
Подготовка
1. На начальном этапе была проведена проверка доступности и характеристик GPU. 2. Затем были установлены необходимые библиотеки Python (transformers, diffusers, accelerate, peft и другие). 3. Был загружен скрипт train_dreambooth_lora_sdxl.py из репозитория diffusers. 4. Была создана директория для хранения входных изображений и сгенерированных метаданных.
Предобработка данных
1. Был загружен набор изображений, представляющих желаемый стиль. 2. Для контроля качества загруженные изображения были отображены в виде сетки. 3. Использовалась модель BLIP (Bootstrapping Language-Image Pre-training) для автоматической генерации текстовых описаний для каждого изображения. 4. Были созданы метаданные в формате JSON, содержащие пары «имя файла — текстовое описание». Эти метаданные используются скриптом обучения для связи изображений с их текстовыми представлениями.
Обучение LoRA-модели
1. Был запущен скрипт train_dreambooth_lora_sdxl.py с передачей необходимых параметров. Параметры включали путь к предварительно обученной модели Stable Diffusion, путь к каталогу с изображениями и метаданными, а также параметры, определяющие процесс обучения, такие как скорость обучения, размер пакета и количество шагов обучения. 2. Для уменьшения потребления памяти была применена техника FP16 и градиентного накопления.
Сохранение модели
После завершения обучения полученная LoRA-модель была загружена на платформу Hugging Face Hub для использования модели другими пользователями.
Результирующая серия изображений
Сначала я пробовала генерировать фотографии только на базе собранного датасета. Однако фото получались очень похожими на исходные кадры. Более того, если создавать нечеловеческие фигуры (какие-то объекты), модель выдает абстрактные разводы. Такой результат меня не устроил, поэтому я решила генерировать с использованием разного процента влияния исходных картинок.
Вся серия изображений
В целом, нейросети удалось считать стиль клипа Хаски «Сказки». Я думаю, получилось передать мрачную атмосферу русской сказки. Главные черты фотографий — черно-белая гамма, темнота, размытие, туман. Мне нравится, как в данном случае работают некоторые «баги» stable diffusion, они добавляют мистики, будто обитатели леса находятся под влиянием темного колдовства. Также, мне кажется, смотря на сгенерированные фотографии, можно примерно угадать сюжет легенды, к чему я и стремилась.
Мне не понравилось, что каждый раз получались разные эффекты размытия. Где-то зерно, в других случаях шум, свечение или расплывание, из-за этого фотографии выглядели немного разрозненно. Чтобы изображения были серийными, пришлось пробовать много раз и экспериментировать с процентом влияния датасета.
Также в разных вариантах отличалась контрастность, какие-то изображения получались приглушенными, в то время как другие почти не имели полутонов.
Применение генеративных моделей искуственного интеллекта
Помимо дообучения stable diffusion, я использовала ChatGPT для генерации легенды и описания процесса обучения нейросети.
Промт: Придумай короткую мистическую легенду о парне, который заблудился в лесу и встретился с его темными обитателями.
Промт 2: Напиши описание процесса обучения генеративной модели, опираясь на приложенные фотографии.
Ссылка: @gpt3_unlim_chatbot (имя телеграмм-бота)
Также я использовала телеграмм-бот для генерации обложки.
Промт: generate a glow of spirit --sref https://gochromic.hb.ru-msk.vkcs.cloud/1168765230/sref/c8c4fa9d91f7a3e332d2a5745d6ba63e.png
Ссылка: @chromic666_bot (имя телеграмм-бота)