ГЛАВА 1. ГЕНЕРАТИВНАЯ АНИМАЦИЯ С ПОМОЩЬЮ ИИ
Original size 1240x1750
3
This project is a student project at the School of Design or a research project at the School of Design. This project is not commercial and serves educational purposes

Количество ИИ-инструментов и сервисов, пригодных для создания 3D анимации, на данный момент огромное множество. Генеративные нейросети крайне широки в своих возможностях и продолжают прогрессировать с каждым годом, улучшая качество, однако достаточно ли его. чтобы создать полноценную подконтрольную анимацию с возможностью редактирования и получения нужного результата?

Данная глава рассматривает возможности современных ИИ-платформ, начиная от простых задач — генерации базовых телодвижений для минималистичных геометричных персонажей — и постепенно переходя к более сложным: синхронизации речи (lip-sync), созданию детальной мимики и комплексных динамичных сцен.

HAILUO AI

Самая простая и сложная задача одновременно — генерация анимации лишь с помощью текста. Такую функцию «Text to Video» предоставляют почти все нейросети, способные работать с изображениями в качестве опорного референса, но результат получается крайне непредсказуем, тяжело поддается контролю и какому-либо редактированию, так как каждое новое уточнение может кардинально изменить кадр.

big
Original size 1364x702

Генерация по текстовому промпту (Hailuo AI)

«A simple stylized white humanoid character with smooth blocky shapes, no facial features, elongated limbs and a minimalistic design stands in a clean 3D environment. The scene has a dark glossy floor with soft reflections and a background that fades from deep navy blue at the bottom to a subtle purple gradient toward the top. The animation begins with the character appearing only halfway waist-deep from the left side of the frame, leaning in cautiously as if checking the space, then slowly stepping fully into view and moving to the center. Than performs a small, shy wave with one hand»

Учитывая, что в качестве ориентира у нейронной сети Hailuo AI был лишь текстовый запрос (prompt), она вполне хорошо справилась с поставленной задачей, учитывая практически все нюансы.

Персонаж двигается вполне реалистично, без видимых артефактов. Однако такой уровень неточности подойдет в качестве разве что опорного референса для дальнейшего переноса на конкретного персонажа.

Original size 1362x704

Генерация с помощью текста и конечного кадра (Hailuo AI)

Чуть усложняя задачу, нейросети был предоставлен дополнительный референс помимо упрощенного по сравнению с предыдущим промпта — заранее подготовленный конечный кадр анимации, где должен оказаться персонаж и в какой позе. С помощью уже двух опорных референсов Hailuo AI удалось создать базовое движение, которое также не имеет бросающихся в глаза ошибок и несостыковок.

Original size 1362x700

Генерация с помощью текста, стартового и конечного кадра (Hailuo AI)

«The character stands off-camera, peeking out from the left, showing half-length. Then the character looks back, steps to the center, strikes a pose, and waves at the camera»

Самым большим функционалом, предоставляемым сервисом, является использование одновременно текстовой подсказки, стартового фрейма и завершающего. Однако вопреки ожиданиям, результат получается менее качественным:

Несмотря на то, что персонаж устойчиво делает шаги и не скользит по полу, что является частой ошибкой при генерации, в начальном движении точка опоры смещена и импульс движения исходит неправильно.

Таким образом, Hailuo AI дает вполне качественный результат генерации 3D анимации, но все равно не лишен ошибок и некоторого непонимания физики тела, если условий для генерации становится слишком много.

KLING AI

Original size 1055x652

Референсное изображение / Персонаж Beta (Agora)

Помимо базовых движений в анимации крайне важна мимика персонажа, ведь, как известно, именно она способна оживить героев на экране, наполнив их жизнью и настоящими эмоциями, вызывающими эмпатию и создающими истории.

Сервис Kling AI известен качеством проработки именно детальной анимации, в особенности мимики, которая так важна в крупных планах и обычно используется для значимых эмоциональных моментов повествования.

Original size 1228x748

Генерация с помощью текста и референса (Kling AI)

«The character appears angry, arms crossed over his chest, frowning and leaning slightly forward toward the viewer. Then he sighs heavily and lowers his arms. His expression becomes sad and puzzled, and he looks toward the lower right corner»

В качестве референса был использован заранее выставленный кадр с персонажем и камерой.

Kling AI в версии 2.5 действительно качественно смог передать мимические нюансы персонажа. Эмоции правдоподобны: задействуется все лицо, а не только какая-то отдельная часть. Таким образом, персонажная анимация в Kling AI, а в особенности анимация мимики показывает высокий уровень качества.

Original size 1228x748

Промпт на более экспрессивную мультяшную мимику (Kling AI)

Второй вариант промпта включал в себя такие уточнения как «The facial animation is slightly exaggerated, almost cartoonish.»

Нейросеть действительно правильно поняла запрос и сделала чуть более экспрессивную анимацию по сравнению с первой: части лица двигаются более динамично, эмоции утрированны и более читаемы.

Тут я подробнее раскрываю принцип работы нейросети из ее официальной документации и объясняю, как же так им удалось так качественно сделать. А также промежуточные выводы конкретно по этой нейросети.

HEDRA

Задача еще на уровень сложнее — липсинк (lip-sync). Ведь помимо передачи многогранных эмоций персонажа необходимо также тщательно встроить аудио в анимацию так, чтобы движение губ правильно синхронизиловалось со звуком, а глаз зрителя не отвлекался на несостыковки.

Аниматор в этом случае должен создать эффект полного погружения в происходящее на экране, зритель должен верить, что персонаж произносит реплику и разговаривает.

Решение такой задачи предлагает сервис Hedra, который позволяет к референсному изображению прикрепить аудио-файл. Именно с ним нейросеть будет синхронизировать мимику персонажа.

Loading...

Модель Hedra Character 3 генерирует крайне нестабильный результат — речь персонажа неправильно синхронизирована с геометрией губ. Гласные звуки выполнены не совсем точно, но попадают в реплику. Проблема с согласными гораздо более явная: множество лишних звуков в паузах и во время реплики, неправильные силуэты губ.

В классической 3D анимации по устоявшемуся пайплайну, чтобы создать корректный липсинк, подготавливаются отдельные библиотеки — там на каждую гласную и согласную приходится по несколько вариантов произношения. Губы выстраивают в правильное положение, а затем подгоняют ровно под каждую букву. ИИ с этой задачей справилась гораздо менее качественно.

Original size 1920x1080

Доступные опции генерации в Hedra

Loading...

Более того, с мимикой персонажа Hedra также справилась крайне плохо: на протяжении всей реплики присутствует лишь намек на прописанную в промпте эмоцию. Учитывая, что этот один из немногих сервисов с возможностью синхронизации звука, качество реализации все еще не пригодно даже для низкокачественного продукта.

Loading...

«The character approaches the camera with his face and smiles creepily with his eyes wide open»

Чуть лучше Искусственный Интеллект справился при условии конкретизации и максимального уменьшения промпта- самое короткое текстовое описание дало самый стабильный итог. Однако даже он не обеспечивает требуемого минимального качества для лицевой анимации персонажа, произносящего реплику.

VEO 3

Текстовый промпт в видео, хорош в синхронизации губ и диалогах (ооо тут делают эти рилсы с интервью на улице)

RUNAWAY

Генерация по видео-референсу (по принципу motion capture)

Хотя это все, конечно, лишь условно 3D анимация, ведь посмотреть на нее с другого ракурса кроме как сгенерировать еще раз — не получится — функция коррекции анимации встречается крайне редко. Такой способ анимации неудобен для внесения каких-либо правок, но может вполне выполнить роль референса для того, кто дает техническое задание, или же для самого аниматора, чтобы увидеть потенциал движения персонажа как бы на черновике.

Такая анимация не подойдет для масштабного производства в киноиндустрии, однако ее уровень достиг такого качества, что для небольшого проекта ИИ может стать отличным инструментом: кат-сцены с персонажами, рекламные ролики, видеоклипы — там, где хронометраж не требует дальнейшего появления персонажа на протяжении долгого времени (из-за чего так важно сохранить его консистентность), нейросети могут стать вполне рабочим и полезным инструментом.

ГЛАВА 1. ГЕНЕРАТИВНАЯ АНИМАЦИЯ С ПОМОЩЬЮ ИИ
3
Chapter:
1
2
3
4
5
We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...
Show more