ГЛАВА 1. ГЕНЕРАТИВНАЯ АНИМАЦИЯ С ПОМОЩЬЮ ИИ

Количество ИИ-инструментов и сервисов, пригодных для создания 3D анимации, на данный момент огромное множество. Генеративные нейросети крайне широки в своих возможностях и продолжают прогрессировать с каждым годом, улучшая качество, однако достаточно ли его, чтобы создать полноценную подконтрольную анимацию с возможностью редактирования и получения нужного результата?

Данная глава рассматривает возможности современных ИИ-платформ, начиная от простых задач (генерации базовых телодвижений для минималистичных геометричных персонажей) и постепенно переходя к более сложным: синхронизации речи (lip-sync), созданию детальной мимики и комплексных динамичных сцен.

HAILUO AI

Самая простая и сложная задача одновременно — генерация анимации лишь с помощью текста. Такую функцию «Text to Video» предоставляют почти все нейросети, способные работать с изображениями в качестве опорного референса, но результат получается крайне непредсказуем, тяжело поддается контролю и какому-либо редактированию, так как каждое новое уточнение может кардинально изменить кадр.

Исходный размер 1364x702

Генерация по текстовому промпту / Hailuo AI

_"A simple stylized white humanoid character with smooth blocky shapes, no facial features, elongated limbs and a minimalistic design stands in a clean 3D environment. The scene has a dark glossy floor with soft reflections and a background that fades from deep navy blue at the bottom to a subtle purple gradient toward the top. The animation begins with the character appearing only halfway waist-deep from the left side a&nbsp0; the frame, leaning a&nbsp1; cautiously a&nbsp2; a&nbsp3; checking the space, then slowly stepping fully into view and moving a&nbsp4; the center. Than performs a&nbsp5; small, shy wave with one a&nbsp6; _

Учитывая, что в качестве ориентира у нейронной сети Hailuo AI был лишь текстовый запрос, она вполне хорошо справилась с поставленной задачей, учитывая практически все нюансы.

Персонаж двигается вполне реалистично, без видимых артефактов. Однако такой уровень неточности подойдет в качестве разве что опорного референса для дальнейшего переноса на конкретного персонажа или для поиска визуального стиля с наименьшими затратами по времени, ведь текст — это самый быстрый способ для получения результата.

Исходный размер 1362x704

Генерация с помощью текста и конечного кадра / Hailuo AI

Чуть усложняя задачу, нейросети был предоставлен дополнительный референс — заранее подготовленный конечный кадр анимации, где должен оказаться персонаж и в какой позе. С помощью уже двух опорных референсов (текст и изображение) Hailuo удалось создать базовое движение, которое также не имеет бросающихся в глаза ошибок и несостыковок.

Исходный размер 1362x700

Генерация с помощью текста, стартового и конечного кадра / Hailuo AI

_"The character stands off-camera, peeking out from the left, showing half-length. Then the character looks back, steps to the center, strikes a pose, and waves at the camera" _

Самым большим функционалом, предоставляемым сервисом, является использование одновременно текстовой подсказки, стартового фрейма и завершающего. Однако вопреки ожиданиям, результат получается менее качественным. Несмотря на то, что персонаж устойчиво делает шаги и не скользит по полу, что является частой ошибкой при генерации, в начальном движении точка опоры смещена и импульс движения исходит неправильно.

Таким образом, Hailuo дает вполне качественный результат генерации 3D анимации, но все равно не лишен ошибок и некоторого непонимания физики тела, если условий для генерации становится слишком много.

KLING AI

Исходный размер 1055x652

Референсное изображение / Персонаж Beta (Agora)

Помимо базовых движений в анимации крайне важна мимика персонажа, ведь, как известно, именно она способна оживить героев на экране, наполнив их жизнью и настоящими эмоциями, вызывающими эмпатию и создающими истории.

Сервис Kling AI известен качеством проработки мимики, которая так важна в крупных планах и обычно используется для значимых эмоциональных моментов повествования.

Исходный размер 1228x748

Генерация с помощью текста и референса/ Персонаж Beta (Agora) / Kling AI

_"The character appears angry, arms crossed over his chest, frowning and leaning slightly forward toward the viewer. Then he sighs heavily and lowers his arms. His expression becomes sad and puzzled, and he looks toward the lower right corner" _

В качестве референса был использован заранее выставленный кадр с персонажем и камерой.

Kling AI в версии 2.5 действительно качественно смог передать мимические нюансы. Эмоции правдоподобны: задействуется все лицо, а не только какая-то отдельная часть, что дает комплексные качественный результат.

Исходный размер 1228x748

Генерация более экспрессивной мимики в анимационном стиле / Персонаж Beta (Agora) / Kling AI

Второй вариант промпта включал в себя такие уточнения как "The facial animation is slightly exaggerated, almost cartoonish".

Нейросеть действительно правильно поняла запрос и сделала чуть более экспрессивную анимацию по сравнению с первой: части лица двигаются более динамично, эмоции утрированны и более читаемы.

HEDRA

Задача на уровень сложнее — липсинк (от lip-sync, синхронизация губ). Ведь помимо передачи многогранных эмоций необходимо также тщательно встроить аудио в анимацию так, чтобы движение губ правильно синхронизировалось со звуком, а глаз зрителя не отвлекался на несостыковки.

Аниматор в этом случае должен создать эффект полного погружения в происходящее на экране, а зритель в свою очередь должен верить, что персонаж действительно произносит реплику и разговаривает.

Решение такой задачи предлагает сервис Hedra, который позволяет к референсному изображению прикрепить аудио-файл. Именно с ним нейросеть будет синхронизировать мимику персонажа.

Модель Hedra Character 3 генерирует крайне нестабильный результат — речь персонажа неправильно синхронизирована с геометрией губ. Гласные звуки выполнены не совсем точно, но попадают в реплику. Проблема с согласными гораздо более явная: множество лишних звуков в паузах и во время реплики, неправильные силуэты губ.

В классической 3D анимации по устоявшемуся пайплайну, чтобы создать корректный липсинк, подготавливаются отдельные библиотеки — там на каждую гласную и согласную приходится по несколько вариантов произношения. Губы выстраивают в правильное положение, а затем подгоняют ровно под каждую букву. ИИ с этой задачей справился гораздо менее качественно.

Более того, с мимикой персонажа Hedra также справилась крайне плохо: на протяжении всей реплики присутствует лишь намек на прописанную в промпте эмоцию. Учитывая, что этот один из немногих сервисов с возможностью синхронизации звука, качество реализации все еще не пригодно даже для низкокачественного продукта.

_"The character approaches the camera with his face and smiles creepily with his eyes wide open" _

Чуть лучше Искусственный Интеллект справился при условии конкретизации и максимального уменьшения промпта. Самое короткое текстовое описание дало самый стабильный итог. Однако даже он не обеспечивает требуемого минимального качества для лицевой анимации персонажа, произносящего реплику крупным планом.

PIKA

Помимо базовых походки, бега, прыжка и прочих распространенных действий, занимающих зачастую большую часть хронометража анимаций, для захватывающих сцен необходима динамика. Попробуем разобраться, насколько хорошо ИИ справляется с чуть более комплексными действиями в анимации гуманоидного персонажа.

Референсный кадр и динамичная анимация / Персонаж Alpha (Agora) / Pika

_"The character prepares, then lunges forward with his leg and fist" _

Pika сохраняет пропорции, не ломает физику персонажа, хорошо отрабатывает свето-тень, но не до конца верно следует промпту: несмотря на множественные попытки и редактирование запроса, сервис не смог создать нужный тайминг для движения. Именно правильный тайминг позволяет аниматорам создать динамику в кадре — долгая статика сменяется резким движением, которое вмещается в несколько кадров, тем самым демонстрируя скорость. Pika как бы «смазал» движение в единую волну, не расставляя акцентные выпады корректно. Правильному восприятию динамики также воспрепятствовало дополнительно лишнее сгенерированное движение в конце — Альфа поворачивается к камере спиной, хотя этого не было указано в промпте.

Исходный размер 784x470

Тесты генераций четвероногого / Персонаж Gamma (Agora) / Pika

Сервис также часто используют для создания видеороликов с животными, так как именно их у нейросети получается генерировать наиболее правдоподобно.

Четвероногие персонажи традиционно представляют собой обязательный элемент практически любого анимационного фильма или сериала, выполняя функции как спутников главных героев, так и второстепенных персонажей.

Наиболее качественным результатом оказались генерации четвероногого. Повадки животного переданы с точностью: движение хвоста производится с корректными захлестами, в движениях ощущается вес, лапы не проскальзывают по полу, а ведут себя согласно физике, эмоции животного также переданы точно и достаточно анимационно. Впервые увидев эту анимацию, неподготовленный зритель, не обладающий знаниями о принципах анимации, вряд ли заподозрит какие-либо несоответствия — действия и поведение животного на экране выглядят крайне правдоподобными.

(для анимационных тестов были использованы бесплатные риги персонажей от Agora Community в учебных целях: Beta, Delta, Alpha, Gamma)

ИИ-инструменты захвата и переноса движения (Motion Capture AI)

Исходный размер 1280x720

Демонстрация болванки в движении / Deepmotion

Помимо генеративных ИИ следует упомянуть и прогресс в развитии технологии мокапа (Motion Capture, захват и перенос движения с помощью датчиков с реального человека на цифровую модель), так как в этой сфере также активно происходят изменения. Однако речь пойдет не про классический Motion Capture в студии, а про его альтернативу в виде видеореференсов. Но для начала кратко разберемся, как работает технология захвата движения.

Технология появилась впервые в виде ротоскопа к началу 1910-х, эволюционировала до вида костюмов с датчиками в 1960-х, а сейчас представляет собой актера, одетого в специальную форму с заметными метками, например, светоотражающими или шариками для пинг-понга [11]. Это нужно для того, чтобы множество камер, расставленных с разных ракурсов, смогли отследить и записать движение актера, чтобы в будущем перенести его на цифровую модель.

Исходный размер 1520x896

Демонстрация оборудования для Motion Capture

Для получения анимации таким способом требуется много ресурсов: помещение, актеры, костюмы, камера и другая техника. И тут в качестве альтернативы приходит эволюционировавший Искусственный Интеллект. Уже сейчас есть немало онлайн-сервисов, которые предлагают создать студию прямо у себя дома без какого-либо специального оборудования: достаточно снять себя на видео, а ИИ считает информацию о движениях и перенесет на скелет цифрового персонажа.

Чтобы протестировать нынешние возможности ИИ-инструментов в сфере мокапной анимации, возьмем несколько видеозаписей — простое движение, движение с мелкой детализацией пальцев, сложное движение с кручением — и протестируем возможности нескольких популярных сервисов.

RADICAL

Начнем с наиболее качественного результата, который продемонстрировал сервис Radical.

Мокап съемки актрисы Xixiyu_sakana / Результат переноса Radical

Несмотря на некоторые неточности и дерганое хаотичное движение рук, перенос выполнен корректно с точки зрения важнейших анимационных принципов: тайминга и спейсинга. Это те метрики, которые определяют качественную анимацию на самом первом этапе, являясь ее базовым основанием.

Тайминг — это временной промежуток, за который происходит действие или движение объекта, тогда как спейсинг отвечает за расстояние между кадрами (фазами движения), определяя, как быстро или медленно происходит переход от одного положения к другому. Вместе тайминг и спейсинг контролируют скорость и ритм движения. Правильное сочетание этих двух параметров позволяет создавать выразительные и живые анимации с разными характерами и настроениями персонажей.

Мокап съемки актрисы Xixiyu_sakana / Результат переноса Radical

Именно эти два параметра так хорошо удается считать у ИИ-сервиса Radical — четкие фиксированные позы в сочетании с достаточно плавными фазами между ключевыми кадрами дают ту самую анимационность персонажу. Остается лишь сделать экспорт полученной 3D анимации, перенести ее на своего персонажа и доработать детали.

Мокап съемки актрисы Xixiyu_sakana / Результат переноса Radical

С видеореференсом, где главный акцент поставлен на тонкой анимации пальцев, ИИ справился чуть хуже. Несмотря на все тот же качественный переход из одной ключевой позы в другую, мелкая моторика осталась совсем непроработанной.

ROKOKO VISION

Мокап съемки актрисы Xixiyu_sakana / Результат переноса Rokoko

Следующий онлайн-инструмент справился в разы хуже. Скелет, на который была перенесена анимация по видеореференсу, заваливается, плохо считывает позы, совершенно не учитывает физику объекта.

Мокап съемки актрисы Xixiyu_sakana / Результат переноса Rokoko

С анимацией вращения у Rokoko также получился неубедительный результат. Скелет путается в собственных ногах, совершенно не учитывает пластику движений. Такой мокап при переносе в программное обеспечение едва ли упростит задачу аниматора.

DEEPMOTION

Мокап съемки актрисы Xixiyu_sakana / Результат переноса Deepmotion

Наименее качественный результат получился у Deepmotion. Такой перенос не имеет никакой перспективы: скелет сервиса Deepmotion на данный момент не передает ни поз, ни движений, ни физики по сравнению с другими ИИ, существующими на рынке.

Исходный размер 1474x410

Функционал Deepmotion

Мокап съемки актрисы Xixiyu_sakana / Результат переноса Deepmotion

Разработчики предоставляют возможность вносить некоторые корректировки и предположительно чуть более контролируемо управлять переносом движения с помощью функционала сайта. Однако вне зависимости от выбранных параметров улучшений итоговой выдачи замечено не было.

Исходный размер 1500x150

В завершение следует отметить, что у рассматриваемой генеративной анимации есть ряд особенностей. Хотя она и представляется трехмерной, использовать ее в классических 3D редакторах невозможно. Такая анимация — это последовательная генерация одного кадра за другим без возможности сделать ретаргетинг (перенос в какую-либо программу) движения. Возможность изменения ракурса просмотра ограничена необходимостью повторной генерации изображения или особыми функциями изменения угла камеры, которые есть не во всех сервисах, а коррекция движения происходит за счет изменения промпта и не всегда дает предсказуемый результат.

Такой подход характеризуется неудобством при внесении правок, однако может успешно использоваться в качестве референса для постановщика технического задания или самого аниматора, позволяя визуализировать движения персонажа на этапе предварительной проработки.

Генеративная 3D анимация не подойдет для масштабного производства в киноиндустрии, так как является крайне не консистентной, однако ее уровень достиг того качества, которого может быть вполне достаточно для небольшого проекта: короткие кат-сцены с персонажами видеоигр, рекламные ролики, видеоклипы — там, где хронометраж не требует дальнейшего появления персонажа на протяжении долгого времени, нейросети уже сейчас могут стать вполне рабочим и полезным инструментом.

Что касается ИИ-технологий по замене классического Motion Capture, то они представляют собой перспективную альтернативу, но лишь в будущем. Некоторые сервисы вполне можно использовать и сейчас для создания базового движения персонажа с минимум затраченных ресурсов, однако ИИ еще есть куда развиваться в этом направлении.

Библиография

Autodesk Media & Entertainment. AI in Maya: Autodesk CEO & Animation Product Manager Demo MotionMaker, FaceAnimator & More [официальная презентация Autodesk Maya] // YouTube. 15 октября 2025. (URL: https://www.youtube.com/watch?v=7iKVMyTHpZ4) (дата обращения: 13.11.2025).

Autodesk Media & Entertainment. Deliver Faster Rigging and Animation with AI [официальная презентация Autodesk Maya] // YouTube. 4 июня 2025. (URL: https://www.youtube.com/watch?v=c07PXrGVSfU) (дата обращения: 13.11.2025).

Autodesk Media & Entertainment. Meet MotionMaker: New AI Animation Tool In Maya [официальная презентация Autodesk Maya] // YouTube. 4 июня 2025. (URL: https://www.youtube.com/watch?v=2eUUVcMD1hg) (дата обращения: 13.11.2025).

AutoPosing // Cascadeur URL: https://cascadeur.com/help/tools/animation_tools/autoposing (дата обращения: 17.11.2025).

Сascadeur — Use Of AI Tools // Cascadeur URL: https://cascadeur.com/help/category/285 (дата обращения: 17.11.2025).

Inbetweening // Cascadeur URL: https://cascadeur.com/help/category/278 (дата обращения: 17.11.2025).

Interpolation // Cascadeur URL: https://cascadeur.com/help/tools/timeline_tools/interpolation (дата обращения: 19.11.2025).

Introduction to Diffusion Models for Machine Learning // AssemblyAI URL: https://www.assemblyai.com/blog/diffusion-models-for-machine-learning-introduction (дата обращения: 06.11.2025).

McCulloch W. S., Pitts W. A logical calculus of the ideas immanent in nervous activity //The bulletin of mathematical biophysics. — 1943. — Т. 5. — №. 4. — С. 115-133.

10.

Midjourney // Britannica URL: https://www.britannica.com/technology/Midjourney?utm_source=chatgpt.com (дата обращения: 03.11.2025).

11.

Motion capture // Britannica URL: https://www.britannica.com/technology/motion-capture?utm_source=chatgpt.com (дата обращения: 28.11.2025).

12.

Pfeifer R. et al. Generalization and network design strategies //Connectionism in perspective. — Elsevier, 1989. — С. 143-155.

13.

Rosenblatt F. The perceptron: a probabilistic model for information storage and organization in the brain //Psychological review. — 1958. — Т. 65. — №. 6. — С. 386.

14.

Rumelhart D. E., Hinton G. E., Williams R. J. Learning representations by back-propagating errors //nature. — 1986. — Т. 323. — №. 6088. — С. 533-536.

Источники изображений

Собачки в датчиках Autodesk Maya — https://youtu.be/2eUUVcMD1hg?si=Mll6PsDOGsKfWkPx (3.11.2025)

Использование MotionMaker в Maya — https://www.youtube.com/watch?v=0IP8FXbPmeE (3.11.2025)

Inbetweening в Cascadeur — https://cascadeur.com/help/category/278 (10.11.2025)

Мокап в Cascadeur — https://cascadeur.com/help/category/203 (10.11.2025)

Примеры анимаций из шоурила Cascadeur — https://www.youtube.com/watch?v=ijqjqwiNdV4 (10.11.2025)

Скриншоты из старой версии Cascadeur, гифки с демонстрацией AutoPosing — https://cascadeur.com/ (16.11.2025)

Auto Interpolation в Cascadeur — https://cascadeur.com/help/tools/timeline_tools/interpolation (20.11.2025)

Демонстрация лицевой анимации «Человек-паук: Паутина вселенных» — https://www.youtube.com/watch?v=l-wUKu_V2Lk (27.11.2025)

Как работают дифузионные модели — https://lh6.googleusercontent.com/zs3zeHF_juf9j6DMLOUQidvG8GE_TAYCTJ77SLxlWZMrMe-Vp1V-W7IBZ6cOVjkaOT_IZSvSlzci0ltuVuWGdKNLpYiZbsG3hKPS83uBkRdSUHXzmRE0rPv8Tzsygykv-0bb4NtpLfQhRWaKVM8MTDU (27.11.2025)

10.

Альфа в позе — https://agora.community/content/alpha-maya (28.11.2025)

11.

Болванка скелетной анимации Deepmotion — https://portal.deepmotion.com/assets/new-animation-be413079.jpg (30.11.2025)

12.

Демонстрация Motion Capture оборудования — https://www.progamer.ru/uploads/2018/06/mocap-studio-947x559.jpg (30.11.2025)

13.

Фрагменты с мокап-съемок Sakana — https://www.youtube.com/watch?v=G9qzPEviH5g (30.11.2025)

14.

Williams R. The Animator’s Survival Kit — 2022.