
КОНЦЕПЦИЯ
Стремительное развитие искусственного интеллекта, еще несколько лет назад далекое от многих профессий, на данный момент коснулось даже тех областей и сфер, которые, казалось, еще долго будут оставаться подвластными только человеческому труду. Так ИИ-инструменты пришли и в креативные индустрии.
В 2022 году, когда нейросеть по генерации изображений Midjourney только открылась для широкого круга пользователей на Discord сервере и стала публичной, влияние ИИ на творчество казалось еще смутным и далеким от реальностей индустрии [1]. Однако по прошествии всего нескольких лет технологии развились настолько, что стали не только лишь интересным предметом исследования, а вполне реальным инструментом для работы, уже сейчас способным заменить и облегчить определенные классические стадии пайплайна.
Способности и возможности Искусственного Интеллекта оказали значительное влияние и на креативные индустрии: то, что казалось подвластным только человеку — творческая составляющая — оказалась под влиянием технологий и прогресса не меньше, чем любая другая сфера. Чуть более сложным для внедрения ИИ оказалось 3D, но и этот рубеж был не так давно пройден: сервисы уже сейчас активно генерят текстуры, многополигональные 3D модели, а также анимации. Стало очевидно, что закрыть глаза на новые технологии, а также спорить об их этичности, пытаясь остановить или повернуть прогресс вспять, уже бессмысленно и тот, кто первый сможет корректно и эффективно внедрить технологии, сможет двинуться вперед вместе с прогрессом. Так, даже такие устойчивые и славящиеся своим постоянством на рынке 3D софта программы как Autodesk Maya стали внедрять инструменты Искусственного Интеллекта в своих новейших обновлениях.
Таким образом, нейросети очень быстро добрались до 3D анимации и теперь на место вопроса о скорости развития и перспективах в профессиональном сообществе обсуждается вопрос об эффективности таких инструментов прямо сейчас. Скорость производства контента, а в особенности качественного контента, всегда была актуальным вопросом, в котором много напряжения, ведь ручной труд аниматоров — это дорогостоящий, скрупулезный и очень долгий процесс, ведь 1 секунда может создаваться часами. Много вспомогательных инструментов было уже придумано для ускорения и оптимизации процессов: библиотеки поз, скрипты, система захвата движения и так далее. Однако неизменным оставалось одно — ручная работа с ключами и кадрами. В этом смысле Искусственный Интеллект хранит в себе огромный потенциал для изменений индустрии. Необходимый набор навыков 3D аниматора будущего меняется, ведь от ручного механического труда ИИ позволяет углубиться в сторону художественных творческих решений.
Тема Искусственного Интеллекта во всех сферах, в том числе в 3D анимации хранит столько же споров, сколько и потенциала. Этические вопросы идут параллельно профессиональным. Но главный остается на данный момент неизменен: насколько эффективен ИИ прямо сейчас в 3D анимации и как именно он способен взаимодействовать с ручным трудом и улучшать его.
Актуальность исследования
Тема Искусственного Интеллекта в масштабах истории и развития технологий очень новая. А все новое зачастую вызывает страх, отвержение и скепсис. Профессиональное комьюнити расходится во мнениях: кто-то выступает активно против внедрения ИИ, кто-то же, наоборот, считает, что это большой скачок вперед и его нужно использовать на максимум возможностей. Такие бурные обсуждения указывают на острую актуальность вопроса и дефицит информации. На текущий момент в индустрии нет устоявшихся методик работы с ИИ-инструментами для анимации. Нет общепринятых пайплайнов, норм, рекомендаций. Это создаёт дефицит ориентиров и усиливает потребность в аналитике и систематизации.
В сфере 3D анимации новые технологии внедряются медленнее, чем в 2D или иллюстрации, и только-только набирают обороты, вызывая много непонимания: как с этим работать, насколько это необходимо, эффективно ли? ИИ ломает этот цикл: темп развития непривычно высок, что делает адаптацию специалистов острой задачей. Исследование призвано детально изучить существующие инструменты и их эффективность в этой сфере.
ЦЕЛЬ ИССЛЕДОВАНИЯ
Повышение информирования о каком-либо новом феномене — важная часть развития этого феномена. Таким образом, цель исследования состоит не в том, чтобы ответить на вопрос «Заменит ли ИИ 3D аниматоров», а в том, чтобы понять, насколько ИИ эффективен в этой задаче прямо сейчас. Также целью стоит оценить реальную экономию времени/ресурсов на конкретных кейсах конкретных ИИ моделей с наглядным результатом, а также оценка качества этого результата и сравнение его с ручной работой 3D аниматора по классическому пайплайну.
ИСТОРИЧЕСКИЙ КОНТЕКСТ
Нейросети не такая новая технология, как может показаться обывателю. Их история тянется еще с 20 века…
Первые модели нейронных сетей были предложены кибернетикой еще в 40-е — именно там зарождается история ИИ в виде так называемого нейрона Мак-Каллока-Питса, который способен на решение любой логической операции […]. Первая обучаемая модель, перцептрон, появилась чуть позже благодаря Фрэнку Розенблатту в 1958 году и уже работала с изображениями […]. Следующим этапом стали исследования, благодаря которым стало возможным обучение многослойных моделей: «Параллельное распределение представления» о работе мышления и памяти как паттернах активации нейронов […]. Примерно в это же время появились сверточные нейронные сети для обработки изображений. Их первую версию предложил Ян ЛеКун в 1989 году и работали такие нейросети в распознавании рукописных цифр с невероятной точностью в 98,4% […]. Шагом, после которого в 2006 году в сфере нейросетей произошел прорыв, стала работа о новой генеративной модели, использующей глубокое обучение, которое используют до сих пор. С тех пор почти каждый год появлялись новые модели, способные использовать все больше слоев.
Совершенно новый этап развития нейросетей произошел в 2022 году, когда Дэвид Хольц с командой запустили свой сервер Discord и сделали доступной для публики генеративную нейросеть Midjourney, ставшей одной из самых популярных наряду с DALL·E и запустившей волну интереса к этой теме [1]. Такие ИИ-инструменты для создания изображений зачастую представляют собой диффузионные модели. Обучаясь на заранее подготовленных изображениях, они сжимают их до состояния шума, а затем разжимаю обратно, стараясь это изображение восстановить, и, таким образом, если исключить из этой цепочки первое звено с изначальным материалом, то нейросеть начнет создать изображения из любого предложенного шума, как бы самостоятельно придумывая сюжет по заданному тексту [2].
Анимация имеет много подвидов и техник исполнения, однако принцип всегда один: одна статичная картинка заменяется несколькими, сменяющимися друг за другом каждую секунду (в нынешних стандартах индустрии это 25 кадров в секунду). Таким образом, увеличение мощностей и активное развитие ИИ уже совсем скоро позволили генерировать и анимационные ролики. Какие-то из них создаются с помощью выставления 3D фильтра на стилизацию и письменного промпта — текстовой инструкции от пользователя к нейросети для получения определенного результата — и являются одним из самых простых, но самых мало контролируемых способов создания 3D анимации с помощью ИИ. Другие инструменты, появившиеся чуть позже и работающие чуть сложнее, начали повторять принцип мокапа (захвата движения реального человека для дальнейшего переноса в 3D пространство) и использовать для создания анимации видео референсы. Самым сложным, наиболее контролируемым и приближенным к стандартной ручной работе с 3D анимацией является внедрение Искусственного Интеллекта непосредственно в профессиональный софт или создание совершенного новых программ с этой функцией во главе.
Итак, создать 3D анимацию с помощью ИИ на данный момент и этап развития нейросетей можно множеством различных способов, каждый из которых имеет свои преимущества и недостатки. Попробуем разобраться, какой из них наиболее актуальный и эффективный прямо сейчас, действительно ли их можно интегрировать в уже устоявшийся и работающий пайплайн, а также сравним и проанализируем одну и ту же задачу, выполненную вручную и с помощью ИИ-инструментов.