Чуть меньше года назад на страницах Craftkino появилась статья “Помощь машин”, посвященная краткому обзору нейросетей, которые так или иначе можно использовать в кинематографическом творчестве. Уже к тому моменту накопился определенный набор удивительных инструментов, облегчающих и работу над раскадровками, и создание постеров, и генерацию части реквизита. Но с тех пор прогресс не только не остановился, а продолжал набирать скорость. К сегодняшнему дню прежний материал уже явно устарел, и требуется актуализировать информацию.

При этом, мои личные наблюдения показывают, что огромное количество людей, даже спустя полтора года после начала бума нейросетей, практически не соприкасались с ними, не тестировали, не пробовали применять их в работе, и уж тем более не взяли на регулярное вооружение. Особенно удивительно это в среде творческих специалистов, которые, по-видимому, не слишком активно следят за развитием технологий и не утруждают себя необходимостью разобраться в новых средствах. Тем самым они лишают себя не только свежего опыта (это полбеды), но и возможностей значительно оптимизировать процесс своего труда, сэкономив, таким образом, ресурсы и время для задач, в наибольшей степени связанных с искусством.

Я по-прежнему убежден, что применение нейросетей важно как можно быстрее внедрить именно в сфере партизанского, независимого кинопроизводства — только тогда масса кинематографистов, не имеющих высоких бюджетов, сумеет ярко и массово противопоставить свое творчество крупным коммерческим конгломератам. В противном случае независимых ждет все большая маргинализация, т.к. корпорации рано или поздно точно сообразят, как пользоваться передовой техникой.

Поэтому представляю вам новую статью о том, как применение нейросетей может быть полезно в сфере кино. Чем черт не шутит, может быть даже из этого родится постоянная рубрика.

Gemini

Длительное время у знаменитого ИИ-бота ChatGPT от OpenAI (о нем мы подробно говорили в предыдущей статье) не было заметных конкурентов. Для многих ChatGPT стал настольным инструментом для редактирования текста, переводов, генерации небольших текстовых фрагментов (вроде логлайнов или аннотаций), но в базовой бесплатной версии он имеет ряд существенных ограничений. Во-первых, устаревшая база, загруженная еще в 2021-м году; во-вторых, небольшие размеры информации для обработки; в-третьих, невозможность загружать в него файлы для дальнейшего взаимодействия. Некоторые из этих недостатков преодолеваются в рамках платной версии ChatGPT, но не всякий захочет или сможет включить платный тариф — как известно, из Российской Федерации на сегодняшний день весьма затруднительно проводить оплаты каких-либо зарубежных сервисов. Поэтому особенно важно обратить внимание на то, что 22-го марта 2024-го года корпорация Google открыла бесплатный доступ к нейросети Gemini Pro 1.5.

Самые главные преимущества, которые небольшие тесты показали по поводу Gemini для творческих нужд:

  • Возможность загружать для анализа объемные текстовые файлы (проверялось на форматах PDF и DOC), изображения, видео
  • Способность очень точно считывать контекст и подтекст

Рассмотрим на конкретном примере. Я загрузил в Gemini PDF-файл сценария своего короткометражного фильма “Серые дни” и попросил определить жанр, основные особенности и характеристики основным персонажам. Cценарий на русском языке и отформатирован по классической “американке”, никаких подсказок нейросети заранее не выдавалось.

Ответ занимает в зависимости от объема файла от 5-ти до 20-ти секунд. Gemini точно определяет жанр сценария, уловив элементы неонуара; также он вполне угадывает как стилистические, так и символические особенности текста, а также дает корректные характеристики персонажей. Если бы мне самому, как автору, пришлось разбирать этот сценарий, наверное, я бы сформулировал эти пункты аналогичным образом. Попробуем углубить анализ и запросим у нейросети обозначить сильные и слабые стороны драматургического материала.

Вновь довольно рациональная реакция. Как удачи, так и неудачи “Серых дней” здесь схвачены метко и правильно, рекомендации в целом тоже не лишены оснований, хотя совет добавить предыстории, на мой взгляд, несколько банален.

Но все это касается анализа уже готового текста. Как система справится с более творческими задачами — с генерацией нового контента на основе имеющегося? Спросим у Gemini, какие слоганы “Серых дней” для размещения на постерах и промо-материалах он мог бы предложить.

Некоторые слоганы слишком длинные, некоторые до комизма пафосные (вроде “Бывший коп. Нынешний мститель”), но есть и любопытные, особенно если над ними провести еще некоторую работу. Естественно, каждый такой запрос можно повторять снова и снова, заставляя нейросеть придумывать всё новые и новые варианты.

Наконец, попросим Gemini составить аннотацию фильма, которую можно было бы затем разместить на интернет-ресурсах вроде Кинопоиска или IMDb.

Здесь тоже вполне благопристойный результат: спойлеры отсутствуют; стиль фильма и сценария сохранен; есть даже интригующий вопрос в конце.

Таким образом, можно однозначно сказать, что Gemini способен помочь в рутине быстрого анализа, составления аннотаций, логлайнов, слоганов, а также поиске слабых мест. В принципе, Gemini способен стать чем-то вроде личного секретаря для сценариста и режиссера.

К сожалению, сервис недоступен из России напрямую. Впрочем, сегодня это едва ли кого-то остановит.

Ideogram

Поговорив о текстах, отправимся в мир зрительных образов и изображений. Midjourney и Stable Diffusion, которые мы рассматривали ранее, по-прежнему актуальны и до сих пор закрывают потребности огромного числа пользователей, но у них есть и собственные довольно неприятные недостатки. Midjourney работает исключительно на коммерческой основе, что опять создает проблемы российским потенциальным клиентам; Stable Diffusion имеет высокий порог входа, требует от человека много технических телодвижений при настройке, а также подойдет только тем, у кого более или менее производительные персональные компьютеры или ноутбуки. Для тех, кому нужно бесплатно, качественно и быстро, но при этом нет необходимости в тонких настройках, подойдет Ideogram.

Очень простой интерфейс дает возможность легко генерировать картинки даже начинающему пользователю (запросы необходимо писать на английском языке), система предоставляет 25 бесплатных генераций в день. При этом, в отличие от многих бесплатных тарифов в других нейросетях, Ideogram по своей политике сохраняет за пользователем права на использование изображений, в том числе коммерческие — так что полученные картинки затем можно применять по своему усмотрению.

В последнее время все заглавные превью для публикаций Craftkino я делаю при помощи Ideogram, т.к. это чрезвычайно быстро и эффективно. Разумеется, каждую из них можно в дальнейшем подвергнуть обработке при помощи Photoshop или любого иного графического редактора.

При первоначальной генерации в Ideogram используется свой собственный ИИ, который пытается угадать, что именно вы хотите получить в результате, и старается сформулировать на основе вашей идеи более подробное описание для нейросети. Эти получившиеся ИИ-запросы также затем можно корректировать, чтобы заставить Ideogram дать точный результат.

В общем, Ideogram — отличный карманный графический дизайнер, концепт-художник или раскадровщик. И этой технологией уже пользоваться проще простого.

Stable Audio

За прошедшие полтора года мы видели достаточно нейросетей работавших с текстами или статическими изображениями, но почти не видели ничего, создающего шумы и музыку. Да, эксперименты в этой области велись, однако результаты оставляли желать сильно лучшего: отсутствие гармонии и структуры, низкокачественные инструменты и хаотичность не давали никакой возможности не только использовать созданные треки, но даже хотя бы послушать их без дискомфорта.

Меньше месяца назад компания Stability.ai, также подарившая нам Stable Diffusion, представила Stable Audio 2.0 — нейросеть, созданную для генерации музыки. Конкурентным преимуществом по отношению к другим подобным моделям разработчики называли способность Stable Audio формировать музыкальные композиции, отвечающие понятиям драматургии, а именно сохраняющие тематическое единство на всем протяжении трека и содержащие начало, середину и конец. Помимо прочего, данная нейросеть умеет генерировать композиции до 3-х минут хронометража — т.е. полноценные музыкальные треки.

В целом их утверждения недалеки от истины. При тестовых генерациях действительно прослеживается тематическая структура и ясная драматургия. Хотя не во всех стилях нейросеть справляется одинаково хорошо. Так, электронные треки получаются на очень высоком уровне, а вот оркестровая музыка все еще звучит чересчур механически.

Важной особенностью Stable Audio стоит отметить ее способность использовать уже сгенерированный трек в качестве базы для последующих генераций через функцию Input Audio. Таким образом, Stable Audio за счет вариации треков открывает возможность создавать целые саундтреки и интонационные комплексы.

В качестве примера я попробовал сгенерировать трек по следующему запросу: “A slow and haunting electronic soundtrack in the retrowave genre using 1980s synthesizers, reminiscent of John Carpenter’s music for the films «The Fog» and «Escape from New York”. Получилась следующая 2-минутная композиция. Она, конечно, лишь до известной степени напоминает творчество Джона Карпентера, но выполнена не хуже работ среднестатистического синт-музыканта.

Решив создать очень близкую вариацию, я загрузил получившийся трек в Input Audio, выставил показатель схожести на 80% и добавил к описанию превосходную степень — “very slow and haunting”. Таким образом удалось добиться действительно похожей музыкальной композиции, но все же отличающейся некоторыми элементами.

Отмечу, что эти треки доставляют мне даже эстетическое удовольствие, напоминая о музыке из компьютерных игр начала 2000-х годов (вроде “Deus Ex” или “Unreal Tournament”). Впрочем, я поклонник электроники и могу быть не слишком объективным.

Из неприятного скажем, что здесь уже есть некоторые коммерческие ограничения. Бесплатно доступно только 30 генераций в месяц (по каким-то причинам на создание одного трека уходит 2, а не 1 генерация, поэтому фактически это 15 композиций), также на данном тарифе невозможно скачать музыку в формате .wav, а также недопустимо использование созданной музыки в коммерческих целях. Однако, если есть у вас есть возможность оплатить счет через другую страну, то даже самый минимальный платный тариф за 11$ ежемесячно открывает вам 500 генераций и любое коммерческое использование композиций, сформированных через Stable Audio.

Получается, что для создания саундтреков нейросеть Stable Audio подходит уже сейчас. Просто это не всякий саундтрек и только при возможности оплаты зарубежного сервиса. Но это значит, что важный технологический рубеж уже взят.

Перед революцией

Все вышеперечисленные примеры доказывают, насколько далеко продвинулся искусственный интеллект в вопросах генерации контента. Успехи настолько очевидны и появляются со столь умопомрачительной скоростью, что, вне всяких сомнений, можно констатировать, что мы находимся на пороге новой технологической революции, которая перевернет привычные представления о творчестве.

Наиболее ярким свидетельством грядущих прорывов служит анонс OpenAI (компании, разработавшей ChatGPT) о создании видеонейросети Sora. Она сможет генерировать высококачественное видео хронометражем до 60-ти секунд. Пока нет возможности испробовать ее на практике, т.к. она находится в режиме закрытого тестирования (как утверждают в OpenAI, они привлекли к испытаниям в том числе специалистов из Голливуда), но опубликованные примеры генераций красноречиво говорят о том, что в скором времени мы легко у себя дома сможем создавать кадры со сложными спецэффектами или многомиллионными массовками.

Возможно, кого-то такие гигантские технологические скачки могут испугать. В этом случае я лишь спешу напомнить: ИИ — это только инструмент. Он не умеет создавать что-то самостоятельно. Ему нужна программа, задача, вектор. Этот вектор задает человек. И таким образом, человек начинает творить при помощи ИИ. В конце концов, Кто собирает урожай? Комбайн или комбайнер?

Нам важно лишь помнить, что применение нейросетей может сделать кинематограф еще более демократичным. Но для того, чтобы это произошло, нам, независимым кинематографистам, нужно держать ухо востро и со всей возможной интенсивностью осваивать новые фантастические инструменты.

Как однажды сказал Фрэнсис Форд Коппола:

“… когда-нибудь так называемый «профессионализм» в кино будет уничтожен навсегда, и оно действительно станет искусством”.