Несмотря на то, что нейросетевые технологии уже несколько лет переходят от одного этапа развития к другому, в наш быт они ворвались совсем недавно – на рубеже 2022-го и 2023-го годов. Вот тогда о них заговорили буквально из каждого утюга. Даже российские телеканалы посвятили этому явлению пару сюжетов, а ведь их консерватизм преодолеть воистину сложное дело. С одной стороны, нейросети показывают потрясающие результаты в плане генерации контента, а с другой способны вселить тревогу – не заменит ли машина человека? Невольно задумываешься о всяческих предзнаменованиях от писателей-фантастов далекого прошлого.
Однако настоящая статья не об этом. Она о тех возможностях, которые открывают нейросети в кино, и в первую очередь – в кино независимом. Безусловно, для крупнобюджетных студийных проектов технологии тоже могут сделать немало, но у мейджоров и без нейросетей были гигантские ресурсы для реализации каких угодно задач. А вот для тех, кому каждый раз приходится изобретать велосипед, т.к. в кармане почти нет средств, нейросети могут оказаться по-настоящему ценнейшим соратником. Так посмотрим же, что будущее приготовило для кинопартизан.
Наш друг, Скайнет
По большей части я сосредоточусь на собственном опыте того, как можно применять нейросети в кино, ибо в этом случае можно точно утверждать, при помощи какой системы были получены те или иные результаты, какие запросы использовались, какие преимущества и недостатки обнаружились. Но все же никак не обойтись без некоторого экскурса.
Итак, что же такое нейросеть?
«Нейросеть — это система, которая работает подобно мозгу человека. Она может обрабатывать большое количество данных и на основе этой информации делать выводы и принимать решения. Нейросеть состоит из множества элементов, называемых нейронами, которые связаны между собой. Каждый нейрон может получать входные данные, обрабатывать их и передавать результаты другим нейронам. Это позволяет нейросети обучаться на примерах, и улучшать свои результаты с каждым новым опытом»
Определение сгенерировано при помощи нейросети ChatGPT
Эти системы уже сегодня в состоянии создавать изображения, тексты, музыку и с их помощью даже пытаются формировать видео. Если с видео пока еще получается не слишком убедительно, то с другими вышеназванными элементами дело обстоит весьма серьезно – особенно с текстом и картинками.
Впрочем, если кто-то предполагает, что достаточно просто сказать магическую формулу «Сделай красиво», и кибернетический товарищ тут же выдаст безупречный материал, он ошибается. Машина окажется малополезной, если человек не знает, в каком векторе нужно двигаться: ведь даже самая развитая компьютерная система лишена воли, целеполагания и амбиций. Только точно определив, чего же мы хотим добиться, можно прийти к полезному на практике результату.
Цех на расстоянии клика
Какие самые очевидные области могут изменить нейросети в кино? В первую очередь они способны либо помочь работе художественного цеха, либо, в некоторых случаях, заменить его полностью. Нет возможности нанять человека, способного нарисовать эскиз или логотип? Поблизости не найти нужного специалиста? Нет времени на процесс рисования? Во всех этих случаях технологии приходят на помощь кинематографисту.
Midjourney
Наиболее известной нейросетью, занимающейся генерацией изображений на основании текстового запроса (запросы в большинстве случаев нужно писать на английском языке), пожалуй, является Midjourney. Сегодня картинки, созданные Midjourney, распространяются по всем соцсетям и удивляют нас уровнем исполнения. Лично я обратился к Midjourney в начале августа 2022-го года (т.е. вскоре после начала ее открытого бета-тестирования 12-го июля того же года), т.к. находился в поиске инструментов для быстрого создания небольшого графического реквизита, необходимого в павильонных съемках полнометражного проекта «Астероид-77F» (о его подготовке я рассказывал в статье о малобюджетной космической фантастике). И благодаря Midjourney мне удалось подготовить целую массу материала, значительная часть которого и была использована на съемочной площадке в качестве этикеток, плакатов или открыток.
На тот момент действовала 3-я версия данной системы. Сегодня в активе уже 5-я, и уровень ее эффективности повысился еще больше.
Разумеется, нельзя забывать, что мало подготовить картинку. Она все равно, так или иначе, потребует какой-либо обработки. Поэтому нужно также вооружиться графическим редактором (например, Adobe Photoshop), дабы получить в итоге именно то, что требуется с точки зрения творческой задачи. Например, из логотипа с мультипликационной коровой в стиле 30-х годов, который любезно предоставила Midjourney, мне предстояло сделать полноценную этикетку для вымышленной тушёнки – поэтому некоторые манипуляции в Photoshop, плюс подгонка под размер конкретной консервной банки дали то, что нужно.
При всех огромных достоинствах с Midjourney есть три проблемы, первая из которых не столь серьезна, а вот две другие представляют некоторые трудности:
- Весь процесс происходит в чатах мессенджера Discord, из-за чего можно легко заблудиться в потоках картинок, создаваемых людьми со всего света
- Сервис платный и стоит от 10$ в месяц
- Оплатить Midjourney можно исключительно с банковских карт зарубежных банков (ни одна отечественная карточка не сработает, и на то есть вполне определенные причины)
Поэтому если собираетесь вооружиться Midjourney, то стоит озаботиться либо поиском родственников/знакомых за рубежом, либо обзавестись счетом в банке за пределами Российской Федерации.
Помимо прочего, Midjourney, как коммерческая разработка, обладает рядом ограничений цензурного характера. Например, там не получится создать изображения чересчур фривольные или же затрагивающие те или иные болезненные политические темы (в том числе, не удастся сгенерировать картинки с товарищем Си Цзиньпином).
Соответственно, если у нас нет никакой возможности воспользоваться зарубежными картами, в целях экономии не можете тратить средства на оплату подписки или же не приемлете цензурные инициативы капитала, то стоит искать решения на территории так называемого open source (свободного программного обеспечения) – и здесь нам на помощь приходит Stable Diffusion. Нейросеть, построенная на полностью бесплатных началах.
Stable Diffusion
Со Stable Diffusion работать не настолько просто, как с Midjourney, но если с ней разобраться, то открываются необъятные возможности (в какой-то степени даже более широкие). Так как основной съемочный процесс «Астероида-77F» завершился до того, как я открыл для себя эту нейросеть, то и в рамках проекта было генерировать особенно нечего. Однако некоторые вещи, тем не менее, удалось создать.
В частности для одной досъемочной смены потребовалось сгенерировать фотографию, где молодой худой мужчина и беременная девушка стоят рядом на поверхности другой планеты на фоне космической фермы. Задача была решена при помощи Photoshop и Stable Diffusion. Нейросеть создала определенное количество вариантов, дальше я выбрал наиболее подходящий, и уже докручивал его в графическом редакторе, используя фотомонтаж, а также накладывая фильтры с зерном и оптическими искажениями, чтобы максимально замаскировать искусственное происхождение изображения.
Вне всяких сомнений при пристальном взгляде довольно быстро становится ясно, что перед нами «липа». Но если такая фотография не будет показываться слишком крупным планом, а также на ней не будет акцентировано излишнее внимание, то подобное решение вполне правомерно.
Что еще обязательно следует отметить о работе Stable Diffusion? Нейросеть, как и Midjourney (или любая другая) требует отбора вариантов и многократного уточнения, но она к этому процессу особенно чувствительна. В первой итерации практически невозможно получить качественное изображение. Поэтому работа с ней всегда связана с получением первого комплекта вариантов, отбора наиболее подходящего, генерации нового комплекта на его основе, отбора наиболее подходящего уже оттуда и т.д. При этом с каждым новым этапом качество изображения улучшается. Периодически также необходимо уточнять текстовый запрос.
Приведу примеры последовательной генерации вариантов постера для фильма (пока только гипотетических, дабы выбрать композицию и стиль).
Stable Diffusion можно использовать и для рутинных задач – например, для создания раскадровок. Если снизить разрешение генерируемых картинок (а для раскадровок не требуется слишком больших изображений), то скорость работы нейросети в разы повысится, соответственно, описывая в запросе каждый кадр по отдельности, получается довольно эффективно формировать раскадровки.
В данном случае я в тестовом режиме решил сделать несколько кадров для сцены, в которой мужчина спускается с холма, видит деревню и входит в нее, пока некоторые жители смотрят на странника. Дело заняло примерно 30 минут, включая отбор вариантов. Полагаю, что ни один художник-раскадровщик, даже самый опытный, не сумел бы выдать такую скорость с таким результатом (может быть, я ошибаюсь).
Но стоит вернуться к некоторым сложностям, которые встретят любого пользователя Stable Diffusion. Данная нейросеть существует и в онлайн-режиме, но им не рекомендуется пользоваться, т.к. он лишен основного функционала. Наиболее оптимальным подходом станет установка нейросети непосредственно на ПК, где будут использоваться его мощности. Т.к. мы имеем дело с open source, то сборки интерфейса могут быть различными (я использую Easy Diffusion) и, помимо прочего, к системе можно подключить любую модель, обученную для тех или иных целей. В Интернете есть большое количество хранилищ, где выкладываются модели для Stable Diffusion (какие-то для генерации аниме, какие-то для создания фотореалистических изображений, иные даже для рисования эротики). С моими задачами лучше всего справляется модель Clarity.
Кроме Midjourney и Stable Diffusion картинки могут генерировать такие нейросети как Kandinsky, BlueWillow или Dall-E, однако с ними я меньше работал, потому как в целом меньше впечатлили. Вполне возможно, что для ваших целей появится смысл поэкспериментировать и с ними.
ChatGPT, секретарь и фантазёр
Наконец, мы не можем не упомянуть ChatGPT – самую известную нейросеть, связанную с генерацией текста, и способную вести осмысленный диалог с пользователем на множество разнообразных тем практически на любом языке.
Некоторые уже поспешили назвать ее убийцей писателей и журналистов (кое-где даже авторов уволили, чтобы заместить их нейросетью). Однако вдумчивое тестирование показывает, что разработать содержательный художественный текст, включающий какую-то концепцию или мировоззрение, ChatGPT не в состоянии – выходят довольно банальные тексты.
Однако можно использовать ChatGPT в качестве ассистента или секретаря-референта. Скажем, для помощи в разработке какого-нибудь замысла – если спросить у него совета по отдельным элементам или вопросам. Для примера я открыл с нейросетью беседу о гипотетическом сценарии про римского полководца Сципиона Африканского.
Ответы ChatGPT очень подробны и обстоятельны даже на русском языке. Но не стоит слишком доверять ему. Дело в том, что этой нейросети свойственна некоторая любовь к фантазиям. Короче говоря, иногда она врёт. Т.е. сообщает факты, не соответствующие действительности. Чаще всего это происходит, если спрашивать цитаты или источники информации. Поэтому с ChatGPT нужно держать ухо востро, что, конечно, не должно становиться препятствием к использованию системы.
Помимо этой своеобразной особенности здесь, как и в случае с Midjourney, присутствует цензура, а также, несмотря на то, что использование нейросети бесплатно, требуется зарубежный номер телефона, чтобы зарегистрировать аккаунт. Из Российской Федерации без соответствующих технических методов не удастся создать профиль и войти в него. Поэтому вновь обращаю внимание, что для использования подобных инструментов желательно иметь знакомых за границей.
Время, вперед!
Очевидно, что уже на данном этапе нейросети помогают независимому кинематографисту значительно продвинуться в плане эффективности выстраивания творческих процессов. И, как следствие, силы, деньги и время высвобождается для более сложных и ответственных задач, связанных с постановкой кинопроизведения.
Эта оптимизация происходит либо за очень небольшие деньги, либо вообще бесплатно, и требует лишь минимальной технической подкованности у кинематографиста. Изображения или текст, созданные нейросетью, не защищаются законами об интеллектуальной собственности (технически у них нет автора, потому что авторское право в отношении машины отсутствует). Это порождает отдельный этический вопрос, касающийся данных, использующихся нейросетью для обучения – ведь у них есть конкретные авторы. Но в настоящей статье мы не имеем никакой возможности рассматривать эту проблему. Бояться машин не нужно. Они таят в себе гораздо больше возможностей, чем опасностей. Нам нужно научиться их использовать. В том числе для того, чтобы суметь преодолеть то различие, которое есть между кинематографистами, работающими с крупными киностудиями, и кинематографистами, предпочитающими (или вынужденными) создавать фильмы с малым бюджетом и повышенным творческим контролем. Нейросети – это один из инструментов, ведущих к демократизации киноискусства.