Нейросеть по пятницам: оживляем фото с помощью Pika
Сегодня в нашей еженедельной рубрике «Нейросеть по пятницам» мы продемонстрируем работу нейросети Pika. Он позволяет генерировать короткие видео по текстовому запросу и оживлять любые фотографии. Давайте посмотрим, на что способна эта генеративная сеть.
Мы продолжаем регулярно знакомить вас с полезными сервисами, в том числе с нейросетями. В позапрошлый раз показали, как можно генерировать видеоролики и оживлять фотографии с помощью Runway, а теперь протестируем похожую платформу под названием Pika.
Для работы сервиса подойдет любой компьютер, даже самый слабый ноутбук — все действия производятся на серверах Pika и не нагружают процессор.
Что такое Pika
Нейросеть Pika была разработана двумя аспирантами Стэнфордского университета. Они утверждают, что создать красивое видео под силу далеко не каждому, поэтому предлагают использовать для этого мощь искусственного интеллекта. В результате работы этих умельцев была создана платформа, которая позволяет генерировать видео из текстового описания, а также анимировать фотографии — например, оживлять фото из домашнего архива.
По оценкам экспертов, генеративная сеть работает хорошо — о ней положительно отзываются журналисты таких известных изданий, как Inc., Bloomberg и Forbes. Давайте и мы проверим, на что способен этот инструмент.
Что умеет Pika
Нейросеть обладает тремя основными инструментами:
- Превращает текст в видео — можно напечатать текстовый запрос, а искусственный интеллект его обработает и выдаст результат в виде короткого ролика.
- Оживляет фотографии — превращает статичные объекты на снимках в анимацию.
- Перерисовывает видео — может изменить стилистику видео. Например, превратить мультфильм в настоящее кино.
Предлагаем узнать, как работает оживление фотографий. Это, пожалуй, самый востребованный на сегодняшний день функционал.
Тестируем Pika
Представьте себе картину — енот пытается дотянуться до буррито в открытом космосе. До некоторых пор нарисовать такое могли только 3D-художники, а на всю работу могли уйти десятки часов труда. Сейчас это можно сделать за десять секунд с помощью нейросети. Просто вбиваем соответствующий запрос и получаем неплохой результат.
Например, такое выдала Pika по запросу cinematic, a raccoon wearing sunglasses, 3d animation. С первого взгляда и не понять, что это было нарисовано силами ИИ. Так что платформа однозначно неплохо справляется с генерацией видео из текста.
Однако создавать что-то с нуля всегда проще, чем переделывать уже готовый продукт. Поэтому усложним задачу и попросим нейросеть оживить фотографию. Но начнем с простого — пусть она оживит легендарного кота из мультфильма «Шрек».
Отправляем Pika нужную картинку, добавляем пожелания и нажимаем «Старт». Примерно через 15–20 секунд в библиотеке генераций появится готовый материал.
И правда, картинка ожила, причем можно сказать, что эффект оказался очень близок к оригиналу. Что же, с компьютерной графикой сеть, вроде, справилась. Давайте теперь проверим, на что она способна при работе с обычными фотографиями.
Конечно, назвать результат этой работы идеальным нельзя — не более чем «на троечку». Отрисовка лиц пугает, как и слишком быстрые движения будто из фильмов ужасов. Но похвалить систему тоже есть за что. Во-первых, она не добавила людям новых рук и ног, хотя немного запуталась в проработке деталей. Во-вторых, нейросеть правильно поняла, что модели отвернуты от камеры, поэтому решила развернуть их лицами к объективу.
Если вам что-то не нравится в работе автоматических алгоритмов, можно всегда подправить настройки руками.
Здесь регулируется движение камеры, приближение, формат картинки, а также частота кадров и даже точность совпадения с текстовым запросом.
В целом, если смотреть на результаты Pika без увеличения на весь экран, то можно и не заметить существенных огрехов. Вероятно, конечный результат можно улучшить, если описать задачу более точно. Или использовать запросы попроще — например, попросить ИИ оживить фотографию фейерверка. При желании можно добавить озвучку — она тоже сгенерируется с помощью ИИ.
Вот теперь куда лучше, чем с людьми. Хотя с портретами нейросеть работает тоже неплохо. Например, она справилась с оживлением этого снимка.
Все еще далеко от идеала или полной естественности, но уже неплохо, учитывая, что весь процесс занимает не больше минуты свободного времени, к тому же еще и не нагружает компьютер.
Справедливо заметить, что отдавать Pika на «растерзание» фотографии людей пока еще рано, но с компьютерной графикой и снимками неодушевленных предметов нейросеть уже работает на достаточном уровне. Единственный недостаток — платная подписка. При регистрации система выдает 250 токенов, которые очень быстро заканчиваются. Затем каждый день запас монет восполняется только до 30 единиц. Если нужно больше свободы для творчества, придется купить тариф — от 10 долларов за самый простой и до 70 долларов за «про».
Кстати, нейросети могут не только созидать, но и уничтожать — например, удаляют объекты со снимков. Мы показали, как это работает, на примере сервиса ObjectRemover.