4 сервиса, где нейросети рисуют картинку по описанию

Пока привыкать: искусственный интеллект может создать свой шедевр, вам достаточно лишь описать на словах, что вы хотите увидеть

4 сервиса, где нейросети рисуют картинку по описанию

Unsplash

Современные технологии развиваются так стремительно, что нейросети, совсем недавно бывшие лишь нелепой забавой, сегодня стали серьезными и эффективными помощниками человека. Причем не только в механической работе, требующей точности в изучении огромного массива данных, но и в творческих задачах. Уже сейчас нейросеть рисует. Нейросеть рисует картины, нейросеть рисует портреты и нейросеть рисует по словам. И нет, это не шутка.

Подпишитесь на наши каналы, чтобы не пропустить интересные новости и полезные статьи
Подпишитесь на наши каналы, чтобы не пропустить интересные новости и полезные статьи

Что такое нейросеть

Прежде чем разбираться с художественными навыками нейросетей, стоит для начала понять, что же это такое — нейронная сеть (она же artificial neural network в английском наименовании). Термин нейросеть своими корнями уходит к исследованиям работы мозга человека и в наши дни применяется к свободно связанному семейству моделей, которые характеризуются большим параметрическим пространством и гибкой структурой. Непонятно? Ничего удивительного, ведь и работа самих нейросетей не самая простая для человека неподготовленного. Но, кроме шуток, нейросеть работает по принципу человеческого мозга — он состоит из нейронов, которые связаны передающими электрохимические импульсы синапсами — а в нейросети роль нейронов играют вычислительные элементы, которые имитируют мозг человека. 

Правда, несмотря на все достижения науки, пока нейросети требуют большого количества технических ресурсов, включая мощнейшие компьютеры, а также не могут соперничать с мозгом человека, где и синапсов больше, и работать они могут параллельно друг с другом. А нейросети пока функционируют лишь через разделение любой, даже самой простой задачи, на череду последовательных шагов к её выполнению. Но уже сейчас нейронные сети способны существенно помогать человеку в повседневных задачах.

Нейросетям доверено распознавать лица в системах видеонаблюдения, диагностировать болезни при анализе данных пациентов, заменять человека в колл-центрах в роли голосовых помощников да даже привычные всем чат-боты тоже используют в своей основе принцип нейронных сетей. Сервисы по имитации голосов и созданию изображений-дипфейков построены также на нейросетях. А в последнее время нейронным сетям доверили даже творческие задачи — написание стихов и рекламных слоганов, сочинение музыки и сценариев для фильмов, разработку и визуализацию промышленного дизайна, а кроме того — превращение слов в изображение.

DALL-E 2

В 2021 году одно из детищ Илона Маска, занимающаяся разработкой и лицензированием технологий на основе машинного обучения американская компания OpenAI, представила нейросеть DALL-E, способную создавать изображение по его текстовому описанию. Опыт был признан удачным и в 2022 году анонсировали DALL-E 2 — дальнейшее развитие своего прародителя.


К основным особенностям нейросети добавилось в четыре раза более высокое качество итоговых изображений, возможность редактировать загруженные фотографии (удалять или добавлять объекты на готовое изображение) и создавать третье изображение на основе двух загруженных, сочетая в получившемся новом характерные черты стиля исходных иллюстраций.


Пока, правда, DALL-E 2 (названа, если кто не догадался, в честь испанского художника-сюрреалиста Сальвадора Дали) находится в закрытом бета-тесте и доступа всех желающих к ней не предусмотрено. Но по окончании испытаний на основе нейросети все желающие смогут создавать собственные приложения для обработки и создания изображений.

GLIDE

Все та же OpenAI представила в 2021 году нейросеть GLIDE, которая способна обрабатывать загруженные изображения, а также генерировать уникальные иллюстрации на основе их текстового описания. С помощью сервиса можно добавлять на изображения различные элементы, причем GLIDE может работать не только с фотографиями, но и рисунками — в обоих случаях нейронная сеть «считывает» стиль исходной иллюстрации, что позволяет гармонично вписывать новый объект, адаптируя его под общий стиль изображения.


По качеству своей работы новая нейросеть превосходит DALL-E и даже может качественно справляться с необычными заданиями, но и как любая нейросеть периодически GLIDE способна дать сбой при выполнении самого простого запроса. Описание своего проекта разработчики из OpenAI представили в виде научной публикации на портале arXiv.org, а также выложили на GitHub исходный код сокращенной версии нейросети для тестов всеми заинтересовавшимися проектом.


GauGAN 2

Еще один американский технологический гигант — компания Nvidia — который специализируется на разработке графических процессоров и систем на чипе снискал себе славу в индустрии видеоигр, сфере профессиональной визуализации, областях высокопроизводительных вычислений и беспилотных автомобилях, которые используют бортовые компьютеры Nvidia, также не остался в стороне от нейросетей. В 2019 году появилась нейронная сеть GauGAN, генерирующая изображения на основе эскизов, а под конец 2021 года создали GauGAN 2.


Основной фишкой GauGAN 2 (имя ей дал французский постимпрессионист Поль Гоген) стало умение создавать иллюстрации на основе текстовых описаний. Для обучения использовался суперкомпьютер NVIDIA Selene, десятки миллионов высококачественных изображений и текстов, на основе которых нейросеть тренировалась устанавливать связь между словами и иллюстрациями, стилем текста и готовым изображением.

В демонстрационном режиме GauGAN 2 доступна на сайте компании-разработчика, а вот первую версию своей нейросети Nvidia воплотила в релизном продукте — алгоритмы нейронной сети работают с изображениями в редакторе Canvas.

ruDALL-E

Особняком среди всех проектов стоит труд команды SberDevices и Sber AI при содействии SberCloud, которая взяла за основу модель DALL-E от компании OpenAI, а затем перевела ее на русский язык. Российские специалисты взяли код, запустили обучение нейросети на платформе ML Space на базе суперкомпьютера «Кристофари» — 23 тысячи GPU-часов обучения на массиве данных из 120 миллионов пар текст-изображение обернулись самым большим нейросетевым вычислительным проектом в России и СНГ и нейросетью ruDALL-E. Это единственная в мире нейронная сеть, которая может генерировать изображения на основе текстового описания на русском языке (позднее, впрочем, вышла версия для работы с англоязычными описаниями).


«Создание изображений при помощи ruDALL-E происходит в три этапа: сначала одна нейросеть принимает текст на вход и генерирует заданное число картинок, затем следующая выбирает, какие из них наиболее удачны и максимально соответствуют описанию, а третья увеличивает их в размере без потери качества. Таким образом можно получить неограниченное количество новых изображений, подходящих под указанные характеристики. Нейросеть одновременно обучается на двух видах данных — картинках и текстах, и позволяет создавать неограниченное число новых изображений по заданному описанию. Есть два варианта модели: ruDALL-E XL, содержащая 1,3 миллиарда параметров и ruDALL-E 12B с 12 миллиардами параметров», — описывает свой проект «Сбер». 

Уменьшенный вариант ruDALL-E доступен в приложении «Салют» и на демосайте, а на устройствах Sber или в приложении «Салют» для запуска нейросети достаточно голосовой команды «Открой Дали» или «Запусти художника». 

P.S. Иллюстрации в разделах о нейросетях GauGAN 2 и ruDALL-E показывают то, как нейронные сети Nvidia и «Сбера» представляют себе слово iChip — в обоих случаях название нашего издания вызывает у нейросетей космические «ассоциации».

Еще одно модное словечко, которое теперь у всех на слуху — NFT. Почитайте в нашей статье, что это такое и как на этом можно заработать. 

Рекомендуем