4 сервиса, где нейросети рисуют картинку по описанию
Пока привыкать: искусственный интеллект может создать свой шедевр, вам достаточно лишь описать на словах, что вы хотите увидеть



Современные технологии развиваются так стремительно, что нейросети, совсем недавно бывшие лишь нелепой забавой, сегодня стали серьезными и эффективными помощниками человека. Причем не только в механической работе, требующей точности в изучении огромного массива данных, но и в творческих задачах. Уже сейчас нейросеть рисует. Нейросеть рисует картины, нейросеть рисует портреты и нейросеть рисует по словам. И нет, это не шутка.
Подпишитесь на наши каналы, чтобы не пропустить интересные новости и полезные статьи
Что такое нейросеть
Прежде чем разбираться с художественными навыками нейросетей, стоит для начала понять, что же это такое — нейронная сеть (она же artificial neural network в английском наименовании). Термин нейросеть своими корнями уходит к исследованиям работы мозга человека и в наши дни применяется к свободно связанному семейству моделей, которые характеризуются большим параметрическим пространством и гибкой структурой. Непонятно? Ничего удивительного, ведь и работа самих нейросетей не самая простая для человека неподготовленного. Но, кроме шуток, нейросеть работает по принципу человеческого мозга — он состоит из нейронов, которые связаны передающими электрохимические импульсы синапсами — а в нейросети роль нейронов играют вычислительные элементы, которые имитируют мозг человека.
Правда, несмотря на все достижения науки, пока нейросети требуют большого количества технических ресурсов, включая мощнейшие компьютеры, а также не могут соперничать с мозгом человека, где и синапсов больше, и работать они могут параллельно друг с другом. А нейросети пока функционируют лишь через разделение любой, даже самой простой задачи, на череду последовательных шагов к её выполнению. Но уже сейчас нейронные сети способны существенно помогать человеку в повседневных задачах.
Нейросетям доверено распознавать лица в системах видеонаблюдения, диагностировать болезни при анализе данных пациентов, заменять человека в колл-центрах в роли голосовых помощников да даже привычные всем чат-боты тоже используют в своей основе принцип нейронных сетей. Сервисы по имитации голосов и созданию изображений-дипфейков построены также на нейросетях. А в последнее время нейронным сетям доверили даже творческие задачи — написание стихов и рекламных слоганов, сочинение музыки и сценариев для фильмов, разработку и визуализацию промышленного дизайна, а кроме того — превращение слов в изображение.
DALL-E 2
В 2021 году одно из детищ Илона Маска, занимающаяся разработкой и лицензированием технологий на основе машинного обучения американская компания OpenAI, представила нейросеть DALL-E, способную создавать изображение по его текстовому описанию. Опыт был признан удачным и в 2022 году анонсировали DALL-E 2 — дальнейшее развитие своего прародителя.
К основным особенностям нейросети добавилось в четыре раза более высокое качество итоговых изображений, возможность редактировать загруженные фотографии (удалять или добавлять объекты на готовое изображение) и создавать третье изображение на основе двух загруженных, сочетая в получившемся новом характерные черты стиля исходных иллюстраций.
Пока, правда, DALL-E 2 (названа, если кто не догадался, в честь испанского художника-сюрреалиста Сальвадора Дали) находится в закрытом бета-тесте и доступа всех желающих к ней не предусмотрено. Но по окончании испытаний на основе нейросети все желающие смогут создавать собственные приложения для обработки и создания изображений.
GLIDE
Все та же OpenAI представила в 2021 году нейросеть GLIDE, которая способна обрабатывать загруженные изображения, а также генерировать уникальные иллюстрации на основе их текстового описания. С помощью сервиса можно добавлять на изображения различные элементы, причем GLIDE может работать не только с фотографиями, но и рисунками — в обоих случаях нейронная сеть «считывает» стиль исходной иллюстрации, что позволяет гармонично вписывать новый объект, адаптируя его под общий стиль изображения.
По качеству своей работы новая нейросеть превосходит DALL-E и даже может качественно справляться с необычными заданиями, но и как любая нейросеть периодически GLIDE способна дать сбой при выполнении самого простого запроса. Описание своего проекта разработчики из OpenAI представили в виде научной публикации на портале arXiv.org, а также выложили на GitHub исходный код сокращенной версии нейросети для тестов всеми заинтересовавшимися проектом.
GauGAN 2
Еще один американский технологический гигант — компания Nvidia — который специализируется на разработке графических процессоров и систем на чипе снискал себе славу в индустрии видеоигр, сфере профессиональной визуализации, областях высокопроизводительных вычислений и беспилотных автомобилях, которые используют бортовые компьютеры Nvidia, также не остался в стороне от нейросетей. В 2019 году появилась нейронная сеть GauGAN, генерирующая изображения на основе эскизов, а под конец 2021 года создали GauGAN 2.
Основной фишкой GauGAN 2 (имя ей дал французский постимпрессионист Поль Гоген) стало умение создавать иллюстрации на основе текстовых описаний. Для обучения использовался суперкомпьютер NVIDIA Selene, десятки миллионов высококачественных изображений и текстов, на основе которых нейросеть тренировалась устанавливать связь между словами и иллюстрациями, стилем текста и готовым изображением.
В демонстрационном режиме GauGAN 2 доступна на сайте компании-разработчика, а вот первую версию своей нейросети Nvidia воплотила в релизном продукте — алгоритмы нейронной сети работают с изображениями в редакторе Canvas.
ruDALL-E
Особняком среди всех проектов стоит труд команды SberDevices и Sber AI при содействии SberCloud, которая взяла за основу модель DALL-E от компании OpenAI, а затем перевела ее на русский язык. Российские специалисты взяли код, запустили обучение нейросети на платформе ML Space на базе суперкомпьютера «Кристофари» — 23 тысячи GPU-часов обучения на массиве данных из 120 миллионов пар текст-изображение обернулись самым большим нейросетевым вычислительным проектом в России и СНГ и нейросетью ruDALL-E. Это единственная в мире нейронная сеть, которая может генерировать изображения на основе текстового описания на русском языке (позднее, впрочем, вышла версия для работы с англоязычными описаниями).
«Создание изображений при помощи ruDALL-E происходит в три этапа: сначала одна нейросеть принимает текст на вход и генерирует заданное число картинок, затем следующая выбирает, какие из них наиболее удачны и максимально соответствуют описанию, а третья увеличивает их в размере без потери качества. Таким образом можно получить неограниченное количество новых изображений, подходящих под указанные характеристики. Нейросеть одновременно обучается на двух видах данных — картинках и текстах, и позволяет создавать неограниченное число новых изображений по заданному описанию. Есть два варианта модели: ruDALL-E XL, содержащая 1,3 миллиарда параметров и ruDALL-E 12B с 12 миллиардами параметров», — описывает свой проект «Сбер».
Уменьшенный вариант ruDALL-E доступен в приложении «Салют» и на демосайте, а на устройствах Sber или в приложении «Салют» для запуска нейросети достаточно голосовой команды «Открой Дали» или «Запусти художника».
P.S. Иллюстрации в разделах о нейросетях GauGAN 2 и ruDALL-E показывают то, как нейронные сети Nvidia и «Сбера» представляют себе слово iChip — в обоих случаях название нашего издания вызывает у нейросетей космические «ассоциации».
Еще одно модное словечко, которое теперь у всех на слуху — NFT. Почитайте в нашей статье, что это такое и как на этом можно заработать.