Как компьютер распознает человеческие эмоции

22.12.2018

Все еще считаете компьютеры бездушными жестянками? Как бы не так! Они уже учатся распознавать у людей грусть, радость и гнев.

Все человеческие чувства проявляются не в словах, а в выражении лица, которое показывает гораздо больше, чем осознает большинство из нас. Даже если мы не хотим раскрывать свои мысли, нас выдает язык тела, выражение лица. 90 процентов коммуникации протекает невербально — это может удивить непрофессионалов, но давно является основным правилом для специалистов по коммуникации. Многие из этих сигналов мы даже не в состоянии контролировать, они проявляются непроизвольно и независимо от нашего происхождения или культурного уровня.

Это особенно верно для микроэкспрессий, выражений лица, которые проскальзывают всего на доли секунды и не поддаются сознательному контролю. К тому же их очень сложно имитировать, и потому они считаются довольно надежной эмоциональной сигнальной системой. Неопытному глазу они, как правило, не заметны, а вот камера схватывает их без проблем. Здесь используются алгоритмы так называемых эмоциональных вычислений (Affective Computing), когда производится анализ лиц по их выражениям, которые обычно классифицируются по шести или семи категориям.

По системе кодирования лицевых движений (СКЛиД) (англ. Facial Action Coding System (FACS)), разработанной в 70-х годах прошлого века Полом Экманом и Уоллесом Фризеном, к ним относятся гнев и страх, возмущение и отвращение, печаль, удивление и счастье. Более продвинутые системы используют еще более 20 измерительных величин. Мимика и эмоции не зависят от культурных факторов, что и показали его исследования, проведенные среди населения Папуа-Новой Гвинеи, далекого от средств массовой информации и культурных влияний других стран. Мимика и эмоции одинаково выражаются во всем мире, они универсальны и являются врожденными.

Может ли ИИ идентифицировать злоумышленников?

Теперь функциональность программ расширилась до такой степени, что они способны анализировать снимки в режиме реального времени, что открывает огромный спектр возможностей для их применения. С начала года Администрация транспортной безопасности США (TSA) в рамках пилотной программы тестирует биометрические технологии распознавания лиц, чтобы сверять личность пассажира с его документами.

Несложно представить, что ИИ дополнительно используется для распознавания эмоций, чтобы, например, определить возможных террористов среди пассажиров. Компании уже сейчас используют функцию распознавания эмоций для улучшения показателей своего бизнеса.

Disney заранее знает, когда будут смеяться зрители

Киноконцерн Disney использует технологию распознавания лиц для оценки эмоциональных реакций публики. Для отслеживания мимики людей, которые смотрят фильмы, был разработан алгоритм под названием factorized variational autoencoders (FVAE). Уже после десятиминутного анализа лица зрителя можно предсказать будущие выражения этого лица в дальнейшем ходе просмотра.

FVAE раскладывает изображения лиц зрителей в виде ряда чисел на основании определенных признаков: одно число для улыбки определенного лица, другое — для широты раскрытия глаз и так далее. Команда Disney применила FVAE к более чем 3000 зрителям при просмотре нескольких фильмов и определила 68 точек измерения на каждое лицо, что в итоге дало 16 миллионов отдельных снимков лиц. При наличии достаточного объема информации система может точно предсказать реакции человека уже через несколько минут наблюдения.

Кстати, технология не ограничивается одними только лицами. FVAE может, к примеру, проанализировать, как деревья реагируют на ветер в зависимости от их вида и размера.

Голос тоже выдает эмоции

Помимо выражения лица и положения тела наше эмоциональное состояние выдает и голос. Достаточное основание для исследователей во всем мире, чтобы поработать над возможностями автоматизированного распознавания эмоций.

Еще в 2016 году Мэттью Фернандес и Акаш Кришнан, студенты Массачусетского технологического института и Стэнфордского университета, разработали алгоритм, который может распознать десятки эмоций по человеческой речи. Так называемый алгоритм Simple Emotion отслеживает акустические характеристики звуков речи, такие как частота голоса, громкость и изменения тональности и сравнивает их с библиотекой звуков и тонов. Он идентифицирует эмоцию, находя ближайшее соответствие в каталоге.

Инструменты анализа речи могут быть интересны для компаний, которые хотят повысить уровень обслуживания своих клиентов. Как известно, мало что может нервировать звонящих на горячую линию больше, чем общение с равнодушным сотрудником колл-центра или роботом после ожидания соединения. И тут на помощь приходит алгоритм, дающий в режиме реального времени обратную связь относительно эмоционального состояния звонящего. Это может создать у звонящего впечатление, что к нему отнеслись серьезно и с пониманием. Для сотрудников колл-центра это будет означать снижение уровня стресса. Этот инструмент также может использоваться для обеспечения качества или обучения.

Американский психолог Пол Экман ввел различие между шестью основными эмоциями. Им невозможно научиться, они являются врожденными: страх, гнев, печаль, радость, отвращение и удивление.

Но голос и мимика — не единственное, что выдает ваши эмоции. Вместо голоса или выражения лица, устройство Moxo, надеваемое на запястье, использует сопротивление кожи. Его изменения, как и в случае применения детектора лжи, дают информацию о преобладающей в данный момент эмоции. Прибор, замеряющий эмоции, предназначен в первую очередь для применения в рыночных исследованиях.

Как ИИ читает «между строк»

Несколько сложнее обстоит дело с текстами. Как можно вывести из написанных слов и предложений чувства, с пониманием которых не всегда справляются и одушевленные читатели (вспомните школьные уроки литературы!). Бьярке Фельбо, датский стипендиат Массачусетского технологического института, в 2017 году разработал особенно оригинальный способ обучения искусственного интеллекта чтению «между строк». Его основным инструментом при этом являются эмодзи.

На самом деле, Фельбо хотел разработать систему, которая позволяла бы лучше распознавать расистские посты в Twitter. Но вскоре он понял, что многие записи невозможно верно истолковать без понимания иронии или сарказма. Поскольку пользователи Twitter не задействуют в коммуникации лицо, язык тела или тональность голоса, им нужны иные средства для придания правильного звучания своим сообщениям: для этого они используют эмодзи, поясняет Ияд Рахван, научный руководитель Фельбо в Массачусетском технологическом институте. «Нейронная сеть усвоила связь между определенным способом выражения и эмодзи».

Эмодзи: внимание, сарказм!

С помощью алгоритма, получившего название DeepMoji, исследователи проанализировали 1,2 миллиона твитов, которые содержали в общей сложности 64 различных видов эмодзи. Сначала они учили систему предсказывать, какой эмодзи будет использоваться вместе с определенным сообщением — в зависимости от того, выражает ли он счастье, грусть, смех или что-то еще. После этого система научилась распознавать сарказм на основании имеющегося набора данных по соответствующим категориям примеров.

Исследователи даже предоставили искусственному интеллекту собственный сайт, чтобы продемонстрировать часть системы, которую составляют эмодзи. Программа автоматически привязывает один или несколько подходящих эмодзи к тексту на английском языке и, кажется, работает достаточно эффективно. Трудности возникают только с твитами Дональда Трампа, которые явно сбивают Deepmoji с толку, так же, как и всех других читателей из плоти и крови.

Смысл и цель распознавания шаблона

После того как поутихнет ажиотаж вокруг новых технических возможностей, останется вопрос о глубинном смысле распознавания эмоций. Ведь машины, оснащенные таким ИИ, не вырабатывают никаких чувств, они их даже не понимают. Они лишь упорно и непоколебимо анализируют бесконечные ряды чисел. Самые разные формы выражения раскладываются для алгоритмов на изображения и графики, которые проверяются на наличие шаблонов и особенностей посредством распознавания изображений. Это может дать людям иллюзию того, что они имеют дело с чутким собеседником.

Такие программы, без сомнения, скоро смогут пройти любой тест Тьюринга. Но этот успех не в последнюю очередь объясняется тем, что человеческое понимание тоже основывается на распознавании шаблонов и всегда ищет в непривычном что-то знакомое. На этом основаны все тесты Роршаха. Так что остается опасение, что здесь будет заложена основа для еще большего контроля или еще более изощренных манипуляций. Или надежда на то, что разумное применение все-таки будет найдено.

Читайте также: