Аффективные вычисления: как алгоритмы ИИ изучают наш эмоциональный мир
Искусственный интеллект распознает закономерности и все чаще ищет их в наших голосах и выражениях лица. Именно так алгоритмы должны научиться понимать наши эмоции.
Программы искусственного интеллекта иногда могут воспринимать тонкие сигналы, которые мы посылаем бессознательно, лучше, чем мы, люди.
С каждым предложением, которое мы произносим, и с каждым взглядом, который мы бросаем кого-то, мы посылаем поток тонких сигналов. Эта информация имеет решающее значение для нашего сосуществования: высказывание интерпретируется собеседником совершенно по-разному в зависимости от тона, мимики и жестов. Даже простые микрофоны и камеры сегодня улавливают каждое выражение лица, каким бы мимолетным оно ни было, и каждый тонкий нюанс звука — с точностью, превосходящей возможности наших органов чувств.
Такие технологии имеют множество возможных применений: их можно использовать для интуитивного управления роботами и компьютерными системами. Компании также очень заинтересованы в использовании этих методов для проведения исследований рынка и выяснения того, в чем действительно заинтересованы клиенты. Другой вариант использования предлагают практически безошибочные детекторы лжи, которые полностью видят испытуемых насквозь. По имеющимся данным, в колл-центрах уже распространена практика автоматического анализа разговоров клиентов на предмет их эмоционального содержания, что, однако, влечет за собой проблемы с защитой данных.
Попытка использовать машинное обучение для понимания наших эмоциональных состояний называется «аффективными вычислениями». Компьютерные программы часто основаны на сильно упрощенных концепциях психологии. Например, модель OCC, сформулированная в 1988 году психологами Эндрю Ортони, Джеральдом Клором и Алланом Коллинзом, различает 22 эмоциональные категории: от радости и гордости до любви и ненависти. С другой стороны, психолог Альберт Мехрабян еще в 1960-х годах обнаружил, что слова составляют всего 7 процентов человеческого общения, голос — 38 процентов, а мимика — 55 процентов. А «модель большой пятерки» Пола Косты и Роберта Маккрея различает пять личностей: от добросовестных до невротиков.
«Для исследователей ИИ вроде меня такой когнитивный взгляд на эмоции, конечно, хорош», — говорит Патрик Гебхард, возглавляющий группу «Аффективные вычисления» в Немецком исследовательском центре искусственного интеллекта. Гебхард включил вышеупомянутые психологические модели в свою компьютерную модель ALMA («Многослойная модель аффекта») в рамках своей диссертации в 2007 году, чтобы правдоподобно представить поведение виртуальных фигур. ALMA сочетает в себе 24 эмоции, 8 настроений и 5 различных типов личности и поэтому способна оценивать различные ситуации и соответствующим образом корректировать поведение моделируемого персонажа.
Человеческие эмоции сложнее простых моделей
Но когда дело дошло до автоматического распознавания человеческих эмоций, у Гебхарда и его коллег вскоре возникли сомнения. «Эмоции — сложная конструкция», — отмечает исследователь. «Если я улыбаюсь, это не значит, что я обязательно счастлив». По звуку голоса можно отличить радостное возбуждение от более спокойной печали. В более сложных случаях, например, при различении радости и гнева, оба из которых связаны с высоким уровнем возбуждения, обычно может помочь только дополнительная информация по выражению лица. Например, интерпретируя направления вверх или вниз уголков рта. «Но внутренние эмоции невозможно достоверно определить по таким поверхностным сигналам», — говорит Гебхард.
Гебхард и его коллеги стали свидетелями этого, когда во время проекта они столкнулись с серьезной неудачей. Они хотели имитировать собеседование при приеме на работу с помощью чутких виртуальных персонажей, чтобы подготовить молодых людей из трудных социальных слоев к поиску работы. «Один молодой человек жил на улице, и система попросила его рассказать о своих слабостях», — говорит Гебхард. В этот момент мужчина перед монитором сначала замер, а через секунду, к удивлению исследователей, выбросил монитор в окно. «В этот момент нам стало ясно: так это не работает». В данном случае система не отреагировала чутко, а скорее задавила молодого человека вопросом. «Распознавание эмоциональной перегрузки и соответствующая адаптация задачи — главная задача таких социально-интерактивных систем обучения».
Вместо того чтобы напрямую делать выводы о текущем эмоциональном состоянии по выражению лица и голоса, Гебхард и его коллеги выбрали более комплексный подход. В другой компьютерной модели, основанной на ALMA, они все еще пытаются распознать передаваемые извне эмоции на уровне шаблонов. «Вместо того, чтобы напрямую получать эмоции из этих сигналов, система сначала моделирует возможные внутренние переживания человека и выбирает наиболее вероятный», — объясняет Гебхард. Регуляторные процессы также принимаются во внимание, поскольку взрослые особенно придают большое значение сокрытию своих истинных чувств в социальных взаимодействиях, особенно если они имеют негативный подтекст. Многие люди скрывают такие эмоции, как стыд, за радостью, чтобы контролировать неприятную ситуацию.
Система пытается распознать такие реакции с помощью таких сигналов, как изменение взгляда, почесывание головы или потирание глаз, чтобы затем сделать выводы о внутреннем опыте ситуации вместе с дополнительной информацией о контексте. Чтобы окончательно подтвердить полученный результат, социально-интерактивному виртуальному агенту придется в будущем вступить в диалог.
Понимание сложных эмоций отдельных людей все еще может быть непосильной задачей для машин. Однако когда дело доходит до статистических ответов на простые вопросы о больших объемах данных, они могут в полной мере использовать свои сильные стороны и иногда достигать ошеломляющих результатов.
Исследователи из Рурского университета (Бохум, Германия) загрузили в систему искусственного интеллекта 8000 образцов голосов менеджеров, чтобы выяснить: будет ли ассоциированная компания развиваться позитивно или негативно в будущем? Образцы выступлений были общедоступны и взяты из ежегодных пресс-конференций, на которых руководители отвечали на вопросы журналистов и аналитиков о текущей деятельности своей компании. «Мы предполагали, что менеджеры в такой ситуации склонны скрывать определенную информацию о своей компании», — говорит Шарлотта Никрем, которая участвовала в исследовании в качестве научного сотрудника. «И это каким-то образом должно было отразиться на звуке голоса».
Исследователи передали образцы языка искусственной нейронной сети в визуальном представлении (в так называемых спектрограммах) и обучили ее прогнозировать последующее развитие соответствующих компаний. «Наш ИИ научился по короткому образцу голоса предсказывать, получит ли компания прибыль или убыток в следующем году», — говорит Кникрем. «Программа оказалась на девять процентных пунктов лучше, чем традиционные модели, основанные исключительно на опубликованных бизнес-показателях». Однако это среднее статистическое значение: не каждый образец языка может предсказать будущее с одинаковой надежностью. «Но пока существуют закономерности, которые встречаются в большинстве случаев, мы что-то найдем», — говорит Кникрем.
0 комментариев