Научные исследования и разработки

Компьютерные технологии оценки голоса и лицевых экспрессий в анализе аудио- и видеоматериалов

18.10.2018
Научные исследования и разработки
Компьютерные технологии оценки голоса и лицевых экспрессий в анализе аудио- и видеоматериалов
Компьютерные технологии оценки голоса и лицевых экспрессий в анализе аудио- и видеоматериалов
18.10.2018
Компьютерные технологии оценки голоса и лицевых экспрессий в анализе аудио- и видеоматериалов

Авторы: А. Н. Гусев, Н. А. Захарова, Б. C. Фрол


При проведении судебно-психологической экспертизы аудио- и видеоматериалов надо учитывать преимущества использования компьютерных средств оценивания поведения человека, особенно тех инструментов, которые реализуют бесконтактные методы диагностики психоэмоционального состояния человека, повышают достоверность и обоснованность экспертных заключений.


Психологический анализ аудио- и видеозаписей прежде всего реализуется методом наблюдения. Из этого следует, что, с одной стороны, наблюдение – это процедура сбора непосредственно воспринимаемых психологом данных, а с другой стороны, выбор способа их фиксации и схемы интерпретации наблюдаемых событий в соответствии с целью экспертного исследования. К наиболее часто встречающимся трудностям, в целом снижающим надежность экспертных заключений и их обоснованность, можно отнести то, что метод наблюдения, во-первых, является довольно трудоемким, во-вторых, традиционно исследователь одновременно наблюдает за поведением, записывает свои наблюдения и отмечает время наступивших событий (что, естественно, влияет на качество наблюдения), и, в-третьих, как правило, нет интеграции с другими методами анализа поведенческих реакций человека. Очевидно, что последнее не позволяет применять комплексный подход к анализу различных поведенческих реакций исследуемого лица.

В последние годы все большую популярность среди психологов приобретают компьютерные системы, разработанные голландской компанией Noldus Information Technоlogy (www.noldus.com).  Например, технология оценки поведения The Observer XT позволяет эксперту-психологу автоматизировать и формализовать ряд важных процедурных моментов, что способствует повышению валидности и надежности данного метода по сравнению с традиционными способами наблюдения. Это обеспечивается за счет последовательной реализации в рамках одной компьютерной системы всех этапов наблюдения, начиная от разработки дизайна исследования до количественного анализа данных и/или визуализации полученных результатов.

Компьютерная система FaceReader, также разработанная компанией Noldus Information Technоlogy совместно с компанией Vicar Vision, предназначена для выявления и анализа интенсивности лицевых экспрессий человека. FaceReader автоматически распознает на лице по видеозаписи или фотографии выражение шести базовых эмоций: счастья, грусти, гнева, удивления, испуга, отвращения и нейтрального эмоционального состояния. Алгоритмы работы данной компьютерной системы основаны на результатах многолетних фундаментальных и прикладных исследований известного американского психолога Пола Экмана. Кроме этого, данное программное обеспечение способно оценивать изменения мимики, фиксируя состояние глаз, рта и бровей: открытый или закрытый правый/левый глаз, открытый или закрытый рот, поднятые, опущенные брови или нейтральные брови; также отслеживается общее направление взгляда испытуемого и положение головы. В новейшей версии FaceReader появилась возможность оценивать по изменению освещенности лица активность нескольких мышечных групп (Action Units) и частоту сердечных сокращений. Эти возможности существенно расширяют диагностические возможности данного инструмента.

FaceReader использует современные алгоритмы оценки выражения лица, включая Deep neuronal network. Это сложная задача, поскольку анализ видеозаписей выражений лиц «разных» людей, сделанных в конкретных условиях освещения, сталкивается с проблемой большой вариабельности в положении головы человека относительно камеры, а также освещения лица. В работе данного программного обеспечения  последовательно реализуются три основных алгоритма, обеспечивающих классификацию поступающей информации при анализе видеозаписей: обнаружение лица на анализируемом изображении, построение модели лица на основе расположения на лице человека почти 500 ключевых точек, классификация выражений лиц при помощи алгоритма обучения искусственной нейронной сети на основе выборки, состоящей из более 10000 проанализированных ранее фотографий лиц различных людей. По сведениям, полученным от разработчиков этой системы, в последующие версии этого программного обеспечения будет включен модуль анализа паттернов активности разных двигательных единиц. В этом направлении также работает и наша исследовательская группа.

Подчеркнем, что сравнение работы FaceReader с оценками специально обученных экспертов (так называемых «фейскодеров») показало, что данный инструмент может определять степень выраженности базовых эмоций с точностью в среднем 95%, а по ряду эмоций превышает 97%. На наш взгляд, эта функция весьма уникальна и полезна в виду того, что опытных специалистов в мире мало, и их привлечение к проведению экспертизы видеозаписей крайне ограничено.

Для повышения надежности экспертизы видеозаписей крайне важно, что имеется возможность простого экспорта результатов анализа изменения выражения эмоций и других лицевых экспрессий исследуемого лица, выполненного с помощью системы FaceReader, в компьютерную систему The Observer XT. Это позволяет проводить оценку поведения человека по видеозаписи, одновременно наблюдая детальную динамику изменения знака и интенсивности эмоций и мимики, включая детекцию интенсивности выраженности Action Units в соответствии с международной системой кодирования эмоций FACS.

Далее рассмотрим преимущества использования мало известной экспертам-психологам компьютерной системы LVA-i (Layered Voice Analysis, многоуровневый анализ голоса), разработанной компанией Nemesyssco (Израиль) для оценки тонких изменений в голосе исследуемого лица на предмет обнаружений признаков неискренности и различных проявлений эмоционального напряжения и когнитивного стресса. Данное программное обеспечение позволяет выделять в аудиозаписи или аудиоканале изучаемой экспертом видеозаписи целый ряд информативных акустических показателей, несущих информацию об уровне неискренности исследуемого лица, напряженности когнитивных процессов, эмоциональном возбуждении. Суть этого метода состоит в том, что, если в голосе респондента повторяются некоторые показатели эмоционального или когнитивного стресса, то это свидетельствует о риске. Риске того, что говорящий испытывает дискомфорт, его функциональное состояние отличается от нормы (базовой линии), он взволнован, огорчен, затрудняется ответить на вопрос, переживает по этому поводу, пытается скрыть какую-то эмоциогенную информацию. Результаты анализа голоса не зависят от содержания речи респондента и языка, на котором он говорит, но они отражают его эмоциональное состояние во время произнесения речевого сообщения с учетом тонкой динамики индивидуальных особенностей его голоса – темпа, громкости, тембра.

Алгоритмы, используемые данной системой, значительно отличаются от традиционного фонетического анализа голоса, они основаны на анализе произвольно неконтролируемых изменений вокальных характеристик, происходящих в интервалах времени менее 10 мс. В ходе обработки речевого сигнала происходит выделение ряда последовательных фрагментов (0,3 … 2 с), соответствующих периодам изменения амплитудно-частотных характеристик звукового сигнала (151 базовый параметр). В ходе многолетних эмпирических исследований автор-разработчик этой технологии А. Либерман собрал нормативные данные, характеризующие степень проявления в голосе различных изменений психического состояния человека: уровень общего возбуждения, эмоциональное напряжение, разные проявления стресса, напряженность когнитивных процессов, концентрация, антиципация, смущение и др. (см. материалы сайта www.nemesysco.com ). На основе сравнения целого ряда показателей система LVA-i оценивает интегральные показатели изменений, происходящих в голосе обследуемого лица, например, показатель SOS (say or stop) – сказать или промолчать. Также оценивается несколько обобщенных индексов, характеризующих проявления в голосе различных типов утаивания информации – от активного противодействия эксперту до пассивных ответов уклончивого характера.

Система LVA-i оценивает интегральный показатель общего риска сообщаемой информации, что позволяет использовать ее при проведении экспресс-анализа звучащей речи исследуемого лица. В результате проведенной офлайн-обработки звукового файла данных эксперт получает ранговые оценки – высокий, средний или низкий уровни, выраженность в голосе испытуемого нескольких показателей изменения когнитивных процессов (внимание, обдумывание информации, уровень антиципации) и проявлений стресса. В зависимости от специфики задаваемых экспертом вопросов данная компьютерная система позволяет оценить по изменениям в голосе уровень искренности, лояльности, склонность к употреблению алкоголя и наркотиков, азартным играм и др.

Качественные и количественные данные анализа голоса могут быть также импортированы в качестве внешних данных в систему The Observer XT и использованы в комплексном анализе поведения обследуемого лица наряду с изменениями его движений и эмоций.

Результаты проведенных нами лабораторных экспериментов и полевых исследований, представленных в докладе как отдельные кейсы, показали продуктивность использования комплекса указанных показателей в качестве надежных  индикаторов изменения поведения при анализе видеозаписей бесед в ситуациях оценки его возможной причастности к краже денег, передаче третьим лицам строго конфиденциальной информации, употреблении алкоголя и наркотиков, недобросовестного исполнения служебных обязанностей.

Литература

  1. Багмет А.М. и др. Методика выявления психологических признаков достоверности/недостоверности информации, сообщаемой участниками уголовного судопроизводства (по видеоматериалам следственных действий и оперативно-разыскных мероприятий). М., 2017.
  2. Гусев А. Н., Енгалычев В. Ф., Захарова Н. А. Современные тренды в использовании программно-аппаратных средств при оценке психоэмоционального состояния человека // Аппаратные средства в психологической подготовке / под ред. А.Г. Караяни, С.И. Данилова. — Военный университет; Школа современных психотехнологий Москва, 2018. — С. 110–117. 
  3. Экман П. Психология лжи / Пер. с англ. Н. Исуповой, Н. Мальгиной, Н. Миронова, О. Тереховой. — СПб. Питер, 2010. — 270 с.
  4. Elkins A.C., Burgoon J., Nunamaker J. Vocal Analysis Software for Security Screening: Validity and Deception Detection Potential / Homeland Security Affairs, DHS Centers of Excellence Science and Technology Student Papers (March 2012). https://www.hsaj.org/articles/213
  5. Manchireddy B.; Sadaf S., Kamalesh J. Layered Voice Analysis Based Determination of Personality Traits / Australasian Medical Journal; Aug2010, Vol. 3 Issue 8, p. 521.
Читать полный текст...
Показать еще...
Наверх