Построение эмоционального образа человека на основе анализа особых точек в последовательных кадрах видеоряда
Автор(ы):
Дмитрий Дмитриевич Аверьянов
Научный сотрудник центра исследований и разработок ООО "Роберт Бош"
аспирант кафедры прикладной кибернетики математико-механического
факультета Санкт-Петербургского государственного университета (СПбГУ)
dmitryaverianov@gmail.com
Михаил Валерьевич Желудев
к.т.н., старший научный сотрудник центра исследований и разработок ООО "Роберт Бош"
mikhail.zheludev@ru.bosch.com
Владимер Ильич Кияев
к.т.н. доцент кафедры астрономии математико-механического
факультета Санкт-Петербургского государственного университета (СПбГУ)
kiyaev@mail.ru
Аннотация:
Работа посвящена разработке алгоритма классификации поведения человека в контексте детектирования
правдивости или лживости высказываний, представленных в формате видеофайлов.
Анализ видеофайла проводился в рамках временного окна, в котором анализировались как изменения в
микромоторике лицевых мускулов, так и речевые признаки. В нашем случае мимика отражается
математическим представлением в виде вектора, содержащего необходимую цифровую информацию о состоянии
лица, которое характеризуется положениями особых точек (ключевых точек носа, бровей, глаз, век и т. д.).
Вектор мимики формируется в результате обучения нелинейных моделей. Вектор, характеризующий речь,
формируется на основе эвристических характеристик звукового сигнала. Темпоральную агрегацию векторов для
финальной классификации поведения производит отдельная нейронная сеть. В работе приведены результаты
точности и быстродействия алгоритма, которые показывают, что новый подход конкурентоспособен по отношению
к существующим методам.
Ключевые слова
- анализ аудио
- видеоаналитика
- детектор лжи
- классификация видео
- лицевые ориентиры
- машинное и глубокое обучение
- речевой сигнал
- трансформеры
Ссылки:
- Goupil L. et al. Listeners’ perceptions of the certainty and honesty of a speaker are associated with a common prosodic signature // Nature Communications. 2021. Vol. 12, № 1. P. 861
- Teixeira J. P., Oliveira C., Lopes C. Vocal Acoustic Analysis - Jitter, Shimmer and HNR Parameters // Procedia Technology. 2013. Vol. 9. P. 1112-1122
- Burzo M. et al. Multimodal deception detection // The Handbook of Multimodal-Multisensor Interfaces, Volume 2. 2018
- Chow A., Louie J. Detecting lies via speech patterns. 2017
- Zhang, X., Sugano, Y., Fritz, M. & Bulling, A. 2017, " It's Written All over Your Face: Full-Face Appearance-Based Gaze Estimation", IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops, pp. 2299
- Kathi, M. G. & Shaik, J. H. 2021, " Estimating the smile by evaluating the spread of lips", Revue d'Intelligence Artificielle, vol. 35, no. 2, pp. 153-158
- Zhang, X., Sugano, Y., Fritz, M. & Bulling, A. 2015, " Appearance-based gaze estimation in the wild", Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, pp. 4511
- Bazarevsky, V. et. al., BlazeFace: Sub-millisecond Neural Face Detection on Mobile GPUs, CoRR, abs/1907. 05047. 2019
- Kaiming H. et. al., Deep Residual Learning for Image Recognition, CVPR 2016, 2016
- Bertatius G. et. al., Is Space-Time Attention All You Need for Video Understanding?, ICML 2021, 2021
- Vaswani A. et. al., Attention Is All You Need, NIPS 2017, 2017
- Gong Y., et. al., AST: Audio Spectrogram Transformer, Interspeech 2021, 2021
- Burkhardt F. et al. A Database of German Emotional Speech // Interspeech. 2005. P. 1517-1520
- Zhu Y., et. al., TinaFace: Strong but Simple Baseline for Face Detection, arXiv preprint arXiv:2011. 13183, 2020
- Tran D., et. al., A Closer Look at Spatiotemporal Convolutions for Action Recognition, CVPR 2018, 2018
- Olah C., Understanding LSTM Networks // colah. github. io. 2015.
- Alammar J., Visualizing A Neural Machine Translation Model (Mechanics of Seq2Seq Models With Attention)
- Vaswani A., Attention Is All You Need. 31st Conference on Neural Information Processing Systems (NIPS 2017), Long Beach, CA, USA. 2017