ISSN 1817-2172, рег. Эл. № ФС77-39410, ВАК

Дифференциальные Уравнения
и
Процессы Управления

Построение эмоционального образа человека на основе анализа особых точек в последовательных кадрах видеоряда

Автор(ы):

Дмитрий Дмитриевич Аверьянов

Научный сотрудник центра исследований и разработок ООО "Роберт Бош"
аспирант кафедры прикладной кибернетики математико-механического
факультета Санкт-Петербургского государственного университета (СПбГУ)

dmitryaverianov@gmail.com

Михаил Валерьевич Желудев

к.т.н., старший научный сотрудник центра исследований и разработок ООО "Роберт Бош"

mikhail.zheludev@ru.bosch.com

Владимер Ильич Кияев

к.т.н. доцент кафедры астрономии математико-механического
факультета Санкт-Петербургского государственного университета (СПбГУ)

kiyaev@mail.ru

Аннотация:

Работа посвящена разработке алгоритма классификации поведения человека в контексте детектирования правдивости или лживости высказываний, представленных в формате видеофайлов. Анализ видеофайла проводился в рамках временного окна, в котором анализировались как изменения в микромоторике лицевых мускулов, так и речевые признаки. В нашем случае мимика отражается математическим представлением в виде вектора, содержащего необходимую цифровую информацию о состоянии лица, которое характеризуется положениями особых точек (ключевых точек носа, бровей, глаз, век и т. д.). Вектор мимики формируется в результате обучения нелинейных моделей. Вектор, характеризующий речь, формируется на основе эвристических характеристик звукового сигнала. Темпоральную агрегацию векторов для финальной классификации поведения производит отдельная нейронная сеть. В работе приведены результаты точности и быстродействия алгоритма, которые показывают, что новый подход конкурентоспособен по отношению к существующим методам.

Ключевые слова

Ссылки:

  1. Goupil L. et al. Listeners’ perceptions of the certainty and honesty of a speaker are associated with a common prosodic signature // Nature Communications. 2021. Vol. 12, № 1. P. 861
  2. Teixeira J. P., Oliveira C., Lopes C. Vocal Acoustic Analysis - Jitter, Shimmer and HNR Parameters // Procedia Technology. 2013. Vol. 9. P. 1112-1122
  3. Burzo M. et al. Multimodal deception detection // The Handbook of Multimodal-Multisensor Interfaces, Volume 2. 2018
  4. Chow A., Louie J. Detecting lies via speech patterns. 2017
  5. Zhang, X., Sugano, Y., Fritz, M. & Bulling, A. 2017, " It's Written All over Your Face: Full-Face Appearance-Based Gaze Estimation", IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops, pp. 2299
  6. Kathi, M. G. & Shaik, J. H. 2021, " Estimating the smile by evaluating the spread of lips", Revue d'Intelligence Artificielle, vol. 35, no. 2, pp. 153-158
  7. Zhang, X., Sugano, Y., Fritz, M. & Bulling, A. 2015, " Appearance-based gaze estimation in the wild", Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, pp. 4511
  8. Bazarevsky, V. et. al., BlazeFace: Sub-millisecond Neural Face Detection on Mobile GPUs, CoRR, abs/1907. 05047. 2019
  9. Kaiming H. et. al., Deep Residual Learning for Image Recognition, CVPR 2016, 2016
  10. Bertatius G. et. al., Is Space-Time Attention All You Need for Video Understanding?, ICML 2021, 2021
  11. Vaswani A. et. al., Attention Is All You Need, NIPS 2017, 2017
  12. Gong Y., et. al., AST: Audio Spectrogram Transformer, Interspeech 2021, 2021
  13. Burkhardt F. et al. A Database of German Emotional Speech // Interspeech. 2005. P. 1517-1520
  14. Zhu Y., et. al., TinaFace: Strong but Simple Baseline for Face Detection, arXiv preprint arXiv:2011. 13183, 2020
  15. Tran D., et. al., A Closer Look at Spatiotemporal Convolutions for Action Recognition, CVPR 2018, 2018
  16. Olah C., Understanding LSTM Networks // colah. github. io. 2015.
  17. Alammar J., Visualizing A Neural Machine Translation Model (Mechanics of Seq2Seq Models With Attention)
  18. Vaswani A., Attention Is All You Need. 31st Conference on Neural Information Processing Systems (NIPS 2017), Long Beach, CA, USA. 2017

Полный текст (pdf)