ISSN 1817-2172, рег. Эл. № ФС77-39410, ВАК

Дифференциальные Уравнения
и
Процессы Управления

Экспериментальное исследование реакции алгоритмов машинного обучения на ошибки разметки данных

Автор(ы):

Вячеслав Анатольевич Дюк

доктор технических наук,
главный научный сотрудник,
Россия, Институт проблем транспорта РАН (ИПТ РАН),
199178 г. Санкт-Петербург, 12-я линия ВО, дом 13.

v_duke@mail.ru

Аннотация:

Известны авторитетные мнения, что разметка данных сегодня является самым важным элементом в процедуре создания систем искусственного интеллекта на основе методов машинного обучения. Вместе с тем, особенно при краудсорсинге возникает серьезная проблема неточной разметки данных. Материалы данной статьи дополняют известные подходы к решению данной проблемы исследованием реакции на неточную разметку данных некоторых популярных методов машинного обучения. Это наивный байесовский классификатор, трехслойный перцептрон, метод ближайших соседей (KNN), деревья решений, случайный лес, логистическая регрессия, машина опорных векторов (SVM). Алгоритмы обучались на копиях специально сгенерированных данных с различными долями ошибок разметки и затем испытывались на данных с точной разметкой. По результатам эксперимента на данных, имитирующих простую и сложную структуру двух классов многомерных объектов, продемонстрирован феномен относительно слабой зависимости точности моделей классификации KNN и SVM от ошибок разметки обучающей выборки. Сделан вывод, что в условиях неточной разметки данных более предпочтительным является алгоритм KNN. Он менее трудоёмок, имеет меньше настраиваемых параметров, свободен от априорных предположений о структуре данных, устойчив к аномальным выбросам, интерпретируем. Кроме того, этот метод обладает существенным потенциалом дальнейшего теоретического и практического развития на основе подхода, связанного с построением контекстно-зависимых локальных метрик.

Ключевые слова

Ссылки:

  1. Дюк В. А. Логические методы машинного обучения (инструментальные средства и практические примеры). - СПб. : Вузиздат. - 2020. - 248 с
  2. https://www.researchandmarkets.com/reports/5415416 (дата обращения 05. 06. 2022)
  3. Roh Y.; Heo G.; Whang S. A Survey on Data Collection for Machine Learning: A Big Data - AI Integration Perspective. IEEE Trans. Knowl. Data Eng. - 2019, - No. 33, P. 1328-1347
  4. CloudFactory. The Ultimate Guide to Data Labeling for Machine Learning. https://www.cloudfactory.com/data-labeling-guide (дата обращения 05. 06. 2022)
  5. Cognilytica. Data Preparation and Labeling for AI 2020. https://www.cognilytica.com/document/data-preparation-labeling-for-ai-2020/ (дата обращения 05. 06. 2022)
  6. A Chat with Andrew on MLOps: From Model-centric to Data-centric AI. 2021. - https://youtu.be/06-AZXmwHjo (дата обращения 05. 06. 2022)
  7. Experian’s 2021 Data experience research report. https://www.edq.com/blog/experians-2021-data-experience-research-report (дата обращения 05. 06. 2022)
  8. Кафтанников И. Л., Парасич А. В. Проблемы формирования обучающей выборки в задачах машинного обучения // Вестник ЮУрГУ. Серия «Компьютерные технологии, управление, радиоэлектроника». - 2016. - Т. 16, No. 3. - С. 15-24
  9. Zhou Z-H. A brief introduction to weakly supervised learning. Natl Sci Rev, 2018, - Vol. 5, - No. 1, - P. 44-53
  10. Adam Kilgarriff and Adam Kilgarriff. Gold standard datasets for evaluating word sense disambiguation programs. Computer Speech and Language, - 1998. - Vol. 12, - No. 3, - P. 453-472
  11. Angluin D., Laird, P. Learning from noisy examples. Mach. Learn. 1988, - Vol. 2, - No. 4, - P. 343-370
  12. Blum A., Kalai A., Wasserman H. Noise-tolerant learning, the parity problem, and the statistical query model. JACM 50(4), - 2003. - P. 506-519
  13. Gao W., Wang L, Li YFet al. Risk minimization in the presence of label noise. In 30th AAAI Conference on Artificial Intelligence, Phoenix, AZ, - 2016. - P. 1575-1581
  14. Muhlenbach, F., Lallich, S. & Zighed, D. A. Identifying and Handling Mislabelled Instances. Journal of Intelligent Information Systems, -2004. - No. 22. - P. 89-109
  15. Гилязев Р. А., Турдаков Д. Ю. Активное обучение и краудсорсинг: обзор методов оптимизации разметки данных. Труды ИСП РАН, том 30, вып. 2, - 2018, - С. 215-250
  16. Noyunsan C., Katanyukul T., Saikaew K. Performance evaluation of supervised learning algorithms with various training data sizes and missing attributes. Engineering and Applied Science Research. - 2018. - No. 45(3), - Р. 221-229
  17. Ferná ndez-Delgado M., Cernadas E., Barro S., Amorim D. Do we need hundreds of classifiers to solve real world classification problems? J Mach Learn Res. - 2014; - No. 15(1). - P. 3133-3181
  18. Hayes B. Top Machine Learning Algorithms, Frameworks, Tools and Products Used by Data Scientists. July 24, 2020. https://customerthink.com/top-machine-learning-algorithms-frameworks-tools-and-products-used-by-data-scientists/ (дата обращения 05. 06. 2022)
  19. Eibe Frank, Mark A. Hall, and Ian H. Witten. The WEKA Workbench. Online Appendix for «Data Mining: Practical Machine Learning Tools and Techniques», Morgan Kaufmann, Fourth Edition, - 2016
  20. Platt C. Sequential Minimal Optimization: A Fast Algorithm for Training Support Vector Machines, In: Advances in Kernel Methods - Support Vector Learning, ed. by B. Schö lkopf and C. J. C. Burges and A. J. Smola, Cambridge, MA, MIT Press. - 1999. P. 185-208
  21. Куинлан, Дж. Р. C4. 5: Программы для машинного обучения. Издательство Морган Кауфманн, 1993
  22. Cover T., Hart P. Nearest neighbour pattern classification. IEEE Trans. Inform. Theory, - Vol. IT 13. - 1967. - P. 21-27
  23. Duda R. О., Hart P. E. Pattern classification and scene analysis, Wiley, New York. - 1973
  24. Дюк В. А., Брюс Ф. О., Богданов А. В. Перспектива экстенсиональных методов машинного обучения // Информация и космос. - No. 2. 2020. - С. 69-76
  25. Дюк В. А., Михов О. М., Брюс Ф. О. Экстенсиональные методы машинного обучения // В сб. «Транспорт России: проблемы и перспективы - 2019». Материалы международной-научно-практической конференции. - 2019. - С. 198-202
  26. Dyuk V. A. Context-dependent local metrics and geometrical approach to the problem of knowledge formation. Journal of Computer and Systems Sciences International. - 1996. - Vol. 35. - No. 5. - P. 715-722

Полный текст (pdf)