Проблемы формирования обучающей выборки в задачах машинного обучения

Бесплатный доступ

Правильное формирование обучающей выборки часто имеет решающее значение в задачах машинного обучения, что признаётся большинством специалистов в данной области. Зачастую решение задач машинного обучения сводится к грамотному формированию обучающей выборки. Несмотря на это, в современной литературе по машинному обучению вопросам формирования обучающей выборки почти не уделяется внимание, теоретическая база практически отсутствует. В настоящей статье постараемся исправить данный недостаток. В статье исследуются возможные проблемы и ошибки при формировании обучающей выборки, обобщается опыт авторов в решении задач машинного обучения, предлагаются теоретические модели для описания явлений, связанных с формированием множества обучающих данных, приводятся методы улучшения обучающей выборки. Даются практические рекомендации на основе разработанных теоретических моделей. В конце статьи представлены результаты экспериментов, демонстрирующие некоторые из проблем формирования обучающей выборки и методы их решения на примере задачи обучения деревьев решений.

Еще

Машинное обучение, глубокие нейронные сети, деревья решений, обучающая выборка

Короткий адрес: https://sciup.org/147155127

IDR: 147155127   |   DOI: 10.14529/ctcr160302

Список литературы Проблемы формирования обучающей выборки в задачах машинного обучения

  • Воронцов, К. Математические методы обучения по прецедентам (теория обучения машин)/К. Воронцов -http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf.
  • Labeled Faces in the Wild. -http://vis-www.cs.umass.edu/lfw/.
  • The Facial Recognition Technology (FERET) Database. -http://www.itl.nist.gov/iad/humanid/feret/feret_master.html.
  • Мангалова, Е. Прогнозирование мощности ветряных электростанций на основе непараметрического алгоритма k ближайших соседей/Е. Мангалова, И. Петрунькина//Доклады всероссийской научной конференции АИСТ’2013. -2013 -С. 1-8.
  • Canavet, O. Efficient sample mining for object detection./O. Canavet, F. Fleuret//Proceedings of the Asian Conference on Machine Learning (ACML). -2014 -P. 48-63.
  • Dropout: A simple way to prevent neural networks from overfitting/N. Srivastava, G.E. Hinton, A. Krizhevsky et al.//The Journal of Machine Learning Research. -2014 -Vol. 15, no. 1. -P. 1929-1958.
  • Amazon Mechanical Turk. -https://www.mturk.com/mturk/welcome.
Статья научная