Детектирование книг на книжных полках при помощи глубоких нейронных сетей

Автор: Калинина Мария Олеговна, Николаев Павел Леонидович

Журнал: Компьютерная оптика @computer-optics

Рубрика: Численные методы и анализ данных

Статья в выпуске: 6 т.44, 2020 года.

Бесплатный доступ

Глубокие нейронные сети в настоящее время получили широкое распространение в различных сферах деятельности человека, в том числе тех, где требуется работа с большим объемом данных, а также операции по получению и обработке информации из окружающего мира. В данной статье рассмотрено создание сверточной нейронной сети на основе архитектуры YOLO по детектированию книг в режиме реального времени. Описаны процесс создания собственного набора данных и обучение на нем глубокой нейронной сети. Приведена структура полученной нейронной сети, и рассмотрены наиболее часто используемые метрики для оценки качества ее работы. Также сделан краткий обзор существующих видов архитектур нейронных сетей. Выбранная в качестве основы для нейросети архитектура обладает рядом преимуществ, позволяющих ей в значительной мере конкурировать с другими моделями нейросетей и делающих ее наиболее подходящим вариантом для создания сети, нацеленной на детектирование объектов, так как при ее разработке были значительно снивелированы некоторые часто встречающиеся недостатки подобных сетей (проблемы с распознаванием схожих по оформлению, имеющих одинаковый цвет обложек или расположенных под наклоном книг). Результаты, полученные в ходе обучения глубокой нейронной сети, позволяют использовать ее в качестве основы для дальнейшей разработки приложения, целью которого будет являться детектирование книг по книжным корешкам.

Еще

Распознавание изображений, детектирование объектов, компьютерное зрение, машинное обучение, искусственные нейронные сети, глубокое обучение, сверточные нейронные сети

Короткий адрес: https://sciup.org/140250073

IDR: 140250073 | DOI: 10.18287/2412-6179-CO-731

Список литературы Детектирование книг на книжных полках при помощи глубоких нейронных сетей

Quoc, N. A framework for recognition books on bookshelves / N. Quoc, W. Choi // Proceedings of the ICIC 2009: Emerging Intelligent Computing Technology and Applications. - 2009. - P. 386-395. - DOI: 10.1007/978-3-642-04070-2_44
Tsai, S.S. Combining image and text features: A hybrid approach to mobile book spine recognition / S.S. Tsai, D. Chen, H. Chen, C. Hsu, K. Kim, J.P. Singh, B. Girod // Proceedings of the 2011 ACM international conference on Multimedia. - 2011. - P. 1029-1032. - DOI: 10.1145/2072298.2071930
Chen, D. Low-cost asset tracking using location-aware camera phones / D. Chena, S. Tsaia, K. Kimb, C. Hsub, J.P. Singhb, B. Giroda // Proceedings of SPIE. - 2010. - Vol. 7798. - 77980R. - DOI: 10.1117/12.862426
Chen, D. Mobile augmented reality for books on a shelf / D. Chen, S. Tsai, C. Hsu, J.P. Singh, B. Girod // Proceedings of the 2011 IEEE International Conference on Multimedia and Expo. - 2011. - P. 1-6. - DOI: 10.1109/ICME.2011.6012171
Lee, D.J. Matching book-spine images for library shelf-reading process automation / D.J. Lee, Y. Chang, J.K. Archibald, C. Pitzak // Proceedings of the 2008 IEEE International Conference on Automation Science and Engineering. - 2008. - P. 738-743. - DOI: 10.1109/COASE.2008.4626503
Nevetha, M.P. Automatic book spine extraction and recognition for library inventory / M.P. Nevetha, A. Baskar // Management WCI '15: Proceedings of the Third International Symposium on Women in Computing and Informatics. - 2015. - P. 44-48. -
DOI: 10.1145/2791405.2791506
Jubair, M.I. A technique to detect books from library bookshelf image / M.I. Jubair, P. Banik // Proceedings of the 2013 IEEE 9th International Conference on Computational Cybernetics (ICCC). - 2013. - P. 359-363. -
DOI: 10.1109/ICCCyb.2013.6617619
Talker, L. Viewpoint-independent book spine segmentation / L. Talker, Y. Moses // Proceedings of the IEEE Winter Conference on Applications of Computer Vision. - 2014. - P. 453-460. -
DOI: 10.1109/WACV.2014.6836066
Yang, X. Smart library: Identifying books on library shelves using supervised deep learning for scene text reading / X. Yang, D. He, W. Huang, A. Ororbia, Z. Zhou, D. Kifer, C.L. Giles // Proceedings of the 2017 ACM/IEEE Joint Conference on Digital Libraries (JCDL). - 2017. - P. 1-4. -
DOI: 10.1109/JCDL.2017.7991581
Anegawa, R. Text detection on books using cnn trained with another domain data / R. Anegawa, M. Aritsugi // Proceedings of the 2019 IEEE International Conference on Dependable, Autonomic and Secure Computing 2019: - P. 170-176. -
DOI: 10.1109/DASC/PiCom/CBDCom/CyberSciTech.2019.00041
Gandhi, R. R-CNN, Fast R-CNN, Faster R-CNN, YOLO - object detection algorithms [Electronical Resource] / R. Gandhi // - 2018. - URL: https://towardsdatascience.com/r-cnn-fast-r-cnn-faster-r-cnn-yolo-object-detection-algorithms-36d53571365e (request date 11.02.2020).
Karatzas, D. ICDAR 2015 competition on robust reading / D. Karatzas, L. Gomez-Bigorda, A. Nicolaou, S. Ghosh, A. Bagdanov, M. Iwamura, J. Matas, L. Neumann, V.R. Chandrasekhar, S. Lu, F. Shafait, S. Uchida, E. Valveny // Proceedings of the 2015 13th International Conference on Document Analysis and Recognition (ICDAR). - 2015. - P. 1156-1160.
Redmon, J. You only look once: Unified, real-time object detection / J. Redmon, S. Divvala, R. Girshick, A. Farhadi // Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. - 2016. - P. 779-788. -
DOI: 10.1109/CVPR.2016.91
Redmon, J. Yolo9000: Better, faster, stronger / J. Redmon, A. Farhady // Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. - 2017. - P. 6517-6525.
Redmon, J. YOLOv3: An incremental improvement [Electronical Resource] / J. Redmon, A. Farhady. - 2018. - URL: https://arxiv.org/pdf/1804.02767.pdf (request date 09.02.2020).
Liu, W. SSD: Single shot multibox detector / W. Liu, D. Anuelov, D. Erhan, C. Szegedy, S. Reed, C. Fu, A. Berg. - In: Computer Vision - ECCV 2016 / ed. by B. Leibe, J. Matas, N. Sebe, M. Welling. - Cham: Springer, 2016. -
DOI: 10.1007/978-3-319-46448-0_2
Lin, T.Y. Focal loss for dense object detection [Electronical Resource] / T.Y. Lin, P. Goyal, R. Girshick, K. He, P. Dollár. - 2018. - URL: https://arxiv.org/pdf/1708.02002.pdf (request date 12.02.2020).
DetectNet: Deep Neural Network для Object Detection в DIGITS [Электронный ресурс]. - URL: https://habr.com/ru/post/310332/ (дата обращения 05.02.2020).
Ren, S. Faster R-CNN: Towards real-time object detection with region proposal networks [Electronical Resource] / S. Ren, K. He, R. Girshick, J. Sun // arXiv Preprint. - 2016. - URL: https://arxiv.org/pdf/1506.01497.pdf (request date 10.02.2020).
He, K. Mask R-CNN [Electronical Resource] / K. He, G. Gkioxari, P. Dollár, R. Girshick // arXiv Preprint. - 2018. - URL: https://arxiv.org/pdf/1703.06870.pdf (request date 09.02.2020).
Mask R-CNN: архитектура современной нейронной сети для сегментации объектов на изображениях [Электронный ресурс]. - 2018. - URL: https://habr.com/en/post/421299/ (дата обращения 11.02.2020).
Liu, W. SSD: Single shot multibox detector [Electronical Resource] / W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. Reed, C.-Y. Fu, A.C. Berg. - ArXiv Preprint. - 2016. - URL: https://arxiv.org/pdf/1512.02325.pdf (request date 10.02.2020).
Tsang, S. Review: SSD - single shot detector (object detection) [Electronical Resource] / S. Tsang. - 2018. - URL: https://towardsdatascience.com/review-ssd-single-shot-detector-object-detection-851a94607d11 (request date 14.02.2020).
YOLO: Real-time object detection [Electronical Resource]. - URL: https://pjreddie.com/darknet/yolo/ (request date 09.02.2020).
Sambasivarao, K. Non-maximum suppression (NMS) [Electronical Resource] / K. Sambasivarao. - 2019. - URL: https://towardsdatascience.com/non-maximum-suppression-nms-93ce178e177c (request date 12.02.2020).
Bindal, A. Normalization techniques in deep neural networks [Electronical Resource] // A. Bindal. - 2019. - URL: https://medium.com/techspace-usict/normalization-techniques-in-deep-neural-networks-9121bf100d8 (request date 09.02.2020).
Sharma, H. Activation functions: Sigmoid, ReLU, Leaky ReLU and Softmax basics for neural networks and deep learning [Electronical Resource] // H. Sharma. - 2019. - URL: https://medium.com/@himanshuxd/activation-functions-sigmoid-relu-leaky-relu-and-softmax-basics-for-neural-networks-and-deep-8d9c70eed91e (request date 08.02.2020).
The PASCAL Visual Object Classes homepage [Electronical Resource]. - URL: http://host.robots.ox.ac.uk/pascal/VOC/ (request date 11.02.2020).
Arlen, T.C. Understanding the mAP evaluation metric for object detection [Electronical Resource] / T.C. Arlen. - URL: https://medium.com/@timothycarlen/understanding-the-map-evaluation-metric-for-object-detection-a07fe6962cf3 (request date 14.02.2020).
Saxen, S. Precision vs Recall [Electronical Resource] / S. Saxen. - 2018. - URL: https://towardsdatascience.com/precision-vs-recall-386cf9f89488 (request date 08.02.2020).
Sandeep, A. Object detection - IOU - Intersection Over Union [Electronical Resource] / A. Sandeep. - 2019. - URL: https://medium.com/@nagsan16/object-detection-iou-intersection-over-union-73070cb11f6e (request date 09.02.2020).
Bodla, N. Improving object detection with one line of code [Electronical Resource] / N. Bodla, B. Singh, R. Chellappa, L.S. Davis. - ArXiv Preprint. - 2017. - URL: https://arxiv.org/pdf/1704.04503.pdf (request date 08.02.2020).

Еще

Статья научная