Ускорение тензорных вычислений с использованием системы остаточных классов

Автор: Червяков Н.И., Ляхов П.А., Ионисян А.С., Оразаев А.Р.

Журнал: Инфокоммуникационные технологии @ikt-psuti

Рубрика: Теоретические основы технологий передачи и обработки информации и сигналов

Статья в выпуске: 4 т.17, 2019 года.

Бесплатный доступ

Основным научно-практическим барьером для широкого распространения методов машинного обучения является высокая вычислительная сложность тензорных операций, используемых в них. Мы предлагаем метод реализации тензорных вычислений в системе остаточных классов с использованием табличной арифметики для модульных операций шириной до 8 бит включительно. Экспериментальное моделирование предложенного метода на FPGA Xilinx Spartan6 xc6slx9 показало, что он может быть использован для быстрой организации вычислений при реализации таблиц на блоках памяти BRAM. Предложенный подход позволяет ускорить вычисления в два раза, по сравнению с вычислениями в двоичной системе счисления, что может быть использовано для создания аппаратных ускорителей тензорных вычислений на практике

Еще

Тензорные вычисления, система остаточных классов, табличная арифметика

Короткий адрес: https://sciup.org/140256235

IDR: 140256235 | DOI: 10.18469/ikt.2019.17.4.01

Список литературы Ускорение тензорных вычислений с использованием системы остаточных классов

Tu Y., Du J., Lee C. Speech enhancement based on teacher-student deep learning using improved speech presence probability for noise-robust speech recognition // IEEE/ACM Transactions on Audio, Speech and Language Processing. 2019. Vol. 27. № 12. P. 2080-2091.
Horror image recognition based on contextaware multi-instance learning / B. Li [et al.] // IEEE Transactions on Image Processing. 2015. Vol. 24. № 12. P. 5193-5205.
Mastering the game of go without human knowledge / D. Silver [et al.] // Nature. 2017. Vol. 550. № 7676. P. 354.
Krizhevsky A., Sutskever I., Hinton G.E. Imagenet classification with deep convolutional neural networks // Advances in neural information processing systems. 2012. P. 1097-1105.
Going deeper with convolutions / C. Szegedy [et al.] // Proceedings of the IEEE conference on computer vision and pattern recognition. 2015. P. 1-9.
Efficient network construction through structural plasticity / X. Du [et al.] // IEEE Journal on Emerging and Selected Topics in Circuits and Systems. 2019. Vol. 9. № 3. P. 453-464.
UNPU: An energy-efficient deep neural network accelerator with fully variable weight bit precision / J. Lee [et al.] // IEEE Journal of SolidState Circuits. 2019. Vol. 54. № 1. P. 173-185.
Spartan-6 FPGA DSP48A1 Slice User Guide. URL: https://www.xilinx.com/support/documentation/user_guides/ug389.pdf (дата обращения: 21.11.2019).
In-datacenter performance analysis of a tensor processing unit / N.P. Jouppi [et al.] // 2017 ACM/ IEEE 44th Annual International Symposium on Computer Architecture (ISCA). 2017. P. 1-12.
Hardware implementation of a convolutional neural network using calculations in the residue number system / N.I. Chervyakov [et al.] // Computer Optics. 2019. Vol. 43. № 5. P. 857-868.
Area-efficient FPGA implementation of minimalistic convolutional neural network using residue number system / N.I. Chervyakov [et al.] // 2018 23rd Conference of Open Innovations Association (FRUCT), Bologna. 2018. P. 112-118.
Nakahara H., Sasao T.A. High-speed low-power deep neural network on an FPGA based on the nested RNS: Applied to an object detector // 2018 IEEE International Symposium on Circuits and Systems (ISCAS), Florence. 2018. P. 1-5.
Efficient processing of deep neural networks: A tutorial and survey / V. Sze [et al.] // Proceedings of the IEEE. 2017. Vol. 105. № 12. P. 2295-2329.

Еще

Статья научная