Аугментация языковой модели памятью на основе неопределенности предсказаний для решения задачи поиска ответа на вопрос по документу

Автор: Сагирова А.Р., Бурцев М.С.

Журнал: Труды Московского физико-технического института @trudy-mipt

Рубрика: Информатика и управление

Статья в выпуске: 3 (59) т.15, 2023 года.

Бесплатный доступ

Модели архитектуры Transformer стали золотым стандартом для решения многих задач обработки естественного языка. Однако для моделей, основанных на механизме внимания, невозможна обработка длинных последовательностей из-за их квадратичной сложности вычисления механизма внимания. Для решения этой проблемы мы предлагаем двухэтапный метод, который сначала собирает релевантную информацию по заданному документу, а затем объединяет ее с локальным контекстом для решения задачи. Результаты наших экспериментов показывают, что дообучение предобученной модели с аугментацией данных с помощью внешней памяти, содержащей элементы входной последовательности с наименьшей неопределенностью, повышает качество работы модели на задаче поиска ответа на вопрос по тексту по сравнению с базовой моделью. Мы также обнаружили, что содержимое глобальной памяти коррелирует с фактами из документов, необходимыми для формирования правильного ответа на вопрос.

Еще

Трансформер, глобальная память, поиск ответа на вопрос по тексту

Короткий адрес: https://sciup.org/142239994

IDR: 142239994

Список литературы Аугментация языковой модели памятью на основе неопределенности предсказаний для решения задачи поиска ответа на вопрос по документу

  • Vaswani A., Shazeer N., Parmar N., Uszkoreit J., Jones L., Gomez A.N., Kaiser L., Polosukhin I. Attention is all you need // Proceedings of the 31st International Conference on Neural Information Processing Systems, NIPS’17, Red Hook, NY, USA. Curran Associates Inc. 2017. P. 6000–6010.
  • Lin T., Wang Y., Liu X., Qiu X. A survey of transformers // AI Open. 2022. N 3. P. 111–132.
  • Devlin J., Chang M.-W., Lee K., Toutanova K. BERT: Pre-training of deep bidirectional transformers for language understanding // Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Minneapolis, Minnesota // Association for Computational Linguistics. 2019. V. 1. P. 4171–4186.
  • Beltagy I., Peters M. E., Cohan A. Longformer: The long-document transformer // arXiv:2004.05150. 2020.
  • Zaheer M., Guruganesh G., Dubey K.A., Ainslie J., Alberti C., Ontanon S., Pham P., Ravula A., Wang Q., Yang L. [et al.]. Big bird: Transformers for longer sequences // Advances in Neural Information Processing Systems. 2020. V. 33.
  • Wang S., Li B.Z., Khabsa M., Fang H., Ma H. Linformer: Self-attention with linear complexity // ArXiv, abs/2006.04768. 2020.
  • Zhang Y., Cai D. Linearizing transformer with key-value memory // ArXiv, abs/2203.12644.2022.
  • Choromanski K., Likhosherstov V., Dohan D., Song X., Gane A., Sarlos T., Hawkins P., Davis J., Mohiuddin A., Kaiser L., Belanger D., Colwell L.J., Weller A. Rethinking attention with performers // ArXiv, abs/2009.14794. 2020.
  • Gupta A., Berant J. Gmat: Global memory augmentation for transformers // ArXiv, abs/2006.03274. 2020.
  • Wu Q., Lan Z., Qian K., Gu J., Geramifard A., Yu Z. Memformer: A memory-augmented transformer for sequence modeling // Findings of the Association for Computational Linguistics: AACL-IJCNLP, Association for Computational Linguistics. 2022. P. 308—318.
  • Burtsev M.S., Kuratov Y., Peganov A., Sapunov G.V. Memory Transformer // ArXiv, abs/2006.11527. 2020.
  • Sagirova A., Burtsev M. Complexity of symbolic representation in working memory of transformer correlates with the complexity of a task // Cognitive Systems Research. 2022. V. 75. P. 16–24.
  • Sorokin A., Buzun N., Pugachev L., Burtsev M. Explain my surprise: Learning efficient long-term memory by predicting uncertain outcomes // ArXiv, abs/2207.13649. 2022.
  • Miyake A., Shah P. Models of Working Memory: Mechanisms of Active Maintenance and Executive Control. New York: Cambridge University Press, 1999.
  • Hochreiter S., Schmidhuber J. Long short-term memory // Neural Computation. 1997. V. 9, N 8. P. 1735—1780.
  • Graves A., Wayne G., Danihelka I. Neural Turing machines // Arxiv, abs/1410.5401. 2014.
  • Graves A., Wayne G., Reynolds M., Harley T., Danihelka I., GrabskaBarwinska A., Colmenarejo S.G., Grefenstette E., Ramalho T., Agapiou J, Badia A.P., Hermann K.M., Zwols Y., Ostrovski G., Cain A., King H., Summerfield C., Blunsom P., Kavukcuoglu K., Hassabis D. Hybrid computing using a neural network with dynamic external memory // Nature. 2016. V. 538, N 7626. P. 471–476.
  • Weston J., Chopra S., Bordes A. Memory networks // Arxiv, abs/1410.3916. 2015.
  • Sukhbaatar S., Szlam A., Weston J., Fergus R. End-to-end memory networks // Arxiv, abs/1503.08895. 2015.
  • Chandar S., Ahn S., Larochelle H., Vincent P., Tesauro G., Bengio Y. Hierarchical memory networks // Arxiv, abs/1605.07427. 2016.
  • Ainslie J., Ontanon S., Alberti C., Cvicek V., Fisher Z., Pham P., Ravula A., Sanghai S., Wang Q., Yang L. ETC: Encoding long and structured inputs in transformers // Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), Association for Computational Linguistics. 2020. P. 268–284.
  • Mavi V., Jangra A., Jatowt A. A survey on multi-hop question answering and generation // Arxiv, abs/2204.09140. 2022.
  • Yang Z., Qi P., Zhang S., Bengio Y., Cohen W., Salakhutdinov R., Manning C.D. HotpotQA: A dataset for diverse, explainable multi-hop question answering // Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, Association for Computational Linguistics, Brussels, Belgium. 2018. P. 2369–2380.
  • Liu Y., Ott M., Goyal N., Du J., Joshi M., Chen D., Levy O., Lewis M., Zettlemoyer L., Stoyanov V. RoBERTa: A Robustly Optimized BERT Pretraining Approach // ArXiv, abs/1907.11692. 2019.
  • Clark C., Gardner M. Simple and effective multi-paragraph reading comprehension // Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics, Association for Computational Linguistics, Melbourne, Australia. 2018. V. 1. P. 845–855.
  • Groeneveld D., Khot T., Mausam, Sabharwal A. A simple yet strong pipeline for HotpotQA // Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), Association for Computational Linguistics. 2020. P. 8839–8845.
Еще
Статья научная