К проблеме разметки текстов на русском языке для задачи извлечения фактографической информации

Бесплатный доступ

В настоящей работе рассматривается современное состояние проблемы извлечения фактографической информации из текстов на русском языке как подзадачи в направлении Information Extraction. Проанализирован опыт разметок текстов для задачи извлечения информации о событиях в рамках проектов MUC и ACE. Обосновывается и определяется понятие модели текстового упоминания о событии, описывается его структура. Текстовое упоминание о событии представляет собой синтаксически связный фрагмент текста, обозначающий событие заданного типа. Этому фрагменту ставится в соответствие фрейм события, слоты которого заполнены информацией, которая может быть получена при анализе данного фрагмента. Предполагается, что выделение в тексте синтаксически связных фрагментов, которым сопоставлен фрейм со структурированной информацией, извлеченной из данного фрагмента, будет удобным промежуточным уровнем для работы со всем многообразием способов выражения информации о событиях в русскоязычных текстах. На примере анализа текстовых упоминаний событий назначения и отставки рассматриваются сложности извлечения фактографической информации из текстов на русском языке.

Еще

Автоматическое извлечение информации, разметка., текстовые коллекции, фактографическая информация

Короткий адрес: https://sciup.org/14335999

IDR: 14335999

Список литературы К проблеме разметки текстов на русском языке для задачи извлечения фактографической информации

  • Grishman R., “Information extraction: Techniques and challenges”, Information Extraction A Multidisciplinary Approach to an Emerging Information Technology, International Summer School, SCIE-97 (Frascati, Italy, July 14-18, 1997), Lecture Notes in Computer Science, 1299, ed. Maria Teresa Pazienza, Springer-Verlag, 1997, pp. 10-27.
  • Appelt D. E., “Introduction to information extraction”, Journal AI Communications, 12:3 (1999), pp. 161-172.
  • Grishman R., Sundheim B., “Message Understanding Conference-6: A Brief History”, Proceedings of the 16th International Conference on Computational Linguistics. v. I, COLING '96 (Kopenhagen, 1996), pp. 466-471.
  • Chinchor N. A., Overview of MUC-7/MET-2, http://www.itl.nist.gov/iaui/894.02/related_projects/muc/proceedings/muc_7_proceedings/overview.html, 1998.
  • Ahn D., “The stages of event extraction, Annotating and Reasoning about time and events”, ARTE '06 Proceedings of the Workshop on Annotating and Reasoning about Time and Events, 2006, pp. 1-8.
  • ACE (Automatic Content Extraction) English Annotation Guidelines for Events, version 5.4.3 2005.07.01 edition, Linguistic Data Consortium, 2005.
  • Ермаков А. Е., Плешко В. В., «Компьютерный анализ текста при сборе информации к досье из открытых источников», Доклад на 3-ей конференции «Конкурентная разведка в металлургии» (Москва, 2005), URL http://rco.ru/article.asp?ob_no=1562.
  • Ермаков А. Е., «Автоматическое извлечение фактов из текстов досье. Опыт установления анафорических связей», Компьютерная лингвистика и интеллектуальные технологии, По материалам ежегодной Международной конференции «Диалог», 2007, URL http://www.dialog-21.ru/digests/dialog2007/materials/html/26.htm.
  • Гершензон Л. М., Ножов И. М., Панкратов Д. В., «Система извлечения и поиска структурированной информации из больших текстовых массивов СМИ. Архитектурные и лингвистические особенности», Компьютерная лингвистика и интеллектуальные технологии, По материалам ежегодной Международной конференции «Диалог», 2005, URL http://www.dialog-21.ru/Archive/2005/Gershenzon% 20Nozhov%20Pankratov/Gershenzon_Nozhov_Pankratov.htm.
  • Семинар: Natural Language Processing (автоматическая обработка естественного языка), http://nlpseminar.ru/archive/lecture32, 2010.
  • Котельников Д. С., Лукашевич Н. В., «Итерационное извлечение шаблонов описания событий по новостным кластерам», Труды XIV Всероссийской научной конференции RCDL'2012 «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» (Переславль-Залесский, 2012), c. 353-359, URL http://rcdl.ru/doc/2012/paper45.pdf.
  • Кузнецов И. П., «Семантические методы извлечения имплицитной информации», Системы и средства информатики, 21:2 (2011), c. 116-138.
  • Пивоварова Л. М. Фактографический анализ текста в системе поддержки принятия решений//Вестник Санкт-Петербургского университета. Серия 9. Филология, востоковедение, журналистика. 2010. № 4. С. 190-197.
  • Власова Н. А., «Извлечение информации о ситуациях отставокназначений в новостных текстах. Опыт разметки коллекции. Результаты тестирования», Труды XV Всероссийской научной конференции RCDL'2013 «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» (Ярославль, 2013), c. 145-154, URL http://rcdl2013.uniyar.ac.ru/doc/full_text/s4_2.pdf.
  • Загорулько М. Ю., Кононенко И. С., Сидорова Е. А., «Система семантической разметки корпуса текстов в ограниченной предметной области», Компьютерная лингвистика и интеллектуальные технологии, По материалам ежегодной Международной конференции «Диалог». т. 1 (Бекасово, 2012), 674-683, URL http://www.dialog21.ru/digests/dialog2012/materials/pdf/94.pdf.
  • И. С. Некрестьянов (ред.), Труды третьего российского семинара по оценке методов информационного поиска, НИИ Химии СПбГУ, Санкт-Петербург, 2005, 226 с., URL http://romip.ru/romip2005.
  • Труды четвертого российского семинара РОМИП'2006 (Суздаль, 19 октября 2006 г.), НУ ЦСИ, Санкт-Петербург, 2006, URL http://romip.ru/romip2006.
  • Situations-1000, Размеченная коллекция новостных текстов на русском языке, содержащих информацию о назначениях и отставках лиц, http://ai-center.botik.ru/Airec/index.php/ru/collections/33situations-1000, Исследовательский центр искусственного интеллекта, ИПС им. А. К. Айламазяна РАН, 2014.
Еще
Статья научная