Автоматизация морфологической разметки архивных документов

Автор: Комендантов Анатолий Сергеевич, Матвеев Александр Георгиевич, Светлов Андрей Владимирович

Журнал: Математическая физика и компьютерное моделирование @mpcm-jvolsu

Рубрика: Моделирование, информатика и управление

Статья в выпуске: 4 т.22, 2019 года.

Бесплатный доступ

Работа посвящена описанию созданной авторами статьи надстройки над утилитой для стемминга MyStem И. Сегаловича. Приложение добавляет к возможностям утилиты удобный графический интерфейс, простой для освоения и интуитивно понятный пользователям, не специализирующимся в информационных технологиях. Оно перехватывает вывод утилиты MyStem, специальным образом переформатирует и анализирует его. Кроме того, приложение имеет функционал для снятия омонии вручную, если автоматическими средствами морфологические характеристики слова определены неверно. Основное назначение данного приложения - подготовка морфологической разметки документов архивного фонда «Михайловский станичный атаман» для создания лингвистического корпуса. В ходе работы над приложением была решена задача корректной обработки текстов, содержащих устаревшие кириллические символы.

Еще

Автоматизация лингвистического анализа, автоматизация морфологического анализа, утилита mystem, графический интерфейс, программная оболочка, корпусная лингвистика

Короткий адрес: https://sciup.org/149129872

IDR: 149129872   |   DOI: 10.15688/mpcm.jvolsu.2019.4.4

Список литературы Автоматизация морфологической разметки архивных документов

  • Балясова, Е. С. Войсковые грамоты XVIII в.: лингвистический корпус / Е. С. Балясова. // Теоретические и прикладные аспекты корпусных исследований: тез. науч. конф. - Электрон. текстовые дан. - Режим доступа: https://volsu.ru/upload/medialibrary/904/2016-konferentia-tezises-corpus.pdf. - Загл. с экрана.
  • Балясова, Е. С. Региональные архивные документы XVIII века в аспекте корпусной лингвистики / Е. С. Балясова, Е. М. Шептухина // Коммуникативные аспекты современной лингвистики и лингводидактики: материалы Междунар. науч. конф. - Волгоград: Изд-во ВолГУ, 2017. - C. 31-37.
  • Светлов, А. В. Автоматизация процесса получения лингвистической информации: современные возможности / А. В. Светлов, А. С. Комендантов // Вестник Волгоградского государственного университета. Серия 2, Языкознание. - 2017. - Т. 16, № 2. - C. 39-46. - DOI: 10.15688/jvolsu2.2017.2.4
  • Шептухина, Е. М. Войсковые грамоты середины XVIII века в аспекте категории модальности / Е. М. Шептухина, О. А. Горбань // Вестник Волгоградского государственного университета. Серия 2, Языкознание. - 2015. - № 5 (29). - C. 7-18. - DOI: 10.15688/jvolsu2.2015.5.1
  • Шептухина, Е. М. Этапы создания лингвистического корпуса войсковых грамот XVIII-XIX вв. архивного фонда "Михайловский станичный атаман" ГАВО / Е. М. Шептухина, О. А. Горбань // Гуманитарное образование и наука в техническом вузе: cб. докл. Всерос. науч.-практ. конф. с междунар. участием. - Ижевск: Изд-во Ижев. гос. техн. ун-та им. М.Т. Калашникова, 2017. - C. 428-431.
  • Segalovich, I. A fast morphological algorithm with unknown word guessing inducedby a dictionary for a web search engine. / I. Segalovich // Proceedings of the International Conference on Machine Learning; Models, Technologies and Applications. - Las Vegas: CSREA Press, 2003. - P. 273-280.
Еще
Статья научная