Тематическое моделирование в дискурсе компьютерной безопасности: исследование на примере публикаций информационных бюллетеней и новостных лент

Бесплатный доступ

Актуальная информация играет важную роль в современных лингвистических исследованиях. По этой причине методы компьютерной лингвистики, в том числе с использованием аналитических инструментов и средств машинного обучения, привлекают все большее внимание. Некоторые из них применяются в когнитивно-дискурсивной лингвистике для извлечения ключевых слов, тематического моделирования и контентного анализа. Инструменты для обработки текста облегчают трудоемкую работу лингвиста и повышают надежность и статистическую точность результатов за счет обработки значительно большего объема данных. Большинство исследований, однако, упускают из виду интерференцию социально значимой, но контекстуально не релевантной (например, политической) информации в специализированный дискурс, фокусируясь в основном на каком-то одном формате данных. Настоящее исследование, направленное на тематическое моделирование, выполнено в рамках дискурса компьютерной безопасности. Проект реализован на аналитической платформе KNIME. Разработанная модель позволяет сравнивать темы, извлеченные из опубликованных статей и новостных RSS-лент, привязанных к конкретной дате. Данное исследование позволяет получить важные сведения об инфодемиологии и случайном попадании политических новостей в RSS-ленты сайта Касперского, ориентированные на компьютерную безопасность, которые не прослеживаются в информационных бюллетенях, опубликованных на том же сайте в формате PDF. Представленные в статье результаты служат очередным подтверждением необходимости учитывать гиперконтекст профессиональной коммуникации и оперировать данными реального времени при решении подобных задач в рамках когнитивно-дискурсивной лингвистики. Наш вклад в развитие когнитивно-дискурсивной лингвистики заключается в применении метода сравнения тем в рамках одного дискурса с учетом данных, полученных в режиме реального времени. Для компьютерной лингвистики значимость данной работы заключается в описании нового применения алгоритма извлечения тем, размещенного в свободном доступе на портале KNIME.

Еще

Когнитивно-дискурсивная лингвистика, дискурс компьютерной безопасности, инфодемиология, контент-анализ, rss-ленты, тематическое моделирование

Короткий адрес: https://sciup.org/147238219

IDR: 147238219   |   DOI: 10.17072/2073-6681-2022-2-18-26

Статья научная