Аддитивная регуляризация при тематическом моделировании текстов сообществ онлайновых социальных сетей

Автор: Датьев И.О., Федоров А.М.

Журнал: Онтология проектирования @ontology-of-designing

Рубрика: Прикладные онтологии проектирования

Статья в выпуске: 2 (44) т.12, 2022 года.

Бесплатный доступ

Задача моделирования сообществ (групп) пользователей в социальных медиа является актуальной в рамках информационной поддержки принятия решений на разных уровнях государственного управления. Для автоматизированного извлечения смысла текстовой и сопутствующей информации используются методы тематического моделирования. В статье представлен опыт улучшения результатов тематического моделирования сообществ онлайновых социальных сетей с помощью аддитивной регуляризации тематических моделей. Улучшение результатов достигается посредством применения базовых регуляризаторов, доступных в программной библиотеке с открытым исходным кодом BigARTM . Тематические модели, полученные с использованием регуляризатора, сравниваются с тематическими моделями, полученными методами латентного размещения Дирихле и вероятностного латентно-семантического анализа. На подготовленном датасете, содержащем предварительно обработанные тексты постов сообществ онлайновой социальной сети проведены эксперименты по сравнению качества тематических моделей по метрикам когерентности, чистоты тем, разреженности матриц распределения. Обсуждаются недостатки метрик когерентности для оценки качества тематических моделей, полученных с помощью метода аддитивной регуляризации. Предложены дополнительные метрики, которые могут быть полезны для оценки качества тематических моделей. Сделаны выводы о применимости предложенного подхода для моделирования сообществ онлайновых социальных сетей. Результаты работы могут быть применены при разработке информационно-аналитических систем поддержки управления региональным развитием.

Еще

Управление региональным развитием, информационно-аналитические системы, сообщества социальных сетей, методы тематического моделирования, метрики когерентности

Короткий адрес: https://readera.org/170195099

IDR: 170195099   |   DOI: 10.18287/2223-9537-2022-12-2-186-199

Список литературы Аддитивная регуляризация при тематическом моделировании текстов сообществ онлайновых социальных сетей

  • Боргест Н.М. Границы онтологии проектирования // Онтология проектирования. 2017. Т. 7, №1(23). С. 7-33. - DOI: 10.18287/2223-9537-2017-7-1-7-33.
  • Смирнов С.В. Онтологическое моделирование в ситуационном управлении // Онтология проектирования. 2012. №2. С. 16-24.
  • Fedorov A.M., Datyev I.O. Shchur A.L. Social Media Communities Topic Modeling // In: Silhavy R., Silhavy P., Prokopova Z. (eds.): Data Science and Intelligent Systems. CoMeSySo 2021. Lecture Notes in Networks and Systems. Vol. 231. Springer, Cham, 2021. P. 605-614. https://doi.org/10.1007/978-3-030-90321-3_50.
  • Mimno D. Wallach H., Talley Ed., Leenders M., McCallum A. Optimizing semantic coherence in topic models // In: Proc. of the 2011 Conf. on Empirical Methods in Natural Language Processing, Edinburgh, Scotland, UK. - Association of Computational Linguistics, 2011. P.262-272.
  • Newman D. Lau J.H., Grieser K., Baldwin T. Automatic evaluation of topic coherence // In: Human Language Technologies: The 2010 Annual Conf. of the North American Chapter of the Association for Computational Linguistics (HLT 2010). - Association for Computational Linguistics, Stroudsburg, 2010. P.100-108.
  • VorontsovK., Potapenko A. Additive regularization of topic models. // Mach Learn 101. 2015. P. 303-323. https://doi.org/10.1007/s10994-014-5476-6.
  • Hofmann T. Probabilistic latent semantic indexing // In: Proc. of the 22nd annual international ACM SIGIR conf. on Research and development in information retrieval (SIGIR '99). - Association for Computing Machinery, New York, NY, USA, 1999. P.50-57. https://doi.org/10.1145/312624.312649.
  • Datyev I.O., Fedorov A.M., Shchur A.L. Framework for civic engagement analysis based on open social media data // In: Silhavy R. (ed.): CSOC 2020. AISC. Vol. 1225. Springer, Cham, 2020. P. 586-597. https://doi.org/10.1007/978-3-030-51971-1_48.
  • Kochedykov D. Apishev M., Golitsyn L., Vorontsov K. Fast and Modular Regularized Topic Modelling // In: 21st Conf. of Open Innovations Association (FRUCT). - FRUCT Oy, Helsinki, Uusimaa, Finland, 2017. P. 182-193 https://doi.org/10.23919/FRUCT.2017.8250181.
  • VorontsovK.V. Additive regularization for topic models of text collections. Doklady Mathematics. 2014. 3(89). P. 301-304. https://doi.org/10.1134/S1064562414020185.
  • Tikhonov A.N., Arsenin V.Y.: Solution of ill-posed problems. - Winston, Washington DC, 1977.
  • Khalifa O., Corne D.W., Chantler M., Halley F. Multi-objective topic modeling // In: Purshouse R.C., Fleming P.J., Fonseca C.M., Greco S., Shaw J. (eds.): Evolutionary Multi-Criterion Optimization (EMO 2013). LNCS. Vol 7811. Springer, Heidelberg, 2013. P. 51-65. https://doi.org/10.1007/978-3-642-37140-0_8.
  • Si L., Jin R. Adjusting mixture weights of gaussian mixture model via regularized probabilistic latent semantic analysis // In: Ho T.B., Cheung D.W.-L., Liu H. (eds.): Proc. of the Ninth Pacific-Asia Conf. on Knowledge Discovery and Data Mining (PAKDD). LNCS. Vol. 3518. Springer, 2005. P. 622- 631.
  • Chien J.-T., Wu M.-S. Adaptive bayesian latent semantic analysis // IEEE Transactions on Audio, Speech, and Language Processing. 2008. Vol. 1(16). P. 198-207.
  • Larsson M.O., Ugander J. A concave regularization technique for sparse mixture models // In: Shawe Taylor J., Zemel R., Bartlett P., Pereira F., Weinberger K .(eds.): Advances in Neural Information Processing Systems 24 (NIPS 2011), 2011. P. 1890-1898.
  • Воронцов К.В., Потапенко А.А. Модификации EM-алгоритма для вероятностного тематического моделирования // Машинное обучение и анализ данных. 2013. Т. 1, № 6. С. 657-686.
  • Vorontsov K. Potapenko A., Plavin A. Additive Regularization of Topic Models for Topic Selection and Sparse Factorization // In: Gammerman A., Vovk V., Papadopoulos H. (eds.): Statistical Learning and Data Sciences (SLDS 2015). LNCS. Vol. 9047. Springer Cham, 2015. P.193-202. https://doi.org/10.1007/978-3-319-17091-6_14.
  • Chirkova N.A., Vorontsov K.V. Additive Regularization for Hierarchical Multimodal Topic Modeling. Machine Learning and Data Analysis. 2016. Vol. 2. Issue 2. P. 187-200. https://doi.org/10.21469/22233792.2.2.05.
  • Янина А.О., Воронцов К.В. Мультимодальные тематические модели для разведочного поиска в коллективном блоге // Машинное обучение и анализ данных. 2016. №2(2). С. 173-186. https://doi.org/10.21469/22233792.2.2.04.
  • Apishev M., Koltcov S., Koltsova O., Nikolenko S., Vorontsov K. Additive Regularization for Topic Modeling in Sociological Studies of User-Generated Texts // In: Sidorov G., Herrera-Alcántara O. (eds.): Advances in Computational Intelligence (MICAI 2016). LNCS. Vol. 10061. SpringerCham, 2017. P. 169-184. https://doi.org/10.1007/978-3-319-62434-1_14.
  • Bulatov V., Alekseev V., Vorontsov K., Polyudova D., Veselova E., Goncharov A., Egorov E. TopicNet: Making Additive Regularisation for Topic Modelling Accessible // In: Proc. of the 12th Language Resources and Evaluation Conf. - European Language Resources Association, Marseille, France, 2020. P. 6745-6752. https://aclanthology.org/2020.lrec-1.833.pdf.
  • Veselova E., Vorontsov K. Topic Balancing with Additive Regularization of Topic Models // In: Proc. of the 58th Annual Meeting of the Association for Computational Linguistics: Student Research Workshop, Online. - Association for Computational Linguistics, 2020. P. 59-65. https://doi.org/10.18653/v1/2020.acl-srw.9
  • Ирхин И.А., Воронцов K-В. Сходимость алгоритма аддитивной регуляризации тематических моделей // Труды института математики и механики УРО РАН. 2020. №3(26). C. 56-68. https://doi.org/10.21538/0134-4889-2020-26-3-56-68
  • Сухарева А.В., Воронцов К.В. Построение полного набора тем вероятностных тематических моделей // Интеллектуальные системы. Теория и приложения. 2019. Т. 23, № 4. C. 7-23.
  • BleiD.M., NgA.Y., Jordan M.I. Latent Dirichlet allocation // Journal of Machine Learning Research. 2003. No. 3. P. 993-1022.
  • Wallach H.M., Mimno D.M., McCallum A. Rethinking lda: Why priors matter. // In: NIPS. Vol. 22. 2009. P. 1973-1981.
  • Alekseev V.A., Bulatov V.G., VorontsovK.V. Intra-text coherence as a measure of topic models' interpretability // In: Computational Linguistics and Intellectual Technologies: Proc. of the Int. Conf. "Dialogue 2018" (Moscow, May 30 - June 2, 2018). P. 1-13. https://www.dialog-21.ru/media/4281/alekseevva.pdf
Еще
Статья научная