Быстрая фильтрация текста при помощи модифицированного фильтра Блума

Бесплатный доступ

Целью данной работы является решение задачи быстрого сравнения текстовых массивов. Предмет исследования - фильтры Блума и их адаптация для задач быстрой фильтрации текстовых данных. В работе проведен сравнительный анализ различных вариаций фильтров Блума на возможность их использования в данной области. На базе анализа предложены алгоритмы и структуры данных для быстрой фильтрации текстов на основе псевдоматричных фильтров Блума. Рассмотрены различные вариации хранения текста в фильтре. Для решения задачи локализации поиска предложено добавить дополнительный индекс, содержащий указатели фрагментов документов, загруженных в фильтр. Показаны преимущества предлагаемой модели на примере модельных документов с разной степенью искажения анализируемого текста. Областью применения данных методов является широкий круг задач текстового поиска, включающий задачи обнаружения плагиата или защиты от утечки конфиденциальной информации. Полученные экспериментальные результаты показали приемлемые значения ложноположительных и ложноотрицательных срабатываний фильтра, заметное преимущество размера псевдоматричных фильтров над размером матричного фильтра Блума. Также результаты эксперимента показали применимость предложенного подхода для быстрого обнаружения документов, содержащих 5% и более совпадающего текста.

Еще

Фильтр блума, текстовый поиск, фильтрация информации, алгоритмы, структуры данных, обнаружение плагиата

Короткий адрес: https://sciup.org/142179131

IDR: 142179131

Список литературы Быстрая фильтрация текста при помощи модифицированного фильтра Блума

  • Knuth, D. Fast Pattern Matching in Strings/D. Knuth, J.J. Morris, V. Pratt//SIAM Journal on Computing. -1977. -Vol. 6. -№2. -P. 323-350.
  • Дягилев, В.В. Архитектура сервиса определения плагиата, исключающая возможность нарушения авторских прав/В.В. Дягилев, А.А. Цхай, С.В. Бутаков//Вестник Новосибирского государственного университета. Серия: Информационные технологии. -2011. -Т. 9. -№3. -С. 23-29.
  • Дягилев, В.В. Надежное обнаружение плагиата малым числом поисковых запросов/В.В. Дягилев, А.А. Цхай, С.В. Бутаков//Бизнес-информатика. -2013. -№1 (23). -С. 50-57.
  • Fomichov, V.A. Semantics-Oriented Natural Language Processing: Mathematical Models and Algorithms/V.A. Fomichov//Series: IFSR International Series on Systems Science and Engineering. -2010. -Vol. 27; Springer, New York, Dordrecht, Heidelberg, London. -354 p.
  • Романов, А.С. Структура программного комплекса для исследования подходов к идентификации авторства текстов/А.С. Романов//Доклады Томского государственного университета систем управления и радиоэлектроники. -2008. -№2 (18). -Ч. 1. -С. 106-109.
  • Stamatatos, E. A survey of modern authorship attribution methods/E. Stamatatos//J. Am. Soc. Inf. Sci. -2009. -Vol. 60. -P. 538-556.
  • Potthast, M. PAN Plagiarism Corpus PAN-PC-09. 2009/M. Potthast, A. Eiselt, B. Stein, A. Barrón-Cedeño, P. Rosso. -URL: http://www.uni-weimar.de/medien/webis/research/corpora.
  • Bloom, B.H. Space/time trade-offs in hash coding with allowable errors/B.H. Bloom//Commun. ACM. -1970. -Vol. 13. -№7. -P. 422-426.
  • Федотов, А.М. К вопросу о поиске документов «по аналогии»/А.М. Федотов, В.Б. Барахнин//Вестник Новосибирского государственного университета. Серия: Информационные технологии. -2009. -Т. 7. -№4. -С. 5-7.
  • Bloom, B.H. Space/time trade-offs in hash coding with allowable errors/B.H. Bloom//Commun. ACM. -1970. -Vol. 13. -№7. -P. 422-426.
  • Bloom, B.H. Space/time trade-offs in hash coding with allowable errors/B.H. Bloom//Commun. ACM. -1970. -Vol. 13. -№7. -P. 422-426.
  • Broder, A.Z. Network Applications of Bloom Filters: A Survey/A.Z. Broder, M. Mitzenmacher//Internet Mathematics. -2005. -Vol. 1. -№4. -P. 485-509.
  • Geravand, S. Novel Adjustable Matrix Bloom Filter-Based Copy Detection System for Digital Libraries/S. Geravand, M.A. Ahmadi//Proceedings of the Computer and Information Technology (CIT), IEEE 11th International Conference (Aug. 31 -Sept. 2, 2011). -2011. -P. 518-525.
  • Karp, R.M. Pattern-matching algorithms/R.M. Karp, M.O. Rabin//IBM Journal of Research and Development. -1987. -Vol. 31 (2). -P. 249-260.
  • Schleimer, S. Winnowing Local Algorithms for Document Fingerprinting/S. Schleimer, D. Wilkerson, A. Aiken//Proceedings of the ACM SIGMOD International Conference on Management of Data. -2003. -P. 76-85.
  • Butakov, S. The toolbox for local and global plagiarism detection/S. Butakov, V. Scherbinin//Comput. Educ. -2009. -Vol. 52. -№4. -P. 781-788. -URL: dx.doi.org/10.1016.
  • Sorokina, D. Plagiarism detection in arXiv/D. Sorokina, J. Gehrke, S. Warner, P. Ginsparg//Proceedings of the Sixth International Conference on Data Mining. -2006. -P. 1070-1075.
  • Rivest, R. The MD5message-digest algorithm/R. Rivest. -RFC1321, Internet Engineering Task Force, 1992.
  • Цхай, А.А. Псевдоматричный фильтр Блума для задач быстрого сравнения текстов/А.А. Цхай, С.В. Бутаков, В.В. Дягилев//Вестник Алтайской академии экономики и права. -2013. -Вып. 4 (31). -С. 67-73.
  • Цхай, А.А. Псевдоматричный фильтр Блума для быстрого сравнения символьных последовательностей/А.А. Цхай, С.В. Бутаков, В.В. Дягилев//Вестник алтайской науки. -2014. -№1 (19). -С. 277-282.
  • Potthast, M. PAN Plagiarism Corpus PAN-PC-09. 2009/M. Potthast, A. Eiselt, B. Stein, A. Barrón-Cedeño, P. Rosso. -URL: http://www.uni-weimar.de/medien/webis/research/corpora.
  • Geravand, S. Novel Adjustable Matrix Bloom Filter-Based Copy Detection System for Digital Libraries/S. Geravand, M.A. Ahmadi//Proceedings of the Computer and Information Technology (CIT), IEEE 11th International Conference (Aug. 31 -Sept. 2, 2011). -2011. -P. 518-525.
  • Potthast, M. PAN Plagiarism Corpus PAN-PC-09. 2009/M. Potthast, A. Eiselt, B. Stein, A. Barrón-Cedeño, P. Rosso. -URL: http://www.uni-weimar.de/medien/webis/research/corpora.
  • Stamatatos, E. A survey of modern authorship attribution methods/E. Stamatatos//J. Am. Soc. Inf. Sci. -2009. -Vol. 60. -P. 538-556.
Еще
Статья научная