Метод шинглов

Бесплатный доступ

В данной статье рассматриваются методы по определению дублирования документов с целью недопущения их включения в коллекции; анализируются подходы для поиска нечетких дубликатов на основе метода шинглов с целью определения спама в электронной почте, поиска плагиата, очистки коллекций документов от дубликатов. В данной работе представлен разбор методики реализации и выбора параметров алгоритма шинглов, выработаны критерии для выбора функции контрольных сумм (сигнатур), разработана программа для определения дубликатов, предложены критерии выбора параметров оптимизации алгоритма шинглов с применением minhash и алгоритма супершинглов.

Еще

Шинглы, супершинглы, нечеткие дубликаты, подобие текстов, алгоритм шинглов

Короткий адрес: https://sciup.org/148160285

IDR: 148160285

Список литературы Метод шинглов

  • Broder, A. Some applications of Rabin's fingerprinting method//R. Capocelli, A. De Santis, and U. Vaccaro, editors, Sequences II: Methods in Communications, Security, and Computer Science. -Springer-Verlag, 1993.
  • Fetterly, Dennis, Manasse, Mark, Najork, Marc, and Wiener, Janet. A Large-Scale Study of the Evolution of Web Pages. Software//Practice & Experience, Wiley, 2004. -February.
  • Зеленков Ю.Г., Сегалович И.В. Сравнительный анализ методов определения нечетких дубликатов для WEB-документов//Труды 9-й Всероссийской научной конференции RCDL'2007. -Переславль-Залесский, 2007.
  • Broder, A. On the resemblance and containment of documents//SEQS: Sequences '91, 1998.
  • Rabin, M. Fingerprinting by random polynomials. Report TR-15-81, Center for Research in Computing Technology. -Harvard University, 1981.
  • Фофанов О.Б. Алгоритмы и cтруктуры данных. -Томск: Национальный исследовательский Томский политехнический университет, 2014.
  • https://ru.wikipedia.org/wiki/SSE4
  • Broder, A., Glassman, S., Manasse, M., Zweig, G. Syntactic Clustering of the Web//Comput. Netw. ISDN Syst. -1997. -Vol. 29. -Pp. 1157-1166.
  • Цимбалов А. Код реализации алгорима шинглов. -https://github.com/luckybeggar/text_search_cmp
  • Chum, Ondrej, Philbin, James, Zisserman, Andrew. Near Duplicate Image Detection: minhash and tf-idf Weighting. -British Mashine Vision Conference, 2008.
  • Mihir Bellare, Tadayoshi Kohno. Hash Function Balance and its Impact on Birthday Attacks//EUROCRYPT '04, Lecture Notes in Computer Science. -Vol. 3027/C. Cachin and J. Camenisch eds. -Springer-Verlag, 2004.
  • Серов С.С., Андреев А.Е., Кравченя П.Д., Гущин Р.И., Чеботарев П.П. Сокращение времени оценки схожести текстовых документов на неоднородной многопроцессорной вычислительной системе//Инженерный вестник Дона. Волгоградский государственный технический университет. -2015. -№ 2. -Ч. 2.
Еще
Статья научная