Метод шинглов

Метод шинглов

Ежедневно поисковый робот индексирует многие миллионы документов. Если бы для обнаружения дублей поисковой машине требовалось сопоставить между собой все существующие документы (каждый с каждым), ей пришлось бы произвести миллиарды миллиардов операций. Будь даже полнотекстовое сравнение одного документа со всеми прочими доступно, оно оказалось бы малоэффективным. Небольшая перестановка слов, знаков, предложений в тексте при сопоставлении с идентичным ему в остальном документе исключала бы совпадение.

На помощь поисковой машине были привлечены математика и лингвистика. Для сравнения огромного количества документов в базе поисковика применяется так называемый метод шинглов. Он крайне трудоемок, но современные компьютеры с ним справляются. Детально концепцию описывает опубликованная в апреле 1997 года статья «Синтаксическая кластеризация в Сети» (Syntactic clustering of he Web) авторства А. Бродера, С. Глассмана, М. Манассе и Г. Цвейга, которая вошла в сборник трудов Шестой международной конференции World Wide Web.

Данный текст является ознакомительным фрагментом.

Метод шинглов

Читайте также

Проверка уникальности контента методом шинглов

Метод Run

Метод Move

Метод Copy

8.3.3. Метод partition

11.1.10. Метод initialize_copy

11.1.11. Метод allocate

11.3.2. Метод const_get

11.3.5. Метод define_method

11.3.6. Метод const_missing

Метод Lockbits

Метод Flush

Метод вывода "xml"

Метод Zip

Метод Contains