Метод шинглов
Метод шинглов
Ежедневно поисковый робот индексирует многие миллионы документов. Если бы для обнаружения дублей поисковой машине требовалось сопоставить между собой все существующие документы (каждый с каждым), ей пришлось бы произвести миллиарды миллиардов операций. Будь даже полнотекстовое сравнение одного документа со всеми прочими доступно, оно оказалось бы малоэффективным. Небольшая перестановка слов, знаков, предложений в тексте при сопоставлении с идентичным ему в остальном документе исключала бы совпадение.
На помощь поисковой машине были привлечены математика и лингвистика. Для сравнения огромного количества документов в базе поисковика применяется так называемый метод шинглов. Он крайне трудоемок, но современные компьютеры с ним справляются. Детально концепцию описывает опубликованная в апреле 1997 года статья «Синтаксическая кластеризация в Сети» (Syntactic clustering of he Web) авторства А. Бродера, С. Глассмана, М. Манассе и Г. Цвейга, которая вошла в сборник трудов Шестой международной конференции World Wide Web.
Более 800 000 книг и аудиокниг! 📚
Получи 2 месяца Литрес Подписки в подарок и наслаждайся неограниченным чтением
ПОЛУЧИТЬ ПОДАРОКДанный текст является ознакомительным фрагментом.
Читайте также
Проверка уникальности контента методом шинглов
Проверка уникальности контента методом шинглов Уникальный, качественный, ласкающий глаз и не взрывающий мозг контент – краеугольный камень SEO — продвижения. Контент должен быть представлен либо авторскими текстами, либо рерайтом, сделанным с чувством, с толком, с
Метод Run
Метод Run Параметр intWindowStyle устанавливает вид окна для запускаемого приложения (табл. 1.13).Таблица 1.13. Типы окна (intWindowStyle) Параметр Константа Visual Basic Описание 0 vbHide Прячет текущее окно и активизирует другое окно (показывает его и передает ему фокус) 1 vbNormalFocus Активизирует и
Метод Move
Метод Move Обязательный параметр destination определяет каталог, в который будет производиться перемещение; групповые символы в имени каталога недопустимы. Замечание Вместо метода Move можно использовать метод MoveFolder объекта
Метод Copy
Метод Copy Обязательный параметр destination определяет файл, в который будет производиться копирование; групповые символы в имени файла недопустимы.Параметр overwrite является логической переменной, определяющей, следует ли заменять уже существующий файл с именем destination (overwrite=true)
8.3.3. Метод partition
8.3.3. Метод partition Как говорится, «в мире есть два сорта людей: те, что делят людей по сортам, и те, что не делят». Метод partition относится не к людям (хотя мы можем представить их в Ruby как объекты), но тоже делит набор на две части.Если при вызове partition задан блок, то он вычисляется
11.1.10. Метод initialize_copy
11.1.10. Метод initialize_copy При копировании объекта методом dup или clone конструктор не вызывается. Копируется вся информация о состоянии.Но что делать, если вам такое поведение не нужно? Рассмотрим пример:class Document attr_accessor :title, :text attr_reader :timestamp def initialize(title, text) @title, @text = title, text @timestamp =
11.1.11. Метод allocate
11.1.11. Метод allocate Редко, но бывает, что нужно создать объект, не вызывая его конструктор (в обход метода initialize). Например, может статься, что состояние объекта полностью определяется методами доступа к нему; тогда не нужно вызывать метод new (который вызовет initialize), разве что вы
11.3.2. Метод const_get
11.3.2. Метод const_get Метод const_get получает значение константы с заданным именем из модуля или класса, которому она принадлежит.str = "PI"Math.const_get(str) # Значение равно Math::PI.Это способ избежать обращения к методу eval, которое иногда считается неэлегантным. Такой подход дешевле с точки
11.3.5. Метод define_method
11.3.5. Метод define_method Помимо ключевого слова def, единственный нормальный способ добавить метод в класс или объект — воспользоваться методом define_method, причем он позволяет сделать это во время выполнения.Конечно, в Ruby практически все происходит во время выполнения. Если
11.3.6. Метод const_missing
11.3.6. Метод const_missing Метод const_missing аналогичен методу method_missing. При попытке обратиться к неизвестной константе вызывается этот метод — если он, конечно, определен. В качестве параметра ему передается символ, ссылающийся на константу.Чтобы перехватывать обращения к
Метод Lockbits
Метод Lockbits В .NET Compact Framework 2.0 появилась ограниченная поддержка метода LockBits, при помощи которого можно манипулировать массивом пикселов изображения. Перечисление ImageLockMode в данном методе позволяет использовать значения ReadWrite, ReadOnly и WriteOnly. А перечисление PixelFormat поддерживает
Метод Flush
Метод Flush Когда вы используете метод Write или WriteHuge для записи данных на диск, они некоторое время могут находится во временном буфере. Чтобы удостоверится, что необходимые изменения внесены в файл на диске, используйте метод Flush:virtual void Flush()
Метод вывода "xml"
Метод вывода "xml" Для того чтобы вывести результирующее дерево в виде XML-документа, следует использовать в элементе xsl:output метод "xml". Ниже мы подробно опишем, каким образом на выход должны влиять другие атрибуты этого элемента.Атрибут versionЭтот атрибут определяет версию
Метод Zip
Метод Zip Описание методовМетоды приведены для последовательности sequence of T. function Zip<TSecond,Res>(second: sequence of TSecond; resultSelector: (T,TSecond)->Res): sequence of Res; Объединяет две последовательности, используя указанную функцию, принимающую по одному элементу каждой последовательности и
Метод Contains
Метод Contains Описание методовМетоды приведены для последовательности sequence of T. function Contains(value: T): boolean; Определяет, содержится ли указанный элемент в последовательности, используя компаратор проверки на равенство по умолчанию. function Contains(value: T; comparer: IEqualityComparer<T>): boolean;