Ограничения возможностей поисковых машин
Ограничения возможностей поисковых машин
1. Физические ограничения скорости. Информационные системы имеют физические ограничения по скорости поиска новых страниц. Скажем так, скорость, с которой сегодня паук пытается найти новые страницы, оказывается ниже, чем скорость появления новых страниц. Ежесекундно идет негласное соревнование:
в Интернете появляются новые страницы, а поисковые машины наращивают свою мощь. Кроме добавления новых страниц, в Интернете происходят еще и исчезновение старых, а также внесение изменений в содержимое существующих, что также оттягивает на себя часть ресурсов поисковых машин. В этой постоянной гонке Интернет выигрывает у поисковых машин с большим перевесом.
2. Поиск информации – мероприятие довольно дорогостоящее. Содержание сер веров, обеспечение подключений пользователей, рассылка пауков по Интернету, индексация, исключение сдвоенной информации – все это требует немалых затрат.
Понимая, что проиндексировать все документы в Сети не реально, а расходы надо приводить в соответствие с доходами, владельцы поисковых машин вводят собственные ограничения в работе своих систем. Например, лимитируют глубину проникновения паука на сайте, общее количество страниц в индексе, пропускают старые ресурсы, на которые никто никогда не ходит, либо регламентируют частоту их повторных посещений пауком, в результате чего часть страниц устаревает.
В любом случае, когда принимается решение о вводе ограничений на работу поисковой машины, это автоматически означает, что существуют страницы, которые могли бы быть проиндексированы, чего, однако, сделано не было.
Такое положение вещей имеет необычный побочный эффект: большие сайты могут порой проигрывать небольшим по полноте охвата информационными системами.
3. Принцип попадания страниц в индекс при помощи пауков.
Паук попадает только на те страницы, на которые есть ссылки с других страниц, либо по которым делались запросы в поисковые системы с целью уточнения рейтинга страницы в поисковой системе, либо которые внесены в очередь на индексирование вручную – путем заполнения формы «Добавить страницу» («Add URL»). Соответственно, если на страницу никто не ссылался, и никто о ней не сообщал поисковой системе вручную, то такая страница не будет проиндексирована.
Кроме того, если даже паук регулярно посещает страницу, то он делает это с определенной периодичностью. Если в промежутке между двумя посещениями ресурс изменится, то это изменение некоторое время будет неизвестно поисковой системе и ее пользователям.
Таким образом, существуют две задержки по времени в индексировании страниц: когда сайт создан, но еще неизвестен поисковику, и когда паук проиндексировал страницу, но не посетил ее повторно.
4. Необычные слова на странице, интересующей пользователя.
Страница, которая нужна пользователю, может содержать слова, отличные от тех, которые он, вероятнее всего, введет в поисковую строку. В результате, человек, не обладающий большим опытом поиска информации в Интернете, не сможет найти нужную страницу с помощью поисковой машины.
5. Предпочтение поисковой машиной быстроты поиска, а не его глубины.
Выбор между «максимально быстро» и «максимально полно» существует в любой отрасли, связанной с получением и обработкой информации. Поисковые системы обычно сориентированы их владельцами на наиболее быстрое получение результатов, пусть даже в ущерб полноте. Поэтому некоторые страницы, индексирование которых трудоемко, остаются за пределами базы данных, попадающей на сервер поисковой машины.
Хотя бывают исключения из этого правила. Существуют специализированные поисковики, которые добывают информацию, копая вглубь и напрочь отметая критерий скорости ее нахождения. Но они при этом «ходят» лишь на тематические сайты. Примером такой специализированной системы может служить, по информации Гэри Прайса Law Crawler (http://lawcrawler.lp.findlaw.com/) или Politicalinformation.com (http://www.politicalinformation.com).
6. Ориентация поисковых машин на поиск текстов в разных вариантах.
Поисковые машины изначально сориентированы на поиск текстов. На раннем этапе развития Интернета – представленных в формате HTML, после чего стали добавляться и другие их разновидности – Word (.doc), Adobe Acrobat (.pdf), Flash. Однако и эти форматы все равно содержат тексты. Индексировать изображения или, например, звуковые файлы (не названия звуковых файлов, а именно сам звук), поисковые машины пока не научились.
Более 800 000 книг и аудиокниг! 📚
Получи 2 месяца Литрес Подписки в подарок и наслаждайся неограниченным чтением
ПОЛУЧИТЬ ПОДАРОКДанный текст является ознакомительным фрагментом.
Читайте также
Виды виртуальных машин
Виды виртуальных машин Система виртуальных машин может быть построена на базе различных платформ и при помощи разных технологий. Используемая схема виртуализации зависит как от аппаратной платформы, так и от особенностей «взаимоотношений» хостовой ОС и поддерживаемых
Консоль виртуальных машин
Консоль виртуальных машин Большую часть окна консоли занимает поле, в котором отображается перечень имеющихся ВМ. Если ни одной машины еще не создано, то это поле пустое (см. рис. 2.4), а в правой части окна доступна единственная кнопка — New (создать). Эта кнопка запускает
Окно виртуальных машин
Окно виртуальных машин Центральную часть окна виртуальных машин занимает поле, в котором отображаются значения основных параметров и текущая конфигурация запущенной ВМ (рис. 4.7). Рис. 4.7. Окно виртуальных машин Parallels WorkstationВ каждый момент времени могут быть представлены
Поиск по трекерам средствами поисковых машин
Поиск по трекерам средствами поисковых машин Если вы пользуетесь услугами пиринговой сети не часто, а от случая к случаю, то можете искать ссылки или так называемые торренты с помощью поисковой машины Google. Для этого достаточно ввести в поле ввода ключевых слов для поиска
Использование языка запросов поисковых машин
Использование языка запросов поисковых машин В строку запроса поисковой машины, помимо ключевых слов, можно вводить так называемые операторы – специальные служебные слова или символы, которые сообщают поисковой системе, каким образом нужно обращаться с теми или иными
Описание языков запросов различных поисковых машин
Описание языков запросов различных поисковых машин Умение искать информацию с помощью поисковых машин очень важно для создания и последующей раскрутки блога.Благодаря поисковым машинам можно своевременно собирать информацию, появляющуюся в Интернете по теме, которой
18.2. Инсталляция системы виртуальных машин
18.2. Инсталляция системы виртуальных машин Для установки необходимо сначала скачать ПО с сайта компании VMware, а также получить лицензию на его использование. Можно, конечно, купить лицензию (стоимость ее около 300 долларов), однако можно пользоваться и временной (30-дневной)
История развития поисковых машин
История развития поисковых машин История эволюции поисковых машин наиболее полно, на наш взгляд, представлена в книге признанных экспертов в области невидимого интернета Криса Шермана и Гарри Прайса «Невидимый Интернет».[2]До середины 1960-х годов компьютеров было
1.1.1. Компоненты поисковых машин
1.1.1. Компоненты поисковых машин Информация в Сети не только пополняется, но и постоянно изменяется, но об этих изменениях никто никому не сообщает. Отсутствует единая система занесения информации, одновременно доступная для всех пользователей Интернета. Поэтому с целью
1.1.2. Характеристики поисковых машин
1.1.2. Характеристики поисковых машин В статье, посвященной поисковой машине Rambler (http://www.rambler.ru/ doc/architecture.shtml), называются основные характеристики, которые могут быть применены к любым поисковикам:? полнота;? точность;? актуальность;? скорость;? наглядность.Полнота поиска
5.4. Оптимизация сайта для поисковых машин
5.4. Оптимизация сайта для поисковых машин Какие задачи решает оптимизация для поисковых машин Поисковые машины сегодня являются важнейшим инструментом навигации в Интернете. С их помощью в Сети ищут информацию, сравнивают, анализируют, спрашивают совета, ищут
Какие задачи решает оптимизация для поисковых машин
Какие задачи решает оптимизация для поисковых машин Поисковые машины сегодня являются важнейшим инструментом навигации в Интернете. С их помощью в Сети ищут информацию, сравнивают, анализируют, спрашивают совета, ищут единомышленников, знакомых и даже смысл жизни. Если
13-я КОМНАТА: Этика машин и механизмов
13-я КОМНАТА: Этика машин и механизмов Автор: Леонид Левкович-МаслюкВ этом номере вы найдете статью о «биржевых роботах» — компьютерных программах, зарабатывающих для своих владельцев деньги на фондовом рынке. Соотношение квалификации электронных и живых трейдеров
История машин, мешавших обучению
История машин, мешавших обучению Несмотря на все факты, сведения и научные выводы, говорящие против этого, в настоящее время школы (и даже детские сады!) повсеместно оборудуются компьютерами — в целях обучения. Почему это не может дать положительных результатов, было