8.7. Поисковый сервер ht:/Dig

8.7. Поисковый сервер ht:/Dig

Сервер Dig предназначен для поиска и индексирования содержимого web-страниц в небольших сетях. Сервер Dig прекрасно справляется с поиском информации на серверах вашей сети, однако заменить полноценную поисковую машину, такую, как Rambler, Yandex или Google, он не может. Этот поисковый сервер не очень масштабируемый и сможет охватить лишь несколько серверов вашей сети.

Сервер Dig предоставляет простые и сложные методы поиска информации. К сложным методам относятся логический (boolean method) и нечетко определенный метод поиска (fuzzy searching method). Нечетко определенный поиск включает в себя несколько алгоритмов: простой, зондирующий и поиск с использованием синонимов.

Поиск производится по HTML-документам и по простым текстовым документам. Документы HTML могут содержать ключевые слова, что упрощает поиск. Поиск ограничивается глубиной и локализацией. Можно идентифицировать пользователя при попытке поиска в определенных каталогах или вообще запретить поиск в указанных каталогах (ограничение локализацией).

Файл конфигурации htdig.conf сервера Dig находится в каталоге /etc/htdig. Директива database_dir определяет расположение базы данных сервера ht:/Dig.

Базы данных могут быть довольно большими, поэтому нужно позаботиться о том, чтобы хватило дискового пространства.

Директива start_url указывает начальные url-адреса поиска. Сервер dig будет производить индексирование, начиная с этих адресов. Вы можете указать несколько адресов.

Директива Iimit_urls_to определяет, какие адреса будут ограничены во время создания индекса. Обычно здесь нужно указать те url-адреса, которые вы указали в директиве start_url.

Директива exclude_urls определяет, какие адреса не будут индексированы. Обычно не требует индексирования каталог /cgi-bin/, содержащий сценарии.

Директива bad_extensions запрещает индексирование файлов с указанным расширением.

Другие директивы позволяют установить максимальный размер заголовка документа HTML (max_head_length), максимальный размер файла (max_doc_size) и установить алгоритм поиска (search_algoritm), а с помощью директивы allow_virtual_hosts можно указать серверу индексировать виртуальные хосты как отдельные компьютеры.

В состав системы Dig входят пять программ: htdig, htmerge, htfuzzy, htnotify и htsearch. Поиск выполняет программа htsearch, программы htdig, htmerge, htfuzzy выполняют индексирование. Сначала программа htdig собирает информацию в локальной базе данных, а затем сопоставляет найденные Web-страницы с установленными вами критериями поиска. Программа htmerge использует информацию, предоставленную ей программой htdig, для создания поисковой базы данных. Программа htfuzzy создает индексы в базе данных, что позволяет использовать методы нечетко определенного поиска.

Довольно часто пользователи используют Web-страницы, которые вызывают программу htsearch для организации поиска. При этом программе htsearch передаются некоторые параметры: параметр поиска, конфигурация программы (config), метод поиска (method) и вид критерия (sort). При работе с этой программой можно использовать методы передачи данных GET и POST.

Для создания базы данных предназначен сценарий rundig.

Поделитесь на страничке

Следующая глава >

Похожие главы из других книг

Поисковый контекст

Из книги Блоги. Новая сфера влияния автора Попов Антон Валерьевич

Поисковый контекст В случае с запросами из нескольких слов «Яндекс» умеет определять, каким должно быть максимальное расстояние между словами, чтобы страница наиболее точно отвечала запросу. Вы можете задать расстояние явным образом.Слова идут подрядТакой порядок слов


Поисковый сервер «Яндекс»

Из книги Работа в Интернете автора Макарский Дмитрий

Поисковый сервер «Яндекс» Этот поисковик – один из старейших в русскоязычном сегменте Сети. «Яндекс» начал свою деятельность еще в 1997 году, когда Интернет только начал развиваться на постсоветском пространстве. Постепенно набирая обороты, «Яндекс» сегодня стал самым


Поисковый сервер Google

Из книги Asterisk™: будущее телефонии Второе издание автора Меггелен Джим Ван

Поисковый сервер Google Поисковик Google был основан двумя аспирантами Стэндфордского университета Лари Пейджем и Сергеем Брином, выходцем из бывшего СССР. В 1996 году они начали сотрудничать с поисковым сервером BackRub, который работал по принципу back links – «обратные ссылки». Эта


FTP-сервер

Из книги Сетевые средства Linux автора Смит Родерик В.

FTP-сервер В настоящее время мы предпочитаем использовать для конфигурации аппаратов Polycom протокол FTP (File Transfer Protocol - протокол передачи файлов)1. Мы бы рекомендовали выбрать его, а не TFTP и для устройств, которые могут работать с обоими протоколами. В системе CentOS при


Сервер INN

Из книги HTML 5, CSS 3 и Web 2.0. Разработка современных Web-сайтов. автора Дронов Владимир

Сервер INN Среди серверов новостей, предназначенных для выполнения в системе Linux, наиболее популярным является InterNetNews, или INN (http://www.isc.org/products/INN). Пакет INN состоит из нескольких программ, работающих совместно. Основная программа, innd, предназначена для обработки новых статей


Web-сервер

Из книги Яндекс для всех автора Абрамзон М. Г.

Web-сервер Когда мы тестировали нашу первую Web-страницу, то прекрасно обошлись без Web-сервера, открыв ее прямо в Web-обозревателе. Но в дальнейшем, особенно когда мы начнем реализовывать подгрузку содержимого, Web-сервер все-таки нам понадобится. Многие Web-сценарии нормально


1.2.3. Поисковый механизм

Из книги Linux: Полное руководство автора Колисниченко Денис Николаевич

1.2.3. Поисковый механизм Начиная выполнять поиск с помощью Яндекса, мы может в явном виде указать, в какой базе (коллекции документов, типе документов) следует выполнять поиск. Если мы не указываем этого, то на основе анализа запроса Яндекс самостоятельно делает допущение о


16.14. Сервер kHTTPd — веб-сервер уровня ядра

Из книги Цифровой журнал «Компьютерра» № 161 автора Журнал «Компьютерра»

16.14. Сервер kHTTPd — веб-сервер уровня ядра В операционной системе все процессы можно разделить на два типа: процессы уровня ядра и пользовательские процессы. Процесс уровня ядра запускается и работает очень быстро по сравнению с относительно неповоротливым


А вы заглянете в магазин Google? Для чего поисковый гигант планирует свою розничную сеть — и удастся ли повторить успех магазинов Apple? Евгений Золотов

Из книги Интернет-маркетинг на 100% автора Коллектив авторов

А вы заглянете в магазин Google? Для чего поисковый гигант планирует свою розничную сеть — и удастся ли повторить успех магазинов Apple? Евгений Золотов Опубликовано 19 февраля 2013 Корпорация Google собирается строить сеть собственных магазинов. Эта весточка, полученная из


2.3. Поисковый маркетинг[8]

Из книги Введение в QNX/Neutrino 2. Руководство по программированию приложений реального времени в QNX Realtime Platform автора Кёртен Роб

2.3. Поисковый маркетинг[8]


2.3.1. Что такое поисковый маркетинг?

Из книги Недокументированные и малоизвестные возможности Windows XP автора Клименко Роман Александрович

2.3.1. Что такое поисковый маркетинг? ИНТЕРНЕТ-ТРАФИК – ОСНОВА ИНТЕРНЕТ-РЕКЛАМЫСегодня в российском сегменте Интернета – 30 миллионов пользователей. Постепенно Интернет становится для российского населения таким же обыденным каналом получения информации, как и


2.3.2. Когда и как используется поисковый маркетинг

Из книги Программирование для Linux. Профессиональный подход автора Митчелл Марк

2.3.2. Когда и как используется поисковый маркетинг СПРОС И ИНСТРУМЕНТЫ ОПРЕДЕЛЕНИЯ СПРОСАЯ часто отвечаю на вопрос, можно ли использовать поисковый маркетинг и его инструментарий для вывода нового продукта в Интернет.Пример: «У меня новый автомобиль и марка новая ему


Сервер

Из книги UNIX: разработка сетевых приложений автора Стивенс Уильям Ричард

Сервер Теперь, когда мы рассмотрели клиента, перейдем к серверу. Клиент использовал функцию ConnectAttach() для создания соединения с сервером, а затем использовал функцию MsgSend() для передачи сообщений.Создание каналаПод этим подразумевается, что сервер должен создать канал —


Сервер

Из книги автора

Сервер С помощью данной службы обеспечивается общий доступ к файлам, принтерам и именованным каналам данного компьютера. Иными словами, если данная служба будет отключена, то на компьютере нельзя будет создавать общедоступные ресурсы, а сетевые компьютеры не смогут


6.11. Эхо-сервер TCP (еще раз)

Из книги автора

6.11. Эхо-сервер TCP (еще раз) Теперь мы изменим наш эхо-сервер TCP из раздела 6.8, используя вместо функции select функцию poll. В предыдущей версии сервера, работая с функцией select, мы должны были выделять массив client вместе с набором дескрипторов rset (см. рис. 6.12). С помощью функции poll мы