Подписки на новую информацию, появляющуюся в поисковых машинах, без использования RSS-агрегаторов
Подписки на новую информацию, появляющуюся в поисковых машинах, без использования RSS-агрегаторов
В первую очередь речь идет о подписке на так называемые новости Яндекса по поисковому запросу. Это не новости в их обычном понимании – как последние события, происшедшие в мире. К новостям Яндекса относятся те новые ресурсы, которые недавно проиндексированы Яндексом. Реальный срок публикации этих документов в Интернете может быть достаточно давним, однако для Яндекса они считаются новинками и поэтому попадают в новости Яндекса.
От Яндекс. Ленты эта услуга отличается тем, что новости приходят по электронной почте в виде гиперссылки на документ и небольшого фрагмента текста документа, тогда для чтения Ленты пользователь должен переходить на ее сайт.
Блоггеру или веб-администратору, который ищет новый контент или новые идеи, появляющиеся в Сети, надо иметь возможность своевременно и точно отслеживать изменения на нужной интернет-страничке. Каждый может себе представить, насколько сложная, а чаще всего и вовсе не осуществимая задача встает в таком случае перед специалистом. Вряд ли даже самый внимательный и скрупулезный человек в состоянии быстро и точно оценить изменения в тексте, занимающем несколько страниц.
Для решения этой проблемы несколькими компаниями разработано специальное программное обеспечение – так называемые сторожевые роботы. Это программы, которые, посетив страницу в первый раз, сохраняют ее образ в своей базе данных, а при повторном посещении сравнивают актуальное состояние страницы с этим образом. Если изменения выявлены, программа отмечает изменившиеся места (они становятся похожи на выделенные маркером на бумажном носителе фрагменты текста). Более того – те фрагменты, которые из текста удалены, также обозначаются во многих программах этого класса – как правило, внизу страницы, дабы не мешать восприятию пользователем информации. Подобные программы могут запускаться пользователем вручную, а могут и работать автоматически, по расписанию.
Их главный недостаток заключается в том, что они платные. Правда, стоимость их в момент написания книги колебалась в пределах 20–40 долларов США и повторная оплата не требовалась, поэтому, на наш взгляд, человеку, который вступил в информационную войну и нацелен на победу в ней, вполне по силам заплатить такую сумму, чтобы сэкономить свое время и повысить качество своего блога или сайта – ведь от этого зависит победа в информационном противостоянии в Интернете.
Давайте рассмотрим эти программы более подробно.
Сторожевой робот WebSite-Watcher. Программа выпущена в Германии, ее официальный сайт www.aignes.com Стоимость продукта составляет около 40 долларов США за индивидуальную лицензию. Кроме того, пользователю дается тридцатидневная полнофункциональная версия, чтобы он успел удостовериться в нужности этого программного обеспечения. Заплатить за WebSite-Watcher требуется лишь один раз, после чего все обновления становятся доступны бесплатно и на неограниченный срок.
Интерфейс программы поддерживает русский и украинский языки, однако раздел «Помощь» до выхода в свет версии 4.06 был написан на английском. После появления версии 4.06 на сайте программы по адресу: www.aignes.com/wswtrans.htm стал доступен exe-файл (wswhelp_russian.exe), который присоединяет к WebSite-Watcher справочную информацию на русском языке. Работа с русским языком не вызывает у программы никаких проблем, она довольно часто обновляется. Так, на момент написания книги была доступна версия 4.33. Программа работает со всеми версиями Windows – начиная с Windows’95 и заканчивая Vista.
WebSite-Watcher работает как клиент на компьютере пользователя. Это значит, что все закладки и конфигурации хранятся локально на жестком диске компьютера и сервер производителя не участвует в процессе поиска.
Ниже перечислено, что именно может проверять программа (приводится по данным производителя).
1. Любые веб-страницы с текстовым содержанием, независимо от расширения файла. То есть статичные страницы (страницы с расширением файла. htm или. html) и динамичные (с расширением файла. asp, php, и т. д.). WebSite-Watcher также выделит цветом все изменения в тексте.
2. RSS/Atom feeds: RSS/Atom преобразовываются в читаемый html-формат и могут обрабатываться как обычные веб-страницы.
3. Страницы, защищенные паролем, – для защищенных паролем страниц вы можете записать макрокоманду, после автоматического выполнения которой страница будет проверена на обновление.
4. Форумы, которые обрабатываются как обычные страницы с небольшой оптимизацией, например, специальной технологией подсветки изменений.
5. Страницы с Javascript – для страниц, содержание которых отображается с Javascript, WebSite-Watcher поддерживает отдельную и более сложную технологию преобразования динамически сгенерированного содержания страницы в статичное содержание.
6. Изображения – если вы отслеживаете изображение, WebSite-Watcher способен обнаружить обновление этого изображения. Изменения в изображении не подсвечиваются.
7. Двоичные (бинарные) файлы – WebSite-Watcher может обнаруживать обновление двоичных файлов (например, файлы zip или exe) сравнением даты файла, размера файла и/или части его содержания (двоичные файлы не будут полностью загружаться при проверке на обновление).
8. Файлы PDF и Flash – файлы PDF и Flash-анимации обрабатываются как двоичные файлы. WebSite-Watcher не подсвечивает изменения в их содержании.
9. FTP-файлы и каталоги – WebSite-Watcher поддерживает отсле живание FTP-файлов и каталогов. FTP-файлы могут проверяться по дате/размеру файла или по содержанию.
10. Интранет – все страницы в сети Интранет могут быть проверены подобно обычным веб-страницам.
11. Локально хранящиеся файлы – WebSite-Watcher может отслеживать любой файл на вашем жестком диске.
После того как WebSite-Watcher установлен и запущен на компьютере, в правом верхнем углу всех наиболее распространенных браузеров (в частности, Internet Explorer, Mozilla Firefox, Opera) появляется значок программы, представляющий собой стилизованный глаз. Вы увидите его в правом верхнем углу браузера левее кнопки, которая позволяет свернуть открытое окно.
Добавление закладки в перечень закладок может производиться двумя способами.
Способ 1. Непосредственно из браузера. Так можно добавить к закладкам ту страницу, которая в настоящий момент загружена в браузере. При нажатии хоть правой, хоть левой кнопкой мыши на значок «WebSite-Watcher» в правом верхнем углу браузера появляется всплывающее меню, первый пункт которого – «Добавить в закладки» (рис. 29).
Рис. 29. Добавление страницы в закладки сторожевого робота WebSite-Watcher.
После того как выбирается этот пункт, появляется окно, в котором URL страницы уже автоматически внесен в соответствующее поле. Пользователю остается только ввести вручную имя страницы (это имя не имеет никакого значения для компьютера, а служит только для того, чтобы пользователь смог определить, для чего нужна та или иная закладка, и поэтому может назначаться произвольно). Начиная с версии 4.10 можно обойтись даже без ручного ввода названия страницы, поскольку программа может автоматически брать это название на самой странице.
ВНИМАНИЕ! После того как URL страницы и имя закладки внесены в это окно, требуется нажать клавишу «ПРОВЕРИТЬ!», а не кнопку «ОК». В этом случае WebSite-Watcher отправится на страницу и сохранит в своем архиве ее образ, с которым и будет при следующем посещении страницы проводить сравнение. В главном окне программы WebSite-Watcher после этого напротив имени закладки появится надпись «ОК, инициализировано».
Если же пользователь выберет кнопку «ОК» вместо кнопки «ПРОВЕРИТЬ!», то WebSite-Watcher сохранит закладку в меню, однако не будет посещать страницу, и соответственно не будет и сохранять в архиве ее копию.
Способ 2. Из главного меню программы WebSite-Watcher. Для этого надо открыть окно добавления новой закладки, щелкнув либо по второй слева кнопке на верхней панели программы (она называется «Мастер» и выглядит как жезл с икрящимся наконечником), либо по третьей слева кнопке в той же панели (она называется «Новая закладка» и выглядит как лист бумаги с размещенным на нем знаком «плюс»). Нажатие кнопки «Мастер» предпочтительно, когда проверяемая страница защищена паролем, поскольку там предусмотрен макрос, позволяющий вводить этот пароль автоматически. В остальных случаях мы предпочитаем кнопку «Добавить закладку».
Программа WebSite-Watcher позволяет проверять изменения на странице как вручную, так и автоматически.
Очень легко организовать новые папки и подпапки для систематизации закладок. Причем папки можно перемещать в новые места, просто перетаскивая их мышью.
Кроме того, в программе предусмотрены фильтры, которые позволяют исключать из проверки определенные строки (например, постоянно меняющееся время или дату в углу страницы либо афоризм, который некоторые оптимизаторы сайтов любят постоянно менять на странице). Использование фильтров позволяет исключать неинформативные сообщения о наличии изменений на странице.
Архивирование страницы непосредственно в программе WebSite-Watcher не предусмотрено, однако производитель вместе с ней поставляет бесплатную программу Local WebSite Archive, которая как раз и создает архивную копию странички Интернета. При этом Local WebSite Archive может запускаться из того же меню, встроенного в браузер, что и WebSite-Watcher.
Подробное описание этих и других возможностей программы WebSite-Watcher приведено в разделе «Помощь» этой программы, поэтому мы не будем останавливаться на них более детально.
Программа Check&Get. Это отечественный продукт. Преимуществом российского происхождения программы является не только корректная поддержка русского языка, но и возможность ее приобретения за российские рубли, а также доступность создателя программы, если к нему появляются вопросы. Причем техническая поддержка при этом также русскоязычная, в отличие от программ-конкурентов.
Мы подтверждаем, что Дмитрий Скорняков (press@activeurls. com) – человек, который создал и поддерживает программу Check& Get, действительно всегда готов помочь разобраться с проблемой, если таковая возникает. Так, одному из авторов этой книги пришлось столкнуться с ситуацией, когда ни одна из приведенных здесь программ не смогла отследить изменения на сайте некоего российского университета. Попытавшись понять причины этой проблемы, в бессилии расписались как создатели и администраторы проблемного сайта, так и служба технической поддержки WebSite-Watcher. И только Дмитрий Скорняков внимательно изучил проблемный сайт, разобрался в причинах возникшей ситуации и дал рекомендации, которые позволили устранить проблему. На наш взгляд, это немаловажное обстоятельство, говорящее в пользу программы Check&Get.
Скачать программу можно по адресу: www.activeurls.com/ru/download.php
Вот что говорит о возможностях программы сам ее создатель:
При обнаружении на веб-странице новой информации, Check&Get автоматически сохраняет «снимок» этой страницы в локальную базу данных и информирует Вас указанным Вами способом. Check&Get может послать Вам сообщение электронной почты с содержанием измененной веб-страницы, при этом изменения на странице будут «подсвечены» для их легкой идентификации. Также программа может вывести сообщение на экран или проиграть звуковой файл, информируя Вас об изменениях.
Check&Get автоматически извлекает названия и описания веб-страниц при создании закладки, проверяет Вашу коллекцию на наличие «мертвых» ссылок, находит дублирующиеся ссылки в Вашей коллекции закладок. Check&Get работает с Internet Explorer, Netscape, Mozilla, Opera, позволяя Вам импортировать, экспортировать и синхронизовать закладки. Благодаря этому Вы всегда имеете в выбранном браузере актуальную и организованную коллекцию ссылок.
Список ссылок также может быть импортирован и добавлен к Вашим закладкам из буфера обмена Windows, окна браузера, HTML-файла или офисного документа.
В дополнение ко всему, Check&Get позволяет конвертировать Вашу коллекцию закладок в файл HTML с легкой и удобной навигацией. Это дает Вам возможность опубликовать свои закладки на веб-сайте или создать в Интернет свой мини-портал буквально за пару минут.
На наш взгляд, способность программы импортировать все закладки или их часть в HTML-файл – интересная находка автора. В ряде случаев эта функция открывает очень полезные возможности. Такой файл может быть использован на сайте как страница с работающими гиперссылками. Причем если его обработать в любом редакторе HTML-файлов, например, в Frontpage или в Dreamweaver, то можно снабдить первоначальный документ необходимыми текстовыми пояснениями или иллюстрациями.
Кроме того, программа Check&Get позволяет одним кликом мыши извлечь все гиперссылки, которые есть на странице.
Полезна и функция удаления «мертвых» и дублирующихся ссылок.
Стоимость программы для частного лица на момент написания книги составляла 580 рублей.
Существует 30-дневная ознакомительная версия программы.[63]
Сторожевые роботы для больших массивов информации. Программы, о которых мы говорили выше, отлично зарекомендовали себя при мониторинге до 500 закладок ежедневно. При большем количестве закладок, как правило, возникают проблемы, связанные с тем, что занесение результатов мониторинга в базу данных делается вручную, чаще всего путем копирования материалов в текстовые файлы – ведь у сторожевых роботов нет собственной базы данных – они лишь показывают изменения по сравнению с предыдущим посещением сайта. При большом объеме работы это становится очень трудоемким занятием. А крупным компаниям и в «мирное» время, и во время информационной войны в Интернете приходится отслеживать значительное количество интернет-источников.
Для таких случаев существует целая линейка программ «Аваланч» (Avalanche),[64] созданных российским специалистом Андреем Масаловичем, который по праву считается одним из лучших в мире специалистом по созданию аналитического программного обеспечения, а «Аваланч» имеет несколько патентов в разных странах.
В отличие от программ WebSite-Watcher и Check&Get, «Аваланч» умеет не только показывать изменения на сайтах, но и сохраняет эти изменения в собственную базу данных, которая может просматриваться непосредственно в программе «Аваланч», а может быть импортирована в Microsoft Access.
Работа с «Аваланчем» выглядит следующим образом. Сначала настраивается собственный паук программы, которому «объясняют», на какие сайты ему надо ходить за информацией. Он может посещать как отдельные разделы сайтов, так и страницы поисковых машин по запросу (например, если на мониторинг поставлена первая страница Гугла по интересующему вас поисковому запросу). Затем настраиваются так называемые умные папки, которые из массива принесенной пауком информации выбирают ту, что относится к определенной теме, и забирают эту информацию к себе. Таким образом, «умные папки» автоматизируют процесс сортировки собранной информации. Эта рассортированная информация хранится в базе данных «Аваланча» и доступна для работы в любой момент.
Более сложные версии «Аваланча», помимо описанной работы, способны к обучению. В простом варианте тексты собираются в Интернете и затем сортируются в программе по прямо указанным ключевым словам. В более сложных версиях они выбираются и сортируются в контексте поставленной задачи, даже если ключевых слов на странице не содержится. Например, если некоторое время вручную помещать материалы, не содержащие ключевых слов, в «умные папки», то со временем, анализируя самостоятельно каждый раз эти тексты, «умные папки» смогут сами распознавать, какие материалы владелец хочет видеть в данной рубрике. Наиболее продвинутые версии «Аваланча» умеют маскироваться под обычный браузер, не давая таким образом объекту возможности вообще понять, что его мониторят «Аваланчем», а также умеют пользоваться анонимайзерами, скрывающими истинный IP-адрес. Объект изучения пребывает в таком случае в уверенности, что к нему заходил обычный посетитель и не распознает город или страну, откуда вы на самом деле посещали его сайт.
Работа самой продвинутой версии «Аваланча», с точки зрения пользователя, выглядит так. Рано утром «просыпается» паук и идет собирать материал. Когда он заканчивает работу, «просыпаются» «умные папки», анализируют собранное и раскладывают по тематическим рубрикам. Затем на компьютере пользователя создается автоматически локальный сайт, который показывает на экране компьютера руководителя все новые сообщения, рассортированные по рубрикам, а также предоставляет возможность сделать запрос к базе данных и посмотреть архив, оценить ситуацию в динамике.
Существует также версия «Аваланча», которая собирает не только изменения, но всю информацию по теме, даже если она повторяется. В ряде случаев пользователям бывает нужна именно такая функция.
Но самая простая и недорогая версия «Аваланча» похожа на WebSite-Watcher, дополненный автоматической сортировкой найденных материалов и базой данных, позволяющей их хранить и анализировать. На наш взгляд, «Аваланч» – возможно, лучшее решение на сегодня для автоматического мониторинга и анализа больших массивов информации в Интернете.
Данный текст является ознакомительным фрагментом.