Глава 10 Поиск для Web 3.0

Глава 10

Поиск для Web 3.0

Технологии «семантического веба» – главного претендента на роль следующего поколения развития. Сети, которое уже окрестили Web 3.0, неторопливо, но верно обосновываются на все большем количестве интернет-сервисов. Появление новых проектов связано с актуальной и серьезной проблемой извлечения полезной информации из огромного объема представленных в современной. Сети данных. Сбор, обработка и сведение воедино данных из множества источников остается весьма трудоемким занятием, которое было бы весьма заманчиво переложить на плечи компьютеров. Однако интернет в его современном состоянии не самым лучшим образом приспособлен для решения этой задачи. Причины этого довольно глубоки, можно сказать, концептуальны. При всем своем многообразии подавляющее большинство современных веб-проектов объединяет то, что они ориентированы исключительно на человеческое восприятие. Под это понятное и естественное требование изначально подгонялись форма и технологии создания веб-ресурсов. В конце концов, их же должен просматривать Homo Sapiens, который способен самостоятельно выделить смысл содержимого страницы.

Проанализировать смысл такой веб-страницы в автоматическом режиме – сложная задача. Что скрывается за текстом веб-страницы – ценные сведения и выводы, сделанные знатоками темы, просто бесполезная в данный момент информация или откровенная ерунда, компьютеру не ведомо. Попытка преодолеть данный семантический барьер «в лоб», на базе технологий современной сети, требует приложений, приближенных по уровню к искусственному интеллекту, что отодвигает их перспективы в неясное будущее, по крайней мере, для обычных пользователей Сети.

На этом этапе и возникает идея «семантического веба», позволяющая решить названные проблемы и во многом изменить само представление о способах работы в интернете. Она была сформулирована известнейшим специалистом. Тимом. Бернесом-Ли почти два десятка лет тому назад. Кратко ее можно изложить так: «Если создание программ, способных автоматически обрабатывать сведения из интернета, является слишком сложной задачей, то имеет смысл создать надстройку к. Сети в виде технологий, приводящих сетевую информацию в дружественный для программ-агентов вид». На основе соответствующей разметки сетевых документов, которая будет отражать смысл опубликованных данных, такие программы смогут самостоятельно собирать разрозненную информацию, сопоставлять данные, принимать решение об их достоверности и даже делать некоторые логические выводы, предоставляя на выходе пользователю готовый информационный продукт.

Сильной стороной семантического веба должен стать учет не только прямого содержания опубликованных в Сети документов, но и контекста использования информации. Различные фрагменты веб-страниц могут быть полезны при решении различных задач, надо только скомбинировать имеющиеся данные нужным образом.

Комплекс технологий, необходимых для реализации семантического веба, часто представляют в виде схемы, напоминающей слоеный пирог. Ключевые элементы данного пирога: универсальные идентификаторы ресурсов (Universal Resource Identifier, URI), основанные на XML языки семантической разметки сетевых документов и язык онтологий, позволяющий устанавливать связи и отношения между объектами. Важную роль в семантическом вебе играют технологии проверки достоверности найденных программами-агентами данных. Результатом развития таких технологий должна стать возможность простой автоматической проверки степени достоверности отдельных положений. Тим. Бернес-Ли в шутку назвал такой идеальный инструмент кнопкой «Да ну?», после щелчка на которой должен появиться либо перечень заслуживающих доверия положений, либо сообщение об ошибке (куда же без него?), говорящее о неправильной записи или о том, что системе не удалось найти в документе ничего, заслуживающего доверия.

Развитием семантических технологий в настоящее время достаточно активно занимается организация World Wide Web Consortium. Среди успехов отметим стандартизацию двух ключевых технологий: формата семантических данных (RDF) и языка веб-онтологий OWL.

Семантические технологии изящны в теории, однако воспринимать их как действительно перспективное и серьезное направление развития. Сети ранее мешало два обстоятельства. Первое – сдержанное поначалу восприятие новых технологий действительно крупными универсальными интернет-поисковиками, что сказывалось на популярности семантический разметки контента разработчиками веб-ресурсов, поскольку внедрение семантической разметки не несло каких-либо немедленных дивидендов. Второе – недостаток простых в использовании и полезных в повседневной работе приложений, способных стать популярными не только среди фанатов, но и в широких кругах пользователей. Сейчас можно наблюдать серьезные подвижки в обоих направлениях.

Отрадно, что такая тенденция не прошла мимо. Рунета. Поисковая система. Яндекс не так давно научилась работать с данными в семантических форматах. Правда, их поддержка пока ограничивается только поиском в блогах. Для индексации профилей и выявления социальных связей используется формат FOAF. Более того, Яндекс разработал собственное расширение FOAF, позволяющее точнее описывать персональные данные пользователей своих социальных сервисов. Добавлять FOAF-разметку к веб-страницам предлагают самим пользователям блогов. Конкретные рекомендации можно найти в справке по прикладному программному интерфейсу (API) поиска в блогах Яндекса.

Постепенный рост объема данных в семантических форматах выявил потребность в своеобразных «точках доступа» – сервисах, аккумулирующих сведения о свободно доступных данных в семантических форматах, к которым могли бы обращаться как приложения-агенты, так и пользователи-люди. В «обычном» вебе эту роль играют поисковые системы и каталоги. Аналогичным путем пошла эволюция и в современном семантическом вебе. Такие поисковые системы иногда даже называют «семантическими приложениями второго поколения». Этим подчеркивается значительное улучшение удобства работы с информацией в новых форматах, в том числе для широких кругов пользователей. Данная глава посвящена лучшим и наиболее показательным представителям семейства поисковиков для семантического веба.

Требования к представленным в этой главе поисковым машинам были следующие. Все предлагаемые сервисы должны быть общедоступными. Поисковики обязательно должны были уметь работать с документами в основных форматах семантического веба. Поскольку такие ресурсы претендуют на роль универсальных точек доступа к семантическим данным, поисковики должны обладать удобным пользовательским интерфейсом, предназначенным для пользователя-человека, а также предусматривать возможность подключения к поисковику внешних приложений – программ-агентов, ориентированных на автоматические сбор и систематизацию данных.

Семантическая разметка веб-документов предлагает широкие возможности по составлению сложных запросов, во многом отличающиеся от привычных опций «обычных» интернет-поисковиков. Эффективные поисковики должны обладать соответствующими инструментами составления сложных запросов, а также различными вспомогательными средствами последующего уточнения запросов и фильтрации результатов.

Данный текст является ознакомительным фрагментом.