1.6. Поиск информации
1.6. Поиск информации
Не вызывает сомнений необходимость автоматизации поиска заданных текстовых фрагментов в текстах на естественном языке.
Однако часто даже при поиске информации другого рода (например, аудио- и видео-) работа на самом деле ведется с описаниями на естественном языке (например, для организации поиска фотографий необходимо снабдить каждую из них набором словесных характеристик типа "портрет, профиль, полный рост, женщина", "пейзаж, лес, осень" и т.п.).
В последних разработках классических систем поиска текста основное внимание уделяется дополнению их разнообразными средствами текстовой обработки, что приводит к расширению возможностей и облегчению работы для пользователя-непрофессионала.
Применение компьютеров не только ускоряет создание и обработку документов, но и чрезвычайно стимулирует рост их количества и объема. Очень многие пользователи регулярно сталкиваются с необходимостью быстро просматривать большой объем документов и выбирать из них действительно нужные. Эта задача возникает при работе с текстовыми базами данных, с электронной почтой, при поиске в Интернете. Сократить количество просматриваемых документов могут помочь системы категоризации. Большой поток входных документов эти системы распределяют по небольшому количеству классов. При категоризации могут учитываться как чисто внешние показатели документов (объем, расширение имени соответствующего файла и т.п.), так и их содержательные характеристики (название, фамилия автора, ключевые слова), которые могут позволить отнести текст к той или иной тематической рубрике. В последнем случае мы имеем дело с рубрицированием текстов.
Часто бывает, что в крупных организациях, особенно государственных, правила делопроизводства предписывают сопровождать каждый документ кратким описанием или набором ключевых слов. Во всех указанных случаях была бы весьма полезна возможность автоматически составлять сжатые описания содержания документов - рефераты.
К сожалению, автоматические методы не настолько совершенны, чтобы создать полноценный реферат путем генерации предложений текста. Однако уже сейчас возможно автоматическое реферирование - составление более или менее информативных и связных рефератов заданного объема (квазирефератов) - путем выбора информативных предложений из исходного текста, а также выделение достаточно представительного списка ключевых слов.
В качестве ключевых слов система может выбирать слова, наиболее часто встречающиеся в тексте (и являющиеся при этом информативными, т.е. не предлоги, союзы и проч.), либо использовать для отбора какие-либо синтактико-семантические признаки (из фрагмента: "Определение. Интегралом ... называется ..." можно заключить, что интеграл - ключевое слово).
При реферировании из текста отбираются предложения, в наибольшей степени характеризующие его содержание. Таковыми могут считаться, например, предложения, содержащие ключевые слова (чем больше, тем лучше), либо отобранные по некоторым особым признакам. Размер реферата (коэффициент сжатия) или количество ключевых слов задается пользователем. Результатом работы такой системы может являться некоторый новый текстовый документ (реферат или набор ключевых слов) или же данный документ, в котором ключевые слова или наиболее информативные предложения выделены по тексту.
В главе 4 мы рассмотрим проблемы информационного поиска подробнее.
Более 800 000 книг и аудиокниг! 📚
Получи 2 месяца Литрес Подписки в подарок и наслаждайся неограниченным чтением
ПОЛУЧИТЬ ПОДАРОКЧитайте также
11.3.1. Поиск информации inode
11.3.1. Поиск информации inode В начале этой главы информационный узел файла (inode) был представлен как структура данных, которая отслеживает информацию о файле, независимо от представления ее для процесса. Например, размер файла является константой в любой момент времени — он
Поиск информации в Интернете
Поиск информации в Интернете Посещая Интернет, вы будете регулярно обращаться к функции поиска, чтобы найти сайты интересующей вас тематики. В Internet Explorer 7 эта процедура значительно упрощена по сравнению с предыдущими версиями благодаря встроенной строке поиска.
Глава 4 Поиск информации
Глава 4 Поиск информации – Поисковые системы.– Каталоги.– Помощь пользователей Интернета в поискеТрое из четырех пользователей, отвечая на вопрос: «Для чего вы используете Интернет?», называют поиск информации. И это не мудрено – в Сети, без преувеличения, есть
5 Поиск информации
5 Поиск информации Способность оперативно найти нужную информацию является залогом успеха современного человека. В самом деле, извечное стремление человечества к коллекционированию и накоплению привело к тому, что сейчас в Интернете (да и в любой большой организации со
Глава 10 Поиск информации в Интернете
Глава 10 Поиск информации в Интернете • Поиск в Интернете: общие понятия• Виртуальные библиотеки• Форматы электронных книг• Поиск рефератов• Поиск в библиотекахДля многих людей на сегодняшний день Интернет стал обязательным источником информации. Если раньше при
Поиск информации в Интернете
Поиск информации в Интернете Не поленитесь и перечитайте эпиграф к этой главе. Действительно, в Интернете есть если не все, то очень многое. Но без привычки найти нужную информацию очень сложно. Хотя в Internet Explorer версии 7 эта процедура значительно упрощена по сравнению с
Поиск информации
Поиск информации Исторически сложилось так, что в UNIX-системах преобладают текстовые, а не бинарные форматы, для редактирования которых достаточно приложения вроде Блокнота Windows. Здесь даже в офисных пакетах традиционно используется XML-подобный формат. При поиске
1.5. Поиск дополнительной информации
1.5. Поиск дополнительной информации В каждый дистрибутив Linux входит масса полезной документации. В ней можно прочесть почти все из того, о чем говорится в этой книге (хотя это, очевидно, займет больше времени). Документация не всегда хорошо организована, поэтому поиск
Поиск информации
Поиск информации Интернет – это безбрежный океан информации. Чтобы не потеряться в нем, придуманы поисковые системы (поисковики). Самые популярные из них:• www.google.ru;• www.yahoo.ru;• www.rambler.ru;• www.yandex.ru.Работают все эти программы по одному принципу. Поэтому рассмотрим для
Глава 9 Поиск информации в Интернете
Глава 9 Поиск информации в Интернете Для очень многих людей Интернет стал на сегодняшний день обязательным источником информации. Если раньше при написании работы, да и просто при необходимости что-то узнать, пользовались справочниками, каталогами, книгами и журналами,
Глава 2 Поиск информации в Интернете
Глава 2 Поиск информации в Интернете Любая область человеческой деятельности в том или ином виде нашла свое отражение в Интернете. Важнейшая задача — уметь быстро найти то, что интересует именно вас. Сейчас проводятся международные соревнования по поиску информации.
Поиск информации на сайте
Поиск информации на сайте Результаты поиска — это, как правило, большой список страниц, на которых, вероятно, присутствует искомая информация. Найти эту информацию уже на самом сайте — иногда задача не очень простая. Для поиска информации на сайте можно воспользоваться
10.2. Поиск информации в Интернете
10.2. Поиск информации в Интернете 10.2.1. Поисковые машины Интернет содержит огромное количество информации. Ведь в Интернете создать сайт может любой желающий, поэтому количество новых сайтов растет с каждым днем. Для поиска в Интернете используются поисковые
2.5. Осуществляем поиск нужной информации
2.5. Осуществляем поиск нужной информации Для выполнения заданий нам понадобится материал, представленный в разд. 1.4.2. Скопируйте с диска, прилагаемого к этой книге, на свой компьютер все папки кроме macos.Задание № 1На прилагаемом диске найти файлы, созданные с I августа по 17
Поиск информации в справочной системе
Поиск информации в справочной системе Как отмечалось ранее, Windows Vista имеет мощные встроенные возможности поиска, которые она позволяет использовать и в справочной системе. Просто введите в строку поиска ключевые слова темы, по которой вам нужна справка, и после нажатия
Поиск информации о статусе сертификатов
Поиск информации о статусе сертификатов Во время работы в системе PKI пользователям приходится идентифицировать других пользователей и использовать их сертификаты. Большинство организаций хранят сертификаты в общедоступном каталоге, в репозитории. Пользователи