2. Лингвистическое обеспечение систем автоматической обработки текстов
2. Лингвистическое обеспечение систем автоматической обработки текстов
Один из главных путей развития функциональных возможностей прикладных АОТ-систем и повышения качества их работы - создание и внедрение более полных и точных моделей естественных языков, более совершенных алгоритмов анализа и синтеза текста. В данной главе мы рассмотрим некоторые проблемы построения, формализации и компьютерной реализации моделей естественного языка на примере русской морфологии (словоизменения).
2.1. Лингвистические банки данных
Под лингвистическими банками данных (ЛБД) понимаются представленные в электронной форме языковые источники (корпусы текстов) и лингвистические описания. Отметим, что в наше время, в ситуации, когда надежность работы систем оптического распознавания близка (на хороших по качеству печатных текстах) к 100%, в электронную форму легко переводимы и традиционные источники информации о языке. Поэтому можно считать, что в ЛБД можно перевести любые полиграфические источники: тексты на том или ином естественном языке, словари, справочники, книги по лингвистике. Спектр ЛБД достаточно широк: это как необработанные ("сырые") корпусы текстов, так и тексты с некоторыми добавлениями, например грамматическими характеристиками слов, стилистическими пометами (разговорное, специальное и т.п.), или описаниями синтаксической структуры предложений. Сюда также входят разнообразные компьютерные словари: частотные, грамматические, словоформ, тезаурусы, словари словосочетаний и моделей управления, своды грамматических правил и т.п.
Различаться может и назначение лингвистических банков данных. Часть ЛБД предназначена для автоматизации деятельности лингвистов и разработчиков прикладных систем, часть - для непосредственного использования в системах обработки текста и речи: автокорректорах, системах распознавания текста и речи, информационно-поисковых системах.
Отметим, что в качестве пользователя ЛБД может выступать как человек (исследователь-лингвист или разработчик программного продукта), так и тот или иной модуль компьютерной системы обработки текстов. В двух этих случаях требования к организации лингвистических банков данных и к степени эксплицитности, строгости и формальности представленных в них описаний естественного языка разнятся весьма существенно.
Ситуация здесь несимметричная. Пользователь-человек часто может извлечь интересующую его информацию из ЛБД, встроенного в компьютерную систему обработки текстов. Однако компьютерная система обычно не может извлечь нужную для ее работы информацию непосредственно из ЛБД, ориентированного на человека. Особенно остра эта проблема для флективных языков, в частности, для русского языка.
Так, во всех распространенных русскоязычных словарях (толковых, орфографических, словарях синонимов и антонимов и др.) входом в словарную статью служит так называемая начальная форма слова. Поскольку словари ориентированы на пользователя-человека, по умолчанию предполагается, что он знает правила русского словоизменения (склонения и спряжения) и может распознать в тексте любую форму интересующего его слова, т.е., восстановив начальную форму, добраться до соответствующей словарной статьи. Предполагается также, что он может решить и обратную задачу - употребить слово из словаря в требуемой грамматической форме.
При использовании словарей в составе компьютерных систем обработки текстов ситуация иная. Самоочевидные для человека грамматические свойства слова, определяющие особенности его склонения/спряжения, должны быть тем или иным способом явно представлены в компьютерном словаре и в программах морфологического анализа и синтеза, позволяющих определять грамматические признаки словоформ текста и генерировать слова в требуемой форме.
Как распределить знания о чрезвычайно сложных и запутанных правилах русского словоизменения между словарями и программными компонентами?
Здесь возможны два решения:
в словаре описываются только словоизменительные признаки слов (тип и частные особенности склонения/спряжения), а работа по анализу и синтезу словоформ “поручается” программам морфологического компонента компьютерных систем;
в словаре приводятся все формы слов, каждой из которых сопоставлены все необходимые признаки (в частности, грамматические: число, падеж, лицо, время, наклонение и др.).В целом, задача построения и сопровождения лингвистически полного, обоснованного и покрывающего представительное подмножество выбранного естественного языка ЛБД, особенно в случае пользователя-программы, очень сложна. Ее решение требует привлечения квалифицированных специалистов в области лингвистики и инженерии знаний, создания необходимой инфраструктуры, серьезной финансовой и организационной поддержки (часто - на государственном уровне).
Более 800 000 книг и аудиокниг! 📚
Получи 2 месяца Литрес Подписки в подарок и наслаждайся неограниченным чтением
ПОЛУЧИТЬ ПОДАРОКЧитайте также
Команды обработки текстов: введение
Команды обработки текстов: введение Только что речь шла о командах, которые манипулируют файлами как целыми, не затрагивая их содержания (и, в общем случае, от такового не зависящих). Ныне же речь пойдет о командах, создающих и изменяющих внутреннее содержание файлов,
Настройка Windows-клиента для автоматической коррекции системного времени
Настройка Windows-клиента для автоматической коррекции системного времени Для того чтобы установить текущее время на клиентской машине под управлением Windows, надо выполнить следующую команду:С:> NET TIMESERVER /SET /YESВ данном случае SERVER — это NetBIOS-имя сервера Samba. Как и при
7.5.1. Установка из исходных текстов
7.5.1. Установка из исходных текстов Бесплатное распространение исходных текстов программ — именно то, что делает Linux уникальной операционной системой и составляет одно из Величайших Достижений Человечества. Поэтому традиционный способ распространения приложений под
1. Сферы применения систем автоматической обработки текстов
1. Сферы применения систем автоматической обработки текстов Системы автоматической обработки текста (т.е. переработки одного вида текста в памяти ЭВМ в другой) по выполняемым функциям (входной и выходной информации) можно классифицировать следующим образом:Язык
Основные отличия текстов для поисковых систем и для людей
Основные отличия текстов для поисковых систем и для людей Не секрет, что тексты, написанные для посетителей и оптимизированные под поисковые системы, сильно отличаются.Так, создаваемые для людей статьи должны быть понятны и просты в своем изложении, при этом их должно
Набор отсканированных текстов
Набор отсканированных текстов Сплошь и рядом на сайтах, посвященных трудоустройству, а также на досках бесплатных объявлений можно встретить объявления о наборе удаленных сотрудников для набора отсканированного текста. При этом «работодатель» красочно описывает
Перевод текстов
Перевод текстов Как мы уже отмечали ранее, удаленные переводчики также являются потенциальными жертвами мошенников. При этом схема обмана может выглядеть примерно так, как и в ситуации с набором текстов. Ниже мы приводим конкретный пример объявления, которое дали
1.25. Указание определенной библиотеки для автоматической компоновки с исходным файлом
1.25. Указание определенной библиотеки для автоматической компоновки с исходным файлом ПроблемаВы написали библиотеку, которую хотите распространять в виде набора заголовочных файлов и готовых статических или динамических библиотек, но не хотите, чтобы пользователи
3.4. Конфигурирование ограничений автоматической компоновки в конструкторе интерфейсов
3.4. Конфигурирование ограничений автоматической компоновки в конструкторе интерфейсов Постановка задачи Требуется задействовать весь потенциал конструктора интерфейсов для создания ограничений при работе с пользовательским
4.8. Этап 3: нажатие кнопки затвора и одновременное срабатывание системы автоматической фокусировки
4.8. Этап 3: нажатие кнопки затвора и одновременное срабатывание системы автоматической фокусировки Режимы протяжки Цифровым камерам (правда, не всем) доступно несколько режимов съемки, аналогичных тем, которые в традиционной фотографии называются режимами протяжки
Печать текстов
Печать текстов В настоящее время распечатка набранного текста на принтере стала достаточно простой операцией. Если у вас в системе установлен принтер и вы настроили его драйвер, то никаких проблем с распечаткой документов у вас возникнуть не должно. Просто выберите
5. Понимание текстов
5. Понимание текстов Что значит понять текст? Ответ на этот вопрос, приемлемый в равной степени для лингвиста, психолога или философа, отсутствует. Феномен понимания во многом еще остается загадочным. В интеллектуальных системах имеется способ уточнить интерпретацию
6. Синтез текстов.
6. Синтез текстов. С проблемами поиска релевантного знания и понимания текстов весьма тесно соприкасается еще одна проблема, привлекающая сейчас внимание специалистов, работающих в ИИ. Она связана с разгадкой механизмов, лежащих в основе процедур порождения текстов на
Посмотрите на проект ресторана с автоматической подачей блюд Николай Маслухин
Посмотрите на проект ресторана с автоматической подачей блюд Николай Маслухин Опубликовано 17 апреля 2013 Турецкая инжиниринговая компания Dahir Insaat разработала концепт ресторана будущего, в котором применяется технология автоматической подачи