2.2. Библиотека программ "Русская морфология"
2.2. Библиотека программ "Русская морфология"
2.2.1. Словарь Зализняка
Одним из широкодоступных (и активно используемых) русскоязычных ЛБД является электронный вариант фундаментального «Грамматического словаря русского языка» А.А.Зализняка. Текст словаря был перенесен на машинные носители в начале 80-х годов. С тех пор словари всех русскоязычных коммерческих автокорректоров (в том числе, ОРФО, Word), словари практически всех экспериментальных и коммерческих систем машинного перевода и других систем автоматической обработки текстов строятся на основе словаря Зализняка.
Полиграфический вариант словаря Зализняка состоит из двух частей: "Грамматические сведения" (около 120 страниц) и собственно "Словарь" (около 740 страниц). В первой части представлена разработанная автором словаря с необычайной тщательностью оригинальная модель русского словоизменения (склонения и спряжения). Во второй - приведено около 100 тысяч слов, которым приписаны грамматические индексы, характеризующие тип их словоизменения и схему ударения. Слова упорядочены по концам, что естественно и удобно для грамматического словаря, поскольку слова со сходным грамматическим поведением (одинаковыми суффиксами и окончаниями) располагаются компактными группами.
Словарная статья в словаре Зализняка состоит из заголовка (начальная форма слова) и словарной (грамматической) информации. Для некоторых слов даются также дополнительные сведения, необходимые для различения вариантов. Статьи с заголовками лев, стричь и прихожая выглядят так:
лев мо 1*b (животное)
лев м 1a (денежная единица)
стричь нсв 8b (-г-)
прихожая ж (п 4a)
По первому элементу словарной информации определяется грамматический класс ( спрягаемое слово, слово субстантивного, адъективного или местоименного склонения - эти термины будут разъяснены в следующем разделе), для слов субстантивного склонения также одушевленность и род, для спрягаемых слов - вид. Если, например, этот элемент "п", то слово относится к словам адъективного склонения; "ж" - к словам субстантивного склонения, женского рода, неодушевленным; "мо" - к словам субстантивного склонения, мужского рода, одушевленным; "нсв" - к спрягаемым словам (глаголам) несовершенного вида.
Если второй элемент - не цифра, то это означает, что слово изменяется по необычной модели (существительное прихожая изменяется по модели слов адъективного склонения). Остальные элементы словарной статьи либо уточняют тип склонения/спряжения, либо свидетельствуют о наличии в слове чередований (символ *), об отсутствии у слова некоторых форм или о других частных особенностях словоизменения. Буквенный индекс после цифры (или после символа *) характеризует схему ударения во всех формах описываемого слова; эта информация полезна при автоматизированной генерации фонетического словаря словоформ русского языка.
Отметим, что исходный (полиграфический) вариант словаря Зализняка был ориентирован на пользователя-человека. Основной сценарий использования словаря предусматривал возможность просклонять/проспрягать любое слово из "Словаря" на основе его грамматического описания и правил, приведенных в "Грамматических сведениях". Эти операции, вообще говоря, требовали выполнения некоторых трудноформализуемых действий, определенной языковой компетенции: поиск уместных грамматических таблиц, определение типа чередования, рассуждения по аналогии. Поэтому непосредственное использование словаря Зализняка (даже в электронном виде) в составе компьютерных систем обработки текста/речи затруднительно.
Разработчики компьютерных словарей, базирующихся на словаре Зализняка, выбирают обычно один из трех путей:
– генерация на основе словаря Зализняка словаря русских словоформ;
– использование электронного "Словаря" в исходной форме и разработка (достаточно сложных) алгоритмов, моделирующих работу с "Грамматическими сведениями";
– создание на основе словаря Зализняка формальной модели словоизменения и необходимое переструктурирование словарной части (явное введение в словарную статью некоторой информации из "Грамматических сведений"), позволяющее существенно упростить алгоритмы.
После подобных преобразований компьютерный словарь может использоваться для решения двух практически важных задач:
задача морфологического анализа - определения начальной формы слова по произвольной словоформе (и, возможно, грамматических признаков словоформы);
задача синтеза - построения всех форм (или указанной формы) слова по начальной форме.Одна из первых формальных моделей русского словоизменения на базе словаря Зализняка (третий из указанных выше путей) была разработана еще в середине 80-х годов на кафедре алгоритмических языков факультета ВМК МГУ под руководством М.Г.Мальковского. Модель была реализована на лиспоподобном языке программирования Плэнер (ЭВМ БЭСМ-6, а позже - МВК «Эльбрус-2» и IBM-совместимые ПК). При этом широко использовались динамические структуры, мощные средства обработки списков и сопоставления образца с выражением. В плэнерских структурах данных явно указывались все морфологические свойства для каждого слова, включая чередования в основе слова. Поэтому плэнерское представление достаточно легко воспринималось человеком, явно отражало морфологические особенности описываемых в компьютерном словаре слов.
Однако язык Плэнер является интерпретируемым, а следовательно, довольно медленно работающим, что затрудняет его применение в системах, к которым предъявляются высокие требования по быстродействию. Обработка сложной структуры списков требует существенных затрат машинного времени, даже при реализации алгоритма их обработки на компилируемых языках, ориентированных на написание эффективных программ (С, С++). Поэтому было принято решение о переходе к другой структуре словаря и соответствующей модификации алгоритмов анализа и синтеза.
Плэнерские структуры, описывающие морфологические особенности всех различных классов слов, были пронумерованы. Затем словам/основам и флексиям были сопоставлены соответствующие номера классов. При чередовании в основе и при наличии у слова супплетивных - образованных от другой основы - форм (хорош-ий - лучше) были организованы дополнительные входы в словарные статьи.
Новое представление словаря трудно воспринимаемо для человека. Однако унификация и упрощение структур данных позволили создать условия для значительного увеличения скорости обработки.
Более 800 000 книг и аудиокниг! 📚
Получи 2 месяца Литрес Подписки в подарок и наслаждайся неограниченным чтением
ПОЛУЧИТЬ ПОДАРОКЧитайте также
Библиотека Ext Core
Библиотека Ext Core В этом разделе мы будем изучать самые полезные для нас на данный момент возможности библиотеки Ext Core. Полностью она описана в справочнике, доступном на ее "домашнем"
Морфология
Морфология Все слова, которые вы приводите в запросе, по умолчанию ищутся с учетом морфологии. Чтобы отключить ее, поставьте оператор! перед словом (без пробела). В частности, по запросу !день вы получите ссылки на страницы, где слово день встречается только в форме
5.12. Библиотека mathn
5.12. Библиотека mathn В программах, выполняющих большой объем математических вычислений, очень пригодится замечательная библиотека mathn, которую написал Кейдзу Исидзука (Keiju Ishitsuka). В ней есть целый ряд удобных методов и классов; кроме того, она унифицирует все классы Ruby для
20.1. Обзор: библиотека drb
20.1. Обзор: библиотека drb Библиотека drb состоит из двух основных частей: серверной и клиентской. Грубую границу между ними можно провести следующим образом:Сервер:• запускает TCPServer и начинает прослушивать порт;• привязывает объект к экземпляру сервера drb;• принимает
Русская версия эмулятора для Windows Mobile 5.0 Smartphone
Русская версия эмулятора для Windows Mobile 5.0 Smartphone Помимо стандартного эмулятора для смартфона под управлением системы Windows Mobile 5.0 на английском языке, вы можете скачать и локализованную версию, которая располагается по адресу
Русская версия эмулятора для КПК под управлением Windows Mobile 5.0 Pocket PC
Русская версия эмулятора для КПК под управлением Windows Mobile 5.0 Pocket PC Также можно использовать русскую версию эмулятора для КПК под управлением операционной системы Windows Mobile 5.0, которую можно найти по адресу
Библиотека
Библиотека CoolReaderСайт: http://www.coolreader.orgРазмер: 1,6 МбСтатус: Freeware CoolReader – «читалка» почти идеальная, во всяком случае, для настольного компьютера. Варианта программы для PocketPC, увы, не предусмотрено – в этом случае вас выручит привычный HaaliReader. Кроме того, несколько огорчает
Библиотека Oracle XDK
Библиотека Oracle XDK Основные характеристики.? Платформы: Java, C/C++, PL/SQL.? Расширения: поддержка функций расширения.? Полнота реализации: сравнительно хорошая (уступает Saxon и MSXML).? Разработчик: Oracle Corporation.? URL: http://technet.oracle.com/tech/xml/.Так же как и MSXML, Oracle XDK (от англ. XML Development Kit -
ГОЛУБЯТНЯ: Старинная русская забава
ГОЛУБЯТНЯ: Старинная русская забава Люминиевая тема Asus W2U00Vc PM770 сама собой направила «Голубятню» в софтверное русло. Помните прошлонедельный пассаж: «Особо понравилась честная презентация ноутбука, сделанная менеджером „Пирита“ („Сергей - машина умопомрачительная,
ОПЫТЫ: Русская шпаргалка для американского диктора: Как заработать на подсказках
ОПЫТЫ: Русская шпаргалка для американского диктора: Как заработать на подсказках Последние десять лет коллектив нашей студии потихоньку разрабатывает и производит недостающее вспомогательное съемочное оборудование, поскольку что-то нам не по карману, а что-то очень
Русская Fedora: первый год жизни
Русская Fedora: первый год жизни LinuxFormat, #124 (ноябрь 2009)20 ноября исполняется год проекту Russian Fedora – не пора ли подвести первые итоги?Для начала – что это такое. Russian Fedora – не новый дистрибутив, не клон и не форк Fedora оригинальной. Это – ремикс, то есть пересборка исходной системы.
Русская криптология
Русская криптология Хотя появление тайнописи в России датируется XII-XIII веками, использование криптографии для засекречивания государственной переписки началось лишь в эпоху правления Петра I. Чрезвычайная осторожность, которую русские проявляли в вопросах