Глава 34. Как проверить и отредактировать распознанный текст

We use cookies. Read the Privacy and Cookie Policy

Глава 34.

Как проверить и отредактировать распознанный текст

После завершения распознавания результат появляется в диалоговом окне Текст. Диалоговое окно Текст — это встроенный редактор программы FineReader; в нем вы имеете возможность проверить результаты распознавания и скорректировать распознанный текст.

Одна из возможностей текстового редактора FineReader — это встроенная проверка орфографии.

Система встроенной проверки орфографии дает возможность:

• Находить неуверенно распознанные слова (слова, в которых имеется неуверенно распознанные символы).

• Находить орфографические ошибки (неправильно написанные слова).

• Добавлять неизвестные системе FineReader слова в словарь для того, чтобы они распознавались уверенно.

Неуверенно распознанные символы и слова, которые отсутствуют в словаре, выделяются различными цветами. По умолчанию для выделения неуверенно распознанных символов используется голубой, для несловарных слов — розовый. Для того, чтобы изменить цвета на закладке Вид (доступ: Сервис к Опции) в поле Объект выберите команду Неуверенно распознанный символ (Несловарное слово) и в поле Цвет — цвет подсветки.

Как проверить результаты распознавания

Нажмите на кнопку З-Проверить на панели Scan amp;Read (или выберите командуПроверка из меню Сервис).

Проверка дает возможность найти в тексте слова, содержащие неуверенно распознанные символы, несловарные слова, а также слова с орфографическими ошибками (клавиатурный эквивалент: F7).

Откроется диалоговое окно Проверка.

В диалоговом окне Проверка имеется три окна. Верхнее диалоговое окно — аналог окна Крупный план, в котором отображено изображение слова с возможной ошибкой. Среднее диалоговое окно показывает само слово с возможной ошибкой, в строке над этим диалоговым окном выводится название типа ошибки. В нижнем диалоговом окне Варианты предлагаются варианты замены данного слова, для которых используется словарь, активизированный вами в списке Язык словаря.

Важно: Для удобства проверки и редактирования текста диалоговое окно Проверка может быть увеличено. Для этого достаточно поместить указатель мыши на границу диалогового окна (указатель превратится в двустороннюю стрелку). Перетаскивая границу, увеличьте или уменьшите размеры диалогового окна.

У вас имеется следующие возможности:

• Нажмите на кнопку Пропустить с тем, чтобы оставить слово, как есть.

• Нажмите кнопку Пропустить все с тем, чтобы оставить все такие слова в распознанном тексте, как есть.

Выберите вариант для замены и просто нажмите на кнопку Заменить или Заменить все с тем, чтобы заменить текущее слово или все такие слова в тексте. В случае, если в диалоговом окне Варианты отсутствует правильный вариант для замены слова, скорректируйте его в среднем диалоговом окне и для того с тем, чтобы заменить текущее слово просто нажмите на кнопку Подтвердить.

Нажмите на кнопку Добавить, для того чтобы добавить слово в словарь. В этом случае при дальнейшей проверке орфографии, если это слово (или одна из его форм) встретится в тексте, оно не будет считаться ошибочным.

Нажмите на кнопку Опции с тем, чтобы установить опции проверки распознанного текста.

Нажмите Закрыть с тем, чтобы закрыть диалоговое окно.

Опции проверки и редактирования текста

Устанавливаются на закладке Проверка (доступ: Сервис к Опции).

Уровень выделения ошибок

В списке Уровень выделения ошибок возможно выбрать следующие значения:

Нет — ошибки распознавания не выделяются.

Стандартный — цветом выделяются нераспознанные и неуверенно распознанные символы.

Максимальный — помимо нераспознанных и неуверенно распознанных символов, цветом выделяются слова, которые отсутствуют в словаре языка распознавания.

Важно: Количество отображаемых в диалоговом окне Текст ошибок будет изменено после повторного распознавания документа.

Останавливаться на неуверенно распознанных словах — система при проверке орфографии останавливается на словах, в которых были неуверенно распознаны какие-либо буквы.

Останавливаться на несловарных словах — эта опция позволит вам проверить слова, которые отсутствуют в словаре и которые могли быть неверно распознаны системой.

Останавливаться на сложных словах — в процессе проверки орфографии OCR-система останавливается на словах, которые отсутствуют в словаре, но которые могут быть построены по имеющимся морфологическим моделям или которые могут быть составлены из имеющихся в словаре слов.

Игнорировать слова с цифрами и другими неалфавитными символами — в процессе проверки орфографии слова, внутри которых встречаются цифры или какие-либо другие символы, не входящие в алфавит языка распознавания, не считаются ошибочными, если эти слова не содержат неуверенно распознанные символы.

Корректировать пробелы до и после знаков препинания — в случае, если эта опция активизирована, то ocr-система не будет останавливаться на тех фрагментах, где неверно расставлены пробелы до и после знаков препинания, а исправит их автоматически.

Пополнение и удаление слов из пользовательского словаря

Добавление слова в пользовательский словарь

Добавление слов в словарь — один из способов повышения качества распознавания, так как при распознавании OCR-система проверяет слова по словарю. В словарь имеет смысл добавлять часто встречающиеся слова (например, термины, сокращения, названия). В тот момент, когда происходит добавление слова OCR-система строит его так называемую парадигму (совокупность всех форм данного слова). Это означает, что OCR-система может уверенно распознавать не только ту форму, которая уже однажды встретилась в тексте и была добавлена в словарь, но и все формы добавленного слова.

Как добавить слово в словарь во время проверки орфографии

Нажмите на кнопку Добавить в диалоговом окне Проверка.

В диалоговом окне Начальная форма вы должны установить следующие параметры:

Часть речи (Существительное, Прилагательное, Глагол, Неизменяемое слово).

• В случае, если слово всегда пишется с большой буквы, активизируйте опцию Имя собственное.

• В случае, если вы добавляете слово, являющееся сокращением, активизируйте опцию Аббревиатура.

Начальная форма слова — нажмите ОК. Откроется диалоговое окно Построение парадигмы, в котором пользователю предлагаются вопросы, по ответам на которые строится парадигма слова. Для ответов на вопросы нажимайте кнопки Да или Нет. В случае, если вы ошиблись при ответе на вопрос, просто нажмите на кнопку Сначала с тем, чтобы иметь возможность ответить на этот вопрос по-другому. OCR-система покажет построенную парадигму в диалоговом окне Парадигма.

Важно: В случае, если вы хотите с тем, чтобы при добавлении слова в английский словарь парадигма не строилась (слово добавлялось бы как неизменяемое), то на закладке Проверка (доступ: Сервис к Опции) активизируйте опцию Добавлять слово как неизменяемое.

Вы имеете возможность добавлять слова во время просмотра списка добавленных слов. Для этого из меню Сервис выберите команду Просмотр словарей. В раскрывшемся диалоговом окне Выбор словаря выберите язык и просто нажмите на кнопку Просмотр. Откроется словарь со списком добавленных слов. Вы имеете возможность, нажав на кнопку Добавить, добавить набранное слово.

В случае, если добавляемое слово уже имеется в словаре, OCR-система предупредит вас об этом. В этом случае вы имеете возможность посмотреть его парадигму. В случае, если существующая парадигма вас не устраивает, имеете возможность создать другую (кнопка Добавить в диалоговом окне Добавить слово).

Вы имеете возможность импортировать пользовательские словари от FineReader ранних версий.

Вы имеете возможность импортировать пользовательский словарь (*.dic), который вы создали при работе с программой Microsoft Word.

Как импортировать словарь

Из меню Сервис выберите команду Просмотр словарей. Далее выберите язык словаря и просто нажмите на кнопку Просмотр. В раскрывшемся диалоговом окне Словарь просто нажмите на кнопку Импорт и выберите файлы с расширениями (*.ext, *.txt или *.dic).

Как удалить слово из словаря

Из меню Сервис выберите команду Просмотр словарей. Выберите язык словаря и просто нажмите на кнопку Просмотр. В раскрывшемся диалоговом окне выделите слово и просто нажмите на кнопку Удалить.