Глава 9 Сканирование, распознавание и конвертирование с помощью ABBYY FineReader
Глава 9 Сканирование, распознавание и конвертирование с помощью ABBYY FineReader
В процессе написания работы вам наверняка будут встречаться тексты или рисунки из книг и журнальных статей, которые необходимо поместить в документ. Если вы планируете использовать лишь фрагмент, то его можно ввести с клавиатуры. Однако, если вам нужны несколько страниц, удобнее прибегнуть к другим способам работы с печатным текстом, например отсканировать нужный элемент, а затем вставить его в документ.
Процесс преобразования текста из бумажного вида в электронный состоит из нескольких частей. Первый этап – это сканирование документа. Если превращение бумажной картинки в электронную завершается на этом этапе, то превращение текста в электронный только начинается. В результате сканирования и фотографии, и текста будет получен графический файл.
Если вы захотите изменить полученный текст либо использовать только его часть, сделать это будет очень сложно. Дело в том, что графический файл представляет собой набор точек разных цветов, а текстовый файл – это набор символов. Чтобы в процессе сканирования получить текстовый документ, состоящий из символов, графический файл необходимо преобразовать в текстовый. Сделать это можно с помощью специальных приложений, называемых OCR-программами (Optical Character Recognition – оптическое распознавание символов).
Современные OCR-системы умеют распознавать печатный, а в некоторых случаях и рукописный текст на многих языках, могут сохранять полученный результат в удобном формате (например, в формате Word), исправлять погрешности сканирования, а также отделять текст от изображения. Наиболее популярными на сегодняшний день OCR-системами являются FineReader (http://www.abbyy.com) и Cunei Form (http://www.cognitive.ru).
Системы распознавания текстов у опытных пользователей компьютеров ассоциируются в первую очередь с названием FineReader. Действительно, продукт фирмы ABBYY Software удобен, обеспечивает высокое качество распознавания, «понимает» около 200 языков и умеет различать даже листинги программ, написанные на некоторых языках программирования (например, Basic, C/C++, Java, Pascal).
В этой главе детально будет рассмотрено, как можно превратить бумажный текст в электронный с помощью программы FineReader (рис. 9.1).
Рис. 9.1. Окно программы FineReader
Процесс сканирования в FineReader осуществляется двумя способами. Можно воспользоваться услугами Мастера Scan&Read, с помощью которого будут пройдены все четыре этапа преобразования бумажного документа в электронный (сканирование, распознавание, проверка и сохранение). Второй вариант – вручную пройти все эти шаги, выбирая соответствующие пункты меню либо используя кнопки панели инструментов.
После запуска FineReader и выбора режима работы программы (с помощью мастера или вручную) необходимо поместить в сканер печатный документ. Для запуска процесса сканирования нажмите кнопку Сканировать либо выполните команду Файл ? Сканировать изображение.
При этом откроется окно, в котором можно выполнить предварительный просмотр и установить необходимые параметры. Это окно для разных типов сканера имеет различный вид, но все же основные его параметры одинаковы. О настройках будет рассказано на примере сканера Mustek 1200 UB Plus.
Обратите внимание на то, как вы размещаете источник в сканере. Постарайтесь добиться, чтобы книга или журнал лежали как можно ровнее, ведь если текст будет расположен неровно, он будет распознан неправильно, и вам придется вручную исправлять много ошибок.
После того как вы указали параметры сканирования, можно выполнить предварительный просмотр страницы. Для этого необходимо нажать кнопку Preview (Предварительный просмотр). На этом этапе вы сможете увидеть, верно ли установлена страница в сканер, захватывает ли область сканирования весь текст или какая-то его часть остается за пределами. Затем вы можете поправить страницу в сканирующем устройстве, только не забудьте повторно ее просмотреть.
В левой части окна сканирования размещены вкладки и поля для настройки параметров. В списке Scan Mode (Режим сканирования) можно выбрать необходимый режим процесса: цветной режим (Color (24 bit)), в оттенках серого (Gray) или сканирование текста (Lineart). Если вы собираетесь сканировать изображение, лучше выбрать первый или второй режим. Третий вариант идеально подходит для сканирования текста. Безусловно, вы можете задать цветной режим и при сканировании текстового оригинала, однако в этом случае результирующий файл будет занимать гораздо больше места, чем при сканировании в других режимах.
В списке Scan Size (Размер сканирования) можно установить размер окна сканирования. По умолчанию предлагается значение Custom (Обычный), то есть совпадающий с размером листа в сканере. Однако, чтобы ускорить процедуру сканирования, особенно для небольших документов, вы можете выбрать другие значения этого параметра, например А4 (размер стандартного листа бумаги), В5 или Letter (Письмо).
Следующий параметр – Resolution (Разрешение) – очень важен для результата сканирования. Разрешение измеряется в dpi (dots per inch – точек на дюйм). Эта величина характеризует, насколько качественным будет результат сканирования – полученное изображение. Чем выше разрешение, тем лучше будет выглядеть картинка. В то же время большие значения этого параметра означают, что полученный графический файл будет занимать много места на жестком диске. Поэтому разрешение нужно выбирать рационально.
В параметрах сканирования можно выбрать различное значение dpi – от самого маленького (50) до огромного (19200). Существуют некоторые правила выбора dpi, руководствуясь которыми, вы получите наиболее оптимальный результат. Для сканирования текстов со средним размером шрифта установите 300 dpi. Для текстов, набранных мелким шрифтом (менее 9 пт), лучше использовать 400–600 dpi. Картинки, отсканированные с разрешением меньше 600 dpi, могут получиться недостаточно четкими.
Собственно, это разрешение подойдет для черно-белых изображений. Если вы хотите получить качественный цветной рисунок, в этом случае величину разрешения стоит увеличить хотя бы до 900 dpi.
Область Output (Вывод) позволяет настроить параметры вывода сканирования, то есть параметры отображения результата сканирования на листе бумаги. Например, в поле Scaling (Масштабирование) указывают масштаб готового документа. Изменить установленное по умолчанию значение вы можете двумя способами: ввести вручную необходимую величину в поле Scaling (Масштабирование) или переместить бегунок рядом с ним.
В полях Width (Ширина) и Height (Высота) можно указать размеры полученного изображения – ширину и высоту соответственно. Список рядом позволяет задать единицы измерения: Inches (Дюймы), СМ (Сантиметры) или Pixels (точки). Обратите внимание: в области Image Size (Размер изображения) указано, каков будет размер полученного изображения в килобайтах.
В этом же окне вы можете сохранить настройки в INI-файле, для этого предназначена кнопка Save (Сохранить). Если у вас раньше были сохранены настройки, открыть их можно с помощью кнопки Load (Загрузить).
Возможно, в некоторых случаях вам нужно будет отсканировать не всю страницу, а только часть. Для этого выделите нужную область сканирования. Воспользуйтесь кнопкой Cropping Tool (Обрезка), после чего измените размеры прямоугольника таким образом, чтобы был выбран только нужный вам фрагмент.
После того как вы убедились, что страница расположена верно и все параметры установлены, можно начинать процедуру сканирования. Для этого нажмите кнопку Scan (Сканировать) (рис. 9.2).
При работе с рисунками после сканирования следует сохранить изображение в графическом формате. Для этого выполните команду Файл ? Сохранить пакет как и укажите имя и тип сохраняемого файла.
Создав графический файл, вы всегда сможете обработать его в графическом редакторе, например Paint или Photoshop: обрезать лишние блоки, добавить надписи, подкорректировать рисунок.
Более 800 000 книг и аудиокниг! 📚
Получи 2 месяца Литрес Подписки в подарок и наслаждайся неограниченным чтением
ПОЛУЧИТЬ ПОДАРОКДанный текст является ознакомительным фрагментом.
Читайте также
Глава 9 Сканирование, распознавание и конвертирование с помощью ABBYY FineReader
Глава 9 Сканирование, распознавание и конвертирование с помощью ABBYY FineReader В процессе написания работы вам наверняка будут встречаться тексты или рисунки из книг и журнальных статей, которые необходимо поместить в документ. Если вы планируете использовать лишь фрагмент,
Глава 18 Электронные переводчики и словари. ABBYY Lingvo 12
Глава 18 Электронные переводчики и словари. ABBYY Lingvo 12 Электронные словари в наше время стали одним из самых популярных программных продуктов. Они успешно конкурируют со своими бумажными собратьями. Это естественно: большинство документов готовится с помощью
Часть 1. Сканирование и распознавание
Часть 1. Сканирование и распознавание Глава 1. Как работает сканирующее устройство В процессе ввода изображения в компьютер в первую очередь необходимо преобразовать его в последовательность электрических сигналов. Для этого используются так называемые
Глава 7. Цветное сканирование
Глава 7. Цветное сканирование Все светочувствительные приборы, применяемые в сканерах, измеряют только яркость попадающего на них света, но не его спектральные характеристики, по которым человеческий глаз различает цвета. Поэтому для ввода в компьютер цветных
Глава 15. Как осуществляется сканирование в программе Adobe Photoshop TWAIN
Глава 15. Как осуществляется сканирование в программе Adobe Photoshop TWAIN Под TWAIN-интерфейсом понимается международный стандарт, который в свое время был принят для единого взаимодействия устройств ввода изображений с той или иной программой, которая «обслуживает» подобные
Глава 17. Сканирование
Глава 17. Сканирование Сканирующее устройство «просматривает» печатный материал и передает его в OCR-систему. Далее печатный материал преобразуется в изображение, которое на данном этапе нельзя отредактировать ни в одном текстовом
Глава 20. Программа ABBYY FineReader
Глава 20. Программа ABBYY FineReader С появлением компьютеров человека увлекла идея научить машины мыслить так же, как это делает он сам. Такую гипотетическую возможность компьютеров предаваться размышлениям окрестили «искусственным интеллектом». С тех пор этот термин прочно
Глава 24. Распознавание в программе FineReader
Глава 24. Распознавание в программе FineReader Распознавание в программе FineReader осуществляется в так называемом пакетном режиме. В ABBYY FineReader пакет — это папка, в которой находятся изображения и рабочие файлы программы. После того, как вы отсканируете изображение оно сохранится
Глава 28. Сканирование TWAIN-интерфейс
Глава 28. Сканирование TWAIN-интерфейс В программе ABBYY FineReader работа со сканирующими устройствами осуществляется исключительно через интерфейс TWAIN вашей операционной системы.Под TWAIN-интерфейсом понимается международный стандарт, который в свое время был принят для единого
Глава 30. Сканирование многостраничных документов
Глава 30. Сканирование многостраничных документов В программе ABBYY FineReader для удобства процесса сканирования большого количества страниц предусмотрен специальный режим процесса сканирования: Сканировать несколько страниц, который дает возможность в одном цикле
Глава 32. Распознавание
Глава 32. Распознавание Задача распознавания состоит в том с тем, чтобы преобразовать отсканированное изображение в текст, сохранив при этом оформление страницы. Прежде чем приступить к распознаванию текста, необходимо установить основные параметры распознавания: язык
Глава 1. Сканирование и обработка графических документов
Глава 1. Сканирование и обработка графических документов Автоматизация проектирования пережила начальную стадию. Эйфория от замены кульмана на его компьютерный эквивалент на базе систем AutoCAD или КОМПАС прошла, конструкторы (архитекторы, топографы), прошедшие этот этап,
FineReader – распознавание текста
FineReader – распознавание текста Ввести со сканера текст в компьютер – задача не слишком трудная. Однако работать с таким текстом невозможно: как и любое сканированное изображение, страница с текстом представляет собой графический файл – обычную картинку. Отсюда возникают
Сканирование и распознавание
Сканирование и распознавание Ввести со сканера текст в компьютер – задача не слишком трудная. Однако работать с таким текстом невозможно: как и любое сканированное изображение, страница с текстом представляет собой графический файл – обычную картинку. Отсюда возникают
Глава 7 Конвертирование баз данных из других программных сред
Глава 7 Конвертирование баз данных из других программных сред Мы уже говорили о том, что по мере появления новых, более совершенных СУБД все актуальнее становится проблема использования данных, которые накоплены в информационных банках предыдущих, в том числе и морально
Баловсяк Надежда Васильевна
Просмотр ограничен
Смотрите доступные для ознакомления главы 👉