ОГОРОД КОЗЛОВСКОГО Клёвый чтец №8, или Новый сказ о Левше
ОГОРОД КОЗЛОВСКОГО
Клёвый чтец №8, или Новый сказ о Левше
«Клёвым чтецом» я перевел-обозвал FineReader в какой-то давней своей компьютерной брошюрке, еще до начала сотрудничества с «Компьютеррой», году, кажется, аж в 96-м, то есть, по скорости того компьютерного времени, - в далеком-далеком, практически незапамятном прошлом. Это как раз была третья версия, которая, после не вполне удовлетворительных мучений со второй, показалась мне верхом совершенства и одной из Сияющих Вершин брезжущего на близком - рукой подать - горизонте Искусственного Интеллекта, взятой Высокой Наукой вкупе с не менее Высокими Технологиями. Я увлеченно тестировал «тройку», сравнивая ее с конкурентами, как отечественными, так и зарубежными, - и она, подлинная «птица», легко обходила их всех на любых поворотах.
Сейчас уж не припомню, писал ли я отдельно о версиях следующих: с четвертой по седьмую, - очень может быть, что и нет: каждая очередная, конечно, была лучше предыдущей: качество распознавания - как божились PR-менеджеры, возрастало то на пять процентов, то на одиннадцать; рос и список распознаваемых языков, - включая даже такие вполне искусственные, как языки программирования (чтобы оцифровать покрытые пылью рулоны старых листингов) или чуть ли не эсперанто; появлялись всё новые возможности в смысле сохранения верстки документа и форматов; хорошели кнопочки тулбара; - и прочее, и прочее, и прочее. Конечно, это не могло не радовать, но при удовлетворении моих реальных потребностей: распознавание обложек компакт-дисков, книжных текстов и журнальных статей, - улучшения сказывались не особенно. Впрочем, ситуация естественная: при достижении любым продуктом некоего (довольно высокого) уровня дальнейшие усовершенствования идут больше по мелочам: возьмите хоть автомобили. То есть сказывались, конечно, однако недостаточно, чтобы дать повод для отдельного «Огорода».
Но вот вышла «восьмерка» - и повод такой, похоже, дала.
Список ее отличий от «семерки», выданный на презентации, занимает десять (!) страниц, включая в себя не только чисто эстетические удовольствия вроде появившихся словарных баз для словенского и башкирского языков и добавившегося в двух ипостасях - кириллической и латинской - уйгурского[Впрочем, относительно уйгурского и башкирского - это только для меня удовольствие чисто эстетическое, а для уйгуров и башкир - практическое. А они ведь - покупатели], но и практическое: например, понимание картинок в формате компрессированного (методом LZW) tiff’а, о кочку которого я в прежние времена частенько спотыкался. Повысившаяся скорость распознавания оставила меня практически равнодушным, поскольку и раньше она не казалась недостаточной: мне ведь, слава богу, не приходится просиживать за этим занятием дни напролет, - а вот понимание гиперссылок, их проверка в процессе распознавания и перенос в текст - это представилось блестящим, едва ли не цирковым трюком, и я стал всерьез подумывать о переводе в цифровую форму всего моего многокилограммового «Огородного» архива - с целью освобождения «тещиной комнатки». Появились радости и для бюрократов, для каторжной офисной работы, - но к интересам бюрократов я всю жизнь относился с неким брезгливым равнодушием… Впрочем, всё это вполне уложилось бы в стандартные улучшения от версии к версии, если б не…
Если б не объявленная (и, как выяснилось, неплохо реализованная) поддержка распознавания документов, снятых цифровыми аппаратами! Не могу сказать, что это революция, сравнимая с прорывом цифры в фотодело, но - безусловно заметный шажок, возможно, эту революцию завершающий. И впрямь: цифровой фотоаппарат сегодня есть если не у каждого, то у каждого, скажем, третьего, и, понятно, что переснять им пару нужных страниц учебника или справочника куда удобнее, чем предполагающим специальную стационарную обстановку сканером.
Косвенно эту материю я уже задевал в прошлом «Огороде» («Восточный DocExpress»)[Поскольку вегетационный период у овощей разный, редакция решила пропустить FineReader вперед. А DocExpress как раз через недельку и поспеет. - Прим. ред], когда писал, что цифровой фотоаппарат в ряде случаев удобнее любого, даже карманного (не говоря уж о настоящем) сканера, - но не мог и не признать, что результаты распознавания после фотосъемки выходят очевидно худшими. Дело понятное: оптика универсальных аппаратов недостаточно жестка, получаемое разрешение заметно ниже, чем у сканерных картинок, освещение, как правило, недостаточное и неравномерное, и вообще… И вот, программисты из ABBYY решили попробовать приспособить программу к этим «плохим» картинкам (предупредив, что лучше снимать камерами не менее чем с четырехмегапиксельными матрицами). И приспособили.
Я провел следующий тест: взял полосу «Компьютерры» с собственным «Огородом» («Компьютерру» потому, что она напечатана на полуглянцевой, бликующей бумаге и довольно мелким шрифтом; если бумага надежно матовая, можно у фотоаппаратов включать вспышку, что сразу резко повышает качество снимка), отсканировал ее сперва недорогим планшетником (Astra 4700 от Umax), потом - безо всякого специального света, но со штатива - снял ее же Olympus’ом Е-20 (5 мегапикселов) и шестимегапиксельным Exilim’ом Pro 600 от Casio (у него есть специальный режим для съемки документов, - распознавальщики и производители цифровых фотоаппаратов идут навстречу друг другу!). Все картинки скинул на винчестер и вызвал их для распознания сначала седьмым, а потом - восьмым «Клёвым чтецом».
Сканерная картинка в обоих случаях распозналась одинаково: практически стопроцентно, только после «восьмерки» гиперссылки, при сохранении в PDF, работали! Картинку с Olympus’а «семерка» распознала процентов эдак на шестьдесят, а «восьмерка» - ну… на семьдесят. Другое дело - картинка с Casio, у которого был включен «документ-режим». Там процент «семерки» повысился до восьмидесяти, а «восьмерки» - только, может, процента на три не дотянул до сотни! То есть разница налицо, причем видно, что аппаратная составляющая тоже играет свою, и немалую, роль. Короче: чудес, разумеется, не бывает, но если подходить к проблеме с умом и пониманием - можно добиться результатов, которые «третья» версия лет восемь назад давала при картинке со сканера.
В общем, браво, ABBYY! Верной дорогой идете, товарищи! Есть шанс дожить до времени, когда цифровики будут комплектоваться FineReader’ом Lite, как сегодня комплектуются сканеры.
Покончив с изюминкой «восьмерки», перейдем к неприятному, обозначенному в заголовке как «Новый сказ о Левше». Помните, в чем там, у Лескова, была главная грустная заковыка? Левша сумел подковать микроскопическую блоху и даже на гвоздиках автограф накарябал, - а сообразить, что после подковки она перестанет скакать - на это ума не хватило. Вот и FineReader, еще с самых первых своих версий, ковать учится все изощреннее, а думать, увы, нет.
Поясню в чем дело. Сканируется, положим, задняя обложка компакт-диска со списком треков, номера которых частенько набираются каким-нибудь высокохудожественным шрифтом или заключаются в квадратики или обводы другой формы. «Клёвому чтецу», несмотря на шрифт и квадратики, удается-таки разобрать два-три (а иной раз - и пять-шесть) номеров правильно. Но догадаться, что это - нумерованный список и, следовательно, нераспознанный между «тройкой» и «пятеркой» значок вероятнее всего есть «четверка» - это уж, извините, кишка тонка. Или еще пример, с той же обложки: фамилии авторов песни, заключенные в круглую скобку, распознаются не всегда точно: «(Josea - Taub» в четырех случаях распознаны как «Qosea - Taub», а в трех оставшихся - правильно. Честное слово, семи пядей во лбу не надо иметь, чтобы - по шрифту ли, по расположению - догадаться, что эта часть двадцатидвухпозиционного списка вся заключена в скобки, а нераспознанный Qosea есть не что иное, как распознанный рядышком Josea, - а вот поди ж ты!
Не то чтобы мне было так уж трудно поправить эти несколько «замученных очепяток», - но я в толк не мог никогда взять, почему такая умная программа, разбирающая знаковую составляющую порой очень трудно идентифицируемых закорючек, пасует перед столь элементарными задачами - и на каждой презентации тупо продолжал задавать один и тот же вопрос: когда же «Клёвый чтец» хоть чуть-чуть поумнеет? Задал и на этой, и мне, наконец, было отвечено, что в «восьмерку» «интеллектуальный» модуль уже встроен, хотя как следует еще на заточен, и, вероятно, точить его будут вплоть до выхода очередной версии. Но зачатки уже есть, так что я могу попробовать проверить.
Проверил первым делом - даже еще до фотографирования. Увы, «умнеющая» (по заявлениям разработчиков) «восьмерка» повела себя - в интеллектуальном отношении - ровно так же, как глупые «семерка», «шестерка», «пятерка» - и далее вверх до начала списка. Ну, как говорится: хорошо не жили, начинать нечего…
И все же закончить «Огород» хочется на ноте оптимистической: к «восьмерке», отдельно, прилагается замечательная утилитка под названием ABBYY Screenshot Reader, которая, правда, начинает работать только после того, как FineReader зарегистрируешь (эдакий легкий шантаж). Она запускается в виде маленького продолговатого окошка, в коем качестве и может висеть на экране, не особенно мешая работать. При необходимости можно выбрать, в каком из доброго десятка распространенных форматов сохранить содранное с экрана и тут же распознанное, потом - нажать на кнопочку с изображением фотоаппарата, потом - выделить нужную область экрана и… все.
Нельзя сказать, что раньше я не пользовался FineReader’ом для распознания текстов, скажем, системных табличек или субтитров фильма, - но тогда приходилось делать это в три с половиной этапа: сохранять в буфер обмена, записывать в графический файл и уж только потом вызывать FineReader, а в него - этот графический файл. Теперь процесс стал заметно проще и много приятнее.
Особенно впечатляет дерево каталогов с раскрытым справа списком файлов, экспортированное непосредственно в Excel. Правда, и тут ум прихрамывает: в тринадцати случаях правильно распознав и спозиционировав в таблице время создания файлов, в следующих пятнадцати Screenshot Reader (а вернее, думаю, сам FineReader) зачем-то отвел под минуты отдельную колонку.
В общем, как призвал в свое время Великий Вождь: учиться, учиться и еще раз учиться! Толк, рано или поздно, надеюсь выйдет.
Автор: Козловский Евгений.
Более 800 000 книг и аудиокниг! 📚
Получи 2 месяца Литрес Подписки в подарок и наслаждайся неограниченным чтением
ПОЛУЧИТЬ ПОДАРОКЧитайте также
ОГОРОД КОЗЛОВСКОГО: 25p
ОГОРОД КОЗЛОВСКОГО: 25p Автор: Козловский ЕвгенийВыпустив сравнительно недавно любительскую HDV-камеру HV10, Canon особого шума не наделал: ничего сверхъестественного, все по стандарту HDV, да еще и слишком маленький размер и вертикальная ориентация. Хотя Canon и записал эти
огород козловского: Поляризация
огород козловского: Поляризация Автор: Козловский ЕвгенийИтак, полтора года с огромным удовольствием прожив с неоднократно описанным Артемкой ["Огороды" (в обратной последовательности) "Четыре мега за четыре гига", "Смена ориентации-2, или Good bye, Америка…" ]. (HTC P3300, Artemis), я
ОГОРОД КОЗЛОВСКОГО: e-e-e!
ОГОРОД КОЗЛОВСКОГО: e-e-e! Автор: Козловский ЕвгенийПервый раз я увидел так называемый "двухсотдолларовый"[ "Так называемый" - потому что, взяв все, что можно, с маркетингового хода "ноутбук за 199 долларов", Asus выложил его на прилавки по заметно большей цене. Даже в Штатах. У нас
ОГОРОД КОЗЛОВСКОГО: Ридикюль
ОГОРОД КОЗЛОВСКОГО: Ридикюль Вообще-то, ничего особо смешного в этой вещице нет: она прелестна и действительно похожа на дамский ридикюль или, скажем, сундучок-косметичку. Смешным может показаться ее сопоставление (по внешности, по размерам, по цене) минилабу от Kodak. Тем не
огород козловского: ЯУФ
огород козловского: ЯУФ Автор: Козловский ЕвгенийЯщиков этих — эдаких металлических бачков-цилиндров с режущими руку тонкими ручками, окрашенных почему-то исключительно в "военные" цвета, — я, надрываясь, перетаскал в своей киножизни не один десяток, — поэтому с такой
ОГОРОД КОЗЛОВСКОГО: I-го-го (О-го-го!)
ОГОРОД КОЗЛОВСКОГО: I-го-го (О-го-го!) Автор: Козловский ЕвгенийУдивительная штука: как искренне ни интересуешься какой-нибудь высокотехнологичной вещицей или программой, как ни лелеешь в себе воспитанную годами журналистскую дотошность и беспристрастность, – а все
ОГОРОД КОЗЛОВСКОГО: VoW!
ОГОРОД КОЗЛОВСКОГО: VoW! Автор: Козловский ЕвгенийНикакой ошибки в заголовке нет. Это не перепутанная буква в индейском восклицании Wow!, широко — с легкой руки американцев — пошедшем по всему миру. А аббревиатура от Voice over Wireless, то есть Голос поверх Беспроводки,
ОГОРОД КОЗЛОВСКОГО: 24x36
ОГОРОД КОЗЛОВСКОГО: 24x36 Автор: Козловский ЕвгенийНедавно в «Огороде» "Смена ориентации" я рассказал о собственном переходе с морально устаревшего полузеркального «Олимпуса» на «подлинную зеркалку» от Canon — Eos D60. С вполне естественным энтузиазмом неофита я стал
ОГОРОД КОЗЛОВСКОГО: Блог
ОГОРОД КОЗЛОВСКОГО: Блог Автор: Козловский ЕвгенийВ минувшие недели в моей жизни произошло многое, по большей части — связанное с хайтеком, — однако ни один предмет, на мой вкус, на полный «Огород» не потянул, — но и пропускать не захотелось: вот, получился не особо для
ОГОРОД КОЗЛОВСКОГО: Грабля
ОГОРОД КОЗЛОВСКОГО: Грабля Автор: Козловский ЕвгенийПочти год назад мне прислал письмо Александр Мозговой из Физического института им. П. Н. Лебедева РАН. Прочитав мой «Огород» "Дети шпионов, или «Догма-05» , он повел долгий и интересный эпистолярный разговор по поводу
ОГОРОД КОЗЛОВСКОГО: ?
ОГОРОД КОЗЛОВСКОГО: ? Автор: Козловский ЕвгенийТо тут, то там, и в Москве, и в Питере, эффектно сделанные черные рекламные плакаты новой (первой!) сониевской цифровой зеркалки ? (альфа) просто не могли не броситься мне в глаза и запорошили их настолько, что я забыл кучу
ОГОРОД КОЗЛОВСКОГО: УПМ-2
ОГОРОД КОЗЛОВСКОГО: УПМ-2 "2" — это потому, что я уже однажды, года полтора назад, писал про Универсальную Пиратскую Машину в «Огороде» «Собирала на разбой бабушка пирата…» (www.computerra.ru/think/ogorod/disk_publisher_primera). А УПМ, разумеется, потому, что хочу представить еще одну.
ОГОРОД КОЗЛОВСКОГО: Tai Bi Technologies
ОГОРОД КОЗЛОВСКОГО: Tai Bi Technologies Автор: Евгений КозловскийЗа последний год или около того я побывал на пяти или шести презентациях фирмы ABBYY, которая, по старой памяти, остается для меня BIT’ом Давида Яна, - причем только на презентациях, относящихся, что называется, к
ОГОРОД КОЗЛОВСКОГО: …Hо по три!
ОГОРОД КОЗЛОВСКОГО: …Hо по три! Автор: Козловский ЕвгенийЕще до того, как панасониковский ресивер SA-BX500 появился на российских прилавках, мне удалось взять его на тест и погонять в хвост и в гриву пару недель. Я рассматривал его с сильно повышенным вниманием, ибо
ОГОРОД КОЗЛОВСКОГО: Перестройка прожектора ("Огород" с цитатами)
ОГОРОД КОЗЛОВСКОГО: Перестройка прожектора ("Огород" с цитатами) Автор: Козловский ЕвгенийЕсли кто достаточно пожил и не потерял памяти, - может быть, улыбнется каламбуру, заложенному в заголовке. Остальным поясняю, что каламбур стал возможен исключительно по причине