Глава 18. Обработка
Глава 18.
Обработка
Затем OCR-система анализирует (определяет блоки распознавания, выделяет в тексте строки и отдельные символы) изображение и начинает распознавать каждый его символ.
Целостное целенаправленное адаптивное распознавание
Распознавание печатного материала осуществляется на основе так называемой технологии «целостного целенаправленного адаптивного распознавания», которая базируется на трех принципах:
• Целостность.
• Адаптивность.
• Целенаправленность.
В соответствии с этими принципами OCR-система сначала выдвигает гипотезу относительно объекта распознавания (символе, части символа или нескольких склеенных символах), а затем подтверждает или опровергает ее, пытаясь последовательно обнаружить все структурные элементы и связывающие их отношения, при этом в каждом структурном элементе можно выделить определенные части, имеющие значение для человеческого восприятия:
• отрезки дуги кольца точки.
Целостность
Распознаваемый объект воспринимается OCR-системой в качестве целого посредством «значимых» элементов и отношений между ними.
Целенаправленность
Процесс распознавания проходит через выдвижение гипотез и целенаправленной их проверке. Это означает, что OCR-система проводит поиск, учитывает предыдущий контекст и на основе этого распознает даже разорванные и искаженные печатные символы.
Адаптивность
Под адаптивностью подразумевается способность OCR-системы к самообучению. Следуя этому принципу, OCR-система подстраивается к распознаваемому материалу на базе полученного «положительного» опыта.
В итоге в рабочей среде OCR-системы появляется распознанный текст, который можно корректировать и сохранять в том или ином формате.
Лето — время эзотерики и психологии! ☀️
Получи книгу в подарок из специальной подборки по эзотерике и психологии. И скидку 20% на все книги Литрес
ПОЛУЧИТЬ СКИДКУ