2. Чистка
2. Чистка
Задача этой ступени — получить на выходе файлы с чистыми, красивыми страницами в том же формате TIFF и в том же количестве. Это «набор» будущей электронной книги. Нечего и говорить, что обрабатывать нужно все (вернее почти все) изображения по группам, т. е. в «пакетном режиме» (batch processing). Кроме обложек и некоторых других неординарных страниц, возиться с каждым изображением страницы отдельно в графическом редакторе практически невозможно (представьте 700 страниц текста!) да и не нужно.
Для чистки, я пользуюсь программой ScanKromsator v 5.9. Её надо поискать в интернете. Я немного поплевался на пол из за её интерфейса, но это только сначала, пока не привыкнешь. Потом перестаёшь замечать причуды, и даже наоборот, отмечаешь как удобно сделать то или это.
Ссылки на описание этой программы:
• http://ru.wikipedia.org/wiki/ScanKromsator
• http://www.djvu-soft.narod.ru/kromsator/
• http://www.twirpx.com/file/394016/
Программа, особенно для начинающего, сложная, но всё же не такая сложная как, скажем, Photoshop. Есть также ScanTaylor, которая обещает быть проще, но я не пробовал. Какая бы программа не использовалась, нужно
• убрать наклон страниц (deskew)
• отрезать неровные края
• выравнять освещённость (убрать тени от неравномерной освещённости)
• убрать точки и другой мусор (despeckle)
• отдельно проверить/выправить иллюстрации (включая обложку)
• поднять разрешение до 600dpi, если сканировали с меньшим разрешением.
После того как ScanKromsator пройдётся по страницам (т. е после нажатия кнопки process), он откроет окно для проверки результата (result view). В этом окне есть такие незаменимые инструменты как ластик, «волшебная очистка» и выбор цвета к ней. Не брезгуйте воспользоваться ими для индивидуальной чистки отдельных особо грязных страниц.
Можно поправить такие дефекты на станицах как заметки на полях (если конечно, нет цели их сохранить), стереть карандашные линии, подчёркивающие текст (будут мешать программе OCR, которая примет их за графику), убрать полосы, пятна, а иногда и задний фон. Я однажды сканировал книжку с синими буквами на голубом фоне; фон вышел безобразно, и я его просто убрал с помощью «волшебной очистки», т. е. поменял на белый, благо он был чуть светлее текста и от него можно было избавиться, убрав его цвета.
Из вышесказанного ясно, что чистка — это самая технически сложная ступень. Если вы не работали раньше с графическими редакторами, то нечего и думать сделать всё с первого раза на сто процентов. Не отчаиваетесь! Даже чуть облагороженный файл — это шаг вперёд на пути к лучше отсканированной книге! В другой раз будет ещё лучше. А потом, русские просто обожают чистку! К сожалению, мы даже любим вычищать наше собственное население. Или, как говорят теперь, «зачищать». Было вычищено столько народу, что если б от этого действительно зависело продвижение на пути в рай, мы давно жили б в раю. Как тут не вспомнить Сергея Мироновича Кирова:
«ЧК-ГПУ — это орган, призванный карать, а если попросту изобразить это дело, — не только карать, а карать по-настоящему, чтобы на том свете был заметен прирост населения, благодаря деятельности нашего ГПУ.»
На том свете, стало быть прибыло, а на этом убыло. Но они ж все плохие были, те которые убыли… чего их не расстрелять за плохоту? Простите за отступление, просто в нашем стремлении к крайностям мы иногда вычищаем самих себя. Потом удивляемся: «почему у нас режим авторитарный?» Потому что хочется быстрых, кардинальных, простых решений для сложных проблем. Посмотрите сколько людей мыслят в русле «да взять их всех да и <способ вычищения>», и вы согласитесь что никакого другого режима, кроме авторитарного, т. е. который способен «всех взять за… и…» нам не светит.