Три способа получить нужную тебе научно-техническую книгу в электронном виде с минимальными затратами
Три способа получить нужную тебе научно-техническую книгу в электронном виде с минимальными затратами
Итоговый результат, описанного ниже процесса
Термодинамика равновесия жидкость-пар
А.Г. Морачевский, Н.А. Смирнова, Е.М. Пиотровская и др.;
Под ред. А.Г. Морачевского.-Л.: Химия,1989. – 344 с.
размер архива 5004242 Bytes
Уважаемый IvanStorogev написал три части, о том, как чистить сканы, для подготовки книги перед переводом ее в электронный вид:
Помимо технологии, там были и философские отступления. Можете почитать. Ну, а моя философия проста: минимум телодвижений, с по возможности удовлетворительным результатом.
Способ Раз
Вам по учёбе или работе нужна книжка, Вы знаете какая (это важно). Тогда идём по известному многим адресу Поиск книг вводим запрос, получаем ответ, качаем. Всё. Правда, за качество я не отвечаю.
Если Вы любитель математики, то неплохо бы посетить электронную библиотеку мехмата МГУ, с вероятностью 90%, Ваша книга там уже есть.
Существуют ещё места, так что не ленимся, ищем.
Способ Два
Мы сами не местные… (далее по тексту). Идём и просим добрую, отзывчивую душу сделать, нужную нам книжку, желательно с высоким качеством (ну там, сканирование в 600 dpi, качественная обработка рисунков и пр.). Так что, за качество, все претензии к доброй душе.
Способ Три
Ну, если уж Вам ничего не помогло, то придется идти в библиотеку и читать книгу там. Или взять её домой на пару дней и сделать доброе дело, а результатом поделиться с тружениками полей, известных также как колхозники.
И так, в путь.
Всё ниже написанное относится строго к черно-белым книжкам, без полутоновых иллюстраций
1. Этот пункт самый муторный. Это сам процесс сканирования. Как я заметил, по технологии процесса многих разногласий нет. Берётся книга, кладется разворотом на стекло, так чтобы поместились обе страницы, и сканируем с разрешением 300 дпи в градациях серого. Современные сканеры позволяют это делать довольно быстро. Книгу кладём по возможности ровнее, прижимая её чем-либо тяжёлым, возможно рукой. На выходе получаем tiffы, размером порядка 8 метров на разворот. Чтобы не было скучно, смотрим футбол или слушаем музыку. У меня получается примерно 70-80 (140-160 страниц) разворотов за час. Т.е. реально отсканировать среднего размера книгу за 2-3 часа. Я думаю, не сложно найти на это время.
2. Тут на сцену выходит инструмент. Знакомьтесь – ScanKromsator от многоуважаемого bolega. Да, знаю, сейчас понабегут кромсаторы, начнут бурчать, мол народу это не надо, народ этого не понимает, руки прочь от их Кромсатора, мол чтоб Кромсатором пользоваться, три года учиться надо. Ну да и фиг с ними, пускай ворчат. Но в одном они правы: ScanKromsator – мощный инструмент, со многими полезными и не очевидными для новичка функциями. Сам я в нём тоже, мягко говоря не силён, но не бойтесь, это не должно нам помешать. Хоть программа и бесплатна, но не забываем перед каждым её запуском говорить спасибо.
a) Запускаем программу и загружаем в неё наши файлы:
b) Выбираем путь для вывода результатов (закладка Files), тут же можно назначить способ нумерации выходных файлов, и что Очень Важно, назначить выходное разрешение 600 dpi:
c) Находим левее кнопки с наdpiсью Process кнопочку с ножницами (Draft kromsate), появляется окно диалога:
Ставим галочки на Split pages и safe top/bottom, ну и жмём кнопку OK. Теперь можно идти попить чай.
d) Через 10 минут:
Обратите внимание на синенькие полосочки: это резаки, за их пределами все будет безжалостно отрезано, а данная страница будет разрезана на две (центральные резаки). Посмотрите на то, что рядом с названиями страниц появились зелёные галочки!
e)Расставляем опции. Для этого пройдемся по закладочкам (в окне слева).
Первая Pages.
На ней выставляем способ центрирования. По умолчанию стоит "автомат", это значит поместить изображение в верхний левый угол. Но, как правило (это у меня так) горизонтальное выравнивание ставится по центру (Page h.align) C, вертикальное в низ (Page v.align) B.
Despeckle – это убирание мелкого мусора. Deskew – выравнивание наклона страницы, если страница получится криво выровненной, для нее можно включить метод Art.
Опять важно, чтобы опция была применена ко всем страницам – при выборе опции удерживаем Ctrl. Аналогично при выборе остальных опций, которые применяются ко всем страницам сразу.
На закладке Book выставляем размеры выходных страниц, оставляем Page width и height в Auto. Тут я немного не понимаю, как это работает при изменении dpi, но экспериментально я ставлю H.Gap value в 250(300) pixels.
В закладке Files, как было сказано выше, ставим выходное dpi 600, это архи важно. От этого зависит весь окончательный результат.
Во вкладке Options, можно оставить как есть. Или выбрать для Despeckle метод Fine, это уникально-интеллектуальный метод очистки. Например, он не вычищает точки над i и j.
Options 2 пропускаем.
Вкладка Convert – выставляем порог для преобразования из градаций серого в черно-белый. Я обычно выбираю между 170 и 200, надо попробовать, что лучше в конкретном случае. Не забываем удерживать Ctrl при выборе опции, предназначенной для всех страниц.
Ну, и наконец последняя, но очень важная вкладка Quality:
В Enhance image я ничего не понимаю, знатоки фотошопа и так поймут, что делать, лично я делаю, как на иллюстрации. Хотя хотелось бы услышать про оптимальный набор этих параметров.
И опять очень важно, если у вас исходник – это разворот книги, то жмём на Gray enhance, и появляется диалог Gray image enhance, в нём ставим cleaner passes в 1. По этой опции происходит выравнивание освещённости в центре разворота. Незаменимая штука.
f) Тут опять придется попотеть, но к счастью не много. Надо пройтись по всем страницам, с целью проверки правильности расстановки резаков. Если Вы увидите, что автоматически для какой либо страницы резаки установились не правильно, то их надо поправить. Для этого надо снять зелёную галочку, еще раз повторяю снять зелёную галочку, перед вносимыми изменениями. Иначе они будут проигнорированы. Передвигаем резаки, возможно меняем способ центрирования для данной страницы, возвращаем зеленую галку и идем дальше, к следующей странице.
g) Уфф! (Кстати, знаете ли Вы, чтобы все не делать заново, задание можно сохранить).
e) Жмем большую кнопку Process. Тут появляются предупреждения, в здравом ли мы уме, что меняем разрешение, но нам уже всё равно, мы всё уже сделали.
Всё, идём играть в футбол, или спать. Дело сделано, пусть компьютер теперь думает.
На моём компьютере (Pentium M 1400 MHz), этот, блин, процесс занимает порядка полуторы минуты на разворот (если не менять разрешение, то около 15 сек, но мы всё же будем удваивать разрешение).
Часа через три, в указанной ранее папке, нас ждёт результат, смотрим его внимательно, иногда могут быть несколько неправильно выровненных страниц. Их переделываем отдельно.
Особо дотошные, могут почистить остатки в ручную, так называемая тонкая очистка. Лично я это не делаю, за исключением убирания библиотечных штампов, и записей на полях типа: «а это батенька архиважно». Как правило, и так все замечательно.
В итоге получились примерно такие результаты: исходный скан (градации серого 300 dpi), результаты после кромсатора 600 dpi, и тоже 300 dpi. Бумажный исходник – макулатурная бумага.
Не заметить разницу сложно. И это с использованием всего около 10% возможностей этой замечательной бесплатной программы.
Раньше, когда я встречал, мол книга сделана в 600 dpi, я пожимал плечами и шёл дальше, мол, у богатых свои причуды. Но, оказывается, всё гораздо проще: 600 dpi – это ж после обработки! Ну раз так, то грешно теперь портить свой труд, когда можно получить заметно лучший результат, без особых мышечных усилий. Если Вы скачаете эту книгу и результат Вас удовлетворит, то смело можете повторить этот процесс.
Мне кажется, сделать данную работу со много меньшими затратами человеческого ресурса, вряд ли возможно. Естественно возможны и другие рецепты. Есть BookRestorer, есть RasterID, некоторые пропускают сканы для сглаживания текста через CPCTool. Пусть кто-нибудь расскажет и покажет. Но еще раз спасибо bolega за его программу, её и одной достаточно для многого.
Что делать дальше? А что Вам хочется. Можете распознать, можете собрать pdf, но для научно-технической литературы принято жать в djvu. Да, в этом, я тоже не эксперт. В djvu жму самым позорным способом в DjVuEditorPro 4.1.
Асы кромсания, не поленитесь, может тут, надо что-нибудь добавить или поправить. Но только если это принесет заметный глазу эффект, без титанических усилий.
Примечание автора статьи: Если читать мой СканКромсатор для Думмис:) с КпНемо, то там надо исправить:
1. Закладка Book при 600 dpi H.Gap value обычно хорошо получается при 200.
2. Закладка Options Deskew method – interpolate. 3. Закладка Convert – MiddleDark.
А в целом надо слушаться старших, т.е. bolega .:)
Примечание читателя (Alexx_S):
– 1.Последняя версия 5,52beta.
2.Если во время кромсания отрезаются номера страниц, то можно на закладке Options2 увеличить чувствительность текста (text sensitivity).
3. Для порога преобразования существуют предопределенные значения, в большинстве случаев их хватает, лично я чаще всего использую Middle Dark.
4. Для того, чтобы переделать отдельную страницу надо нажать на панели инструментов кнопку:
– process current file – разворот
– process left page – левая страница
– process right page – правая страница
5. Окно просмотра результата. После его закрытия повторный вызов осуществляется командой меню Result-›View All.
Кроме того, окно просмотра результа является также редактором постобработки, обладающим уникальными инструментами, главный из них – чистка мусора.
Для того, чтобы наиболее эффективно его использовать надо сделать следующее:
1. Правый клик, включаем опции AutoSave, AutoClear.
2. ClearOptions настраиваем как на рисунке:
В результате:
1. Весь мусор, размер которого меньше 15 пикселей, подсвечивается красным.
2. Прямоугольное выделение удаляет весь подсвеченный мусор, не трогая все остальное.
Выделение с клавишей Shift – стирает область.
3. Результат чистки сохраняется при переходе к след/пред. файлу.
Комментарий bolega:
Статья замечательная!
Несколько замечаний.
1. Настоятельно не рекомендуется использовать версию 5.51beta. Там немало багов. Берите 5.52, или еще лучше 5.93.
2. В окошке Gray enhance есть неприметная опция Protect black pixels. По умолчанию она включена. Ее нужно отключать! Тогда убирание теней будет намного лучше (эта опция устарела и пришла из старых версий кромсатора).
Если на скане имеется полутоновые иллюстрации, то при выравнивании освещенности они могут сильно пострадать. Чтобы этого не произошло, нужно выделить такие иллюстрации мышкой и в контекстном меню выбрать команду Exclude region. К таким регионам в процессе обработки не будут применяться операции enhance и despeckle. Защита от последнего пригодится и в других случаях, например, для ч/б сканов, содержащих картинки из мелких точек и штрихов.
3. Если нужно убрать тень и мусор от разворота, но при этом не разрезать разворот на две части, то нужно убрать опцию Split, но оставить оба внутренних резака. В этом случае область между ними будет просто очищаться.
4. Резаки можно наклонять (чтобы лучше отсекать грязь и полосы на перекошенных сканах). Для этого нужно двигать бегунок резака правой клавишей мыши, либо левой, но с нажатым Shift. Двойной щелчок на бегунке выпрямляет резак.
Чтобы двигать сразу два резака синхронно (например, верхний и нижний), нужно держать нажатым Ctrl.
5. В пункте f) автор статьи пишет, что перед изменением положения резака или опций нужно обязательно отщелкивать и затем снова взводить зелёную галку перед именем файла. Это совсем не обязательно! (тем более утомительно). Такое поведение будет оправданным, только если не включена большая галка в верхней панели. Если же она включена (горит зелёным), то активен режим авто-запоминания изменения опций, и никаких перещёлкиваний уже не требуется.
6. Если скан неважный (буквы с сильными разрывами), и despeckle заметно портит их, на закладке Options выберите режим despeckle = safe. В этом случае в процессе обработки области, занимаемые буквами, чиститься не будут. Как альтернатива, можно на закладке Pages нажать кнопку Special и там "смягчить" степень деспеклирования (fine-2, fine-3 и т.д.).
7. В списке файлов порядок следования файлов можно менять, если перетаскивать их правой кнопкой мышки, либо воспользоваться контекстным меню. Если изменение порядка выполняется уже после обработки, кромсатор будет автоматически переименовывать и выходные файлы.
8. Если при изменении опции держать нажатым Ctrl, то опция будет применена ко всем отмаркированным файлам в списке. Если же держать нажатым Alt, то кромсатор дополнительно спросит, к какой группе применять.
9. Для перемещения по списку файлов (в главном окне, а также в окне просмотра результатов), можно использовать hotkeys: "q" или "[" (prev) и "]" или "w" (next).
10. Пробел при активном списке файлов выполняет выделение файлов (красным цветом). Чтобы выделить группу, нужно пробелом отметить первый файл в группе, затем стать на последний файл и нажать Shift-пробел.
11. После обработки книги, если было задано PageWidth=PageHeight=auto (т.е. кромсатор сам определял итоговые размеры книги с учетом заданных полей gaps), кромсатор сам подставляет получившиеся размеры в соответствующие поля. После обработки нужно обязательно сменить auto на fixed, чтобы при переделке каких-то отдельных страниц их размер выдерживался равным итоговому размеру книги.
12. Если в задании собраны файлы с разными dpi, то все величины полей и размеров должны задаваться не в пикселях, а в долях миллиметра (см. опцию на закладке Book).
13. Если какую-либо страницу не нужно приводить к общему размеру и добавлять поля (например, обложку), то для этого на закладке Pages нажать кнопку Special и включить опцию ignore gaps, в этом случае размер страницы будет целиком определяться только положениями резаков.
14. Если на выходе требуется получить не одиночные страницы, а развороты, то в задании всё равно нужно задавать разделение страниц (чтобы выполнить независимое выравнивание половинок разворота), но на закладке Book включить опцию Merge pages after split.
См. также Пособие по Кромсатору.