PDA

Просмотр полной версии : Технологии сканирования документации и книг



shattered
28.02.2016, 17:12
Предлагаю обменяться опытом сканирования документации и книг. Мой небольшой опыт такой:

Сканирую всегда в 600 dpi, почти всегда в оттенках серого (или в цвете, если есть причина), а потом перевожу в ч/б (иллюстрации оставляю в сером или цвете). Сканы такого качества достаточно хороши для bitsavers (http://www.bitsavers.org/) (документацию на английском планирую отдавать туда):

The preferred form for any contributed text scan is as a collection of lossless Group 4 fax compression (ITU-T recommendation T.6) images saved as TIFF files with a minium scan resolution of 400 dpi.

На выходе -- pdf с метаданными (author, title, subject, keywords), но пока без текстового (OCR) слоя.

Книги, если не жалко, расшиваю и разбираю на тетради. Что делать с теми, которые жалко -- пока не придумал.

Железо:
- два сканера формата A4 -- планшетный и поточный (с двусторонним сенсором). Оба с оптическим разрешением 600 dpi.

Софт:
- сканирование -- встроенный в windows (fax and scan)
- конверсия форматов -- ImageMagick (http://imagemagick.org/), netpbm (http://netpbm.sourceforge.net/)
- разрезка листов на страницы, очистка от шума, deskew -- unpaper (https://www.flameeyes.eu/projects/unpaper), ScanTailor (http://scantailor.org/)
- склейка частичных сканов -- hugin (http://hugin.sourceforge.net/)
- перестановка страниц по порядку (если сканировались тетради) -- самопальный скрипт, на основе кода из PDF::Imposition::Schema2up (https://metacpan.org/pod/PDF::Imposition::Schema2up).
- сборка pdf -- tiff2pdf (http://www.remotesensing.org/libtiff/), затем qpdf (http://qpdf.sourceforge.net/files/qpdf-manual.html) (пересжатие страниц с картинками -- tiff2pdf их оставляет несжатыми)
- OCR -- пока не делаю, но видимо -- tesseract (https://github.com/tesseract-ocr/tesseract)

Заметки:
- unpaper -- удобен для пакетной обработки (скажем, отрезать полосы по краям сканов). Пример большого проекта, который им пользуется: The Socialist Standard Digitization Blog (http://ssdigit.nothingisreal.com/)
- hugin -- не самый удобный софт, но бесплатный (другие варианты есть здесь (http://rutracker.org/forum/viewtopic.php?t=4199335)). Эта инструкция (http://hugin.sourceforge.net/tutorials/scans/en.shtml) -- неплохое начало, но я выставляю тип линзы Equirectangular, и не включаю Z(TrZ). Вариант -- скрипт (https://github.com/mpetroff/stitch-scanned-images) для автоматической сборки (найден здесь (https://mpetroff.net/2013/09/scanner-modifications-to-scan-large-documents/)), его пока не пробовал.
- чтобы прописать в pdf метаданные на русском языке, надо сначала приложить патч Махоткина (http://squadette.ru/blog/2013/01/24/pdf-metadata-in-unicode/) и пересобрать tiff2pdf.

MM
29.02.2016, 23:11
Если по-простому - для обычных текстов типа машинопечатных листов А4 - фото с 5 мпикс вполне достаточно, по крайней мере для частного использования.
Игра с цветом и глубиной - это очевидный вред переносу данных, равно как и уменьшение разрешения.
( Один олигофрен на специализированном ресурсе выложил схему моей огромной любимой платы с разрешением в 50 дпи и переводом в 1 битный цвет - узнаю, кто это сделал, и за кордоном достану, так и знайте, самоделкины... :confused: )
И оправдания, что вес файла уменьшится в несколько раз - неужели кто-то до сих пор на звуковом модеме 57600 по медному телефонному шнуру сидит ?

- - - Добавлено - - -

http://storage4.static.itmages.ru/i/16/0113/s_1452704971_9956829_72a39137d7.jpg (http://itmages.ru/image/view/3399125/72a39137)
Всем ли хорошо видно фото инструкции разворота А5 на 5 мпикс ?

akromion
01.03.2016, 10:38
Всем ли хорошо видно фото инструкции разворота А5 на 5 мпикс ?

Отлично видно.

проф
01.03.2016, 14:26
Так вот именно, что... Фото даже 3.2 Мпикс достаточно, я многие документы перефоткивал телефоном SE-K790, их даже файн ридер распознавал.

krotan
24.03.2016, 21:26
Для сканирования книг использую VueScan Pro, думаю она удобнее встроенного в Windows, главное сканировать быстее получается на планшетном сканере (если наловчиться). Но есть минус - она платная...