Технологии сканирования документации и книг

**shattered** · 28.02.2016, 17:12

Предлагаю обменяться опытом сканирования документации и книг. Мой небольшой опыт такой:

Сканирую всегда в 600 dpi, почти всегда в оттенках серого (или в цвете, если есть причина), а потом перевожу в ч/б (иллюстрации оставляю в сером или цвете). Сканы такого качества достаточно хороши для bitsavers (документацию на английском планирую отдавать туда):

The preferred form for any contributed text scan is as a collection of lossless Group 4 fax compression (ITU-T recommendation T.6) images saved as TIFF files with a minium scan resolution of 400 dpi.

На выходе -- pdf с метаданными (author, title, subject, keywords), но пока без текстового (OCR) слоя.

Книги, если не жалко, расшиваю и разбираю на тетради. Что делать с теми, которые жалко -- пока не придумал.

Железо:
- два сканера формата A4 -- планшетный и поточный (с двусторонним сенсором). Оба с оптическим разрешением 600 dpi.

Софт:
- сканирование -- встроенный в windows (fax and scan)
- конверсия форматов -- ImageMagick, netpbm
- разрезка листов на страницы, очистка от шума, deskew -- unpaper, ScanTailor
- склейка частичных сканов -- hugin
- перестановка страниц по порядку (если сканировались тетради) -- самопальный скрипт, на основе кода из PDF::Imposition::Schema2up.
- сборка pdf -- tiff2pdf, затем qpdf (пересжатие страниц с картинками -- tiff2pdf их оставляет несжатыми)
- OCR -- пока не делаю, но видимо -- tesseract

Заметки:
- unpaper -- удобен для пакетной обработки (скажем, отрезать полосы по краям сканов). Пример большого проекта, который им пользуется: The Socialist Standard Digitization Blog
- hugin -- не самый удобный софт, но бесплатный (другие варианты есть здесь). Эта инструкция -- неплохое начало, но я выставляю тип линзы Equirectangular, и не включаю Z(TrZ). Вариант -- скрипт для автоматической сборки (найден здесь), его пока не пробовал.
- чтобы прописать в pdf метаданные на русском языке, надо сначала приложить патч Махоткина и пересобрать tiff2pdf.

**Advertiser** · 28.02.2016, 17:12

MM · 29.02.2016, 23:11

Если по-простому - для обычных текстов типа машинопечатных листов А4 - фото с 5 мпикс вполне достаточно, по крайней мере для частного использования.
Игра с цветом и глубиной - это очевидный вред переносу данных, равно как и уменьшение разрешения.
( Один олигофрен на специализированном ресурсе выложил схему моей огромной любимой платы с разрешением в 50 дпи и переводом в 1 битный цвет - узнаю, кто это сделал, и за кордоном достану, так и знайте, самоделкины...

)
И оправдания, что вес файла уменьшится в несколько раз - неужели кто-то до сих пор на звуковом модеме 57600 по медному телефонному шнуру сидит ?

- - - Добавлено - - -

Всем ли хорошо видно фото инструкции разворота А5 на 5 мпикс ?

**akromion** · 01.03.2016, 10:38

Сообщение от MM

Всем ли хорошо видно фото инструкции разворота А5 на 5 мпикс ?

Отлично видно.

**проф** · 01.03.2016, 14:26

Так вот именно, что... Фото даже 3.2 Мпикс достаточно, я многие документы перефоткивал телефоном SE-K790, их даже файн ридер распознавал.

**krotan** · 24.03.2016, 21:26

Для сканирования книг использую VueScan Pro, думаю она удобнее встроенного в Windows, главное сканировать быстее получается на планшетном сканере (если наловчиться). Но есть минус - она платная...

User Tag List

Тема: Технологии сканирования документации и книг

Опции темы

Отображение

Технологии сканирования документации и книг

Информация о теме

Пользователи, просматривающие эту тему

Похожие темы

Ксерокопия документации по RT-11 V5.0 и TSX Plus

Технологии заливки объектов и создания теней и объема.

Технологии творчества-1: Как делать стихи?

Приемы и технологии написания музыки.

Ваши права