Технологии сканирования документации и книг

**shattered** · 28.02.2016, 17:12

Предлагаю обменяться опытом сканирования документации и книг. Мой небольшой опыт такой:

Сканирую всегда в 600 dpi, почти всегда в оттенках серого (или в цвете, если есть причина), а потом перевожу в ч/б (иллюстрации оставляю в сером или цвете). Сканы такого качества достаточно хороши для bitsavers (документацию на английском планирую отдавать туда):

The preferred form for any contributed text scan is as a collection of lossless Group 4 fax compression (ITU-T recommendation T.6) images saved as TIFF files with a minium scan resolution of 400 dpi.

На выходе -- pdf с метаданными (author, title, subject, keywords), но пока без текстового (OCR) слоя.

Книги, если не жалко, расшиваю и разбираю на тетради. Что делать с теми, которые жалко -- пока не придумал.

Железо:
- два сканера формата A4 -- планшетный и поточный (с двусторонним сенсором). Оба с оптическим разрешением 600 dpi.

Софт:
- сканирование -- встроенный в windows (fax and scan)
- конверсия форматов -- ImageMagick, netpbm
- разрезка листов на страницы, очистка от шума, deskew -- unpaper, ScanTailor
- склейка частичных сканов -- hugin
- перестановка страниц по порядку (если сканировались тетради) -- самопальный скрипт, на основе кода из PDF::Imposition::Schema2up.
- сборка pdf -- tiff2pdf, затем qpdf (пересжатие страниц с картинками -- tiff2pdf их оставляет несжатыми)
- OCR -- пока не делаю, но видимо -- tesseract

Заметки:
- unpaper -- удобен для пакетной обработки (скажем, отрезать полосы по краям сканов). Пример большого проекта, который им пользуется: The Socialist Standard Digitization Blog
- hugin -- не самый удобный софт, но бесплатный (другие варианты есть здесь). Эта инструкция -- неплохое начало, но я выставляю тип линзы Equirectangular, и не включаю Z(TrZ). Вариант -- скрипт для автоматической сборки (найден здесь), его пока не пробовал.
- чтобы прописать в pdf метаданные на русском языке, надо сначала приложить патч Махоткина и пересобрать tiff2pdf.

**Advertiser** · 28.02.2016, 17:12

ZXPRESS •	ZXART •
ZXTUNES •	ZX Spectrum Old Demos •
Virtual TR-DOS •	World of Spectrum •

User Tag List

Тема: Технологии сканирования документации и книг

Опции темы

Отображение

Древовидный режим

Технологии сканирования документации и книг

Информация о теме

Пользователи, просматривающие эту тему

Похожие темы

Ксерокопия документации по RT-11 V5.0 и TSX Plus

Технологии заливки объектов и создания теней и объема.

Технологии творчества-1: Как делать стихи?

Приемы и технологии написания музыки.

Ваши права