Предлагаю обменяться опытом сканирования документации и книг. Мой небольшой опыт такой:
Сканирую всегда в 600 dpi, почти всегда в оттенках серого (или в цвете, если есть причина), а потом перевожу в ч/б (иллюстрации оставляю в сером или цвете). Сканы такого качества достаточно хороши для bitsavers (документацию на английском планирую отдавать туда):
На выходе -- pdf с метаданными (author, title, subject, keywords), но пока без текстового (OCR) слоя.The preferred form for any contributed text scan is as a collection of lossless Group 4 fax compression (ITU-T recommendation T.6) images saved as TIFF files with a minium scan resolution of 400 dpi.
Книги, если не жалко, расшиваю и разбираю на тетради. Что делать с теми, которые жалко -- пока не придумал.
Железо:
- два сканера формата A4 -- планшетный и поточный (с двусторонним сенсором). Оба с оптическим разрешением 600 dpi.
Софт:
- сканирование -- встроенный в windows (fax and scan)
- конверсия форматов -- ImageMagick, netpbm
- разрезка листов на страницы, очистка от шума, deskew -- unpaper, ScanTailor
- склейка частичных сканов -- hugin
- перестановка страниц по порядку (если сканировались тетради) -- самопальный скрипт, на основе кода из PDF::Imposition::Schema2up.
- сборка pdf -- tiff2pdf, затем qpdf (пересжатие страниц с картинками -- tiff2pdf их оставляет несжатыми)
- OCR -- пока не делаю, но видимо -- tesseract
Заметки:
- unpaper -- удобен для пакетной обработки (скажем, отрезать полосы по краям сканов). Пример большого проекта, который им пользуется: The Socialist Standard Digitization Blog
- hugin -- не самый удобный софт, но бесплатный (другие варианты есть здесь). Эта инструкция -- неплохое начало, но я выставляю тип линзы Equirectangular, и не включаю Z(TrZ). Вариант -- скрипт для автоматической сборки (найден здесь), его пока не пробовал.
- чтобы прописать в pdf метаданные на русском языке, надо сначала приложить патч Махоткина и пересобрать tiff2pdf.