User Tag List

Показано с 1 по 5 из 5

Тема: Технологии сканирования документации и книг

Древовидный режим

Предыдущее сообщение Предыдущее сообщение   Следующее сообщение Следующее сообщение
  1. #1

    Регистрация
    22.11.2009
    Адрес
    Москва
    Сообщений
    1,699
    Спасибо Благодарностей отдано 
    84
    Спасибо Благодарностей получено 
    195
    Поблагодарили
    127 сообщений
    Mentioned
    12 Post(s)
    Tagged
    0 Thread(s)

    Post Технологии сканирования документации и книг

    Предлагаю обменяться опытом сканирования документации и книг. Мой небольшой опыт такой:

    Сканирую всегда в 600 dpi, почти всегда в оттенках серого (или в цвете, если есть причина), а потом перевожу в ч/б (иллюстрации оставляю в сером или цвете). Сканы такого качества достаточно хороши для bitsavers (документацию на английском планирую отдавать туда):
    The preferred form for any contributed text scan is as a collection of lossless Group 4 fax compression (ITU-T recommendation T.6) images saved as TIFF files with a minium scan resolution of 400 dpi.
    На выходе -- pdf с метаданными (author, title, subject, keywords), но пока без текстового (OCR) слоя.

    Книги, если не жалко, расшиваю и разбираю на тетради. Что делать с теми, которые жалко -- пока не придумал.

    Железо:
    - два сканера формата A4 -- планшетный и поточный (с двусторонним сенсором). Оба с оптическим разрешением 600 dpi.

    Софт:
    - сканирование -- встроенный в windows (fax and scan)
    - конверсия форматов -- ImageMagick, netpbm
    - разрезка листов на страницы, очистка от шума, deskew -- unpaper, ScanTailor
    - склейка частичных сканов -- hugin
    - перестановка страниц по порядку (если сканировались тетради) -- самопальный скрипт, на основе кода из PDF::Imposition::Schema2up.
    - сборка pdf -- tiff2pdf, затем qpdf (пересжатие страниц с картинками -- tiff2pdf их оставляет несжатыми)
    - OCR -- пока не делаю, но видимо -- tesseract

    Заметки:
    - unpaper -- удобен для пакетной обработки (скажем, отрезать полосы по краям сканов). Пример большого проекта, который им пользуется: The Socialist Standard Digitization Blog
    - hugin -- не самый удобный софт, но бесплатный (другие варианты есть здесь). Эта инструкция -- неплохое начало, но я выставляю тип линзы Equirectangular, и не включаю Z(TrZ). Вариант -- скрипт для автоматической сборки (найден здесь), его пока не пробовал.
    - чтобы прописать в pdf метаданные на русском языке, надо сначала приложить патч Махоткина и пересобрать tiff2pdf.
    Последний раз редактировалось shattered; 01.03.2016 в 21:03.

  2. #1
    С любовью к вам, Yandex.Direct
    Размещение рекламы на форуме способствует его дальнейшему развитию

Информация о теме

Пользователи, просматривающие эту тему

Эту тему просматривают: 1 (пользователей: 0 , гостей: 1)

Похожие темы

  1. Ответов: 23
    Последнее: 26.01.2016, 04:31
  2. Ответов: 17
    Последнее: 05.08.2009, 23:37
  3. Технологии творчества-1: Как делать стихи?
    от andrews в разделе Творчество
    Ответов: 16
    Последнее: 27.06.2008, 12:30
  4. Ответов: 26
    Последнее: 09.08.2006, 14:48

Ваши права

  • Вы не можете создавать новые темы
  • Вы не можете отвечать в темах
  • Вы не можете прикреплять вложения
  • Вы не можете редактировать свои сообщения
  •