Важная информация

User Tag List

Показано с 1 по 5 из 5

Тема: Технологии сканирования документации и книг

  1. #1
    Veteran
    Регистрация
    22.11.2009
    Адрес
    Москва
    Сообщений
    1,588
    Спасибо Благодарностей отдано 
    67
    Спасибо Благодарностей получено 
    157
    Поблагодарили
    103 сообщений
    Mentioned
    12 Post(s)
    Tagged
    0 Thread(s)

    Post Технологии сканирования документации и книг

    Предлагаю обменяться опытом сканирования документации и книг. Мой небольшой опыт такой:

    Сканирую всегда в 600 dpi, почти всегда в оттенках серого (или в цвете, если есть причина), а потом перевожу в ч/б (иллюстрации оставляю в сером или цвете). Сканы такого качества достаточно хороши для bitsavers (документацию на английском планирую отдавать туда):
    The preferred form for any contributed text scan is as a collection of lossless Group 4 fax compression (ITU-T recommendation T.6) images saved as TIFF files with a minium scan resolution of 400 dpi.
    На выходе -- pdf с метаданными (author, title, subject, keywords), но пока без текстового (OCR) слоя.

    Книги, если не жалко, расшиваю и разбираю на тетради. Что делать с теми, которые жалко -- пока не придумал.

    Железо:
    - два сканера формата A4 -- планшетный и поточный (с двусторонним сенсором). Оба с оптическим разрешением 600 dpi.

    Софт:
    - сканирование -- встроенный в windows (fax and scan)
    - конверсия форматов -- ImageMagick, netpbm
    - разрезка листов на страницы, очистка от шума, deskew -- unpaper, ScanTailor
    - склейка частичных сканов -- hugin
    - перестановка страниц по порядку (если сканировались тетради) -- самопальный скрипт, на основе кода из PDF::Imposition::Schema2up.
    - сборка pdf -- tiff2pdf, затем qpdf (пересжатие страниц с картинками -- tiff2pdf их оставляет несжатыми)
    - OCR -- пока не делаю, но видимо -- tesseract

    Заметки:
    - unpaper -- удобен для пакетной обработки (скажем, отрезать полосы по краям сканов). Пример большого проекта, который им пользуется: The Socialist Standard Digitization Blog
    - hugin -- не самый удобный софт, но бесплатный (другие варианты есть здесь). Эта инструкция -- неплохое начало, но я выставляю тип линзы Equirectangular, и не включаю Z(TrZ). Вариант -- скрипт для автоматической сборки (найден здесь), его пока не пробовал.
    - чтобы прописать в pdf метаданные на русском языке, надо сначала приложить патч Махоткина и пересобрать tiff2pdf.
    Последний раз редактировалось shattered; 01.03.2016 в 21:03.

  2. #1
    С любовью к вам, Yandex.Direct
    Размещение рекламы на форуме способствует его дальнейшему развитию

  3. #2
    Moderator Аватар для MM
    Регистрация
    20.04.2013
    Адрес
    г. Павловский Посад
    Сообщений
    4,134
    Спасибо Благодарностей отдано 
    470
    Спасибо Благодарностей получено 
    519
    Поблагодарили
    412 сообщений
    Mentioned
    42 Post(s)
    Tagged
    0 Thread(s)

    По умолчанию

    Если по-простому - для обычных текстов типа машинопечатных листов А4 - фото с 5 мпикс вполне достаточно, по крайней мере для частного использования.
    Игра с цветом и глубиной - это очевидный вред переносу данных, равно как и уменьшение разрешения.
    ( Один олигофрен на специализированном ресурсе выложил схему моей огромной любимой платы с разрешением в 50 дпи и переводом в 1 битный цвет - узнаю, кто это сделал, и за кордоном достану, так и знайте, самоделкины... )
    И оправдания, что вес файла уменьшится в несколько раз - неужели кто-то до сих пор на звуковом модеме 57600 по медному телефонному шнуру сидит ?

    - - - Добавлено - - -


    Всем ли хорошо видно фото инструкции разворота А5 на 5 мпикс ?
    Блог : http://collectingrd.kxk.ru/ . В ЛС прошу не писать, все сообщения [email protected]

  4. #3
    Member Аватар для akromion
    Регистрация
    16.07.2006
    Адрес
    Rostov-on-Don
    Сообщений
    33
    Спасибо Благодарностей отдано 
    0
    Спасибо Благодарностей получено 
    0
    Поблагодарили
    0 сообщений
    Mentioned
    0 Post(s)
    Tagged
    0 Thread(s)

    По умолчанию

    Цитата Сообщение от MM Посмотреть сообщение
    Всем ли хорошо видно фото инструкции разворота А5 на 5 мпикс ?
    Отлично видно.

  5. #4
    Master Аватар для проф
    Регистрация
    30.07.2006
    Адрес
    Рязань
    Сообщений
    636
    Спасибо Благодарностей отдано 
    1
    Спасибо Благодарностей получено 
    1
    Поблагодарили
    1 сообщение
    Mentioned
    0 Post(s)
    Tagged
    0 Thread(s)

    По умолчанию

    Так вот именно, что... Фото даже 3.2 Мпикс достаточно, я многие документы перефоткивал телефоном SE-K790, их даже файн ридер распознавал.
    ПЕЙТЕ ДЕТИ МОЛОКО
    МУХА ТОЖЕ ВЕРТОЛЁТ

    http://professor61.narod2.ru/
    http://cruzworlds.ru/fans/

  6. #5
    Veteran Аватар для krotan
    Регистрация
    30.08.2010
    Адрес
    Санкт-Петербург
    Сообщений
    1,263
    Спасибо Благодарностей отдано 
    53
    Спасибо Благодарностей получено 
    192
    Поблагодарили
    159 сообщений
    Mentioned
    2 Post(s)
    Tagged
    0 Thread(s)

    По умолчанию

    Для сканирования книг использую VueScan Pro, думаю она удобнее встроенного в Windows, главное сканировать быстее получается на планшетном сканере (если наловчиться). Но есть минус - она платная...

Информация о теме

Пользователи, просматривающие эту тему

Эту тему просматривают: 1 (пользователей: 0 , гостей: 1)

Похожие темы

  1. Ответов: 23
    Последнее: 26.01.2016, 04:31
  2. Ответов: 17
    Последнее: 05.08.2009, 23:37
  3. Технологии творчества-1: Как делать стихи?
    от andrews в разделе Творчество
    Ответов: 16
    Последнее: 27.06.2008, 12:30
  4. Ответов: 26
    Последнее: 09.08.2006, 14:48

Ваши права

  • Вы не можете создавать новые темы
  • Вы не можете отвечать в темах
  • Вы не можете прикреплять вложения
  • Вы не можете редактировать свои сообщения
  •