Вход

Просмотр полной версии : Качественные сканы книг и журналов



Leonis
16.11.2010, 14:21
Почти все сканы книг и журналов, представленные в нынешней Spectrum сцене мягко говоря... не самого лучшего качества. Многое, естественно, зависит от исходных материалов, от сканера и от кучи других факторов.

По исходникам, предоставленным тов. Septic я пересобрал одну книжку. Вот что получилось:

500 игр. Часть 1. ВА Принт'93 (http://tv-games.ru/media/open/500_igr_part_1.html)

Для сравнения прежний вариант
500 игр. 1 выпуск - VA Print'93. (http://vtrdos.ru/book/500_1.ZIP)

Проделал следующее:
1. Перевёл всё в 600 DPI (из 300), развернул.
3. Обработал фильтрами (гамма, резкость, контраст)
2. Укоротил цвета до 4-х
3. Обработал страницы в ScanTailor
4. Собрал в DJVU Solo в режиме Clean (Bitonal почему-то большего размера, и худшего качества)

Размер документа вырос почти вдвое, но оно того стоило.

Я не призываю пыхтеть по неделе над каждой книгой, вычищая мусор и доводя её до совершенства, но лично мне приятнее держать в руках "белый" вариант :))

К чему я это всё:
Если у кого есть отсканированные необработанные страницы книг, присылайте мне, я попробую сделать из них конфетку.

Неплохо было бы разместить книжку в ZX библиотеках :)

newart
16.11.2010, 14:30
Ну нафиг такие "улучшения". Irfanview вылетает на твоем файле.

Leonis
16.11.2010, 14:53
//newart
Извечная проблема пустых страниц - упустил её из виду. Сейчас пересоберу. Кто делал DJVU документы, знает о чём я ..

Перезаливаю. Спасибо за то, что сразу проверил.

Кстати, для просмотра DJVU STDU Viewer мне нравится больше чем Irfan View, хотя, последний у меня просмотрщик-редактор номер один.

Alex_NEMO
16.11.2010, 15:08
Проделал следующее:
1. Перевёл всё в 600 DPI (из 300), развернул.
3. Обработал фильтрами (гамма, резкость, контраст)
2. Укоротил цвета до 4-х
3. Обработал страницы в ScanTailor
4. Собрал в DJVU Solo в режиме Clean (Bitonal почему-то большего размера, и худшего качества)

Размер документа вырос почти вдвое, но оно того стоило.

Я не призываю пыхтеть по неделе над каждой книгой, вычищая мусор и доводя её до совершенства, но лично мне приятнее держать в руках "белый" вариант )

Leonis, да, newart прав - ближе к концу книги какой-то глюк - у меня лизадтечевский вьювер то же вылетел.
Пожелания - если возможно, сглаживание или не применяй вообще или убери - на 1-2 значения. Я так понял, у тебя 4 град. серого? А ч/б вариант не пробовал? К обложке цветокоррекцию применял? Если ДА, то чуть цветами поиграйся, контраст сильно не задирай, лучше чуть яркость подними...
В общем и целом, вполне нормально, по крайней мере, лучше многого их того, что есть в Сети.

newart
16.11.2010, 15:44
Leonis - твой сайт намеренно отдает djvu с расширением html?

Leonis
16.11.2010, 15:55
//Alex_NEMO
В чём именно вылетает? Сейчас перепроверил в 3 просмотрщиках - всё нормально.

Насчёт сглаживания не совсем понял - где его применять / не применять?

Ч/б вариант во всём хорош, но при сканировании края страниц у переплёта изогнуты, так что с одной стороны буквы жирные, а с другой едва видны. Если перегнать в чб - последние просто не будут видны совсем.

Обложку просто обрезал без никакой коррекции цветов. Сейчас сделал поярче. В целом красиво, но вот этот жёлтый внизу бьёт.. ну, хотя бы обложка не такая мрачная :)

---------- Post added at 14:55 ---------- Previous post was at 14:52 ----------

//newart
Не намеренно. Какой браузер?
Проверил в FF, IE, Download Master - везде нормально

Чувствую, у меня не 100% совместимость с форумом :))

osa
16.11.2010, 16:06
opera частенько чудит, там на странице отдачи нужно тип прписать. это лучше у наших вэб-програмеров спросить

newart
16.11.2010, 16:09
Не намеренно. Какой браузер?
Опера.

Leonis
16.11.2010, 16:53
//osa
Такое есть,
"djvu" => "Content-type: image/x.djvu"

Перепробовал все возможные MIME - Опера их не воспринимает. Видимо, алгоритм загрузки у браузера не совсем стандартный, или браузер не читает Content-type..
Разобрался в чём дело. Опера, если встречает точку в имени файла, обрабатывает его тип не корректно.
Возьму на заметку.

---------- Post added at 15:53 ---------- Previous post was at 15:14 ----------

Проблема с Оперой лечится так:
Вводим в адресную строку:
opera:config#trust server types
Ставим галочку напротив Trust Server Types и жмём "Сохранить"
Потом перезагружаем браузер.

Leonis
17.11.2010, 01:01
Вторая книга (надеюсь не последняя).
Опять же моя безграничная благодарность тов. Septic за предоставленные сканы страниц.

В целом по этой книге:
Она сохранилась лучше, так что читается приятнее. Всю картину портят области в районе переплёта - около них на одной странице буквы засвечены, на соседней наоборот тень. Так что 2-х цветный вариант превращал эти участки в нечитаемые, пришлось в очередной раз остановиться на 4-х.

К совершенству можно стремиться долго, но как-то улучшать текущий результат без 600 DPI оригиналов не вижу смысла. По трудоёмкости это почти то же, что распознать книгу, а это уже совсем другая история..

Итак,
500 игр. Часть 2 ("ВА Принт") (http://tv-games.ru/media/open/500_igr_part_2.html)
Более чёткий и приятный вариант книги.

Обложка для наглядности:
http://tv-games.ru/images/zx/500_igr_part_2.jpg

Вопросы к знатокам:
1. При уменьшении цветов IrfanView, XAT Image Optimizer и другие проги белый (FFFFFF) цвет делают слегка серым. Как с этим бороться? (интересует пакетная обработка страниц)
2. У переплёта страницы изгибаются при сканировании. Есть какой-то инструмент, как их по-быстрому "выпрямить"?

Rindex
17.11.2010, 01:07
2. У переплёта страницы изгибаются при сканировании. Есть какой-то инструмент, как их по-быстрому "выпрямить"?

Лучший вариант разгербанить книжку. Я же подкладываю туда другие, что-бы поверхность была ровной. Точнее, что-бы выпирал переплёт чуток. Закрываю крышку сканера и на него Большую Советскую Энциклопедию в придачу кладу, ну и рукой чуть напираю, для надёжности.

Leonis
17.11.2010, 09:12
Лучший вариант разгербанить книжку.

Радикально :))
Мне интересен программный метод исправления, т.к. на руках у меня нет книжек :)

Alex_NEMO
17.11.2010, 10:30
Leonis, молодца! Эта книга лучше и без "глюков" в конце. 1-ю сейчас перекачал, то же норма. Спасибо за "скорректированную" обложку. Так значительно лучше!

Вопросы к знатокам:
1. При уменьшении цветов IrfanView, XAT Image Optimizer и другие проги белый (FFFFFF) цвет делают слегка серым. Как с этим бороться? (интересует пакетная обработка страниц)
2. У переплёта страницы изгибаются при сканировании. Есть какой-то инструмент, как их по-быстрому "выпрямить"?

В Ирфане, попробуй фин. пакетник запустить с изменением Яркости/Контрастности. Попробуй на паре страниц, поиграйся настройками, что бы "белый" стал почти "идеально белым", а не серым. Потом, как "вычислишь оптимальные параметры" - применяй к "пакету". По 2-му пункту - не скажу, СканКромсатор, например, просто поворачивает(причем, не всегда правильно) небрежно отсканенные страницы, но не "выпрямляет" изгибы у переплета. "По быстрому" это вряд ли вообще получится.
Если что, почитай что "Гуру" пишут тут: http://djvu-soft.narod.ru/

Leonis
17.11.2010, 10:48
В Ирфане, попробуй фин. пакетник запустить с изменением Яркости/Контрастности. Попробуй на паре страниц, поиграйся настройками, что бы "белый" стал почти "идеально белым", а не серым.

Это пройденный этап. С почти белыми страницами работает, в противном случае надо добавлять больше контрастности, а это уже портит буквы (сносятся перегородки букв e, н например). Рекомендации от Гуру читал и перечитывал, но почему-то остановился на Scan Tailor - он проще, хотя, в первый раз я не совсем понял принципа работы :))

В Кореле (и наверно в фотошопе тоже) есть функции по трансформариванию картинок ,т.е. если работать с областями, можно выправить. То же касается засвеченных и затемнённых областей. Но это уже неоправданные затраты сил.

Подождём, пока к Fine Reader не прикрутят интеллект, тогда он, может и страницу выпрямит, и распознает толково (а это резко уменьшит размер), и картинки подкорректирует :))

Alex_NEMO
17.11.2010, 10:57
В Кореле (и наверно в фотошопе тоже) есть функции по трансформариванию картинок ,т.е. если работать с областями, можно выправить. То же касается засвеченных и затемнённых областей. Но это уже неоправданные затраты сил.
В Кореле пользую только "вектор", в Шопе - "растр". Да, Шоп хорошая вещь, и "выправить" в нем, по идее, можно, но "сложно"! ;)
В самом деле, "это неоправданные затраты сил." И времени.

Leonis
18.11.2010, 20:33
К моему огромному сожалению, низкое качество бумаги, использованное в этой книге свело на нет все попытки сделать её идеальной. К качеству сканирования никаких претензий, Septic как всегда на высоте, но буквы из-за шероховатости "дырявые".
Чтобы снизить этот эффект, пришлось играть с гаммой, а это в результате сделало буквы немного толще.

Вчера-сегодня много времени убил на эксперименты, но оно того стоило.
Теперь цепочка обработки такая:
1. Фотошоп - разворачиваю, увеличиваю до 600 DPI, играю с уровнями и контрастом, чтобы фон стал белым
1.1. Если страницы с картинками - не стесняйтесь обрабатывать их отдельно. Много контраста не рекомендуется т.к. картинка плохо (и криво) сожмётся. В случае этой книги я применял сильный Blur 2 с максимальными настройками в IrfanView на области с картинками (не на всю страницу!!!).
2. Scan Tailor - делим на страницы, доворачиваем, отрезаем лишнее, унифицируем размеры
3. Фотошоп - подрезка лишнего (в Scan Tailor я даю поля с запасом) и сохранение как gif об 4 цветах
4. Так как DJVU Solo с полученными гифками не хочет дружить, приходится их в TIFF перегонять. Я бы перешёл на Doc Express 5, но тот же DJVU Solo полученные документы не откроет, а совместимость на мой взгляд важна..
5. Кодирую страницы в DJVU (отдельные страницы): с картинками как Фото, остальные как Clean.
6. Собираю всё, что получилось

Страницы с картинками я обрабатывал отдельно, так что все картинки достаточно чёткие и не размытые, а главное, удалось уменьшить их размер в 10 раз без видимой потери качества.

В IrfanView (и фотошопе) неожиданно для себя открыл возможность работать с областями, тем самым обрабатывая слишком тёмные или светлые участки отдельно. Ручная обработка 200 и более страниц напрягает, но на заметку возьму рецептик.

Вошёл в форму и во вкус, так что отреставрировал обложку.

Посмотрим, какие сюрпризы ждут в 4-й книге.

А пока качаем
500 игр. Часть 3 ("ВА Принт") (http://tv-games.ru/media/open/500_igr_part_3.html)

http://tv-games.ru/images/zx/500_igr_part_3.jpg

newart
18.11.2010, 22:48
Ручная обработка 200 и более страниц напрягает, но на заметку возьму рецептик.
Что мешает автоматизировать процесс?
То что ты делаешь в ирфане это можно сделать 20 строками на бейсике, и пробежаться этой процедуркой по всем файлам.

Leonis
18.11.2010, 22:55
С автоматизацией я уже разобрался по максимуму, но хватает такого, что автоматизации не поддаётся.
Например: какие-то лишние пятна или просто точки, места изгибов, просвечивающаяся обратная сторона страницы, дефекты печати, дефекты бумаги, пометки автора книги, переходы от текста к графике и прочее-прочее. компьютер без подсказки никогда всё это не увидит и не исправит..

Leonis
19.11.2010, 20:51
Ну что же, пришло время последней книги, больше сканов у меня нет.

Качество бумаги отвратное, так что эта книжка, несмотря на среднее качество всё-таки шедевр. Традиционно реставрированная обложка, улучшенные иллюстрации (в этой книге они цветные), дифференцированная обработка страниц для лучшего качества и меньшего размера.

Чтобы вытянуть текст пришлось изобретать очень изощрённый и агрессивный алгоритм, главное - всё получилось. Каждую вторую страницу я дополнительно чистил от вертикальной полосы - её фильтры устранить не смогли, т.к. при этом был бы потерян текст.

500 игр. Часть 3 ("ВА Принт") (http://tv-games.ru/media/open/500_igr_part_4.html)

http://tv-games.ru/images/zx/500_igr_part_4.jpg

Если у кого-то имеются отсканированные страницы но нет времени/навыков/желания перевести их в электронный вид - присылайте мне, с удовольствием доведу до ума.

scooter
20.11.2010, 12:54
Если у кого-то имеются отсканированные страницы но нет времени/навыков/желания перевести их в электронный вид - присылайте мне, с удовольствием доведу до ума.

А можешь Байтик из соседней темы довести до ума ?

Leonis
20.11.2010, 17:50
Журнал отсканирован с низким разрешением - 72 DPI, если софт не врёт, к тому же, сильно заметно JPEG сжатие. Конфетки из такого не сделать.

Если сделаешь снимки в 600 DPI, ну, на худой конец 300, и выложишь в формате PNG24, TIF, BMP (обязательно 16 миллионов цветов или более), короче в любом, что не искажает картинку, я с удовольствием похимичу.

Сейчас, к примеру, одну книжку сканирую, широкоформатную в 600 DPI. Места дофига занимает, приходится снимать по одной странице, но это будет реальный шедевр, как закончу - и буковки чёткие и картинки, и читать приятно. Впервые, кстати, сделаю страницы чётко в размер оригинала, а не на глаз, как в предыдущих раздачах.

scooter
26.11.2010, 13:51
Если сделаешь снимки в 600 DPI, ну, на худой конец 300, и выложишь в формате PNG24, TIF, BMP (обязательно 16 миллионов цветов или более), короче в любом, что не искажает картинку, я с удовольствием похимичу.


Следующие номера сделаю разрешение побольше и отправлю тебе.

Leonis
27.11.2010, 08:06
//scooter
давай жду :)
пока вот вожусь со страничками в 150 DPI - интересно, что-то получится? Некоторые страницы имеют угол наклона 20 и более градусов, но текст чёткий, надеюсь на лучшее, т.к. от автора сканов лучшего наверно не дождаться, я и сам бы одну и ту же книгу 2 раза не сканировал, да ещё и 300 страниц по одной..

^m00h^
28.11.2010, 00:44
Думаю Striker'у надо обновить книги на VT.

LaBestia
02.04.2011, 19:04
Могу отсканить в цвете 600 dpi 3, 4 и 5 выпуски. А сколько всего выпусков было?

Leonis
04.04.2011, 01:13
От ВА Принт (500 игр) 8 книг вроде

600 DPI да ещё и в цвете.. Очень круто, конечно. Почти 700 страниц - внимательно подумай, надо ли тебе это?
К тому же, если делать рескан уже существующих книг, так надо серьёзно подойти и к процессу сканирования тоже, не только к пост обработке. Т.е. странички желательно сразу должны быть ровными, без изгибов (в области текста), надо нормально и равномерно прижимать страницу, периодически протирать (и мыть) стекло сканера, чтобы не было отпечатковворсинок бумажных. Занятие очень полезное, но на грани фанатизма - нужно реально оценить свои силы и возможности..

К примеру - книгу, о которой писал в конце года я ещё не закончил. А там всего 400 с копейками страниц. 2/3 готово, лежит мёртвым 3 Гб грузом на винчестере и своего часа ждёт, а там ещё постобработка будет :)

Отсканируешь - обещаю собрать DJVU, но размер будет за сотню Мб, качество придётся сохранить

LaBestia
04.04.2011, 17:53
Я тут подумал...а в цвете ж только рекламные вкладыши и обложка. Странички с описанием ведь всё равно смысла нет сканить в цвете - они серые. Как отсканю парочку страничек - покажу, чтоб знать, устроит ли моё сканирование :)

Leonis
06.04.2011, 11:21
Давай, может чего интересного и получится :)