Вместо введения.

Данное руководство основано на моем опыте создания Djvu сканов книг, в хорошем разрешении.

В основном использованы материалы сайта http://www.djvu-soft.narod.ru/.

В частности раздел http://www.djvu-soft.narod.ru/scan/scan_and_share_1_07.htm и приложение http://www.djvu-soft.narod.ru/scan/djvu_imager.htm. Хотя того сайта призывает использовать программу ScanTailor я пока изложу подход с использованием программы  ScanKromsator.

Всё  использованные мной программы (кроме ABBYY reader 8.0) я планирую выложить здесь либо опубликовать ссылкой на сайт.

Здесь будет рассказано как собрать книгу, с OCR слоем в 600dpi черно белую, с цветными картинками и цветной обложной, с указателями в содержании(гиперссылки).

О формате.

Формат djvu предназначен для сжатия изображения полученного со сканера. Он обладает универсальностью и куче всяких плюсов, главный который для меня заключается в размере получаемого файла. В сравнении с pdf не громоздкий, лучше использует алгоритмы сжатия картинок(?). Если вы сохраняете файл из редактора в pdf-то размер файла будет конечно не большой при хорошем качестве. А вот для оцифровки книг pdf не подходит.

В djvu будет:

Формат удобно читать WinDjView v1.0 noyb(рекомендую).

 

Приступим

Для сканирования книг необходим сканер, желательно иметь ACDSee - он будет показывать отсканированные страницы, причем в последних версиях новые автоматически отображаются на большое окно превью.

Сканировать рекомендуется для черно белой книги 300 dpi в серых тонах (16 бит у меня), для цветного 300 dpi (цветные тона 48 бит). Желательно отключить всё дополнительные обработки изображений, и обязательно всё сканы надо сохранять в формате tiff.  В цветном режиме рекомендую сканировать только те страницы в которых хотите сохранить цветные картинки и исходном файле. Основные страницы - в серых тонах.

Сама обработка состоит из следующих этапов. 

  1. Черновая обработка tiff->tiff для кодирования в djvu

  2. Кодирование текстовых страниц tiff->djvu

  3. Параллельно можно делать распознавание в Abbyy FineReader tiff->проект FR

  4. Обработка картинок файла и обложки и в ставка в файл djvu .pic.tiff->+djvu(обновление файла)

  5. Вставка OCR в djvu файл проект FR->djvu (обновление)

  6. Создание ссылок со страницы содержания +djvu(обновление файла)

Схематично ниже.

 

1.Черновая обработка

Открываем всё отсканированные файлы программой ScanKromsator v5.92 Full .

Напротив перового файла Обложки - ставим зеленую галочку она будет первый этап делать отдельно.

Делаем первую обработку: меню Edit->Draft kromsate. Главное использовать Pre-rotate если сканы перевернуты (так сканировали.) 

Если у вас есть развороты страницы а не одиночные то надо поставить галочки Spite pages. Safe top/bottom что-то сохраняет, но главное ещё будет впереди.

 

 

 

 

 

 

 

 

 

 

 

 

 

Теперь всё файлы имеют зеленые галочки слева. Убираем галочку у первого файла с обложкой- и делаем для него draft kromsate, только здесь не ставим split pages.

Дальше нам надо выставить свойства файла и получаемых страниц.

под файлами на первой закладке. есть свойство Deskew -призвано выравнивать строки вращая страницу как целое, иногда слишком перетруждается и переворачивает почти ровную страницу, для избежание таких фокусов на этапе просмотра полученных файлов готовых к кодированию в djvu записывать замеченные косяки (излишний разворотов страницы, обрезка важной информации, не до конца обрезанная страница) на странице и отдельно для выбранного файла проводить чистовую обработку изображения.

Это делается так. и нажать выделенное меню.

 

 

 

 

 

 

 

 

 

 

 

 

Итак выставляем свойства страниц,

split уже задается на Draft Kromsate. Deseckle призвано уменьшить пятна на скане, рекомендуется. Deskew изначально тоже рекомендуется.

все остальное можно не трогать, Page h и v aling задает как будет выставлена вырезанная текстовая часть, вверху страницы или по центру и прочее. Это важно для нестандартных разметок когда например в книге картинка в центре, и чтобы скан больше соответствовал стилю книги можно поставить выравнивание для этой страницы в цента а не по умолчанию вверху и слева.

 

 

 

 

 

 

 

 

 

 

 

На закладке Books можно выбрать ширину полей, которые будет у вашей книге после обработки я выставляю 120, что довольно узко, но удобно читать на КПК. Без них получается совсем не красиво.

 

 

 

 

 

 

 

 

 

 

 

 

 

Следующая самые важный свойства. Путь указывает куда будет сохраняться ваши обработанные файлы готовые для кодирования в djvu.

Свойства нумерации. и Очень важно выбрать тип документа -tiff. Размер dpi 600, Цветовая гамма- b/w, так файл будет занимать мало места- идея с выше названного сайта.

То есть должно быть так:

 

 

 

 

 

 

 

 

Картинки в книге и обложка будут обработаны отдельно и там тоже придется задать 600 dpi иначе у нас они не вставятся в документ.

Следующие свойство я не трогаю почти, оно парамметризует заданные процедуры, просто выставляют у пятновычистителя режим  Fine+Normal -он передовой, и якобы оставляет точки у букв i. Чувствительно распознавание текста тоже лучше не трогать.

Начиная с этой опции свойства задаются для отдельных файлов, и для оптимизации при их выборе надо  нажать клавишу ctrl-что задаст их для всех файлов готовых к обработке.

 

 

 

 

 

 

 

 

Вкладку я не трогаю, так лучше).

Принципиально важным параметром является threshold. Его два типа, для конвертирования и зоны. Я толком понятия не имею как они влияют, но если выбрать светлый то djvu будет высветлен, и вероятно создать OCR слой не получиться. А если выбрать так как у меня ( у меня сканер хорошо засвечивает страницу) то буквы остаются опознаваемы. Особенно это касается букв н п, у которых горизонтальная перемычка может пропасть. Но всё равно бывают очень светлые сканы и тогда помогает свойство оно размывает как то, и получаются буквы ещё темнее чем при highDark. В общем тут можно поиграться для каждой страницы отдельно, но имейте ввиду, что программа может глючить, и при изменении этих свойств перестать менять результат,

тогда следует сохранить настройки.  так

 

 

 

 

 

 

 

 

 

 

 

Итак, последнее свойство дает Чуть изменить старину Enhance image -птички, а именно

Smooth -чуть размыть, Blur- сделать толще, Sharpen -сделать резче.(я ставлю так как на картинке)потом кликаю на Gray enhance -появляется окно. И в закладке выбираю Illumination -ставлю птичку

в опции -Correct Illumination. Всё. (не забываем нажимать ctrl-для применения ко всем страницам)

Больше ничего не трогаю.

Иду смотреть что мне сделал Draft kromsate- проверяю позицию резаков.

Причем они бывают двух видов, -выделения текста. , так что внутри уголку будет учтена, он ставится примерно, потом при обработке программа более точно подберет положение, главное за его границами чтобы не очутились стр. или текст. И второй вид - разрезают страниц по полам, первый левую страницу, второй правую. и центр (обычно темная полоска) удаляется без следа. Линию разреза можно наклонить, нажав клавишу shift и подвигаz ползунок. Но это редко бывает нужно- всё зависит какого качества вы хотите создать книгу и сколько есть времени для этого.

На этом же этапе необходимо выделить области картинок и задать свойства(можно для первой, для остальных они станут такие же).

Выделяем курсором картинку или обложку и кликаем на кнопку . Зона выделится красным прямоугольником , два раз кликнуть на ней- и выбрать

Остальное можно не трогать. Сдует заметить, что диаграммы в одном цвете, схемы одного цвета лучше не трогать- не выделять как картинки, это ускорит вам создание книги, и качество картинки будет заметно лучше. Единственное если там есть серые цвета, то они немного выцветут. В общем книги по математики и книги времен СССР таким приемом создаются очень быстро.

 

После просмотра всех страниц(удобно клавишами Q W), мы запускаем меню Process-all. Игнорируем предупреждение об увеличении формата, равно как замещение ранее созданных страниц.

ок, ок.

после всего мы смотрим что получилось. как разрезалось, не потерялась ли информация, ровно ли перевернулись таблицы и картинки (см выше). Главное насколько я понимаю, при сканировании чтобы тень, где переплет, четко проступала на скане, тогда программа корректно выставит резаки страницы по полам, и меньше понадобиться их переставлять.

Поздравляю вы сделали первый этап, Осталось (если у вас есть обложка или рисунки которые вы выделили как рисунок сделать подготовку к 4 этапу.  Надо вклеить картинки на отдельный лист:

 

и в новом окне поставить везде птички,

 

У - Merge ..

У Greate .. и  появиться меню-Delete там тоже можно галку влепить.

ок. теперь у нас получилось два файла на каждую страницу с картинками(которые мы выделили). один файл содержит текст(или пятна мусора, не важно называется называется нормально ex.: 001.tif) второй файл содержит изображение и называется sep.tif-это файл входной для след программы, которая будет вставлять эту картинку(чуть чуть его обработав) в наш файл djvu.

 

 

 

 

 

 

 

 

 

 

 

 

 

В начало

2. Кодирование подготовленных страниц в djvu

Итак в папке out лежат файлы полученные в после обработке в SkanKromsator. Отрывается программа  DjVu Small v0.4.4,

Нажимается открыть папку. Выбирается папка и после всё файлы появляются в программе. тут можно выбрать профиль кодирования но у меня по умолчанию стоит user BW(600 dpi)это значит сто обрабатываются черно белые картинки(текстовые файлы и одноцвет. схемами) разрешения 600dpi. Для фотографий есть отдельный режим, это по потребностям.

Дальше указываем папку сохранения

я создаю отдельную папку -для djvu файлов рядом с out. кодируем- это происходит быстро. Итак получили djvu первичный файл. Если он без картинок и обложки то этап вставки 4 изображения пропускаем

 

 

 

 

В начало

3 Создаем OCR слой

Но перед вставкой в djvu я рекомендую сделать проект Fine Reader - распознать текст. Рекомендую версию 8, проекты которого совместимы с используемой в моем методе программой вшивки OCR.  Значит открываем Reader, отрываем в нем всё файлы что хотите распознать(их число должно равняться файлом которые будете кодировать в программе ). Для избегания путаницы необходимо заранее всё файлы с картинками (pic00.tif; *sep.tif) перенести в другую папку (мы их не будем распознавать, кому нужен текст на картинке?). Ставите язык- обычно английский- русский. и делаете распознавание, они длится тоже долго как и обработка, но обычно не больше 30 минут.

Смотрите все ли страницы будет добавлены в проект 9обычно красные не добавляются, в них можно ручным режимом выделить распознаваемую область, иначе текст не вклеится в файл. Иногда перевернутые таблицы не распознаются правильно, для них можно указать направление текста.

И очень важный момент, смотрите оглавление надо чтобы всё цифры были опознаны правильно, иначе не получиться хорошего активного оглавления.   Сохраняете проект(butch file) в соседнюю папку с out. Процесс распознавания долгий и я его делаю параллельно с 2. кодированием djvu файла и 4. обработка изображений.

В начало

 

4 Вставка изображения.

Этот этап у меня вызывал наибольшие трудности. То разрешение не то, то качество картинок не фонтан. либо программа глючит.

Но постепенно научился. Подробно здесь http://www.djvu-soft.narod.ru/scan/djvu_imager.htm

Открываем программой DjVu Imager v2.9. папку с файлами(sep)

Делаем сначала обработку картинок. два параметра влияют на качество ДЗФ и качество заднего фона. Первое сжимает картинку второе сжимает фон какой-то.

Для своих картинок я не трогаю ДЗФ, уж сильно меняется картинка, а вот качество выставляют на 10-20, это позволяет сохранить резкость но и уменьшить размер( с 20м до 1м).

Запускаем обработку- Пуск. Можно просмотреть - просмотр.

И если уже создан файл после этапа 2 кодирование- (выбираем место файла- первая строка и место куда будет сохранен итоговый файл) и вшиваем в файл картинку. Для источника  рекомендую заранее создать копию кодированного файла, и использовать её.

 

После успешной операции у вас получается файл с цветными иллюстрациями.

 

 

 

 

 

 

В начало

 

5. Вклеивание OCR слоя

Открываете программу создание OCR в djvu файле программой DjvuOCR v2.4 beta4 full.

"кусок из статьи http://www.djvu-soft.narod.ru/scan/scan_and_share_1_07.htm

Запускаем DjvuOCR, жмем на кнопку Manual made OCR manager

Далее, тоже все просто:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

  

 

 

 

 

 

 

 

 

 

 

И всё."

В начало

 

 

6. Заключительная часть, Создание Активного Оглавления.

Здесь происходит простая операция, создания содержания с элементами активного приложения (содержание ввиде ссылок), это потрясающая вещь, и удобна при навигации в книге. Но есть одна недоработка автора программы, который обещал это исправить. программа работает только под 32 битной системой windows(XP или W7) не важно, в 64 битной оно не хочет делать содержание активным. Вторая недоработка секрет (ладно внутри каждой страницы есть возможность вернуться к содержанию, и если оно у вас на 4-той страницы книги то вам повезло, иначе вернетесь на 4-тую страницу, это эффект я думаю будет скоро исправлен, терроризирую автора на эту тему. (подключайте, на емаил он отвечает. Shea - eu_sh [at] mail.ru )

Итак тут тоже описано как сделать  апгред оглавления http://www.djvu-soft.narod.ru/scan/scan_and_share_1_07.htm, у меня кратко.

запускаем  DjVu Hyperlinks Editor v0.781 (либо DjVu Hyperlinks Editor v0.8)

 

Открываем файл через Добавить.

Указываем где на страницах файла(может отличаться от нумерации самой книги).

Указываем смешение- если у вас на ссылка стр 1 которая номер 11 по номеру в документе(номер картинки tiff) то надо ставить 10 и Плюс. То есть смешение относительно того как номер в книге смешен относительно номера  в документе(1->3 +2. 5->2 -3.) обычно всегда +- это если вы не пропускаете в начале несколько страниц:)

Ссылка на оглавление позволяет сделать тот секрет№2 возврат на 4 страницу, хотя может у вас будет ссылаться на оглавление:).

Запуск-Создать.Внизу появиться ход  работы,(если OS x64 выдаст замечание, но что в нем написано не видно).

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Всё вы сделали замечательную книгу, рекомендую её выложить на  Twirpix .

Update.

Есть ещё возможность создавать книги через скан тайлор. Там методика выглядит проще- так ка он сразу создает тифф с подложкой риссунков. Эти тифы можно пережать джвю смол и получится готовый джвю в которой потом просто вставить оср слой. Пережимать можно на томже варианте (b/w 600 DPi user). цветные картинки не пропадут!

 

 

В оглавление.

Обратно на яхту.