Суббота, 20.04.2024, 08:41
Приветствую Вас Гость | RSS
Главная | Каталог статей | Регистрация | Вход
Меню сайта
Форма входа
Категории раздела
В помощь учебе [8]
полезные советы для тех, кто учится.
полезная информация [3]
В помощь учащимся
Поиск
Друзья сайта
  • Официальный блог
  • Сообщество uCoz
  • FAQ по системе
  • Инструкции для uCoz
  • Отличный заработок на майнинге
  • Статистика
    Спонсорская помощь
    Все для учебы
    Главная » Статьи » Полезные советы для тех, кто учится » полезная информация

    Базовые понятия DjVu-книгосканирования
    Основные постулаты

    (Советы опытных книгосканировщиков)
    Наиболее важные:

    1. Не используйте программу ABBYY FineReader версий 7, 8 или ниже для сканирования книг. Она корёжит получаемые скан-изображения страниц книги. Можно использовать программу ABBYY FineReader 9 для этого - но перед сканированием сбросьте там в опциях галку "Исправлять перекос страниц".

    2. Не сканируйте книги в чёрно-белом режиме (Black-White или Line Art или 1-bit), а ТОЛЬКО в режиме серого (Greyscale, или 8-bit) или цветного (Color, или 32-bit) - если книга содержит цветные рисунки. Сканирование в чёрно-белом режиме приводит в итоге к необратимому ухудшению качества получаемой DjVu-эл.книги. Данный режим сканирования задаётся в интерфейсе сканера - т.е. в том окне, которое появляется после нажатия в программе кнопки "Сканировать".

    3. Не сканируйте в формат JPG. Формат JPG "размывает" скан-изображения страниц книги.

    4. Не используйте опцию "Заменять неуверенно-распознанные символы их изображениями" - когда создаёте Pdf-эл.книгу в ABBYY FineReader - такие эл. книги выглядят ужасно.
    Прочее:

    5. Сканируйте книги в формат TIF и с разрешением не менее 300 DPI. Для наиболее высокого качества сканируйте с разрешением 600 DPI.

    6. Не пожалейте 2-3 вечера и освойте использование таких программ, как ScanKromsator 5.6A и BookRestorer 4.1. Эти программы позволяют радикально облагородить "сырые" сканы (т.е. получаемые непосредственно от сканера) перед закодированием их в формат DjVu.

    7. Не используйте формат Pdf для создания электронной версии бумажной книги. Взамен используйте формат DjVu (кроме случаев полной ручной свёрстки текстовой Pdf-эл.книги). Электронные книги в формате DjVu занимают меньший размер (по сравнению с Pdf), не "тормозят" в просмотрщике (в отличие от Pdf), и имеют более чёткий текст, чем Pdf.

    8. Для просмотра файлов в формате DjVu под Windows используйте программу WinDjView - все прочие варианты значительно хуже.

    9. Сохраняйте полученные "сырые" сканы книг на болванку (CD-R или DVD+R) - чтобы обезопасить себя от их случайной утраты.

    Концептуальная схема DjVu-книгосканирования

    1. Сканирование бумажной книги. В результате получаются т.н. "сырые сканы"- серые или цветные необработанные изображения страниц книги. Смысл - получение "сырья" для будущей электронной книги. Рекомендуемая программа - Irfan View.

    2. Обработка сырых сканов. Это "облагораживание" сырых сканов (другое название - "кромсание"). Смысл - задать хорошее качество будующей электронной книги. Иначе (если довольствоваться "сырыми сканами") такой электронной книгой будет практически невозможно воспользоваться. Рекомендуемая программа - ScanKromsator, BookRestorer.

    3. Кодирование обработанных сканов в формат DjVu (можно в Pdf, но это хуже). Смысл - радикально уменьшить размер "облагороженных" сканов без серьёзной потери качества. В результате электронными книгами столь малого размера становится возможным обмениваться через Интернет. Есть и другие плюсы. Рекомендуемая программа - DjVu Small, Document Express Enterprise 5.1 (DEE 5.1).

    4. Добавление текстового OCR-слоя (не обязательно). Смысл - дать читателям возможность копирования цитат, а также поиска по ключевым словам. Обе эти возможности довольно нужны и важны. Рекомендуемая программа - ABBYY FineReader 8.0, DjvuOCR 2 и выше.

    Примечание: Перечисленные программы можно скачать в разделе Итоги по DjVu-программам.
    Основные термины

    Двоичное исчисление - Способ записи любого числа при помощи единиц и нулей. Производные понятия - "восьмеричное исчисление", "шестнадцатеричное исчисление". См. Описание.

    Растровое изображение - Неформализованная картинка, хранимая в виде массива пикселей.

    Векторное изображение - Формализованная картинка, хранимая в виде команд на построение изображения. См. Описание

    Пиксель - Элементарный элемент растрового изображения. Имеет монотонный цвет по всей своей площади.

    Глубина цвета - Битовая разрядность растрового изображения. Количество бит, выделяемое для описания одного пикселя изображения, например: 1 - для чёрно-белого (или B/W), 8 - для серого (или Grey), 24 - для цветного (или Color).

    Чтобы выяснить глубину цвета данного файла, нужно щёлкнуть правой кнопкой мыши на пиктограмме файла, и выбрать (в WinXP): Свойства -> Вкладка "Сводка" -> Кнопка "Дополнительно":



    BW (или B/W) - Чёрно-белое изображение, т.е. "Black and White". Каждый пиксель описан 1 битом, поэтому изображение содержит лишь 2 цвета - чёрный и белый. Часто называется также "битмап" (bitmap) или "чёрно-белые сканы", или "bw", а также "Line Art" - штриховая графика.

    Greyscale (или Grayscale) - Серое изображение. Каждый пиксель описан 1 байтом (т.е. 8 бит), поэтому изображение содержит 256 оттенков серого цвета. Часто называется также "изображение в градациях серого", или "полутоновое изображение", или просто "серые сканы".

    Color - Цветное изображение. Каждый пиксель описан 4 байтами (т.е. 32 бита) и формируется из смеси красного, синего, зелёного цветов (по 1 байту на каждый такой канал цвета) плюс 1 байт идёт на описание прозрачности, поэтому изображение содержит 16,7 млн. цветных оттенков.

    Бинаризация - Процедура преобразования из Greyscale или Color в BW. Может быть (в зависимости от алгоритма) пороговой, адаптивной, энтропийной, и т.д.

    Порог бинаризации - Номер серого цвета, всё светлее которого становится белым, а всё темнее - чёрным (при бинаризации).

    Разрешение - Условная величина. Количество пикселей на единицу условной метрической длины растрового изображения. Измеряется в DPI (dots per inch) - "точек на дюйм". Значение DPI, длина и ширина изображения в пикселях хранятся в заголовке растрового файла - и, исходя из этих параметров, графические программы вычисляют условные метрические длину и ширину растрового файла (в дюймах или сантиметрах).

    Ресемплинг - (англ. "Resampling" - "Перевыборка" ). Процедура "переразбиения" на пиксели растрового изображения - ради увеличения/уменьшения количества пикселей изображения. При этом всегда изменяется разрешение (DPI) и всегда меняется размер файла растрового изображения. Не путать с "ресайзингом" - изменением условных метрических размеров изображения с пропорциональным изменением его разрешения - при этом размера файла изображения НЕ МЕНЯЕТСЯ. См. Описание.

    Повышающий ресемплинг (или Апсемплинг - от англ. "Upsampling"). Частный случай ресемплинга. Процедура увеличения количества пикселей в изображении за счёт интерполяции цветов соседних пикселей. Не добавляет реальную информацию в изображение.

    Понижающий ресемплинг (или Даунсемплинг - от англ. "Downsampling"). Частный случай ресемплинга. Процедура уменьшения количества пикселей в изображении. Необратимо уменьшает реальную информацию в изображении. Также называется ещё "Субдискретизация".

    Яркость - Субъективный показатель "осветлённости" изображения. Влияет на все пиксели изображения. Большая или меньшая яркость задаётся просто оптовым увеличением/уменьшением номеров цветов всех пикселей изображения.

    Контрастность - Степень "различности" самых светлых и самых тёмных пикселей изображения. При увеличении контрастности пикселы, имеющие яркость выше некоторого значения, приобретают еще большую яркость, а пикселы, имеющие яркость ниже некоторого значения, становятся еще темнее.

    Гамма - Параметр, влияющий на среднеяркие пиксели ("антипод" контрастности). При изменении гаммы самые светлые и самые тёмные пиксели изображения не меняются.

    Гистограмма - Линейно-столбчатый график, отображающий процентное распределение яркости по всем пикселям изображения. Служит наглядным измерительным инструментом, характеризующим изображение. См. Описание.

    Муар - Нежелательный узор, возникающий при наложении двух периодических сетчатых рисунков. См. Описание.

    Dithering (Дизеринг, или "Растрирование", а также "Клиширование") - Автоматическая процедура, преобразующая Greyscale-изображение в чёрно-белое особым способом - исходное изображение рисуется мелкими чёрно-белыми точками одинакового размера, но через точно алгоритмически рассчитанное расстояние друг от друга. В результате достигается оптическая иллюзия исходного Greyscale-изображения, хотя рисунок уже на самом деле чёрно-белый. Dithering применяется для бинаризации Greyscale-рисунков на сканах книг, т.к. обычная бинаризация нередко портит такие рисунки. См. Описание.
    Deskew - (От англ. "skew" - наклон, склон, скос, уклон). "Дескью" (также "Ортогонизация"), или автоматическая процедура устранения углового перекоса страницы.

    Когда мы сканируем лист бумаги с текстом, то, как правило, кладём этот лист на стекло сканера не строго параллельно сторонам сканера - а под небольшим углом. Поэтому на полученном скане строки текста выглядят не горизонтально. Алгоритм Deskew автоматически вычисляет угол перекоса и поворачивает скан целиком на этот найденный угол так, чтобы строки текста стали горизонтальными.
     

    Скан до Deskew
     

    Скан после Deskew

    Despeckle - (От англ. "speckle" - крапинка, пятнышко). "Деспекл", или автоматическая процедура удаления мелких "соринок" на скане. По своей природе работает только на чёрно-белых сканах - на Greyscale и Color сканы не оказывает должного эффекта.

    При сканировании текста на полученном скане часто оказываются многочисленные мелкие и мельчайшие тёмные "крапинки" (спеклы) - из-за высокой чувствительности сканирующей головки сканера. Алгоритм Despeckle автоматически удаляет такой "мусор" со скана.

    Скан до Despeckle
     

    Скан после Despeckle

    DPI - См. пункт "Разрешение".

    TWAIN-интерфейс - Стандартизованный программный язык, при помощи которого сканирующая программа "общается" со сканером. Необходим для того, чтобы любая сканирующая программа могла "понимать" любой сканер. Большинство современных сканеров поддерживают TWAIN-интерфейс.

    Anti-aliasing - Процедура сглаживания "зубцов" кривых линий на растровых изображениях. См. Описание.

    OCR - Optical Character Recognition - технология автоматического распознавания текста на его сканированном изображении. Это основная цель такой программы, как, например, ABBYY FineReader.
    Форматы растровой графики

    Основной рабочий графический формат при DjVu-сканировании - это формат TIF. Он включает в себя несколько "подформатов" или режимов - без сжатия, со сжатием, и т.д. Обратите внимание на 2 популярных режима (со сжатием данных) TIF-файла:

    Режим LZW - применяется в серых и цветных TIF-файлах.

    Режим CCIT FAX G4 - применяется в чёрно-белых TIF-файлах.

    Важная деталь: оба этих режима дают сжатие БЕЗ ПОТЕРЬ (каждый для своего класса глубины цвета).

    Эти 2 режима наиболее широко применяются в сканобработке (т.к. они дают наименьший "естественный" размер файлов).

    Возьмите любой TIF-файл и попробуйте сохранить его в режимах TIF (LZW) или TIF (CCIT FAX G4) в каком-нибудь графической программе - например, Irfan View или ACDSee. Посмотрите, насколько при этом уменьшился размер файла. Обратите внимание, что при сохранении серого или цветного изображения в режиме CCIT FAX G4 оно становится чёрно-белым.

    Кроме того, ознакомьтесь с наиболее популярными форматами растровой графики.
    Термины, используемые при работе с программой СканКромсатор

    Сдвоенный разворот
     

    Одиночный разворот

    Сдвоенный разворот - Скан, на котором видны изображения 2-х соседних страниц бумажной книги. Такие сканы получаются в случае малоформатных бумажных книг - когда весь разворот целиком помещается на стекле A4-сканера.

    Левая страница - Изображение левой страницы книги на сдвоенном развороте.

    Правая страница - Изображение правой страницы книги на сдвоенном развороте.

    Одиночный разворот - Скан, на котором видно изображение только одной страницы бумажной книги. Такие сканы получаются в случае крупноформатных бумажных книг - когда на стекле A4-сканера помещается только одна страница книги (а не разворот).

    Ошмёток - Бесполезная часть соседней страницы (на одиночном развороте) в виде вертикальной полосы.

    ОВ-символ - Малоразмерные смысловые элементы текста, далеко отстоящие от основной массы текста на скане. Например, номера страниц, элементы оглавления, значки параграфов, подписи к рисункам. Алгоритму, распознающему на скане положение контура текста, трудно опознать эти элементы как смысловые - для этого потребовалось бы проводить полноценный OCR текста на скане.
    Понятия, используемые при работе с форматом DjVu

    1. Тип DjVu-файла

    Чтобы узнать, какой перед нами тип DjVu-файла, откройте его в WinDjView, и щёлкните правой кнопкой мыши на его изображении. В появившемся контекстном меню появится пункт "Информация о странице". Если выбрать этот пункт, то мы увидим примерно такое окно:
     

    Серый или цветной DjVu-файл
     

    Чёрно-белый DjVu-файл

    Если в этом окне присутствуют многочисленные записи, содержащие слово "IW44" - значит, перед нами либо серый, либо цветной DjVu-файл. Если же в этом окне относительно мало записей, и нет упоминания о "IW44" - значит, это чёрно-белый DjVu-файл.

    1. Наличие/отсутствие встроенного OCR-текста

    Для того, чтобы узнать, содержит ли данный DjVu-файл встроенный OCR-текст, нажмите на панели управления WinDjView кнопку "Режим выделения" (с рисунком в виде буквы "I" и с маленьким чёрным треугольничком сбоку):

    Курсор мыши примет такую форму: "I".

    Затем попробуйте выделить курсором мыши произвольный участок текста. Если данный DjVu-файл содержит встроенный OCR-текст, то выделяемый мышью текст подсветится чёрным цветом:

    Теперь можете щёлкнуть правой кнопкой мыши по произвольному месту подсвеченного чёрным текста и в появившемся контекстном меню выбрать пункт "Скопировать текст". При этом выделенный текст скопируется в буфер обмена, откуда его можно будет вставить в любой текстовый редактор - MS Word, NotePad, и т.п.

    Существуют поисковые программы, которые осуществляют поиск по ключевым словам по группе DjVu-книг. Эти программы анализируют встроенный OCR-текст в каждой DjVu-книге из группы поиска.

    3. Наличие/отсутствие букмарков

    Букмарки (другие названия: Закладки, Дерево-оглавление, Bookmarks, Outline) - это навигационный механизм по DjVu-книге. Если DjVu-книга содержит букмарки, то тогда в WinDjView появляется дополнительная вкладка "Содержание". При нажатии на эту вкладку открывается окно содержания следующего вида:

    Букмарки - это стандартный навигационный механизм, предусмотренный официальными спецификациями формата DjVu. Практически любой современный DjVu-просмотрщик способен отображать букмарки. Исключение составляет программа OpenDjVu - имеющая свой особый формат букмарков, несовместимый со стандартным.


    Категория: полезная информация | Добавил: vellior (16.02.2009) | Автор: monday2000.
    Просмотров: 1522
    Добавлять комментарии могут только зарегистрированные пользователи.
    [ Регистрация | Вход ]
    Бесплатный хостинг uCozCopyright MyCorp © 2024