рекомендации

четверг, 15 октября 2009 г.

man DJVU

DJVU(1) DjVuLibre-3.5 DJVU(1)
 
НАЗВАНИЕ
DjVu - DjVu и DjVuLibre.
 
ВВЕДЕНИЕ
Хотя интернет представляет собой всемирную сеть, где имеется большое количество библиотек, многие книги до сих пор существуют только в бумажном варианте. Многие библиотеки и собственники контента в настоящее время оцифровывают свои коллекции. Хотя прикладываются большие усилия для конвертирования бумажных документов в электронные форматы (например, основанные на SGML), большая трудоемкость сдерживает этот процесс. Сканирование документов и подготовка полученных электронных изображений не только значительно дешевле, но и позволяет сохранить внешний вид документов.

 
Несмотря на быстрое увеличение скорости сетевых соединений и мощности компьютеров, количество отсканированных документов, размещенных в сети, относительно невелико. На это есть несколько причин.
 
Первая причина – это относительно высокая стоимость сканирования, если не считать черно-белое сканирование. Решение этой проблемы продвигается довольно медленно с появлением быстрых и дешевых цветных сканеров с механизмом подачи бумаги.
 
Вторая причина – это устаревшие стандарты сжатия и форматы файлов для представления сканированных документов в высоком разрешении, особенно цветных документов. Непрактично не только время загрузки и размер файлов, но и большое время декодирования и рендеринга. Обычная журнальная страница, сканированная в цвете с разрешением 100 dpi в формате JPEG обычно имеет размер от 100 до 200 КВ, но текст будет плохо читаемым на мониторе и совершенно нечитаемым при печати. Эта же страница с разрешением 300  dpi имеет качество, достаточное для просмотра и печати, но ее размер составляет от 300 до 1000 КВ, что затрудняет закачку из сети. Кроме того, цветное изображение разрешением 300 dpi размера letter после декодирования занимает в памяти 24 МВ, что легко может привести к своппированию на диск.
Третья причина – то, что цифровые документы – это не просто коллекция отдельных изображений страниц. Страницы имеют определенный порядок нумерации. Дополнительное программное обеспечение требуется, чтобы расположить страницы, как удобно конечному пользователю. Даже более важно, что большинство существующих форматов документов заставляют пользователя загружать весь файл, чтобы выбрать нужную страницу. Однако пользователям часто необходимо просмотреть отдельные страницы в документе без ожидания загрузки всего файла. Эффективный просмотр подразумевает быстрый доступ к любой странице, быстрое перелистывание страниц и быстрый рендеринг. Это может быть достигнуто при комбинации эффективного сжатия, предварительного декодирования, кэширования и прогрессивного рендеринга. DjVu разделяет каждую страницу на компоненты (текст, фон, изображения, библиотеки общих объектов), которые могут быть использованы для нескольких страниц и загружены по требованию. Все это сделано для обеспечения простого, но экономного контрольного механизма для обработки загрузки по требованию, предварительного декодирования, кэширования и быстрого рендеринга изображений страниц. То есть это не просто технология сжатия изображений, а платформа для доставки документов.
 
DjVu – это технология сжатия изображений, формат документов и софтверная платформа для представления документов в интернете, которая удовлетворяет перечисленным выше требованиям.
 
СЖАТИЕ ИЗОБРАЖЕНИЙ DJVU

сжатие изображений DJVU основано на трех технологиях:
 
DjVuPhoto
DjVuPhoto, также известное как IW44, это  технология сжатия нерастрированного изображения, основанная на вэйвлет-преобразовании, с последовательным декодированием/рендерингом. Лучший результат получается при сжатии цветных или черно-белых фото. Изображения обычно имеют размер в два раза меньше JPEG при таком же качестве.
 
DjVuBitonal
DjVuBitonal, также известное как JB2, это битональное сжатие изображения, которое использует преимущество повторений очень похожих объектов на странице (таких как символы) для эффективного сжатия изображений текста. Лучше всего использовать для черно-белых изображений с текстом или простыми рисунками. Страница с разрешением 300 dpi, сжатая DjVuBitonal, имеет размер 5 -25 КВ (в 3 – 8 раз меньше, чем TIFF-G4 или PDF).
 
DjVuDocument
DjVuDocument – это технология сжатия, специально разработанная для цветных цифровых документов, включающих как текст, так и изображения, таких как журнальные страницы. DjVuDocument представляет изображения в отдельно сжатых слоях. Слой переднего плана обычно сжат с помощью DjVuBitonal и включает текст и рисунки. Фоновый слой обычно сжат с помощью DjVuPhoto и содержит текстуру фона и изображения в низком разрешении.
 
ПЛАТФОРМА РАСПРОСТРАНЕНИЯ ДОКУМЕНТОВ DJVU
Технология DjVu спроектирована с нуля для эффективного распространения цифровых документов в интернете. Она обеспечивает различные подходы для создания многостраничныхдокументов, внедрения в контент гиперссылок, метаданных, текста с возможностью поиска и т.д.
 
типы MIME
Формат DjVu  - это официальный MIME тип image/vnd.djvu, который является разрешенным типом контента для http серверов. Неофифицальные типы mime, использовавшиеся ранее, это image/x.djvu и image/x-djvu, которые до сих пор встречаются. В идеале клиенты должны быть настроены для обработки всех трех типов. (для помощи в конфигурации веб-серверов смотрите веб-страницу  http://www.djvuzone.org/support/tutorial/chapter-authoring1.html).
 
Связанные многостраничные документы
Связанный многостраничный DjVu документ использует один файл для представления  всего документа. Этот файл включает как все страницы, так и служебную информацию (например, директория страницы, общие данные нескольких страниц, изображения и т.д.). Использование формата единого файла очень удобно для хранения документов или для отправки их как присоединенного файла к почтовому сообщению. Когда вы введете URL многостраничного документа, DjVu-плагин браузера начнет закачивать весь файл, но покажет только первую страницу, как только загрузит ее. Вы можете сразу же просматривать документ. При этом исходный документ сохраняется на удаленном веб-сервере. Вы можете просмотреть первую страницу и определить, тот ли это документ, который вам нужен. Хотя вы можете никогда не увидеть другие страницы документа, браузер загружает данные этих страниц и занимает канал вашего сервера. Вы также можете просмотреть сведения о документе на первой странице и переместиться на страницу 100. Но страница 100 не может быть показана, пока данные страниц 1-99 не будут загружены. Эта вторая проблема (ненужное ожидание) может быть решена использованием опции “byte serving” протокола HTTP/1.1. Эта опция должна поддерживаться веб-сервером, прокси-сервером и кэшем браузера. Byte serving однако не решает первую проблему (загрузка канала).
 
Непрямые многостраничные документы
Непрямые многостраничные DjVu документы решают обе проблемы. Непрямой многостраничный DjVu документ состоит из нескольких файлов. Главный файл называется индексным. Вы можете просматривать документ, используя адрес индексного файла, как будто это связанный многостраничный документ. Индексный файл однако очень маленький. Он просто содержит директорию документа и адреса документов, содержащих данные страниц. Когда вы просматриваете непрямой многостраничный документ, браузер загружает данные только той страницы, которую вы просматриваете. Это поможет увеличить скорость просмотра, так как браузер использует кэширование данных и иногда заранее загружает несколько страниц, следующие за той, которую вы просматриваете в данный момент. Эта модель использует пропускную способность канала более эффективно. Она также уменьшает ненужные задержки, возникающие при перемещении по длинному документу.
 
Примечания
Каждое DjVu изображение опционально включает блоки примечаний. Блок примечаний часто используется для определения гиперссылок на другие страницы документа или на другие веб-страницы. Блоки примечаний могут также использоваться для других целей, таких как установка режима просмотра страницы, определение зон первого плана или хранение произвольных метаданных о странице.
 
Скрытый текст
Каждое изображение DjVu опционально включает слой скрытого текста, который объединяет графические возможности с соответствующим текстом. Слой скрытого текста обычно создается с помощью программ распознавания текста. Текстовая информация обеспечивает возможность индексирования DjVu  документов и копировать/вставлять текст из страниц DjVu.
 
Миниатюры
DjVu документы иногда включают миниатюры для предпросмотра страниц.
 
DJVUZONE и DJVULIBRE
Технология DjVu была создана несколькими исследователями в AT&T Labs в период 1995 – 1999 гг. Lizardtech, Inc. (http://www.lizardtech.com) получила коммерческую лицензию от AT&T и продолжила разработку. В настоящее время они имеют несколько решений для создания и распространения документов с использованием технологии DjVu.
Веб-сайт DjVuZone (http://www.djvuzone.org) поддерживается несколькими исследователями из AT&T Labs, которые создали технологию DjVu. Это независимый источник информации о технологии DjVu.
Понимая, что проприетарный формат будет иметь малое распространение, Lizardtech выпустила DjVu Reference Library под лицензией GPL в декабре 2000 года. В библиотеку полностью включены формат сжатия и элементарные кодеки. Через 6 месяцев Lizardtech выпустила усовершенствованный релиз, а также исходный код вьювера для Unix.
Эти два релиза составляют основу нашего программного обеспечения DjVuLibre. Мы модифицировали дистрибутив с учетом пожеланий open source community. Устранены различные баги и проблемы с переносимостью. Мы также попытались сделать его более легким в установке и использовании, сохранив исходную структуру релизов Lizardtech.
 
Программное обеспечение DjVuLibre включает следующие компоненты:
 
bzz(1) – главная утилита командной строки для сжатия. Многие внутренние структуры данных DjVu сжимают, используя эту программу.
с44(1) – декодер DjVuPhoto командной строки. Это основанный на вэйвлет-сжатии архиватор, который конвертирует изображения форматов PPM или JPEG в DjVuPhoto.
cjb2(1)  -  декодер DjVuBitonal командной строки. Этот компрессор создает изображения DjVu из PBM изображений. Он может сжимать изображения без потерь или с малыми потерями для улучшения степени сжатия. Режим сжатия без потерь не уступает коммерческим аналогам от Lizardtech.
cpaldjvu(1) – декодер DjVuDocument командной строки для рисунков с несколькими цветами. Этот декодер лучше всего использовать для сжатия изображений с небольшим количеством отдельных цветов (например, скриншотов). Доминирующий цвет декодируется как фоновый слой, а другие цвета – как слой переднего плана.
csepdjvu(1) – декодер DjVuDocument командной строки для отделенных рисунков. Декодер обрабатывает файл, содержащий предварительно сегментированные изображения фона и переднего плана, и создает изображение DjVuDocument.
ddjvu(1) – декодер командной строки для изображений DjVu. Эта программа создает изображение PNM, представляющее любой фрагмент любой страницы документа DjVu в любом разрешении.
djview(1) – отдельный просмотровщик для изображений DjVu, включающий средства навигации по документу, такие как зумирование и прокрутка.
nsdejavu(1) – плагин браузера для просмотра изображений DjVu. Этот небольшой плагин позволяет просматривать документы DjVu в веб-браузерах. Для работы он использует ядро djview.
djvups(1) – инструмент командной строки для конвертирования документов DjVu в PostScript.
djvm(1) – инструмент командной строки для управления связанными многостраничными документами DjVu. Эта программа часто используется для собирания отдельных страниц и создания связанного документа.
djvcvt(1) – инструмент командной строки для конвертирования связанных документов в непрямые и обратно.
djvused(1) – мощный инструмент командной строки для обработки многостраничных документов, создания и редактирования аннотаций, создания или редактирования скрытых текстовых слоев, подготовки изображений для предпросмотра и т.д.
djvutxt(1) – инструмент командной строки для извлечения скрытого текста из документов DjVu.
djvudump(1) – инструмент командной строки для проверки файлов DjVu и просмотра их внутренней структуры.
djvuextract(1) – инструмент командной строки для дизассемблирования файлов DjVu.
djvumake(1) – инструмент командной строки для сборки файлов изображений DjVu.
djvuserve(1) – программа CGI для создания непрямых многостраничных документов DjVu на лету.
djvutoxml(1), djvuxmlparser(1) – инструменты командной строки для редактирования метаданных DjVu как XML-файлов.
 
ЕНКОДЕРЫ DJVU И ANY2DJVU
DjVuLibre комплектуется различными специализированными енкодерами: c44(1) для фотографий, cjb2(1) для битональных изображений и cpaldjvu(1) для изображений с несколькими отдельными цветами. Хотя эти енкодеры хорошо выполняют свои специализированные задачи, они не могут выполнять комплексные операции, включающие сегментирование и многостраничное енкодирование.
 
Коммерческие продукты Lizardtech (см. http://www.lizardtech.com/solutions/document) обеспечивают решение комплексных задач.
 
Другое решение обеспечивается сервером сжатия на http://any2djvu.djvuzone.org. Он использует прототипы енкодеров от AT&T Labs и выполняют практически те же операции, что и коммерческие продукты Lizardtech. Однако необходимо отметить, что сервер сжатия Any2DjVu не дает никаких гарантий на результаты своей работы, поэтому его нельзя использовать, если ваши документы содержат конфиденциальные данные.
 
 
DjVuLibre-3.5 10/11/2001 DJVU(1)
(END)

скачать в формате PDF

Комментариев нет:

Отправить комментарий