background image

PDF czy DjVu, w którą stronę?

   

Wprowadzenie

   

Skanowane publikacje elektroniczne

   

Publikacje wygenerowane elektronicznie, zawierające bardzo dużą liczbę szczegółów

   

Dokumenty tekstowe wydane w formacie co najwyżej A4

   

Problemy bezpiecznego udostępniania publikacji elektronicznych

   

Problemy występujące sporadycznie

   

Publikacje DjVu wykonane na bazie publikacji pdf (IPN Warszawa, PWT Wrocław)

1. Wprowadzenie.

Publikacje   elektroniczne   w   odróżnieniu   od   wydawnictw   papierowych,   dzięki   zdecydowanie   niższym   kosztom

wydania,  umożliwiają   coraz   większej   liczbie   przedsiębiorstw,  oficyn   wydawniczych   lub  bibliotek   publikowanie   własnych
prac,  bieżące   archiwizowanie   dokumentacji   itp.  Dla  bibliotek   czy   też  archiwów  dokumentowych   pojawiła  się   możliwość
wyeksponowania   własnych   zbiorów,   efektywnego   udostępniania   dokumentów   za   pośrednictwem   sieci   lokalnych   lub
rozległych, a digitalizacja oraz nowe technologie teleinformatyczne stały się podstawą do tworzenia interaktywnych oraz
multimedialnych  publikacji, dzięki  którym czytelnicy czy  tez  osoby,  do których  są kierowane, otrzymali  zupełnie nową
jakość w korzystaniu z opublikowanych zbiorów, zwłaszcza tych starszych, jak rękopisy czy stare druki, do których dostęp
bardzo często był utrudniony ze względów bezpieczeństwa.

Pojawia się zatem pytanie, w jaki sposób czy też właściwie w jakim formacie publikować dokumenty ?

Bez względu na to, czy digitalizowane dokumenty zawierają wyłącznie tekst, grafikę, tabele czy
też kolorowe zdjęcia, ich zawartość nie powinna w priorytetowy sposób stanowić o tym, w jakiej
postaci   zostaną   udostępnione.   Należy   również   zwrócić   uwagę   na   to,   że   formaty   dokumentów,
które   umożliwiają   wiarygodny   wydruk   o   satysfakcjonującej   jakości   w   postaci   papierowej,
niekoniecznie   muszą  posiadać  określone   walory   sprzyjające   temu, by   mogły   posłużyć  także  do
efektywnego   publikowania   elektronicznych   dokumentów   za   pośrednictwem   -   dla   przykładu   -
internetu. W tym momencie trudno nie zgodzić się z opinią, że do jednych z najlepszych formatów
plików   służących   wydaniu   dokumentów   w   postaci   papierowej   należy   format   Adobe   Illustratora

oraz   format   sędziwego   Adobe   Acrobata,   czyli   pdf.   Jednak   bez   względu   na   potrzebę   lub   atrakcyjność   dokumentu
papierowego, nie można pominąć wagi jaką już zdobył dokument elektroniczny. A na tym polu w/w formaty coraz częściej
nie spełniają wielu oczekiwań zarówno ze strony publikującej dokumenty elektroniczne jak i ze strony zapoznającej się z
ich zawartością.

Ponad sześć lat temu - dzięki matematykom koncernu AT&T - pojawił się nowy format plików -
DjVu. Jest zatem od formatu pdf około 10 lat "młodszy". Format DjVu powstał tak naprawdę jako
odpowiedź   na   narastającą   ilość   życzeń   i   krytycznych   uwag  w   stosunku   do   możliwości,   które
oferuje   format   pdf.   Zamysł   twórców   nowego   formatu   odzwierciedlony   został   nawet   w   jego
nazwie. Ponownie - niczym deja vu - zaprezentowano na rynku format do ... przechowywania,
drukowania  i   publikowania  dokumentów.  Pojawienie   się  formatu  DjVu   nie  oznacza  absolutnie
tego,   że   z   dnia   na   dzień   wszystkie   publikacje   elektroniczne   prezentowane   będą   w   nowym
formacie.   Oznacza   jedynie,   że   obecnie   można   dokonać   świadomego   wyboru   dla   formatu
publikowanych   dokumentów   tak,   by   jakość   i   sposób   opublikowanych   zbiorów   zachęcały
czytelników do zapoznania się z ich treścią.

Podobnie jak naturalnym jest to, że wady czy też braki w oferowanym narzędziu informatycznym (lub formacie) są

przyczyną   powstania   kolejnego   narzędzia   (lub   formatu)   pozbawionego   wad,   a   zatem   lepszego,   to   równie   trudno   jest
przypuszczać,   że   oferowany   od   ponad   sześciu   lat   format   dokumentów   DjVu   jest   jedynie   porównywalny   lub   niewiele
atrakcyjniejszy   od   formatu   pdf.   Gdyby   tak   było,   ciężkie   prawa   rynku   po   dwóch-trzech   latach   obecności   zapewne
wykluczyłyby go z  "gry". Ponieważ  popularność formatu DjVu stale wzrasta, można pokusić się o wskazanie tych cech,
które świadczą o jego sile.

 

 Dokumenty w formacie DjVu są niemodyfikowalne, a co za tym idzie wiarygodne względem oryginału, z którego

powstały.

 Format DjVu jest formatem otwartym, a nieodpłatne dla wszelkich zastosowań przeglądarki dokumentów DjVu

dostępne są niemal dla każdego systemu operacyjnego.

 Rozmiary dokumentów DjVu są nieprawdopodobnie małe i to nie za sprawą usilnie podnoszonego stopnia kompresji

(jak w przypadku plików jpg), co obniżyłoby jakość dokumentu elektronicznego.

 Format DjVu jest jedynym formatem dla dokumentów wielostronicowych, w którym czas konieczny do zapoznania

się z zawartością strony - dla przykładu - nr 3, jest taki sam jak czas potrzebny do zapoznania się ze stroną np. nr
1500. W odróżnieniu od starszych formatów dokumentów, dla DjVu nie jest wymaganym, by najpierw należało
pobrać cały dokument, by móc zapoznać się jedynie z treścią dwóch-trzech określonych stron. Przeglądarki DjVu
potrafią pobrać jedynie wskazaną stronę dokumentu pomijając strony ją poprzedzające.

 Nawigacja po dokumentach DjVu (zwłaszcza skanowane mapy, duże plakaty, rysunki techniczne) jest

błyskawiczna. Nie występuje znane z innych formatów zjawisko ciągłego "przerysowywania" kolejno

Publikacje elektroniczne w formatach pdf i DjVu

http://www.djvu.com.pl/pdfanddjvu/DjVu_czy_pdf.php

1 of 8

2010-02-21 15:02

background image

eksponowanych fragmentów wyświetlanego dokumentu. Nawigacja przypomina raczej kolejne naciśnięcia klawisza
PageDown podczas przeglądania typowego dokumentu MS Word.

 Dokumenty DjVu posiadają wysoką jakość. Dotyczy to zarówno ich przeglądania jak i ich wydruku. Najczęściej

dokumenty DjVu publikowane są w rozdzielczościach 300, 400, 450 i 600 dpi.

 Zawartość kolejnych stron dokumentów DjVu przechowywana może być w postaci odrębnych warstw (warstwa

treści oraz warstwa tła). Dzięki możliwości ukrycia warstwy tła strony, komfort zapoznawania się - zwłaszcza - z
pożółkłymi lub  podniszczonymi stronami dokumentów jest bardzo wysoki.

 Dokumenty DjVu mogą posiadać warstwę tekstową, co umożliwia ich pełnokontekstowe przeszukiwanie i to nie

tylko w obrębie wyświetlanego przez przeglądarkę dokumentu.

 Dla dokumentu w formacie DjVu nigdy nie pojawi się problem z prawidłowym wyświetleniem dokumentu, w którym

użyto mniej popularnych czcionek (typu Math, Greek, czcionki ozdobne), a których to może nie posiadać
zainstalowanych czytelnik publikacji.

 Wiele innych cech formatu DjVu takich jak znak wodny w dokumencie, ochrona hasłami, panele graficznych

miniatur stron lub rozwijalnych spisów treści, zintegrowane w dokumencie metadane o publikacji lub  hiperłącza,
mogą być dodatkowym argumentem przekonującym do publikowania dokumentów elektronicznych w formacie
DjVu.

 

Jednak właściwości czy też walory formatu plików to tylko jedna kwestia. Czymś zupełnie odmiennym są popularność

pewnego formatu lub też indywidualne przyzwyczajenia użytkowników komputerów. Format pdf jest znany równie dawno,
jak dawno komputery używane są w biurach i przedsiębiorstwach. To oczywiście główna siła czy też podstawa ogromnej
popularności   tego   formatu.   Przygotowywanie   typowych,   małoformatowych   dokumentów   tekstowych   ze   sporadycznie
zamieszczanymi  elementami  graficznymi, w formacie pdf wielu użytkowników nie sprawia żadnego kłopotu, a powstałe
pliki prezentują się estetycznie. Pojawienie się zatem na rynku formatu DjVu wywołało nie tylko wiele dyskusji i polemik
wokół alternatywnego produktu, ale spowodowało pojawienie się przeróżnych testów porównujących walory obu formatów
i udowadaniających wyższość pierwszego formatu nad drugim lub na odwrót.

Ponieważ pliki DjVu oraz pdf powstają w przeróżny sposób (z zeskanowanych postaci dokumentu papierowego, z plików
pakietów biurowych, z plików programów CADowskich, z map bitowych, itd., itp...), praktycznie nie jest możliwym wydać
jednej jedynej oceny, który z tych formatów dokumentów jest rewelacyjny, a który - nie.

Możliwym jest  natomiast wskazać kilka sytuacji, w których  formaty  te zachowują się odmiennie. Jeżeli  akurat jedna z
takich,  przytoczonych   poniżej   sytuacji  dotyczy  dokumentów,  które   należy  opublikować,  można  rozważyć, który   format
należy   wybrać,   by   wygląd   i   funkcjonalność   utworzonego   dokumentu   elektronicznego   najbardziej   odpowiadał
oczekiwaniom.

Poniżej, przygotowano  w formie   publikacji   prezentujących   dokumenty  elektroniczne,  które   powstały  drogą  skanowania
oraz dokumenty wygenerowane elektronicznie a zapisane w formatach pdf oraz DjVu. Jako przykłady posłużyły publikacje
jednej z polskich bibliotek cyfrowych, publikującej zasoby swoich zbiorów z dużą starannością (zarówno w formacie DjVu
jak   i   w   formacie   pdf)   oraz   przykłady   znalezione   na   stronach   University   of   Wisconsin   i   Pennsylvania   Department   of
Transportation. Dodatkowo dołączono opublikowane w internecie testy magazynu Marynarki Stanów Zjednoczonych oraz
artykuł witryny 

www.planetdjvu.com

 ustosunkowujący się do publikacji z witryny 

www.planetpdf.com

.

 

Aby zapoznać się z poniższymi prezentacjami konieczne jest zainstalowanie przeglądarek formatów DjVu oraz pdf.
Dostępne są poniżej.

 

Przeglądarka

Wersja

Język

Rozmiar pliku

6.1.1

Polski

 

6.4 MB

6.1.1

English

 

6.3 MB

8.1.2

Polski

 

23.6 MB

9.0.0

English

 

33.5 MB

 

2. Skanowane publikacje elektroniczne.

Najczęściej   wskazywaną   słabością   formatu   pdf   jest   prezentowanie   za   jego   pośrednictwem   skanowanych   postaci

elektronicznych dokumentów papierowych. Uwaga ta dotyczy przede wszystkim dokumentów wielostronicowych (powyżej
30   stron   typowego   formatu)   lub   dokumentów   zawierających   strony   w   formacie   powyżej   A3.   Tak   naprawdę,   aby   nie
„zapychać” nawet wydajnych łączy internetowych dużą ilością przesyłanych megabajtów informacji, publikacje takie często
przygotowywane są w postaci mozaiki lub „tabelki” umożliwiającej pobrać tylko jedną stronę dokumentu.
W taki sposób przygotowano na uniwersytecie Wisconsin publikację unikatowej mapy III Rzeszy w formacie pdf. Publikację

tą rozszerzono o odpowiadającą jej postać DjVu i przedstawiono celem porównania 

 : 

Prezentacja 01

 .

Zwyczajowo, dokumenty DjVu prezentowane są w rozdzielczości 300 dpi dla warstwy treści oraz 100 dpi dla warstwy tła.
W powyższej prezentacji, pomimo, iż zarówno warstwę treści jak i warstwę tła wykonano w rozdzielczościach 300 dpi, a
wpływa to m.in. na zwiększenie się jej wielkości, łączny rozmiar wszystkich map w formacie DjVu wynosi 38,6 MB (średni
rozmiar jednej mapy – spośród 39 – to 0,99 MB). Mapy wykonano dlatego w taki sposób, aby były porównywalne z ich
odpowiednikami w formacie pdf, które powstały z plików tiff również o rozdzielczości 300 dpi. Kolekcja map zapisana w
formacie   pdf   zajmuje   83,7   MB   (średni   rozmiar   jednej   mapy   to   2,15   MB).   Subiektywna   ocena   jakości   dokumentów
elektronicznych zarówno w formacie DjVu jak i pdf, należy oczywiście do czytelnika. Natomiast, zwraca uwagę fakt, że ta
sama informacja (komplet map) zapisana w formacie pdf wymaga od czytelnika, by poświęcił  dodatkowy czas na pobranie
plików większych o ponad 45 MB, lub też można powiedzieć, że dzięki publikacji tej samej informacji, ale wykonanej w
formacie DjVu, jej rozmiar został zmniejszony o 54%, a czas pobrania publikacji celem zapoznania się z jej zawartością
skrócony został ponad dwa razy.

 

Publikacje elektroniczne w formatach pdf i DjVu

http://www.djvu.com.pl/pdfanddjvu/DjVu_czy_pdf.php

2 of 8

2010-02-21 15:02

background image

Polecamy kilka innych – typowo bibliotecznych – skanowanych publikacji dostępnych pod adresem :

http://www.djvu.com.pl/zastosowania_djvu_10.php

 

3. Publikacje wygenerowane elektronicznie, zawierające bardzo dużą liczbę szczegółów i posiadające duże
rozmiary
.

        Takie   publikacje   spotykane   są   najczęściej   w   biurach   projektów,   zasobach   zakładów   przemysłowych,
przedsiębiorstwach   kartograficznych.   Jednak   nie   należy   wykluczyć   ich   coraz   częstszego   pojawiania   się   w   cyfrowych
bibliotekach uczelni technicznych. W dokumentach tych istotna jest nie tylko wysoka jakość oraz błyskawiczna nawigacja
po   dokumencie,   ale   również   rozmiar   samego   dokumentu.   Wypada   zauważyć,   że   2000   lub   3000   rysunków   wcale   nie
oznacza   dla   wielu   zakładów   dużej   dokumentacji   czy   też   projektu.   Przy   takiej   zatem   liczbie   publikowanych   czy   też
udostępnionych za pośrednictwem serwera dokumentów, każde 10 MB zaoszczędzonej pojemności zaczyna mieć istotne
znaczenie.   Aby   zaprezentować   możliwości   jakie   oferuje   w  takiej   sytuacji   technologia   DjVu,   przygotowano   prezentację
opartą o publikację Departamentu Transportu Stanu Pensylwania w USA. Publikacja pierwotnie przygotowana została w
formacie pdf. Podobnie jak w poprzedniej prezentacji, można zapoznać się zarówno z jej postacią w formacie DjVu jak i w
formacie pdf.

Wydawać by się mogło, że wektorowy zapis gwarantuje nie tylko bardzo wysoką jakość dokumentu pdf ale również bardzo
niewielki rozmiar pliku. Co do jakości plików pdf, oczywiście absolutnie zastrzeżeń wielkich mieć nie można, natomiast jak

pokazuje  

 

Prezentacja   02

,   rozmiar   takich   dokumentów   zapisanych   w   formacie   pdf   jest   czterokrotnie   większy   od

odpowiadającej jej postaci  DjVu. W  powyższej prezentacji  dokumenty w formacie  DjVu  przygotowano z  rozdzielczością
600 dpi. Ich jakość nawet w powiększeniu 1000% może być bardzo miłym zaskoczeniem, a odnosząc się analogicznie jak
w pierwszej prezentacji do różnicy pojemności plików pdf i DjVu, w tym przypadku, zastosowanie technologii DjVu daje
zmniejszenie rozmiaru publikacji o 74%.

Dodatkowego   wyjaśnienia   wymaga   jeszcze   zaprezentowana   opinia   w   stosunku   do   jakości   plików   pdf   :   „zastrzeżeń
wielkich mieć nie można
”. Zapis wektorowy jest nie tylko ogromną zaletą formatu pdf, ale niekiedy prowadzi do tak
dalece zafałszowanego przedstawienia publikacji, że praktycznie może to wykluczyć ten format dla takich zastosowań. W
powyższej prezentacji zwrócono już uwagę, że linie południków i równoleżników do pewnego powiększenia dokumentu pdf
są tak grube i wyraźne, że zdawać by się mogło iż stanowią  - nie zespół linii pomocniczych - lecz najważniejszą część
dokumentu.   Podobnie   zresztą   jak   drogi   boczne,   które   im   większe   pomniejszenie   mapy,   tym   bardziej   przypominają
autostrady. Oczywiście, powyżej powiększenia rzędu 150%, zapoznawanie się z dokumentem pdf jest już wygodne i nie
stwarza problemów. Ale ta słabość formatu pdf w prezentacji 02 została jedynie zasygnalizowana.

Poniżej przedstawiono wygląd dokumentu zapisanego w formacie DjVu oraz w formacie pdf jako „zrzut ekranu” czy też
„screenshot”.

Rezygnacja   z   udostępnienia   tego   dokumentu   w   formacie   pdf   wynika   stąd,   że   zajmuje   on   32.646   kB   a   nawigacja   po
dokumencie   jest   tak   powolna,   że   zniechęca   nawet   bardzo   cierpliwych.  Tak   naprawdę   postać  taka   nadaje   się   tylko   do
jednego – do ładnego wydruku dokumentu w postaci papierowej. Z cyfrową postacią DjVu wspomnianego tu dokumentu o

pojemności 1.791 kB, a zatem mniejszą od odpowiednika w formacie pdf o 95%, można zapoznać się 

 : 

rysunek 01

.

 

Postać dokumentu w przeglądarce Acrobat Reader 7.0.5 PL

 

 

Postać dokumentu w przeglądarce DjVu Browser 6.1.0 PL

 

Publikacje elektroniczne w formatach pdf i DjVu

http://www.djvu.com.pl/pdfanddjvu/DjVu_czy_pdf.php

3 of 8

2010-02-21 15:02

background image

 

W obu przypadkach przeglądarki przedstawiają identyczny dokument, z tym, że jego wyglądy dalekie są wzajemnie
od identyczności. Nasuwa się zatem pytanie : Jak naprawdę wygląda opublikowany dokument?

Dokument wygląda tak, jak przedstawia go przeglądarka DjVu.

 

W   sytuacjach   kiedy   w  dokumencie   występuje   dużo   linii   położonych   blisko   siebie   (na   przykład  obszar   zakreślony   linią
pochyłą), przeglądarka dokumentów pdf wykreśli każdą z linii osobno i w rezultacie można obejrzeć jedynie jednobarwną
plamę. Oczywiście sukcesywnie powiększając wyświetlany fragment, obraz w pewnym momencie stanie się czytelnym, czy
też  przestanie być nieczytelnym. Natomiast dlaczego plamą jest  również  szary  rastrowy  podkład w przeglądarce pdf –
trudno nam uzasadnić.

Praktycznie  powyższy  przykład jest  jednym z   najbardziej przemawiających  za tym,  że  format  pdf jest  optymalnym do
przenoszenia   jego   zawartości   na   postać   papierową   a   nie   do   przygotowywania   publikacji   elektronicznych,   z   którymi
czytelnik   przede   wszystkim   zapoznaje   się   po   wyświetleniu   ich   na   monitorze.   Prezentacja   02   pozwala   również   nabrać
przekonania, że publikując w formacie pdf zasoby, które nie są typowymi dokumentami tekstowymi, zawierają elementy
grafiki  opisanej wektorowo oraz posiadającymi  rozmiar  większy  od A4 (co powoduje, że przeglądarki  wyświetlają go w
całości   z   dużym   pomniejszeniem),   bardzo   łatwo   jest   wprowadzić   w   błąd   czytelnika   a   tym   samym   zniechęcić   go   do
zapoznawania się z innymi opublikowanymi zasobami.

 

4. Dokumenty tekstowe wydane w formacie co najwyżej A4.

        Sukcesywne   obniżanie   cen   sprzętu   komputerowego   oraz   oprogramowania   pozwala   coraz   niższym   kosztem
przygotowywać   publikacje,   które   od   początku   swego   powstawania   przeznaczone   są   do   udostępniania   w   postaci
elektronicznej. Takiemu  stanowi  rzeczy sprzyja również  polskie ustawodawstwo, nakazujące m.in. dołączać do każdego

produktu na polskim rynku polskojęzyczną instrukcję obsługi. Koncerny takie jak SAMSUNG 

 czy LG ELECTRONICS 

 szanując różne przyzwyczajenia swoich klientów, publikują instrukcje zarówno w formacie DjVu jak i w pdf.

Czy tak proste z punktu widzenia ich budowy (tekst, przeciętny rozmiar, niewielka ilość obiektów graficznych, zaledwie
kilka   typowych   czcionek   pisarskich)   dokumenty   DjVu   i   pdf   mogą   posiadać   znaczące   różnice   w   funkcjonalności,
przydatności   ...?   Nie,   takich   różnic   wskazać   nie   można,   a   przynajmniej   nie   takich,   które   przesądziłyby   o   całkowitej
nieprzydatności jednego z tych formatów. Czasem jednak dziwią różnice wielkości na pozór tych samych – ze względu na
zawartość   -   dokumentów   pdf.    Dolnośląska   Biblioteka   Cyfrowa   opublikowała   książkę   „Język   C++   programowanie
obiektowe
” (publikacja dostępna jest 

 : 

http://www.dbc.wroc.pl/dlibra/publication/954

). Publikacja jest dopracowana,

funkcjonalna o wysokiej jakości i zadowalającej szybkości nawigacji. Cóż więcej ? Uwagę zwraca jedynie jej rozmiar. 130
stron  tej publikacji  zajmuje 9.866  kB. Ta sama Biblioteka, niemal  jednocześnie  opublikowała podobną książkę  „Język
C++   w   środowisku   Borland   C++
”   (publikacja   dostępna   jest  

 :  

http://www.dbc.wroc.pl/dlibra/publication/952

),

składającą się  ze 195 stron  (tzn. dokładnie 50%  stron  więcej). Podobnie  jak  w poprzedniej publikacji  szata graficzna,
jakość i szybkość nawigacji są bez zastrzeżeń. Ale rozmiar publikacji 50% obszerniejszej wynosi 1.926 kB. Można było
oczekiwać   –   porównując   ilość   podobnych   zawartością   stron   -   objętości   rzędu   50%   większej.   Okazuje   się,   że   druga
publikacja jest mniejsza i  to o ponad 80% od mniejszej ilością stron  publikacji. Na pytanie, dlaczego pojawiają się aż
takie   rozbieżności   przy   tak   znikomej   odmienności   zaprezentowanej   treści,   a   właściwie   jak   przewidzieć,   jaką   wielkość
posiadać będzie dopiero co tworzona przez nas publikacja, zapewne odpowiedzieć potrafią jedynie informatycy a nie zwykli
użytkownicy oprogramowania.

Pozostawiając problem nieprzewidywalnego rozmiaru przeciętnej strony w dokumentach pdf, powrócić można do tego, co
dla   takiego   typu   publikacji   z   kolei,   oferuje   technologia   DjVu.   Przytoczone   powyżej   książki   –   dla   zaprezentowania   w

formacie DjVu - wykonano z rozdzielczością 600 dpi. 

Publikacja 130 stronicowa

 

 zajmuje w formacie DjVu 888 kB i

to różnica jest znacząca, bo publikacja jest mniejsza aż o 91%. Z kolei 

publikacja 195 stronicowa

 

 zajmuje 1.752

kB co daje – nazwijmy to oszczędność symboliczną – bo zaledwie 9%.

Tak   bardzo   odmienne   wyniki   porównywanych   -   a   różniących   się   niewiele   rodzajem   zawartej   w   nich   informacji   –
dokumentów, prowadzi do wniosku, że skoro dokumenty DjVu w stosunku do odpowiadających im dokumentów w formacie
pdf, mogą w pewnym przypadku być od nich mniejsze o 9%, w innym zaś mogą być mniejsze o 91%, to pewnie mogą też
być od nich  większe. To prawda. Nie jest  tak, że  zawsze  dokument  DjVu  musi  być  najmniejszy, ale  taki  wniosek  –  w
przypadku technologii DjVu - to jeszcze nie wszystko, jeżeli chodzi o walory jakie ona oferuje.

Bez względu na to, jak dalece zoptymalizowany zostanie zapis publikacji w formacie pdf, to aby zapoznać się z zawartością

Publikacje elektroniczne w formatach pdf i DjVu

http://www.djvu.com.pl/pdfanddjvu/DjVu_czy_pdf.php

4 of 8

2010-02-21 15:02

background image

choćby jednej jego strony, i tak konieczne jest pobranie całej publikacji lub przynajmniej takiej jej części, która zawiera
stronę z zawartością, której czytelnik zamierza się zapoznać. Operacja ta jest tym bardziej czasochłonną, im więcej stron
musi pobrać przeglądarka. W przypadku technologii DjVu, która – póty co – jako jedyna na świecie oferuje rozdzielony
zapis dokumentów wielostronicowych, użytkownik oczekuje jedynie na załadowanie się wybranej strony (wskazanej np. za
pośrednictwem załączonego spisu treści lub panelu miniatur graficznych).

Dla obu publikacji nt. języka C++ przeciętny rozmiar strony książki zapisanej w formacie DjVu to 6÷9 kB. I tylko tyle
informacji  przesyła  czytelnikowi  serwer, gdy  otrzyma polecenie  wyświetlenia określonej strony. Również  podobna ilość
informacji  potrzebna jest  do pobrania,  by  na monitorze  wyświetliła się  pierwsza strona publikacji   w formacie  DjVu.  W
sytuacji,   kiedy   dzięki   technologii   DjVu,   z   zawartością   dokumentu   zapoznawać   można   się   po   pobraniu   ok.   10   kB,
poszukiwanie drogi optymalizującej zapis dokumentu w formacie pdf z rozmiaru przykładowo 10 MB do 2 MB, wydaje się
być pomysłem mało atrakcyjnym. Wartości przytoczone powyżej – np. 10 kB, dotyczą dokumentów, o których mowa w
punkcie 4. Nie należy ich uogólniać np. w stosunku do skanowanych map, a przedstawionych w punkcie 2.

 

5. Problemy bezpiecznego udostępniania publikacji elektronicznych

Dla   elektronicznych   dokumentów   DjVu   brak   jest   jakichkolwiek   niepokojących   informacji   o   możliwości   naruszenia
bezpieczeństwa komputera osoby zapoznającej się z publikacją w tym formacie. To bardzo istotny czynnik wpływający na
to,   z   którymi   publikacjami   czytelnik   zapozna   się   bez   wahania,  a   co   do   zawartości   których   będzie   posiadać   mniej   lub
bardziej uzasadnione obawy.
W przypadku formatu pdf, zdarzają się sytuacje, w których bezpieczeństwo zapoznawania się z publikacją w tym formacie
jest kwestionowane. Aby przybliżyć problem, poniżej załączono za „Computerworld” artykuł „Dziury w pdf”, a publikowany
również na internetowej stronie „Gazety wyborczej”.

Dziury w PDF
Paweł Krawczyk 2006-09-18
David Kierznowski odkrył w programach Adobe dziury pozwalające na zdalne wykonywanie kodu przy pomocy odpowiednio
skonstruowanych plików PDF. Pliki PDF - pomimo kilku wcześniejszych dziur - uchodziły do tej pory za raczej bezpieczne z
punktu widzenia ochrony przed wirusami i końmi trojańskimi. Odkryte przez Kierznowskiego dziury wykorzystują różne
formy linków zewnętrznych wbudowanych w format PDF. Według odkrywcy problem dotyczy zarówno Adobe Readera jak i
Adobe Professional.
Pierwsza dziura wykorzystuje wbudowane w PDF linki do zewnętrznych dokumentów, dla których Acrobat bez ostrzeżenia
uruchamia zewnętrzną przeglądarkę, co według Kierznowskiego może służyć do wykonania dowolnego złośliwego kodu.
Druga dziura wykorzystuje interfejs bazodanowy (ADBC) w PDF  i  pozwala na wykonywanie niektórych funkcji  ODBC w
lokalnym   systemie.   W   zademonstrowanych   przez   autora   kodzie   proof-of-concept   pokazano   na   przykład   enumerację
lokalnych baz danych (jeśli takie istnieją) i przesłanie wyników na zewnątrz przy pomocy programu netcat.
Kierznowski twierdzi, że poza tymi dwoma dziurami opisanymi szczegółowo 

na jego blogu 

istnieje jeszcze przynajmniej

siedem podobnych podatności.

Odpowiedź   Adobe  Adobe   opublikowało w ostatnich  dniach   jedno  ostrzeżenie   na temat  potencjalnych   dziur  w swoich
programach   w   dokumencie   321644,   jednak   dotyczy   on   przepełnienia   bufora   a   nie   opisanych   wyżej   błędów.   Należy
oczekiwać, że na odpowiedź i poprawki Adobe do opisanych przez Kierznowskiego błędów przyjdzie jeszcze poczekać.
Do   tego   czasu   należy   być   ostrożnym   w   otwieraniu   pobieranych   z   sieci   plików   PDF.   Kierznowski   na   swojej   stronie
opublikował dwa przykładowe pliki PDF, które demonstrują jakie mogą być konsekwencje: 

pierwszy

 przenosi od razu po

załadowaniu na zewnętrzną stronę WWW, 

drugi

 pod Windows powinien uruchomić enumerację ODBC i przesłać wyniki na

port 80 na localhost.

Źródło : 

http://www.computerworld.pl/news/99548.html

lub 

http://gospodarka.gazeta.pl/gospodarka/1,33181,3626426.html

Przeczytaj również : 

http://michaeldaw.org/md-hacks/backdooring-pdf-files/

 (artykuł w języku ang.)

6. Problemy występujące sporadycznie.

      Rzadko które przedsiębiorstwo, oficyna wydawnicza czy też biblioteka ponosząc znaczący nakład pracy przy tworzeniu
publikacji  elektronicznych, stosuje wyłącznie czcionki  dołączane do systemu operacyjnego (Arial  lub Times New Roman
G.). Odmienna  czcionka –  w  świecie  internetu  -  jest  przecież   wyróżnikiem wśród innych   wydawnictw elektronicznych.
Może nie  tak znaczącym jak np. logo przedsiębiorstwa, ale na pewno pozwalającym wskazać - często korzystającym z
zasobów elektronicznych czytelnikom - źródło pochodzenia publikacji. Gdy publikację taką przygotowano w formacie DjVu,
to   po   prostu   można   ją   udostępnić   lub  korzystać   z   niej   bez   obaw.   W   formacie   pdf   sytuacja   taka   ma   miejsce   tylko   w
przeważającej liczbie  przypadków. Jest  to przypadłość formatu  pdf, która doskwiera użytkownikom komputerów już  od
wielu lat.

W odróżnieniu od formatu DjVu, w którym każda strona dokumentu jest „tworem autonomicznym” i której poprawność
wyświetlenia   nie   zależy   od   jakiegokolwiek   innego   fragmentu   pliku,   z   którego   pochodzi,   poprawność   wyświetlania
poszczególnych   stron   publikacji   zapisanej  w  formacie   pdf  jest   ściśle   uzależniona   od  tego,  czy   przeglądarka  plików  pdf
posiada   dostęp   do   wszystkich   czcionek   i   ich   odmian,   z   których   utworzono   kolejne   strony   publikacji.   Ta   konieczność,
związana z budową plików w formacie pdf powoduje, że  osobie przygotowującej dokument zdarza się przeoczyć wydanie
polecenia osadzenia w tworzonej publikacji jednej lub paru dodatkowych czcionek, które to pojawiły się na jednej lub kilku
stronach publikacji.

Publikacja,   na   stanowisku,   na   którym   powstaje   jest   oczywiście   wyświetlana   prawidłowo,   ponieważ   redagujący   ją
użytkownik   komplet   czcionek   posiada   zainstalowany   w   systemie   operacyjnym.   Oczywiście,   sytuacja   taka   sprzyja
powstaniu   błędu, gdyż   nie   sposób  podczas przeglądu  kolejnych  stron,  natknąć  się  na  brak  jakiejkolwiek  czcionki. Gdy
jednak publikacja trafi na stronę internetową, przeglądarka plików pdf czytelnika napotykając na problem z czcionkami
albo odmówi wyświetlenia takiego dokumentu, albo zawiesi swoje działanie, albo też w najlepszym przypadku w miejscu
gdzie   powinny   pojawić   się   litery   i   znaki   nie   dołączonej   czcionki,   wyświetli   losowe   „znaczki   graficzne”   po   uprzednim
poinformowaniu w okienku, który problem z czcionką wystąpił. Sytuację taką można zobrazować publikacją wspomnianej
już   biblioteki,   a   zajmującej   2.168   kB   i   dostępnej   pod   adresem  

 

http://www.dbc.wroc.pl/dlibra

/docmetadata?from=directory&id=442

.   Acrobat   Reader   w   wersjach   powyżej   6   wyświetla   przytoczoną   publikację

prawidłowo do strony 31. Następnie pojawia się komunikat jak w załączonym okienku (z lewej), przeglądarka wyświetla

Publikacje elektroniczne w formatach pdf i DjVu

http://www.djvu.com.pl/pdfanddjvu/DjVu_czy_pdf.php

5 of 8

2010-02-21 15:02

background image

stronę 32, ale tablica 1.5.2 zamieszczona na tej stronie zawiera przypadkowe „bzdury”. Przeglądarka nie kończy działania
i   pozwala   na   dalsze   zapoznawanie   się   z   treścią   dokumentu.   Oczywiście,   publikację   w   formacie   pdf   z   drobnymi
uszkodzeniami można skonwertować do formatu DjVu. Należy przy tym pamiętać, że konwersja to nie usuwanie usterek.

Konwersja przy rozdzielczości 600 dpi prowadzi do otrzymania 

 

pliku DjVu

 o pojemności 1.038 kB, którego wszystkie

strony są prawidłowe, a w przeglądarce DjVu wyświetlone będą bez żadnego komunikatu. Strony, w których nie załączono
koniecznych   czcionek   będą   wyświetlone   identycznie   jak   odpowiadające   im   strony   w   przeglądarce   pdf   po   uprzednim
wyświetleniu komunikatu Acrobata.

 

  

 

Bazując - choćby - na przytoczonych w niniejszym artykule przykładach, absolutnie nie można sądzić, że format pdf jest
aż   tak   zły.   Z   całą   pewnością   można   stwierdzić   jedynie,   że   do   publikowania   skanowanych   postaci   dokumentów
papierowych, format pdf, którego pliki posiadają bardzo duży rozmiar, nie umożliwiają rozdzielonego zapisu dokumentu,
nie   nadaje   się  na  pewno, co  jednak  nie   oznacza,  że  publikowanie   takie  nie   jest  możliwe.  Natomiast  należy   zauważyć
również,  że   dominującymi   publikacjami   elektronicznymi   w  formacie   pdf,   są   zazwyczaj   dokumenty   stricte   tekstowe.   W
takich publikacjach próżno szukać dużej ilości  blisko położonych linii, które przeglądarka wyświetli  jako barwną plamę.
Trudno   też   doszukać  się   w  takich   publikacjach   stron   w   formacie   większym  niż   A3   i   zawierających   jednocześnie   setki
obiektów oraz linii, do których kolejnego przerysowania przeglądarka potrzebuje znaczącej ilości czasu. Również w takich
dokumentach nie wystąpią wielopiętrowe ułamki ilustrujące przeróżne zależności fizyko-chemiczne czy też matematyczne.
Podobnie z używaniem w takich dokumentach cyrylicy, alfabetu greckiego czy symboli naukowych. A tylko takie kwestie
poruszono w niniejszym artykule. To zaś, że czasem rozmiar  wygenerowanego elektronicznie dokumentu pdf przejdzie
najśmielsze oczekiwania, też nie jest katastrofą. Skoro czytelnikowi na publikacji zależy, to może na nią poczekać. Gdy
zaś publikacja zawiera nie więcej niż 10 stron, również i taka przypadłość nie będzie zauważona.

Niezauważona przez czytelnika, ale zauważona – podobnie jak inne cechy formatu pdf – przez matematyków koncernu
AT&T,   którzy   podjęli   wysiłek   i   opracowali   komplet   algorytmów,   dających   podwalinę   do   powstania   nowego   formatu
przechowywania i  publikowania dokumentów. Formatu eliminującego znane na dziś niedociągnięcia bardzo popularnego
pedeefa. To, że dzięki firmie Lizardtech Inc. nowy format został zaoferowany szerokiej rzeszy użytkowników komputerów
w  postaci   formatu   otwartego,  na  pewno   wzbudza  zaufanie   do   tego   formatu,  gdyż   nie   sposób  już   zmonopolizować  lub
uzależnić w jakikolwiek sposób jego stosowanie.

Cóż,  Adobe  zachęca do formatu   pdf, LizardTech  do formatu   DjVu. Dla  użytkownika najkorzystniejszym  jest  zaś  to,  że
decyzję   o   tym,   w   którym   z   przedstawionych   formatów,   publikacje   (które   zamierza   udostępnić   lub   przygotować),
zaprezentują   się   najkorzystniej,   może   podjąć   samodzielnie.   Chyba,   że   ideą   opublikowania   zasobów   jest   jednorodna
kolekcja publikacji. W takim przypadku wybrany może już być tylko jeden format.
 

7. Publikacje DjVu wykonane na bazie publikacji pdf.

Poniżej przedstawiono dwie przykładowe prezentacje pozwalające ocenić zalety publikowania dokumentów elektronicznych
w  formatach   DjVu   oraz   pdf.  Pierwsza  z   nich   powstała  dla  Instytutu   Pamięci   Narodowej  w  Warszawie   w przeważającej
części na bazie internetowych publikacji Instytutu, a dostępnych pod adresem :

Poza ciekawą zawartością zaprezentowanych przykładów, podano również wielkości poszczególnych publikacji zapisanych
zarówno   w   formacie   pdf   jak   i   w   DjVu.   Zaprezentowane   przez   Instytut   Pamięci   Narodowej   publikacje   w   formacie   pdf
powstały zarówno z zeskanowanych stron dokumentów papierowych (z bardzo zróżnicowaną kompreją obrazów) jak też
zostały wygenerowane elektronicznie. Dzięki dużej różnorodności pod względem jakości, wielkości jak i sposobu powstania
kolekcji  plików w formacie  pdf, a następnie skonwertowaniu  ich  do formatu  DjVu, prezentacja ta umożliwia udzielenie
odpowiedzi na pytanie

"jakiej jakości i wielkości publikacji w formacie DjVu należy oczekiwać w sytuacji, gdy powstaje ona z plików w formacie
pdf".

Oczywiście chodzi o ocenę relatywną, a zatem typu "z pliku pdf wynerowanego elektronicznie oczekiwać można ..., zaś z
pliku pdf, w którym zastosowano silną kompresję map bitowych oczekiwać można ...".   

Zapraszamy ...

Publikacje elektroniczne w formatach pdf i DjVu

http://www.djvu.com.pl/pdfanddjvu/DjVu_czy_pdf.php

6 of 8

2010-02-21 15:02

background image

 

Kolejną prezentację wykonano dla Biblioteki Cyfrowej FIDES przy Papieskim Wydziale Teologicznym we Wrocławiu.
 

 

W   tym   wypadku   bezpośrednia   konwersja
kolekcji   plików   pdf   nie   była   możliwa.
Pierwotnie  publikacja powstawała w  przeciągu
kilku lat za pomocą różnych narzędzi i różnych
ich   wersji.   Publikacja   ta   (zapisana   w   40
folderach   i   podfolderach)   składa   się   z   ponad
300   plików   pdf   zawierających   łącznie   ponad
14.000   stron.   Podstawą   efektywnej   nawigacji
po   jej   zawartości   są   rozwijalne   spisy   treści,
które   łącznie   zawierają   ponad  2.500   wierszy.
Ponadto,   nawigację   wspiera   około   800
hiperłączy umieszczonych w różnych miejscach
wspomnianych ponad 14.000 stron. Problem w
konwersji   tej   publikacji   do   formatu   DjVu
polegał   na   tym,   że   niektóre   wiersze   spisów
treści  oraz niektóre hiperłącza wskazywały na
nieistniejący   dokument   czy   też   stronę
publikacji,   co   było   oczywiście   efektem   wielu
poprawek   nanoszonych   podczas   paroletniego
jej   powstawania.   Dodatkowym   utrudnieniem
było   to,   że   konwersję   należało   przeprowadzić
tak,   by   powstała   publikacja   w   formacie   DjVu
posiadała przeszukiwalną warstwę tekstową dla
wszystkich   języków,   w   których   ją
przygotowano,   a   zatem   dla   języka
francuskiego,

 

polskiego,

 

greckiego

 

i

angielskiego. Aby wraz  z  konwersją publikacji
w   formacie   pdf   do   formatu   DjVu   wykonać
jednocześnie analizę wszystkich jej elementów
nawigacji,   odszukać   hiperłącza   i   wskazania
wadliwe,   a   następnie   zastąpić   je   właściwymi,
przygotowano   aplikację   współpracującą   z
programem DocumentExpress Enterprise. Efekt
konwersji   do  formatu   DjVu   dostępny   jest   pod
adresem :

 

 

http://www.djvu.com.pl/galeria

/PWT/Table_Generale.php

Rozwijalne   spisy   treści   w   kilku   językach   lub
możliwość   zaznaczania   rozpoznanego   na
stronie tekstu jak pokazano obok, to niektóre z
efektów   konwersji   do   formatu   DjVu
przeprowadzonej   w   tak   nietypowy   -   jak
opisano wyżej - sposób.

Źródłowa   postać   publikacji   w   formacie   pdf
posiada   rozmiar   267.9   MB   i   pozwala
wyszukiwać   słowa   francusko-,   angielsko-   i
polskojęzyczne.   Z   kolei   skonwertowana   do
formatu DjVu postać publikacji w pełni spójna,
a   zatem   pozbawiona   wszystkich   wadliwych
wskazań,   posiada   rozmiar   112.9   MB   (około
58%   mniej)   i   pozwala   wyszukiwać   poza
słowami

 

francusko-,

 

angielsko-

 

i

polskojęzycznymi również fragmenty publikacji
napisane greką. Z treścią publikacji mozna się
zapoznać   na   stronach   papieskiego   Wydziału
teologicznego :

  

w formacie pdf

 lub  

w formacie DjVu

.

Obok   pokazano   fragment   spisu   treści
zawierającego   błędne   odwołanie   "TOME01/01

Publikacje elektroniczne w formatach pdf i DjVu

http://www.djvu.com.pl/pdfanddjvu/DjVu_czy_pdf.php

7 of 8

2010-02-21 15:02

background image

/Texte français de Saint Marc".

 

Polecamy ponadto, wspomniane już wcześniej testy, choć dostępne na chwilę obecną wyłącznie w języku angielskim :

 

Test, a właściwie artykuł odnoszący się do

opublikowanych informacji na temat właściwości

formatu pdf.

Bardzo ciekawy test uwzględniający również pliki

pdf, w których zastosowano optymalizacje CVision

oraz SPE.

Październik 2006

Grzegorz Bednarek
GB Soft, Zabrze

grzegorz@djvu.pl

http://www.djvu.com.pl

 

Publikacje elektroniczne w formatach pdf i DjVu

http://www.djvu.com.pl/pdfanddjvu/DjVu_czy_pdf.php

8 of 8

2010-02-21 15:02