SlideShare a Scribd company logo
2009-09-25                       스캔문서의 고효율 압축의 대명사-…



 스캔문서의 고효율 압축의 대명사-DjVu 기
 술 소개
 DjVu High Compression Technology 전자화문서 고효율 압
 축 배포 기술
 스캔문서(전자화문서)의 고효율 압축을 유지하고 디지털 문서로서의 속성
 을 모두 갖춘 DjVu 포맷 및 압축 기술에 대한 소개 및 대용량 이미지 및 문
 서 조회를 위한 문서/페이지 스트리밍 기술에 대한 고찰

 콘텐츠
       DjVu 압축 포맷 및 페이지 스트리밍 기술 소개
       1.소개
       2. DjVu 압축 방식 소개
       3. 흑백 문서를 위한 TIFF 포맷과 DjVu와의 비교
       4. JPEG 포맷과 DjVu와의 비교
       5. DjVu 와 JPEG2000의 비교
       6. DjVu 와 PDF 비교
       7. DjVu Page Streaming Server (DPSS) 기능
       8. 본문 내용 검색 (페이지 단위 검색)을 위한 기술
       9. Ajax 기반의 DjVu 뷰어

 펼치기


 DjVu 압축 포맷 및 페이지 스트리밍 기술 소개
 작성자 : 최흥식(hs ikchoi@gmail.com)



 1.소개


 DjVu는 한마디로 정의하자면 오프라인상에서의 흑백 또는 컬러 종이문서의 세계를 온라인 디지털 웹에서도 그 품
 질 그대로 유지하고 검색, 배포, 압축, 저장할 수 있게 한 새로운 압축 기술이다. 이 기술은 1990년대 후반에 미국
 AT&T Lab에서 연구 개발된 것으로 2000년 초에 미국 시애들 소재의 Lizadtech에서 관련 기술을 인수하면서 보급
 되기 시작한 솔루션이다. 현재는 Lizartech 사는 Celartem 사의 100% 자회사로서 흡수 통합되었다.

 DjVu 기술이 주는 주요 사상은 “Scan-to-Web’ 이다. 그 동안 스캐닝을 통해서 디지털화되는 일반 문서나 고화질
 의 사진 등이 그 파일의 크기가 커서 웹을 통해서 서비스가 불가능 하던 문제점을 일소에 해소하는 기술인 것이다.
 최근에는 고품질의 컬러 스캐너와 디지털 카메라의 보급으로 인하여 오프라인상의 종이 문서나 책자들에 대한 디
 지털화 요구가 증대되고 있는 시점에서 이러한 기술은 더더욱 진가를 발휘하게 된다.

 DjVu라는 단어는 불어 ‘déjà vu’ 에서 온 것으로 ‘어디서 본 듯한 느낌 또는 착각’ 이란 뜯을 갖고 있다고 한다. 우리
 말로는 ‘데자뷰’로 발음한다. DjVu는 웹 상에서 통용되는 TIFF, PDF, JPEG과 같이 또 다른 하나의 파일 포맷이기도 하
 다. DjVu로 만들어진 문서는 확장자가 ‘djvu’ 또는 ‘djv’로 표시 된다. DjVu로 표시된 문서는 PDF문서와 마찬가지로
 자유롭게 웹에서 저장, 배포, 다운로드, 이메일 전송 등이 가능하다. DjVu 문서를 보기 위해서는 데자뷰테크놀러지
 (DjVu 뷰어자동설치)사 홈페이지에서 무료로 다운로드 받을 수 있다. 사용자의 브라우져에 따라서 윈도우시스템
 에서는 익스플로러용 유닉스에서는 네스케이프용 그리고 Mac 사용자는 Mac용 reader 기를 다운로드 받아서 사
 용할 수 있다.

 1000페이지가 넘는 컬러 책자를 300DPI 해상도로 스캐닝 하여 웹에서 서비스 한다고 할 때 300DPI 해상도의 품질
 을 웹에서 유지 하기 위해서는 적어도 400Mbytes (JPEG으로 페이지당 500Kbyte 정도 소요)이상의 파일 크기가
 필요하게 된다. 400Mbytes 나 되는 책자를 웹에서 서비스하는 것은 거의 불가능하다고 볼 수 있을 것이다. DjVu는
knol.google.co.kr/k/-/djvu/…/3                                               1/20
2009-09-25                    스캔문서의 고효율 압축의 대명사-…
 400Mbytes를 1/20로 압축하여 20Mbtyes 만들 수 있고 페이지 단위의 스트리밍 기술을 적용하여 책자의 페이지
 수와 파일의 크기에 상관 없이 고 화질의 디지털 북을 일정한 검색 속도(1-2초 정도)를 보장하면서 검색할 수 있게 한
 다.

 지도나 도면을 디지털화 할 경우 한 장의 파일 크기는 100Mbyt s 또는 200Mbyt s 이상 넘는 경우가 보통이다. 이정도
 크기면 일반적인 방법으로 웹에서 서비스할 수 있는 정도의 크기를 넘어서게 된다. DjVu는 이러한 지도나 도면과 같
 이 한 장의 이미지의 크기가 큰 경우도 적절한 크기로 압축을 할 뿐만 아니라 웹에서 서비스할 경우 소위 점진적인 이
 미지 전송 기술을 통해서 아무리 큰 크기의 이미지라도 사용자의 화면에는 기다림 없이 이미지를 순식간에 볼 수가
 있게 하여 준다.

 스캐닝 또는 디지털 카메라를 통해서 만들어진 모든 디지털 자료나 사진들은 DjVu로 변환이 가능하다. 뿐만 아니라
 MS-Offic 문서(워드, 파워포인트, 엑셀)나 아래아한글 문서, PDF문서 등등을 모두 DjVu 문서로 변환 할 수 있다.



 2. DjVu 압축 방식 소개

 DjVu는 크게 3가지의 압축 방식을 제공한다.

       흑백(biton l) 이미지 압축은 표준 JBIG2의 기술을 적용한 JB2 압축 방식, 이방식은 흑백 이미지에 대하여
       Lossl ss/Visu l Lossl ss 방식을 모두 적용하여 압축 할 수 있다.
       컬러 이미지 압축은 W v l t 방식인 IW44 압축 적용. 이방식은 JPEG2000과 같은 w v l t 기술을 사용한다.
       MRC (Mixed Raster Content) 압축 방식- 이방식은 앞에서 소개 된 것과 같이 이미지 내용을 분석하여 3개
       의 계층으로 자동 분리하여 각각 계층에 맞는 이미지 압축 방식을 적용한다




 3. 흑백 문서를 위한 TIFF 포맷과 DjVu와의 비교


 우리는 팩스기를 통해서 문서를 전송하거나 수신하기도 한다. 팩스기는 일반 전화선을 통해서 기껏 해야 9600bps 정
 도의 속도로 필요한 데이터를 송수신 한다. 따라서 이러한 낮은 속도의 전송라인을 통해서 가능 한한 많은 정보를 보
 내기 위해서는 전송 정보량을 최대한 줄이는 것이 관건일 것이다.

 1980년에 CCITT 표준화 그룹에서는 소위 Bi-level 이미지(흑백 이미지)를 표현하기 위한 Group 3 표준 포맷을 정
 했다. 1984년에는 G3 표준을 좀더 향상 시킨 압축 권고안 Group 4가 발표되었다. 팩스 전송뿐만 아니라 디지털 도
 서관 분야에서 흑백 원문을 스캐닝 하여 이미지화하는데 가장 많이 사용하고 있는 포맷이 바로 G4 표준 압축 방식

knol.google.co.kr/k/-/djvu/…/3                                                  2/20
2009-09-25                           스캔문서의 고효율 압축의 대명사-…
 으로 표현되는 TIFF G4 타입이다.




 G4 표준이 발표된 이후 1993년에 Joint Bi-level Images Experts Group (JBIG)에서는 새로운 흑백 이미지 코딩
 표준을 JBIG1 이름으로 발표하였으나 G4 표준보다 좋은 압축률을 갖고 있음에도 불구하고 G4 표준만큼 널리 보급
 되지는 못하였다. 2000년에는 G4 표준 보다 약 3 - 4배 정도의 압축률이 좋은 JBIG2가 발표되었다. AT&T 는 당시
 에 JBIG2 표준에 근거하여 흑백 문서이미지 압축 포맷을 개발 하였는데 이것이 DjVu JB2이다.

 DjVu JB2 포맷은 일반적으로 TIFF G4 이미지 크기 보다 약 3-5배 정도의 압축 률 갖고 있다..

 TIFF G4는 단순히 흑백 이미지를 압축하는 표준 포맷일 뿐이지 그 이상도 아니다. TIFF 포맷 안에 PDF 문서와 같
 이 목차를 보여주는 책갈피 정보를 삽입하여 활용할 수 있게 하는 기능, 메타 데이터를 이미지 안에 삽입하여 검색
 시 활용하는 기능, 원문의 본문 내용을 검색할 수 있도록 텍스트 정보를 원문이미지와 같이 표현할 수 있는 기능 등
 을 지원하지 않기 때문에 이러한 기능을 위해서는 별도의 응용프로그램을 만들어서 제공해야 하는 문제점들을 갖고
 있다.

 다른 이미지 포맷과는 다르게 여러 장의 페이지를 하나의 파일에 번들로 저장할 수 있는 Multi-TIFF 기능을 제공하기
 도 하지만 위에서 언급한 기능들을 위한 응용프로그램에서는 이러한 Multi-TIFF 기능과 함께 활용할 수 없기 때문에
 별로 효용성이 없는 것이 되어 버렸다.

 TIFF는 표준 포맷으로 인식되어 있음에도 불구하고 익스플로러와 같은 표준 브라우저에서 직접 TIFF 문서를 볼 수
 없기 때문에 별도의 TIFF vi w r를 설치하여 이용하여야 하는데 TIFF vi w r 기능도 표준화 되어 있지 않기 때문에 서
 비스 하는 기관이나 업체에 따라서 그 사용법과 서로 호환이 안 되는 문제점을 갖고 있기도 하다.




 비교      DjVu                     TIFF           비고
 항목                               G4/JBIG1
 개발된 출 미국 AT&T 에서 개발              Joint Bi-level JBIG1 압축기는 public domain에 source 가 공개된
 처                                Image Experts  S/W
         한국에서는 Celartem Korea에서   Group에서 재정한
         공급 및 기술지원                흑백 이미지 전용 압
                                  축 규약

 지원 압축 -흑백 이미지는JBIG2/JB2 압축기 -흑백 이미지 만 적         객관적으로 JBIG2/JB2 방식이 JBIG1 보다 2 - 4배의 압
 방식                          용 JBIG1 방식          축률이 좋은 것으로 평가 되고 있음
       - 비손실/손실 압축 모두 방식 지원
                             - 비손실 방식만 지
       -컬러 이미지는 IW44 압축기 사용 원

         - DjVu는 흑백/컬러 모두 지원


 압축 효율 -흑백 이미지 TIFF G4방식보다 20 - JBIG1은 흑백 이미
       – 40% 수준               지 TIFF G4 방식보

knol.google.co.kr/k/-/djvu/…/3                                                            3/20
2009-09-25
        –
                                                   스캔문서의 고효율 압축의 대명사-…
                                                다 60 – 80% 수준
           -컬러 이미지 JPEG 보다 1/10 –
           1/30 크기                              - 컬러이미지 적용
                                                불가


 문서 내용 - DjVu 문서 내에 OCR 된 text를 - 불가능
 검색 기능 hidden text 와 XML 구조로 삽입
       하여 viewer 내에서 full text 검색
       및 검색 결과 highlight 처리

           - 외부 검색엔진과 연동하여 page
           단위 검색 가능


 멀티 페이 - 기본적으로 멀티 페이지 지원                        - Multi-TIFF 지원
 지 지원
       - 목차 삽입 및 display 기능                     - TIFF 포맷에는 목
                                                차 처리 기능 제공하
                                                지 않음


 OCR 처리 - DjVu는 OCR 엔진을 기본적으로                   - 3rd party OCR 제
 기능     제공                                      품과 어플리케이션
                                                level 로 연동
 메타정보 DjVu 문서 안에 메타정보 삽입 및                      - 불가능             DjVu 문서 안에 hidden text-XML 구조로 메타정보
 삽입 기능 추출 기능                                                      를 삽입하고 활용하는 기능
 컬러 이미 지원                                       흑백전용 포맷
 지 압축 지
 원
 시각장애 -시각장애자를 위한 표준 인터페이 -불가능                                      - 508호환은 IT관련 어플리케이션이 시각장애자들을
 용 표준 인 스로 508 호환                                                  위해서 모든 출력 되는 텍스트나 내용에 대해서 3rd
 터페이스                                                              pary screen reader(508 호환)기를 통해서 text-to-
 508 호환                                                            speech 를 할 수 있게 하는 인터페이스
 지원
 전용 vi w r Windows/Unix/Mac/PocketPC            Windows용 만 제공
 제공
           플랫폼용 제공                              - C/S 환경 지원

           -IE/Netscape plug-in 용 제공

           - C/S 환경 지원


 성능        압축성능 JBIG1 과 동일         -Viewing 및 복원
                                   속도는 DjVu 보다 2
                                   –
           viewing 및 복원 속도는 JBIG1보다 5배 정도 느림
           2 -5배 성능 향상




 [TIFF-G 4/ JBIG / JBIG 2 대 DjVu 비교]

 GIF Image Name Horizontal x     T IFF        TIFF G4 JBIG    JBIG2 JBIG2    JBIG2     Dj Vu (bitonal
 (200 dpi)      Verti cal Size   Uncompressed (bytes) (bytes) (MQ) (CSM, G4) (CSM, MQ) JB2)*

                                 Size (bytes)

 f01_200         1728x2339       505286           16618    12732   12732   6879    6424     5213
 f02_200         1728x2339       505286           10464    8140    7756    10863   8260     7960
 f03_200         1728x2339       505286           25590    19982   19278   14241   11732    10796
 f04_200         1728x2339       505286           64058    48171   46195   16126   15529
                                                                                                    12017

 f05_200         1728x2339       505286           29285    23442 22443 12400       10574
                                                                                                    10374

 f06_200         1728x2339       505286           15774    11771 11554 14944       11255
                                                                                                    10470

 f07_200         1728x2339       505286           66433    52106 50832 42009       35248
                                                                                                    23163

 f08_200         1728x2339       505286           17984    13993 12724 18075       13252
                                                                                                    13274

 f10_200         1728x2336       504638           142091   63886 51405 133359      50228

knol.google.co.kr/k/-/djvu/…/3                                                                                 4/20
2009-09-25                          스캔문서의 고효율 압축의 대명사-…
                                                                                   52124

 T otals:                4546926   388297   254223 234919 268896   162532
                                                                                   145391

 Percentages:            100%      8.54%    5.59% 5.17% 5.91%      3.57%    3.2%




 4. JPEG 포맷과 DjVu와의 비교

 컬러 이미지를 저장하는 방식 중에 가장 보편화된 포맷이 JPEG이다. JPEG은 나름대로 압축 방식을 제공하기 때문에
 컬러 이미지 파일을 표현하고 저장하는데 매우 적당한 포맷으로 인식되고 있다.

 JPEG 보다 압축률을 향상 시킨 JPEG2000 표준안이 2000년에 발표가 되었다. JPEG 압축방식과 다른 Wavelet 알
 고리즘을 기반으로 하여 만들어진 표준안이다. 효율성이나 성능, 이미지 품질 면에서 JPEG 보다 훨씬 좋은 것으로
 평가되고는 있으나 아직까지 JPEG2000이 보편하게 이용되지 않고 있는 실정이다.

 JPEG은 일반적으로 한 장으로 표현되는 사진과 같은 데이터를 표현하고 저장하는데 적당하다고 할 수 있으나. 컬
 러 종이 문서를 컬러 스캐닝 하여 여러 장을 하나의 책으로 묶어서 저장하고 서비스하는 구조에는 잘 맞지 않은 단
 점이 있다. TIFF 포맷과 같이 여러 장의 이미지를 한 개의 번들로 묶을 수 있는 Multi-TIFF와 같은 방식이 지원되지
 않기 때문이다.

 DjVu는 컬러 이미지 압축을 위해서 JPEG2000과 같은 Wavelet 기반의 압축 방식인 IW44 방식을 이용한다. 압축률
 은 JPEG과 비교하여 같은 질을 보장하면서 그 크기는 JPEG보다 1/10 – 1/20 정도로 압축이 될 수 있다. [그림-3]
 참조




 DjVu는 JPEG 포맷과 마찬가지로 낱장 단위로 압축 저장할 수 있지만 Multi-TIFF방식과 같이 여러 장의 이미지 문
 서를 하나의 파일로 묶어서 저장 및 서비스를 할 수 있다.


 원본의 이미지가 고해상도의 이미지 인 경우 DjVu로 압

 축된 이미지라고 할 지라도 파일 크기가 클 수 가 있다. 그러나 웹에서 일반 브라우져에 플러그인 된 DjVu 전용 vi w r
 를 통해서 보게 될 경우 TIFF나 JPEG과 같이 전체의 파일을 모두 다운로드 받은 후 디스플레이 하는 방식을 이용하지
 않고 점진적인 이미지 전송 기술을 이용하기 때문에 사용자는 원하는 이미지를 지연 시간 없이 즉시 볼 수가 있게 된
 다.

 [그림-4]에서 고 앨범 샘플을 보면 총 50페이지 되는 고화질(600dpi)의 원본을 JPEG으로 표현하면 총 231.3
 Mbytes 가 소요되나 DjVu로 압축(s egment 방식 압축)을 하면 1.85Mbyt s가 된다. 또한 고문헌 샘플을 보면 총 918
 페이지나 되는 책을 JPEG으로 표현하면 378.20Mbyt s가 되나 DjVu로 압축(photo 방식 압축)을 하면 181.57 Mbytes 가
 된다. 압축된 파일의 크기도 페이지 수가 918페이나 되기 때문에 180M를 넘게 된다. 그러나, 웹에서 180M나 되는

knol.google.co.kr/k/-/djvu/…/3                                                              5/20
2009-09-25                스캔문서의 고효율 압축의 대명사-…
 DjVu 문서를 검색하여 보면 전체 180M를 모두 다운로드 받아서 디스플레이 하지 않고 필요한 페이지만 선택적으
 로 스트리밍을 해서 보여 지기 때문에 지연 시간 없이 볼 수가 있게 된다.




knol.google.co.kr/k/-/djvu/…/3                                     6/20
2009-09-25                          스캔문서의 고효율 압축의 대명사-…




 비교 항목 DjVu                         JPEG           비고
 기본 사상        종이문서 ‘Scan-to-Web’    이미지 표현         JPEG은 한장의 이미지를 표현하는 포
                                    포맷의 표준         맷
              (AT&T에서 개발된 기술)
                                    (ISO 표준화 DjVu는 문서의 개념을 갖고 있기 때문
                                    그룹에서 지정 에 한 장 및 복수의 페이지의 이미지나
                                    한 표준 포맷) 문서를 표현

 압축 방식        하이브리드 방식                   컬러 이미지에 업계에서 비손실 JPEG-LS 는 거의 지원
                                         대한 손실 압 하지 않음
              -흑백이미지 :비손실 JB2 축이 기본
              압축 방식
                                         비손실 압축은
              -컬러이미지              visual JPEG-LS 포맷
              loss less wavelet IW44 방 으로 지원
              식

 압축률          평균 JPEG 보다 1/10-1/20 압 DjVu 보다 10    JPEG과 DjVu 와 같은 크기의 이미지를
              축률                     배 20배정도       비교할 때 DjVu 이미지가 훨씬 quality
                                     큼             가 우수
 Multi page   Single Page/Multi-page Single page   JPEG은 여러 장의 이미지를 하나의 file
 지원           포맷 지원                  방식            로 bundle 하여 배포하거나 서비스 할
                                                   수 없음. JPEG은 낱장 단위 포맷
 메타 데이터 XML 기반의 메타데이터를 불가                          JPEG 포맷 안에 텍스트나 기타 다른 메
 삽입     DjVu 포맷 안에 삽입 및 추                          타 정보를 삽입 하거나 활용할 수 없음
        출할 수 있는 기능 제공
 텍스트 검색 컨텐츠 내에서 텍스트 검색 불가                          JPEG은 이미지를 표현하는 수단으로
 기능     및 검색된 키워드에 대한 하                            컨텐츠 내의 내용을 처리할 수 있능이
knol.google.co.kr/k/-/djvu/…/3                                                  7/20
2009-09-25                             스캔문서의 고효율 압축의 대명사-…
             이라이트 기능 제공                       없음
 Progres s ive 기본 기능                    지원           JPEG도 Progres s ive dis play방식을 지
 Dis play 지원                                         원하고 있으나 거의 활용되지 못하고 있
                                                     는 실정




 비교 항목           DjVu            JPEG                비고
 페이지 단위 스트 제공                    불가            페이지 단위 스트리밍은 많은 페이지로
 리밍                                            구성된 이미지나 원문 문서들에 대해서
                                               웹을 통해서 서비스 할 때 매우 유용한 기
                                               능
 One-source,   제공                불가능           이 기능은 한 벌의 이미지만 갖고 있고
 Multiple                                      서비스 할 때 실시간으로 원하는 크기의
 extraction 기능                   (별도의 썸네일 이미지, 이미지 및 이미지내의 부분 영역 만을
                                 중간 크기 이미지, 크게 추출 하게 하는 기능
                                 보기 이미지와 같이 서
                                 비스 유형별 이미지를
                                 여러 벌 갖고 있어야
                                 함)

 Selective       지원              불가능                 크기가 큰 대형 이미지를 웹을 통해서 배
 Decompres s ion                                     포 할 때 유용한 기술
 기능
                                                     (화면에 보이는 특정 영역 부분만 실시
                                                     간으로 축소/확대/이동하게 하는 기능)

 전용 vi w r plug- -표준 웹 브라 -plug-in 없이 웹 브라           JPEG은 웹 브라우져안에서 원하는 크기
 in 지원           우져용 plug-in 우져를 이용                  로 축소/확대/PAN 할 수 없고. 90도 회
                 제공                                  전 기능, 썸네일 보기 기능등이 제공되
                             -viewer를 위한 커스          지 않음
                 -OCX 모듈 제 터마이즈 기능 물가
                 공으로 C/S 용 (third party tool 이용)
                 으로 이용 가능

                 -전용 viewer
                 커스터마이즈
                 기능 가능

 시각장애용 표준 -시각장애자를 -불가능                               - 508호환은 IT관련 어플리케이션이 시
 인터페이스 508 위한 표준 인터                                  각장애자들을 위해서 모든 출력 되는 텍
 호환 지원     페이스로 508                                  스트나 내용에 대해서 3rd pary s creen
           호환                                        reader(508 호환)기를 통해서 text-to-
                                                     speech 를 할 수 있게 하는 인터페이스
 포맷 변환 기능        JPEG,         포맷 변환을 위해서
                 TIFF,GIF,BMP, third p rty 변환 툴 사용
                 PBM 포맷을
                 DjVu로 압축 및
                 복원 기능




 5. DjVu 와 JPEG2000의 비교

 5.1 칼라 이미지 quality 비교



 다음은 동일한 원본 이미지를 jp g2000과 DjVu로 각각 파일 크기가 1.5 KByt 가 되도록 압축했을 때의 압축된 이미지
 이다.




knol.google.co.kr/k/-/djvu/…/3                                                           8/20
2009-09-25                             스캔문서의 고효율 압축의 대명사-…




 5.2 흑백 이미지 비교



 흑백 이미지를 압축할 경우 Jp g2000은 기본적으로 Run L ngth Coding 방식 또는 그와 유사한 방식이지만 DjVu는
 Run Length Coding 외에 Shape Dictionary 방식을 더 사용한다. 여기서 Shape Dictionary는 한 이미지에서 반복
 되는 동일 형태(예를 들어서 문서 이미지의 글자)를 한번만 압축해서 저장하고 나머지 경우는 그 형태의 위치 정보
 만 수록하는 방식으로 반복되는 수가 많을수록 압축효율이 증가한다. DjVu 의 파일 포맷 중 한 파일에서 여러 페이
 지의 이미지를 수록하는 방식(bundled 포맷)에서는 여러 페이지에서 하나의 공통의 Shape Dictionary를 참조할
 경우 압축률은 상당히 향상된다.

 다음은 동일한 흑백 문서 이미지의 이미지 종류별 파일 크기의 비교 자료이다.

                                                  KBytes

       이미지 포맷                    BMP   TIF (G4)    JP2000   DjVu
       카드 신청서                    466   65          64       44

       이미지(표와 글자)

       잡지 기사 문서                  960   584         99       35

       이미지(글자)



 5.3 파일 포맷



 DjVu 는 한 개의 파일 안에 여러 페이지 이미지를 포함하는 bundled 포맷과 한 파일에서 다른 파일로 연결되는
 link가 있는 indirect 포맷도 지원한다. DjVu는 여러 페이지를 하나로 묶어서(bundle) 저장 및 전송이 가능하고, 전
 체 페이지의 정보를 갖고 있으면서 웹 서비스 시 페이지 단위로 캐싱 및 검색이 가능

 JPEG2000은 모든 이미지를 낱장으로 표현. 여러 페이지로 구성된 문서를 bundle로 묶는 개념이 없음.

 5.4 압축 속도



 다음은 10 MB true colour BMP 파일의 인코딩 속도의 비교 그래프이다.




knol.google.co.kr/k/-/djvu/…/3                                                        9/20
2009-09-25                         스캔문서의 고효율 압축의 대명사-…




 5.5. 화면 표시 속도



 다음은 동일한 파일을 압축한 것을 화면에 표시하는데 걸리는 시간을 비교한 그래프이다.




 비교 항목           DjVu            JPEG2000           비고
 기본 사상           종이문서 ‘Scan- 이미지 표현 포맷              JPEG2000은 한장의 이미지를
                 to-Web’                            표현하는 포맷

                                                    DjVu는 문서의 개념을 갖고 있
                                                    기 때문에 한 장 및 복수의 페이
                                                    지의 이미지나 문서를 표현

 압축 방식           하이브리드 방식 컬러 이미지에 대한 손실 압           JPEG2000은 컬러 이미지 전용
                                    축이 기본           압축 방식으로 흑백 이미지 문
                 -흑백이미지:비손                          서 압축시 비손실 압축은 지원
                 실 JB2 압축 방식 흑백 이미지 문서에 대한 비        않함
                                    손실 압축 지원하지 않음
                 -컬러이미지
                 vis ual los s less
                 wavelet IW44 방
knol.google.co.kr/k/-/djvu/…/3                                            10/20
2009-09-25                         스캔문서의 고효율 압축의 대명사-…
                 식

 압축률             1.번 항목 컬러이 1.번 항목 컬러이미지            JPEG2000과 DjVu 와 같은 크기
                 미지 quality 참조 quality 참조           의 이미지를 비교할 때 DjVu 이
                                                    미지가 훨씬 quality 가 우수
 Multi page 지원 Single          Single page 방식       JPEG2000 은 여러 장의 이미지
               Page/Multi-page                      를 하나의 file로 bundle 하여 배
               포맷 지원                                포하거나 서비스 할 수 없음.
                                                    JPEG2000은 낱장 단위 포맷
 메타 데이터 삽입 XML 기반의 메타 불가                            JPEG2000 포맷 안에 텍스트나
               데이터를 DjVu 포                          기타 다른 메타 정보를 삽입 하
               맷 안에 삽입 및                            거나 활용할 수 없음
               추출할 수 있는 기
               능 제공
 텍스트 검색 기능 컨텐츠 내에서 텍 불가                             JPEG2000은 이미지를 표현하
               스트 검색 및 검색                           는 수단으로 컨텐츠 내의 내용
               된 키워드에 대한                            을 처리할 수 있능이 없음
               하이라이트 기능
               제공
 Progres s ive 기본 기능       지원
 Dis play 지원
 페이지 단위 스트 제공                    불가                 페이지 단위 스트리밍은 많은 페
 리밍                                                 이지로 구성된 이미지나 원문 문
                                                    서들에 대해서 웹을 통해서 서비
                                                    스 할 때 매우 유용한 기능
 One-source,   제공                불가능             이 기능은 한 벌의 이미지만 갖
 Multiple                                        고 있고 서비스 할 때 실시간으
 extraction 기능                   (별도의 썸네일 이미지, 중 로 원하는 크기의 이미지 및 이
                                 간 크기 이미지, 크게 보기 미지내의 부분 영역 만을 추출
                                 이미지와 같이 서비스 유형 하게 하는 기능
                                 별 이미지를 여러 벌 갖고
                                 있어야 함)

 Selective       지원              불가능                크기가 큰 대형 이미지를 웹을
 Decompres s ion                                    통해서 배포 할 때 유용한 기술
 기능
                                                    (화면에 보이는 특정 영역 부분
                                                    만 실시간으로 축소/확대/이동
                                                    하게 하는 기능)

 보안 통제 기능        -프린트 통제 기       불가능
                 능

                 -다운로드      통제
                 기능

                 -프린트 시 실시
                 간 워터마크 삽입
                 기능 제공

 전용 vi w r plug- -표준 웹 브라우 -plug-in 없이 웹 브라우져 JPEG2000은 웹 브라우져안에
 in 지원           져용 plug-in 제공 를 이용              서 원하는 크기로 축소/확
                                                 대/PAN 할 수 없고. 90도 회전 기
                 -OCX 모듈 제공 -viewer를 위한 커스터마 능, 썸네일 보기 기능등이 제공
                 으로 C/S 용으로 이즈 기능 물가(third party 되지 않음
                 이용 가능         tool 이용)

                 -전용 viewer 커
                 스터마이즈 기능
                 가능

 포맷 변환 기능        JPEG,           포맷 변환을 위해서 third
                 TIFF,GIF,BMP,   p rty 변환 툴 사용
                 PBM 포맷을
                 DjVu로 압축 및

knol.google.co.kr/k/-/djvu/…/3                                                11/20
2009-09-25                       스캔문서의 고효율 압축의 대명사-…
                 복원 기능




 6. DjVu 와 PDF 비교


 PDF 포맷은 본래 디지털 문서들을 웹을 통해서 퍼블리싱하기 위한 솔루션으로 이용되어 왔다. 워드나 아래아한글,
 매킨토시용 쿽익스프레스등으로 작성된 텍스트 기반의 문서를 웹을 통해서 배포하기 위해서는 PDF 포맷만큼 좋은
 툴은 없을 것이다.

 PDF 는 전용 Acrobat Reader를 무료로 사용하면서 누구나 쉽게 PDF 문서를 읽을 수 있는 장점이 있다. 뿐만 아니
 라 PDF 문서는 내부 문서를 수정할 수 없고 읽을 수 만 있게 되어 있기 때문에 더더욱 문서 배포용으로는 매우 적당
 한 솔루션일 것이다. 그러나 스캐닝 한 이미지 문서를 PDF 포맷으로 저장하고 배포하는 데는 그 한계점이 노출 되고
 있는 실정이다.. 스캐닝 한 문서는 그 자체가 이미지 포맷으로 디지털화된 텍스트 문서 보다는 파일 크기가 몇 배나 클
 수 밖에 없다. PDF는 기본적으로 압축을 기반으로 하지 않고 있기 때문에 스캐닝 된 이미지 문서를 PDF로 담기 위해
 서는 그 크기 이상의 파일을 요구하게 된다.

 [그림-5]에서 흑백 문서들을 스캐닝 해서 PDF 포맷과 DjVu 포맷으로 표현한 자료가 있다. 흑백 원문인 경우 평균
 PDF 문서가 DjVu 문서 보다 4배 정도 큰 것을 볼 수가 있을 것이다.




 그 외에도 연간 기업보고서 110페이지 책자를 300DPI 컬러로 스캐닝 하여 PDF로 저장을 하게 되면 약 140Mbyt s 정도
 소요가 되나. 그러나 DjVu로 저장을 하면 약 3Mbyt s 정도면 충분하게 된다. ([그림-6] 에서 기업 Annu l R port 참조
 하시기 바랍니다)

 인터넷에서 신문 지면 서비스용으로 PDF 포맷이 많이 이용되고 있다. 그러나, [그림-6]에서 알 수 있듯이 신문 66면 정
 도의 지면에 컬러 광고까지 모두 포함 하면 PDF 문서의 크기는 무려 70Mbyt s가 넘게 된다. 따라서 각 신문사는 신문
 지면 서비스를 위해서 66면을 하나의 PDF파일로 묶어서 배포하지는 못하고 각 면 단위로 PDF파일을 만들어서 배포
 하고 있는 실정이다.




knol.google.co.kr/k/-/djvu/…/3                                                    12/20
2009-09-25                         스캔문서의 고효율 압축의 대명사-…




 일반 워드문서와 같은 디지털 문서를 배포하기 위한 포맷으로 PDF 가 적당하다면 DjVu는 고화질의 컬러/흑백 종이문
 서를 스캐닝한 문서를 위해서는 PDF 포맷 보다 훨씬 뛰어 남을 알 수 가 있다.




 비교 항목 DjVu                       PDF               설명
 기본사상        종이문서 'sc n-to-w b'   전자문서-to-종이문    DjVu는 종이문서를 디지털 화하여 웹
                                  서 출력           서비스 하기위한 솔루션으로 탄생된
                                                 기술
 가장 적합       많은 양의 종이문서를 흑        전자문서(hwp,워     PDF는 전자문서를 종이문서로 프린
 한 분야        백/컬러 스캐닝 하여 저장       드,GUL)를 배포 및 종 트하고 배포하기 위한 솔루션으로 탄
             및 웹 검색 서비스하는 분       이문서로 출력하는 생된 기술
             야에 적합                분야에 적합
                                                 현재는 DjVu 도 종이문서 뿐만 아니라
             -흑백 원문 문서 50페이       -50페이지 미만의 흑 디지털 문서(오피스 문서)도 DjVu 로
             지 이상의 서비스에 적합        백 전자문서 서비스 변환하여 PDF 보다 경량화 하여 배포
                                  에 적합           가 가능
             - 원문이 고해상도의 컬
             러를 포함하고 한 페이지
             의 파일 크기가 큰 경우
             에 적합

             - 향후 컬러 원문 서비스
             시에는 더욱 진가를 발휘

             -CAD 데이터나 엔지니
             어링 매뉴얼, Parts Book
             등을 배포하고자 하는 제
             조분야

 사용자의        전체 페이지수와 파일 크 전체 페이지수와 파               일반적으로 사용자들의 PDF 서비스
 측면에서        기와 상관없이 1초 미만 일크기가 클수록 검               이용시 가장 불만 사항 ‘너무 느리다’,
 성능          검색 및 디스플레이          색 및 디스플레이 시        ‘너무 무겁다’ ,‘ 불필요 한 기능이 너무
                                 간 이 증대됨            많다’
 서비스 기       약 0.75 T r Byt s 소요 약 3 T r Byt s 소요   DjVu가 PDF 보다 평균 1/4 정도 자원
 관에서의                                               소요
 소요 되는
 자원

knol.google.co.kr/k/-/djvu/…/3                                                  13/20
2009-09-25                        스캔문서의 고효율 압축의 대명사-…
 (5000만 페
 이지 흑백
 문서 원문
 저장시)

 유/무선 통 - 고속 유선/저속 무선            불가능         통합기능은 한 벌의 데이터로 유선/무
 합 서비스 같은 품질 같은 속도 유                         선 모두 같은 품질로 서비스 할 수 있
 기능     지 기능                                 는 기능

 - 고속 유 - 한 벌의 데이터로 변경
 선/저속 무 없이 유선/무선 동시 서
 선      비스

 검색 속도

 - 통합 기
 능

 통합 vi w r 제공 가능                 불가능         사용자는 한개의 vi w r에서 TIFF/
 기능                                          DjVu/ PDF/ JPEG 모두를 검색할 수 있
                                             는 기능
 전용 vi w r DjVu Expres s Server 불가능          전용 vi w r 설치 없이도 DjVu문서나
 없이 검색 기능                                    이미지를 디스플레이/부분확대/축
 할 수 있는                                      소/출력/다음페이지/이전페이지/페이
 기능        -인터넷 접속이 가능한                      지 이동 기능 제공
           모든 디바이스에서 검색
           가능




 비교 항목       Dj Vu               PDF   설명
 웹 서비스 방 페이지 단위 웹 스트리밍 Bundle 방 PDF에서도 Fas t Web view 방식을 제공한다
 식       기능 (indir ct 기능) 및 전 식 만 제공 고 하나. Acrobat Reader 5.0이상에서만 유효
         체 문서 단위(bundl 기능)
         모두 제공                (일부 Fas t (대부분의 서비스 사이트에서는 한 개의 문서
                              Web view 크기가 클 경우 페이지 단위로 분리하거나 강
         - Byte s treaming 이나 기능)       제로 10M 미만 단위로 페이지를 분리해서 서
         Fast Web 방식이 아닌                비스하는 방식을 취함)
         DjVu만의 고유한 페이지
         스트리밍 기술)                       예-각 신문사의 지면 서비스는 한면 단위 서비
                                        스 한국교육학술정보원(k ris)는 10M단위로 강
                                        제분리

 전용 vi w r 900KB                 17M   DjVu viewer 설치시간 5-10초
 의 크기
                                       Acrobat Reader 설치 시간 약 5-10분

 원문 이미지 Loss less /Visual        PDF문서 전체 문서 대상으로 압축 및 복원은 DjVu 만 지
 압축 지원 및 Loss less 방식 모두 지       내의 부분 원
 방식      원                       객체들만
                                 일부 지원 DjVu압축방식은 비손실/손실 압축 모두 지원

 압축 원문 이 모든 압축 원문 이미지 문 불가능            DjVu는 압축기와 복원기를 제공
 미지 문서 복 서는 원본으로 복귀 가능
 원 기능
 고해상도 컬      유선/무선/전용vi w r/no- 불가능    예-한 개의 이미지 파일이 10M이상 (고지도/고
 러 원문 이미     vi w r 모두에게 픽셀 스          문헌/고문서) 될 경우 PDF는 서비스 불가능
 지 검색 및      트리밍 기술 적용하여 액
 배포 기능       세스 가능
 인지도         - Google 의 book 검색 좋음     - PDF는 대량의 원문 도서를 디지털 화하여
                                       검색 서비스를 제공하는 기관에서의 서비스
             -미국의회도서관/미국/              만족도는 매우 낮음

knol.google.co.kr/k/-/djvu/…/3                                             14/20
2009-09-25                             스캔문서의 고효율 압축의 대명사-…
             유럽/일본 대학교                        -PDF의 문제점에 대한 대안 솔루션으로 DjVu
                                              솔루션이 이용되고 있는 실정
             도서관에서 PDF

             대안 솔루션으로 사용

             - 미국 archive.org

             - 일본 국립공문서관의

             아시아 역사 기록센터

             (www.j c r.go.jp) 및

             다수 공공기관

             - 서울대 도서관, 한국은
             행, 법원도서관

             - 정부기록보존소

             - 농협, 제일은행

             - 국세청

             -삼성전자, LG전자

             -삼성화재

             -두산인프라코어

             -현대 유코카케리어

             - 전세계적으로 open
             format으로 600만 사용자
             층




 비교 항목 DjVu                 PDF        설명
 확장성         - 모든 전자문서 - 전자문서 DjVu도 모든 디지털문서를 압축 변환할 수 있는 툴 제공
             (PDF,아래아 한 변환기능
             글 포함) DjVu
             변환기능 제공 - 멀티미디
                         어 삽입 기
             - 모든 흑백 및 능
             컬러 원문 이미
             지 문서 DjVu 변
             환 기능

             - 유/무선 통합
             기능

 메타데이터 XML 기반의 메 지원                    DjVu 문서의 Hidden text로 삽입하는 기능
 삽입    타데이터 삽입
       기능 제공
 페이지 단 지원        불지원
 위 검색
 XML 연동 기본 기능               지원         DjVu는 모든 텍스트 정보는 XML 기반으로 되어 있음
 시각장애용       -시각장애자를        -Acrobat   - 508호환은 IT관련 어플리케이션이 시각 장애자들을
 표준 인터       위한 표준 인터       Reader     위해서 모든 출력 되는 텍스트나 내용에 대해서 3rd
 페이스 508     페이스로 508 호     6.0 에서     pary s creen reader(508 호환)기를 통해서 text-to-
 호환 지원       환              만 지원       s peech 를 할 수 있게 하는 인터페이스
 하이퍼링크 - 지원                 -불가        - 자동삽입 툴에 의하여 문서 내용안에 원하는 패턴만을
 자동 삽입                                 골라서 자동으로 하이퍼링크 정보 삽입 하는 기능
knol.google.co.kr/k/-/djvu/…/3                                                      15/20
2009-09-25                                    스캔문서의 고효율 압축의 대명사-…
 DB 연동        지원                 지원
 고해상도         점진적                전체 이미 PDF는 전체 이미지를 모두 다운로드 받은 후 디스플레
 이미지 서        인(Progr ssiv )     지 모두 다 이 하는 방식으로 시간이 많이 걸림
 비스 방식        디스플레이              운로드후
                                 디스플레
                                 이

 Document   PDF Image with PDF Image with    Dj Vu Image usi ng Searchable Image   Searchable Image with Searchable Image Dj Vu
            G4 Comp-       JBIG2 Comp-       JB2 Comp-          with TIFF-G4       JBIG2 Comp-           using JB2 Comp-

                ression          ression            ressi on                               ression               ression


                             (PDF-Capture)                                             (PDF-Capture)



 Contract 58k             14k                10k               72k                 28k                  12k
 Annual 2.89M             511k               396k              2.0M                755k                 527k

 Report

 Technical 2.02M          431k               368k              2.15M               582k                 419k

 Report

 Patent     815k          153k               123k              908k                240k                 162k

 Total   5.84M            1.11M              897k              5.13M               1.61M                1.12M
 Average 100%             19%                15%               100%                31%                  22%




 7. DjVu Page Streaming Server (DPSS) 기능

 DjVu는 다른 유사 포맷들과는 다르게 유일하게 DjVu 문서를 대상으로 웹기반의 페이지 스트
 리밍 기능을 제공하고 있다.
 대부분 동영상을 웹상에서 전송하기 위한 동영상 스트리밍 기술은 알려져 있지만, 문서를 대
 상으로 스트리밍을 할 수 있는 기술은 생소할 것이다.

 DjVu는 압축된 문서의 파일크기 및 페이지 수와 상관 없이도, 웹 상에서 대용량 이미지 문서
 및 스캔된 컨텐트를 대상으로 고속 전송 및 빠른 검색을 위한 문서의 페이지 단위 스트리밍
 기능을 제공하고 있다.

 예들들어 5000장의 고화질 사진을 DjVu 로 압축 하여 한개의 문서 파일로 만들 경우에도 한개
 의 파일 크기가 약 100M 이상 될 수가 있고 이를 웹에서 기존의 방식으로 배포하려면 꽤 시간
 이 걸릴 것이나, DPSS 기능을 이용하게 되면 전체 페이지를 모두 다운로드 받을 때 까지 기
 다리지 않고 원하는 페이지를 직접 검색 하여 해당되는 페이지로 자유롭게 이동이 가능하여
 문서단위 뿐만 아니라 페이지 단위 검색을 하여 고속으로 검색 및 뷰잉이 가능한 것이 DjVu
 만이 갖는 유일한 기술이기도 하다

 아래 데모사이트는 미국에서 911 테러 발생하였을때 아마추어 사진사들이 찍은 사진 5248장
 을 DjVu 로 압축하여 하나의 DjVu 파일 형태로 해서 DPSS 를 적용하여 퍼블리싱한 사이트 입
 니다.

 http://demo.djvutech.com/DPSS/dpsserv.dll/acrocube/911-5000p.djvu/index?
 DJVUOPTS&thumbnails=yes

 국내에서는 대법원의 도서관에서 제공하는 법원사 자료중에서 1390 페이지를 스캔하여 웹을
 통해서 서비스를 하고 있기도 하다. 1000페이지가 넘는 스캐닝 문서인데도 불구하고 웹상에
 서 매우 빠른 검색 속도를 볼 수 가 있다.

knol.google.co.kr/k/-/djvu/…/3                                                                                                    16/20
2009-09-25                       스캔문서의 고효율 압축의 대명사-…
 http://library.scourt.go.kr/jsp/common/c_djvuview.jsp?
 v_path=djvu1/%B9%FD%BF%F8%BB%E7.djvu




 8. 본문 내용 검색 (페이지 단위 검색)을 위한 기술
 8.1 Notes


    - DjVu 는 문서내에 OCR 처리된 텍스트 와 Office 문서에서 변환된 텍스트들은 모두 Djvu
 문서내에 hidden text 로 존재 (hidden text는 XML 또는 plain text로 export 할 수 있음)
    - hidden text는 word 단위 (영어/한글과 같이 white space 로 묶여 있는 문자열을 위한
 것) 또는 char 단위 (중국어/일본어와 같이 띄어 쓰기가 없는 문자열을 위한 것)의 문자와 위
 치정보를 갖고 있음.
    - DjVu로 변환시 옵션에 의해서 word 단위로 할 것인지 아니면 char 단위로 할 것인지 결
 정 해야 함.
    - Djvu문서는 기본적으로 hidden text들은 DjVu active/x plug-in viewer에 의하여 하이라
 이트 처리 및 표시가 됩니다. (자세한 사항은 아래 내용 참조)
    - DjVu 뷰어에서는 검색엔진과 같은 검색기능은 제공하지는 않으며, PDF의 Acrobat
 reader 에서와 같이 뷰어 내에서의 검색은 텍스트 단위의 패턴 매칭에 의해서 sequential 하
 게 찾아가는 형태로 동작


 8.2. Hidden tex t 구조 설명

   - 원문 텍스트 sample:
        "스캔문서/대용량 이미지의
          고효율 압축/고속 전송/보안 기술"

  1). word-공백없음(nospace) 옵션으로 텍스트가 삽입된 경우
      - DjVutoText 로 추출하면 : "스캔문서/대용량이미지의고효율압축/고속전송/보안기
 술" 와 같이 추출 (단어와 단어 사이에 공백이 없는 상태)
      - DjVuToXml 로 추출하면 :
            <LINE>
             <WORD coords="849,690,1464,611">스캔문서/대용량</WORD>
             <WORD coords="1497,690,1819,611">이미지의</WORD>
            </LINE>
            <LINE>
             <WORD coords="721,788,967,713">고효율</WORD>
             <WORD coords="1000,790,1362,711">압축/고속</WORD>
             <WORD coords="1393,790,1757,711">전송/보안</WORD>
             <WORD coords="1791,790,1953,711">기술</WORD>
            </LINE>
       - DjVu plug-in 뷰어에서 검색시 하이라이트: 뷰어는 "스캔문서/대용량이미지의고효율
 압축/고속전송/보안기술" hidden text에 대해서 pattern matching 검색
           = 키워드 "고효율" -> 하이라이트 "스캔문서/대용량이미지의고효율압축/고속전송/
 보안기술
           = 키워드 "압축" -> 하이라이트 "스캔문서/대용량이미지의고효율"압축/고속전
 송/보안기술"
           = 키워드 "보안" -> 하이라이트 "스캔문서/대용량이미지의고효율압축/고속전송/
 보안기술"
           = 키워드 "보안기" -> 하이라이트 "스캔문서/대용량이미지의고효율압축/고속전송/
 보안 기술"
           = 키워드 "속전" -> 하이라이트 "스캔문서/대용량이미지의고효율압축/고속 전
knol.google.co.kr/k/-/djvu/…/3                                            17/20
2009-09-25                         스캔문서의 고효율 압축의 대명사-…
 송/보안"
             = 키워드 "의고"          -> 하이라이트 "스캔문서/대용량이미지의고효율압축/고속 전
 송/보안"

  2). word-공백(space) 옵션으로 텍스트가 삽입된 경우
       - DjVutoText로 추출 하면 : 원문텍스트와 동일 "스캔문서/대용량 이미지의 고효율 압
 축/고속 전송/보안 기술" (단어 사이에 공백이 있음)
       - DjVuToXML로 추출 하면 : 1)번의 XML 과 동일
       - DjVu plug-in 뷰어에서 검색시 하이라이트
         = 키워드 "고효율" -> 하이라이트 "스캔문서/대용량 이미지의 고효율 압축/고속 전송/
 보안 기술"
         = 키워드 "압축" -> 하이라이트 "스캔문서/대용량 이미지의 고효율 압축/고속 전송/
 보안 기술"
         = 키워드 "보안" -> 하이라이트 "스캔문서/대용량 이미지의 고효율 압축/고속 전송/
 보안 기술"
         = 키워드 "보안기" -> 결과 없음
         = 키워드 "속전" -> 결과 없음
         = 키워드 "의고" -> 결과없음

   3). char-공백없음(nospace) 옵션으로 텍스트가 삽입된 경우
       - DjVutoText 로 추출하면 : "스캔문서/대용량이미지의고효율압축/고속전송/보안기술"
 와 같이 추출 (단어 사이에 공백이 없음)
       - DjVuToXml 로 추출하면 :
            <LINE>
             <WORD>
                  <CHAR coords="849,680,928,615">스</CHAR>
                  <CHAR coords="934,688,1009,613">캔</CHAR>
                  <CHAR coords="1016,688,1095,613">문</CHAR>
                  <CHAR coords="1098,690,1174,611">서</CHAR>
                  <CHAR coords="1181,688,1213,611">/</CHAR>
                  <CHAR coords="1222,690,1295,611">대</CHAR>
                  <CHAR coords="1301,690,1380,613">용</CHAR>
                  <CHAR coords="1390,690,1464,613">량</CHAR>
             </WORD>
             <WORD>
                  <CHAR coords="1497,690,1568,611">이</CHAR>
                  <CHAR coords="1583,690,1652,611">미</CHAR>
                  <CHAR coords="1662,690,1736,611">지</CHAR>
                  <CHAR coords="1746,690,1819,611">의</CHAR>
             </WORD>
            </LINE>
            <LINE>
             <WORD>
                  <CHAR coords="721,780,800,717">고</CHAR>
                  <CHAR coords="804,782,883,713">효</CHAR>
                  <CHAR coords="888,788,967,713">율</CHAR>
             </WORD>
             <WORD>
                  <CHAR coords="1000,790,1076,711">압</CHAR>
                  <CHAR coords="1081,790,1160,711">축</CHAR>
                  <CHAR coords="1163,788,1195,711">/</CHAR>
                  <CHAR coords="1199,780,1278,717">고</CHAR>
                  <CHAR coords="1283,790,1362,711">속</CHAR>
             </WORD>
            - <WORD>
                  <CHAR coords="1393,788,1467,711">전</CHAR>
                  <CHAR coords="1477,790,1556,713">송</CHAR>
                  <CHAR coords="1559,788,1591,711">/</CHAR>
                  <CHAR coords="1596,780,1675,717">보</CHAR>
knol.google.co.kr/k/-/djvu/…/3                                      18/20
2009-09-25                   스캔문서의 고효율 압축의 대명사-…
                 <CHAR coords="1596,780,1675,717">보</CHAR>
                 <CHAR coords="1681,788,1757,713">안</CHAR>
            </WORD>
            <WORD>
                 <CHAR coords="1791,790,1863,711">기</CHAR>
                 <CHAR coords="1874,788,1953,711">술</CHAR>
            </WORD>
          </LINE>
     - DjVu plug-in 뷰어에서 검색시 하이라이트: 뷰어는 "스캔문서/대용량이미지의고효율
     압축/고속전송/보안기술" hidden text에 대해서 pattern matching 검색
          = 키워드 "고효율" -> 하이라이트 "스캔문서/대용량이미지의고효율압축/고속전송/
 보안기술
          = 키워드 "압축" -> 하이라이트 "스캔문서/대용량이미지의고효율"압축/고속전
 송/보안기술"
          = 키워드 "보안" -> 하이라이트 "스캔문서/대용량이미지의고효율압축/고속전
 송/보안기술"
          = 키워드 "보안기" -> 하이라이트 "스캔문서/대용량이미지의고효율압축/고속전
 송/보안기술"
          = 키워드 "속전" -> 하이라이트 "스캔문서/대용량이미지의고효율압축/고속전송/
 보안"
          = 키워드 "의고" -> 하이라이트 "스캔문서/대용량이미지의고효율압축/고속전송/
 보안"
   4). char-공백(space) 옵션으로 텍스트가 삽입된 경우
     - DjVutoText 로 추출하면 : "스캔문서/대용량 이미지의 고효율 압축/고속 전송/보안
 기술" (단어 사이에 공백이 있음)
     - DjVuToXml 로 추출하면 : 3)번과 동일
     - DjVu plug-in 뷰어에서 검색시 하이라이트:
          = 키워드 "고효율" -> 하이라이트 "스캔문서/대용량 이미지의 고효율 압축/고속 전
 송/보안 기술
          = 키워드 "압축" -> 하이라이트 "스캔문서/대용량 이미지의 고효율 압축/고속 전
 송/보안 기술"
          = 키워드 "보안" -> 하이라이트 "스캔문서/대용량 이미지의 고효율 압축/고속 전
 송/보안 기술"
          = 키워드 "보안기" -> 결과없음
          = 키워드 "속전" -> 결과없음
          = 키워드 "의고" -> 결과없음


  8.3 DjVu Active/X plug-in 뷰어에서의 하이라이트 처리

    - DjVu viewer active/x componet 는 내부 method 로 아래와 같은 함수를 제공합니다.
      = HighlightTerm(exp, bMatchCase, bMatchWord, bAllMatches, color) : 현재 페이지 상
 의 exp 문자열 표현식에 매칭되는 첫번째 또는 모든 텍스트를 지정된 컬러로 하이라이트 시
 킵니다.
      = (VB6, JScript) 예
            myDjVu.HighlightTerm("압축", 0, 0, 1, 0x0000FF); /* VB나 JScript 에서 뷰어를 이
 함수로 호출을 하면 해당 되는 페이지에 '압축' 텍스트 위치하는 모든 텍스트는 color
 (0x0000FF)로 하이라이트 됨
    - 하이라이트 처리되는 형태는 위에서 언급한 Hidden text 구조에 의해서 결정됨


 9. Ajax 기반의 DjVu 뷰어
 DjVu는 실시간(on-the-fly)으로 원하는 크기의 표준이미지를 추출하는 기능을 갖고 있다.
 DjVu Streaming Server(DPSS)는 웹서버 기반의 http 프로토콜에 의해서 DjVu문서를 원하는
 크기의 표준이미지를 추출하는 기능을 제공한다.

 DjVu Ajax 뷰어는 DPSS 와 연계하여 Fixed 된 윈도우 형태와 Resizable 윈도우 형태로 뷰잉

knol.google.co.kr/k/-/djvu/…/3                                                       19/20
2009-09-25                       스캔문서의 고효율 압축의 대명사-…
 이 가능하다

  - 한 페이지 Fixed Windows demo : (* 아래 데모는 한페이지의 신문이나 모든 저작권은 해
 당 신문사에 있음 *)
    http://demo.djvutech.com/ajax_viewer/DjVuTech-
 AJAXViewer/examples/oneimage2.html
  - 멀티페이지 문서 - Resizable Window demo (* PPT 파일을 DjVu 로 1/10크기로 압축한
 문서 *)
   http://demo.djvutech.com/ajax_viewer/DjVuTech-AJAXViewer/examples/spiderman.html


 10. 평가용 S/W 다운로드
 스캔된 문서들을 DjVu로 압축 변환도 해 보고 OCR (한글/일어/중국어/영어 포함 수십개의 언
 어 지원) 처리도 직접 체험 하려면 아래 사이트에서 직접 평가용 S/W를 다운로드 받을 수 있
 다. 평가용은 30일간 또는 500 페이지만을 생성할 수 있는 full 기능을 제공하고 있다

   - http://www.djvutech.com/download/01.asp


 11. 데모를 위한 사이트

 앞에서 언급 되었던 DjVu 의 주요 특징 들 및 기능들을 실제로 체험할 수 있는 데모 사이트.

  - http://demo.djvutech.com




 러시아 첨단 기술이전                     파일압축 다운받기 굿파 일
 러시아와의 공동기술협력사업 지원 안학훈 대 공개자료실, 유틸, 압축, 드라이버, 프리웨어,
 리 02-769-6707           쉐어웨어 등 자료 제공.
 www.sbc.or.k r                  www.goo dfile .net



 댓글
 댓글을 쓰려면 로그인해 주세요.




knol.google.co.kr/k/-/djvu/…/3                                                        20/20

More Related Content

Similar to Dj vu 기술-백서-update

다양한 모바일에서의 호환성 보장과 사이즈 지원 방법
다양한 모바일에서의 호환성 보장과 사이즈 지원 방법다양한 모바일에서의 호환성 보장과 사이즈 지원 방법
다양한 모바일에서의 호환성 보장과 사이즈 지원 방법
mosaicnet
 
제안서N School(영상교육영상회의)[1]
제안서N School(영상교육영상회의)[1]제안서N School(영상교육영상회의)[1]
제안서N School(영상교육영상회의)[1]
kisu kim
 
NDC2018 안드로이드+유니티 네이티브 프로파일링 삽질기
NDC2018 안드로이드+유니티 네이티브 프로파일링 삽질기NDC2018 안드로이드+유니티 네이티브 프로파일링 삽질기
NDC2018 안드로이드+유니티 네이티브 프로파일링 삽질기
Jaeseung Ha
 
[IoT] MAKE with Open H/W + Node.JS - 1st
[IoT] MAKE with Open H/W + Node.JS - 1st[IoT] MAKE with Open H/W + Node.JS - 1st
[IoT] MAKE with Open H/W + Node.JS - 1st
Park Jonggun
 
경영과정보기술-발표ppt
경영과정보기술-발표ppt경영과정보기술-발표ppt
경영과정보기술-발표ppt
gueste695c3
 
자동인식&스마트SCM(MONTHLY AIDC+SMART SCM) 2013년 11월호
자동인식&스마트SCM(MONTHLY AIDC+SMART SCM) 2013년 11월호자동인식&스마트SCM(MONTHLY AIDC+SMART SCM) 2013년 11월호
자동인식&스마트SCM(MONTHLY AIDC+SMART SCM) 2013년 11월호
고양뉴스
 
Web rtc meetup_korea_1st(20161115)
Web rtc meetup_korea_1st(20161115)Web rtc meetup_korea_1st(20161115)
Web rtc meetup_korea_1st(20161115)
Rang-Hyuck Lee
 
[안드앱콘] 1.다양한스크린사이즈
[안드앱콘] 1.다양한스크린사이즈[안드앱콘] 1.다양한스크린사이즈
[안드앱콘] 1.다양한스크린사이즈Neoroid
 

Similar to Dj vu 기술-백서-update (8)

다양한 모바일에서의 호환성 보장과 사이즈 지원 방법
다양한 모바일에서의 호환성 보장과 사이즈 지원 방법다양한 모바일에서의 호환성 보장과 사이즈 지원 방법
다양한 모바일에서의 호환성 보장과 사이즈 지원 방법
 
제안서N School(영상교육영상회의)[1]
제안서N School(영상교육영상회의)[1]제안서N School(영상교육영상회의)[1]
제안서N School(영상교육영상회의)[1]
 
NDC2018 안드로이드+유니티 네이티브 프로파일링 삽질기
NDC2018 안드로이드+유니티 네이티브 프로파일링 삽질기NDC2018 안드로이드+유니티 네이티브 프로파일링 삽질기
NDC2018 안드로이드+유니티 네이티브 프로파일링 삽질기
 
[IoT] MAKE with Open H/W + Node.JS - 1st
[IoT] MAKE with Open H/W + Node.JS - 1st[IoT] MAKE with Open H/W + Node.JS - 1st
[IoT] MAKE with Open H/W + Node.JS - 1st
 
경영과정보기술-발표ppt
경영과정보기술-발표ppt경영과정보기술-발표ppt
경영과정보기술-발표ppt
 
자동인식&스마트SCM(MONTHLY AIDC+SMART SCM) 2013년 11월호
자동인식&스마트SCM(MONTHLY AIDC+SMART SCM) 2013년 11월호자동인식&스마트SCM(MONTHLY AIDC+SMART SCM) 2013년 11월호
자동인식&스마트SCM(MONTHLY AIDC+SMART SCM) 2013년 11월호
 
Web rtc meetup_korea_1st(20161115)
Web rtc meetup_korea_1st(20161115)Web rtc meetup_korea_1st(20161115)
Web rtc meetup_korea_1st(20161115)
 
[안드앱콘] 1.다양한스크린사이즈
[안드앱콘] 1.다양한스크린사이즈[안드앱콘] 1.다양한스크린사이즈
[안드앱콘] 1.다양한스크린사이즈
 

More from CharlyChoi

Gmail 자동분류함(priority inbox)의 모든 것
Gmail 자동분류함(priority inbox)의 모든 것Gmail 자동분류함(priority inbox)의 모든 것
Gmail 자동분류함(priority inbox)의 모든 것
CharlyChoi
 
기업을 위한 Google drive 100% 활용 백서
기업을 위한 Google drive 100% 활용 백서기업을 위한 Google drive 100% 활용 백서
기업을 위한 Google drive 100% 활용 백서
CharlyChoi
 
모든 기록용 저장도구는 버려라, 지메일 하나면 충분 에버노트를 능가하는Gmail 활용의 노하우
모든 기록용 저장도구는 버려라, 지메일 하나면 충분 에버노트를 능가하는Gmail 활용의 노하우모든 기록용 저장도구는 버려라, 지메일 하나면 충분 에버노트를 능가하는Gmail 활용의 노하우
모든 기록용 저장도구는 버려라, 지메일 하나면 충분 에버노트를 능가하는Gmail 활용의 노하우
CharlyChoi
 
모든 기록용 저장도구는 버려라, 지메일 하나면 충분 에버노트를 능가하는Gmail 활용의 노하우
모든 기록용 저장도구는 버려라, 지메일 하나면 충분 에버노트를 능가하는Gmail 활용의 노하우모든 기록용 저장도구는 버려라, 지메일 하나면 충분 에버노트를 능가하는Gmail 활용의 노하우
모든 기록용 저장도구는 버려라, 지메일 하나면 충분 에버노트를 능가하는Gmail 활용의 노하우
CharlyChoi
 
기업을 위한 Google drive for work 100% 활용 백서
기업을 위한 Google drive for work 100% 활용 백서기업을 위한 Google drive for work 100% 활용 백서
기업을 위한 Google drive for work 100% 활용 백서
CharlyChoi
 
[Gmail 필수적으로 알아야 할 10가지 기능 소개]
[Gmail 필수적으로 알아야 할 10가지 기능 소개][Gmail 필수적으로 알아야 할 10가지 기능 소개]
[Gmail 필수적으로 알아야 할 10가지 기능 소개]
CharlyChoi
 
모바일 전자결재 GDriveFlow
모바일 전자결재 GDriveFlow 모바일 전자결재 GDriveFlow
모바일 전자결재 GDriveFlow
CharlyChoi
 
드롭박스 Vs. 구글드라이브 상세 비교
드롭박스 Vs. 구글드라이브 상세 비교드롭박스 Vs. 구글드라이브 상세 비교
드롭박스 Vs. 구글드라이브 상세 비교
CharlyChoi
 
Google Drive 협업 - 초등학생도 이해하기 쉬운 협업
Google Drive 협업 - 초등학생도 이해하기 쉬운 협업Google Drive 협업 - 초등학생도 이해하기 쉬운 협업
Google Drive 협업 - 초등학생도 이해하기 쉬운 협업
CharlyChoi
 
지메일 Vs 아웃룩 심층 비교 (Gmail vs Outlook)
지메일 Vs 아웃룩 심층 비교 (Gmail vs Outlook)   지메일 Vs 아웃룩 심층 비교 (Gmail vs Outlook)
지메일 Vs 아웃룩 심층 비교 (Gmail vs Outlook)
CharlyChoi
 

More from CharlyChoi (10)

Gmail 자동분류함(priority inbox)의 모든 것
Gmail 자동분류함(priority inbox)의 모든 것Gmail 자동분류함(priority inbox)의 모든 것
Gmail 자동분류함(priority inbox)의 모든 것
 
기업을 위한 Google drive 100% 활용 백서
기업을 위한 Google drive 100% 활용 백서기업을 위한 Google drive 100% 활용 백서
기업을 위한 Google drive 100% 활용 백서
 
모든 기록용 저장도구는 버려라, 지메일 하나면 충분 에버노트를 능가하는Gmail 활용의 노하우
모든 기록용 저장도구는 버려라, 지메일 하나면 충분 에버노트를 능가하는Gmail 활용의 노하우모든 기록용 저장도구는 버려라, 지메일 하나면 충분 에버노트를 능가하는Gmail 활용의 노하우
모든 기록용 저장도구는 버려라, 지메일 하나면 충분 에버노트를 능가하는Gmail 활용의 노하우
 
모든 기록용 저장도구는 버려라, 지메일 하나면 충분 에버노트를 능가하는Gmail 활용의 노하우
모든 기록용 저장도구는 버려라, 지메일 하나면 충분 에버노트를 능가하는Gmail 활용의 노하우모든 기록용 저장도구는 버려라, 지메일 하나면 충분 에버노트를 능가하는Gmail 활용의 노하우
모든 기록용 저장도구는 버려라, 지메일 하나면 충분 에버노트를 능가하는Gmail 활용의 노하우
 
기업을 위한 Google drive for work 100% 활용 백서
기업을 위한 Google drive for work 100% 활용 백서기업을 위한 Google drive for work 100% 활용 백서
기업을 위한 Google drive for work 100% 활용 백서
 
[Gmail 필수적으로 알아야 할 10가지 기능 소개]
[Gmail 필수적으로 알아야 할 10가지 기능 소개][Gmail 필수적으로 알아야 할 10가지 기능 소개]
[Gmail 필수적으로 알아야 할 10가지 기능 소개]
 
모바일 전자결재 GDriveFlow
모바일 전자결재 GDriveFlow 모바일 전자결재 GDriveFlow
모바일 전자결재 GDriveFlow
 
드롭박스 Vs. 구글드라이브 상세 비교
드롭박스 Vs. 구글드라이브 상세 비교드롭박스 Vs. 구글드라이브 상세 비교
드롭박스 Vs. 구글드라이브 상세 비교
 
Google Drive 협업 - 초등학생도 이해하기 쉬운 협업
Google Drive 협업 - 초등학생도 이해하기 쉬운 협업Google Drive 협업 - 초등학생도 이해하기 쉬운 협업
Google Drive 협업 - 초등학생도 이해하기 쉬운 협업
 
지메일 Vs 아웃룩 심층 비교 (Gmail vs Outlook)
지메일 Vs 아웃룩 심층 비교 (Gmail vs Outlook)   지메일 Vs 아웃룩 심층 비교 (Gmail vs Outlook)
지메일 Vs 아웃룩 심층 비교 (Gmail vs Outlook)
 

Dj vu 기술-백서-update

  • 1. 2009-09-25 스캔문서의 고효율 압축의 대명사-… 스캔문서의 고효율 압축의 대명사-DjVu 기 술 소개 DjVu High Compression Technology 전자화문서 고효율 압 축 배포 기술 스캔문서(전자화문서)의 고효율 압축을 유지하고 디지털 문서로서의 속성 을 모두 갖춘 DjVu 포맷 및 압축 기술에 대한 소개 및 대용량 이미지 및 문 서 조회를 위한 문서/페이지 스트리밍 기술에 대한 고찰 콘텐츠 DjVu 압축 포맷 및 페이지 스트리밍 기술 소개 1.소개 2. DjVu 압축 방식 소개 3. 흑백 문서를 위한 TIFF 포맷과 DjVu와의 비교 4. JPEG 포맷과 DjVu와의 비교 5. DjVu 와 JPEG2000의 비교 6. DjVu 와 PDF 비교 7. DjVu Page Streaming Server (DPSS) 기능 8. 본문 내용 검색 (페이지 단위 검색)을 위한 기술 9. Ajax 기반의 DjVu 뷰어 펼치기 DjVu 압축 포맷 및 페이지 스트리밍 기술 소개 작성자 : 최흥식(hs ikchoi@gmail.com) 1.소개 DjVu는 한마디로 정의하자면 오프라인상에서의 흑백 또는 컬러 종이문서의 세계를 온라인 디지털 웹에서도 그 품 질 그대로 유지하고 검색, 배포, 압축, 저장할 수 있게 한 새로운 압축 기술이다. 이 기술은 1990년대 후반에 미국 AT&T Lab에서 연구 개발된 것으로 2000년 초에 미국 시애들 소재의 Lizadtech에서 관련 기술을 인수하면서 보급 되기 시작한 솔루션이다. 현재는 Lizartech 사는 Celartem 사의 100% 자회사로서 흡수 통합되었다. DjVu 기술이 주는 주요 사상은 “Scan-to-Web’ 이다. 그 동안 스캐닝을 통해서 디지털화되는 일반 문서나 고화질 의 사진 등이 그 파일의 크기가 커서 웹을 통해서 서비스가 불가능 하던 문제점을 일소에 해소하는 기술인 것이다. 최근에는 고품질의 컬러 스캐너와 디지털 카메라의 보급으로 인하여 오프라인상의 종이 문서나 책자들에 대한 디 지털화 요구가 증대되고 있는 시점에서 이러한 기술은 더더욱 진가를 발휘하게 된다. DjVu라는 단어는 불어 ‘déjà vu’ 에서 온 것으로 ‘어디서 본 듯한 느낌 또는 착각’ 이란 뜯을 갖고 있다고 한다. 우리 말로는 ‘데자뷰’로 발음한다. DjVu는 웹 상에서 통용되는 TIFF, PDF, JPEG과 같이 또 다른 하나의 파일 포맷이기도 하 다. DjVu로 만들어진 문서는 확장자가 ‘djvu’ 또는 ‘djv’로 표시 된다. DjVu로 표시된 문서는 PDF문서와 마찬가지로 자유롭게 웹에서 저장, 배포, 다운로드, 이메일 전송 등이 가능하다. DjVu 문서를 보기 위해서는 데자뷰테크놀러지 (DjVu 뷰어자동설치)사 홈페이지에서 무료로 다운로드 받을 수 있다. 사용자의 브라우져에 따라서 윈도우시스템 에서는 익스플로러용 유닉스에서는 네스케이프용 그리고 Mac 사용자는 Mac용 reader 기를 다운로드 받아서 사 용할 수 있다. 1000페이지가 넘는 컬러 책자를 300DPI 해상도로 스캐닝 하여 웹에서 서비스 한다고 할 때 300DPI 해상도의 품질 을 웹에서 유지 하기 위해서는 적어도 400Mbytes (JPEG으로 페이지당 500Kbyte 정도 소요)이상의 파일 크기가 필요하게 된다. 400Mbytes 나 되는 책자를 웹에서 서비스하는 것은 거의 불가능하다고 볼 수 있을 것이다. DjVu는 knol.google.co.kr/k/-/djvu/…/3 1/20
  • 2. 2009-09-25 스캔문서의 고효율 압축의 대명사-… 400Mbytes를 1/20로 압축하여 20Mbtyes 만들 수 있고 페이지 단위의 스트리밍 기술을 적용하여 책자의 페이지 수와 파일의 크기에 상관 없이 고 화질의 디지털 북을 일정한 검색 속도(1-2초 정도)를 보장하면서 검색할 수 있게 한 다. 지도나 도면을 디지털화 할 경우 한 장의 파일 크기는 100Mbyt s 또는 200Mbyt s 이상 넘는 경우가 보통이다. 이정도 크기면 일반적인 방법으로 웹에서 서비스할 수 있는 정도의 크기를 넘어서게 된다. DjVu는 이러한 지도나 도면과 같 이 한 장의 이미지의 크기가 큰 경우도 적절한 크기로 압축을 할 뿐만 아니라 웹에서 서비스할 경우 소위 점진적인 이 미지 전송 기술을 통해서 아무리 큰 크기의 이미지라도 사용자의 화면에는 기다림 없이 이미지를 순식간에 볼 수가 있게 하여 준다. 스캐닝 또는 디지털 카메라를 통해서 만들어진 모든 디지털 자료나 사진들은 DjVu로 변환이 가능하다. 뿐만 아니라 MS-Offic 문서(워드, 파워포인트, 엑셀)나 아래아한글 문서, PDF문서 등등을 모두 DjVu 문서로 변환 할 수 있다. 2. DjVu 압축 방식 소개 DjVu는 크게 3가지의 압축 방식을 제공한다. 흑백(biton l) 이미지 압축은 표준 JBIG2의 기술을 적용한 JB2 압축 방식, 이방식은 흑백 이미지에 대하여 Lossl ss/Visu l Lossl ss 방식을 모두 적용하여 압축 할 수 있다. 컬러 이미지 압축은 W v l t 방식인 IW44 압축 적용. 이방식은 JPEG2000과 같은 w v l t 기술을 사용한다. MRC (Mixed Raster Content) 압축 방식- 이방식은 앞에서 소개 된 것과 같이 이미지 내용을 분석하여 3개 의 계층으로 자동 분리하여 각각 계층에 맞는 이미지 압축 방식을 적용한다 3. 흑백 문서를 위한 TIFF 포맷과 DjVu와의 비교 우리는 팩스기를 통해서 문서를 전송하거나 수신하기도 한다. 팩스기는 일반 전화선을 통해서 기껏 해야 9600bps 정 도의 속도로 필요한 데이터를 송수신 한다. 따라서 이러한 낮은 속도의 전송라인을 통해서 가능 한한 많은 정보를 보 내기 위해서는 전송 정보량을 최대한 줄이는 것이 관건일 것이다. 1980년에 CCITT 표준화 그룹에서는 소위 Bi-level 이미지(흑백 이미지)를 표현하기 위한 Group 3 표준 포맷을 정 했다. 1984년에는 G3 표준을 좀더 향상 시킨 압축 권고안 Group 4가 발표되었다. 팩스 전송뿐만 아니라 디지털 도 서관 분야에서 흑백 원문을 스캐닝 하여 이미지화하는데 가장 많이 사용하고 있는 포맷이 바로 G4 표준 압축 방식 knol.google.co.kr/k/-/djvu/…/3 2/20
  • 3. 2009-09-25 스캔문서의 고효율 압축의 대명사-… 으로 표현되는 TIFF G4 타입이다. G4 표준이 발표된 이후 1993년에 Joint Bi-level Images Experts Group (JBIG)에서는 새로운 흑백 이미지 코딩 표준을 JBIG1 이름으로 발표하였으나 G4 표준보다 좋은 압축률을 갖고 있음에도 불구하고 G4 표준만큼 널리 보급 되지는 못하였다. 2000년에는 G4 표준 보다 약 3 - 4배 정도의 압축률이 좋은 JBIG2가 발표되었다. AT&T 는 당시 에 JBIG2 표준에 근거하여 흑백 문서이미지 압축 포맷을 개발 하였는데 이것이 DjVu JB2이다. DjVu JB2 포맷은 일반적으로 TIFF G4 이미지 크기 보다 약 3-5배 정도의 압축 률 갖고 있다.. TIFF G4는 단순히 흑백 이미지를 압축하는 표준 포맷일 뿐이지 그 이상도 아니다. TIFF 포맷 안에 PDF 문서와 같 이 목차를 보여주는 책갈피 정보를 삽입하여 활용할 수 있게 하는 기능, 메타 데이터를 이미지 안에 삽입하여 검색 시 활용하는 기능, 원문의 본문 내용을 검색할 수 있도록 텍스트 정보를 원문이미지와 같이 표현할 수 있는 기능 등 을 지원하지 않기 때문에 이러한 기능을 위해서는 별도의 응용프로그램을 만들어서 제공해야 하는 문제점들을 갖고 있다. 다른 이미지 포맷과는 다르게 여러 장의 페이지를 하나의 파일에 번들로 저장할 수 있는 Multi-TIFF 기능을 제공하기 도 하지만 위에서 언급한 기능들을 위한 응용프로그램에서는 이러한 Multi-TIFF 기능과 함께 활용할 수 없기 때문에 별로 효용성이 없는 것이 되어 버렸다. TIFF는 표준 포맷으로 인식되어 있음에도 불구하고 익스플로러와 같은 표준 브라우저에서 직접 TIFF 문서를 볼 수 없기 때문에 별도의 TIFF vi w r를 설치하여 이용하여야 하는데 TIFF vi w r 기능도 표준화 되어 있지 않기 때문에 서 비스 하는 기관이나 업체에 따라서 그 사용법과 서로 호환이 안 되는 문제점을 갖고 있기도 하다. 비교 DjVu TIFF 비고 항목 G4/JBIG1 개발된 출 미국 AT&T 에서 개발 Joint Bi-level JBIG1 압축기는 public domain에 source 가 공개된 처 Image Experts S/W 한국에서는 Celartem Korea에서 Group에서 재정한 공급 및 기술지원 흑백 이미지 전용 압 축 규약 지원 압축 -흑백 이미지는JBIG2/JB2 압축기 -흑백 이미지 만 적 객관적으로 JBIG2/JB2 방식이 JBIG1 보다 2 - 4배의 압 방식 용 JBIG1 방식 축률이 좋은 것으로 평가 되고 있음 - 비손실/손실 압축 모두 방식 지원 - 비손실 방식만 지 -컬러 이미지는 IW44 압축기 사용 원 - DjVu는 흑백/컬러 모두 지원 압축 효율 -흑백 이미지 TIFF G4방식보다 20 - JBIG1은 흑백 이미 – 40% 수준 지 TIFF G4 방식보 knol.google.co.kr/k/-/djvu/…/3 3/20
  • 4. 2009-09-25 – 스캔문서의 고효율 압축의 대명사-… 다 60 – 80% 수준 -컬러 이미지 JPEG 보다 1/10 – 1/30 크기 - 컬러이미지 적용 불가 문서 내용 - DjVu 문서 내에 OCR 된 text를 - 불가능 검색 기능 hidden text 와 XML 구조로 삽입 하여 viewer 내에서 full text 검색 및 검색 결과 highlight 처리 - 외부 검색엔진과 연동하여 page 단위 검색 가능 멀티 페이 - 기본적으로 멀티 페이지 지원 - Multi-TIFF 지원 지 지원 - 목차 삽입 및 display 기능 - TIFF 포맷에는 목 차 처리 기능 제공하 지 않음 OCR 처리 - DjVu는 OCR 엔진을 기본적으로 - 3rd party OCR 제 기능 제공 품과 어플리케이션 level 로 연동 메타정보 DjVu 문서 안에 메타정보 삽입 및 - 불가능 DjVu 문서 안에 hidden text-XML 구조로 메타정보 삽입 기능 추출 기능 를 삽입하고 활용하는 기능 컬러 이미 지원 흑백전용 포맷 지 압축 지 원 시각장애 -시각장애자를 위한 표준 인터페이 -불가능 - 508호환은 IT관련 어플리케이션이 시각장애자들을 용 표준 인 스로 508 호환 위해서 모든 출력 되는 텍스트나 내용에 대해서 3rd 터페이스 pary screen reader(508 호환)기를 통해서 text-to- 508 호환 speech 를 할 수 있게 하는 인터페이스 지원 전용 vi w r Windows/Unix/Mac/PocketPC Windows용 만 제공 제공 플랫폼용 제공 - C/S 환경 지원 -IE/Netscape plug-in 용 제공 - C/S 환경 지원 성능 압축성능 JBIG1 과 동일 -Viewing 및 복원 속도는 DjVu 보다 2 – viewing 및 복원 속도는 JBIG1보다 5배 정도 느림 2 -5배 성능 향상 [TIFF-G 4/ JBIG / JBIG 2 대 DjVu 비교] GIF Image Name Horizontal x T IFF TIFF G4 JBIG JBIG2 JBIG2 JBIG2 Dj Vu (bitonal (200 dpi) Verti cal Size Uncompressed (bytes) (bytes) (MQ) (CSM, G4) (CSM, MQ) JB2)* Size (bytes) f01_200 1728x2339 505286 16618 12732 12732 6879 6424 5213 f02_200 1728x2339 505286 10464 8140 7756 10863 8260 7960 f03_200 1728x2339 505286 25590 19982 19278 14241 11732 10796 f04_200 1728x2339 505286 64058 48171 46195 16126 15529 12017 f05_200 1728x2339 505286 29285 23442 22443 12400 10574 10374 f06_200 1728x2339 505286 15774 11771 11554 14944 11255 10470 f07_200 1728x2339 505286 66433 52106 50832 42009 35248 23163 f08_200 1728x2339 505286 17984 13993 12724 18075 13252 13274 f10_200 1728x2336 504638 142091 63886 51405 133359 50228 knol.google.co.kr/k/-/djvu/…/3 4/20
  • 5. 2009-09-25 스캔문서의 고효율 압축의 대명사-… 52124 T otals: 4546926 388297 254223 234919 268896 162532 145391 Percentages: 100% 8.54% 5.59% 5.17% 5.91% 3.57% 3.2% 4. JPEG 포맷과 DjVu와의 비교 컬러 이미지를 저장하는 방식 중에 가장 보편화된 포맷이 JPEG이다. JPEG은 나름대로 압축 방식을 제공하기 때문에 컬러 이미지 파일을 표현하고 저장하는데 매우 적당한 포맷으로 인식되고 있다. JPEG 보다 압축률을 향상 시킨 JPEG2000 표준안이 2000년에 발표가 되었다. JPEG 압축방식과 다른 Wavelet 알 고리즘을 기반으로 하여 만들어진 표준안이다. 효율성이나 성능, 이미지 품질 면에서 JPEG 보다 훨씬 좋은 것으로 평가되고는 있으나 아직까지 JPEG2000이 보편하게 이용되지 않고 있는 실정이다. JPEG은 일반적으로 한 장으로 표현되는 사진과 같은 데이터를 표현하고 저장하는데 적당하다고 할 수 있으나. 컬 러 종이 문서를 컬러 스캐닝 하여 여러 장을 하나의 책으로 묶어서 저장하고 서비스하는 구조에는 잘 맞지 않은 단 점이 있다. TIFF 포맷과 같이 여러 장의 이미지를 한 개의 번들로 묶을 수 있는 Multi-TIFF와 같은 방식이 지원되지 않기 때문이다. DjVu는 컬러 이미지 압축을 위해서 JPEG2000과 같은 Wavelet 기반의 압축 방식인 IW44 방식을 이용한다. 압축률 은 JPEG과 비교하여 같은 질을 보장하면서 그 크기는 JPEG보다 1/10 – 1/20 정도로 압축이 될 수 있다. [그림-3] 참조 DjVu는 JPEG 포맷과 마찬가지로 낱장 단위로 압축 저장할 수 있지만 Multi-TIFF방식과 같이 여러 장의 이미지 문 서를 하나의 파일로 묶어서 저장 및 서비스를 할 수 있다. 원본의 이미지가 고해상도의 이미지 인 경우 DjVu로 압 축된 이미지라고 할 지라도 파일 크기가 클 수 가 있다. 그러나 웹에서 일반 브라우져에 플러그인 된 DjVu 전용 vi w r 를 통해서 보게 될 경우 TIFF나 JPEG과 같이 전체의 파일을 모두 다운로드 받은 후 디스플레이 하는 방식을 이용하지 않고 점진적인 이미지 전송 기술을 이용하기 때문에 사용자는 원하는 이미지를 지연 시간 없이 즉시 볼 수가 있게 된 다. [그림-4]에서 고 앨범 샘플을 보면 총 50페이지 되는 고화질(600dpi)의 원본을 JPEG으로 표현하면 총 231.3 Mbytes 가 소요되나 DjVu로 압축(s egment 방식 압축)을 하면 1.85Mbyt s가 된다. 또한 고문헌 샘플을 보면 총 918 페이지나 되는 책을 JPEG으로 표현하면 378.20Mbyt s가 되나 DjVu로 압축(photo 방식 압축)을 하면 181.57 Mbytes 가 된다. 압축된 파일의 크기도 페이지 수가 918페이나 되기 때문에 180M를 넘게 된다. 그러나, 웹에서 180M나 되는 knol.google.co.kr/k/-/djvu/…/3 5/20
  • 6. 2009-09-25 스캔문서의 고효율 압축의 대명사-… DjVu 문서를 검색하여 보면 전체 180M를 모두 다운로드 받아서 디스플레이 하지 않고 필요한 페이지만 선택적으 로 스트리밍을 해서 보여 지기 때문에 지연 시간 없이 볼 수가 있게 된다. knol.google.co.kr/k/-/djvu/…/3 6/20
  • 7. 2009-09-25 스캔문서의 고효율 압축의 대명사-… 비교 항목 DjVu JPEG 비고 기본 사상 종이문서 ‘Scan-to-Web’ 이미지 표현 JPEG은 한장의 이미지를 표현하는 포 포맷의 표준 맷 (AT&T에서 개발된 기술) (ISO 표준화 DjVu는 문서의 개념을 갖고 있기 때문 그룹에서 지정 에 한 장 및 복수의 페이지의 이미지나 한 표준 포맷) 문서를 표현 압축 방식 하이브리드 방식 컬러 이미지에 업계에서 비손실 JPEG-LS 는 거의 지원 대한 손실 압 하지 않음 -흑백이미지 :비손실 JB2 축이 기본 압축 방식 비손실 압축은 -컬러이미지 visual JPEG-LS 포맷 loss less wavelet IW44 방 으로 지원 식 압축률 평균 JPEG 보다 1/10-1/20 압 DjVu 보다 10 JPEG과 DjVu 와 같은 크기의 이미지를 축률 배 20배정도 비교할 때 DjVu 이미지가 훨씬 quality 큼 가 우수 Multi page Single Page/Multi-page Single page JPEG은 여러 장의 이미지를 하나의 file 지원 포맷 지원 방식 로 bundle 하여 배포하거나 서비스 할 수 없음. JPEG은 낱장 단위 포맷 메타 데이터 XML 기반의 메타데이터를 불가 JPEG 포맷 안에 텍스트나 기타 다른 메 삽입 DjVu 포맷 안에 삽입 및 추 타 정보를 삽입 하거나 활용할 수 없음 출할 수 있는 기능 제공 텍스트 검색 컨텐츠 내에서 텍스트 검색 불가 JPEG은 이미지를 표현하는 수단으로 기능 및 검색된 키워드에 대한 하 컨텐츠 내의 내용을 처리할 수 있능이 knol.google.co.kr/k/-/djvu/…/3 7/20
  • 8. 2009-09-25 스캔문서의 고효율 압축의 대명사-… 이라이트 기능 제공 없음 Progres s ive 기본 기능 지원 JPEG도 Progres s ive dis play방식을 지 Dis play 지원 원하고 있으나 거의 활용되지 못하고 있 는 실정 비교 항목 DjVu JPEG 비고 페이지 단위 스트 제공 불가 페이지 단위 스트리밍은 많은 페이지로 리밍 구성된 이미지나 원문 문서들에 대해서 웹을 통해서 서비스 할 때 매우 유용한 기 능 One-source, 제공 불가능 이 기능은 한 벌의 이미지만 갖고 있고 Multiple 서비스 할 때 실시간으로 원하는 크기의 extraction 기능 (별도의 썸네일 이미지, 이미지 및 이미지내의 부분 영역 만을 중간 크기 이미지, 크게 추출 하게 하는 기능 보기 이미지와 같이 서 비스 유형별 이미지를 여러 벌 갖고 있어야 함) Selective 지원 불가능 크기가 큰 대형 이미지를 웹을 통해서 배 Decompres s ion 포 할 때 유용한 기술 기능 (화면에 보이는 특정 영역 부분만 실시 간으로 축소/확대/이동하게 하는 기능) 전용 vi w r plug- -표준 웹 브라 -plug-in 없이 웹 브라 JPEG은 웹 브라우져안에서 원하는 크기 in 지원 우져용 plug-in 우져를 이용 로 축소/확대/PAN 할 수 없고. 90도 회 제공 전 기능, 썸네일 보기 기능등이 제공되 -viewer를 위한 커스 지 않음 -OCX 모듈 제 터마이즈 기능 물가 공으로 C/S 용 (third party tool 이용) 으로 이용 가능 -전용 viewer 커스터마이즈 기능 가능 시각장애용 표준 -시각장애자를 -불가능 - 508호환은 IT관련 어플리케이션이 시 인터페이스 508 위한 표준 인터 각장애자들을 위해서 모든 출력 되는 텍 호환 지원 페이스로 508 스트나 내용에 대해서 3rd pary s creen 호환 reader(508 호환)기를 통해서 text-to- speech 를 할 수 있게 하는 인터페이스 포맷 변환 기능 JPEG, 포맷 변환을 위해서 TIFF,GIF,BMP, third p rty 변환 툴 사용 PBM 포맷을 DjVu로 압축 및 복원 기능 5. DjVu 와 JPEG2000의 비교 5.1 칼라 이미지 quality 비교 다음은 동일한 원본 이미지를 jp g2000과 DjVu로 각각 파일 크기가 1.5 KByt 가 되도록 압축했을 때의 압축된 이미지 이다. knol.google.co.kr/k/-/djvu/…/3 8/20
  • 9. 2009-09-25 스캔문서의 고효율 압축의 대명사-… 5.2 흑백 이미지 비교 흑백 이미지를 압축할 경우 Jp g2000은 기본적으로 Run L ngth Coding 방식 또는 그와 유사한 방식이지만 DjVu는 Run Length Coding 외에 Shape Dictionary 방식을 더 사용한다. 여기서 Shape Dictionary는 한 이미지에서 반복 되는 동일 형태(예를 들어서 문서 이미지의 글자)를 한번만 압축해서 저장하고 나머지 경우는 그 형태의 위치 정보 만 수록하는 방식으로 반복되는 수가 많을수록 압축효율이 증가한다. DjVu 의 파일 포맷 중 한 파일에서 여러 페이 지의 이미지를 수록하는 방식(bundled 포맷)에서는 여러 페이지에서 하나의 공통의 Shape Dictionary를 참조할 경우 압축률은 상당히 향상된다. 다음은 동일한 흑백 문서 이미지의 이미지 종류별 파일 크기의 비교 자료이다. KBytes 이미지 포맷 BMP TIF (G4) JP2000 DjVu 카드 신청서 466 65 64 44 이미지(표와 글자) 잡지 기사 문서 960 584 99 35 이미지(글자) 5.3 파일 포맷 DjVu 는 한 개의 파일 안에 여러 페이지 이미지를 포함하는 bundled 포맷과 한 파일에서 다른 파일로 연결되는 link가 있는 indirect 포맷도 지원한다. DjVu는 여러 페이지를 하나로 묶어서(bundle) 저장 및 전송이 가능하고, 전 체 페이지의 정보를 갖고 있으면서 웹 서비스 시 페이지 단위로 캐싱 및 검색이 가능 JPEG2000은 모든 이미지를 낱장으로 표현. 여러 페이지로 구성된 문서를 bundle로 묶는 개념이 없음. 5.4 압축 속도 다음은 10 MB true colour BMP 파일의 인코딩 속도의 비교 그래프이다. knol.google.co.kr/k/-/djvu/…/3 9/20
  • 10. 2009-09-25 스캔문서의 고효율 압축의 대명사-… 5.5. 화면 표시 속도 다음은 동일한 파일을 압축한 것을 화면에 표시하는데 걸리는 시간을 비교한 그래프이다. 비교 항목 DjVu JPEG2000 비고 기본 사상 종이문서 ‘Scan- 이미지 표현 포맷 JPEG2000은 한장의 이미지를 to-Web’ 표현하는 포맷 DjVu는 문서의 개념을 갖고 있 기 때문에 한 장 및 복수의 페이 지의 이미지나 문서를 표현 압축 방식 하이브리드 방식 컬러 이미지에 대한 손실 압 JPEG2000은 컬러 이미지 전용 축이 기본 압축 방식으로 흑백 이미지 문 -흑백이미지:비손 서 압축시 비손실 압축은 지원 실 JB2 압축 방식 흑백 이미지 문서에 대한 비 않함 손실 압축 지원하지 않음 -컬러이미지 vis ual los s less wavelet IW44 방 knol.google.co.kr/k/-/djvu/…/3 10/20
  • 11. 2009-09-25 스캔문서의 고효율 압축의 대명사-… 식 압축률 1.번 항목 컬러이 1.번 항목 컬러이미지 JPEG2000과 DjVu 와 같은 크기 미지 quality 참조 quality 참조 의 이미지를 비교할 때 DjVu 이 미지가 훨씬 quality 가 우수 Multi page 지원 Single Single page 방식 JPEG2000 은 여러 장의 이미지 Page/Multi-page 를 하나의 file로 bundle 하여 배 포맷 지원 포하거나 서비스 할 수 없음. JPEG2000은 낱장 단위 포맷 메타 데이터 삽입 XML 기반의 메타 불가 JPEG2000 포맷 안에 텍스트나 데이터를 DjVu 포 기타 다른 메타 정보를 삽입 하 맷 안에 삽입 및 거나 활용할 수 없음 추출할 수 있는 기 능 제공 텍스트 검색 기능 컨텐츠 내에서 텍 불가 JPEG2000은 이미지를 표현하 스트 검색 및 검색 는 수단으로 컨텐츠 내의 내용 된 키워드에 대한 을 처리할 수 있능이 없음 하이라이트 기능 제공 Progres s ive 기본 기능 지원 Dis play 지원 페이지 단위 스트 제공 불가 페이지 단위 스트리밍은 많은 페 리밍 이지로 구성된 이미지나 원문 문 서들에 대해서 웹을 통해서 서비 스 할 때 매우 유용한 기능 One-source, 제공 불가능 이 기능은 한 벌의 이미지만 갖 Multiple 고 있고 서비스 할 때 실시간으 extraction 기능 (별도의 썸네일 이미지, 중 로 원하는 크기의 이미지 및 이 간 크기 이미지, 크게 보기 미지내의 부분 영역 만을 추출 이미지와 같이 서비스 유형 하게 하는 기능 별 이미지를 여러 벌 갖고 있어야 함) Selective 지원 불가능 크기가 큰 대형 이미지를 웹을 Decompres s ion 통해서 배포 할 때 유용한 기술 기능 (화면에 보이는 특정 영역 부분 만 실시간으로 축소/확대/이동 하게 하는 기능) 보안 통제 기능 -프린트 통제 기 불가능 능 -다운로드 통제 기능 -프린트 시 실시 간 워터마크 삽입 기능 제공 전용 vi w r plug- -표준 웹 브라우 -plug-in 없이 웹 브라우져 JPEG2000은 웹 브라우져안에 in 지원 져용 plug-in 제공 를 이용 서 원하는 크기로 축소/확 대/PAN 할 수 없고. 90도 회전 기 -OCX 모듈 제공 -viewer를 위한 커스터마 능, 썸네일 보기 기능등이 제공 으로 C/S 용으로 이즈 기능 물가(third party 되지 않음 이용 가능 tool 이용) -전용 viewer 커 스터마이즈 기능 가능 포맷 변환 기능 JPEG, 포맷 변환을 위해서 third TIFF,GIF,BMP, p rty 변환 툴 사용 PBM 포맷을 DjVu로 압축 및 knol.google.co.kr/k/-/djvu/…/3 11/20
  • 12. 2009-09-25 스캔문서의 고효율 압축의 대명사-… 복원 기능 6. DjVu 와 PDF 비교 PDF 포맷은 본래 디지털 문서들을 웹을 통해서 퍼블리싱하기 위한 솔루션으로 이용되어 왔다. 워드나 아래아한글, 매킨토시용 쿽익스프레스등으로 작성된 텍스트 기반의 문서를 웹을 통해서 배포하기 위해서는 PDF 포맷만큼 좋은 툴은 없을 것이다. PDF 는 전용 Acrobat Reader를 무료로 사용하면서 누구나 쉽게 PDF 문서를 읽을 수 있는 장점이 있다. 뿐만 아니 라 PDF 문서는 내부 문서를 수정할 수 없고 읽을 수 만 있게 되어 있기 때문에 더더욱 문서 배포용으로는 매우 적당 한 솔루션일 것이다. 그러나 스캐닝 한 이미지 문서를 PDF 포맷으로 저장하고 배포하는 데는 그 한계점이 노출 되고 있는 실정이다.. 스캐닝 한 문서는 그 자체가 이미지 포맷으로 디지털화된 텍스트 문서 보다는 파일 크기가 몇 배나 클 수 밖에 없다. PDF는 기본적으로 압축을 기반으로 하지 않고 있기 때문에 스캐닝 된 이미지 문서를 PDF로 담기 위해 서는 그 크기 이상의 파일을 요구하게 된다. [그림-5]에서 흑백 문서들을 스캐닝 해서 PDF 포맷과 DjVu 포맷으로 표현한 자료가 있다. 흑백 원문인 경우 평균 PDF 문서가 DjVu 문서 보다 4배 정도 큰 것을 볼 수가 있을 것이다. 그 외에도 연간 기업보고서 110페이지 책자를 300DPI 컬러로 스캐닝 하여 PDF로 저장을 하게 되면 약 140Mbyt s 정도 소요가 되나. 그러나 DjVu로 저장을 하면 약 3Mbyt s 정도면 충분하게 된다. ([그림-6] 에서 기업 Annu l R port 참조 하시기 바랍니다) 인터넷에서 신문 지면 서비스용으로 PDF 포맷이 많이 이용되고 있다. 그러나, [그림-6]에서 알 수 있듯이 신문 66면 정 도의 지면에 컬러 광고까지 모두 포함 하면 PDF 문서의 크기는 무려 70Mbyt s가 넘게 된다. 따라서 각 신문사는 신문 지면 서비스를 위해서 66면을 하나의 PDF파일로 묶어서 배포하지는 못하고 각 면 단위로 PDF파일을 만들어서 배포 하고 있는 실정이다. knol.google.co.kr/k/-/djvu/…/3 12/20
  • 13. 2009-09-25 스캔문서의 고효율 압축의 대명사-… 일반 워드문서와 같은 디지털 문서를 배포하기 위한 포맷으로 PDF 가 적당하다면 DjVu는 고화질의 컬러/흑백 종이문 서를 스캐닝한 문서를 위해서는 PDF 포맷 보다 훨씬 뛰어 남을 알 수 가 있다. 비교 항목 DjVu PDF 설명 기본사상 종이문서 'sc n-to-w b' 전자문서-to-종이문 DjVu는 종이문서를 디지털 화하여 웹 서 출력 서비스 하기위한 솔루션으로 탄생된 기술 가장 적합 많은 양의 종이문서를 흑 전자문서(hwp,워 PDF는 전자문서를 종이문서로 프린 한 분야 백/컬러 스캐닝 하여 저장 드,GUL)를 배포 및 종 트하고 배포하기 위한 솔루션으로 탄 및 웹 검색 서비스하는 분 이문서로 출력하는 생된 기술 야에 적합 분야에 적합 현재는 DjVu 도 종이문서 뿐만 아니라 -흑백 원문 문서 50페이 -50페이지 미만의 흑 디지털 문서(오피스 문서)도 DjVu 로 지 이상의 서비스에 적합 백 전자문서 서비스 변환하여 PDF 보다 경량화 하여 배포 에 적합 가 가능 - 원문이 고해상도의 컬 러를 포함하고 한 페이지 의 파일 크기가 큰 경우 에 적합 - 향후 컬러 원문 서비스 시에는 더욱 진가를 발휘 -CAD 데이터나 엔지니 어링 매뉴얼, Parts Book 등을 배포하고자 하는 제 조분야 사용자의 전체 페이지수와 파일 크 전체 페이지수와 파 일반적으로 사용자들의 PDF 서비스 측면에서 기와 상관없이 1초 미만 일크기가 클수록 검 이용시 가장 불만 사항 ‘너무 느리다’, 성능 검색 및 디스플레이 색 및 디스플레이 시 ‘너무 무겁다’ ,‘ 불필요 한 기능이 너무 간 이 증대됨 많다’ 서비스 기 약 0.75 T r Byt s 소요 약 3 T r Byt s 소요 DjVu가 PDF 보다 평균 1/4 정도 자원 관에서의 소요 소요 되는 자원 knol.google.co.kr/k/-/djvu/…/3 13/20
  • 14. 2009-09-25 스캔문서의 고효율 압축의 대명사-… (5000만 페 이지 흑백 문서 원문 저장시) 유/무선 통 - 고속 유선/저속 무선 불가능 통합기능은 한 벌의 데이터로 유선/무 합 서비스 같은 품질 같은 속도 유 선 모두 같은 품질로 서비스 할 수 있 기능 지 기능 는 기능 - 고속 유 - 한 벌의 데이터로 변경 선/저속 무 없이 유선/무선 동시 서 선 비스 검색 속도 - 통합 기 능 통합 vi w r 제공 가능 불가능 사용자는 한개의 vi w r에서 TIFF/ 기능 DjVu/ PDF/ JPEG 모두를 검색할 수 있 는 기능 전용 vi w r DjVu Expres s Server 불가능 전용 vi w r 설치 없이도 DjVu문서나 없이 검색 기능 이미지를 디스플레이/부분확대/축 할 수 있는 소/출력/다음페이지/이전페이지/페이 기능 -인터넷 접속이 가능한 지 이동 기능 제공 모든 디바이스에서 검색 가능 비교 항목 Dj Vu PDF 설명 웹 서비스 방 페이지 단위 웹 스트리밍 Bundle 방 PDF에서도 Fas t Web view 방식을 제공한다 식 기능 (indir ct 기능) 및 전 식 만 제공 고 하나. Acrobat Reader 5.0이상에서만 유효 체 문서 단위(bundl 기능) 모두 제공 (일부 Fas t (대부분의 서비스 사이트에서는 한 개의 문서 Web view 크기가 클 경우 페이지 단위로 분리하거나 강 - Byte s treaming 이나 기능) 제로 10M 미만 단위로 페이지를 분리해서 서 Fast Web 방식이 아닌 비스하는 방식을 취함) DjVu만의 고유한 페이지 스트리밍 기술) 예-각 신문사의 지면 서비스는 한면 단위 서비 스 한국교육학술정보원(k ris)는 10M단위로 강 제분리 전용 vi w r 900KB 17M DjVu viewer 설치시간 5-10초 의 크기 Acrobat Reader 설치 시간 약 5-10분 원문 이미지 Loss less /Visual PDF문서 전체 문서 대상으로 압축 및 복원은 DjVu 만 지 압축 지원 및 Loss less 방식 모두 지 내의 부분 원 방식 원 객체들만 일부 지원 DjVu압축방식은 비손실/손실 압축 모두 지원 압축 원문 이 모든 압축 원문 이미지 문 불가능 DjVu는 압축기와 복원기를 제공 미지 문서 복 서는 원본으로 복귀 가능 원 기능 고해상도 컬 유선/무선/전용vi w r/no- 불가능 예-한 개의 이미지 파일이 10M이상 (고지도/고 러 원문 이미 vi w r 모두에게 픽셀 스 문헌/고문서) 될 경우 PDF는 서비스 불가능 지 검색 및 트리밍 기술 적용하여 액 배포 기능 세스 가능 인지도 - Google 의 book 검색 좋음 - PDF는 대량의 원문 도서를 디지털 화하여 검색 서비스를 제공하는 기관에서의 서비스 -미국의회도서관/미국/ 만족도는 매우 낮음 knol.google.co.kr/k/-/djvu/…/3 14/20
  • 15. 2009-09-25 스캔문서의 고효율 압축의 대명사-… 유럽/일본 대학교 -PDF의 문제점에 대한 대안 솔루션으로 DjVu 솔루션이 이용되고 있는 실정 도서관에서 PDF 대안 솔루션으로 사용 - 미국 archive.org - 일본 국립공문서관의 아시아 역사 기록센터 (www.j c r.go.jp) 및 다수 공공기관 - 서울대 도서관, 한국은 행, 법원도서관 - 정부기록보존소 - 농협, 제일은행 - 국세청 -삼성전자, LG전자 -삼성화재 -두산인프라코어 -현대 유코카케리어 - 전세계적으로 open format으로 600만 사용자 층 비교 항목 DjVu PDF 설명 확장성 - 모든 전자문서 - 전자문서 DjVu도 모든 디지털문서를 압축 변환할 수 있는 툴 제공 (PDF,아래아 한 변환기능 글 포함) DjVu 변환기능 제공 - 멀티미디 어 삽입 기 - 모든 흑백 및 능 컬러 원문 이미 지 문서 DjVu 변 환 기능 - 유/무선 통합 기능 메타데이터 XML 기반의 메 지원 DjVu 문서의 Hidden text로 삽입하는 기능 삽입 타데이터 삽입 기능 제공 페이지 단 지원 불지원 위 검색 XML 연동 기본 기능 지원 DjVu는 모든 텍스트 정보는 XML 기반으로 되어 있음 시각장애용 -시각장애자를 -Acrobat - 508호환은 IT관련 어플리케이션이 시각 장애자들을 표준 인터 위한 표준 인터 Reader 위해서 모든 출력 되는 텍스트나 내용에 대해서 3rd 페이스 508 페이스로 508 호 6.0 에서 pary s creen reader(508 호환)기를 통해서 text-to- 호환 지원 환 만 지원 s peech 를 할 수 있게 하는 인터페이스 하이퍼링크 - 지원 -불가 - 자동삽입 툴에 의하여 문서 내용안에 원하는 패턴만을 자동 삽입 골라서 자동으로 하이퍼링크 정보 삽입 하는 기능 knol.google.co.kr/k/-/djvu/…/3 15/20
  • 16. 2009-09-25 스캔문서의 고효율 압축의 대명사-… DB 연동 지원 지원 고해상도 점진적 전체 이미 PDF는 전체 이미지를 모두 다운로드 받은 후 디스플레 이미지 서 인(Progr ssiv ) 지 모두 다 이 하는 방식으로 시간이 많이 걸림 비스 방식 디스플레이 운로드후 디스플레 이 Document PDF Image with PDF Image with Dj Vu Image usi ng Searchable Image Searchable Image with Searchable Image Dj Vu G4 Comp- JBIG2 Comp- JB2 Comp- with TIFF-G4 JBIG2 Comp- using JB2 Comp- ression ression ressi on ression ression (PDF-Capture) (PDF-Capture) Contract 58k 14k 10k 72k 28k 12k Annual 2.89M 511k 396k 2.0M 755k 527k Report Technical 2.02M 431k 368k 2.15M 582k 419k Report Patent 815k 153k 123k 908k 240k 162k Total 5.84M 1.11M 897k 5.13M 1.61M 1.12M Average 100% 19% 15% 100% 31% 22% 7. DjVu Page Streaming Server (DPSS) 기능 DjVu는 다른 유사 포맷들과는 다르게 유일하게 DjVu 문서를 대상으로 웹기반의 페이지 스트 리밍 기능을 제공하고 있다. 대부분 동영상을 웹상에서 전송하기 위한 동영상 스트리밍 기술은 알려져 있지만, 문서를 대 상으로 스트리밍을 할 수 있는 기술은 생소할 것이다. DjVu는 압축된 문서의 파일크기 및 페이지 수와 상관 없이도, 웹 상에서 대용량 이미지 문서 및 스캔된 컨텐트를 대상으로 고속 전송 및 빠른 검색을 위한 문서의 페이지 단위 스트리밍 기능을 제공하고 있다. 예들들어 5000장의 고화질 사진을 DjVu 로 압축 하여 한개의 문서 파일로 만들 경우에도 한개 의 파일 크기가 약 100M 이상 될 수가 있고 이를 웹에서 기존의 방식으로 배포하려면 꽤 시간 이 걸릴 것이나, DPSS 기능을 이용하게 되면 전체 페이지를 모두 다운로드 받을 때 까지 기 다리지 않고 원하는 페이지를 직접 검색 하여 해당되는 페이지로 자유롭게 이동이 가능하여 문서단위 뿐만 아니라 페이지 단위 검색을 하여 고속으로 검색 및 뷰잉이 가능한 것이 DjVu 만이 갖는 유일한 기술이기도 하다 아래 데모사이트는 미국에서 911 테러 발생하였을때 아마추어 사진사들이 찍은 사진 5248장 을 DjVu 로 압축하여 하나의 DjVu 파일 형태로 해서 DPSS 를 적용하여 퍼블리싱한 사이트 입 니다. http://demo.djvutech.com/DPSS/dpsserv.dll/acrocube/911-5000p.djvu/index? DJVUOPTS&thumbnails=yes 국내에서는 대법원의 도서관에서 제공하는 법원사 자료중에서 1390 페이지를 스캔하여 웹을 통해서 서비스를 하고 있기도 하다. 1000페이지가 넘는 스캐닝 문서인데도 불구하고 웹상에 서 매우 빠른 검색 속도를 볼 수 가 있다. knol.google.co.kr/k/-/djvu/…/3 16/20
  • 17. 2009-09-25 스캔문서의 고효율 압축의 대명사-… http://library.scourt.go.kr/jsp/common/c_djvuview.jsp? v_path=djvu1/%B9%FD%BF%F8%BB%E7.djvu 8. 본문 내용 검색 (페이지 단위 검색)을 위한 기술 8.1 Notes - DjVu 는 문서내에 OCR 처리된 텍스트 와 Office 문서에서 변환된 텍스트들은 모두 Djvu 문서내에 hidden text 로 존재 (hidden text는 XML 또는 plain text로 export 할 수 있음) - hidden text는 word 단위 (영어/한글과 같이 white space 로 묶여 있는 문자열을 위한 것) 또는 char 단위 (중국어/일본어와 같이 띄어 쓰기가 없는 문자열을 위한 것)의 문자와 위 치정보를 갖고 있음. - DjVu로 변환시 옵션에 의해서 word 단위로 할 것인지 아니면 char 단위로 할 것인지 결 정 해야 함. - Djvu문서는 기본적으로 hidden text들은 DjVu active/x plug-in viewer에 의하여 하이라 이트 처리 및 표시가 됩니다. (자세한 사항은 아래 내용 참조) - DjVu 뷰어에서는 검색엔진과 같은 검색기능은 제공하지는 않으며, PDF의 Acrobat reader 에서와 같이 뷰어 내에서의 검색은 텍스트 단위의 패턴 매칭에 의해서 sequential 하 게 찾아가는 형태로 동작 8.2. Hidden tex t 구조 설명 - 원문 텍스트 sample: "스캔문서/대용량 이미지의 고효율 압축/고속 전송/보안 기술" 1). word-공백없음(nospace) 옵션으로 텍스트가 삽입된 경우 - DjVutoText 로 추출하면 : "스캔문서/대용량이미지의고효율압축/고속전송/보안기 술" 와 같이 추출 (단어와 단어 사이에 공백이 없는 상태) - DjVuToXml 로 추출하면 : <LINE> <WORD coords="849,690,1464,611">스캔문서/대용량</WORD> <WORD coords="1497,690,1819,611">이미지의</WORD> </LINE> <LINE> <WORD coords="721,788,967,713">고효율</WORD> <WORD coords="1000,790,1362,711">압축/고속</WORD> <WORD coords="1393,790,1757,711">전송/보안</WORD> <WORD coords="1791,790,1953,711">기술</WORD> </LINE> - DjVu plug-in 뷰어에서 검색시 하이라이트: 뷰어는 "스캔문서/대용량이미지의고효율 압축/고속전송/보안기술" hidden text에 대해서 pattern matching 검색 = 키워드 "고효율" -> 하이라이트 "스캔문서/대용량이미지의고효율압축/고속전송/ 보안기술 = 키워드 "압축" -> 하이라이트 "스캔문서/대용량이미지의고효율"압축/고속전 송/보안기술" = 키워드 "보안" -> 하이라이트 "스캔문서/대용량이미지의고효율압축/고속전송/ 보안기술" = 키워드 "보안기" -> 하이라이트 "스캔문서/대용량이미지의고효율압축/고속전송/ 보안 기술" = 키워드 "속전" -> 하이라이트 "스캔문서/대용량이미지의고효율압축/고속 전 knol.google.co.kr/k/-/djvu/…/3 17/20
  • 18. 2009-09-25 스캔문서의 고효율 압축의 대명사-… 송/보안" = 키워드 "의고" -> 하이라이트 "스캔문서/대용량이미지의고효율압축/고속 전 송/보안" 2). word-공백(space) 옵션으로 텍스트가 삽입된 경우 - DjVutoText로 추출 하면 : 원문텍스트와 동일 "스캔문서/대용량 이미지의 고효율 압 축/고속 전송/보안 기술" (단어 사이에 공백이 있음) - DjVuToXML로 추출 하면 : 1)번의 XML 과 동일 - DjVu plug-in 뷰어에서 검색시 하이라이트 = 키워드 "고효율" -> 하이라이트 "스캔문서/대용량 이미지의 고효율 압축/고속 전송/ 보안 기술" = 키워드 "압축" -> 하이라이트 "스캔문서/대용량 이미지의 고효율 압축/고속 전송/ 보안 기술" = 키워드 "보안" -> 하이라이트 "스캔문서/대용량 이미지의 고효율 압축/고속 전송/ 보안 기술" = 키워드 "보안기" -> 결과 없음 = 키워드 "속전" -> 결과 없음 = 키워드 "의고" -> 결과없음 3). char-공백없음(nospace) 옵션으로 텍스트가 삽입된 경우 - DjVutoText 로 추출하면 : "스캔문서/대용량이미지의고효율압축/고속전송/보안기술" 와 같이 추출 (단어 사이에 공백이 없음) - DjVuToXml 로 추출하면 : <LINE> <WORD> <CHAR coords="849,680,928,615">스</CHAR> <CHAR coords="934,688,1009,613">캔</CHAR> <CHAR coords="1016,688,1095,613">문</CHAR> <CHAR coords="1098,690,1174,611">서</CHAR> <CHAR coords="1181,688,1213,611">/</CHAR> <CHAR coords="1222,690,1295,611">대</CHAR> <CHAR coords="1301,690,1380,613">용</CHAR> <CHAR coords="1390,690,1464,613">량</CHAR> </WORD> <WORD> <CHAR coords="1497,690,1568,611">이</CHAR> <CHAR coords="1583,690,1652,611">미</CHAR> <CHAR coords="1662,690,1736,611">지</CHAR> <CHAR coords="1746,690,1819,611">의</CHAR> </WORD> </LINE> <LINE> <WORD> <CHAR coords="721,780,800,717">고</CHAR> <CHAR coords="804,782,883,713">효</CHAR> <CHAR coords="888,788,967,713">율</CHAR> </WORD> <WORD> <CHAR coords="1000,790,1076,711">압</CHAR> <CHAR coords="1081,790,1160,711">축</CHAR> <CHAR coords="1163,788,1195,711">/</CHAR> <CHAR coords="1199,780,1278,717">고</CHAR> <CHAR coords="1283,790,1362,711">속</CHAR> </WORD> - <WORD> <CHAR coords="1393,788,1467,711">전</CHAR> <CHAR coords="1477,790,1556,713">송</CHAR> <CHAR coords="1559,788,1591,711">/</CHAR> <CHAR coords="1596,780,1675,717">보</CHAR> knol.google.co.kr/k/-/djvu/…/3 18/20
  • 19. 2009-09-25 스캔문서의 고효율 압축의 대명사-… <CHAR coords="1596,780,1675,717">보</CHAR> <CHAR coords="1681,788,1757,713">안</CHAR> </WORD> <WORD> <CHAR coords="1791,790,1863,711">기</CHAR> <CHAR coords="1874,788,1953,711">술</CHAR> </WORD> </LINE> - DjVu plug-in 뷰어에서 검색시 하이라이트: 뷰어는 "스캔문서/대용량이미지의고효율 압축/고속전송/보안기술" hidden text에 대해서 pattern matching 검색 = 키워드 "고효율" -> 하이라이트 "스캔문서/대용량이미지의고효율압축/고속전송/ 보안기술 = 키워드 "압축" -> 하이라이트 "스캔문서/대용량이미지의고효율"압축/고속전 송/보안기술" = 키워드 "보안" -> 하이라이트 "스캔문서/대용량이미지의고효율압축/고속전 송/보안기술" = 키워드 "보안기" -> 하이라이트 "스캔문서/대용량이미지의고효율압축/고속전 송/보안기술" = 키워드 "속전" -> 하이라이트 "스캔문서/대용량이미지의고효율압축/고속전송/ 보안" = 키워드 "의고" -> 하이라이트 "스캔문서/대용량이미지의고효율압축/고속전송/ 보안" 4). char-공백(space) 옵션으로 텍스트가 삽입된 경우 - DjVutoText 로 추출하면 : "스캔문서/대용량 이미지의 고효율 압축/고속 전송/보안 기술" (단어 사이에 공백이 있음) - DjVuToXml 로 추출하면 : 3)번과 동일 - DjVu plug-in 뷰어에서 검색시 하이라이트: = 키워드 "고효율" -> 하이라이트 "스캔문서/대용량 이미지의 고효율 압축/고속 전 송/보안 기술 = 키워드 "압축" -> 하이라이트 "스캔문서/대용량 이미지의 고효율 압축/고속 전 송/보안 기술" = 키워드 "보안" -> 하이라이트 "스캔문서/대용량 이미지의 고효율 압축/고속 전 송/보안 기술" = 키워드 "보안기" -> 결과없음 = 키워드 "속전" -> 결과없음 = 키워드 "의고" -> 결과없음 8.3 DjVu Active/X plug-in 뷰어에서의 하이라이트 처리 - DjVu viewer active/x componet 는 내부 method 로 아래와 같은 함수를 제공합니다. = HighlightTerm(exp, bMatchCase, bMatchWord, bAllMatches, color) : 현재 페이지 상 의 exp 문자열 표현식에 매칭되는 첫번째 또는 모든 텍스트를 지정된 컬러로 하이라이트 시 킵니다. = (VB6, JScript) 예 myDjVu.HighlightTerm("압축", 0, 0, 1, 0x0000FF); /* VB나 JScript 에서 뷰어를 이 함수로 호출을 하면 해당 되는 페이지에 '압축' 텍스트 위치하는 모든 텍스트는 color (0x0000FF)로 하이라이트 됨 - 하이라이트 처리되는 형태는 위에서 언급한 Hidden text 구조에 의해서 결정됨 9. Ajax 기반의 DjVu 뷰어 DjVu는 실시간(on-the-fly)으로 원하는 크기의 표준이미지를 추출하는 기능을 갖고 있다. DjVu Streaming Server(DPSS)는 웹서버 기반의 http 프로토콜에 의해서 DjVu문서를 원하는 크기의 표준이미지를 추출하는 기능을 제공한다. DjVu Ajax 뷰어는 DPSS 와 연계하여 Fixed 된 윈도우 형태와 Resizable 윈도우 형태로 뷰잉 knol.google.co.kr/k/-/djvu/…/3 19/20
  • 20. 2009-09-25 스캔문서의 고효율 압축의 대명사-… 이 가능하다 - 한 페이지 Fixed Windows demo : (* 아래 데모는 한페이지의 신문이나 모든 저작권은 해 당 신문사에 있음 *) http://demo.djvutech.com/ajax_viewer/DjVuTech- AJAXViewer/examples/oneimage2.html - 멀티페이지 문서 - Resizable Window demo (* PPT 파일을 DjVu 로 1/10크기로 압축한 문서 *) http://demo.djvutech.com/ajax_viewer/DjVuTech-AJAXViewer/examples/spiderman.html 10. 평가용 S/W 다운로드 스캔된 문서들을 DjVu로 압축 변환도 해 보고 OCR (한글/일어/중국어/영어 포함 수십개의 언 어 지원) 처리도 직접 체험 하려면 아래 사이트에서 직접 평가용 S/W를 다운로드 받을 수 있 다. 평가용은 30일간 또는 500 페이지만을 생성할 수 있는 full 기능을 제공하고 있다 - http://www.djvutech.com/download/01.asp 11. 데모를 위한 사이트 앞에서 언급 되었던 DjVu 의 주요 특징 들 및 기능들을 실제로 체험할 수 있는 데모 사이트. - http://demo.djvutech.com 러시아 첨단 기술이전 파일압축 다운받기 굿파 일 러시아와의 공동기술협력사업 지원 안학훈 대 공개자료실, 유틸, 압축, 드라이버, 프리웨어, 리 02-769-6707 쉐어웨어 등 자료 제공. www.sbc.or.k r www.goo dfile .net 댓글 댓글을 쓰려면 로그인해 주세요. knol.google.co.kr/k/-/djvu/…/3 20/20