Marcelo correa

385 views

Published on

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
385
On SlideShare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
1
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Marcelo correa

  1. 1. ARTIGOS Estudo comparativo entre sistemáticas de digitalização de documentos: formatos HTML e PDF André Raabe INTRODUÇÃO a digitalização de documentos e sua Omer Pohlmann Filho disponibilização por meio da Internet. A Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS), median- Para tanto, o Laboratório de Biblioteca te convênio com a IBM, participa do Digital voltou-se inicialmente para a projeto IBM Global Campus, que prevê pesquisa de software e desenvolvimen- a colaboração entre instituições de en- to de sistemáticas para a captura e sino superior de diferentes países, no transformação de documentos do for- sentido de pesquisar e desenvolver mato tradicional (papel), para o forma- políticas, abordagens, metodologias e to digital. Foram avaliadas duas siste- recursos tecnológicos para projetar e máticas distintas para realização do tra- implantar universidades com campus balho, uma delas baseada no reconhe- de abrangência global. cimento ótico dos caracteres e conver- são para HTML detalhada em (Pohl- A proposta de trabalho do projeto Cam- mann 1); a outra baseada no formato pus Global PUCRS visa a desenvolver digital Portable Document Format estudos sobre universidade virtual, cen- (PDF). trando seu foco de atenção em pesqui- Resumo sas sobre metodologias e recursos tec- DIRETRIZES DE TRABALHO nológicos na área de educação à dis- Este artigo apresenta o resultado de tância. Neste contexto, trabalha-se com Dentre as alternativas pesquisadas experimentos realizados pelo Laboratório de Biblioteca Digital da PUCRS voltados para a o conceito de Educação à Distância para o processo de digitalização de captura e conversão de documentos a partir (EAD), como uma forma de educação documentos, avaliaram-se duas diretri- do formato tradicional (papel) para o formato na qual alunos e professores se encon- zes genéricas: digital. São apresentadas e avaliadas as tram separados fisicamente, sendo o principais etapas envolvidas no processo de digitalização utilizando duas sistemáticas processo de interação multidirecional, 1. digitalização da obra como imagens diferentes: uma baseada na conversão para apoiado por tecnologia de comunica- e conversão destas em textos median- HTML; a outra baseada na geração de ção, em que o aluno é o protagonista te reconhecimento óptico de caracte- arquivos PDF usados pelo software Adobe de seu aprendizado e o professor um res (OCR); Acrobat Reader. São abordados também fatores essenciais facilitador deste. aos trabalhos de digitalização tais como 2. criação de arquivos de imagens tecnologias de Reconhecimento Óptico dos Tendo em vista esta proposta, o proje- (JPG), contendo as páginas da obra e Caracteres (OCR) e avaliação das to Campus Global foi estruturado a par- mantendo o leiaute original da publica- características do acervo a ser digitalizado. tir de quatro frentes de pesquisa, a sa- ção, sem conversão para texto. Por fim, é realizado um comparativo entre as duas sistemática estudadas, apontando ber, educação à distância e colaborati- pontos positivos e negativos que devem ser va, bibliotecas digitais, trabalho coope- A escolha do formato de arquivo JPG considerados na escolha de uma diretriz de rativo, gerência de recursos Internet. deveu-se ao fato de este possuir uma trabalho. alta taxa de compressão, permitindo o Palavras-chave Neste contexto, o Laboratório de Biblio- armazenamento de imagens com qua- teca Digital vem pesquisando o desen- lidade em arquivos de tamanhos redu- Conversão de documentos do formato volvimento de tecnologias para permi- zidos, sendo, por este motivo, ampla- tradicional para o digital; Sistemáticas de mente utilizado na rede Internet. conversão para HTML; Geração de arquivos tir o acesso a informações de conteú- PDF; Tecnologias de reconhecimento óptico do bibliográfico à distância. Uma das dos caracteres. alternativas pesquisadas aponta para 300 Ci. Inf., Brasília, v. 27, n. 3, p. 300-310, set./dez. 1998
  2. 2. Estudo comparativo entre sistemáticas de digitalização de documentos: formatos HTML e PDF Para exemplificar a relação entre for- FIGURA 1 FIGURA 2 mato de arquivo e espaço de armaze- nagem, foi realizado um teste compa- rativo permitindo verificar a relação en- tre os tamanhos dos arquivos gerados no contexto estudado – digitalização de documentos a partir do formato papel. É importante salientar que foram utili- zadas rigorosamente as mesmas con- figurações de compressão e qualidade disponíveis em formatos de arquivos como o JPG e GIF. No teste, foram utilizadas uma página do livro História da PUCRS ilustrada na figura 1, por esta ser composta de ima- gem e texto sem cores, e a capa da mesma obra, por ser colorida, figura 2. A tabela 1 apresenta, a seguir, os re- sultados do teste comparativo conside- rando os formatos de arquivos de ima- gens mais utilizados. Para avaliar as vantagens e desvanta- Páginas utilizada como teste comparativo gens relacionadas a cada uma das di- retrizes estudadas (conversão para tex- to e disponibilização como imagem), TABELA 1 tomou-se como base (Haigh2 ), que con- Comparativo entre os tamanhos de arquivo sidera, para a escolha do processo de digitalização, os seguintes pontos: Formato do Arquivo Pagina P&B Capa (reduzida) 11,50 cm X 17,80 cm 7,14 cm X 10,68 cm • necessidade de reutilização, edição ou reformatação do texto; JPG (Joint Picture Experts Group) 34 Kb 16 Kb • disponibilidade do texto para pesqui- TIF (Tagged Image File) 74 Kb 43 Kb sas full-text ; GIF (Graphics Interchange Format) 76 Kb 40 Kb PDF (Portable Document Format) 76 Kb 34 Kb • posterior codificação do texto no for- PSD (PhotoShop) 82 Kb 62 Kb mato HTML; PCX (Zsoft Paintbrush) 97 Kb 64 Kb BMP (Windows Bitmap) 280 Kb 60 Kb • recursos disponíveis para realização WMF (Windows Meta File) 282 Kb 61 Kb do processo; EPS (Encapsuled Post Script) 573 Kb 135 Kb • tamanho dos arquivos para armaze- nagem e transmissão. – necessita pouco espaço para arma- No contexto geral do projeto, a realiza- zenagem das obras digitalizadas. ção de pesquisa full-text se faz ne- Pela análise realizada, chegou-se às cessária e é um objetivo a ser alcança- seguintes conclusões sobre cada um • Disponibilização como imagem: do. Além disso, outro fator determinan- dos processos: te a favor da conversão para texto é – impossibilidade de edição e manipu- que a velocidade de transmissão de • Com conversão para texto: lação do texto das obras; dados no Brasil ainda não atinge os padrões desejados para transferência – possibilidade de edição e manipula- – impossibilidade de realização de pes- de arquivos de imagem. No caso dos ção do texto das obras; quisas full-text ; arquivos texto, a velocidade de trans- – processo de digitalização simplifica- missão não é um fator crítico, pois es- – possibilidade de realização de pes- tes possuem tamanho bem inferior. quisas full-text; do e rápido; – ocupa grande espaço para armaze- – processo de digitalização é demora- nagem da obra digitalizada (aproxima- do e trabalhoso; damente 20 vezes mais que textos). Ci. Inf., Brasília, v. 27, n. 3, p. 300-310, set./dez. 1998 301
  3. 3. Estudo comparativo entre sistemáticas de digitalização de documentos: formatos HTML e PDF Portanto, decidiu-se proceder inicial- FIGURA 3 mente à digitalização de obras me- Representação Esquemática do Processo de Digitalização HTML diante o reconhecimento ótico dos ca- racteres (OCR) e posterior transforma- D i g i t a li z a ç ã o d o t e x t o e T r a n s f o r m a ç ã o e m a r q u iv o H T M L ção no formato HTML. 1 2 C a p tu ra d e Im a g e m d o s te x to s OCR SISTEMÁTICA DE DIGITALIZAÇÃO HTML O m n i P a g e 5 .0 O m n i P a g e 5 .0 3 Para realização dos trabalhos voltados 4 R e v is ã o e C o rre ç ã o A rq u i v o d o t e x to T e x to à definição de uma sistemática de cap- C o n v e rsã o p a r a tura e conversão de documentos para HTM L M S - W o r d 6 .0 .D O C o formato HTML, foi utilizado como N etsc ape C om po s er instrumento de testes a publicação da Faculdade de Medicina da PUCRS denominada Acta Médica Volume 1. A rq u i v o HTM L Os trabalhos foram realizados median- te os recursos disponíveis, ou seja, .H T M scanner HP Scanjet II, software de OCR (Reconhecimento Ótico de Carac- teres) OmniPage Pro 5.0, editor de In se r çã o d e Im a g e n s n o textos MS- Word 6.0 e o conjunto de C o m p o siçã o te x to c o m c o n v e r s ã o F in a l d a O b ra a u t o m á t ic a p a r a softwares do Netscape Communicator D ig ita l fo r m a to J P G 4.0 (Pohlmann1 ). O b r a D i g it a l N etsc ape C om po s er .H T M Inicialmente, são apresentadas as prin- cipais características das Actas Médi- D i g i t a li z a ç ã o d e F i g u r a s cas, para que se possa ter uma idéia do contexto estudado e da adequação C a p tu ra d e Im a g e m dos recursos utilizados. d a s fig u ra s A rq u i v o de I m ag em D e s k S c a n II Como um compilado de artigos de alu- .B M P nos (trabalhos de conclusão), estas publicações começaram a ser editadas em 1977. Em sua maioria, são docu- – notas de rodapé; 4) conversão para formato HTML. mentos antigos que precisam passar pela função de criação e captura, ou – subdivisão de itens por meio de cha- A descrição detalhada de cada uma seja, conforme (Pohlmann1 ) são docu- ves; destas etapas pode ser vista no ende- mentos que têm de ser necessariamen- reço te digitalizados. – manchas de tinta e falhas na impres- são; http://www.cglobal.pucrs.br/ O objeto inicial desta pesquisa foi a pri- bibdigital/artigos/art3.htm. meira edição da Acta Médica, editada – textos e figuras somente na cor preta em 1977. Este documento possui um ou tons de cinza. Para cada capítulo do livro, foi criado leiaute de texto complexo contendo: um arquivo HTML diferente para facili- Descrição do Processo de tar a posterior ligação com indexado- – texto dividido em duas colunas; Digitalização res, hiperlinks e softwares de gerência de bibliotecas. – tamanho de letra muito pequeno O objetivo do processo foi a transfor- (aproximadamente tamanho times new mação da obra para formato digital e O espaço total em disco, ocupado pe- roman 10); sua publicação em formato HTML. Para los 16 capítulos digitalizados, conten- tanto, dividiu-se o trabalho em quatro do 241 páginas de texto e 72 figuras, – fórmulas matemáticas manuscritas etapas: foi de 2,41 megabytes , comprovando em meio ao texto; eficiência em termos de economia de 1) leitura ótica das páginas da obra; espaço de armazenagem e conseqüen- – seqüência de texto não linear (em al- te agilidade no acesso aos documen- guns capítulos, o texto inicia pela colu- 2) reconhecimento do texto por meio tos full-text, via Internet. na da direita); de software de OCR; Um resumo deste processo é apre- – figuras e imagens; 3) revisão e correção do texto por inter- sentado, acima, esquematicamente, na médio de editor de texto; (MS-Word 6.0); figura 3. 302 Ci. Inf., Brasília, v. 27, n. 3, p. 300-310, set./dez. 1998
  4. 4. Estudo comparativo entre sistemáticas de digitalização de documentos: formatos HTML e PDF Na tabela 2 são apresentados também TABELA 2 os tempos médios verificados na exe- Tempos médios para realização das etapas cução de cada uma destas etapas. Os tempos apresentados são para um nú- ETAPAS TEMPO MÉDIO mero padrão de 50 páginas e 12 figu- ras. Captura das imagens dos textos e execução do programa de reconhecimento ótico de 65 minutos Busca de melhores resultados no caracteres – OCR (com a criação do arquivo texto) OCR Revisão e correção do texto 400 minutos A elaboração da sistemática HTML foi feita com a utilização do software de Conversão dos arquivos texto para arquivos HTML 15 minutos OCR Omni Page Pro 5.0. Os resulta- Captura de imagens e criação de arquivos BMP 20 minutos dos deste experimento apontaram um tempo total de conversão muito alto, Inserção de imagens no texto e composição final da obra 10 minutos principalmente pela necessidade de realização de uma revisão e correção Tempo médio para transformação de um texto de meticulosa dos erros gerados pelo pro- 50 páginas, com 12 figuras, do formato convencional 510 minutos cesso de reconhecimento óptico dos (em papel), para o formato digital, segundo a (aprox. 8,5 horas) caracteres (OCR). sistemática proposta Dando continuidade ao trabalho, dese- Observação: Cumpre salientar que estes tempos foram estimados contando com a participação de java-se verificar a utilização de uma duas pessoas para sua realização. Obviamente, quanto maior a equipe, menor o tempo consumi- versão mais atual do software, o Omni do. Também os recursos de hardware utilizados, principalmente o scanner que não possuía Page Pro 8.0, a fim de identificar me- recurso ADF (Automatic Document Feeder), não são os recomendados para este tipo de trabalho. A utilização de recursos mais apropriados tende a melhorar as performances observadas, princi- lhorias no processo de reconheci- palmente nas etapas de captura de imagens, revisão e correção de texto, que são críticas neste mento de caracteres que reduzissem processo. o trabalho de revisão e correção a patamares aceitáveis, dentro do esco- Outra característica a ser salientada é Após realizado o processo, os arquivos po de um projeto de digitalização em a alta qualidade (qualidade laser) de de saída contento o texto reconhecido larga escala. impressão do informativo, bem como a pelo OCR foram salvos no formato utilização de fontes padrão (arial), o DOC do MS-Word 6.0, por ser comum Para realização deste trabalho compa- que, segundo (Caere3), levaria o Omni a ambas as versões e permitir a utiliza- rativo, escolheu-se um informativo de Page Pro 8.0 a atingir uma taxa de acer- ção de um dicionário ortográfico comum publicação interna na PUCRS chama- to no reconhecimento dos caracteres na detecção dos erros de reconheci- do “PUCRS Informação”. O mesmo foi superior a 99%. mento dos caracteres. A comparação escolhido por possuir uma diagrama- entre as taxas de reconhecimento atin- ção elaborada, com fotos e textos dis- O “PUCRS Informação”, composto de gidas pelas versões 5.0 e 8.0 do Omni- tribuídos de forma não-linear, permitin- 20 páginas, foi digitalizado e armaze- page Pro partiu de uma análise destes do a comparação entre os procedimen- nado como imagem para posterior re- arquivos. tos de definição automática das zonas conhecimento dos caracteres e zonas de texto de ambas as versões do de texto em ambas as versões do Om- Realizou-se a contagem do número to- OmniPage Pro. niPage. Para tanto, foi utilizado o Omni tal de palavras na obra. A seguir, reali- Page Pro 5.0 e um scanner de mesas zou-se a contagem das palavras que O processo de definição de zonas HP Scanjet II, gerando um arquivo de possuíam incorreções na grafia origi- de texto pode ser realizado de for- saída no formato proprietário MET con- nadas por um erro no reconhecimento ma manual, conforme descrito em tendo as 20 páginas digitalizadas. Este dos caracteres. De posse deste valo- (Pohlmann1), produzindo um resultado arquivo foi aberto em ambas as versões res, calculou-se o percentual de acer- melhor em termos de fidelidade ao 5.0 e 8.0, onde foi realizado o reconhe- tos atingido pelo reconhecimento dos leiaute da obra original, no entanto cimento óptico dos caracteres (OCR) caracteres em ambas as versões. Cum- esta atividade envolve muita intera- e a definição automática das zonas de pre salientar que os dados obtidos re- ção do usuário tornando o processo texto, uma vez que ambas as versões lacionados à taxa de reconhecimento lento. A utilização da definição auto- possuem esses recursos. do processo de OCR consideraram as mática das zonas do texto é uma ten- 20 páginas do informativo na íntegra. tativa de reproduzir o leiaute da obra A tabela 3, a seguir, ilustra os resulta- original sem a interação do usuário. dos obtidos. No entanto, os resultados ficam aquém dos esperados. Ci. Inf., Brasília, v. 27, n. 3, p. 300-310, set./dez. 1998 303
  5. 5. Estudo comparativo entre sistemáticas de digitalização de documentos: formatos HTML e PDF Concluiu-se que a utilização de uma TABELA 3 versão mais atual do software Omni Comparativo dos resultados do OCR Page Pro não promoveu significativa melhoria nos resultados do processo de Total de palavras Palavras com erro Taxa de reconhecimento dos caracteres que pu- reconhecimento desse acelerar significativamente os trabalhos de digitalização de um acer- Versão 5.0 4833* 308 93,6% vo em larga escala, uma vez que a ne- Versão 8.0 4785 168 96,5% cessidade de revisão do texto perma- * A diferença observada no número total de palavras deve-se ao fato de a versão 5.0 dividir algu- neceu necessária. mas palavras ao meio, gerando duas novas. Diretrizes para busca de uma nova sistemática A integração de dicionários ortográficos Aliado a estes fatores, pode-se mencio- ao processo de reconhecimento dos nar também o fato de que a maioria das Segundo (Haigh2), a taxa de reconhe- caracteres, como o procede o Omni- obras é composta não somente de tex- cimento de um OCR para conversão de Page Pro, auxilia a identificação das tos. Também contêm figuras, fórmulas documentos deve ser superior a 98%. palavras consideradas suspeitas. No e esquemas gráficos cujos softwares Caso contrário, é mais eficiente reali- entanto, dada a impossibilidade de se de OCR atuais não oferecem um trata- zar a redigitação do documento. construir um dicionário eletrônico que mento adequado, sendo necessária a abranja todos os termos técnicos es- utilização de um outro software para Esta taxa de reconhecimento é medi- pecíficos de cada área, nos diversos captura das imagens e posterior inte- da considerando o número de edições idiomas contemplados pelo acervo da gração. Tal procedimento exige muita necessárias (inserções, deleções, biblioteca da PUCRS, persiste a neces- interação do usuário e torna o tempo substituições) diante do número total de sidade de realização de uma leitura de digitalização de uma obra muito alto, caracteres. Recomenda-se, no entan- cuidadosa, pois uma palavra assinala- considerando a amplitude do trabalho to, que este dado não seja utilizado da como suspeita pode estar correta ou desejado. como referência para trabalhos de di- não. gitalização em larga escala, pois des- Tais informações levaram os pesquisa- considera todo o trabalho de localiza- Como um agravante, muitas das obras dores do laboratório de biblioteca digi- ção de erros no texto, que muitas ve- do acervo da Biblioteca Central da PU- tal da PUCRS a buscar outras alterna- zes demanda uma leitura completa da CRS (aproximadamente 300 mil obras) tivas de digitalização que envolvessem obra. Além disso, quando o vocabulá- não apresentam um estado de conser- menor interação do usuário, viabilizan- rio utilizado é eminentemente técnico, vação adequado à realização da digi- do a realização do trabalho em larga pode ser necessária a confrontação talização por meio de softwares de escala. com a obra original em papel, para iden- OCR, tais como: tificação da grafia correta de uma pala- Desta forma, iniciou-se o trabalho de vra. • obras com páginas riscadas e com definição de uma nova sistemática de anotações a lápis e a caneta; digitalização utilizando o software da O que deve ser considerado efetiva- empresa Adobe, denominado Adobe mente é o volume de tempo despendi- • obras com papéis com gramatura mui- Acrobat. Este software foi cedido pela do por um usuário, ao realizar a corre- to fina (50 gr/m²), fazendo com que o empresa ao Laboratório de Biblioteca ção/conferência de um texto reconhe- texto de um lado da página seja visível Digital da PUCRS para a realização de cido pelo OCR. do outro lado; testes por um período de 60 dias. Se- gundo (Adobe4), tem como caracterís- Enquanto os software de OCR não atin- • obras com páginas amassadas, man- ticas: girem uma taxa de reconhecimento de chadas, sujas, deterioradas por mofo, 100%, será necessária meticulosa re- traças, ou mesmo pela própria utiliza- • facilidade de criação e publicação de visão da obra para localização e corre- ção. documentos on-line; ção dos erros, atividade essa que tor- na a realização de trabalhos de digitali- Apesar de possuir um setor específico • mantém o leiaute original das obras zação em larga escala altamente cus- para recuperação do acervo, muitos digitalizadas; tosos, sendo necessária a utilização de dos problemas são irrecuperáveis, e, grandes equipes com numerosos recur- com uma movimentação diária de 2 600 • utiliza o formato de arquivo PDF (Por- sos para que o trabalho não se torne empréstimos, a tendência é que tais table Document Format), que permite excessivamente demorado. problemas não sejam eliminados. a criação de documentos multiplatafor- ma que podem ser visualizados inclu- sive em browsers (software de nave- gação na Internet); 304 Ci. Inf., Brasília, v. 27, n. 3, p. 300-310, set./dez. 1998
  6. 6. Estudo comparativo entre sistemáticas de digitalização de documentos: formatos HTML e PDF • possibilidade de captura e conversão TABELA 4 de grandes volumes de documentos Tempo para digitalização das obras utilizando o Scanner HP Network 5 com um baixo nível de interação do usuário. Volume 1 159 páginas 16 minutos Estas características se mostraram Volume 2 295 páginas 36 minutos bastante adequadas ao tipo de traba- lho que se tinha para realizar. Total 454 páginas 52 minutos Média: 8,73 páginas por minuto SISTEMÁTICA PDF Digitalização por meio da captura de O tempo levado para digitalização dos 2) quando da aplicação do OCR nas documentos dois volumes da História da PUCRS páginas da obra, os arquivos reduziram está explicitado na tabela 4. o seu tamanho em aproximadamente Para a definição de uma sistemática de quatro vezes; digitalização por meio da captura de do- Um dos objetivos previstos era a pos- cumentos utilizando o software Adobe sibilidade de realização de pesquisas Dado a inviabilidade de realização do Acrobat, escolheu-se, como objeto de full-text na obra. Para tanto, seria ne- OCR nas páginas da História da PU- teste, a obra história da PUCRS. Esta cessário que as imagens digitalizadas CRS, alguns dos objetivos traçados no escolha deveu-se a adequação da obra passassem por um processo de reco- início da pesquisa precisaram ser aban- ao trabalho que estava proposto e pela nhecimento ótico de caracteres (OCR), donados. Em especial a possibilidade liberação dos direitos autorais da obra ou seja, a transformação da imagem em de realização de pesquisas no texto por parte dos autores, permitindo aliar texto. desta obra. sua disponibilização à comemoração do cinqüentenário da universidade, A realização de OCR em arquivos no Neste momento, decidiu-se dar se- ocorrida em 1998, época em que esta formato PDF é feita pelo software qüência ao trabalho de digitalização pesquisa estava em andamento. Adobe Acrobat Exchange, o qual pos- mantendo as páginas da obra como sui uma interface adequada para a ta- imagens, pois julgou-se importante ava- A obra possui somente uma coluna de refa, sendo possível a realização do liar as características e o comportamen- texto, as letras são Times New Roman processo sobre todas as páginas de to dos arquivos PDF contendo imagens de tamanho 12. São encontradas foto- uma vez só. das páginas digitalizadas. grafias e ilustrações em meio ao texto, no entanto nenhuma utiliza cores, so- No entanto, foi frustrante descobrir que Partiu-se, então, para a exploração de mente tons de cinza. o software em sua versão 3.01 não recursos do formato PDF que permi- possui dicionário para reconhecimento tiriam aprimorar a navegabilidade e Para digitalização da História da das palavras e caracteres da língua aparência da obra, tais como a criação PUCRS, foi utilizado o scanner HP portuguesa, o que inviabilizou a reali- de links e bookmarks, a separação dos Network Scanner 5, destacando-se zação do OCR e, por conseqüência, a capítulos, a adequação do tamanho e pela velocidade de digitalização e pela transformação da imagem capturada da visualização das páginas da obra. presença de uma bandeja para entra- via scanner em um texto. Estes ajustes foram realizados utilizan- da automática de papel ADF (Automa- do o Adobe Acrobat Exchange. Uma tic Document Feeder), apesar de su- Apesar disso, duas características in- descrição detalhada deste procedimen- portar somente a digitalização de ima- teressantes relacionadas ao OCR apli- tos pode ser encontrada em gens em tons de cinza, fato que não cado pelo Acrobat Exchange devem ser http:www.cglobal.pucrs.br atrapalhou a definição da sistemática. ressaltadas: bibdigitalkitskit3.html. Para a inserção das páginas da obras 1) as palavras ou conjuntos de carac- na bandeja de entrada de papel, foi teres não reconhecidos foram mantidos necessário realizar um corte rente a como imagens, de forma que a leitura parte onde as folhas estão presas para do texto continuou sendo possível; que estas se soltassem. Ao final, a apli- cação cliente do scanner gera automa- ticamente um arquivo contendo as pá- ginas digitalizadas como imagens, ou seja, uma imagem para cada página, agrupadas em um só arquivo PDF. Ci. Inf., Brasília, v. 27, n. 3, p. 300-310, set./dez. 1998 305
  7. 7. Estudo comparativo entre sistemáticas de digitalização de documentos: formatos HTML e PDF A seguir, será apresentado o resumo Figura 4 esquemático do trabalho de digitaliza- Esquema de digitalização da história da PUCRS ção da História da PUCRS (figura 4). Digitalização da história da PUCRS História da PUCRS São apresentados também os tempos médios verificados na execução de Captura e manipulação das imagens Manipulação das Imagens cada uma destas etapas. Os tempos apresentados correspondem à digitali- 1 2 zação do primeiro volume da obra, com Captura de imagem Separação em 159 páginas (tabela 5). dos textos capítulos Digitalização e da conversão de documentos HP ScanJet 5 Utility Acrobat exchange Tendo em vista a inadequação do OCR, decidiu-se pesquisar alternativas que 3 4 tornassem possível a realização de Inserção pesquisas full-text. Uma possibilidade Inserção de links encontrada foi a conversão de docu- de bookmarks Arquivos mentos já existentes no formato digital Acrobat exchange para o formato PDF, evitando, dessa Acrobat exchange forma, a necessidade de reconheci- .PDF mento óptico dos caracteres, uma vez que o documento original não é gerado 5 6 mediante a captura de imagens com Cortes nas Configuraçã uso de um scanner. páginas (crop) da visão inicial Para a realização deste novo trabalho, foi escolhido como instrumento de tes- Acrobat exchange Acrobat exchange tes a dissertação de mestrado do pro- fessor Omer Pohlmann Filho, co-autor deste artigo, pela facilidade de nego- TABELA 5 ciação dos direitos autorais e pela ade- Os tempos de realização das etapas do processo de digitalização quação da obra ao trabalho proposto. ETAPAS TEMPO MÉDIO A dissertação em questão consiste de um conjunto de arquivos digitais com Captura da imagens dos textos no scanner criação dos 16 minutos 247 páginas divididos entre textos ela- arquivos PDF (159 páginas) borados no Word 2.0 contendo grande Separação dos Arquivos em capítulos 30 minutos número de tabelas, fórmulas e figuras, e oito tabelas elaboradas no Excel 3.0. Criação dos índices link no índice da obra 40 minutos* Pelas características das tabelas, se- Criação das bookmarks 30 minutos* ria muito trabalhoso realizar a conver- Cortes nas páginas (crop) 20 minutos* são para HTML, uma vez que os recur- Configuração da visão inicial 1 minuto sos de tabela disponíveis na linguagem Tempo médio para transformação de um texto do formato 137 minutos não são satisfatórios para tanto. convencional (em papel) para o formato digital, segundo a (2 horas e 17 min.) O trabalho de conversão consistiu na sistemática proposta (PDF) carga destes arquivos, por meio da uti- * Estas etapas são opcionais ao processo de digitalização e podem variar de acordo com as lização de versões mais recentes do características da obra. Word e do Excel, e posterior impres- são dos mesmos utilizando o driver de impressão denominado Adobe PDF Writer. Este driver se encarrega de cap- turar a impressão e convertê-la para um arquivo PDF. Foi necessário agrupar estes arquivos em um só, baseando-se na ordenação encontrada na publicação original (em papel). 306 Ci. Inf., Brasília, v. 27, n. 3, p. 300-310, set./dez. 1998
  8. 8. Estudo comparativo entre sistemáticas de digitalização de documentos: formatos HTML e PDF A conversão produziu um resultado FIGURA 5 considerado excelente. Sem maiores Esquema de conversão da dissertação de mestrado dificuldades, foi possível agrupar todas as partes que formavam a dissertação Conversão da dissertação de mestrado Dissertação de Mestrado (arquivos de Word e Excel) em um Documento digital na forma de texto para arquivo PDF Digital na forma de Texto para arquivo PDF mesmo arquivo no formato digital, sem preocupações maiores com as versões 1 2 dos softwares utilizados. Carga e impressão Captura do arquivo A seguir, será apresentado o resumo do documento de impressão esquemático do trabalho de conversão da dissertação de mestrado (figura 5). Word / Excel Acrobat PDF writer São apresentados também os tempos médios verificados na execução de 3 4 cada uma destas etapas (tabela 6). Agrupamento em Configuração COMPARATIVO ENTRE AS um só arquivo Arquivos da visão inicial SISTEMÁTICA APRESENTADAS Acrobat exchange Acrobat exchange Ao final deste trabalho, foram conside- .PDF rados positivos os resultados obtidos com a sistemática PDF, uma vez que, na comparação com a sistemática TABELA 6 HTML pesquisada anteriormente, esta Os tempos de realização das etapas do processo de conversão apresentou vantagens significativas conforme ilustra a tabela 7. Os tempos ETAPAS TEMPO MÉDIO apresentados são para um número pa- Carga e solicitação de impressão dos arquivos 10 minutos* drão de 50 páginas e 12 figuras. (1 Texto em MS-Word e 8 tabelas em MS-Excel) O principal ponto a favor da sistemáti- Captura da Impressão e Conversão para PDF 10 minutos* ca PDF é o tempo total demandado Agrupamento dos arquivos 15 minutos* para transformação de maneira total- Configuração da visão inicial 1 minuto mente confiável, de uma obra em pa- Tempo total de conversão 36 minutos pel para o formato digital. Este ponto merece especial importância, pois tor- * Tempos que podem variar de acordo com as características da obra. na viável a realização do processo em larga escala influenciando também na TABELA 7 quantidade de recursos humanos ne- Comparativo entre a Sistemática HTML e as Sistemáticas PDF cessários para estruturação de um nú- cleo para realização desta tarefa. Sistemática Sistemática Sistemática 5 Característica HTML PDF – Captura PDF – Conversão Segundo (Pohlmann ), no contexto do Captura (imagem) (texto) projeto de criação de uma biblioteca digital na PUCRS, está prevista a es- truturação de um núcleo de digitaliza- Mantém o leiaute original da obra Não Sim Sim ção de documentos. Este núcleo terá Possibilidade de manipulação do Sim Não Sim por objetivo a produção de acervo digi- texto tal para a biblioteca digital da PUCRS, Possibilidade de realização de Sim Não Sim devendo contemplar os recursos ne- pesquisas full-text cessários para a realização desta tare- Espaço de armazenagem Pequeno (texto) Aproxim. Aproxim. fa incluindo hardware , software, insta- 7 vezes maior 4 vezes maior lações e recursos humanos. Tais recur- Revisão e correção do texto *400 min Não há Não há sos humanos receberão treinamento e Tempo de transmissão via rede Baixo 7 vezes maior 4 vezes maior orientações a partir dos resultados Tempo total aproximado de 510min 46min 6min apontados por esta pesquisa. transformação de uma obra de 50 páginas e 12 figuras * Observação: Cumpre salientar que o tempo relacionado a sistemática HTML foi determinado, com o trabalho sendo realizado por duas pessoas. Principalmente, a etapa de revisão e correção de texto pode ser agilizada agregando-se mais uma pessoa à equipe de trabalho. Ci. Inf., Brasília, v. 27, n. 3, p. 300-310, set./dez. 1998 307
  9. 9. Estudo comparativo entre sistemáticas de digitalização de documentos: formatos HTML e PDF A seguir, apresenta-se uma sugestão TABELA 8 de recursos mínimos necessários e os Recursos para estruturação do núcleo respectivos custos iniciais envolvidos para a formação de um núcleo de digi- Sistemática HTML Sistemáticas PDF talização de documentos. Isto visa a (Digitalização e Conversão) permitir a comparação entre as siste- máticas apresentadas, levando em Recurso Especificação Preço* Especificação Preço* conta também a questão financeira. As sistemáticas de digitalização e conver- 01 Computador: 01 Computador: são de documentos baseadas no for- Pentium II 400 Mhz , Pentium II 400 Mhz , mato PDF necessitam dos mesmos re- 64 Mb RAM , HD 6,2 64 Mb RAM , HD 6,2 cursos e foram, por este motivo, agru- Gb IDE, CD 24x, 6.158,00 Gb IDE, CD 24x, 6.158,00 Monitor 17", Placa de Monitor 17", Placa de padas na mesma coluna. Os recursos Rede 10/100 Mbps, Rede 10/100 Mbps, indicados, bem como custos envolvidos, Porta USB, Windows Porta USB, Windows consideram a realidade da PUCRS. NT 4.0 WS NT 4.0 WS Hardware Verifica-se que os valores diferem so- 01 Scanner: HP 01 Scanner: HP mente na aquisição das licenças dos ScanJet 6250: conexão ScanJet 6250: conexão software e ainda assim possuem valo- USB, Bandeja ADF, 1.598,00 USB, Bandeja ADF, 1.598,00 res aproximados. No entanto, deve-se Resolução 1200X Resolução 1200X realizar uma comparação relevando o 999.999 DPI 999.999 DPI custo relativo aos recursos humanos 01 Licença Windows Incluída no 01 Licença Windows Incluída no envolvidos na realização da tarefa nas computador NT 4.0 computador NT 4.0 diferentes sistemáticas, uma vez que a Software principal diferença identificada foi o tem- 01 Licença Caere 549,00 01 Licença Adobe 500,00 po dispendido. Omni Page 8.0 Acrobat 3.01 Utilizando o mesmo exemplo da tabela 01 Aparelho de Ar 1.177,51 01 Aparelho de Ar 1.177,51 7, é possível verificar o custo dos re- Condicionado 18.000 Condicionado 18.000 cursos humanos envolvidos. Para tan- btus btus to, foi calculado o valor da hora traba- 02 mesas para 188,00 02 mesas para 188,00 lhada do profissional considerando 160 microcomputadores microcomputadores horas mensais (R$ 2.255,90 por pro- Instalações fissional / 160 horas/mês = R$ 14,10/ 02 luminárias de 03 100,00 02 luminárias de 03 100,00 hora por profissional) lâmpadas com lâmpadas com refletores refletores Os pontos negativos da sistemática PDF são menos críticos para um pro- 02 pontos de rede 166,00 02 pontos de rede 166,00 jeto em larga escala, tais como o espa- ço de armazenagem, tempo de trans- 02 cadeiras com 156,00 02 cadeiras com 156,00 rodízios rodízios missão em rede, impossibilidade de realização de pesquisas full-text (so- Recursos 02 Remuneração com 02 Remuneração com mente para o caso da captura) e mani- Humanos Encargos Sociais 4.511,80 Encargos Sociais 4.511,80 pulação do texto. (Bibliotecário Júnior) (Bibliotecário Júnior) A possibilidade de realização de con- Total 14.604,31 14.555.31 versões de documentos já existentes no formato digital para o formato PDF * Os valores de referência estão em Reais, cotados na época a 1,71 em relação ao dólar americano mostrou-se muito eficaz, em especial pelo fato de reproduzir o conteúdo dos TABELA 9 documentos exatamente como estes Comparativo entre despesas com recursos humanos seriam impressos e por facilitar a mes- Sistemática Sistemática clagem de documentos, constituídos de Sistemática PDF – Captura PDF – Conversão diversos arquivos de software diferen- HTML Captura (imagem) (texto) tes, gerando um só arquivo PDF. Tempo dispendido 510min 46min 6min Cálculo R$ 14.10 X 8.5 R$ 14.10 X 0.76 R$ 14.10 X 0.1 horas horas X 2 pessoas horas X 2 pessoas X 2 pessoas Despesa com recursos humanos R$ 239,70 R$ 21,43 R$ 2,82 308 Ci. Inf., Brasília, v. 27, n. 3, p. 300-310, set./dez. 1998
  10. 10. Estudo comparativo entre sistemáticas de digitalização de documentos: formatos HTML e PDF Tais características indicam maior fa- A disponibilização das obras na Inter- Como prosseguimento deste trabalho, cilidade de formação de um acervo con- net será feita, em primeiro momento, será realizado, em conjunto com a Fa- tendo documentos recentes (que teori- pelo software ALEPH, que gerencia a culdade de Biologia e com o suporte camente já existem em meio digital), catalogação e consulta do acervo da da Biblioteca Central, a digitalização de possibilitando inclusive a realização de Biblioteca Central. obras de formatos diversos tais como pesquisas full-text nos arquivos que fotografias, sons, textos e imagens. foram convertidos a partir do formato O ALEPH possui uma interface que Esses recursos serão utilizados para a texto, além de favorecer a padroniza- permite a realização de consultas pela elaboração de materiais didáticos, ser- ção das publicações digitais e, por con- Internet, possibilitando aos usuários vindo como fonte de pesquisa para a seqüência, o posterior armazena- verificar a existência das obras no acer- avaliação das características do Ado- mento, recuperação e manipulação. vo, bem como a sua disponibilidade be Acrobat Reader para suporte a es- para empréstimo. Os recursos de pes- tas mídias, comparando-as com a utili- Deve-se registrar que os problemas quisa do ALEPH baseiam primariamen- zação da linguagem HTML para o mes- que impõem dificuldades à realização te em autores, títulos e assuntos, mas mo propósito. do OCR, sejam eles causados pelo es- é possível realizar consultas avança- tado de conservação do acervo, tais das acessando qualquer informação A continuidade deste trabalho objetiva como manchas, amassados, riscos e constante no registro de cadastramen- definir novas sistemáticas que sejam anotações, ou ligados a ineficiência dos to da obra. Pode-se ainda combinar di- adequadas à digitalização de obras e softwares de OCR para tratamento de versos argumentos de pesquisa me- materiais existentes nos mais diversos características, como fórmulas mate- diante a utilização de lógica booleana. formatos, servindo assim para orientar máticas, figuras, trechos manuscritos, a estruturação do núcleo de digitaliza- letras muito pequenas ou borradas, po- No caso de as obras já existirem no for- ção de documentos e produção de dem ser contornados pela digitalização mato digital, o ALEPH fornece um link materiais digitais de cunho didático. utilizando a sistemática PDF. Para tan- para acesso ao documento na íntegra, to, basta que as obras sejam digitaliza- permitindo assim que o usuário possa das como imagens, e será possível ler a obra digital pela Internet, sem pre- realizar a leitura das mesmas, por meio cisar se deslocar até a biblioteca. de um arquivo PDF, conforme a apa- rência original no momento da digitali- As pesquisas full-text serão realizadas zação. com recursos de pesquisa do Adobe Acrobat Reader, uma vez que o Neste sentido, é importante que se de- ALEPH não consegue indexar os tex- senvolvam ferramentas para realização tos existentes no formato PDF. No en- de tratamento óptico nos arquivos de tanto, para acessar os recursos de pes- imagens PDF, que filtrem automatica- quisa full-text, o usuário deve realizar mente as características indesejáveis o download do documento (copiá-lo – adulterações, manchas, amassados para sua máquina) e abri-lo por meio entre outros –, melhorando a aparên- do Adobe Acrobat Reader, pois a con- cia das obras. sulta ao arquivo PDF realizada com auxílio do browser não oferece o recur- CONSIDERAÇÕES FINAIS so de pesquisa full-text . Inicialmente, os trabalhos de constru- Com o crescimento do acervo digital, ção do acervo da Biblioteca Digital da torna-se necessário a utilização de ou- PUCRS serão realizados com a utiliza- tros softwares que possuam recursos ção do software Adobe Acrobat para di- mais adequados à recuperação e aces- gitalização das obras existentes no for- so a este acervo, permitindo a utiliza- mato tradicional (papel) e também para ção de técnicas avançadas de pesqui- conversão dos documentos já existen- sa com a utilização de linguagem natu- tes em um formato digital diferente do ral, utilização de parâmetros fonéticos HTML. Os documentos que já estive- e técnicas de inteligência artificial. Para rem no formato HTML serão mantidos, tanto, está prevista a utilização do pois este formato permite a realização software IBM Digital Library, que recen- de pesquisas full-text, possui tamanho temente foi disponibilizado e encontra- inferior ao PDF e atende às diretrizes se em fase de instalação em nosso la- definidas para este trabalho apontadas boratório. no item Diretrizes de Trabalho. Ci. Inf., Brasília, v. 27, n. 3, p. 300-310, set./dez. 1998 309
  11. 11. Estudo comparativo entre sistemáticas de digitalização de documentos: formatos HTML e PDF REFERÊNCIAS BIBLIOGRÁFICAS 1. POHLMANN, Omer F. Campos, Márcia B. Raabe, André L. John, Fabiana. Viera, Sônia. Em Direção a Criação de uma Biblioteca Digital na Pontifícia Universidade Católica do Rio Grande do Sul: - Uma experiência Prática. II Seminário Internacional de Bibliotecas associadas a UNESCO, Cienfuegos – Cuba. 23 a 27 de maio de 1998. 2. HAIGH, Susan. Optical Character Recognition (OCR) as a Digitization Technology. [Citado em 10 jan. 1998]. Disponível em WWW: [http://collection.nlc-bnc.ca/100/ 201/301/netnotes/netnotes-h/ notes37.htm] 3. CAERE Corporation. A Quantum Leap in Accuracy. [Citado em 11 jan. 1998]. Disponível em WWW: [http:// www.caere.com/live/content/products/ amaretto/amaretto.htm] 4. ADOBE Acrobat 3.0 Product Information. [Citado em 14 jul. 1998]. Disponível em WWW: [http://www.adobe.com/prodindex/ Acrobat/prodinfo.html] 5. POHLMANN, Omer F. Raabe, André L. Direito Autoral no Contexto de Bibliotecas Digitais. III Congresso Internacional de (Tele) Informática Educativa, Santa Fe – Argentina. 14 a 17 de abril de 1999. Comparative study between systematics of digitisation of documents: Formats HTML and PDF Abstract This article presents the resulting experience of Digital Library Group of PUCRS University, for the process of capture and conversion of existing documents from traditional format (paper) to a digital format. The major steps of the process are presented and evaluated using two different systematics: one based on HTML conversion; and other based on the creation of PDF files for Adobe Acrobat Reader software. Critical issues such as Optical Character André Luís Alice Raabe Recognition (OCR) and characteristics evaluation of the collection to be converted Bacharel em Informática, PUCRS, 1997. are approached also. Mestrando em Informática, PUCRS 1998. At the end, is presented a comparative study between the two systematics, identifying Omer Pohlmann Filho positive and negative characteristics to be considered for choosing a work direction. Bacharel em Administração de Empresas, PUCRS, 1979. Especialista em Análise de Sis- Keywords temas, PUCRS, 1981. Mestre em Informática, PUCRS, 1996. Conversion of documents from the traditional to the digital format; Systematics of {araabe, omer}@cglobal.pucrs.br conversion to HTML; Creation of PDF files; OCR technologies. 310 Ci. Inf., Brasília, v. 27, n. 3, p. 300-310, set./dez. 1998

×