1. Curadoria Digital
Novos modelos para a gestão de
acervos eletrônicos em bibliotecas
Aquiles Alencar Brayner
abrayner@yahoo.com
@AquilesBrayner
Aquiles.alencarbrayner@bl.uk
2. www.bl.uk 2
Missão das bibliotecas no século XXI
• Selecionar, capturar, descrever e preservar objetos
digitais, oferecendo novos sistemas de busca e
plataformas de acesso e reutilização destes objetos
• Promover seus acervos entre diferentes tipos de usuários
• Proporcionar a integração de distintos formatos eletrônicos
e criação de ferramentas que facilitem o acesso e análise
de conteúdos digitais
• Participação ativa nos projetos de pesquisa digital,
gerenciando as atividades e disseminação de resultados
obtidos
• Instituições como “laboratórios” de novas idéias e modelos
em pesquisa digital
• Atuar como centros de capacitação para pesquisadores e
profissionais envolvidos na gestão e utilização de dados
eletrônicos
3. www.bl.uk 3
O cenário digital hoje….
• Tecnologias em constante desenvolvimento: alto
índice de obsolescência de formatos, programas e
equipamentos para acesso a objetos digitais
• Mito de que toda informação está acessível de
maneira aberta e gratuita
• 75% da informação produzida em formato digital
desaparece ou é alterada anualmente
• Falta de esclarecimento sobre direitos de uso e
proteção de privacidade dos usuários
• “Idade das trevas” na era digial: escassez de
registro, armazenamento e preservação dos
conteúdos que produzimos
4. www.bl.uk 4
Curadoria Digital: as regras dos 10 “in"
1.Integridade: acesso ao objeto digital
na maneira em que ele foi criado
2.Integração: diferentes conteúdos e
formatos acessíveis a partir de uma
mesma plataforma
3.Interoperabilidade: compatibilidade
entre diferentes formatos,
plataformas e sistemas operacionais
4.Instantaneidade: acesso irrestrito e
imediato aos objetos eletrônicos
5.Interação: catálogos interativos
incorporando elementos de Web 2.0
(blogs, wikis, tags) e mídia social
6.Informação: planificação de
metadados para maior eficiência e
confiabilidade nos resultados de
busca
7.Incorporação de conteúdos:
constante inclusão de objetos digitais
8. Interpretação: objeto digital
contextualizado em relação a outros
itens equivalentes em vários acervos
9. Inovação: apresentação do material em
plataformas inovativas
10. Acesso Indefinido: objetos digitais
preservados para futura gerações
5. www.bl.uk 5
Curadoria Digital (DCC)
• A Curadoria Digital envolve a
criação, manutenção,
preservação e agregação de
valor aos objetos digitais em
toda sua vida útil.
7. www.bl.uk 7
Desafio: como selecionar, armazenar,
classificar e analisar as informações no
universo digital?
• Qual a quantidade de dados
gerados em 1 dia?
1. Twitter: 7 TB
2. Facebook: 10 TB
• Até 2020 teremos
aproximadamente 35 ZB (1.1
trilhão GB) de dados digitais
disponiveis
8. www.bl.uk 8
Arquivos de páginas Web
• Contexto: Arquivo e preservação das publicações no domínio
national (ex: .br)
• Aplicação e desenvolvimento de novas ferramentas para
recuperação e análise do conteúdo arquivado
• http://www.webarchive.org.uk/ukwa/
• The Internet Archive
9. www.bl.uk 9
Domínio .br
• Segundo os dados
coletados do site de
registros de páginas Web
no Brasil,
https://registro.br/estatistic
as.html , o país conta com
cerca 4M de sites criados
desde 1996
• International Internet
Preservation Consortium
(IIPC)
11. www.bl.uk 11
Arquivo de conteúdos eletrônicos
produzidos por órgãos governamentais
• Páginas Web e Mídias Sociais: National
Archives (GB): arquivo de informação em
formato digital produzida pelo governo britânico
• Dados: Data.Gov.uk: disponibilização/
arquivo de dados abertos (GB)
• Brazil: Dados.gov
12. www.bl.uk 12
Arquivo e gerenciamento de manuscritos
eletrônicos
• Arquivo de conteúdos
armazenados em dispositivos
eletronicos pessoais
• Recuperação de conteúdo
descartado e/ou modificado
pelo autor
• Garantir a preservação e
acesso a materiais
dependentes de tecnologia
obsoleta
• Maiores informações
http://wiki.bitcurator.net/index.
php?title=Main_Page
15. www.bl.uk 15
Planificação Estratégica
• Critérios:
– Dimensionalidade (ex: 3D)
– Formato(s)
– Metadados (incluindo OCRização)
– Manipulação pós-captura, etc.
• Considerações:
– Público alvo
– Objetivos
– Orçamento
– Representatividade (ex: como nos certificar que
o conteúdo digitalizado possa representar
proporcionalmente objetos em outros formatos
nos nossos acervos?
• Planejamento
– Adoção de modelos referenciais (OAIS, etc.)
– Software de captura, gestão, plataformas de
visualização, etc.
16. www.bl.uk 16
Critérios na digitalização: exemplos
• Imagem Multispectral: Consiste em
imagens de um mesmo objeto, tomadas
com diferentes comprimentos de ondas
eletromagnéticas. Pode ser luz visível,
infravermelha, ultravioleta, raio-X ou
qualquer outra faixa do espectro.
Diários de David Livingstone:
http://bit.ly/2vM1env
• Digitalização Tridimensional:
http://bit.ly/2tFUcQ5
https://skfb.ly/KGNq
• Imagem de ressonância magnética
Pergaminhos herculanos
17. www.bl.uk 17
Considerações: exemplo
• Como utilizar tecnologias existentes para maximizar o
acesso e reuso dos nossos acervos eletrônicos entre
diferentes públicos?
• British Library:
– Pinterest: https://www.pinterest.co.uk/britishlibrary/
– Soundcloud: https://soundcloud.com/the-british-library
– Wikimedia Commons:
https://commons.wikimedia.org/wiki/Category:British_Library
– Flickr: https://www.flickr.com/photos/britishlibrary/
18. www.bl.uk 18
Planejamento
THOMAZ, Katia P.; SOARES, Antonio José. A preservação digital
e o modelo de referência Open Archival Information System
(OAIS).Datagramazero, v. 5, n. 1, fev. 2004. Disponível
em:<http://www.dgz.org.br/fe-v04/F_I_art.htm>. Acesso em: 10
jan. 2016.
Ex:Modelo de referência OAIS (Open
Archives Information System)
Funções:
1. Inserção / Ingestão
2. Armazenamento
3. Gerenciamento de dados
4. Administração
5. Acesso
6. Planejamento da Preservação
Pacotes de submissão:
1. Pacote de Submissão de Informação (PSI):
Objeto digital + metadados descritivos e
técnicos (incl. OCR)
2. Pacote de Arquivamento da informação (PAI):
dados de conteúdo do objeto (informação de
referência + proveniência + contexto +
fixação: check sum, integridade e
autenticidade) + dados de preservação +
representação da informação)
3. Pacote de disseminação da informação (PDI):
dados de conteudo do objeto + metadados de
sistemas de suporte para acesso e
reutilização do objeto
19. www.bl.uk 19
Referências
• Impact: https://www.digitisation.eu/new-impact-website/
• Open Archival Information Stystem (OAIS):
http://www.oclc.org/research/publications/library/2000/lavoi
e-oais.html
• Digital Curation Centre (DCC): http://www.dcc.ac.uk/
• Tesseract (programa de OCRização de imagens com
texto): http://tesseract.projectnaptha.com/ e
http://bit.ly/2hbDExx
21. www.bl.uk 21
Plataformas que facilitem o trabalho com
arquivos digitalizados
1. Codex Sinaiticus – Plataforma
colaborativa
2. Casebooks project – identificação de
informação em documentos
3. TITL (Text to Image Linking Tool)
– transcrição e identificação
automatizadas
4. The Archaeology of Reading –
identificação de marginália em textos
impressos
5. The Chymistry of Isaac Newton
22. www.bl.uk 22
Transcrição
• Transcriptorium Reconhecimento
automático de textos manuscritos – HTR
• Digipal Base de dados para paleógrafos
• Transcribing Bentham Projeto de
participação pública (crowdsourcing) para
transcrição de manuscritos
• The Book of Margery Kempe
Projeto de transcrição (técnica diplomática)
incluindo anotações feitas no manuscrito
original
23. www.bl.uk 23
Transcrição, reconstrução e visualização
de dados
• Escravidão, Abolição e Pós-Abolição
Transcrição e controle de qualidade de
dados
• Projeto Old Weather reconstrução de
dados sobre o tempo a partir de
relatórios de viagens, aventureiros,
etc. https://www.oldweather.org/
• Stanford Spatial History: vários
exemplos de análise e visualização de
dados históricos e literários
• Old Bailey: base de dados sentenças
judiciais na Inglaterra entre 1676 e
1772 https://www.oldbaileyonline.org/
24. www.bl.uk 24
Projetos de enfoques comunitários
(crowdsourcing) para a construção de acervos
• Projeto Quipu: coleta de depoimentos sobre
esterilização massiva, muitas vezes não
consensual, de peruanos no período do governo
Fujimori (anos 90) https://interactive.quipu-
project.com/#/en/quipu/intro
• Cantos Cautivos: experiências de presos
políticos na época de Pinochet refletidas através da
música
• Europeana 1914-18: participação pública na
digitalização de acervos pessoais, enriquecendo as
coleções institucionais sobre a Primeira Guerra
Mundial
• Plataforma aberta para crowdsourcing:
Zooniverse
26. www.bl.uk 26
Catálogos eletrônicos
• Comportamento informacional na era
eletrônica gerou novos modelos de
encontrar informação (ao invés de
simplesmente buscá-la)
• Catálogos em instituições de memória
cultural têm de adaptar-se a este novo
contexto
• Modelos das mídias sociais vêm sendo
utilizados para ampliar as possibilidades
de acesso à informação, ex:
http://westportlibrary.org/
27. www.bl.uk 27
Catálogos com alternativas de buscas
• Música: Peachnote
• Imagens: Google images
• Catálogos seguindo o modelo de
plataformas de mídias sociais
gerando maior interatividade
entre usuários e acervos
29. www.bl.uk 29
Explorando as estantes
• Projeto parte do BL Lab com o objetivo de oferecer
métodos alternativos de acesso a coleções digitais para o
público em geral, permitindo aos usuários navegar
através de volumes na maneira em que estes se
encontram fisicamente organizados.
• http://ir.computing.edgehill.ac.uk/apps/explore-the-stacks
30. www.bl.uk 30
Tags (marcadores)
• Utilização de palavras ou frases para
descrever e/ou classificar objetos
• Modelo de Folksonomia
• Por meio das tags, o usuário pode
então recuperar informações e
compartilhá-las. Pode visualizar as
tags de outros usuários, assim como
identificar o grau de popularidade de
cada tag no sistema, e acessar as
informações relacionadas a uma tag
específica.
Explore.bl.uk
31. www.bl.uk 31
Alternativas experimentais
• Pesquisa levantada pela BL aponta
que maioria do material digitalizado
não é de interesse direto à pesquisa
individual
• Uso de aparelhos de reprodução
fotográfica nas salas de leitura
• Relatório OCLC
33. www.bl.uk 33
Novas ferramentas de trabalho digital
Uso de APIs (Application Programming Interfaces) para
integrar base de dados, ex: metadados, imagens, etc.
Buscas baseadas em locação geográfica Mineração de texto
Crowdsourcing /
Computação humana
Anotação
Processamento em
Linguagem Natural
(NLP)Visualização de dados
Geo-referenciamento
Lista de ferramentas: DiRT (Digital Research Tools) https://dirtdirectory.org/
34. www.bl.uk 34
Disponibilização e reutilização de
conteúdos eletrônicos
• Curador Mecânico: extração de imagens de livros digitalizados e
publicação no Flickr
• Imagens tagueadas e classificadas por grupos
• Indexação sinóptica no Wikimedia Commons dos títulos com
imagens
• Conteúdos utilizados em projetos artísticos, terapeuticos, etc.
35. www.bl.uk 35
Projeto acervo afro-brasileiro usando o
conteúdo da BN Digital
• Aplicação de técnicas de extração de
imagens e Curadoria Digital ao conteúdo
da FBN, principalmente da hemeroteca
gitial
• Tentar recuperar conteúdos perdidos de
páginas disponibilizadas pela BNDigital
referentes ao tema da pesquisa (ex:
Tráfico de Escravos no Brasil, Christiano
Júnior e a face escrava do Brasil, etc.)
• Disseminação de acervos utilizando
plataformas Web 2.0 (ex: Flickr, Wikimedia
Commons, etc.)
“Aguadeiro” (Álbum de vestuário
da América do Sul no século XIX)
Coleção BN Digital
36. www.bl.uk 36
Acervo Digital Afro-Brasileiro
• Identificar, extrair e publicar e conectar
imagens relativas à cultura e história afro-
brasileiras
• Utilizar plataformas de acesso aberto como
Flickr e Wikimedia Commons para facilitar a
descoberta e enriquecimento de metadados
descritivos (folksonomia) para as imagens
• Ampliar a visibilidade do portal BNDigital em
máquinas de busca abertas como Google
(tagueamento e indexação) para “atrair”
novos grupos de usuários não familiarizados
com o acervo de instituições de memória
cultural
• Possibilitar aos pesquisadores e estudantes
maneiras mais eficazes a descoberta de novos
padrões através da relação semântica de
dados (Linked data), conectando conteúdos
semânticos que não haviam sidos previamente
identificados
De volta do Paraguai
Vida Fluminense ( 11 junho1870)
Revista Illustrada (29 julho 1888)
Fonte (?)
37. www.bl.uk 37
Possíveis contribuições com outros
projetos
• Possibilidade de integração das
imagens em plataformas de base de
dados (ex:
http://www.slavevoyages.org/ )
oferecendo novo material para a
análise e interpretação de resultados
• Aplicar a metodologia utilizada para
extrair e disseminar imagens de
periódicos em outros acervos (BDLB,
Arquivo Nacional, etc.) formando,
assim, coleções iconográficas mais
completas sobre cultura afro-brasileira
41. www.bl.uk 41
Novas infra-estruturas para métricas
alternativas (Altmetrics)
• DataCite: rede global de bibliotecas nacionais, centros de
dados e outras instiutições de pesquisa que trabalha para
aumentar a identificação, citação e reutilização de dados no
âmbito acadêmico, fornecendo identificadores de objetos
digitais (DOI) para bancos de dados e outros produtos de
pesquisa, incluindo modelos não-tradicionais.
• Thor (Technical and Human Infrastructure for Open
Research): projeto de criação de identificadores persistentes
que possam agregar dados do DataCite, Orcid, Odin, etc.
tendo em vista 3 aspectos:
1. Identificador de especificidade: atribuição da versão do dado;
2. identificador para evidência: conexão entre dado e
publicação ;
3. identificador de crédito e contribuição: estabelecer
referências entre contribuidores, instituições e órgãos
patrocinadores da pesquisa.
Thor visa também disseminar/popular automaticamente informação
coletada, através de plug-ins, a outras plataformas, repositórios e
bancos de dados ex: Platforma Lattes, Scielo, Academia.eu,
SlideShare, etc.
43. www.bl.uk 43
Curadoria Digital
Estabelecer
vários canais
de acesso à
coleção
Incentivar a
criação e
manipulação de
base de dados
por usuários
Apoio à
pesquisa e
educação
Objetivos:
Infra-estrutura de acesso,
depósito e preservação de
conteudos digitais
Criação extensiva de coleções
digitais
Promoção e utilização de novas
ferramentas aplicadas ao acervo
digital: anotação, visualisação,
comparação, análise, etc.
Informação sobre novos métodos e
modelos em pesquisa digital
Promover uma maior colaboração
entre técnicos, pesquisadores e
bibliotecários
Alcançados através de:
Projetos colaborativos
Pataformas interoperacionais
Conexão entre base de dados e
ferramentas de pesquisa Criação de
Novos modelos
e métodos de
pesquisa
Conteúdo Digital
Treinamento e
suporte
profissional
One way is through the British Library Labs project and the Digital Curator team which make up the Digital Research Team. The aim of the lab is to encourage scholars to experiment at scale with our digital collections and data. The team holds competitions, events, and creates the space in which to engage with scholars working in this realm. Through the labs we’re learning how to better support scholars and build new services.
With an algorithm by Ben O’Steen we snipped out images from digitised books and put them on to Flickr on December 13 2013, there were over a million, but the problem we had was that we knew which books they came from (author/dates), but we didn’t’ have any information about the images. By releasing them onto flickr, we have got people to start tagging them and using them in very creative ways.
Hosting them internally was not an option and there was not sufficient metadata to put them on Wikipedia. Flickr seemed the obvious option as it is a platform that can support high usage, did not require metadata, allowed tagging and it is free for public domain images.