• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Uma Estratégia para Publicação dos Dados da Base do CEB-INEP/MEC no Padrão Linked Open Data
 

Uma Estratégia para Publicação dos Dados da Base do CEB-INEP/MEC no Padrão Linked Open Data

on

  • 929 views

 

Statistics

Views

Total Views
929
Views on SlideShare
835
Embed Views
94

Actions

Likes
0
Downloads
4
Comments
0

1 Embed 94

http://fernandomaia.eti.br 94

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment
  • Citar que minha iniciação científica foi um projeto pertencete ao Web-PIDE
  • A Web Semântica é a capacidade dos computadores interpretarem o significado dos dados.
  • Uma ontologia é um vocabulário, usado para descrever coisas...

Uma Estratégia para Publicação dos Dados da Base do CEB-INEP/MEC no Padrão Linked Open Data Uma Estratégia para Publicação dos Dados da Base do CEB-INEP/MEC no Padrão Linked Open Data Presentation Transcript

  • Uma Estratégia para Publicação dos Dados da Base do CEB-INEP/MEC no Padrão Linked Open Data Fernando Maia da Mota
    • Objetivos
    • Conceitos e Definições
    • A Estratégia
    • Conclusão
    AGENDA
        • Estudo do CEB, Web semântica, RDF, SPARQL.
        • Pesquisa das ferramentas STDTRIP, TRIPLIFY e OPEN LINK VIRTUOSO.
        • Definição e implementação da estratégia para a publicação dos dados da base de dados do Censo Escolar Brasileiro(CEB) no padrão Linked Open Data do ano de 1995 .
    OBJETIVOS
      • PROJETO WEB-PIDE
        • Parceria entre UFMS e UFSCar
        • Censo Educacional Brasileiro(CEB)
          • Magnitude e abrangência(Rigotti,2001)
          • Dados sobre os estabelecimentos de ensino, matrículas, funções dos docentes e rendimento escolar.
    CONCEITOS E DEFINIÇÕES
      • WEB SEMÂNTICA
        • Situação atual - “a Web atual pode ser definida como a Web Sintática, onde os computadores são responsáveis apenas por apresentar as informações, mas a interpretação fica a cargo do usuário, ocasionando dificuldades em encontrar informações de forma eficiente e eficaz na Web.”(Breitman,2005)
        • Definição - A Web Semântica é uma extensão da Web atual, na qual é dada a informação um significado bem definido, permitindo que computadores e pessoas trabalhem em cooperação.(Benners-Lee, Hendler e Lassila,2001)
    CONCEITOS E DEFINIÇÕES
      • ONTOLOGIAS
        • Definição - Uma ontologia define os termos utilizados para descrever e representar uma área de conhecimento e são utilizadas por pessoas, bases de dados e aplicações que necessitam partilhar informação sobre um domínio (um domínio é apenas uma área temática ou área do conhecimento, como medicina, construção, fabricação de ferramenta, bens imobiliários, gestão financeira, etc.).(W3C,2011)
    CONCEITOS E DEFINIÇÕES
      • ONTOLOGIAS –> REUSO (INTEROPERABILIDADE)
        • O reuso de ontologias existentes é um ponto crítico na Web semântica pois cada vez mais ontologias estão surgindo e precisam ser adaptadas de um domínio para outro, ou estendidas na sua abrangência.(Cantele,2009)
    CONCEITOS E DEFINIÇÕES
      • WEB ONTOLOGY LANGUAGE (OWL)
        • Definição - OWL é uma linguagem semântica, que é utilizada para publicação e compartilhamento de recursos semânticos. (Baldus,2011)
        • Seu objetivo é ser uma linguagem disponível para aplicações que não irão apenas exibir as informações, mas que necessitem compreender o significado das informações, seus relacionamentos entre classes, disjunções e metadados mais complexos dos que os suportados pelo RDF.(Baldus,2011)
    CONCEITOS E DEFINIÇÕES
      • RESOURCE DESCRIPTION FRAMEWORK (RDF)
        • Definição - O RDF é um XML padrão para intercâmbio de metadados.(Baldus,2011)
        • Função do metadado – Descrever um documento através de atributos conferidos a um objeto, retratando as suas características como dimensão, formato, autoria, localização e outros com o objetivo de intercambiar dados.(Oliveira,2002)
        • Uso de metadados - Sobre um recurso Web, o uso de metadados permite o conhecimento de seu significado, características, uso, localização e relacionamento com outros recursos.(Vanni, 2009)
    CONCEITOS E DEFINIÇÕES
  • CONCEITOS E DEFINIÇÕES
      • DADOS GOVERNAMENTAIS ABERTOS
        • Definição1 - São a publicação e disseminação das informações do setor público na Web, compartilhadas em formato bruto e aberto, compreensíveis logicamente, de modo a permitir a sua reutilização em aplicações digitais desenvolvidas pela sociedade.(W3C,2011)
        • Definição2 - Consistem na publicação de dados sobre informações públicas em formatos que permitem o seu compartilhamento, acesso, descoberta e fácil manipulação pelos consumidores desses dados.(Breitman,2010)
    CONCEITOS E DEFINIÇÕES
      • DADOS GOVERNAMENTAIS ABERTOS –> TRÊS LEIS (EAVES,2009)
        • Lei1 - Se o dado não pode ser encontrado e indexado na Web, ele não existe.
        • Lei2 - Se não estiver aberto e disponível em formato compreensível por máquina, ele não pode ser reaproveitado.
        • Lei3 - Se algum dispositivo legal não permitir sua reaplicação, ele não é útil.
    CONCEITOS E DEFINIÇÕES
      • DADOS GOVERNAMENTAIS ABERTOS –> OITO PRINCÍPIOS (OPENGOVDATA.ORG, 2007)
        • 1. Completos
        • 2. Primários
        • 3. Atuais
        • 4. Acessíveis
        • 5. Compreensíveis por máquinas
        • 6. Não discriminatórios
        • 7. Não proprietários
        • 8. Livres de licenças
    CONCEITOS E DEFINIÇÕES
      • LINKED OPEN DATA (LOD)
        • LOD usa tecnologias da Web semântica para publicar dados estruturados na Web e criar ligações entre dados de diferentes fontes de dados, de acordo com os seguintes princípios.(Berners-Lee & Hendler, 2001):
        • 1. Usar URIs como nomes para recursos.
        • 2. Usar URIs HTTP de forma que pessoas possam procurar por estes
        • nomes.
        • 3. Quando alguém procura uma URI, fornecer informação RDF útil(SPARQL).
        • 4. Incluir sentenças RDF que ligam a outras URIs para que possam
        • descobrir outros recursos.
    CONCEITOS E DEFINIÇÕES
      • LINKED OPEN DATA (LOD) -> Situação Atual (Cyganiak,2010)
    CONCEITOS E DEFINIÇÕES
  • A ESTRATÉGIA
      • ETAPA 1 –> DISPONIBILIZAÇÃO DOS DADOS
        • Dados disponibilizados em microdados, no site do próprio INEP
        • Os microdados são formados por arquivo ASCII(dados brutos), pelos arquivos de leitura e por um arquivo em Portable document format(PDF) chamado de "Leia-me“.
    A ESTRATÉGIA
      • Etapa 1 –> Disponibilização dos dados –>Exemplo –> Leia-me.pdf
    A ESTRATÉGIA
      • Etapa 1 –> Disponibilização dos dados –>Exemplo –> ASCII (dados brutos)
    A ESTRATÉGIA
      • Etapa 1 –> Disponibilização dos dados –>Exemplo –> Arquivo de Leitura
    A ESTRATÉGIA
      • Etapa 1 –> Carga dos dados –> DEAR(Siqueira,2009)
    A ESTRATÉGIA
      • Etapa 1 –> Carga dos dados –> Dados Carregados no PostgreSQL
    A ESTRATÉGIA
      • ETAPA 2 –> NORMALIZAÇÃO
        • Triplification é o processo pelo qual um banco de dados e sua estâncias são transformados em um conjunto de dados RDF. Isto é feito mapeando conceitos de bancos de dados para uma ontologia, para ser utilizado como base para se gerar as triplas RDF.(Salas et al,2010)
        • É pré-requisito um banco de dados normalizado para utilização das ferramentas TRIPLIFY e STDTRIP.
    A ESTRATÉGIA
      • Etapa 2 –> Normalização
    A ESTRATÉGIA
      • Etapa 2 –> 1º Modelo
    A ESTRATÉGIA
      • ETAPA 2 –> 1º MODELO –> RESULTADO
      • Ao aplicar a ferramenta STDTRIP a este modelo os resultados com relação a reutilização de termos das ontologias padrões da Web (ontologias em grande escala de uso) se mostrou ineficiente, isto evidenciou a superficialidade deste modelo, portanto seria necessário um modelo normalizado muito mais consistente para que o trabalho obtivesse o sucesso esperado.
    A ESTRATÉGIA
      • Etapa 2 –> 2º Modelo –> Analise
        • Docentes no pré-escolar com capacitação e 1º grau completo
        • Docentes de 1º a 4º série com capacitação e magistério completo
        • Docentes no 2º grau com magistério completo
    A ESTRATÉGIA
      • Etapa 2 –> 2º Modelo –> Analise -> Identificação de Padrões
        • Docentes no pré-escolar com capacitação e 1º grau completo
        • Docentes de 1º a 4º série com capacitação e magistério completo
        • Docentes no 2º grau com magistério completo
    A ESTRATÉGIA
      • Etapa 2 –> 2º Modelo –> Analise –> Exemplo Normalização
    A ESTRATÉGIA
      • Etapa 2 –> 2º Modelo –> Analise –> Modelo Final
    A ESTRATÉGIA
      • Etapa 3 –> Carga dos Dados –> Data Extractor PostgreSQL to MySQL(DEPOM)
    A ESTRATÉGIA
      • ETAPA 4 –> STDTRIP
        • A maioria das ferramentas de triplifying hoje dão apoio ao processo mecânico de transformação dos dados existentes. No entanto, nenhuma fornece suporte ao usuário durante a fase de modelagem conceitual.(Salas et al,2010)
        • A arquitetura do processo da STDTRIP se divide em 6 etapas seqüenciais: Conversion, Alignment, Selection, Inclusion, Completion e Output. Sendo que as etapas de Inclusion e Completion não são obrigatórias.
    A ESTRATÉGIA
      • Etapa 4 –> STDTRIP –> Arquitetura(Conversion, Alignment, Selection)
    A ESTRATÉGIA
      • Etapa 4 –> STDTRIP –> Resultados
    A ESTRATÉGIA
      • ETAPA 5 –> TRIPLIFY
        • A ferramenta TRIPLIFY tem como objetivo explorar a estrutura de dados em bancos de dados relacionais utilizados em aplicações Web, para criar representações semânticas na Web. A maioria das aplicações Web possuem banco de dados relacionais, porem estes dados não estão disponíveis para pesquisa nos motores de busca ou outras aplicações semânticas.(Baldus, 2011)
    A ESTRATÉGIA
      • Etapa 5 –> TRIPLIFY –> Aplicação e Resultados
        • Após a execução da ferramenta TRIPLIFY, a mesma gerou um arquivo RDF de 1.1 gigabytes.
    A ESTRATÉGIA
      • Etapa 6 –> OPENLINK VIRTUOSO
        • OPENLINK VIRTUOSO é um middleware e sistema gerenciador de banco de dados que combina a funcionalidades de um banco de dados convencional com banco de dados RDF e pode ser utilizado como um servidor de aplicação para serviços Web e oferece um interface Web para consultas em SPARQL, normalmente chamado de SPARQLEndPoint. .(LinkedDataBR, 2011)
    A ESTRATÉGIA
      • Etapa 6 –> OPENLINK VIRTUOSO –> Utilização e Resultados
        • Para carga do arquivo RDF com as triplas geradas na etapa 5, foi
        • utilizado o modulo "isql" do OPENLINK VIRTUOSO, que oferece uma interface Web para execução de comandos.
    A ESTRATÉGIA
      • Etapa 6 –> OPENLINK VIRTUOSO –> Lista das Classes Carregadas
    A ESTRATÉGIA
          • e ae? e ae?
    A ESTRATÉGIA
      • CONTRIBUIÇÕES
        • Desenvolvimento da ferramenta DEPOM de extração e carga de dados.
        • Objetivo principal foi conceber, implementar e demonstrar a estratégia de publicação dos dados do CEB do ano de 1995 no padrão Linked Open Data. Através dos resultados positivos deste trabalho houve a oportunidade de apresentá-los a uma equipe de TI do INEP.
        • Oportunidades de cooperação entre o CPCX/UFMS com a PUC-Rio.
        • Oportunidade de amadurecimento acadêmico, pois neste trabalho foi possível pesquisar e enriquecer o conhecimento adquirido durante a graduação e no projeto de iniciação cientifica e gerar conhecimento.
    CONCLUSÃO
      • Dificuldades Encontradas
        • Tamanho da base de dados
        • Tradução dos nomes das entidades e atributos do modelo de banco de dados normalizado criado
        • Trabalho a distância
    CONCLUSÃO
      • Trabalhos Futuros
        • Estender este trabalho aos outros anos da base de dados do CEB.
        • Estudar outras estratégias de publicação de dados no formato Linked Open Data.
        • Criação de Marshups, que são aplicações Web que produzem informações aos usuários utilizando dados de fontes distintas.
    CONCLUSÃO
      • (Baldus, 2011) Baldus, Luís Henrique Sirtoli. 2011. Estratégia para publicação de dados governamentais abertos no padrão linked data. Monografia apresentada ao Curso de Pós-Graduação Lato Sensu, Especialização em Banco de Dados da UFMT.
      • (Berners-Lee & Hendler, 2001) Berners-Lee, T., & Hendler, J. 2001. Scientific publishing on the semantic seb. Nature 410, 1023 - 1024Abril, 2001. Disponível em: http://www.nature.com/nature/debates/e-access/Articles/bernerslee.htm. Acesso em: 21 dez. 2010.
      • (Breitman, 2005) Breitman, K. K. 2005. Web semântica: a internet do futuro. Rio de Janeiro: LTC.
      • (Breitman et al, 2010) Breitman, K. K., Filho, J. V., & Salas, P. E. R. 2010. Publicação e uso de dados governamentais abertos. Mini curso. Escola Regional de Informática. Cuiabá. UFMT.
      • (Cantele, 2009) Cantele, R. C. 2009. Construindo ontologias a partir de recursos existentes: uma prova de conceito no domínio da educacão. São Paulo: USP, 2009. 226 p. Tese (Doutorado em Engenharia Elétrica) - Escola Politécnica da Universidade de São Paulo. Departamento de Engenharia de Computação e Sistemas Digitais, São Paulo.
      • (Eaves, 2009) Eaves, D. 2009. The three laws of open government data. Disponível em: http://eaves.ca/2009/09/30/three-law-of-open-government-data/. Acesso em 01 Junho 2011.
      • (INEP, 2011) INEP. 2011. Instituto nacional de estudos e pesquisas educacionais. Disponível em: www.inep.gov.br. Acesso em 01 junho 2011.
      • (LinkedDataBR, 2011) LinkedDataBR, G. T. 2011. Exposição, compartilhamento e conexão de recursos de dados abertos na web. Tech. rept. RNP.
      • (Oliveira, 2002) Oliveira, R. M. V. B. 2002. Web semântica: Novo desafio para os profissionais da informação. Disponível em: www.sibi.ufrj.br/snbu/snbu2002/oralpdf/124.a.pdf. Acesso em 01 junho 2011.
      • (Rigotti, 2001) Rigotti, C. A. C. I. R. 2001. As bases de dados do inep e os indicadores educacionais: conceitos e aplicações. In: Proceedings of the international union for scientific study of population.
      • (Salas et al, 2010a) Salas, P. E., Breitman, K. K., Casanova, M. A., & Viterbo, J. 2010a. Stdtrip: An a priori design approach and process for publishing open government data.
      • (Salas et al, 2010b) Salas, P. E. R., Breitman, K. K., Filho, J. V., & Casanova, M. A. 2010b. Interoperability by design using the stdtrip tool: An a priori approach.
      • (Siqueira, 2009) Siqueira, T. 2009. Sb-index: Um Indice espacial baseado em bitmap para data warehouse geográfico. M.Phil. thesis, UFSCar.
      • (W3C, 2011) W3C. 2011. Consórcio world wide web. Disponível em: http://www.w3c.br/Home/WebHome. Acesso em 01 junho 2011.
    REFERÊNCIAS
      • Orientadora Profa Ma. Karen kiomi Nakazato
      • Coorientador Prof. Dr. Marcelo Augusto dos Santos Turine
      • Equipe de Web semântica da PUC-Rio
        • Prof. Me. Percy Enrique Rivera Salas
        • Profa. Dra. Karin Breitman
        • Prof. Dr. José Viterbo
      • Prof. Dr. Gedson faria
      • Prof. Ma. Leila Lisiane Rossi
    AGRADECIMENTOS