Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Workshop sobre algumas funcionalidades do Open Refine

310 views

Published on

O OpenRefine é um software livre alternativo ao Microsoft Excel e ao Libre Office, é utilizado para tratamento de dados em modo planilha e utiliza de uma interface web para processar os dados.

A diferença deste software para os outros está além do visual, nas funcionalidades e opções de tratamento de dados.

Este Workshop realizado pelo professor pesquisador Marcel Ferrante no Labicom - UFG, esclarece algumas funcionalidades deste software.

Published in: Data & Analytics
  • Be the first to comment

  • Be the first to like this

Workshop sobre algumas funcionalidades do Open Refine

  1. 1. Open Refine Gestão da Informação / UFG Contatos: marcelf@gmail.com Link: marcelferrante.com.br/openrefine.pdf Adaptado de Training the Trainers for Linked Data Seth van Hooland, Ruben Verborgh http://dcevents.dublincore.org/IntConf/dc-2015/paper/view/403/435
  2. 2. Workshop Tratamento e manipulação de dados Open Refine Gestão da Informação UFG
  3. 3. { } Gestão da Informação / UFG O que é e para que serve? • OpenRefine (anteriormente Google Refine) é uma ferramenta poderosa para trabalhar com dados desorganizados • Serve para: • Limpar, corrigir, clusterizar, filtrar, navegar pelo dados • Transformar em um formato para outro • Estender os dados com serviços de web • Relacionar com bases de dados como Freebase
  4. 4. { } Gestão da Informação / UFG Historia • Foi lançado em 2010 • É fruto da aquisição da empresa Metaweb que tinha o software Freebase Gridworks que foi renomeado • Posteriormente foi transformado em um software livre e renomeado para
  5. 5. { } Gestão da Informação / UFG Instalação Baixar o software: http://openrefine.org/download.html Descompacte e clique para rodar
  6. 6. { } Gestão da Informação / UFG Alocação de memória para maior desempenho  Windows : open openrefine.l4j.ini file, find the line that starts with - Xmx and override the default allocated memory of 1024M with for example 2048 M  Mac : close Refine, hold control and click on its icon, selecting Show package contents from the pop-up menu. Open the info. plist file from the Contents folder. Navigate to the Java settings and edit the value of VMOptions. Look for the part that starts with -Xmx and change its default value of 1024 M to the desired amount of memory  Linux: instead of starting OpenRefine with ./refine as you usually would do, just type in ./refine -m 2048M  APOS ALTERAR FECHE E REINICIE
  7. 7. { } Gestão da Informação / UFG Importar dataset Conjuntos de dados:  http://book.freeyourmetadata.org/chapters/3/powerhouse- museum.tsv  http://book.freeyourmetadata.org/chapters/4/british-library.csv
  8. 8. { } Gestão da Informação / UFG Importar dataset
  9. 9. { } Gestão da Informação / UFG Criar Projeto
  10. 10. { } Gestão da Informação / UFG Criar Projeto
  11. 11. { } Gestão da Informação / UFG Descrição da Interface
  12. 12. { } Gestão da Informação / UFG Filtros  Permite que você digite algo para buscar os registros que contem aquela string naquele campo
  13. 13. { } Gestão da Informação / UFG Facetas  Voce seleciona uma faixa de valores em Numeric Facet
  14. 14. { } Gestão da Informação / UFG Facetas  Voce seleciona uma opção em Text Facet para filtrar
  15. 15. { } Gestão da Informação / UFG Facetas  Clique para ordenar por count  Isso permite que você descuba quais são as opções mais usadas  Pode ser para fazer algumas inferências
  16. 16. { } Gestão da Informação / UFG Campos com multipos valores  Veja que a faceta de Categorias não está fazendo muito sentido (parece embaralhada). Isso é porque é um campo com múltiplos valores.  Campos com multipos valores (geralmente separados por um delimitado como virgulas) que podem ser desmebrados com o recurso abaixo.
  17. 17. { } Gestão da Informação / UFG Campos com multipos valores  Existem campos com multipos valores (geralmente separados por um delimitado como virgulas) que podem ser desmebrados com o recurso abaixo  Note que a quantidade de registros duplicou e que linha em branco foram adicionada: esse é a forma com que é tratado registro com múltiplos valores
  18. 18. { } Gestão da Informação / UFG Modo records  Para continuar vendo os registros, clique em ver no Modo records. O numero de registro deve ser o mesmo do que estava anteriormente
  19. 19. { } Gestão da Informação / UFG Limpando os dados  Carregue phm-collection.tsv, crie um novo projeto e depois uma faceta numérica  Veja que tem 118 registros em branco
  20. 20. { } Gestão da Informação / UFG Limpando os dados  Remova todos os registros em branco
  21. 21. { } Gestão da Informação / UFG Limpando os dados  Remova todos os registros em branco
  22. 22. { } Gestão da Informação / UFG Facetas customizadas Um exemplo é a faceta de tamanho do texto.
  23. 23. { } Gestão da Informação / UFG Limpando os dados Removendo registros com error
  24. 24. { } Gestão da Informação / UFG Limpando os dados Removendo registros com error
  25. 25. { } Gestão da Informação / UFG Contraindo as colunas
  26. 26. { } Gestão da Informação / UFG Clusterizando Mescle categorias com variações na escrita
  27. 27. { } Gestão da Informação / UFG Reconciliação dos dados Reconciliação dos dados permite que vincular e validar as categorias com uma outra fonte que pode ser: uma fonte externa um arquivo
  28. 28. { } Gestão da Informação / UFG RDF Refine  Baixar extensão: http://refine.deri.ie/  Certifique-se de "extensões" existe pasta no seu Google Refine  Baixe a extensão  Extraia o arquivo zip baixado para a pasta "extensões"  Reinicie o Google Refine
  29. 29. { } Gestão da Informação / UFG Reconciliação dos dados
  30. 30. { } Gestão da Informação / UFG Reconciliação dos dados
  31. 31. { } Gestão da Informação / UFG Reconciliação dos dados
  32. 32. { } Gestão da Informação / UFG Reconciliação dos dados
  33. 33. { } Gestão da Informação / UFG Reconciliação dos dados
  34. 34. { } Gestão da Informação / UFG Importar dataset em CSV  Conjuntos de dados: http://book.freeyourmetadata.org/chapters/3/powerhouse- museum.tsv http://book.freeyourmetadata.org/chapters/4/british-library.csv
  35. 35. { } Gestão da Informação / UFG Importar dataset em CSV
  36. 36. { } Gestão da Informação / UFG Importar dataset em CSV
  37. 37. { } Gestão da Informação / UFG Carregar em uma biblioteca digital Após o tratamento dos dados, o objetivo é usar os metadados em um biblioteca digital Será o utilizado o tainacan para exemplificar o processo Acessar tainacan.gi.fic.ufg.br Criar uma coleção, facetas e importar o arquivo
  38. 38. { } Gestão da Informação / UFG Importar CSV
  39. 39. { } Gestão da Informação / UFG Importar CSV
  40. 40. { } Gestão da Informação / UFG Importar CSV
  41. 41. { } Gestão da Informação / UFG Importar CSV

×