• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Indexadores Distribuidos utilizando Hadoop
 

Indexadores Distribuidos utilizando Hadoop

on

  • 1,298 views

 

Statistics

Views

Total Views
1,298
Views on SlideShare
1,240
Embed Views
58

Actions

Likes
0
Downloads
24
Comments
0

2 Embeds 58

http://luisbastiao.wordpress.com 57
http://paper.li 1

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment
  • Volume de dadosnos sistemas informáticos têm vindo a crescer substancialmente na última decada. Com tantos dados, torna-se importante ao utilizador poder extrair informação.Para isso surgiram motores de pesquisa, que permitem aos utilizadores extrair informação dos dados. Exisem dois processos diferentes na construção de um motor de pesquisa:Indexação dos dadosPesquisaUm sistema de indexação e pesquisa baseado em índice permite escalar a aplicação e fazer3ranking de informação relevante integrando várias fontes de dados como exemplos: email, webpages, ficheiros ou mesmo base de dados.
  • Projecto da ASF – Open SourceBiblioteca Interfaces bem definidos: indexação e pesquisa.Pesquisa fulltext, range etc.Capacidade de fazer merge de vários indices. Ex. PC1 indexa PC2 Indexa No final podemos ter um unicoindice.
  • ASF + OSSFrameworkMotivação: - criar um sistema ficheiros distribuidos - distribuir processamento nos vários nos do cluster, tirando partido do sistemas de ficheiros distribuidos.
  • Centramo nos HDFS e MapReduce
  • A fase de Map pode ser usada para carregar documentos do DFS

Indexadores Distribuidos utilizando Hadoop Indexadores Distribuidos utilizando Hadoop Presentation Transcript

  • Indexadores distribuídos utilizando Apache Hadoop
    Luís A. Bastião Silva
    Recuperação de informação
  • Agenda
    Enquadramento
    Lucene
    Hadoop
    HDFS
    MapReduce
    Implementações do Lucene distribuídas
    Conclusões
  • Enquadramento
    Aumento do volume de informação têm vindo a crescer
    Criação de motores de pesquisa
    Indexação
    Pesquisa
    Indexador versus Base de Dados relacional
    Necessidades de distribuir a indexação e pesquisa por vários sistemas computacionais
    Enquadramento
    Hadoop
    Lucene
    Conclusões
    LuceneDistribuido
  • Apache Lucene
    Projecto da ASF (Apache Software Fundation)
    Plataforma Open Source
    Interfaces de indexação e pesquisa bem definidos
    Pesquisa “full-text”, capacidade de filtragem, expressões booleanas, intervalos, etc.
    Capacidade de fazer “merge” de vários índices
    Útil para indexadores distribuídos
    Enquadramento
    Hadoop
    Lucene
    Conclusões
    LuceneDistribuido
  • ProjectoHadoop
    Hadoop: ASF + Open Source
    Motivação:
    criação de um sistema de ficheiros distribuído
    efectuar processamento nos vários nós do cluster
    Enquadramento
    Hadoop
    Lucene
    Conclusões
    LuceneDistribuido
  • ProjectoHadoop
    Subprojectos do Hadoop:
    Common
    HDSF
    MapReduce
    ZooKeeper
    Enquadramento
    Hadoop
    Lucene
    Conclusões
    LuceneDistribuido
  • HDFS: HadoopDistributed File System
    Sistema de ficheiros distribuídos
    Construído para grandes volumes de informação
    Blocos divididos em blocos de 64MB
    Redundância
    Orientado a “batchprocessing” e streaming
    ArquitecturaMaster/Slave
    Enquadramento
    Hadoop
    Lucene
    Conclusões
    LuceneDistribuido
  • HDFS - Arquitectura
    Enquadramento
    Hadoop
    Lucene
    Conclusões
    LuceneDistribuido
  • MapReduce
    Enquadramento
    Hadoop
    Lucene
    Conclusões
    LuceneDistribuido
    Modelo de programação
    Map
    “Shuffle”
    Reduce
  • LuceneDistribuido
    Discussão de diferentes abordagens
    Enquadramento
    Hadoop
    Lucene
    Conclusões
    LuceneDistribuido
  • Doug Cutting Approach
    Indicesdistribuidos pelos sistemas computacionais
    ArquitecturaMaster/Slaves
    Master: contém a localização dos vários indices
    Cada indice têm uma versão
    Enquadramento
    Hadoop
    Lucene
    Conclusões
    LuceneDistribuido
  • DistributedLucene
    Não utiliza o HDFS
    Utiliza mecanismos de IPC do Hadoop
    Segue os conceitos propostos por Doug Cutting
    Introduz o conceito do estado do indice:
    “uncommited”, “replicating” e “live”
    Actualizaçãobaseadaem “leasing”
    Enquadramento
    Hadoop
    Lucene
    Conclusões
    LuceneDistribuido
  • Distributed Index for Semantic Search
    Utilização do MapReduce
    Map: Parser dos documentos armazenados no sistema de ficheiros distribuído
    Redução: obter documentos que contém o mesmo termo
    Enquadramento
    Hadoop
    Lucene
    Conclusões
    LuceneDistribuido
  • Conclusões
    Mover processamento é preferível a mover dados
    Algumas implementações de Lucene distribuídos, contudo:
    Limitativas para o utilizador
    Ainda em fase beta de desenvolvimento
    Não existe standarização ao nível de indexação distribuída, não permitindo a criação de sinergias entre projectos.
    Hadoop revelou-se uma plataforma bastante estável
    Enquadramento
    Hadoop
    Lucene
    Conclusões
    LuceneDistribuido
  • Questões?