Indexadores Distribuidos utilizando Hadoop

•Transferir como PPTX, PDF•

0 gostou•749 visualizações

Luís Bastião Silva

Tecnologia

Indexadores distribuídos utilizando Apache Hadoop Luís A. Bastião Silva Recuperação de informação

Agenda Enquadramento Lucene Hadoop HDFS MapReduce Implementações do Lucene distribuídas Conclusões

Enquadramento Aumento do volume de informação têm vindo a crescer Criação de motores de pesquisa Indexação Pesquisa Indexador versus Base de Dados relacional Necessidades de distribuir a indexação e pesquisa por vários sistemas computacionais Enquadramento Hadoop Lucene Conclusões LuceneDistribuido

Apache Lucene Projecto da ASF (Apache Software Fundation) Plataforma Open Source Interfaces de indexação e pesquisa bem definidos Pesquisa “full-text”, capacidade de filtragem, expressões booleanas, intervalos, etc. Capacidade de fazer “merge” de vários índices Útil para indexadores distribuídos Enquadramento Hadoop Lucene Conclusões LuceneDistribuido

ProjectoHadoop Hadoop: ASF + Open Source Motivação: criação de um sistema de ficheiros distribuído efectuar processamento nos vários nós do cluster Enquadramento Hadoop Lucene Conclusões LuceneDistribuido

ProjectoHadoop Subprojectos do Hadoop: Common HDSF MapReduce ZooKeeper Enquadramento Hadoop Lucene Conclusões LuceneDistribuido

HDFS: HadoopDistributed File System Sistema de ficheiros distribuídos Construído para grandes volumes de informação Blocos divididos em blocos de 64MB Redundância Orientado a “batchprocessing” e streaming ArquitecturaMaster/Slave Enquadramento Hadoop Lucene Conclusões LuceneDistribuido

HDFS - Arquitectura Enquadramento Hadoop Lucene Conclusões LuceneDistribuido

MapReduce Enquadramento Hadoop Lucene Conclusões LuceneDistribuido Modelo de programação Map “Shuffle” Reduce

LuceneDistribuido Discussão de diferentes abordagens Enquadramento Hadoop Lucene Conclusões LuceneDistribuido

Doug Cutting Approach Indicesdistribuidos pelos sistemas computacionais ArquitecturaMaster/Slaves Master: contém a localização dos vários indices Cada indice têm uma versão Enquadramento Hadoop Lucene Conclusões LuceneDistribuido

DistributedLucene Não utiliza o HDFS Utiliza mecanismos de IPC do Hadoop Segue os conceitos propostos por Doug Cutting Introduz o conceito do estado do indice: “uncommited”, “replicating” e “live” Actualizaçãobaseadaem “leasing” Enquadramento Hadoop Lucene Conclusões LuceneDistribuido

Distributed Index for Semantic Search Utilização do MapReduce Map: Parser dos documentos armazenados no sistema de ficheiros distribuído Redução: obter documentos que contém o mesmo termo Enquadramento Hadoop Lucene Conclusões LuceneDistribuido

Conclusões Mover processamento é preferível a mover dados Algumas implementações de Lucene distribuídos, contudo: Limitativas para o utilizador Ainda em fase beta de desenvolvimento Não existe standarização ao nível de indexação distribuída, não permitindo a criação de sinergias entre projectos. Hadoop revelou-se uma plataforma bastante estável Enquadramento Hadoop Lucene Conclusões LuceneDistribuido

Mais conteúdo relacionado

Semelhante a Indexadores Distribuidos utilizando Hadoop

Interoperabilidade com BigData Hadoop para Windows Azure

Alessandro Binhara

Apresentação na disciplina de Aplicações Distribuídas, no curso de Graduação em Sistemas de Informação, na PUC Minas no campus Barreiro. Relatório com informações valiosas para programadores que desejam conhecer o potencial da ferramenta para aplicações distribuídas Hadoop e seu algoritmo MapReduce. Acesse https://www.desenvolvedormatteus.com.br/ para conhecer as soluções da web disponíveis para seu negócio.

Apresentação em Aplicações Distribuídas – Hadoop MapReduce

Matteus Barbosa

Integrado Linux y Active Directory

jdavalos

Como são as ferramentas mais utilizadas do ecossistema do Hadoop. - Quem sou eu? - O que é um BigData? - Hadoop. - Hadoop Yanr | Apache Storm Fontes de informação: Fontes de integração: - Flume | Kafka | Sqoop Camadas de armazenamento: - HDFS | Hive - HBase - Cassandra Camadas de processamento: - Hadoop - MapReduce Ferramentas de busca: - Solr Camada de análise: - Pig | Apache Spark | GraphX | SparkMLLib Ferramentas de análise: - Apache mahout Ferramentas de administração: - Apache ambari | Oozie Ferramentas de diagnóstico: - Zookeeper Ecossistema do Apache Hadoop Conclusões Dúvidas? Contatos Agradecimento

Bigdata - compreendendo Hadoop e seu ecossistema.

Natalia Raythz

Arquitetura do Framework Apache Hadoop 2.6

Felipe Schimith Batista

Oficina online para compartilhamento de experiências no uso do DSPACE: BIREME

ComunidadRedDes

Interoperabilidade, Normas, Diretrizes e Qualidade dos Repositórios - José ca...

josekarvalho

BrunoSQLSat 469

Bruno Feldman da Costa

SQL Saturday 570 - São Paulo - 2016

Rodrigo Dornel

Instalando arquitetura Lambda com Graphx e Elasticsearch 2.0 em uma aplicação...

tdc-globalcode

Sistemas distribuidos - Hadoop

renanaugusto18

Instanciando a Arquitetura Lambda com GraphX e Elasticsearch 2.0 em uma apl...

Luiz Henrique Zambom Santana

Tecnologias para bibliotecas

Anderson Santana

Um LCMS

Lanylldo Araujo

CBIE WRE Lanylldo

Lanylldo Araujo

7masters - DevOps - Aplicações e Infra Estrutura Escaláveis na AWS

iMasters

Oficina 1 Confoa 2013 - Parte 3 - Interoperabilidade e repositórios - josé c...

Conferência Luso-Brasileira de Ciência Aberta

Integrando FreeBSD com Active Directory e OpenLDAP

elliando dias

Ebook Apache Server: Guia Introdutório

Fernando Palma

NoSQL

Andre Danelon

Semelhante a Indexadores Distribuidos utilizando Hadoop (20)

Interoperabilidade com BigData Hadoop para Windows Azure

Apresentação em Aplicações Distribuídas – Hadoop MapReduce

Integrado Linux y Active Directory

Bigdata - compreendendo Hadoop e seu ecossistema.

Arquitetura do Framework Apache Hadoop 2.6

Oficina online para compartilhamento de experiências no uso do DSPACE: BIREME

Interoperabilidade, Normas, Diretrizes e Qualidade dos Repositórios - José ca...

BrunoSQLSat 469

SQL Saturday 570 - São Paulo - 2016

Instalando arquitetura Lambda com Graphx e Elasticsearch 2.0 em uma aplicação...

Sistemas distribuidos - Hadoop

Instanciando a Arquitetura Lambda com GraphX e Elasticsearch 2.0 em uma apl...

Tecnologias para bibliotecas

Um LCMS

CBIE WRE Lanylldo

7masters - DevOps - Aplicações e Infra Estrutura Escaláveis na AWS

Oficina 1 Confoa 2013 - Parte 3 - Interoperabilidade e repositórios - josé c...

Integrando FreeBSD com Active Directory e OpenLDAP

Ebook Apache Server: Guia Introdutório

NoSQL

Último

Luís Kitota AWS Discovery Day Ka Solution.pdf

LuisKitota

Árvores binárias são uma das estruturas de dados mais fundamentais e poderosas na ciência da computação, essenciais para o entendimento e aplicação de algoritmos eficientes. Elas permitem operações de busca, inserção e remoção em tempos de execução competitivos, especialmente quando estão balanceadas. Uma árvore binária é uma estrutura de dados em que cada nó possui no máximo dois filhos, que são referenciados como subárvore esquerda e subárvore direita. Considerando os conceitos fundamentais de uma árvore binária, defina o conceito de PROFUNDIDADE de uma árvore binária e discuta como essa medida impacta as operações realizadas na estrutura.

ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx

2m Assessoria

Boas práticas de programação com Object Calisthenics

Danilo Pinotti

Padrões de Projeto: Proxy e Command com exemplo

Danilo Pinotti

A margem de contribuição é uma medida fundamental para entender a lucratividade de um produto, serviço, departamento ou da empresa como um todo. Ela representa o valor que sobra da receita depois de subtrair os custos e despesas variáveis associados à produção ou venda desse produto ou serviço. Essa quantia é chamada de "margem de contribuição" porque é a parte do dinheiro que efetivamente contribui para cobrir os custos fixos e gerar lucro. Fonte: FRAGALLI, Adriana Casavechia; CASTRO, Silvio Cesar de. Custos da Produção. Maringá - PR.: Unicesumar, 2022. Dado o contexto fornecido sobre os Margem de Contribuição dentro de uma empresa, é possível expandir a análise para que seja apurada de diferentes formas dentro de uma organizacional. Essas apurações podem ser (1) Global da Empresa, (2) Global de uma filial, (3) Divisão de Negócios, (4) Departamental, (5) Total por produto e (6) Unitário. Neste sentido, explique como cada uma dessas apurações consiste no contexto prático de margem de contribuição.

ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx

2m Assessoria

“Podemos definir redes de computadores como um conjunto de dispositivos que compartilham recursos físicos ou lógicos por intermédio de um meio de comunicação. A fim de que as redes (incluindo a internet) funcionem, troquem mensagens, deve haver regras, as quais foram estruturadas ao longo dos anos e são chamadas de protocolos.” Adriane Aparecida Loper e Cesar Augusto de Carvalho. Sistemas Distribuídos e Redes.. Maringá - PR: Unicesumar, 2021. pág.16. Pensando nos componentes que compõem as redes, defina: a) O que é um protocolo de comunicação. b) Quais são as camadas de rede do modelo OSI. c) Como são construídos os STP, UTP, coaxial e fibra óptica. d) As topologias do tipo barramento, estrela, anel e árvore.

ATIVIDADE 1 - SISTEMAS DISTRIBUÍDOS E REDES - 52_2024.docx

2m Assessoria

LOGÍSTICA EMPRESARIAL — ATIVIDADE DE ESTUDO 1 Olá, estudante! Iniciamos, agora, a Atividade 1. Prepare-se para colocar em prática os conceitos estudados durante a disciplina! Caso surjam dúvidas, não hesite em contatar os professores da disciplina. Desejamos sucesso na sua atividade! "A gestão da cadeia de abastecimento, também conhecida como Supply Chain Management, envolve as práticas gerenciais necessárias para que todas as empresas agreguem valor ao cliente ao longo de todo o processo, desde a fabricação dos materiais até a distribuição e entrega final dos bens e serviços (MARTINS; LAUGENI, 2015, p. 189). Essa abordagem busca integrar os diversos atores da cadeia, proporcionando uma visão abrangente e contínua de todo o processo produtivo, desde a aquisição da matéria-prima até a entrega ao cliente final. A evolução do supply chain culminou na concepção da cadeia logística integrada. a) Relacione as fases de evolução do Supply Chain Management, apresentando suas principais características. b) Descreva, de forma detalhada, o fluxo de informação da Logística Integrada. c) Quais estratégias as empresas podem adotar para integrar de forma eficaz a tecnologia da informação na cadeia logística?

ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx

2m Assessoria

No mundo digital atual, a informação é considerada uma das principais matérias-primas para o desenvolvimento econômico e social. Com a evolução tecnológica e a disseminação da internet, a quantidade de dados gerados e disponíveis diariamente cresce de forma exponencial. Nesse contexto, a gestão da informação assume um papel fundamental para as organizações, uma vez que permite a captação, armazenamento, processamento, análise e disseminação dos dados de forma estruturada e eficiente. Saes, Danillo Xavier. Gestão da Informação. Maringá-Pr.: UniCesumar, 2019. [Unidade I, p. 16 a 28] Para que possamos construir uma reflexão significativa sobre a gestão da informação no mundo organizacional, vamos realizar a presente atividade em 2 momentos. 1. Defina e diferencie: DADO, INFORMAÇÃO e CONHECIMENTO. 2. Faça uma reflexão sobre o uso da informação no contexto organizacional que está inserido na sociedade do conhecimento, destacando qual a relevância do uso das tecnologias digitais como apoio para a gestão da informação.

ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx

2m Assessoria

Programação Orientada a Objetos - 4 Pilares.pdf

SamaraLunas

Indexadores Distribuidos utilizando Hadoop

1. Indexadores distribuídos utilizando Apache Hadoop Luís A. Bastião Silva Recuperação de informação

2. Agenda Enquadramento Lucene Hadoop HDFS MapReduce Implementações do Lucene distribuídas Conclusões

3. Enquadramento Aumento do volume de informação têm vindo a crescer Criação de motores de pesquisa Indexação Pesquisa Indexador versus Base de Dados relacional Necessidades de distribuir a indexação e pesquisa por vários sistemas computacionais Enquadramento Hadoop Lucene Conclusões LuceneDistribuido

4. Apache Lucene Projecto da ASF (Apache Software Fundation) Plataforma Open Source Interfaces de indexação e pesquisa bem definidos Pesquisa “full-text”, capacidade de filtragem, expressões booleanas, intervalos, etc. Capacidade de fazer “merge” de vários índices Útil para indexadores distribuídos Enquadramento Hadoop Lucene Conclusões LuceneDistribuido

5. ProjectoHadoop Hadoop: ASF + Open Source Motivação: criação de um sistema de ficheiros distribuído efectuar processamento nos vários nós do cluster Enquadramento Hadoop Lucene Conclusões LuceneDistribuido

6. ProjectoHadoop Subprojectos do Hadoop: Common HDSF MapReduce ZooKeeper Enquadramento Hadoop Lucene Conclusões LuceneDistribuido

7. HDFS: HadoopDistributed File System Sistema de ficheiros distribuídos Construído para grandes volumes de informação Blocos divididos em blocos de 64MB Redundância Orientado a “batchprocessing” e streaming ArquitecturaMaster/Slave Enquadramento Hadoop Lucene Conclusões LuceneDistribuido

8. HDFS - Arquitectura Enquadramento Hadoop Lucene Conclusões LuceneDistribuido

9. MapReduce Enquadramento Hadoop Lucene Conclusões LuceneDistribuido Modelo de programação Map “Shuffle” Reduce

10. LuceneDistribuido Discussão de diferentes abordagens Enquadramento Hadoop Lucene Conclusões LuceneDistribuido

11. Doug Cutting Approach Indicesdistribuidos pelos sistemas computacionais ArquitecturaMaster/Slaves Master: contém a localização dos vários indices Cada indice têm uma versão Enquadramento Hadoop Lucene Conclusões LuceneDistribuido

12. DistributedLucene Não utiliza o HDFS Utiliza mecanismos de IPC do Hadoop Segue os conceitos propostos por Doug Cutting Introduz o conceito do estado do indice: “uncommited”, “replicating” e “live” Actualizaçãobaseadaem “leasing” Enquadramento Hadoop Lucene Conclusões LuceneDistribuido

13. Distributed Index for Semantic Search Utilização do MapReduce Map: Parser dos documentos armazenados no sistema de ficheiros distribuído Redução: obter documentos que contém o mesmo termo Enquadramento Hadoop Lucene Conclusões LuceneDistribuido

14. Conclusões Mover processamento é preferível a mover dados Algumas implementações de Lucene distribuídos, contudo: Limitativas para o utilizador Ainda em fase beta de desenvolvimento Não existe standarização ao nível de indexação distribuída, não permitindo a criação de sinergias entre projectos. Hadoop revelou-se uma plataforma bastante estável Enquadramento Hadoop Lucene Conclusões LuceneDistribuido

15. Questões?

Notas do Editor

Volume de dadosnos sistemas informáticos têm vindo a crescer substancialmente na última decada. Com tantos dados, torna-se importante ao utilizador poder extrair informação.Para isso surgiram motores de pesquisa, que permitem aos utilizadores extrair informação dos dados. Exisem dois processos diferentes na construção de um motor de pesquisa:Indexação dos dadosPesquisaUm sistema de indexação e pesquisa baseado em índice permite escalar a aplicação e fazer3ranking de informação relevante integrando várias fontes de dados como exemplos: email, webpages, ficheiros ou mesmo base de dados.
Projecto da ASF – Open SourceBiblioteca Interfaces bem definidos: indexação e pesquisa.Pesquisa fulltext, range etc.Capacidade de fazer merge de vários indices. Ex. PC1 indexa PC2 Indexa No final podemos ter um unicoindice.
ASF + OSSFrameworkMotivação: - criar um sistema ficheiros distribuidos - distribuir processamento nos vários nos do cluster, tirando partido do sistemas de ficheiros distribuidos.
Centramo nos HDFS e MapReduce
A fase de Map pode ser usada para carregar documentos do DFS

Indexadores Distribuidos utilizando Hadoop

Recomendados

Recomendados

Mais conteúdo relacionado

Semelhante a Indexadores Distribuidos utilizando Hadoop

Semelhante a Indexadores Distribuidos utilizando Hadoop (20)

Último

Último (9)

Indexadores Distribuidos utilizando Hadoop

Notas do Editor