Elasticsearch a quick introduction

Elasticsearch
federico.panini@fazland.com - CTO
Federico Panini
CTO @ fazland.com
email : federico.panini@fazland.com
linkeIn : https://uk.linkedin.com/in/federicopanini
slides : http://www.slideshare.net/FedericoPanini

Cos’è Elasticsearch ?
motore di ricerca full text
“Un motore di ricerca (in inglese search engine) è un
sistema automatico che, su richiesta, analizza un insieme di
dati (spesso da esso stesso raccolti) e restituisce un indice
dei contenuti disponibili classiﬁcandoli in modo automatico
in base a formule statistico-matematiche che ne indichino il
grado di rilevanza data una determinata chiave di ricerca”.

“It’s a distributed, scalable, and highly available
Real-time search and analytics software.”

caratteristiche
Dati disponibili real-time
Analisi dei dati real-time
Ambiente distribuito
Alta disponibilità
Ricerche full-text
Document oriented DB
Schemaless DB
RESTFul Api
Persistenza per-operazione
Open Source
Costruito su Apache Lucene
Optimistic version control

Apache Lucene #1
E’ il cuore pulsante di Elasticsearch
Lucene è il motore di ricerca di Elasticsearch

Apache Lucene #1
E’ scritto in Java
E’ un prodotto Apache foundation quindi open source

Elastic cosa ha in più di Lucene?
ricerche full text
horizontal scaling
high availability
Semplicità d’uso
near real time

Architettura
requirements - CPU
Per sua natura elasticsearch non necessita di molte
capacità “computazionali”. In generale l’utilizzo della CPU
è molto limitato.
E’ consigliato utilizzare un modello di CPU di ultima
generazione con più di un core.
In genere installazioni standard di ES utilizzano dai 2 agli 8
cores.

Architettura
requirements - Disco
L’utilizzo del disco è importante per tutte le tipologie di
cluster, nel nostro caso è fondamentale.
E’ consigliato utilizzare dischi SSD.

Architettura
requirements - Disco - bonus slide …
Unico punto di attenzione è sullo scheduler in uso dal sistema
operativo. Lo scheduler è lo strumento che i sistemi operativi *nix
utilizzano per decidere quando i dati devono essere inviati al disco e
con quale tipo di priorità. Normalmente le installazioni di unix
utilizzano cfq, che è uno scheduler ottimizzato per i dischi classici a
“piatti rotanti”. Se si implementano dischi SSD è consigliato utilizzare
“noop” o “deadline”, scheduler ottimizzati per questa tipologia di
hard disk.
Si riescono a raggiungere miglioramenti nelle prestazioni di 500x
rispetto ad una errata conﬁgurazione del Sistema operativo.

Architettura
Sistema Operativo
Non ci sono particolari
vincoli sul sistema operativo
in quanto ES è sviluppato in
Java, quindi potenzialmente
multipiattaforma. Il consiglio
è di utilizzare l’ultima
versione disponibile della
JDK.

Architettura
requirements - RAM
Elasticsearch è un divoratore di RAM !!!
https://www.elastic.co/guide/en/elasticsearch/guide/current/
heap-sizing.html

Architettura
memory !?!?
max 64GB di ram
max 32GB per Java
consigliato l’uso in parallelo di macchine, conﬁgurate 
in cluster.

Architettura
installazione
curl -L -O http://download.elasticsearch.org/PATH/TO/
VERSION.zip
unzip elasticsearch-$VERSION.zip
cd elasticsearch-$VERSION
sono disponibili distribuzioni Debian o RPM packages
oltre a moduli chef e puppet.

Java based
elastic questo sconosciuto
Elasticsearch è sviluppato in Java
Robusto
Scalabile
Multipiattaforma

Comunicare con Elastic
clients Java #1
Per Java sono disponibili 2 client:
Node client: con questo tipo di
approccio il client fa una join al cluster
come “nodo non contenente dati”, il
nodo in se non ha dati ma sa
perfettamente su quale nodo del
cluster si trovano i dati che sta
cercando

clients Java #2
Transport client : è molto più “snello”
del precedente ed è lo strumento
utilizzato per comunicare con cluster
in remoto.

clients Java #2
Tutti e due i tipi di client comunicano con
il cluster sulla porta 9300, che tra l’altro
la stessa porta con la quale comunicano
i nodi stessi del cluster.

client API RESTful
Tutti gli altri linguaggi possono comunicare
con Elasticsearch utilizzando le API Rest
disponibili sulla porta 9200.
Esistono client ufﬁciale per questi
linguaggi :
Groovy, JavaScript, .NET, PHP,
Perl, Python, e Ruby

Elastic
Document oriented
NoSql
Elasticsearch è un database
document oriented. Questo
signiﬁca che i dati inseriti non
sono “costretti” a nessun tipo di
forma tabellare ma è possibile
inserire oggetti o meglio
documenti direttamente.
A seguito dell’inserimento,
Elasticsearch provvede anche ad
indicizzare i dati appena inseriti.

Elastic
Document oriented
JSON
E l a s t i c s e a rc h s t e r i l i z z a i
documenti inseriti tramite
l’utilizzo di JSON.

Elastic
glossario
cluster
nodes
indexes
shards
replica
segments
in-memory buffers
translog

Elastic
cluster
Un cluster è un insieme a cui appartiene uno o più
nodi, che condividono la stessa proprietà
cluster.name. Il cluster server per bilanciare il carico
delle richieste che provengono ad Elasticsearch.
Un nodo può essere eliminato o aggiunto al cluster,
questo sarà responsabile di riorganizzarsi.

Elastic
cluster
All’interno del cluster un nodo è eletto come Master.
Questo nodo è responsabile di gestire operazioni
sugli indici come la loro creazione o eliminazione,
aggiungere o rimuovere un nodo dal cluster. Ogni
nodo può essere Master.

Elastic
nodes
E’ l’elemento minimo che garantisce il funzionamento
dell’istanza di Elasticsearch.

Elastic
Index
Database RDBMS Elasticsearch
DATABASE INDEX

Elastic
Type
TABELLA TYPE

Elastic
Document
ROW DOCUMENT

Elastic
Fields
COLUMNS FIELDS

Elastic
shards
Se vogliamo iniziare a salvare dati su Elasticsearch è
necessario creare un indice. Il termine Indice è solamente
una deﬁnizione logica e rappresenta un puntatore ad uno
o più elementi deﬁniti SHARDS.

Elastic
shards
Lo shard è considerato un elemento di basso livello
nell’infrastruttura di ES. Lo shard contiene un subset di
tutti i dati contenuti nell’indice.
Lo shard, ﬁsicamente rappresenta una singola istanza di
Apache Lucene.

Elastic
Replica shards
Gli shards di tipo replica sono delle copie esatte degli
shards utilizzate per proteggere i nostri dati da errori
hardware. Allo stesso modo degli shards “servono”
richieste e ricerche sugli indici.

Elastic
shards immutability
IL numero di shards è prestabilito all’atto della creazione
dell’indice ed è IMMUTABILE.

Elastic
shards immutability
curl -X http://localhost:9200/blogs
-d ‘{
"settings" : {
"number_of_shards" : 3,
"number_of_replicas" : 1
}
}’

Elastic
shards immutability
curl http://localhost:9200/_cluster/health“{
"cluster_name": "elasticsearch",
"status": "yellow",
"timed_out": false,
"number_of_nodes": 1,
"number_of_data_nodes": 1,
"active_primary_shards": 3,
"active_shards": 3,
"relocating_shards": 0,
"initializing_shards": 0,
"unassigned_shards": 3
}”

Elastic
shards immutability
Shards di tipo replica sullo stesso nodo sono
assolutamente inutili… perde di ogni signiﬁcato il
concetto di ridondanza per il quale sono stati creati. E’
necessario eseguire un nuovo nodo. In automatico il
cluster si renderà responsabile di creare 3 replica shards
per il nostro indice.

Elastic
BONUS : gestione dei conflitti #1

Elastic
BONUS : gestione dei conflitti #2 : Pessimistic Concurrency Control
Gestito ed utilizzato normalmente nei RDBMS
Questo approccio parte dall’assunto che i conﬂitti
possano avvenire di frequente e quindi per evitarli blocca
la risorsa alla quale sta accedendo.
Il processo blocca l’accesso alla row prima di accedere ai
suoi dati in lettura, avendo così la garanzia che solamente
questo thread possa modiﬁcarla e nessun altro.
Al termine dell’operazione rilascerà il LOCK.

Elastic
BONUS : gestione dei conflitti #3 : Optimistic Concurrency Control
Elasticsearch utilizza questo approccio
Al contrario l’assunzione, è che i conﬂitti avvengano poco
di frequente. E quindi il DB non blocca la risorsa quando
vi accede.
La responsabilità è applicativa : quando i dati sono
modiﬁcati tra una lettura ed una scrittura allora
l’aggiornamento fallisce. In questo caso è necessario
recuperare il dato “fresco” e rifarne l’update.

Elastic
Elasticsearch è per sua natura distribuito, concorrente ed
asincrono. Quando un documento è creato/aggiornato/
eliminato è necessario che questa informazine sia
replicata su tutti i nodi del cluster.
Ogni informazione è inviata ai vari nodi in parallelo e può
succedere che un dato arrivi a destinazione già scaduto.

Elastic
E’ necessario che Elasticsearch abbia un
modo per non aggiornare un dato più
“aggiornato”.

Elastic
VERSIONING

Elastic
In ogni documento è presente un campo :
_version
Questo campo è incrementato ogni volta che un
operazione sul documento è avvenuta con successo. In
questo modo un aggiornamento della versione 3 non
andrà mai ad aggiornare un document che è già alla
versione 4.

Elastic
Attenzione la responsabilità di implementare questa
soluzione è tutta APPLICATIVA! quindi nostra. Se
vogliamo essere assolutamente sicuri di non avere perdite
di dati dobbiamo effettuare scritture utilizzando il version
number del documento che vogliamo aggiornare!

Elastic
http://www.jillesvangurp.com/2014/12/03/optimistic-
locking-for-updates-in-elasticsearch/
https://aphyr.com/posts/317-call-me-maybe-
elasticsearch
https://www.elastic.co/guide/en/elasticsearch/resiliency/
current/index.html

Elastic
Simple searches #1
Create Index
API Rest
GET
DELETE
POST
SEARCH

Elastic
Simple searches - CREATE AN INDEX
curl -XPUT http://fazlab.fazland.com:9200/fazlab
-d
"{ "settings" :
{
"number_of_shards" : 3,
"number_of_replicas" : 1
}
}"

Elastic
Simple searches - INDEX A DOCUMENT
curl -XPUT
http://fazlab.fazland.com:9200/fazlab/categories/1?pretty
-d '
{
nome: "Federico"
}'

Elastic
Simple searches - GET A DOCUMENT
curl http://fazlab.fazland.com:9200/fazlab/categories/1?pretty

Elastic
Simple searches - DELETE A DOCUMENT
curl -XDELETE
http://fazlab.fazland.com:9200/fazlab/categories/2?pretty

Elastic
Simple searches #1
DEMO SEARCHES!

Elastic
mapping and analysis
EXACT MATCH vs FULL TEXT

Elastic
Exact match Full Text
where name = ‘Federico’
and user_id = 2
and date > “2014-09-15”
“Federico è andato al
mare”
Federico / FEDERICO /
federico

Elastic
Exact match
Full Text
binario : il documento contiene questi valori ?
Quanto è rilevante il documento per la query
digitata ?

Elastic
Elasticsearch per facilitare la ricerca full-text analizza il
testo ed utilizza il risultato di questa analisi per costruire
un inverted index.
Inverted Index Analyzer

Elastic
Inverted Index
1. The quick brown fox jumped
over the lazy dog
2. Quick brown foxes leap over
lazy dogs in summer

Elastic
Inverted Index
Se dobbiamo cercare la parola
“quick” e “brown” prendiamo i
documenti dove sono presenti
entrambe i termini
over the lazy dog
lazy dogs in summer

Elastic
Inverted Index
E’ stato portato tutto in lowercase,
stemmer, e synonyms (leap)
over the lazy dog
lazy dogs in summer

Elastic
ANALYZERS
Un Analyzer è un elemento che include 3 funzioni:
Character ﬁlters
Tokenizer
Token Filters

Elastic
ANALYZERS - Character Filters
Il primo step è passare ogni stringa ad un character ﬁlter
il quale è responsabile di ripulire / riordinare le string
prima della fase di Tokenizing.
in questa fase vengono eliminati i caratteri HTML o “&” è
convertito in “and”.

Elastic
ANALYZERS - Tokenizer
Successivamente la stringa è suddivisa in singoli termini
in funzione del Tokenizer selezionato.

Elastic
ANALYZERS - Token Filters
Successivamente alla fase di Tokenizzazione delle
stringhe in singoli termini (terms), i ﬁltri (selezionati) sono
applicati in sequenza.
Per esempio :
- lowercase di tutto il testo
- rimuovi le stop words
- aggiungi termini come sinonimi

Elastic
Standard Analyzer
“Set the shape to semi-transparent by calling
set_trans(5)”
Lo standard analyzer è l’analyzer di default di
Elasticsearch. Separa il testo in singole parole e
rimuove buona parte della punteggiatura.
“set, the, shape, to, semi, transparent, by, calling,
set_trans, 5”

Elastic
Simple Analyzer
set_trans(5)”
Il simple analyzer rimuove tutti i caratteri che non sono
lettere e mette tutto il testo in minuscolo.
“set, the, shape, to, semi, transparent, by, calling,
set, trans”

Elastic
Whitespace Analyzer
set_trans(5)”
Tokenizza utilizzando gli spazi e non forze le stringhe in
minuscolo.
“Set, the, shape, to, semi, transparent, by, calling,
set_trans(5)”

Elastic
Language Analyzer
set_trans(5)”
Questo analyzer utilizza le speciﬁcità del linguaggio
naturale. Può eliminare le stop words e fare stemming.
“set, shape, semi, transpar, call, set_tran, 5”

Elastic
Language Analyzer
arabic, armenian, basque, brazilian, bulgarian, catalan,
chinese, cjk, czech, danish, dutch, english, ﬁnnish,
french, galician, german, greek, hindi, hungarian,
indonesian, irish, italian, latvian, norwegian, persian,
portuguese, romanian, russian, sorani, spanish,
swedish, turkish, thai.

Elastic
Pre-built Analyzers
Standard Analyzer
Simple Analyzer
Whitespace Analyzer
Stop Analyzer
Keyword Analyzer
Pattern Analyzer
Language Analyzers
Snowball Analyzer
Custom Analyzer

Elastic
Tokenizer
Standard Tokenizer
Edge NGram Tokenizer
Keyword Tokenizer
Letter Tokenizer
Lowercase Tokenizer
NGram Tokenizer
Whitespace Tokenizer
Pattern Tokenizer
UAX Email URL Tokenizer
Path Hierarchy Tokenizer

Elastic
Token Filters
Standard Token Filter
ASCII Folding Token Filter
Length Token Filter
Lowercase Token Filter
NGram Token Filter
Edge NGram Token Filter
Porter Stem Token Filter
Shingle Token Filter
Stop Token Filter
…
circa 32 Filters

Elastic
Token Filters
THE END.

References
• Elasticsearch : The Deﬁnitive Guide
• https://en.wikipedia.org/wiki/Full_text_search
• https://www.elastic.co/guide/en/elasticsearch/guide/current/
hardware.html
• https://www.elastic.co/guide/en/elasticsearch/guide/current/
heap-sizing.html
• https://mtalavera.wordpress.com/2015/02/16/monitoring-with-
collectd-and-kibana/
• Fuzzy search : https://www.found.no/foundation/fuzzy-search/
• Phonetic-plugin : https://github.com/elastic/elasticsearch-
analysis-phonetic

Elasticsearch a quick introduction

Recommended

Recommended

More Related Content

Similar to Elasticsearch a quick introduction

Similar to Elasticsearch a quick introduction (20)

More from Federico Panini

More from Federico Panini (7)

Elasticsearch a quick introduction