Presentazione Nuvola Vertica Full

  • 173 views
Uploaded on

 

More in: Technology , Business
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
173
On Slideshare
0
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
2
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Presentazione Database VERTICA
  • 2. Introduzione a Vertica COS’E’ VERTICA: E’ l’innovativo database DBMS che garantisce elevate performance sull’analisi di grandi volumi di dati (unità di Terabyte) PERCHE’ VERTICA: E’ veloce, è semplice, e… costa poco!
  • 3. Per chi è pensato La grande esperienza del nostro gruppo ci ha portati ad individuare alcune aree critiche nei progetti dedicati ad aziende che hanno necessità di gestire grandi volumi di dati con tempi di risposta molto rapidi. Vertica nasce specificamente per soddisfare questo tipo di esigenze : Progetto a basso impatto sull’azienda Possibilità di analisi fino alla singola riga di dettaglio Ottenere rapidi tempi di risposta gestendo grandi volumi di dati Gestione di base dati delle dimensioni di TeraByte
  • 4. Posizionamento sul mercato
    • Kx KDB
    • Sybase IQ
    • Teradata
    • “ RAM” DBMSs
    • Postgres/EnterpriseDB
    • MySQL
    • Oracle
    • IBM DB2
    • Sybase ASE
    • Greenplum(Postgres)
    • Datallegro (Ingres)
    • Netezza (Postgres)
    • Microsoft SQLServer
    TCO (Costo di Possesso) Adatto allo scopo APPLICAZIONI TRANSAZIONALI ALTO BASSO APPLICAZIONI ANALITICHE
  • 5. Caratteristiche Value Value TECNOLOGIA “ COLUMN-ORIENTED” RISPOSTE 10-100 VOLTE MAGGIORI ELEVATA COMPRESSIONE DATI NECESSITA DI POCO SPAZIO INSTALLABILE SU HARDWARE LINUX GIA’ ESISTENTE IN AZIENDA PIATTAFORMA HARDWARE A BASSO IMPATTO ECONOMICO CARICAMENTO DATI CONTINUO REPORT SEMPRE AGGIORNATI INTERFACCIA SQL STANDARD RAPIDA INTEGRAZIONE E IMPLEMENTAZIONE DESIGN DEL DATABASE SEMPLICE ED EFFICIENTE BASSO COSTO DI MANUTENZIONE
  • 6. Architettura Nuvola è l’ottimizzazione dell’ interfaccia per Vertica , il database è comunque aperto all’interrogazione di altri strumenti di reportistica. Strumenti di Reporting Apps OLTP EDW Files Sistemi Sorgenti Extraction Transformation Loading ETL
  • 7. Analisi comparativa TCO Comparazione Costo Totale di Possesso (TCO) VS principali Competitors espresso in % 100 0 60 40 20 80 TCO % Oracle NTS IBM Teradata
  • 8. Alcune referenze di Vertica
  • 9. VERTICA PERFORMANCES
  • 10. 1/17/2007 1/17/2007 1/17/2007 1/17/2007 1/17/2007 1/17/2007 1/17/2007 1/17/2007 1/17/2007 1/17/2007 1/17/2007 1/17/2007 1/17/2007 1/17/2007 1/17/2007 1/17/2007 0000001 0000001 0000003 0000003 0000005 0000011 0000011 0000020 0000026 0000050 0000051 0000052 0000053 0000068 0000069 0000071 Data ID CLiente Trade Run-length Encoding (Pochi Valori, ordinati) 100.99 75.66 36.93 146.88 283.39 93.40 23.21 344.44 21.30 23.92 50.22 38.22 21.92 74.26 152.49 89.23 Delta Encoding (Molti Valori, ordinati) Float Compression (Molti Valori, disordinati) PERCHE’ E’ VELOCE Perché usare Vertica
  • 11. 1/17/2007, 16 Data ID CLiente Trade Run-length Encoding (Pochi Valori, ordinati) Delta Encoding (Molti Valori, ordinati) Float Compression (Molti Valori, disordinati) PERCHE’ E’ VELOCE ? 0000001 0 2 2 4 10 10 19 25 49 50 51 52 67 68 70 100.99 75.66 36.93 146.88 283.39 93.40 23.21 344.44 21.30 23.92 50.22 38.22 21.92 74.26 152.49 89.23
    • perchè sfrutta algoritmi
    • di compressione molto performanti
    • perché ogni dato viene letto una
    • sola volta per ogni occorrenza
    • perché i dati organizzati secondo
    • colonne mantengono lo stesso
    • formato
    Perché usare Vertica
  • 12.
    • Test:
      • Dimensioni DB: 600GB
      • 14 interrogazioni
      • 1 tabella, 200 colonne
    • Risultati di Vertica:
      • Tempo di caricamento 3 volte più veloce
      • Interrogazioni 214 volte più veloci
      • Immagazzina 1.5 anni nello stesso spazio in cui un normale sistema immagazzinerebbe 90 giorni di dati di vendita.
      • L’Hardware costa meno della metà
    Sommario Benchmark Telecom Datawarehouse proprietario Caricamento 2.4 ore 8 ore Dimensione DB 56 GB 948 GB Tempi di risposta 8.7 secondi 30 minuti e 57.0 secondi Costi Hardware $20,000 $48,000 $$ ??
  • 13. Analisi su Record di dettaglio telefonate
    • Customer Benchmark
    • Mobile Communications co
    • 21TB di dettaglio telefonate
    • Cluster di 5 nodi ognuno con:
    • 2x4-core CPUs
    • 8GB RAM
    • 7x146 GB HDDs
    • Risultati
    • tempo medio query: 3m 41s
    • tempo di caricamento: 58 ore
    • DIMENSIONE DB: 21TB
  • 14. Comparazione Vertica vs OLTP
    • Comparazione:
    • 1.5TB Record Dettaglio Telefonate
    • Vertica : 3- node cluster vs. OLTP DBMS on 24-vie server + SAN
    • Queries 60 volte più veloci
    • Compressione migliorata di 4 volte
    • 25 volte più veloce in fase di caricamento
    • 470.000£ in meno di Hardware
  • 15. VERTICA: OVERVIEW DI PRODOTTO
  • 16.
    • Architettura “Column-Oriented”
    • Elevata compressione dei dati
    • Ottimizzato per l’analisi
    • Sistema ibrido di lettura/scrittura dati
    • Design semplice ed efficace
    Caratteristiche
  • 17. Caratteristiche Tecniche
    • Ideale per intensi carichi di lavoro in lettura di dati
      • Riduce la I/O Bandwidth dei dischi
      • E.g.: SELECT avg(price)
      • FROM tickstore
      • WHERE symbol = ‘GM’ and date = ‘1/17/2008’
    GM NYASE NYAASE NYSE NYASE NGGYSE NYGGGSE NYSE NYSE NYSE 30.77 NYSE NYSE NYSE 1/17/08 GM NYASE NYAASE NYSE NYASE NGGYSE NYGGGSE NYSE NYSE NYSE 30.79 NYSE NYSE NYSE 1/17/08 AAPL NYASE NYAASE NYSE NYASE NGGYSE NYGGGSE NYSE NYSE NYSE 93.24 NYSE NYSE NYSE 1/17/08 GM NYASE NYAASE NYSE NYASE NGGYSE NYGGGSE NYSE NYSE NYSE 30.77 NYSE NYSE NYSE 1/17/08 Lettura per Righe Legge tutte le colonne 1/17/08 1/17/08 1/17/08 1/17/08 Lettura per Colonne Legge 3 colonne GM GM GM AAPL 30.77 30.77 30.79 93.24 NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS NYSE NYSE NYSE NQDS
  • 18. Caratteristiche Tecniche Relazione R: LOGICA FISICA … . . . A B C D E
    • Immagazzina dati come “Proiezioni”
      • Viste specifiche
      • Includono colonne ridondanti ordinate differentemente
    = colonne ordinate (A B C | A) A B C (B A C | B A) B A C (B D E | B) B D E
  • 19. Caratteristiche Tecniche (A B C | A) = colonne ordinate (B A C | B A)
    • Le proiezioni vengono suddivise in segmenti
      • Il numero di segmenti dipende dal numero di nodi; viene creato un segmento per ogni nodo
    A 3 B 3 C 3 A 1 B 1 C 1 A 2 B 2 C 2 A B C B 3 A 3 C 3 B 2 A 2 C 2 B 1 A 1 C 1 B A C
  • 20. Caratteristiche Tecniche
    • I segmenti vengono mappati in nodi per mantenere un livello ottimale di K-Safety
    • I segmenti ottimizzano ogni nodo per differenti carichi di lavoro in lettura
      • Ottimizzazione delle performances attraverso la ridondanza
      • E’ possibile mantenere più copie perchè i dati sono compressi
    A 3 B 3 C 3 A 2 B 2 C 2 A 1 B 1 C 1 B 1 A 1 C 1 B 2 A 2 C 2 B 3 A 3 C 3
  • 21. Caratteristiche Tecniche
    • Le colonne sono duplicate, in questo modo se una macchina smette di funzionare si ha sempre una copia disponibile
    • Immagazzina sufficienti proiezioni per la K-Safety
      • Ricostruisce gli oggetti perduti prelevandoli da altri nodi
    A 2 B 2 C 2 B 2 A 2 C 2 B 1 A 1 C 1 A 3 B 3 C 3 A 3 B 3 C 3 B 1 A 1 C 1 A 1 B 1 C 1 B 3 A 3 C 3
  • 22. Caratteristiche Tecniche
      • Trickle Load: Query executor legge da WOS come anche da ROS
    Architettura ibrida di storage (A B C | A) Trasferimento dati Asincrono TUPLE MOVER
    • Read-optimized Column Store (ROS)
    Disco: il dato è ordinato e compresso Memoria: proiezioni riflesse in ordine di inserimento (non compresse)
    • Write-optimized Column Store (WOS)
    A B C
  • 23.
    • Basta aggiungere server Blade per scalare le performance
    • Fault-tolerance mantenuta automaticamente
    • Flessibilità
    <= 5 TB <= 15TB 40 TB 6. “Scale Out” on Industry-Standard Hardware
  • 24.
    • Come viene disegnato lo schema fisico?
      • Semplice – DBDesigner viene strutturato sul numero di nodi presenti nella configurazione
    Database Design >
    • DBA FORNISCE
    • Schema Logico
      • Crea la tabella
    • “ Training set” di:
      • Query tipiche
      • Dati di esempio
    • Livello K-Safety
    • Load constraints
    >
    • DBDesigner GENERA
    • Uno schema fisico che:
      • Esegue query molto veloci
      • E’ compatibile con i requisiti del trickle load
      • Si assicura che tutte le query SQL vengano soddisfatte
    A B A (A B C | A) (B A C | B A) B C C
  • 25. Accesso a Vertica
    • JDBC/ODBC caricamento e analisi dalle soluzioni più conosciute
      • Vertica include drivers e guide integrate
    • Supporto a scripting e CLI
      • vsql cli, Perl, Python, PHP, C/++ API
    • Caricamento continuo
      • 2mb/s per flussi per nodi trickle load
      • 10mb/s per flussi per nodi bulk load
    Front-end nativo per analisi dati: NUVOLA
  • 26. Amministrare Vertica
    • Facile da implementare
      • Fully scriptable rpm install
      • Progettato per una rappresentazione a griglie
    • Manutenzione Semplice
      • DBDesigner Integrato
      • Non necessita di indicizzazioni, partizioni o strutture ausiliarie
      • Utilizza il 13% di spazio su disco rispetto ad un normale RDBMS
    • Sistema di monitoraggio integrato
      • Tabelle virtuali e file di log controllabili
      • AquaData Studio, Toad, Visualizzatore di DB
  • 27. SOMMARIO
  • 28. Vertica Vertica E’: Vertica NON E’ Un DBMS completamente relazionale Un motore di database transazionale Un motore di database che supporta lo standard SQL su Terabyte di dati Un file system proprietario o motore OLAP con dimensioni limitate Progettato per leggere dati dalla maggior parte degli strumenti presenti sul mercato Progettato per imputare o modificare molto frequentemente records come le soluzioni (OLTP) Orientato a colonne con elevata compressione dei dati Orientato a righe Rispetta gli standard ODBC/JDBC per essere integrato con strumenti di Business Intelligence Un database con stored procedures proprietarie scritte in linguaggio proprietario La ridondanza è ottenuta attraverso logiche software Dipendente dalla configurazione RAID
  • 29. Vertica Database : Una soluzione Completa
    • Performance Eccezionali
      • Motore di database analitico
      • 10-100x+ traditional DBMS
      • Sistema di “calcolo a griglia”
    • Facile Amministrazione
      • DB Designer – “iterative learning”
      • Enterprise ready
    • Piattaforma Cost-Effective
      • Elevata Scalabilità
      • Richiede meno spazio
      • Utilizzo sapiente delle risorse disponibili
  • 30. Contatti Per ulteriori informazioni rivolgersi a: Ing. Enrico Gasparoni E-mail: [email_address] Mobile: 348-8863011