Your SlideShare is downloading. ×

Amazon Redshift

827

Published on

DIe Aufzeichnung dieses Webinars steht hier zur Verfügung: http://aws.amazon.com/de/recorded-webinar/ …

DIe Aufzeichnung dieses Webinars steht hier zur Verfügung: http://aws.amazon.com/de/recorded-webinar/

Amazon Redshift ist ein schneller und mächtiger, voll verwalteter Data Warehouse Dienst in der Cloud. Redshift skaliert von Terabytes bis über ein Petabyte bei sehr günstigen Kosten. In diesem Webinar geben wir einen Überblick über den Dienst, zeigen das Aufsetzen eines Redshift-Clusters, die Verwaltung, den Datenimport und die Abfrage des Data Warehouse über SQL und über Partnerwerkzeuge.

Published in: Technology
0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
827
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
20
Comments
0
Likes
2
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Amazon Redshift Data Warehouse als Cloud Service Steffen Krause Technology Evangelist @AWS_Aktuell skrause@amazon.de
  • 2. Teilen Sie mir mit: Was gut ist, was nicht Was Sie bei unseren Veranstaltungen sehen wollen Was Sie sich von AWS wünschen skrause@amazon.de Ihr Feedback ist wichtig
  • 3. Amazon DynamoDB Schneller, vorhersagbarer, hoch skalierparer NoSQL Data Store Amazon RDS Verwalteter relationaler Datenbankdienst für MySQL, Oracle und SQL Server Amazon ElastiCache In-Memory Caching Service Amazon Redshift Schneller, mächtiger, voll verwalteter, Petabyte skalierbarer Data Warehouse Dienst Compute Storage AWS Global Infrastructure Database Application Services Deployment & Administration Networking AWS Datenbankdienste Skalierbare, hochperformante Datenbanken in der Cloud
  • 4. Amazon DynamoDB Schneller, vorhersagbarer, hoch skalierparer NoSQL Data Store Amazon RDS Verwalteter relationaler Datenbankdienst für MySQL, Oracle und SQL Server Amazon ElastiCache In-Memory Caching Service Amazon Redshift Schneller, mächtiger, voll verwalteter, Petabyte skalierbarer Data Warehouse Dienst Compute Storage AWS Global Infrastructure Database Application Services Deployment & Administration Networking AWS Datenbankdienste Skalierbare, hochperformante Datenbanken in der Cloud
  • 5. Data Warehousing auf die AWS Art • Keine Investitionskosten, Bezahlung nach Nutzung • Sehr hohe Performance bei sehr niedrigem Preis • Offen und flexibel, von populären Tools unterstützt • Leicht zu nutzen, massiv skalierbar
  • 6. Was wir gebaut haben… Ein schnelles, mächtiges Data Warehouse, das bis in die Petabytes skaliert Viel schneller Viel billiger Viel einfacher Als verwalteter Dienst Amazon Redshift
  • 7. Dramatische I/O Reduktion ID Alter Ort 123 20 Berlin 345 25 Leipzig 678 40 Dresden Zeilen-Speicherung Spalten-Speicherung Scan- Richtung
  • 8. Amazon Redshift Architektur • Leader Node – SQL Endpoint – Speichert Metadaten – Koordiniert Abfrageausführung • Compute Nodes – Lokale spaltenbasierte Speicherung – Parallele Abfrageausführung – Load, Backup, Restore via Amazon S3 – Paralleles Laden aus Amazon DynamoDB • Einzel-Node-Version verfügbar 10 GigE (HPC) Laden Backup Restore JDBC/ODBC jdbc:postgresql://mycluster.c7lp0qs37f41.us-east-1.redshift.amazonaws.com:8192/mydb
  • 9. Optimierte Hardware HS1.8XL: 128 GB RAM, 16 Cores, 24 HDDs, 16 TB nutzbarer Platz, 2 GB/sec Scanrate HS1.XL: 16 GB RAM, 2 Cores, 3 HDDs, 2 TB nutzbarer Platz • Optimiert für I/O intensive Workloads • Hohe Festplattendichte • Läuft in HPC Netzwerk - schnell • HS1.8XL verfügbar auf Amazon EC2
  • 10. Klein anfangen, groß wachsen Extra Large Node (HS1.XL) 3 HDDs, 2 TB, 16 GB RAM, 2 Cores Single Node (2 TB) Cluster 2-32 Nodes (4 TB – 64 TB) Eight Extra Large Node (HS1.8XL) 24 HDDs, 16 TB, 128 GB RAM, 16 Cores, 10 GigE Cluster 2-100 Nodes (32 TB – 1.6 PB) Hinweis: Knoten nicht in selber Skala
  • 11. Parallelisierung Redshift parallelisiert und verteilt alles • Abfrage • Laden • Backup • Restore • Größenänderung 10 GigE (HPC) Laden Backup Restore JDBC/ODBC
  • 12. Günstige Preise Pro Stunde für HS1.XL Single Node Effektiver Stundenpreis pro TB Effektiver Jahrespreis pro TB On-Demand $ 0,850 $ 0,425 $ 3.723 1 Year reserviert $ 0,500 $ 0,250 $ 2.190 3 Year reserviert $ 0,228 $ 0,114 $ 999 Einfache Preise Anzahl Nodes x Kosten pro Stunde Keine Kosten für Leader Node Keine Investitionskosten Pay as you go
  • 13. Demo: Cluster erstellen
  • 14. Amazon Redshift verwendet SQL • Industriestandard SQL • ODBC und JDBC Treiber für Datenzugriff – verwendet Postgres 8.x Treiber – Die meisten PostgreSQL Features werden unterstützt – Siehe Dokumentation für Unterschiede • INSERT/UPDATE/DELETE werden unterstützt – Aber Daten laden aus S3 oder DynamoDB mit COPY-Befehl ist deutlich schneller – VACUUM-Befehl nach vielen DELETE oder UPDATE-Operationen empfohlen
  • 15. • Sort Key – Mehrere Spalten möglich – Definiert die Reihenfolge der Daten auf Platte – Ermöglicht das Überspringen von Blöcken bei Abfrage • wenn Sort Key in WHERE-Klausel – Wenn neue Daten häufig abgefragt werden: timestamp-Spalte als Sort Key • Distribution Key – Eine Spalte – Definiert Verteilung der Daten im Cluster – Sollte für gleichmäßige Verteilung der Daten sorgen • hohe, über die Zeit gleichmäßige Kardinalität – Sollte in Abfragen nicht als „ist gleich“ Filter vorkommen – Join-Key für häufige Joins ist guter Kandidat – Wird keiner angegeben werden die Daten gleichmäßig per Row ID verteilt Tabellendesign
  • 16. Daten laden aus S3 oder DynamoDB • Direktes Laden aus S3 oder DynamoDB unterstützt: copy customer from 's3://mybucket/customer.txt’ credentials 'aws_access_key_id=<your-access-key-id>; aws_secret_access_key=<your-secret-access-key>’ gzip delimiter '|’; • Paralleles Laden von Daten – Für paralleles Laden Daten in mehrere Dateien aufteilen – Dateinamen mit gemeinsamem Präfix: • customer.txt.1, customer.txt.2, … – Große Dateien mit gzip komprimieren • Nach Möglichkeit Daten in Sortierung des Sort Key laden
  • 17. Daten-Komprimierung • Komprimierung spart Platz und Disk I/O • COPY analysiert die Daten automatisch und wählt geeignete Komprimierung – Ausschnitt der Daten für Auswahl der Komprimierung verwendet – Unterstützt: byte dictionary, delta, mostly n, run length, text • Kundenerfahrungen: 4-8-fache Komprimierung mit Echtdaten – 20x und mehr bei geeigneten Daten möglich • ANALYZE COMPRESSION zur Anzeige des gewählten Algorithmus analyze compression listing; Table | Column | Encoding ---------+----------------+--------- - listing | listid | delta listing | sellerid | delta32k listing | eventid | delta32k listing | dateid | bytedict listing | numtickets | bytedict listing | priceperticket | delta32k listing | totalprice | mostly32 listing | listtime | raw
  • 18. Einfach zu benutzen • Provisionierung in Minuten • Abfrageperformance überwachen • Vergrößern und Verkleinern durch Klick • Eingebaute Sicherheit • Automatische Backups
  • 19. Größenänderung durch Klick
  • 20. Cluster bleibt online (read only) • Neuer Zielcluster im Hintergrund erstellt • Bezahlung nur für Quellcluster
  • 21. Cluster bleibt online • Der Cluster bleibt bei Größenänderungen online • Komplett automatisch – Daten automatisch neu verteilt • Read Only Modus während Größenänderung • Paralleles Kopieren der Daten (Node to Node) • Automatische Endpoint-Wechsel per DNS • Nur ein Cluster wird bezahlt
  • 22. Demo: Verwaltung
  • 23. Eingebaute Sicherheit • SSL Verschlüsselung für Daten auf der Leitung • Optional Verschlüsselung für Daten auf Festplatte – AES-256, Hardware-beschleunigt – Alle Blöcke auf Platte und in Amazon S3 verschlüsselt • Kein direkter Zugriff auf Compute Nodes • Amazon VPC unterstützt 10 GigE (HPC) Laden Backup Restore Kunden-VPC Interner VPC JDBC/ODBC
  • 24. Datensicherung und Verfügbarkeit • Replikation innerhalb des Clusters und Backup nach S3 stellt mehrere Kopien der Daten zu jedem Zeitpunkt sicher • Backups nach Amazon S3 sind kontinuierlich, automatisch und inkrementell – Entworfen für 11 Neunen Dauerhaftigkeit • Kontinuierliche Überwachung und automatische Wiederherstellung im Fall von Festplatten- und Node-Fehlern • Wiederherstellung von Snapshots in beliebige Availability Zones innerhalb einer Region
  • 25. Datenquellen Amazon DynamoDB Amazon Elastic MapReduce Amazon Simple Storage Service (S3) Amazon Elastic Compute Cloud (EC2) AWS Storage Gateway Service Corporate Data Center Amazon Relational Database Service (RDS) Amazon Redshift Mehr bald… Integration mit verschiedenen Datenquellen
  • 26. Daten laden und entladen • Upload nach Amazon S3 • AWS Import/Export • AWS Direct Connect • Partner Data Integration Systems Integrators Mehr bald…
  • 27. Analysewerkzeuge JDBC/ODBC Amazon Redshift Mehr bald…
  • 28. Demo: Client Tools
  • 29. Kundenbeispiel Everyone Needs Skilled People At Home At Work In Life Repeatedly SkillPages
  • 30. Data Architecture Data Analyst Raw Data Get Data Join via Facebook Add a Skill Page Invite Friends Web Servers Amazon S3 User Action Trace Events EMR Hive Scripts Process Content • Process log files with regular expressions to parse out the info we need. • Processes cookies into useful searchable data such as Session, UserId, API Security token. • Filters surplus info like internal varnish logging. Amazon S3 Aggregated Data Raw Events Internal Web Excel Tableau Amazon Redshift
  • 31. Amazon Redshift ist • Ein voll verwalteter Data Warehouse Service • Schnell • Kostengünstig • Flexibel • Abrechnung nach Nutzung • Kompatibel mit bestehenden ETL und BI Tools Zusammenfassung
  • 32. Ressourcen • Steffen Krause | skrause@amazon.de | @AWS_Aktuell • http://aws.amazon.com/de/redshift • Getting Started Guide: http://docs.aws.amazon.com/redshift/latest/gsg/welcome.html • Setting Up SQL Workbench/J: http://docs.aws.amazon.com/redshift/latest/mgmt/connecting-using-workbench.html • SQL Reference: http://docs.aws.amazon.com/redshift/latest/dg/cm_chap_SQLCommandRef.html • Client Tools: • https://aws.amazon.com/marketplace/redshift/ • https://www.jaspersoft.com/webinar-AWS-Agile-Reporting-and-Analytics-in-the-Cloud
  • 33. • http://aws.amazon.com/de • Getting started with Free Tier: http://aws.amazon.com/de/free/ • 25 US$ credits für neue Kunden: http://aws.amazon.com/de/campaigns/account/ • Twitter: @AWS_Aktuell • Facebook: http://www.facebook.com/awsaktuell • Webinare: http://aws.amazon.com/de/about-aws/events/ • Slides: http://de.slideshare.net/AWSAktuell Ressourcen
  • 34. 1. Was ist Amazon Web Services und wofür kann ich AWS nutzen 2. Erste Schritte mit Amazon Web Services – von der Anmeldung bis zur ersten Instanz 3. Amazon Web Services 1*1 – welche Dienste gibt es wofür? 4. Server in der Cloud – die AWS Compute-Dienste 5. Daten speichern in der Cloud – die AWS Storage-Dienste 6. Datenbanken in der Cloud – SQL und NoSQL 7. Amazon Web Services für eCommerce Aufzeichnungen http://aws.amazon.com/de/recorded-webinar/ Bisherige Webinare
  • 35. • Big Data – 15.07.2013, 16 Uhr • Wie kann man ein Unternehmens-Rechenzentrum um Cloud-Ressourcen erweitern? Netzwerke, Sicherheit, Ressource – 23.07.2013, 16 Uhr • Die erste Woche mit AWS – 07.08.2013, 16 Uhr • 8 Tipps für eine Cloud-Strategie – wie Unternehmen heute die Cloud einsetzen – 14.08.2013, 16 Uhr • Optimieren Sie Ihre AWS Nutzung um Kosten zu sparen – 21.08.2013, 16 Uhr • http://aws.amazon.com/de/about-aws/events/ Kommende Webinare

×