Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

NCR Teradata Datawarehouse - Technical Overview

1,442 views

Published on

Technical Overview about Datawarehousing with Teradata (german)

Published in: Technology
  • Be the first to comment

NCR Teradata Datawarehouse - Technical Overview

  1. 2. Teradata Warehouse <ul><li>Speicherort für Unternehmensrelevante Daten </li></ul><ul><ul><li>Verkaufzahlen </li></ul></ul><ul><ul><li>Usagezahlen </li></ul></ul><ul><ul><li>etc. </li></ul></ul><ul><li>Analytisches DWH </li></ul><ul><ul><li>Statistiken für Marketingzwecke </li></ul></ul><ul><ul><li>passiv = Daten werden nur übernommen </li></ul></ul><ul><li>Operatives DWH </li></ul><ul><ul><li>Gutschriftenverteilung (Frei- SMS) </li></ul></ul><ul><ul><li>aktiv = Daten werden erzeugt </li></ul></ul>
  2. 3. <ul><li>Architektur </li></ul><ul><ul><li>Anforderungen </li></ul></ul><ul><ul><li>Hardware Infrastruktur </li></ul></ul><ul><li>Performance </li></ul><ul><li>Zusatz </li></ul><ul><ul><li>Zusammenfassung </li></ul></ul><ul><ul><li>Hardware (bsp. Vodafone) </li></ul></ul>Agenda
  3. 4. Architektur
  4. 5. Architektur <ul><li>minimaler Administrationsaufwand </li></ul><ul><li>Hohe Verfügbarkeit und Stabilität </li></ul><ul><li>Optimale Skalierbarkeit der Hardware </li></ul><ul><li>Hohe Performance </li></ul><ul><li>Unbedingte Parallelität ! </li></ul>Anforderungen
  5. 6. Architektur
  6. 7. Architektur Access Module Processor PE AMP <ul><li>Console Utilities </li></ul><ul><ul><li>Systemkonfiguration </li></ul></ul><ul><ul><li>Tabellenwiederherstellung </li></ul></ul><ul><li>File System </li></ul><ul><ul><li>Verwaltung der Virtual Discs </li></ul></ul><ul><li>AMP Worker Task Functions </li></ul><ul><ul><li>Session starten & beenden </li></ul></ul><ul><ul><li>select, join, insert, etc. </li></ul></ul>
  7. 8. Architektur Parsing Engine PE <ul><li>Dispatcher </li></ul><ul><ul><li>Versenden der Querys </li></ul></ul><ul><ul><li>Kontrolle </li></ul></ul><ul><ul><li>Rückmeldung an den User </li></ul></ul><ul><li>Parser / Optimizer </li></ul><ul><ul><li>Syntax überprüfen </li></ul></ul><ul><ul><li>aufteilen der Querys </li></ul></ul><ul><li>Session Control </li></ul><ul><ul><li>Session starten </li></ul></ul>
  8. 9. Architektur Nodes (Knoten) PE PE AMP AMP AMP AMP VNET P arsing E ngines A ccess M odule P rocessors V irtual NET work
  9. 10. Architektur Cliquenbildung Nodes Disk Array 4 Nodes bilden in der Regel eine Clique !
  10. 11. Architektur Teradata BYNET (Banyan Network) BYNET Nodes Disk Array
  11. 12. Architektur Verfügbarkeit Nodes Disk Array BYNET
  12. 13. Architektur Verfügbarkeit Alle Daten der Disks werden auf Bändern aufgezeichnet !
  13. 14. Architektur Verfügbarkeit <ul><li>zweifache Redundanz (BYNET) </li></ul><ul><li>Migration der VPROCs (PE & AMP) </li></ul><ul><li>Fallback- Optionen (Bandsicherung) </li></ul>
  14. 15. Funktionen
  15. 16. Funktionen <ul><li>Gleichmäßige Verteilung über die Hardware </li></ul><ul><li>Gleichmäßigkeit 99,95 % </li></ul><ul><li>Verteilung nicht Zufällig </li></ul><ul><li>Records mit gleichem PK auf dem selben AMP </li></ul><ul><li>Hash- Tabelle speichert Positionen </li></ul>Der Hash- Algorithmus
  16. 17. Funktionen „ Hardware load balancing“ AMP 16 AMP 17 AMP 18 AMP 19 AM 5 User Kunde Billing Usage ... Alle Daten / Tabellen wurden gleichmäßig über die gesamte Hardware verteilt !
  17. 18. Funktionen SELECT, JOIN Traditionelle, „Parallele“ Datenbank
  18. 19. Funktionen Teradata Datenbank SELECT, JOIN
  19. 20. Funktionen Die Funktion „Sync- Scan“ 101896 Muster, Max 546.97 08/21/97 297362 Murks, Müller 34.65 07/16/97 000893 Smith, John 254.01 05/08/97 919975 Xxxxx, Hal 320.12 09/10/97 401864 Xxxxx, Loui 12.15 03/19/97 Query1 Query2 Query3
  20. 21. Zusatz
  21. 22. Zusatz <ul><li>Bedingungslose Parallelität </li></ul><ul><ul><li>Parallel- funktionierende Arbeitseinheiten (PE & AMP) </li></ul></ul><ul><li>Dynamische Skalierung </li></ul><ul><ul><li>Cliquenbildung </li></ul></ul><ul><li>Hohe Stabilität </li></ul><ul><ul><li>Zweifach redundantes, bidirektionales BYNET </li></ul></ul><ul><ul><li>VPROC Migration & Bandsicherung </li></ul></ul><ul><li>„ Selbstverwaltendes System“ </li></ul>Zusammenfassung
  22. 23. Zusatz Hardware am Beispiel Vodafone <ul><li>176 Knoten (Nodes) </li></ul><ul><li>609 CPUs (700MHz - 3,8 GHz) </li></ul><ul><li>692 GB RAM </li></ul><ul><li>156,2 TB HDD (5880 Stück) </li></ul><ul><li>100 t Gesamtgewicht </li></ul><ul><li>110 m² Stellfläche </li></ul><ul><li>250 kWh/Monat Stromverbrauch </li></ul>
  23. 24. Teradata Warehouse Vielen Dank für die Aufmerksamkeit !!
  24. 26. Performance Bedingungslose Parallelität
  25. 27. Performance Bedingungslose Parallelität <ul><li>kostensparender Optimizer </li></ul><ul><li>Parallelität ist automatisch </li></ul><ul><li>Parallelität ist „bedingungslos“ </li></ul><ul><ul><li>für jeden Query - Step </li></ul></ul><ul><li>keine seriellen Operationen </li></ul>
  26. 28. Teradata Warehouse Der Hash- Algorithmus f(x) Row Hash 32 bit Hash Bucket 16 bit Reminder 16 bit 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 1 3 4 5 6 7 8 9 10 1 2 3 5 6 00 01 02 03 04 05 06 07 09 0A FE FF 1 2 3 4 5 6 7 8 9 1 2 00 01 02 FF ... ... AMP 4 AMP 5 AMP 6 AMP 7 AMP 3 AMP 2 AMP 1 0000001011111110 = 02FE 004711 Row Hash 32 bit Uniqueness 32 bit Row ID 64 bit
  27. 29. Teradata Warehouse Der Hash- Algorithmus <ul><li>Primär-Index 004711 </li></ul><ul><li>Hash-Algorithmus 0000001011111110 </li></ul><ul><li>Umwandlung 02FE </li></ul><ul><li>Hash-Tabelle AMP 5 </li></ul>
  28. 30. Architektur Hardware Infrastruktur Bandsicherung Server LAN Lade Rechner (UNIX) Administratoren Admin LAN MVS Mainframe End-Anwender Office LAN

×