Σχεδιασµός και υλοποίηση µιας αρχιτεκτονικής µεγάλων δεδοµένων για την αποθήκευση, επεξεργασία σε πραγµατικό χρόνο και ανάλυση δεδοµένων έξυπνων µετρητών

Σχεδιασμός και υλοποίηση μιας αρχιτεκτονικής
μεγάλων δεδομένων για την αποθήκευση,
επεξεργασία σε πραγματικό χρόνο και ανάλυση
δεδομένων έξυπνων μετρητών
Διπλωματική Εργασία
Εκπόνηση:
Αλέξανδρος Σαχίνης 8906
Επίβλεψη:
Καθηγητής Ανδρέας Λ. Συμεωνίδης

05
04
Απρίλιος 2023 Σχεδιασμός και υλοποίηση μιας αρχιτεκτονικής μεγάλων δεδομένων για την αποθήκευση,
επεξεργασία σε πραγματικό χρόνο και ανάλυση δεδομένων έξυπνων μετρητών
2
02 Μεθοδολογία
Μελλοντική
Εργασία
01
Εισαγωγή
Συμπεράσματα
03
Αποτελέσματα &
Αξιολόγηση

3
Ποιότητα Υπηρεσίας
Κόστος
• Αύξηση αξιοπιστίας
• Βελτιωμένη εμπειρία χρήσης
• Προσαρμογή παραγωγής στις ανάγκες της
ζήτησης
• Χαμηλότερο κόστος για τον καταναλωτή
Κίνητρο
Περιβάλλον
• Μείωση σπατάλης φυσικών πόρων στην
παραγωγή
• Βελτιστοποίηση συνηθειών κατανάλωσης

4
Περιγραφή Προβλήματος
Gateway Metric Type Metric Attribute Metric
Timestamp
Value
• Ηλεκτρισμός
• Νερό
• Αέριο
• Τιμή τάσης
• Τιμή έντασης
• Στιγμιαία κατανάλωση
• Αθροιστική κατανάλωση
• …
• Σπίτι
• Συσκευή
• …

5
Σκοπός της διπλωματικής
Συλλογή δεδομένων σε κεντρικό messaging broker
Επεξεργασία ροών δεδομένων σε πραγματικό χρόνο
Μεσοπρόθεσμη αποθήκευση
Μακροπρόθεσμη αποθήκευση
Επεκτασιμότητα
Κλιμάκωση
Αποδοτικότητα

6
05
Εργασία
01
Εισαγωγή
04 Συμπεράσματα
03

7
Αρχιτεκτονική

8
Publisher: Datasets
• Συνολική κατανάλωση ενός σπιτιού
• Ευκρίνεια ενός λεπτού
• 2,075,259 δείγματα
• Χρονική διάρκεια κάλυψης 4 ετών
(∆εκέμβριος 2006, Νοέμβριος 2010)
• 133 ΜΒ για την κατανάλωση του σπιτιού
Ηλεκτρική Ενέργεια
Hebrail, G. (2012). In-dividual household
electric power consumption Data Set [1]:
Νερό & Αέριο
Makonin, S. (2016). AMPds2: The Almanac of Minutely
Power dataset (Version 2) [2]:
• Συνολική κατανάλωση ενός σπιτιού
• Ευκρίνεια ενός λεπτού
• 1,051,200 δείγματα
• Χρονική διάρκεια κάλυψης 2 ετών
(Απρίλιος 2012 έως Μάρτιος 2014)
• 60 ΜΒ για την κατανάλωση του σπιτιού

9
Publisher: Χαρακτηριστικά
• Καθορισμός αριθμού προσομοιωμένων συσκευών
• Συνθετικά δεδομένα
• Καθορισμός ρυθμού παραγωγής
• Publish στο Kafka topic metrics (4 partitions)
• Dockerized Java εφαρμογή

10
Aggregator
• Kafka Streams καταναλωτής
• Καθορισμός εύρους aggregation παραθύρου
• min, max, average, sample count
• Dockerized Java εφαρμογή

11
Cassandra Writer: Ροή Δεδομένων

12
Cassandra Writer: Μοντέλο Δεδομένων

13
ksqlDB
• Kafka Streams SQL
• Stream processing
• Tables & Streams

14
ksqlDB: Alarming

15
ksqlDB: Windowed Aggregates

16
ksqlDB: Latest Activity

17
Redis: Ροή δεδομένων

18
Amazon S3
• Χρήση ως data lake
• Απεριόριστη κλιμάκωση
• Storage tiers
• Integration με HDFS και OLAP συστήματα

19
05
Εργασία
01
Εισαγωγή
03

20
Aggregator: Παράδειγμα – 1 ώρα

21
Cassandra: Παράδειγμα

22
ksqlDB: Παράδειγμα - Alarms
alarm_thresholds table:
alarms stream:

23
ksqlDB: Παράδειγμα - Windowed Aggregates
t1:
t2:

24
ksqlDB: Παράδειγμα - Latest Activity
t1:
t2:

25
Redis: Παράδειγμα
Τιμές κλειδιών:
∆ιαθέσιμα κλειδιά:

26
Κλιμάκωση: Περιβάλλον
• CPU: AMD Ryzen 5600g, 6 cores, 4.4 GHz turbo frequency
• RAM: 2x16 GB DDR4, 2666 MHz
• Disk: 500 GB SSD NVMe
• OS: Ubuntu 22.4
• Deployment: Docker με 1 instance Kafka, 1 instance Cassandra

27
Κλιμάκωση: Aggregator
Aggregator 1 ώρας - 10 επαναλήψεις, 1K συσκευές, 240Κ μηνύματα:
Aggregator 1 λεπτού - 10 επαναλήψεις, 10K συσκευές, 100Κ μηνύματα:
Max: 18.2Κ msgs/sec

28
Κλιμάκωση: Cassandra Writer
10 επαναλήψεις, 10K συσκευές, 100Κ μηνύματα:

29
05
Εργασία
01
Εισαγωγή
03

30
Συμπεράσματα
Ανάλυση ροών δεδομένων σε πραγματικό χρόνο μέσω Kafka Streams και ksqlDB
Επεκτασιμότητα μέσω Kafka και Kafka Connect
Υποστήριξη πληθώρας ερωτημάτων σε aggregates μέσω Cassandra
Υποστήριξη τουλάχιστον 50Κ συσκευών με ρυθμό αποστολής 10 δευτερολέπτων

31
05
Εργασία
01
Εισαγωγή
03

32
Μελλοντική Εργασία
Υλοποίηση υποσυστήματος μακροπρόθεσμης αποθήκευσης (S3)
Στρατηγική διαχείρισης κύκλου ζωής δεδομένων
∆οκιμή distributed deployment με παραπάνω από ένα instances Kafka και Cassandra & σύγκριση
batch με single writes στην Cassandra για περαιτέρω έλεγχο της κλιμάκωσης

33
Bibliography
[1] Alice Berard Georges Hebrail. UCI Machine Learning Repository: Individual
household electric power consumption Data Set. Aug. 2012.
URL: https://archive.ics.uci.edu/ml/datasets/Individual+household+electric+power+consumption.
[2] Stephen Makonin. AMPds2: The Almanac of Minutely Power dataset (Version2). Version V3. 2016. DOI:
10.7910/DVN/FIE0S4. URL: https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/FIE0S4.

34
Ευχαριστώ πολύ για την προσοχή σας!
Ερωτήσεις;

Σχεδιασµός και υλοποίηση µιας αρχιτεκτονικής µεγάλων δεδοµένων για την αποθήκευση, επεξεργασία σε πραγµατικό χρόνο και ανάλυση δεδοµένων έξυπνων µετρητών

Recommended

Recommended

More Related Content

Similar to Σχεδιασµός και υλοποίηση µιας αρχιτεκτονικής µεγάλων δεδοµένων για την αποθήκευση, επεξεργασία σε πραγµατικό χρόνο και ανάλυση δεδοµένων έξυπνων µετρητών

More from ISSEL

More from ISSEL (20)

Σχεδιασµός και υλοποίηση µιας αρχιτεκτονικής µεγάλων δεδοµένων για την αποθήκευση, επεξεργασία σε πραγµατικό χρόνο και ανάλυση δεδοµένων έξυπνων µετρητών