Εκατοντάδες άρθρα ειδήσεων, και όχι μόνο, δημοσιεύονται καθημερινά στο μικρο-διαδίκτυο μας, καθιστώντας αδύνατη την ανάγνωση του μεγαλύτερου μέ ρους τους λόγω των γρήγορων ρυθμών της καθημερινότητας. Ταυτόχρονα, η σχετι κότητα των άρθρων με την είδηση μειώνεται με την πάροδο του χρόνου, καθώς τα νέα αλλάζουν συνεχώς ακόμη και αν πρόκειται για την ίδια είδηση. Επομένως, είναι απαραίτητη η εποπτεία τους σε πραγματικό χρόνο. Η αυτοματοποιημένη ανάκτηση αυτής της πληροφορίας είναι αναγκαία και μπορεί να επιτευχθεί χρησιμοποιώντας τεχνικές επεξεργασίας και κατανόησης φυσικής γλώσσας. Η παρούσα διπλωματική εργασία μελετά την ανάπτυξη ενός ειδησεογραφικού βοηθού πραγματικού χρόνου. Πιο συγκεκριμένα, ο βοηθός είναι υπεύθυνος για την αναζήτηση και την εύρεση απαντήσεων στις ερωτήσεις του χρήστη, τις οποίες ανα γνωρίζει κατά τη συνομιλία με αυτόν και η αναζήτηση πραγματοποιείται μέσω ενός συστήματος ερώτησης-απάντησης (Question-Answering - QA). Η χρήση του βοηθού καθιστά την υλοποίηση πιο ευέλικτη και φιλική προς το χρήστη. Η είσοδος του συ στήματος ορίζεται ως οτιδήποτε εισάγει ο χρήστης στην επικοινωνία του με τον ψη φιακό βοηθό. Οι ειδήσεις που υποστηρίζονται αφορούν πολιτική, αθλητικά, τεχνολο γία, ταινίες και ηλεκτρονικά παιχνίδια. Τα άρθρα παρέχονται από την προσομοίωση ενός εξωτερικού συστήματος και εισέρχονται σε έναν ταξινομητή για τον καθορι σμό της κατηγορίας τους. Στη συνέχεια, αποθηκεύονται σε μία βάση δεδομένων στην οποία ανατρέχει το QA σύστημα για την εξαγωγή της απάντησης. Το τελικό σύστημα αποτελείται από τον ταξινομητή, τον ψηφιακό βοηθό και το σύστημα QA. Κάθε ένα από αυτά τα κομμάτια μπορεί να αντικατασταθεί και βελτιστοποιηθεί ξεχωριστά από τα υπόλοιπα δημιουργώντας έτσι ένα αρθρωτό σύστημα. Για τη διασφάλιση της σωστής λειτουργίας του ψηφιακού βοηθού αλλά και τη συντήρηση του χρησιμοποιήθηκε βοηθητικό εργαλείο για την τροφοδοτούμενη από συνομιλίες ανάπτυξη του (Conversation-Driven Development). Μέσω αυτού, πραγμα τοποιείται η αξιολόγηση του συνολικού συστήματος σε πραγματικές συνομιλίες οι οποίες στη συνέχεια αξιοποιούνται για τη βελτιστοποίηση τόσο του βοηθού όσο και των υπόλοιπων κομματιών του. Για την επιλογή των μοντέλων μηχανικής μάθησης για επεξεργασία φυσικής γλώσσας πραγματοποιήθηκαν πειράματα με τα οποία αξιολογήθηκε η αποδοτικό τητα τους σε συγκεκριμένα σύνολα δεδομένων. Με τον τρόπο αυτό, μελετώντας τα αποτελέσματα των πειραμάτων, επιλέχθηκαν οι βέλτιστες παράμετροι για τη λειτουργία του συνολικού συστήματος.
Ανάπτυξη ∆υναµικού και Προσωποποιηµένου Συστήµατος Ερωταπαντήσεων µε Πηγή το ...ISSEL
Η Τεχνητή Νοηµοσύνη αποτελεί έναν τοµέα της τεχνολογίας που καθηµερινά πραγµατοποιεί άλµατα. Αποτελεί την αιχµή του δόρατος στην επίλυση πληθώρας προβληµάτων αλλά και στην παροχή υπηρεσιών υψηλού επιπέδου. Οι εµπορικές εφαρµογές, αν και µε απεριόριστες προοπτικές, τα τελευταία χρόνια εστιάζουν κυϱίως στη Συνοµιλητική Τεχνητή Νοηµοσύνη ή στην Τεχνητή Νοηµοσύνη Επεξεργασίας Βίντεο και Εικόνας, µε αποτέλεσµα τον ενθουσιασµό της αγοράς και των χρηστών, οι οποίοι αποκτούν όλο και µεγαλύτερες απαιτήσεις, ως προς την ποιότητα και τις δυνατότητες των εργαλείων τους. Οι συνοµιλητικοί ϐοηθοί, Chatbots, έχουν διεισδύσει στην καθηµερινότητά, µε πληθώρα µορφών και χρήσεων. Η παραδοσιακή µορφή τους, που απαντούσε ένα κλειστό σύνολο απλοϊκών ερωτήσεων, αντικαταστάθηκε από µοντέρνα συστήµατα και εφαρµογές που προτείνουν, συζητούν, συνοµιλούν, διασκεδάζουν, συµβουλεύουν. Είτε ως εφαρµογές στο κινητό του χρήστη, είτε διαθέσιµοι online, οι σύγχρονοι βοηθοί αποτελούν πλέον κοµµάτι της καθηµερινής ϱουτίνας και των εργαλείων που την καθιστούν πιο ανεκτή και ευχάριστη. Αυτή η καθολική πλέον παρουσία τους καθιστά αναγκαίο τον εκλεκτισµό αυτών των υπηρεσιών προσθέτοντας νέα στοιχεία και παραµέτρους, ανάλογα µε την εξειδίκευση κάθε χρήστη και των αναγκών του. Αυτές οι εφαρµογές, όντας συνεχώς συνδεδεµένες στο διαδίκτυο, θυσιάζουν την ιδιωτικότητα του χρήστη, καθιστώντας τον επιρρεπή σε κακόβουλο λογισµικό ή απάτες. Παράλληλα ,όµως, η πλειοψηφία αυτών των εφαρµογών αδυνατούν να χρησιµοποιήσουν τον µεγαλύτερο όγκο της πληροφορίας η οποία είναι διαθέσιµη στο διαδίκτυο, παρότι είναι συνδεδεµένες σε αυτό. Τέλος, τα υπάρχοντα συστήµατα δεν έχουν προσωποποιηµένο χαρακτήρα. Οι απαντήσεις και οι υπηρεσίες τους σπανίως προσαρµόζονται στον εκάστοτε χρήστη. Σε αυτήν τη διπλωµατική εργασία γίνεται µια προσπάθεια ανάπτυξης ενός ψηφιακού βοηθού ερωταπαντήσεων που αναζητά δυναµικά τις απαντήσεις στον ιστό. Αυτό το σύστηµα, χρησιµοποιώντας προεκπαιδευµένα µοντέλα αλλά και τεχνολογίες λογισµικού, απαντάει τις ερωτήσεις του χρήστη αξιοποιώντας το σύνολο της online πληροφορίας. Η ϕορητότητα του συστήµατος µπορεί να εξασφαλίσει µια ιδιωτική εµπειρία καθώς και απαντήσεις από εξειδικευµένες πηγές δεδοµένων. Τα πειραµατικά αποτελέσµατα αποδεικνύουν ότι το συγκεκριµένο σύστηµα είναι επαρκώς ακριβές, ενώ ταυτόχρονα επιτυγχάνει τους σκοπούς για τους οποίους αναπτύχθηκε. Θυσιάζεται η αναλυτικότητα και το συνοµιλητικό ύφος των συµβατικών ψηφιακών βοηθών, για να αξιοποιηθεί το µέγιστο πλήθος πληροφορίας. Επιπλέον, οι προεκτάσεις του συστήµατος µπορούν να οδηγήσουν σε χρήση του σε εξειδικευµένα συστήµατα όπου η πληροφορία που είναι διαθέσιµη είναι περιορισµένη και προέρχεται πάλι από το διαδίκτυο αλλά µόνο από µια συγκεκριµένη πηγή.
Εφαρµογή τεχνικών µηχανικής µάθησης και ευφυούς διαχείρισης πληροφορίας για τ...ISSEL
Η σωστή σύνταξη των λειτουργικών απαιτήσεων αποτελεί ϐασική προϋπόθεση για την ανάπτυξη ενός έργου λογισµικού. Σφάλµατα στον ορισµό των λειτουργικών απαι τήσεων και ο ορισµός ελλιπούς λειτουργικότητας αποτελούν τα σηµαντικότερα προ ϐλήµατα που οδηγούν στην αποτυχία της διαδικασίας ανάπτυξης λογισµικού. Ο µη ολοκληρωµένος ορισµός των λειτουργικών απαιτήσεων έχει ως αποτέλεσµα τον λανθασµένο προγραµµατισµό των απαραίτητων εργασιών και ακολούθως την αποτυχία της υλοποίησης του έργου λογισµικού. Η παρούσα διπλωµατική εργασία αρχικά συγκεντρώνει ένα σύνολο δεδοµένων από λειτουργικές απαιτήσεις έργων λογισµικού από διάφορες πηγές. Σε πρώτο στάδιο ορίζεται η οντολογία που καλείται να περιγράψει την στατική όψη ενός έργου λογισµικού. Οι οντότητες που ορίζονται εντοπίζονται στις λειτουργικές απαιτήσεις του συνόλου δεδοµένων και δίνεται η δυνατότητα της αποδοτικής αποθήκευσης των δεδοµένων µε τη µορφή της οντολογίας. Σε επόµενο στάδιο γίνεται χρήση αλγορίθµων µηχανικής µάθησης µε στόχο την ε ξαγωγή προτάσεων ϐελτίωσης σε όλα τα επίπεδα ανάλυσης απαιτήσεων λογισµικού. Για την αξιολόγηση της απόδοσης των αλγορίθµων, µετά την εκπαίδευσή τους στο σύνολο δεδοµένων, δέχονται ως είσοδο ένα νέο έργο λογισµικού µε µη ολοκληρωµένη λειτουργικότητα και εξετάζεται η πληροφορία που εξάγεται από τον κάθε αλγόριθµο. Πιο συγκεκριµένα, υλοποιείται ο αλγόριθµος Apriori για την εξαγωγή κανόνων συσχέτισης µε στόχο τον εντοπισµό απούσας λειτουργικότητας. Επιπλέον, χρησιµοποιείται ο αλγόριθµος Λανθάνουσας Κατανοµής Dirichlet που εκτελεί τη ϑεµατική µοντελοποίηση των έργων λογισµικού του συνόλου δεδοµένων. Τέλος, γίνεται χρήση ενός αλγορίθµου Ιεραρχικής Οµαδοποίησης κειµένου και συγκρίνονται τα αποτελέσµατά του µε αυτά του προηγούµενου αλγορίθµου.
Employing Machine Learning and Intelligent Information Management Techniques ...ISSEL
Proper definition of functional requirements is a prerequisite for succesful software project development. Inaccurate and/or missing functional requirements are among the top reasons that lead to failure of the software development process, since incomplete definition of functional requirements results in erroneous scheduling of necessary tasks and subsequently failure in the implementation of the software project. This dissertation initially builds a dataset of functional requirements of software projects from various sources, which is missing from bibliography. Then an ontology is defined, that captures the static view of a software project. The functional require ments of the dataset are mapped to the defined entities and the data is efficiently stored using the ontology format. In the next step, machine learning algorithms are employed in order to extract recommendations for better software requirements elicitation. For the evaluation of their performance the models are fed with take a new software project with incomplete functionality as input and the extracted recommendations are evaluated.
Ανάπτυξη εργαλείου αυτοματοποίησης της παραγωγής σεναρίων για τη δημιουργία ψ...ISSEL
Η ανάπτυξη της Τεχνητής Νοημοσύνης τα τελευταία χρόνια έχει επιτρέψει τις τεχνολογίες ψηφιακών βοηθών να αναδειχθούν. Από κέντρα εξυπηρέτησης πελα τών εώς και ιατρικές διαγνώσεις, οι ψηφιακοί βοηθοί βρίσκουν εφαρμογή σε πολ λούς τομείς και χρησιμοποιούνται καθημερινά από χρήστες. Όλο και περισσότερες εταιρείες προσπαθούν να τους ενσωματώσουν στο πλαίσιό τους και οι τεχνολογίες πίσω από αυτούς συνεχώς εξελίσσονται. Επιπλέον, οι τεχνολογίες Ανοιχτού Κώδικα φέρνουν τα εργαλεία δημιουργίας ψηφιακών βοηθών πιο κοντά στους προγραμμα τιστές επιτρέποντας τους να πειραματιστούν με αυτά. Ένα τέτοιο εργαλείο είναι και το Rasa, μια τεχνολογία Ανοιχτού Κώδικα για τη δημιουργία ψηφιακών βοηθών βιομηχανικού επιπέδου που χρησιμοποιούν την Τεχνητή Νοημοσύνη. Η χρήση του Rasa απαιτεί ένα υψηλό επίπεδο προγραμματιστικών γνώσεων πράγμα που περιορίζει την ανάπτυξη τέτοιων συστημάτων αποκλειστικά σε προ γραμματιστές. Ενώ οι ψηφιακοί βοηθοί γίνονται όλο και πιο απαραίτητοι σε καθη μερινές εφαρμογές, το εμπόδιο της τεχνογνωσίας περιορίζει τον αριθμό των ατόμων που ασχολούνται με αυτές. Η παρούσα διπλωματική εργασία εστιάζει στην ανάπτυξη ενός εύχρηστου ερ γαλείου δημιουργίας σεναρίων-δεδομένων για το Rasa με στόχο την γρήγορη δη μιουργία ψηφιακών βοηθών. Με τη χρήση Python και συγκεκριμένα του framework Django παρουσιάζεται η υλοποίηση μιας full-stack εφαρμογής, από τις όψεις και τις διευθύνσεις των πόρων εώς τα μοντέλα και τις back-end διεργασίες. Η εφαρμογή αυτή κάνει εύκολη την δημιουργία και επεξεργασία ψηφιακών βοηθών αυτοματο ποιώντας τις περισσότερες λειτουργίες του Rasa. Επιπρόσθετα, γίνεται η χρήση της εφαρμογής με τη δημιουργία ψηφιακών βοη θών, απλών και σύνθετων. Αρχικά παρουσιάζεται η σχεδίαση των σεναρίων και των ιστοριών που θα ακολουθήσει η συζήτηση και στη συνέχεια αυτά υλοποιούνται στο σύστημα. Τέλος, δοκιμάζονται οι βοηθοί και αξιολογείται το αποτέλεσμα από τα παραδείγματα συζητήσεων. Σύμφωνα με τα αποτελέσματα, η εφαρμογή μπορεί να δημιουργήσει επιτυχη μένα ψηφιακούς βοηθούς που περιέχουν τα βασικά συστατικά του Rasa. Όσο όμως οι ψηφιακοί βοηθοί γίνονται πιο σύνθετοι, καθίστανται αναγκαία κάποια ανθρώπινη παρέμβαση ώστε η επιθυμητή λειτουργία να υλοποιηθεί. Έτσι παρότι η εφαρμογή λειτουργεί όπως θέλουμε σε απλά και σύνθετα σενάρια, όταν ο χειριστής χρειά ζεται κάτι αρκετά απαιτητικό σε πολυπλοκότητα, απαραίτητη είναι και πάλι η τεχνογνωσία προγραμματιστικών ικανοτήτων.
Ανάλυση και μοντελοποίηση προφίλ προγραμματιστών μέσω τεχνικών εξόρυξης γνώση...ISSEL
Η ανάγκη για την παραγωγή νέου λογισμικού αυξάνεται διαρκώς, τόσο λόγω της ψηφιοποίησης των διαδικασιών στη βιομηχανία, όσο και λόγω των αυξανόμενων απαιτήσεων των καταναλωτών για νέες ψηφιακές εμπειρίες. Η διαδικασία παραγωγής λογισμικού παραμένει, όμως, δύσκολη και πολύπλοκη, με πολλά έργα να μην φτάνουν στο τελικό στάδιο και να παραμένουν ανολοκλήρωτα. Για την αντιμετώπιση των προβλημάτων της διαδικασίας παραγωγής λογισμικού, οι εταιρίες ωθούνται να εφαρμόσουν νέες διαδικασίες και μεθόδους παραγωγής, όπως το Ευέλικτο μοντέλο. Είναι αναγκαίο, οπότε, να προσλάβουν τους κατάλληλους προγραμματιστές για τις θέσεις, που θα κατέχουν όχι μόνο τις απαραίτητες τεχνικές γνώσεις, αλλά και τις επικοινωνιακές δεξιότητες. Τα ανοιχτά αποθετήρια κώδικα μπορούν να προσφέρουν λύση στο πρόβλημα αυτό, καθώς παρέχουν πληροφορίες για τις τεχνικές ικανότητες και τις γλώσσες προγραμματισμού που χρησιμοποιούν οι προγραμματιστές. Επιπλέον, μέσω της αλληλεπίδρασης των προγραμματιστών, με σχόλια σε Issues και Pull Requests, μπορεί να αντληθεί πληροφορία για τις δεξιότητες επικοινωνίας τους. Στο πλαίσιο αυτό, η παρούσα διπλωματική εργασία προτείνει ένα σύστημα άντλησης και ανάλυσης των συνεισφορών των προγραμματιστών από τη πλατφόρμα GitHub, για τη παραγωγή χρήσιμων μετρικών, και ένα μοντέλο μη-εποπτευόμενης μάθησης για τον διαχωρισμό των προγραμματιστών σε ομάδες ανάλογα με τις δεξιότητές τους.
Ανάπτυξη ∆υναµικού και Προσωποποιηµένου Συστήµατος Ερωταπαντήσεων µε Πηγή το ...ISSEL
Η Τεχνητή Νοηµοσύνη αποτελεί έναν τοµέα της τεχνολογίας που καθηµερινά πραγµατοποιεί άλµατα. Αποτελεί την αιχµή του δόρατος στην επίλυση πληθώρας προβληµάτων αλλά και στην παροχή υπηρεσιών υψηλού επιπέδου. Οι εµπορικές εφαρµογές, αν και µε απεριόριστες προοπτικές, τα τελευταία χρόνια εστιάζουν κυϱίως στη Συνοµιλητική Τεχνητή Νοηµοσύνη ή στην Τεχνητή Νοηµοσύνη Επεξεργασίας Βίντεο και Εικόνας, µε αποτέλεσµα τον ενθουσιασµό της αγοράς και των χρηστών, οι οποίοι αποκτούν όλο και µεγαλύτερες απαιτήσεις, ως προς την ποιότητα και τις δυνατότητες των εργαλείων τους. Οι συνοµιλητικοί ϐοηθοί, Chatbots, έχουν διεισδύσει στην καθηµερινότητά, µε πληθώρα µορφών και χρήσεων. Η παραδοσιακή µορφή τους, που απαντούσε ένα κλειστό σύνολο απλοϊκών ερωτήσεων, αντικαταστάθηκε από µοντέρνα συστήµατα και εφαρµογές που προτείνουν, συζητούν, συνοµιλούν, διασκεδάζουν, συµβουλεύουν. Είτε ως εφαρµογές στο κινητό του χρήστη, είτε διαθέσιµοι online, οι σύγχρονοι βοηθοί αποτελούν πλέον κοµµάτι της καθηµερινής ϱουτίνας και των εργαλείων που την καθιστούν πιο ανεκτή και ευχάριστη. Αυτή η καθολική πλέον παρουσία τους καθιστά αναγκαίο τον εκλεκτισµό αυτών των υπηρεσιών προσθέτοντας νέα στοιχεία και παραµέτρους, ανάλογα µε την εξειδίκευση κάθε χρήστη και των αναγκών του. Αυτές οι εφαρµογές, όντας συνεχώς συνδεδεµένες στο διαδίκτυο, θυσιάζουν την ιδιωτικότητα του χρήστη, καθιστώντας τον επιρρεπή σε κακόβουλο λογισµικό ή απάτες. Παράλληλα ,όµως, η πλειοψηφία αυτών των εφαρµογών αδυνατούν να χρησιµοποιήσουν τον µεγαλύτερο όγκο της πληροφορίας η οποία είναι διαθέσιµη στο διαδίκτυο, παρότι είναι συνδεδεµένες σε αυτό. Τέλος, τα υπάρχοντα συστήµατα δεν έχουν προσωποποιηµένο χαρακτήρα. Οι απαντήσεις και οι υπηρεσίες τους σπανίως προσαρµόζονται στον εκάστοτε χρήστη. Σε αυτήν τη διπλωµατική εργασία γίνεται µια προσπάθεια ανάπτυξης ενός ψηφιακού βοηθού ερωταπαντήσεων που αναζητά δυναµικά τις απαντήσεις στον ιστό. Αυτό το σύστηµα, χρησιµοποιώντας προεκπαιδευµένα µοντέλα αλλά και τεχνολογίες λογισµικού, απαντάει τις ερωτήσεις του χρήστη αξιοποιώντας το σύνολο της online πληροφορίας. Η ϕορητότητα του συστήµατος µπορεί να εξασφαλίσει µια ιδιωτική εµπειρία καθώς και απαντήσεις από εξειδικευµένες πηγές δεδοµένων. Τα πειραµατικά αποτελέσµατα αποδεικνύουν ότι το συγκεκριµένο σύστηµα είναι επαρκώς ακριβές, ενώ ταυτόχρονα επιτυγχάνει τους σκοπούς για τους οποίους αναπτύχθηκε. Θυσιάζεται η αναλυτικότητα και το συνοµιλητικό ύφος των συµβατικών ψηφιακών βοηθών, για να αξιοποιηθεί το µέγιστο πλήθος πληροφορίας. Επιπλέον, οι προεκτάσεις του συστήµατος µπορούν να οδηγήσουν σε χρήση του σε εξειδικευµένα συστήµατα όπου η πληροφορία που είναι διαθέσιµη είναι περιορισµένη και προέρχεται πάλι από το διαδίκτυο αλλά µόνο από µια συγκεκριµένη πηγή.
Εφαρµογή τεχνικών µηχανικής µάθησης και ευφυούς διαχείρισης πληροφορίας για τ...ISSEL
Η σωστή σύνταξη των λειτουργικών απαιτήσεων αποτελεί ϐασική προϋπόθεση για την ανάπτυξη ενός έργου λογισµικού. Σφάλµατα στον ορισµό των λειτουργικών απαι τήσεων και ο ορισµός ελλιπούς λειτουργικότητας αποτελούν τα σηµαντικότερα προ ϐλήµατα που οδηγούν στην αποτυχία της διαδικασίας ανάπτυξης λογισµικού. Ο µη ολοκληρωµένος ορισµός των λειτουργικών απαιτήσεων έχει ως αποτέλεσµα τον λανθασµένο προγραµµατισµό των απαραίτητων εργασιών και ακολούθως την αποτυχία της υλοποίησης του έργου λογισµικού. Η παρούσα διπλωµατική εργασία αρχικά συγκεντρώνει ένα σύνολο δεδοµένων από λειτουργικές απαιτήσεις έργων λογισµικού από διάφορες πηγές. Σε πρώτο στάδιο ορίζεται η οντολογία που καλείται να περιγράψει την στατική όψη ενός έργου λογισµικού. Οι οντότητες που ορίζονται εντοπίζονται στις λειτουργικές απαιτήσεις του συνόλου δεδοµένων και δίνεται η δυνατότητα της αποδοτικής αποθήκευσης των δεδοµένων µε τη µορφή της οντολογίας. Σε επόµενο στάδιο γίνεται χρήση αλγορίθµων µηχανικής µάθησης µε στόχο την ε ξαγωγή προτάσεων ϐελτίωσης σε όλα τα επίπεδα ανάλυσης απαιτήσεων λογισµικού. Για την αξιολόγηση της απόδοσης των αλγορίθµων, µετά την εκπαίδευσή τους στο σύνολο δεδοµένων, δέχονται ως είσοδο ένα νέο έργο λογισµικού µε µη ολοκληρωµένη λειτουργικότητα και εξετάζεται η πληροφορία που εξάγεται από τον κάθε αλγόριθµο. Πιο συγκεκριµένα, υλοποιείται ο αλγόριθµος Apriori για την εξαγωγή κανόνων συσχέτισης µε στόχο τον εντοπισµό απούσας λειτουργικότητας. Επιπλέον, χρησιµοποιείται ο αλγόριθµος Λανθάνουσας Κατανοµής Dirichlet που εκτελεί τη ϑεµατική µοντελοποίηση των έργων λογισµικού του συνόλου δεδοµένων. Τέλος, γίνεται χρήση ενός αλγορίθµου Ιεραρχικής Οµαδοποίησης κειµένου και συγκρίνονται τα αποτελέσµατά του µε αυτά του προηγούµενου αλγορίθµου.
Employing Machine Learning and Intelligent Information Management Techniques ...ISSEL
Proper definition of functional requirements is a prerequisite for succesful software project development. Inaccurate and/or missing functional requirements are among the top reasons that lead to failure of the software development process, since incomplete definition of functional requirements results in erroneous scheduling of necessary tasks and subsequently failure in the implementation of the software project. This dissertation initially builds a dataset of functional requirements of software projects from various sources, which is missing from bibliography. Then an ontology is defined, that captures the static view of a software project. The functional require ments of the dataset are mapped to the defined entities and the data is efficiently stored using the ontology format. In the next step, machine learning algorithms are employed in order to extract recommendations for better software requirements elicitation. For the evaluation of their performance the models are fed with take a new software project with incomplete functionality as input and the extracted recommendations are evaluated.
Ανάπτυξη εργαλείου αυτοματοποίησης της παραγωγής σεναρίων για τη δημιουργία ψ...ISSEL
Η ανάπτυξη της Τεχνητής Νοημοσύνης τα τελευταία χρόνια έχει επιτρέψει τις τεχνολογίες ψηφιακών βοηθών να αναδειχθούν. Από κέντρα εξυπηρέτησης πελα τών εώς και ιατρικές διαγνώσεις, οι ψηφιακοί βοηθοί βρίσκουν εφαρμογή σε πολ λούς τομείς και χρησιμοποιούνται καθημερινά από χρήστες. Όλο και περισσότερες εταιρείες προσπαθούν να τους ενσωματώσουν στο πλαίσιό τους και οι τεχνολογίες πίσω από αυτούς συνεχώς εξελίσσονται. Επιπλέον, οι τεχνολογίες Ανοιχτού Κώδικα φέρνουν τα εργαλεία δημιουργίας ψηφιακών βοηθών πιο κοντά στους προγραμμα τιστές επιτρέποντας τους να πειραματιστούν με αυτά. Ένα τέτοιο εργαλείο είναι και το Rasa, μια τεχνολογία Ανοιχτού Κώδικα για τη δημιουργία ψηφιακών βοηθών βιομηχανικού επιπέδου που χρησιμοποιούν την Τεχνητή Νοημοσύνη. Η χρήση του Rasa απαιτεί ένα υψηλό επίπεδο προγραμματιστικών γνώσεων πράγμα που περιορίζει την ανάπτυξη τέτοιων συστημάτων αποκλειστικά σε προ γραμματιστές. Ενώ οι ψηφιακοί βοηθοί γίνονται όλο και πιο απαραίτητοι σε καθη μερινές εφαρμογές, το εμπόδιο της τεχνογνωσίας περιορίζει τον αριθμό των ατόμων που ασχολούνται με αυτές. Η παρούσα διπλωματική εργασία εστιάζει στην ανάπτυξη ενός εύχρηστου ερ γαλείου δημιουργίας σεναρίων-δεδομένων για το Rasa με στόχο την γρήγορη δη μιουργία ψηφιακών βοηθών. Με τη χρήση Python και συγκεκριμένα του framework Django παρουσιάζεται η υλοποίηση μιας full-stack εφαρμογής, από τις όψεις και τις διευθύνσεις των πόρων εώς τα μοντέλα και τις back-end διεργασίες. Η εφαρμογή αυτή κάνει εύκολη την δημιουργία και επεξεργασία ψηφιακών βοηθών αυτοματο ποιώντας τις περισσότερες λειτουργίες του Rasa. Επιπρόσθετα, γίνεται η χρήση της εφαρμογής με τη δημιουργία ψηφιακών βοη θών, απλών και σύνθετων. Αρχικά παρουσιάζεται η σχεδίαση των σεναρίων και των ιστοριών που θα ακολουθήσει η συζήτηση και στη συνέχεια αυτά υλοποιούνται στο σύστημα. Τέλος, δοκιμάζονται οι βοηθοί και αξιολογείται το αποτέλεσμα από τα παραδείγματα συζητήσεων. Σύμφωνα με τα αποτελέσματα, η εφαρμογή μπορεί να δημιουργήσει επιτυχη μένα ψηφιακούς βοηθούς που περιέχουν τα βασικά συστατικά του Rasa. Όσο όμως οι ψηφιακοί βοηθοί γίνονται πιο σύνθετοι, καθίστανται αναγκαία κάποια ανθρώπινη παρέμβαση ώστε η επιθυμητή λειτουργία να υλοποιηθεί. Έτσι παρότι η εφαρμογή λειτουργεί όπως θέλουμε σε απλά και σύνθετα σενάρια, όταν ο χειριστής χρειά ζεται κάτι αρκετά απαιτητικό σε πολυπλοκότητα, απαραίτητη είναι και πάλι η τεχνογνωσία προγραμματιστικών ικανοτήτων.
Ανάλυση και μοντελοποίηση προφίλ προγραμματιστών μέσω τεχνικών εξόρυξης γνώση...ISSEL
Η ανάγκη για την παραγωγή νέου λογισμικού αυξάνεται διαρκώς, τόσο λόγω της ψηφιοποίησης των διαδικασιών στη βιομηχανία, όσο και λόγω των αυξανόμενων απαιτήσεων των καταναλωτών για νέες ψηφιακές εμπειρίες. Η διαδικασία παραγωγής λογισμικού παραμένει, όμως, δύσκολη και πολύπλοκη, με πολλά έργα να μην φτάνουν στο τελικό στάδιο και να παραμένουν ανολοκλήρωτα. Για την αντιμετώπιση των προβλημάτων της διαδικασίας παραγωγής λογισμικού, οι εταιρίες ωθούνται να εφαρμόσουν νέες διαδικασίες και μεθόδους παραγωγής, όπως το Ευέλικτο μοντέλο. Είναι αναγκαίο, οπότε, να προσλάβουν τους κατάλληλους προγραμματιστές για τις θέσεις, που θα κατέχουν όχι μόνο τις απαραίτητες τεχνικές γνώσεις, αλλά και τις επικοινωνιακές δεξιότητες. Τα ανοιχτά αποθετήρια κώδικα μπορούν να προσφέρουν λύση στο πρόβλημα αυτό, καθώς παρέχουν πληροφορίες για τις τεχνικές ικανότητες και τις γλώσσες προγραμματισμού που χρησιμοποιούν οι προγραμματιστές. Επιπλέον, μέσω της αλληλεπίδρασης των προγραμματιστών, με σχόλια σε Issues και Pull Requests, μπορεί να αντληθεί πληροφορία για τις δεξιότητες επικοινωνίας τους. Στο πλαίσιο αυτό, η παρούσα διπλωματική εργασία προτείνει ένα σύστημα άντλησης και ανάλυσης των συνεισφορών των προγραμματιστών από τη πλατφόρμα GitHub, για τη παραγωγή χρήσιμων μετρικών, και ένα μοντέλο μη-εποπτευόμενης μάθησης για τον διαχωρισμό των προγραμματιστών σε ομάδες ανάλογα με τις δεξιότητές τους.
Analysis and profiling of developer profiles using data mining techniques fro...ISSEL
The need to produce new software is constantly increasing, both because of the digitisation of processes in industry, as well as the growing demands of consumers for new digital experiences. However, the software development process remains a difficult and complex endeavour, with many projects being challenged or failing. To address the problems of the software development process, companies are directed towards contemporary software engineering practices, such as Agile approach. For these paradigms, it is necessary to hire the right programmers for the positions, who have not only the necessary technical knowledge, but also the communication skills. However, assessment in the later axis is extremely difficult. Open source repositories can provide a solution to this problem, as they provide information on technical skills and programming languages used by programmers. Moreover, via the interaction of programmers through comments on Issues and Pull Requests, information about the their communication skills can be extracted. In this context, this thesis proposes a system for extracting and analysing developers’ contributions from the GitHub platform, to generate useful metrics, and an unsupervised learning model to cluster developers into groups according to their skills.
User-generated online content has met a significant increase in recent years, as comments, online conversations, wikis etc. are an integral part of everyday human life. The storage capability improvement of such data, combined with evolution of machine learning techniques, has led to the creation of Natural Language Understanding-Processing (NLU NLP) systems. These systems are capable of extracting useful information, without any human intervention. The sentiment that is expressed in the content contributed by users is valuable information for analysis and a number of efficient analysis systems have been built. However, there are few systems that perform sentiment analysis for the Greek language. The lack of datasets hinders the research in that direction. Within the context of the present diploma thesis, a data annotation system is developed, which is used to create a dataset containing technology product reviews and the sentiment that is expressed towards their aspects. The dataset is utilized to train sentiment analysis models. Firstly, a comparison between already existing models for Greek is conducted. Then, a new architecture for Aspect Category Detection (ACD) from reviews is proposed, which is used along with an existing architecture for Sentiment Polarity (SP) to forge an end-to-end model. Furthermore, a web interface is implemented, with the purpose of analyzing text from any given review and presenting the respective results in a user-friendly graphical interface. Experimentation with the trained models shows promising results. The end-to-end model manages to accurately recognize aspects that are included in a review and analyze the sentiment expressed towards them.
Ανίχνευση και Ανάλυση Συναισθήματος Πτυχών ΚριτικώνISSEL
Το περιεχόμενο που παράγεται από τους χρήστες στο διαδίκτυο έχει σημειώσει σημαντική αύξηση τα τελευταία χρόνια, καθώς τα σχόλια, οι διαδικτυακές συζητή σεις, οι ηλεκτρονικές πηγές κλπ. αποτελούν αναπόσπαστο κομμάτι της καθημερινό τητας. Η βελτίωση της ικανότητας αποθήκευσης τέτοιων δεδομένων, σε συνδυασμό με την εξέλιξη τεχνικών μηχανικής μάθησης, οδήγησε στην δημιουργία συστημάτων Κατανόησης-Επεξεργασίας Φυσικής Γλώσσας (NLU-NLP). Τα συστήματα αυτά εί ναι σε θέση να διαχειριστούν μεγάλο όγκο δεδομένων και να εξάγουν χρήσιμη πληροφορία, χωρίς ανθρώπινη παρέμβαση. Στο πλαίσιο αυτό, το συναίσθημα που εκφράζεται στο κείμενο των χρηστών αποτελεί επιθυμητή πληροφορία προς ανάλυση και υπάρχουν αρκετά και αξιόπι στα συστήματα σε αυτή την κατεύθυνση. Ωστόσο, δεν υπάρχουν πολλά συστήματα που να πραγματοποιούν ανάλυση συναισθήματος στην ελληνική γλώσσα. Η έλλειψη συνόλων δεδομένων αποτελεί τροχοπέδη στην έρευνα προς αυτή την κατεύθυνση. Στην παρούσα διπλωματική εργασία υλοποιείται ένα σύστημα σχολιασμού δε δομένων και μέσω αυτού δημιουργείται ένα σύνολο δεδομένων που περιέχει κριτι κές προϊόντων τεχνολογίας και το συναίσθημα που εκφράζεται προς τις πτυχές των προϊόντων. Το σύνολο δεδομένων αξιοποιείται για την εκπαίδευση μοντέλων ανά λυσης συναισθήματος. Σε πρώτη φάση, πραγματοποιείται μία σύγκριση μεταξύ των ήδη υπαρχόντων μοντέλων για τα ελληνικά. Έπειτα, προτείνεται μία νέα αρχιτεκτο νική για την ανίχνευση πτυχών από κριτικές (ACD), η οποία, σε συνδυασμό με μία υπάρχουσα αρχιτεκτονική για ανάλυση συναισθήματος πτυχών (SP), αξιοποιείται για την δημιουργία ενός συνολικού μοντέλου. Επιπρόσθετα, υλοποιείται μία διαδικτυακή διεπαφή για την ανάλυση κειμένου από οποιαδήποτε κριτική και την παρουσίαση των αποτελεσμάτων σε ένα γραφικό περιβάλλον φιλικό προς τον χρήστη. Η διεξαγωγή πειραμάτων με τα εκπαιδευμένα μοντέλα παρουσιάζει ικανοποιη τικά αποτελέσματα. Το συνολικό μοντέλο επιτυγχάνει την ακριβή αναγνώριση των πτυχών που περιέχονται σε μία κριτική και την ανάλυση του συναισθήματος που εκφράζεται προς αυτές.
Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...ISSEL
Το διευρυµένο τοπίο του λογισµικού ανοιχτού κώδικα OSS αποδεικνύει την αυξανόµενη παραγωγική δραστηριότητα των µηχανικών λογισµικού που συνεισφέρουν σε πολλαπλές πλατφόρµες και διάφορα έργα λογισµικού. Η συµµετοχή τους σε αυτά τα έργα αναδεικνύει το ευρύ ϕάσµα των δεξιοτήτων τους, από τη συγγραφή κώδικα έως τη συνεργασία τους µε άλλους µηχανικούς λογισµικού. Καθώς στο οικοσύστηµα του λογισµικού ανοιχτού κώδικα υπάρχει µια διαρκής και συνεχώς αυξανόµενη δραστηριότητα, είναι πολύ σηµαντική µια πιο ολοκληρωµένη κατανόηση των συνεισφορών και των δεξιοτήτων των µηχανικών λογισµικού. Σκοπός της παρούσας διπλωµατικής είναι να αξιοποιήσει δεδοµένα από την υποδοµή World of Code (WoC) που περιέχει συγκεντρωµένα δεδοµένα από τα περισσότερα δη µόσια συστήµατα ελέγχου εκδόσεων για να παρέχει µια πιο ολοκληρωµένη εικόνα του προφίλ ενός µηχανικού λογισµικού. Εξάγοντας, αναλύοντας και οπτικοποιώντας αυτά τα δεδοµένα, αναπτύχθηκε µια εφαρµογή που παρουσιάζει µια περιεκτική επισκόπηση των δραστηριοτήτων ενός µηχανικού στα έργα λογισµικού ανοικτού κώδικα. Η οπτική αναπαράσταση των δεδοµένων, µετατρέπει πολύπλοκα σύνολα δεδοµένων σε εύκολα κατανοητές γραφικές µορφές. Η αξιολόγηση της εφαρµογής σε ένα σύνολο µηχανικών λογισµικού δείχνει ότι πετυχαίνει τους στόχους της. Προσφέρει µια εικόνα της δραστηριότητας, του ϱόλου και των τεχνικών δεξιοτήτων ενός µηχανικού, ενισχύοντας τη διαφάνεια και την κατανόηση της συνεισφοράς του στο οικοσύστηµα του OSS.
Σχεδίαση και ανάπτυξη μηχανισμού αναγνώρισης επιθέσεων ασφαλείας σε διαδικτυα...ISSEL
Η αυξανόμενη χρήση του διαδικτυακού λογισμικού και η δημοφιλία του λογισμικού-ως-υπηρεσία έχει δημιουργήσει ένα μεγάλο κενό ασφαλείας στα συστήματα που μέχρι πριν από λίγα χρόνια "έτρεχαν" σε κλειστά δίκτυα: η πληροφορία (ευαίσθητη και μη) είναι πλέον διαθέσιμη στο διαδίκτυο. Κατά συνέπεια, η εφαρμογή κατάλληλων τεχνικών ασφάλειας του λογισμικού είναι μονόδρομος για τη θωράκισή της. Ο έλεγχος ασφάλειας πρέπει πλέον να γίνεται σε διάφορα και διαφορετικά επίπεδα, όπως στο επίπεδο δικτύου, στο επίπεδο του λειτουργικού, αλλά και στο επίπεδο της εφαρμογής. Στο πλαίσιο αυτό η παρούσα διπλωματική αποσκοπεί στη σχεδίαση και ανάπτυξη ενός μηχανισμού για την αναγνώριση πιθανών επιθέσεων ασφαλείας με τη χρήση τεχνικών μηχανικής μάθησης. Στόχος είναι η εφαρμογή τεχνικών μηχανικής μάθησης για την αναγνώριση "καλών" και “κακών” προτύπων συμπεριφοράς στο επίπεδο χρήστη (application-level). Ανάλυση θα γίνει σε δυναμικό επίπεδο (κατά τη λειτουργία των εφαρμογών) και θα αναπτυχθεί ένας μηχανισμός λήψης αποφάσεων.
Design and development of a Machine Learning based attack detection system fo...ISSEL
The increasing use of web applications and the popularity of Software-As-A-Service has created room for major vulnerability issues in systems which up until recently were “running” in restricted networks: information (sensitive or not) is now available on the internet. As a consequence, using appropriate software security procedures is the only way to protect it. Security checks must be performed in many and different layers, like the network layer, the OS layer, and also the application layer. In light of this, the objective of this diploma thesis is the design and development of a system that detects possible security attacks using machine learning algorithms. The goal is the use of machine learning algorithms to detect “good” and “bad” behaviors at the application layer. The analysis will be dynamic (at runtime) and a decision mechanism will be developed.
Ανάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία ΕφαρµογήςISSEL
Η ταχεία παραγωγή έργων λογισµικού σε ανταγωνιστικές αγορές πλέον επιτάσσει
αυτοµατοποίηση των ϕάσεων σχεδίασης και ανάπτυξης. Οι µηχανικοί λογισµικο-
ύ εξοικειώνονται συνεχώς µε νέα εργαλεία και τεχνολογίες που εξασφαλίζουν την
ορθή εφαρµογή σύγχρονων µεθοδολογιών, αλλά καλούνται συχνά να παράξουν
λογισµικό και σε πεδία εφαρµογής µε τα οποία δεν είναι εξοικειωµένοι, πάντο-
τε προσπαθώντας να ικανοποιήσουν τον προϊοντικό χάρτη στον οποίο εργάζονται.
Η παρούσα διδακτορική διατριβή έχει ως στόχο να ϐοηθήσει τους µηχανικούς
σε αυτήν τους την προσπάθεια εισάγοντας µια επικουρική µεθοδολογία ανάπτυ-
ξης. Αυτή ϐασίζεται στην ανάλυση της διαθέσιµης πεδιακής γνώσης προηγούµενων
έργων λογισµικού µε συστήµατα τεχνητής νοηµοσύνης και στη µερικώς αυτοµα-
τοποιηµένη συγγραφή πηγαίου κώδικα µε νέες τεχνικές. Για την ακρίβεια, προ-
τείνεται µια ϱοή ανάπτυξης και µια σειρά ϑεωρητικών και πρακτικών εργαλείων
τα οποία ϐοηθούν στη διερεύνηση υπαρχουσών λύσεων, την κατανόησή τους, και
τη συγγραφή πηγαίου κώδικα για την παραγωγή επαναχρησιµοποιήσιµων έργων
λογισµικού. Η προτεινόµενη µεθοδολογία µπορεί να υιοθετηθεί τόσο από νέους
όσο και από πεπειραµένους µηχανικούς για την επιτάχυνση της διαδικασίας α-
νάπτυξης λογισµικού σε νέα (για αυτούς) πεδία εφαρµογής.
Εφαρμογή Τεχνικών Εξόρυξης Δεδομένων σε Αποθήκες Λογισμικού με σκοπό την Εξα...ISSEL
Η στενή συνεργασία μεταξύ των προγραμματιστών για την ανάπτυξη καινοτόμων έργων λογισμικού κρίνεται απαραίτητη. Για αυτόν τον λόγο, υπάρχουν αρκετές διαδικτυακές πλατφόρμες φιλοξενίας προγραμμάτων, οι οποίες δίνουν τη δυνατότητα στους χρήστες τους να παρακολουθεί ο ένας τις αλλαγές, τις προτάσεις και τις παρατηρήσεις του άλλου για την εξέλιξη και τη βελτίωση του κώδικα. Επιπλέον, οι πλατφόρμες αυτές ελέγχουν τις διαφορετικές εκδόσεις του κώδικα ενός έργου, ώστε ο προγραμματιστής να μπορεί να ανατρέξει σε οποιαδήποτε από αυτές, εάν το επιθυμεί. Όλες οι τροποποιήσεις, οι οποίες διενεργούνται από ένα πρόσωπο της ομάδας ανάπτυξης λογισμικού σε μία δεδομένη χρονική στιγμή, συγκεντρώνονται σε ένα commit, όπου καταγράφονται μάλιστα όλοι οι λόγοι πίσω από αυτές. Έτσι, γίνεται κατανοητό ότι τέτοιες συλλογές αλλαγών εμπεριέχουν πολλές χρήσιμες πληροφορίες για τον τρόπο με τον οποίο εξελίσσεται ένα έργο λογισμικού. Η εφαρμογή τεχνικών του κλάδου της εξόρυξης δεδομένων στις δημόσιες αποθήκες λογισμικού και σε όλα τα δεδομένα που αναφέρθηκαν παραπάνω θα μπορούσε να φέρει στο φως ορισμένες συχνές διορθώσεις σφαλμάτων, συστηματικές τροποποιήσεις, επαναλαμβανόμενους τύπους αλλαγών στην αρχιτεκτονική, καθώς και κάποια ευρέως χρησιμοποιούμενα σχεδιαστικά πρότυπα, γνωστά ή μη. Μία εκτενής βιβλιογραφική έρευνα σε αυτόν τον τομέα αποκαλύπτει ότι οι περισσότερες προσπάθειες επιστημόνων έχουν στραφεί στις διορθώσεις σφαλμάτων και στις συστηματικές τροποποιήσεις, με αποτέλεσμα να έχουν αγνοηθεί κάποια λιγότερο λεπτομερή, δηλαδή πιο υψηλού επιπέδου (high level) μοτίβα εξέλιξης ή συγγραφής κώδικα. Στο πλαίσιο αυτό, η παρούσα διπλωματική εργασία προσπαθεί να ανακαλύψει τις σχέσεις ανάμεσα στις διάφορες κλάσεις ενός προγράμματος, αλλά και να παρακολουθήσει τον τρόπο με τον οποίο αυτές αλλάζουν στο πέρασμα του χρόνου. Για να επιτευχθούν οι παραπάνω στόχοι, προσαρμόζεται ένα εργαλείο εξαγωγής σχέσεων (Relationships Extractor), η λειτουργία του οποίου βασίζεται στην ανάλυση των Αφηρημένων Συντακτικών Δέντρων (Abstract Syntax Trees) που αφορούν τους κώδικες μερικών από τα πιο δημοφιλή έργα λογισμικού της διαδικτυακής πλατφόρμας του Github. Αφού αναλυθούν και επεξεργαστούν αυτά τα συντακτικά δέντρα, εξάγονται πληροφορίες για τη λειτουργία των κλάσεων, την αφαιρετικότητά τους και την κληρονομικότητα, οι οποίες στη συνέχεια μοντελοποιούνται σε γράφους (με τις κλάσεις ως κόμβους και τις συνδέσεις τους ως ακμές). Αφού λοιπόν ολοκληρωθούν οι παραπάνω ενέργειες για την τελική μορφή του εκάστοτε προγράμματος, η ίδια σειρά ενεργειών ακολουθείται και για κάθε στιγμιότυπό του, εξάγοντας τη διαφορά ως προς τις σχέσεις ανάμεσα στην έκδοσή του πριν και μετά από κάθε commit ξεχωριστά. Τέλος, εφαρμόζοντας τον αλγόριθμο gSpan (graph-based Substructure pattern mining), έναν αλγόριθμο αναζήτησης συχνών πογράφων σε ένα σύνολο γράφων, ανιχνεύονται ορισμένα ευρέως χρησιμοποιούμενα από την παγκόσμια προγραμματιστική κοινότητα, μοτίβα σχεδίασης και εξέλιξης λογισμικού.
Applying Data Mining Techniques on Software Repositories to Extract Design an...ISSEL
Close collaboration between software developers is considered essential in order to build innovative software projects. For this reason, there are several online program-hosting platforms, which enable their users to watch each other’s changes, recommendations and comments towards the improvement and evolution of code. These platforms also control different versions of the software code so that the developer can revert to previous ones if desired. All the modifications performed at a given time by a member of the software development team are bundled in a commit, where the main reasons behind them are also recorded. As a consequence, it goes without saying that these series of changes include a lot of useful information about the way a software project evolves. Applying data mining techniques on public software repositories and the data we discussed above could unveil some common bug fixes, systematic edits, frequent types of changes in a project’s architecture and frequently-used design patterns either known or unknown ones. An extensive bibliographic research in this domain reveals that the majority of scientific efforts has focused on bug fixes and systematic edits ignoring some more coarse-grained (high-level) code evolution or design patterns. In this context, this dissertation tries to extract the relationships between the classes of an object-oriented program, while also seeking to monitor the way they evolve over time. To achieve these goals, this diploma thesis adapts a Relationship Extractor tool based on the Abstract Syntax Trees analysis of some of the most popular software projects in Github web platform. After analyzing and processing those syntax trees, useful information is extracted concerning the operation, the abstraction level as well as the inheritance of classes. This information is then modeled as graphs (with classes as nodes and the connections between them as edges). These steps are not only executed for the latest version of a project, but also in each and every commit with a view to extracting the difference in relationships between the versions of a project before and after the specific commit. Finally, gSpan, which is a frequent-subgraph mining algorithm, is applied, in order to detect code design and evolution patterns used by the software community worldwide.
Implementation of a platform for assessing indoor spaces regarding their frie...ISSEL
This thesis presents an innovative tool specifically designed to assess the dementia friendliness of indoor spaces. With the rise in dementia cases globally, the need to adapt environments to the unique needs of those affected is becoming increasingly important. This research focuses on evaluating how friendly and suitable these spaces are for individuals with dementia, with a particular emphasis on flooring. The developed tool leverages the power of deep learning and machine learning to analyze images of indoor spaces, identifying objects within these images to evaluate their suitability for dementia-friendly environments. The tool currently focuses on evaluating rugs, equipped with an easy to navigate and effective web application that allows caregivers, designers (or other users) to easily upload photos for assessment. This specialized approach ensures that users can quickly understand how these floor coverings align with dementia-friendly design principles. The tool is user-friendly and efficient, designed for quick assessment of indoor areas. Rather than suggesting changes, it rates how dementia-friendly these spaces are, providing valuable insights for caregivers and designers. This feature is essential for public places such as care homes, private residences or even hotels that aim to be dementia-friently, where creating safe, understandable, and comfortable environments for people with dementia is crucial. Overall, this thesis merges technology with the principles of interior design in the context of dementia care. It offers a significant contribution to the field, providing a practical and innovative approach to assess and understand dementia-friendly environments.
Autonomous car position calculation with particle filters using traffic data ...ISSEL
As autonomous vehicle technology progresses, the need for precise real-time positioning in dynamic urban environments becomes increasingly vital. This thesis explores the utilization of particle filters to calculate the position of autonomous cars, using traffic data within a simulated environment. The primary goal is to improve accuracy and reliability in vehicle localization by integrating information from dynamic traffic conditions into the positioning algorithm. A simulated environment is employed to replicate realistic traffic scenarios, generating diverse and dynamic datasets. Particle filters are implemented as a probabilistic framework, assimilating information from various sources such as sensor data and traffic patterns to estimate the vehicle’s position. Through extensive experimentation, the efficacy of the proposed approach is assessed across diverse traffic conditions and scenarios. Results indicate that real time traffic data significantly enhances the precision and robustness of autonomous car positioning. The particle filter algorithm seamlessly adapts to changing traffic situations, demonstrating its potential for practical implementation in autonomous driving systems. Additionally, the thesis investigates the influence of different parameters and configurations on the particle filter algorithm’s performance. Insights gained from these studies contribute to optimizing the algorithm for a range of urban driving conditions. In summary, this research advances autonomous vehicle positioning by introducing an innovative approach that integrates particle filters with traffic data in a simulated environment. The findings hold implications for developing more accurate and adaptable autonomous navigation systems, laying the foundation for safer and more reliable self-driving vehicles in intricate urban settings.
More Related Content
Similar to Ανάπτυξη ειδησεογραφικού ψηφιακού βοηθού πραγματικού χρόνου
Analysis and profiling of developer profiles using data mining techniques fro...ISSEL
The need to produce new software is constantly increasing, both because of the digitisation of processes in industry, as well as the growing demands of consumers for new digital experiences. However, the software development process remains a difficult and complex endeavour, with many projects being challenged or failing. To address the problems of the software development process, companies are directed towards contemporary software engineering practices, such as Agile approach. For these paradigms, it is necessary to hire the right programmers for the positions, who have not only the necessary technical knowledge, but also the communication skills. However, assessment in the later axis is extremely difficult. Open source repositories can provide a solution to this problem, as they provide information on technical skills and programming languages used by programmers. Moreover, via the interaction of programmers through comments on Issues and Pull Requests, information about the their communication skills can be extracted. In this context, this thesis proposes a system for extracting and analysing developers’ contributions from the GitHub platform, to generate useful metrics, and an unsupervised learning model to cluster developers into groups according to their skills.
User-generated online content has met a significant increase in recent years, as comments, online conversations, wikis etc. are an integral part of everyday human life. The storage capability improvement of such data, combined with evolution of machine learning techniques, has led to the creation of Natural Language Understanding-Processing (NLU NLP) systems. These systems are capable of extracting useful information, without any human intervention. The sentiment that is expressed in the content contributed by users is valuable information for analysis and a number of efficient analysis systems have been built. However, there are few systems that perform sentiment analysis for the Greek language. The lack of datasets hinders the research in that direction. Within the context of the present diploma thesis, a data annotation system is developed, which is used to create a dataset containing technology product reviews and the sentiment that is expressed towards their aspects. The dataset is utilized to train sentiment analysis models. Firstly, a comparison between already existing models for Greek is conducted. Then, a new architecture for Aspect Category Detection (ACD) from reviews is proposed, which is used along with an existing architecture for Sentiment Polarity (SP) to forge an end-to-end model. Furthermore, a web interface is implemented, with the purpose of analyzing text from any given review and presenting the respective results in a user-friendly graphical interface. Experimentation with the trained models shows promising results. The end-to-end model manages to accurately recognize aspects that are included in a review and analyze the sentiment expressed towards them.
Ανίχνευση και Ανάλυση Συναισθήματος Πτυχών ΚριτικώνISSEL
Το περιεχόμενο που παράγεται από τους χρήστες στο διαδίκτυο έχει σημειώσει σημαντική αύξηση τα τελευταία χρόνια, καθώς τα σχόλια, οι διαδικτυακές συζητή σεις, οι ηλεκτρονικές πηγές κλπ. αποτελούν αναπόσπαστο κομμάτι της καθημερινό τητας. Η βελτίωση της ικανότητας αποθήκευσης τέτοιων δεδομένων, σε συνδυασμό με την εξέλιξη τεχνικών μηχανικής μάθησης, οδήγησε στην δημιουργία συστημάτων Κατανόησης-Επεξεργασίας Φυσικής Γλώσσας (NLU-NLP). Τα συστήματα αυτά εί ναι σε θέση να διαχειριστούν μεγάλο όγκο δεδομένων και να εξάγουν χρήσιμη πληροφορία, χωρίς ανθρώπινη παρέμβαση. Στο πλαίσιο αυτό, το συναίσθημα που εκφράζεται στο κείμενο των χρηστών αποτελεί επιθυμητή πληροφορία προς ανάλυση και υπάρχουν αρκετά και αξιόπι στα συστήματα σε αυτή την κατεύθυνση. Ωστόσο, δεν υπάρχουν πολλά συστήματα που να πραγματοποιούν ανάλυση συναισθήματος στην ελληνική γλώσσα. Η έλλειψη συνόλων δεδομένων αποτελεί τροχοπέδη στην έρευνα προς αυτή την κατεύθυνση. Στην παρούσα διπλωματική εργασία υλοποιείται ένα σύστημα σχολιασμού δε δομένων και μέσω αυτού δημιουργείται ένα σύνολο δεδομένων που περιέχει κριτι κές προϊόντων τεχνολογίας και το συναίσθημα που εκφράζεται προς τις πτυχές των προϊόντων. Το σύνολο δεδομένων αξιοποιείται για την εκπαίδευση μοντέλων ανά λυσης συναισθήματος. Σε πρώτη φάση, πραγματοποιείται μία σύγκριση μεταξύ των ήδη υπαρχόντων μοντέλων για τα ελληνικά. Έπειτα, προτείνεται μία νέα αρχιτεκτο νική για την ανίχνευση πτυχών από κριτικές (ACD), η οποία, σε συνδυασμό με μία υπάρχουσα αρχιτεκτονική για ανάλυση συναισθήματος πτυχών (SP), αξιοποιείται για την δημιουργία ενός συνολικού μοντέλου. Επιπρόσθετα, υλοποιείται μία διαδικτυακή διεπαφή για την ανάλυση κειμένου από οποιαδήποτε κριτική και την παρουσίαση των αποτελεσμάτων σε ένα γραφικό περιβάλλον φιλικό προς τον χρήστη. Η διεξαγωγή πειραμάτων με τα εκπαιδευμένα μοντέλα παρουσιάζει ικανοποιη τικά αποτελέσματα. Το συνολικό μοντέλο επιτυγχάνει την ακριβή αναγνώριση των πτυχών που περιέχονται σε μία κριτική και την ανάλυση του συναισθήματος που εκφράζεται προς αυτές.
Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...ISSEL
Το διευρυµένο τοπίο του λογισµικού ανοιχτού κώδικα OSS αποδεικνύει την αυξανόµενη παραγωγική δραστηριότητα των µηχανικών λογισµικού που συνεισφέρουν σε πολλαπλές πλατφόρµες και διάφορα έργα λογισµικού. Η συµµετοχή τους σε αυτά τα έργα αναδεικνύει το ευρύ ϕάσµα των δεξιοτήτων τους, από τη συγγραφή κώδικα έως τη συνεργασία τους µε άλλους µηχανικούς λογισµικού. Καθώς στο οικοσύστηµα του λογισµικού ανοιχτού κώδικα υπάρχει µια διαρκής και συνεχώς αυξανόµενη δραστηριότητα, είναι πολύ σηµαντική µια πιο ολοκληρωµένη κατανόηση των συνεισφορών και των δεξιοτήτων των µηχανικών λογισµικού. Σκοπός της παρούσας διπλωµατικής είναι να αξιοποιήσει δεδοµένα από την υποδοµή World of Code (WoC) που περιέχει συγκεντρωµένα δεδοµένα από τα περισσότερα δη µόσια συστήµατα ελέγχου εκδόσεων για να παρέχει µια πιο ολοκληρωµένη εικόνα του προφίλ ενός µηχανικού λογισµικού. Εξάγοντας, αναλύοντας και οπτικοποιώντας αυτά τα δεδοµένα, αναπτύχθηκε µια εφαρµογή που παρουσιάζει µια περιεκτική επισκόπηση των δραστηριοτήτων ενός µηχανικού στα έργα λογισµικού ανοικτού κώδικα. Η οπτική αναπαράσταση των δεδοµένων, µετατρέπει πολύπλοκα σύνολα δεδοµένων σε εύκολα κατανοητές γραφικές µορφές. Η αξιολόγηση της εφαρµογής σε ένα σύνολο µηχανικών λογισµικού δείχνει ότι πετυχαίνει τους στόχους της. Προσφέρει µια εικόνα της δραστηριότητας, του ϱόλου και των τεχνικών δεξιοτήτων ενός µηχανικού, ενισχύοντας τη διαφάνεια και την κατανόηση της συνεισφοράς του στο οικοσύστηµα του OSS.
Σχεδίαση και ανάπτυξη μηχανισμού αναγνώρισης επιθέσεων ασφαλείας σε διαδικτυα...ISSEL
Η αυξανόμενη χρήση του διαδικτυακού λογισμικού και η δημοφιλία του λογισμικού-ως-υπηρεσία έχει δημιουργήσει ένα μεγάλο κενό ασφαλείας στα συστήματα που μέχρι πριν από λίγα χρόνια "έτρεχαν" σε κλειστά δίκτυα: η πληροφορία (ευαίσθητη και μη) είναι πλέον διαθέσιμη στο διαδίκτυο. Κατά συνέπεια, η εφαρμογή κατάλληλων τεχνικών ασφάλειας του λογισμικού είναι μονόδρομος για τη θωράκισή της. Ο έλεγχος ασφάλειας πρέπει πλέον να γίνεται σε διάφορα και διαφορετικά επίπεδα, όπως στο επίπεδο δικτύου, στο επίπεδο του λειτουργικού, αλλά και στο επίπεδο της εφαρμογής. Στο πλαίσιο αυτό η παρούσα διπλωματική αποσκοπεί στη σχεδίαση και ανάπτυξη ενός μηχανισμού για την αναγνώριση πιθανών επιθέσεων ασφαλείας με τη χρήση τεχνικών μηχανικής μάθησης. Στόχος είναι η εφαρμογή τεχνικών μηχανικής μάθησης για την αναγνώριση "καλών" και “κακών” προτύπων συμπεριφοράς στο επίπεδο χρήστη (application-level). Ανάλυση θα γίνει σε δυναμικό επίπεδο (κατά τη λειτουργία των εφαρμογών) και θα αναπτυχθεί ένας μηχανισμός λήψης αποφάσεων.
Design and development of a Machine Learning based attack detection system fo...ISSEL
The increasing use of web applications and the popularity of Software-As-A-Service has created room for major vulnerability issues in systems which up until recently were “running” in restricted networks: information (sensitive or not) is now available on the internet. As a consequence, using appropriate software security procedures is the only way to protect it. Security checks must be performed in many and different layers, like the network layer, the OS layer, and also the application layer. In light of this, the objective of this diploma thesis is the design and development of a system that detects possible security attacks using machine learning algorithms. The goal is the use of machine learning algorithms to detect “good” and “bad” behaviors at the application layer. The analysis will be dynamic (at runtime) and a decision mechanism will be developed.
Ανάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία ΕφαρµογήςISSEL
Η ταχεία παραγωγή έργων λογισµικού σε ανταγωνιστικές αγορές πλέον επιτάσσει
αυτοµατοποίηση των ϕάσεων σχεδίασης και ανάπτυξης. Οι µηχανικοί λογισµικο-
ύ εξοικειώνονται συνεχώς µε νέα εργαλεία και τεχνολογίες που εξασφαλίζουν την
ορθή εφαρµογή σύγχρονων µεθοδολογιών, αλλά καλούνται συχνά να παράξουν
λογισµικό και σε πεδία εφαρµογής µε τα οποία δεν είναι εξοικειωµένοι, πάντο-
τε προσπαθώντας να ικανοποιήσουν τον προϊοντικό χάρτη στον οποίο εργάζονται.
Η παρούσα διδακτορική διατριβή έχει ως στόχο να ϐοηθήσει τους µηχανικούς
σε αυτήν τους την προσπάθεια εισάγοντας µια επικουρική µεθοδολογία ανάπτυ-
ξης. Αυτή ϐασίζεται στην ανάλυση της διαθέσιµης πεδιακής γνώσης προηγούµενων
έργων λογισµικού µε συστήµατα τεχνητής νοηµοσύνης και στη µερικώς αυτοµα-
τοποιηµένη συγγραφή πηγαίου κώδικα µε νέες τεχνικές. Για την ακρίβεια, προ-
τείνεται µια ϱοή ανάπτυξης και µια σειρά ϑεωρητικών και πρακτικών εργαλείων
τα οποία ϐοηθούν στη διερεύνηση υπαρχουσών λύσεων, την κατανόησή τους, και
τη συγγραφή πηγαίου κώδικα για την παραγωγή επαναχρησιµοποιήσιµων έργων
λογισµικού. Η προτεινόµενη µεθοδολογία µπορεί να υιοθετηθεί τόσο από νέους
όσο και από πεπειραµένους µηχανικούς για την επιτάχυνση της διαδικασίας α-
νάπτυξης λογισµικού σε νέα (για αυτούς) πεδία εφαρµογής.
Εφαρμογή Τεχνικών Εξόρυξης Δεδομένων σε Αποθήκες Λογισμικού με σκοπό την Εξα...ISSEL
Η στενή συνεργασία μεταξύ των προγραμματιστών για την ανάπτυξη καινοτόμων έργων λογισμικού κρίνεται απαραίτητη. Για αυτόν τον λόγο, υπάρχουν αρκετές διαδικτυακές πλατφόρμες φιλοξενίας προγραμμάτων, οι οποίες δίνουν τη δυνατότητα στους χρήστες τους να παρακολουθεί ο ένας τις αλλαγές, τις προτάσεις και τις παρατηρήσεις του άλλου για την εξέλιξη και τη βελτίωση του κώδικα. Επιπλέον, οι πλατφόρμες αυτές ελέγχουν τις διαφορετικές εκδόσεις του κώδικα ενός έργου, ώστε ο προγραμματιστής να μπορεί να ανατρέξει σε οποιαδήποτε από αυτές, εάν το επιθυμεί. Όλες οι τροποποιήσεις, οι οποίες διενεργούνται από ένα πρόσωπο της ομάδας ανάπτυξης λογισμικού σε μία δεδομένη χρονική στιγμή, συγκεντρώνονται σε ένα commit, όπου καταγράφονται μάλιστα όλοι οι λόγοι πίσω από αυτές. Έτσι, γίνεται κατανοητό ότι τέτοιες συλλογές αλλαγών εμπεριέχουν πολλές χρήσιμες πληροφορίες για τον τρόπο με τον οποίο εξελίσσεται ένα έργο λογισμικού. Η εφαρμογή τεχνικών του κλάδου της εξόρυξης δεδομένων στις δημόσιες αποθήκες λογισμικού και σε όλα τα δεδομένα που αναφέρθηκαν παραπάνω θα μπορούσε να φέρει στο φως ορισμένες συχνές διορθώσεις σφαλμάτων, συστηματικές τροποποιήσεις, επαναλαμβανόμενους τύπους αλλαγών στην αρχιτεκτονική, καθώς και κάποια ευρέως χρησιμοποιούμενα σχεδιαστικά πρότυπα, γνωστά ή μη. Μία εκτενής βιβλιογραφική έρευνα σε αυτόν τον τομέα αποκαλύπτει ότι οι περισσότερες προσπάθειες επιστημόνων έχουν στραφεί στις διορθώσεις σφαλμάτων και στις συστηματικές τροποποιήσεις, με αποτέλεσμα να έχουν αγνοηθεί κάποια λιγότερο λεπτομερή, δηλαδή πιο υψηλού επιπέδου (high level) μοτίβα εξέλιξης ή συγγραφής κώδικα. Στο πλαίσιο αυτό, η παρούσα διπλωματική εργασία προσπαθεί να ανακαλύψει τις σχέσεις ανάμεσα στις διάφορες κλάσεις ενός προγράμματος, αλλά και να παρακολουθήσει τον τρόπο με τον οποίο αυτές αλλάζουν στο πέρασμα του χρόνου. Για να επιτευχθούν οι παραπάνω στόχοι, προσαρμόζεται ένα εργαλείο εξαγωγής σχέσεων (Relationships Extractor), η λειτουργία του οποίου βασίζεται στην ανάλυση των Αφηρημένων Συντακτικών Δέντρων (Abstract Syntax Trees) που αφορούν τους κώδικες μερικών από τα πιο δημοφιλή έργα λογισμικού της διαδικτυακής πλατφόρμας του Github. Αφού αναλυθούν και επεξεργαστούν αυτά τα συντακτικά δέντρα, εξάγονται πληροφορίες για τη λειτουργία των κλάσεων, την αφαιρετικότητά τους και την κληρονομικότητα, οι οποίες στη συνέχεια μοντελοποιούνται σε γράφους (με τις κλάσεις ως κόμβους και τις συνδέσεις τους ως ακμές). Αφού λοιπόν ολοκληρωθούν οι παραπάνω ενέργειες για την τελική μορφή του εκάστοτε προγράμματος, η ίδια σειρά ενεργειών ακολουθείται και για κάθε στιγμιότυπό του, εξάγοντας τη διαφορά ως προς τις σχέσεις ανάμεσα στην έκδοσή του πριν και μετά από κάθε commit ξεχωριστά. Τέλος, εφαρμόζοντας τον αλγόριθμο gSpan (graph-based Substructure pattern mining), έναν αλγόριθμο αναζήτησης συχνών πογράφων σε ένα σύνολο γράφων, ανιχνεύονται ορισμένα ευρέως χρησιμοποιούμενα από την παγκόσμια προγραμματιστική κοινότητα, μοτίβα σχεδίασης και εξέλιξης λογισμικού.
Applying Data Mining Techniques on Software Repositories to Extract Design an...ISSEL
Close collaboration between software developers is considered essential in order to build innovative software projects. For this reason, there are several online program-hosting platforms, which enable their users to watch each other’s changes, recommendations and comments towards the improvement and evolution of code. These platforms also control different versions of the software code so that the developer can revert to previous ones if desired. All the modifications performed at a given time by a member of the software development team are bundled in a commit, where the main reasons behind them are also recorded. As a consequence, it goes without saying that these series of changes include a lot of useful information about the way a software project evolves. Applying data mining techniques on public software repositories and the data we discussed above could unveil some common bug fixes, systematic edits, frequent types of changes in a project’s architecture and frequently-used design patterns either known or unknown ones. An extensive bibliographic research in this domain reveals that the majority of scientific efforts has focused on bug fixes and systematic edits ignoring some more coarse-grained (high-level) code evolution or design patterns. In this context, this dissertation tries to extract the relationships between the classes of an object-oriented program, while also seeking to monitor the way they evolve over time. To achieve these goals, this diploma thesis adapts a Relationship Extractor tool based on the Abstract Syntax Trees analysis of some of the most popular software projects in Github web platform. After analyzing and processing those syntax trees, useful information is extracted concerning the operation, the abstraction level as well as the inheritance of classes. This information is then modeled as graphs (with classes as nodes and the connections between them as edges). These steps are not only executed for the latest version of a project, but also in each and every commit with a view to extracting the difference in relationships between the versions of a project before and after the specific commit. Finally, gSpan, which is a frequent-subgraph mining algorithm, is applied, in order to detect code design and evolution patterns used by the software community worldwide.
Similar to Ανάπτυξη ειδησεογραφικού ψηφιακού βοηθού πραγματικού χρόνου (20)
Implementation of a platform for assessing indoor spaces regarding their frie...ISSEL
This thesis presents an innovative tool specifically designed to assess the dementia friendliness of indoor spaces. With the rise in dementia cases globally, the need to adapt environments to the unique needs of those affected is becoming increasingly important. This research focuses on evaluating how friendly and suitable these spaces are for individuals with dementia, with a particular emphasis on flooring. The developed tool leverages the power of deep learning and machine learning to analyze images of indoor spaces, identifying objects within these images to evaluate their suitability for dementia-friendly environments. The tool currently focuses on evaluating rugs, equipped with an easy to navigate and effective web application that allows caregivers, designers (or other users) to easily upload photos for assessment. This specialized approach ensures that users can quickly understand how these floor coverings align with dementia-friendly design principles. The tool is user-friendly and efficient, designed for quick assessment of indoor areas. Rather than suggesting changes, it rates how dementia-friendly these spaces are, providing valuable insights for caregivers and designers. This feature is essential for public places such as care homes, private residences or even hotels that aim to be dementia-friently, where creating safe, understandable, and comfortable environments for people with dementia is crucial. Overall, this thesis merges technology with the principles of interior design in the context of dementia care. It offers a significant contribution to the field, providing a practical and innovative approach to assess and understand dementia-friendly environments.
Autonomous car position calculation with particle filters using traffic data ...ISSEL
As autonomous vehicle technology progresses, the need for precise real-time positioning in dynamic urban environments becomes increasingly vital. This thesis explores the utilization of particle filters to calculate the position of autonomous cars, using traffic data within a simulated environment. The primary goal is to improve accuracy and reliability in vehicle localization by integrating information from dynamic traffic conditions into the positioning algorithm. A simulated environment is employed to replicate realistic traffic scenarios, generating diverse and dynamic datasets. Particle filters are implemented as a probabilistic framework, assimilating information from various sources such as sensor data and traffic patterns to estimate the vehicle’s position. Through extensive experimentation, the efficacy of the proposed approach is assessed across diverse traffic conditions and scenarios. Results indicate that real time traffic data significantly enhances the precision and robustness of autonomous car positioning. The particle filter algorithm seamlessly adapts to changing traffic situations, demonstrating its potential for practical implementation in autonomous driving systems. Additionally, the thesis investigates the influence of different parameters and configurations on the particle filter algorithm’s performance. Insights gained from these studies contribute to optimizing the algorithm for a range of urban driving conditions. In summary, this research advances autonomous vehicle positioning by introducing an innovative approach that integrates particle filters with traffic data in a simulated environment. The findings hold implications for developing more accurate and adaptable autonomous navigation systems, laying the foundation for safer and more reliable self-driving vehicles in intricate urban settings.
Ανίχνευση αντικειµένων από λίγα δείγµατα µε χρήση γραφηµάτων και τεχνικών ΜΕΤ...ISSEL
Η ανίχνευση αντικειµένων από λίγα δείγµατα (FSOD) αποσκοπεί στην ανίχνευση αντικειµένων κλάσεων για τις οποίες υπάρχουν περιορισµένα δεδοµένα. Η προσαρµογή των σύγχρονων ανιχνευτών στο σενάριο περιορισµένων δεδοµένων παραµένει µια πρόκλη ση, καθώς τα περισσότερα µοντέλα απαιτούν τεράστιες ποσότητες δειγµάτων για να εκπαιδευτούν σωστά. Το FSOD αντιµετωπίζει αυτό το πρόβληµα µε την τεχνική ΜΕΤΑ εκπαίδευσης δύο κλάδων, κατά την οποία το µοντέλο εκπαιδεύεται επεισοδιακά. Χρησιµοποιώντας αυτή τη µέθοδο, ένα µοντέλο είναι σε θέση να ανιχνεύει νέες κατηγορίες δίχως ποτέ να έχει εκπαιδευτεί σε αυτές (meta-testing). Μια κοινή µέθοδος ανίχνευσης είναι η δηµιουργία προτύπων κατηγοριών από ένα σύνολο εικόνων υποστήριξης σε κάθε επεισόδιο και η εκµάθηση του τρόπου αντιστοίχησης αυτών µε κάθε εικόνα ερώτησης. Ωστόσο, οι περισσότερες προσεγγίσεις δηµιουργούν αυτά τα πρότυπα µεµονωµένα, χωϱίς να λαµβάνουν υπόψη όλες τις άλλες κλάσεις και τις συσχετίσεις τους, οι οποίες θα µπορούσαν να προσφέρουν κρίσιµη πληροφορία και να εµπλουτίσουν σηµαντικά κάθε ένα από αυτά. Στην παρούσα εργασία, προσπαθούµε να ενσωµατώσουµε αυτές τις συσχετίσεις σε ένα σύγχρονο µοντέλο χρησιµοποιώντας ένα γράφηµα προτύπων. Μέσω της αποτελεσµατικής µεταβίβασης µηνυµάτων µεταξύ όλων των κόµβων, κάθε πρότυπο εµπλουτίζεται από τους πιο παρόµοιους γείτονές του, γεγονός που µπορεί να αντισταθµίσει την περίπτωση των θορυβωδών προτύπων και να βελτιώσει την ακρίβεια ανίχνευσης νέων κλάσεων. Τα πειραµατικά αποτελέσµατα δείχνουν ότι οι προτεινόµενες µέθοδοι βελτιώνουν σηµαντικά την ακρίβεια ανίχνευσης meta-testing του βασικού µοντέλου στο PASCAL VOC σετ δεδοµένων, υπό διαφορετικό αριθµό δειγµάτων (shots) και µετρικών.
Ανάπτυξη Φίλτρων Ανεπιθύμητων Μηνυμάτων με Χρήση Τεχνικών Τεχνητής ΝοημοσύνηςISSEL
Το ”spamming”, δηλαδή η αποστολή ανεπιθύμητων μηνυμάτων σε πολλούς χρήστες, έχει ευνοηθεί με την ανάπτυξη των ψηφιακών επικοινωνιών και την τεχνοκεντρική στροφή στη ζωή του ανθρώπου. Οι συνθήκες αυτές, διευκολύνουν την αποστολή spam μηνυμάτων, αλλά και ο άνθρωπος είναι περισσότερο εκτεθειμένος σ’ αυτά. Ωστόσο, η ερευνητική κοινότητα έχει αναπτύξει συστήματα ανίχνευσης των ανεπιθύμητων μηνυμάτων για να προστατεύσει τους χρήστες και τον απρόσκοπτο χαρακτήρα της επικοινωνίας, που πραγματοποιείται μέσω των ψηφιακών μέσων. Η αγγλική βιβλιογραφία είναι πλούσια σε μεθόδους που μπορούν να χρησιμοποιηθούν για τον περιορισμό του spam. Από την άλλη, η έρευνα σε άλλες γλώσσες είναι αρκετά περιορισμένη. Η παρούσα διπλωματική στοχεύει στην επέκταση των μεθόδων και συστημάτων ανίχνευσης από τα αγγλικά στα ελληνικά. Λόγω της έλλειψης διαθέσιμων ελληνικών δεδομένων, πραγματοποιείται αυτόματη μετάφραση από τα αγγλικά στα ελληνικά, με τη χρήση της υπηρεσίας μετάφρασης Google translate. Οπότε, τα ελληνικά φίλτρα ανίχνευσης, εκπαιδεύονται στα μεταφρασμένα δεδομένα. Ειδικότερα, εξετάζει διαφόρους αλγορίθμους Μηχανικής Μάθησης και Επεξεργασίας Φυσικής Γλώσσας για την ανάπτυξη των συστημάτων ανίχνευσης. Η διπλωματική, καταλήγει ότι η επανεκπαίδευση μοντέλων BERT, στα δεδομένα του προβλήματος, έχουν τις καλύτερες αποδόσεις και στις δυο γλώσσες. Επίσης, πετυχαίνουν τη μικρότερη δυνατή διαφορά στις αποδόσεις των δυο γλωσσών. Οπότε, προτείνει υλοποιήσεις που βασίζονται στo επανεκπαιδευμένo BERT για τα αγγλικά και στο Greek BERT για τα ελληνικά. Ειδικότερα υλοποιεί ένα Καθολικό Φίλτρο, που συνδυάζει τα διαθέσιμα δεδομένα, Θεματικά Φίλτρα που ανιχνεύουν συγκεκριμένες κατηγορίες spam αλλά και ένα Σύστημα Θεματικών Φίλτρων για την ανίχνευση όλων των κατηγοριών. Τελικά, μέσω της σύγκρισης των αποδόσεων των αγγλικών φίλτρων στα πρωτότυπα αγγλικά δεδομένα και των ελληνικών φίλτρων στα μεταφρασμένα ελληνικά (ανθρωπίνως και αυτοματοποιημένα), η συμβολή της μηχανικής μετάφρασης στην ανάπτυξη ελληνικού συστήματος ανίχνευσης, κρίνεται επιτυχημένη.
Ανάπτυξη Ελληνικών Μοντέλων Εντοπισμού Ρητορικής Μίσους.pptxISSEL
Η ραγδαία και συνεχής εξάπλωση των μέσων κοινωνικής δικτύωσης έχει οδηγήσει σε έξαρση της ρητορικής μίσους και της χρήσης προσβλητικής γλώσσας στη σύγχρονη εποχή. Πολλές έρευνες δείχνουν ότι η ρητορική μίσους στα μέσα κοινωνικής δικτύωσης έχει δυσμενείς επιπτώσεις στην ψυχική και σωματική ευεξία των ατόμων που τα χρησιμοποιούν. Κατά συνέπεια, υπάρχει αυξανόμενη ανάγκη για την αυτοματοποίηση της ανίχνευσης της ρητορικής μίσους και του προσβλητικού περιεχομένου. Είναι σημαντικό να σημειωθεί ότι η πλειονότητα των ερευνητικών προσπαθειών επικεντρώνονται στην ανίχνευση ρητορικής μίσους στην αγγλική γλώσσα. Αυτό οφείλεται κυρίως στη διαθεσιμότητα των απαραίτητων μοντέλων και συνόλων δε δομένων για τη εκπαίδευση τους για την ανίχνευση ρητορικής μίσους. Η ανάγκη ανίχνευσης της ρητορικής μίσους σε γλώσσες εκτός της αγγλικής είναι υψίστης σημασίας. Για να γεφυρωθεί αυτό το κενό, η παρούσα εργασία στοχεύει στην αύξηση των διαθέσιμων ελληνικών δεδομένων με την δημιουργία ενός χειροκίνητα σχολιασμένου συνόλου δεδομένων που αποτελείται από ελληνικά tweets με ετικέτα που αφορά την παρουσία ή την απουσία προσβλητικού περιεχομένου. Επιπλέον, δημιουργήθηκε ένα ακόμα σετ δεδομένων από τα tweets που περιείχαν μόνο ρητορική μίσους, τα οποία επιπλέον διαχωρίστηκαν σε υποκατηγορίες ρητορικής μίσους. Στη συνέχεια, χρησιμοποιούμε τα δύο νέα αυτά σύνολα δεδομένων καθώς και ένα προϋπάρχον ελληνικό σύνολο δεδομένων, εκπαιδεύουμε μοντέλα μηχανικής μάθησης, καθώς και γλωσσικά μοντέλα στηριζόμενα σε νευρωνικά δίκτυα για το ζήτημα της ανίχνευσης ρητορικής μίσους.
Σχεδιασμός και υλοποίηση πλήρους και αυτοματοποιημένου εργαλείου ελέγχων ασφά...ISSEL
Με την ολοένα και αυξανόμενη υιοθέτηση των πρακτικών DevOps και την άνοδο του Continuous Integration/Continuous Deployment (CI/CD) στην ανάπτυξη λογισμικού, ο κύκλος ζωής ανάπτυξης λογισμικού (SDLC) έχει επιφέρει σημαντικές αλλαγές στη βιομηχανία. Αν και αυτές οι μέθοδοι προσφέρουν πολλά πλεονεκτήματα, παρουσιάζουν επίσης μοναδικές προ κλήσεις ασφαλείας, καθώς οι εφαρμογές που αναπτύσσονται με αυτές είναι πιο επιρρεπείς σε κυβερνοεπιθέσεις συγκριτικά με τις παραδοσιακές μεθόδους ανάπτυξης λογισμικού. Το DevSecOps, ένας συνδυασμός πρακτικών ανάπτυξης (Dev), ασφάλειας (Sec) και λειτουργιών (Ops), έχει αναδειχθεί ως μια κρίσιμη προσέγγιση στην ασφάλεια λογισμικού στο σημερινό ταχέως εξελισσόμενο τεχνολογικό τοπίο. Αυτή η μεθοδολογία είναι ουσιαστική και σχετική για διάφορους λόγους. Πρώτον, αντιμετωπίζει την αυξανόμενη ανάγκη για ασφάλεια στην ανάπτυξη λογισμικού. Καθώς οι απειλές και οι επιθέσεις στον κυβερνοχώρο γίνονται πιο εξελιγμένες, η ενσωμάτωση της ασφάλειας στον αγωγό DevOps βοηθά τους οργανισμούς να εντοπίζουν και να μετριάζουν προληπτικά τις ευπάθειες από το πρώιμο στάδιο ανάπτυξης του λογισμικού, μειώνοντας τον κίνδυνο παραβίασης δεδομένων και διακοπής λειτουργίας. Δεύτερον, η ανάγκη για ταχύτερες και συχνότερες εκδόσεις λογισμικού απαιτεί μια μετατόπιση από τις παραδοσιακές πρακτικές ασφαλείας, οι οποίες συχνά προκαλούν καθυστε ρήσεις. Το DevSecOps απλοποιεί την ασφάλεια αυτοματοποιώντας τις δοκιμές και τους ελέγχους συμμόρφωσης, επιτρέποντας τη συνεχή παράδοση (CD) χωρίς να θυσιάζεται η ασφάλεια. Επιπλέον, το DevSecOps ενθαρρύνει μια κουλτούρα κοινής ευθύνης, ενισχύοντας τη συνεργασία μεταξύ προγραμματιστών, επαγγελματιών ασφάλειας και ομάδων επιχειρήσεων. Αυτή η συλλογική προσέγγιση οδηγεί σε βελτιωμένη επικοινωνία, βελτιωμένη επίγνωση των ανη συχιών για την ασφάλεια και ταχύτερη απόκριση σε αναδυόμενες απειλές. Σε μια εποχή όπου ο ψηφιακός μετασχηματισμός βρίσκεται στην πρώτη γραμμή των επιχει ρηματικών στρατηγικών, το DevSecOps είναι απαραίτητο για τη διασφάλιση της ανθεκτικότητας, της ακεραιότητας και της εμπιστευτικότητας των συστημάτων λογισμικού. Ευθυγραμμίζει την ασφάλεια με το ρυθμό της σύγχρονης ανάπτυξης λογισμικού, καθιστώντας το ένα κρίσιμο και επίκαιρο παράδειγμα για τη διαφύλαξη των ψηφιακών δεδομένων και περιουσιακών στοιχείων. Η παρούσα διπλωματική προτείνει μια μέθοδο για τη συμπλήρωση και την αυτοματοποίηση σαρώσεων ασφάλειας έργων λογισμικού με χρήση αποκλειστικά εργαλείων ανοιχτού κώδικα (Open-source software) για την πραγματοποίηση των σαρώσεων ασφάλειας, την παρακολούθηση των αποτελεσμάτων και την αυτοματοποίηση επιδιορθώσεων ευπαθειών. Η προτεινόμενη έρευνα έχει ενσωματωθεί σε υποδομή Continuous Integration/Continuous Delivery, επιτρέποντας την αυτόματη σάρωση και επιδιόρθωση τρωτών σημείων κατά τη διαδικασία και τον κύκλο ανάπτυξης και παράδοσης του λογισμικού.
Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...ISSEL
Στη σημερινή εποχή, η ραγδαία ανάπτυξη της τεχνολογίας, έχει οδηγήσει και στη γρήγορη ανάπτυξη έργων λογισµικού πολλών γραμμών κώδικα, τα οποία έχουν επηρεάσει πολλές πτυχές της καθημερινής µας ζωής. Η αναγνωσιμότητας του κώδικα, αποτελεί χρήσιμο ποιοτικό χαρακτηριστικό ενός έργου λογισµικού. Μάλιστα, έρευνες έχουν δείξει ότι επηρεάζει το έργο τόσο κατά το στάδιο ανάπτυξής του όσο και κατά τη διάρκεια συντήρησης του έργου. Για τον σκοπό αυτό, έχουν αναπτυχθεί διάφορα μοντέλα αναγνωσιμότητας κώδικα. Κάθε ένα από αυτά τα μοντέλα βασίζεται σε διαφορετικά χαρακτηριστικά, αναλύοντας πτυχές όπως η δομή του κώδικα, η όψη του κώδικα, αλλά και το περιεχόµενο. Στην παρούσα διπλωματική εργασία, επιχειρούμε, βασιζόμενοι στα ήδη υπάρχοντα μοντέλα αξιολόγησης αναγνωσιμότητας κώδικα, να αναλύσουμε περαιτέρω την έννοια της αναγνωσιμότητας. Αναλύθηκαν commits χρηστών από την πλατφόρμα GitHub, τα οποία είναι συνδεδεμένα µε την αναγνωσιμότητα του κώδικα, µε βάση κάποια από τα ήδη υπάρχοντα μοντέλα αξιολόγησης αναγνωσιμότητας. Αρχικός στόχος ήταν µε βάση τα δεδοµένα που προέκυψαν από αυτά τα commits των προγραμματιστών να διερευνηθεί εάν τα commits, τα οποία ισχυρίζονται τη βελτίωση της αναγνωσιμότητας πράγματι τη βελτιώνουν, καθώς και ποιες αλλαγές ή συνδυασμός αυτών είναι υπεύθυνες για τη βελτίωση ή µη της αναγνωσιμότητας. Ένας δεύτερος στόχος, ο οποίος µας απασχόλησε ήταν εάν θα µπορούσαμε µέσα από τις διαφορές των χαρακτηριστικών του κώδικα πριν και µετά το commit να καταλάβουμε ποια μοντέλα αναγνωσιμότητας είναι ικανά να κατηγοριοποιήσουν ποιες αλλαγές έχουν πραγματοποιηθεί στον κώδικα, καθώς και να προτείνουμε ένα πιο αποδοτικό μοντέλο. Και στα δύο παραπάνω ερωτήματα για την ανάπτυξη των μοντέλων χρησιμοποιήθηκαν μετρικές από διαφορετικά μοντέλα αξιολόγησης αναγνωσιμότητας κώδικα, τα οποία συγκρίθηκαν ως προς την απόδοσή τους.
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...ISSEL
Η ανάκτηση πληροφορίας ανέκαθεν ήταν μια πλέον σημαντική πτυχή κάθε διεργασίας και δεδομένης της ταχείας αύξησης της απαίτησης γρήγορης και εύστοχης παροχής και ανάκτησης πληροφοριών, δεν είναι τίποτα παρά φυσικό να γίνεται συλλογική προσπάθεια προς την βελτιστοποίηση αυτής της διαδικασίας με οποιαδήποτε μέσα είναι διαθέσιμα, όπως η Τεχνητή Νοημοσύνη. Με αυτό τον τρόπο θα μπορεί ένας υπολογιστής να “εκπαιδευτεί” και να βοηθάει στο έργο αυτό, αντί να είναι μονάχα ένα εργαλείο για μαθηματικά πιθανοτήτων και στατιστική. Σε μία εποχή όπου τα πάντα είναι καθοδηγούμενα από την πληροφορία και τα δεδομένα, η ανάγκη για δομημένα δεδομένα και ορθή ανάκτηση πληροφορίας είναι τουλάχιστον επιτακτική. Η δομή και η οργάνωση στα δεδομένα διευκολύνει την λήψη αποφάσεων και μέσω αυτού επιβεβαιώνεται πάντα η σημασία και η συνεισφορά της τεχνητής νοημοσύνης και των μοντέλων μηχανικής μάθησης. Η εφαρμογή και η υλοποίηση μεθόδων και τεχνικών βαθιάς μάθησης μπορεί σταδιακά μπορεί να βοηθήσει στην απαλλαγή μας από την εξάρτηση από λέξεις κλειδιά και να οδεύσουμε προς την διδασκαλία της σημασιολογικής κατανόησης της φυσικής γλώσσας από τους υπολογιστές. Σε αυτό μπορεί να συνεισφέρει εν μέρει από ένα πλήρως αυτόνομο σύστημα ικανό να οργανώνει, να διαχειρίζεται και να ταξινομεί έγγραφα σημασιολογικά, με ελάχιστη εκπαίδευση. Η αξιοποίηση των δυνατοτήτων και της πολυχρηστικότητας της μάθησης και ταξινόμησης μηδενικών και λίγων βολών, καθώς και των σύγχρονων τεχνικών θεματικής μοντελοποίησης, μπορεί κανείς να αναπτύξει μια εφαρμογή που ως είσοδο λαμβάνει ακατέργαστα μη επισημειωμένα ή επεξεργασμένα δεδομένα και να επιστρέφει μια πλήρως λειτουργική εφαρμογή ερωτοαπαντήσεων. Στην προσπάθεια μεγιστοποίησης της πολυχρηστικότητας του εν λόγω συστήματος, η παρούσα διπλωματική εργασία ερευνεί και αξιολογεί την βιωσιμότητα ενός συστήματος τέτοιας φύσεως. Δεδομένου ότι ο τελικός σκοπός είναι η δομημένη πληροφορία και η αποτελεσματική ανάκτηση της, θα εξεταστεί η υπόθεση της αποκεντρωμένης προσέγγισης, καθώς μειώνονται σημαντικά οι απαιτήσεις υπολογιστικής ισχύος και αποθηκευτικού χώρου. Μέσω δοκιμών και πειραμάτων τα παραγόμενα δεδομένα φαίνεται να υποστηρίζουν την υπόθεση υπέρ ενός τέτοιου συστήματος, και δυνητικά με διάφορα πλεονεκτήματα υπέρ ενός αντίστοιχου αλλά ενιαίου συστήματος.
Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...ISSEL
Η συνεχής ανάπτυξη της τεχνολογίας έχει εδραιώσει τη χρήση γραφικών διεπαφών ως έναν εύχρηστο και χρήσιμο τρόπο αλληλεπίδρασης με έναν υπολογιστή. Παράλληλα η εξάπλωση του ηλεκτρονικού εμπορίου, που αποτελεί πλέον κυρίαρχο τρόπο πραγματοποίησης εμπορικών συναλλαγών, αλλάζει τα εμπορικά δεδομένα. Αυτά καθιστούν απαραίτητο τον εκσυγχρονισμό των επιχειρήσεων και την αναπροσαρμογή των πολιτικών και στρατηγικών τιμολόγησης που θα υιοθετήσουν, ώστε οι τιμές και οι προωθητικές τους ενέργειες να είναι ανταγωνιστικές, να συμβάλλουν στην επίτευξη των στόχων τους και στην μεγιστοποίηση των κερδών τους μέσα από ένα φιλικό γραφικό περιβάλλον διεπαφής. Η παρούσα διπλωματική εργασία πραγματεύεται τον σχεδιασμό και την ανάπτυξη μιας γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στόχο την εξέλιξη τεχνικών δυναμικής τιμολόγησης. Η γραφική διεπαφή που αναπτύσσεται περιέχει μια φόρμα συμπλήρωσης των παραμέτρων ενός αλγοριθμικού μοντέλου στρατηγικών τιμολόγησης, ένα περιβάλλον γραφικής οπτικοποίησης των εισόδων του χρήστη και ένα αντίστοιχο περιβάλλον προβολής των αποτελεσμάτων του συστήματος.
Δημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας ΙσχυρισμώνISSEL
Βασικό χαρακτηριστικό της σημερινής εποχής είναι η ταχύτατη διακίνηση της πληροφορίας. Η ποικιλία και ο τεράστιος όγκος των μεταδιδόμενων πληροφοριών δεν επιτρέπουν πάντα τον έλεγχο της εγκυρότητάς τους πριν τη μαζική αναπαραγωγή τους, με αποτέλεσμα να εμφανίζεται έντονα το φαινόμενο της παραπληροφόρησης. Παλαιότερα ο έλεγχος των ειδήσεων πραγματοποιούνταν χειροκίνητα, ωστόσο πλέον η ανάγκη ανάπτυξης αυτόματων συστημάτων διασταύρωσης της πληροφορίας κρίνεται επιτακτική. Στο πλαίσιο της παρούσας διπλωματικής εργασίας αναπτύσσεται ένα end to end σύστημα ανίχνευσης ψευδών ειδήσεων, το οποίο αποτελείται από επιμέρους εξαρτήματα που ακολουθούν την παρακάτω συλλογιστική πορεία. Σε πρώτη φάση ανιχνεύονται προτάσεις που αξίζει να ελεγχθούν ως προς την ορθότητά τους. Για κάθε μία από αυτές, συγκεντρώνεται ένας αριθμός εγγράφων από μια βάση ‘αλήθειας’, τα οποία λειτουργούν ως αποδεικτικά στοιχεία. Τέλος, με βάση τα παραπάνω αποδεικτικά έγγραφα λαμβάνεται μία απόφαση σχετικά με την εγκυρότητα των προτάσεων που επιλέγονται. Για τη δημιουργία του παραπάνω συστήματος αξιοποιείται το σύνολο δεδομένων FEVER, το οποίο περιέχει προτάσεις γενικού ενδιαφέροντος. Εξετάζεται η απόδοση των προ-εκπαιδευμένων μοντέλων BERT, RoBERTa, DistilBERT και SqueezeBERT τα οποία εκπαιδεύονται σε τμήμα του συνόλου. Διερευνάται η επιρροή του ρυθμού και του αριθμού εποχών εκπαίδευσης στην επίδοσή τους, καθώς και η συμπεριφορά τους σε απλές και σύνθετες διεργασίες, όπως είναι ο εντοπισμός των προτάσεων προς εξέταση και η επαλήθευσή τους αντίστοιχα. Για την ανάκτηση των απαραίτητων εγγράφων που χρησιμοποιούνται για την επαλήθευση της ορθότητας των προτάσεων, αξιοποιούνται αλγόριθμοι που στηρίζονται στα λεξιλογικά χαρακτηριστικά των κειμένων, BM25, αλλά και Sentence Transformers, msmarco distilbert-base-tas-b, που έχουν την ικανότητα να αντιλαμβάνονται τα συμφραζόμενα των κειμένων. Τέλος, δημιουργείται μια εφαρμογή η οποία προσφέρει τη δυνατότητα στο χρήστη να καταθέτει την πρόταση του συνόλου ελέγχου που επιθυμεί να ελέγξει και παράλληλα οπτικοποιεί τα αποτελέσματα του συστήματος παρέχοντας αιτιολόγηση για κάθε απόφαση που λαμβάνεται. Τα πειραματικά αποτελέσματα καταδεικνύουν την απόδοση των επιλεγόμενων υλοποιήσεων στο σύνολο ελέγχου του FEVER Shared Task για κάθε διεργασία ξεχωριστά και το πως επηρεάζει την απόδοση ο συνδυασμός τους. Το σύστημα που προτείνεται επιτυγχάνει ακρίβεια πρόβλεψης 60.2% στο FEVER Shared Task, υπολείπεται 8% της καλύτερης υλοποίησης, και 58.12% στο σύνολο της διεργασίας, συμπεριλαμβανομένης της διαδικασίας ανίχνευσης ισχυρισμών, φανερώνοντας την πολυπλοκότητα δημιουργίας τέτοιων συστημάτων.
Εξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµαταISSEL
Η κατανεµηµένη φύση της τεχνολογίας Εξόρυξης ∆εδοµένων έχει στο παρελθόν
αντιµετωπιστεί επιτυχώς µε τη χρήση και αξιοποίηση της τεχνολογίας των Πρακτόρων Λογισµικού, οι οποίοι καταµερίζουν τις εργασίες, συνεργάζονται και συγχρονίζονται έτσι ώστε να φτάσουν στον τελικό τους στόχο, την εξαγωγή χρήσιµης γνώσης. Μια σειρά από εξελιγµένα εργαλεία Εξόρυξης ∆εδοµένων έχουν ήδη αναπτυχθεί, αποδεικνύοντας ότι η Πολυπρακτορική Τεχνολογία µπορεί πράγµατι να χρησιµοποιηθεί για να επιλύσει τέτοιου είδους προβλήµατα. Αντιστρέφοντας τους ρόλους του σκοπού και του µέσου, όµως, γνώση η οποία εξάγεται µε τη χρήση τεχνικών Εξόρυξης ∆εδοµένων δεν έχει χρησιµοποιηθεί για τη βελτίωση Πολυπρακτορικών Συστηµάτων. Περιορισµοί οι οποίοι σχετίζονται µε τη
διαφορετική φύση της λογικής που υιοθετούν οι δυο εµπλεκόµενες τεχνολογίες
(επαγωγική για την Εξόρυξη ∆εδοµένων και συµπερασµατική για τα Πολυπρακτορικά
Συστήµατα), εµποδίζουν την απρόσκοπτη εφαρµογή της εξαγόµενης γνώσης στο
λογικό µοντέλο των πρακτόρων. Εάν αυτοί οι περιορισµοί υπερκεραστούν, τότε ο
συγκερασµός των δυο τεχνολογιών θα καταστεί εφικτός.
Στα πλαίσια της διατριβής αυτής παρουσιάζεται µια ενοποιηµένη µεθοδολογία, η
οποία επιτρέπει την εφαρµογή δυναµικών, σύνθετων και ανανεώσιµων κανόνων σε
πολυπρακτορικά συστήµατα. Οι κανόνες αυτοί εξάγονται µε τη χρήση τεχνικών
Εξόρυξης ∆εδοµένων, σε πράκτορες και πολυπρακτορικά συστήµατα. Η µεθοδολογία
αυτή αναγνωρίζει τρεις διαφορετικούς τύπους γνώσης, η οποία προέρχεται από την
εφαρµογή τεχνικών Εξόρυξης ∆εδοµένων, και ανάλογα διαφοροποιεί το µοντέλο
διάχυσής της. Οι τρεις αυτοί τύποι γνώσης είναι: α) γνώση η οποία εξάγεται µε τη
χρήση τεχνικών Εξόρυξης ∆εδοµένων στα ιστορικά δεδοµένα µιας εφαρµογής, β)
γνώση η οποία εξάγεται µε τη χρήση τεχνικών Εξόρυξης ∆εδοµένων στα ιστορικά
δεδοµένα των συµπεριφορών των πρακτόρων µιας εφαρµογής και, γ) γνώση η οποία
εξάγεται µε τη χρήση εξελικτικών τεχνικών Εξόρυξης ∆εδοµένων σε πολυπρακτορικές κοινωνίες. Στη διατριβή αυτή µελετάται η δυνατότητα εφαρµογής των τεσσάρωνκυρίαρχων τεχνικών Εξόρυξης ∆εδοµένων σε πολυπρακτορικά συστήµατα:
Οµαδοποίηση για διαχωρισµό, Ταξινόµηση για κατηγοριοποίηση και πρόβλεψη,
εξαγωγή Κανόνων Συσχέτισης για ανακάλυψη συσχετισµών και Γενετικοί αλγόριθµοι
για αυτό-οργάνωση. Για την υλοποίηση και επίδειξη της δυναµικής ενσωµάτωσης
γνώσης σε πράκτορες αναπτύχθηκε ο Data Miner, ένα εργαλείο που περιγράφεται στο Κεφάλαιο 4. Για κάθε έναν από τους τρεις διαφορετικούς τύπους γνώσης αναπτύχθηκε και ένα αντιπροσωπευτικό Πολυπρακτορικό Σύστηµα, του οποίου και γίνεται εκτενής παρουσίαση (Κεφάλαια 5-7). Τέλος, η παρούσα διατριβή πραγµατεύεται και το θέµα της βελτίωσης του γνωσιακού µοντέλου των πρακτόρων, µε την επανάληψη της διαδικασίας χρήσης τεχνικών Εξόρυξης ∆εδοµένων πάνω σε σύγχρονα και ενηµερωµένα δεδοµένα (Επανεκπαίδευση – Κεφάλαιο 8). Τα συµπεράσµατα από την εκπόνηση της διατριβής και πιθανές µελλοντικές επεκτάσεις συνοψίζονται στο Κεφάλαιο 9.
Ανάπτυξη Μηχανισμών Αυτοματοποίησης των διαδικασιών κατασκευής συστημάτων λο...ISSEL
Όπως έχει αποτυπωθεί στην ιστορία μέσω των συντελεσθεισών βιομηχανικών
επαναστάσεων, βαρύνουσας σημασίας στην εξέλιξη της ανθρωπότητας υπήρξε, και συνεχίζει να είναι, η αυτοματοποίηση διαδικασιών στην επαγγελματική και ιδιωτική ζωή του ανθρώπου. Η εξάπλωση της τεχνολογίας σε αυτές και η δεσπόζουσα θέση του διαδικτυακού «παράλληλου σύμπαντος», οδηγούν στην ψηφιοποίηση ολοένα και περισσότερων διαδικασιών, που επομένως βασίζονται σε Λογισμικό. Συνεπώς, το στοίχημα κάλυψης της ταχέως αυξανόμενης ανάγκης ψηφιοποίησης αποτελεί η έτι περαιτέρω αυτοματοποίηση της παραγωγής Λογισμικού μέσω της ανάπτυξης νέων μεθοδολογιών, στοχεύοντας στην παραγωγή ορθού και ποιοτικού Λογισμικού. Στο πλαίσιο αυτό, η παρούσα διατριβή πραγματεύεται τη σχεδίαση και εφαρμογή καινοτόμων μηχανισμών για την αυτοματοποίηση των διαδικασιών παραγωγής λογισμικού, εν προκειμένω RESTful Διαδικτυακών Υπηρεσιών. Προς επίτευξη των στόχων αυτής (μεταξύ άλλων και η ανάπτυξη αντίστοιχου Μηχανισμού Αυτοματοποίησης), χρησιμοποιείται ως μέσο αυτοματοποίησης η Μηχανική Λογισμικού Οδηγούμενη από Μοντέλα, με τους βασικούς δομικούς λίθους της οποίας (μετα-μοντέλα και μετασχηματισμούς) επιχειρείται η επίτευξη αυτοματοποίησης στο ευρύτερο πεδίο
των RESTful διαδικτυακών υπηρεσιών.
Στη συνεισφορά της παρούσας διατριβής στον τομέα της αυτοματοποίησης
συγκαταλέγεται καταρχάς, η διδιάστατη Αρχιτεκτονική Μηχανισμών αυτοματοποίησης με χρήση Μηχανικής Λογισμικού Οδηγούμενης από Μοντέλα, η οποία διευκολύνει την παραλληλοποίηση της ανάπτυξής τους, τη μείωση της πολυπλοκότητάς τους και αυξάνει την συντηρησιμότητα και επεκτασιμότητά τους. Επιπλέον, συνοδεύεται από μία συνεκτική στρατηγική διάσπασης του συνολικού προβλήματος σε μικρότερα, τόσο σε επίπεδο μετα-μοντέλων όσο και σε επίπεδο μετασχηματισμών, λαμβάνοντας υπόψιν τα εγγενή αίτια πολυπλοκότητας της μεθοδολογίας, προκειμένου να διευκολύνει επιπλέον την κατασκευή τους.
Ακολούθως, συνεισφέρει μετα-μοντέλα και μετασχηματισμούς που αφορούν την
αυτοματοποίηση των πτυχών των Διαδικτυακών Υπηρεσιών με τις οποίες ασχολείται όπως: α) δόμηση συστημάτων αρχιτεκτονικής REST, β) με δυνατότητες ταυτοποίησης χρήστη, γ) εξουσιοδότησης χρήστη, δ) αυτόματης εφαρμογής Προτύπων Σχεδίασης για την ικανοποίηση μη λειτουργικών πτυχών αυτών, ε) αναζήτησης δεδομένων, ζ) αλληλεπίδρασης με υπάρχουσες υπηρεσίες στο Διαδίκτυο και, τέλος, η) δυνατότητας μετασχηματισμού υπηρεσιών σε RESTful με ταυτόχρονη διατήρηση των δεδομένων τους.
Τέλος, η παρούσα διατριβή απαντά σε ερευνητικά ερωτήματα που άπτονται: α) της βελτίωσης της παραγωγικότητας των Μηχανικών Λογισμικού για την παραγωγή RESTful Διαδικτυακών Υπηρεσιών, β) της βελτίωσης της παραγωγικότητάς τους κατά την εφαρμογή Προτύπων Σχεδίασης για την επίλυση συχνά συναντώμενων προβλημάτων, γ) την εκτίμηση του χάσματος προσπάθειας ανάμεσα σε ...
ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...ISSEL
Οι ολοένα αυξανόμενες απαιτήσεις των σύγχρονων έργων λογισμικού τόσο σε
λειτουργικό, όσο και σε μη λειτουργικό επίπεδο έχουν καταστήσει παραπάνω από
εμφανή την ανάγκη επόπτευσης της ποιότητάς τους. Το γεγονός αυτό
καταδεικνύεται από το μεγάλο ποσοστό των έργων λογισμικού που αποτυγχάνουν,
καθώς αδυνατούν να ικανοποιήσουν τις προδιαγραφές που έχουν τεθεί στα
πλαίσια ενός σαφούς χρονοδιαγράμματος και εντός προϋπολογισμού. Η απάντηση
στην πρόκληση αυτή εντοπίζεται στην ανάπτυξη μεθοδολογιών και τεχνικών
αποτίμησης της ποιότητας λογισμικού, διαδικασία που αποτελεί ανοιχτό πεδίο
ερευνητικού ενδιαφέροντος και συγκεντρώνει μεγάλη απήχηση εδώ και δεκαετίες.
...
Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...ISSEL
Ως γνωστόν, οι επιστήμες της ρομποτικής και των Κυβερνοφυσικών Συστημά-
των (ΚΦΣ) καλύπτουν/απαιτούν ένα ευρύ φάσμα γνώσεων στα πεδία του υλικού,
του λογισμικού, των συστημάτων, των αλγορίθμων μηχανικής μάθησης κ.α., καθι-
στώντας τον έλεγχο ενός ρομπότ, ή μίας συσκευής, μία χρονοβόρα και δύσκολη
διαδικασία, ακόμη και για κάποιον εξοικειωμένο με τους συγκεκριμένους τομείς.
Από την άλλη, η ραγδαία εξέλιξη στους κλάδους της ρομποτικής, του διαδικτύου
των πραγμάτων (IoT) και των σύγχρονων ΚΦΣ, έχει ως αποτέλεσμα την ανάπτυ-
ξη διάφορων τεχνολογιών και εργαλείων υποστήριξης της ανάπτυξης συστημάτων
και εφαρμογών τα τελευταία χρόνια. Η υψηλή ετερογένεια που συναντάμε στα
συστήματα αυτά, βασίζεται κυρίως στην διασύνδεση του φυσικού και του ψηφια-
κού κόσμου, αλλά και στην πληθώρα των διαθέσιμων τεχνολογιών και εργαλείων
σχεδίασης, ανάπτυξης και εγκατάστασης. Παραδείγματα σύγχρονων ΚΦΣ είναι τα
έξυπνα σπίτια και οι έξυπνες υποδομές γενικότερα, καθώς και τα ψηφιακά δίδυμα.
Τα συστήματα αυτά αποτελούνται από φυσικές συσκευές, οι οποίες αλληλεπιδρούν
με το φυσικό περιβάλλον μέσω των αισθητήρων και ενεργοποιητών που διαχειρί-
ζονται, καθώς και από ψηφιακές οντότητες, οι οποίες είναι υπεύθυνες για την δια-
σύνδεση, την επεξεργασία, την παρακολούθηση, τον έλεγχο και την ενορχήστρωση
σε επίπεδο συστήματος και εφαρμογής.
Η παρούσα διδακτορική διατριβή επικεντρώνεται στο πρόβλημα της μέτα-μοντε-
λοποίησης των φάσεων σχεδίασης (design), υλοποίησης (implementation) και α-
νάπτυξης (deployment) Κυβερνοφυσικών Συστημάτων (ΚΦΣ). Συγκεκριμένα, στα
πλαίσια της διατριβής μελετήθηκαν και εφαρμόστηκαν τεχνικές μηχανικής λογισμι-
κού οδηγούμενης από μοντέλα για την ανάπτυξη μιας μεθοδολογίας και αντίστοι-
χων Γλωσσών Ειδικού Πεδίου (Domain Specific Languages - DSLs) για την αυτο-
ματοποίηση των προαναφερθεισών φάσεων. Βασικός στόχος της διατριβής είναι η
συστηματοποίηση των διαδικασιών ανάπτυξης σύγχρονων συστημάτων και εφαρ-
μογών ΚΦΣ, με χρήση υψηλού επιπέδου εργαλείων, μεσολογισμικού και γλωσσών
ειδικού πεδίου. Η διατριβή εστιάζει σε συσκευές ανοικτού υλικού και λογισμι-
κού (open hardware/open software), ενώ στοχεύει να διευκολύνει την ανάπτυξη
εφαρμογών από μη ειδικούς του πεδίου (citizen developers) μέσω της χρήσης των
μέτα-μοντέλων και των γλωσσών που αναπτύχθηκαν στα πλαίσια της διατριβής.
Εξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικούISSEL
Η ανάγκη για την αποτελεσματική ανάπτυξη και συντήρηση λογισμικού έχει εντοπιστεί εδώ και αρκετό καιρό στο σχετικό κλάδο της Τεχνολογίας Λογισμικού. Σήμερα, ωστόσο, με την εισαγωγή νέων πρακτικών ανάπτυξης λογισμικού και πρωτοβουλιών λογισμικού ανοικτού κώδικα, τα δεδομένα λογισμικού που μπορεί να βρει κανείς στο διαδίκτυο είναι άφθονα, επομένως η πρόκληση που προκύπτει είναι η αποτελεσματική αξιοποίησή τους για την παραγωγή καλύτερων προϊόντων λογισμικού. Και η πρόκληση αυτή αποτελεί στην πραγματικότητα ένα πρόβλημα επαναχρησιμοποίησης. Στο πλαίσιο αυτής της διατριβής προτείνουμε μια ενιαία προσέγγιση που περιλαμβάνει την εφαρμογή τεχνικών εξόρυξης δεδομένων σε δεδομένα τεχνολογίας λογισμικού για τη διευκόλυνση της επαναχρησιμοποίησης σε διάφορες φάσεις του κύκλου ζωής του λογισμικού. Η μεθοδολογία μας προτείνει λύσεις για τη φάση του καθορισμού των απαιτήσεων και της εξαγωγής προδιαγραφών, τις φάσεις της σχεδίασης και ανάπτυξης λογισμικού, ενώ συμβάλλει επίσης στην αξιολόγηση της ποιότητας και τον έλεγχο του λογισμικού.
Camera-based localization of annotated objects in indoor environmentsISSEL
As the demands increases, the detection and monitoring of motion are increasingly recognized as significant features in every vision system designed to operate in an uncontrolled, indoor environment. From the autonomous navigation and execution of tasks that require interaction with the environments, to simple monitoring, position detection is considered essential. Due to the variety of the system requirements, several detection approaches have been implemented based on indoor or outdoor sensors. However, one of the most important cases of external sensors are cameras. This dissertation aims to introduce the usage of visual patterns as landmarks to detect the pattern’s exact position by a camera system located in the environment. This attempt could be possibly considered as the main contribution of this thesis, since it introduces a universal way of position detection that can be integrated in various systems regardless of type and task to be implemented. To achieve these goals, three patterns were created, -one with LEDs, one with colors and QR codes, which are based on different recognition principles in order to conclude which one results to more accurate detection over a wide range of conditions. The methodology built has proven to be effective and highly accurate during the experimental process on a small scale environment for all different patterns.
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...ISSEL
Η ανίχνευση και η παρακολούθηση κίνησης αναγνωρίζονται όλο και περισσότερο ως σημαντικές δυνατότητες σε κάθε σύστημα όρασης σχεδιασμένο να λειτουργεί σε μη ελεγχόμενο, εσωτερικό περιβάλλον καθώς αυξάνονται όλο ένα και περισσότερο οι απαιτήσεις. Από την αυτόνομη πλοήγηση και την επιτέλεση εργασιών που απαιτούν αλληλεπίδραση με το περιβάλλον, μέχρι και την απλή παρακολούθηση αποτελούν δραστηριότητες που ωθούν την ανάπτυξη τεχνολογιών για την δημιουργία ενός εύρωστου τρόπου εντοπισμού της θέσης. Λόγω της ποικιλομορφίας των απαιτήσεων των συστημάτων, έχουν αναπτυχθεί τρόποι εντοπισμού που βασίζονται είτε σε εσωτερικούς είτε σε εξωτερικούς αισθητήρες. Στην περίπτωση των εξωτερικών αισθητήρων από τους πιο σημαντικούς αποτελούν οι κάμερες. Στη διπλωματική αυτή, εισάγεται η χρήση εξωτερικών μοτίβων σαν ορόσημα για την αναγνώριση και τον εντοπισμό της ακριβούς θέσης από ένα σύστημα καμερών που είναι τοποθετημένο στο περιβάλλον. Αυτό μπορεί να θεωρηθεί ενδεχομένως και ως η σημαντικότερη συνεισφορά της διπλωματικής καθώς εισάγει έναν καθολικό τρόπο εντοπισμού, που μπορεί να ενσωματωθεί σε διάφορα συστήματα ανεξάρτητα από το είδος τους και τις εργασίες που επιθυμούμε να υλοποιούν. Για να επιτευχθούν αυτοί οι στόχοι δημιουργήθηκαν τρία διαφορετικά μοτίβα, -ένα με led, ένα με χρώματα και QR Codes βασισμένα σε διαφορετικές αρχές αναγνώρισης με σκοπό να μελετήσουμε ποιο λειτουργεί πιο εύρωστα σε μεγαλύτερο εύρος συνθηκών. Η μεθοδολογία αποδείχθηκε αποτελεσματική και με μεγάλη ακρίβεια στην πειραματική διαδικασία σε ένα περιβάλλον μικρής κλίμακας για όλα τα διαφορετικά μοτίβα.
Design and implementation of an automation mechanism to automatically develop...ISSEL
As the internet acquires an increasingly important role in society, computer systems tend to become larger and more complex. That means there is a greater need for quicker development of reliable software. A promising answer to that need are automated code generation mechanisms. The use of those mechanisms can provide a great increase, both in productivity and in the quality of the final product. However, developing such a mechanism usually follows the “traditional” ways of developing software, therefore exhibits the downsides of those ways such as increased effort in debugging requires a high level in technical skills. Aiming to solve the problems presented in the development of automated code generation mechanisms, in the current diploma thesis, model driven engineering (MDE) is utilized. Specifically, once a subtractive model has been defined, a series of transformations take place, resulting in a fully functional system. In this way, the software development process is accelerated and software is produced with greater reliability. This thesis implements the DeGraCom (Designing Graphical Commands) system. DeGraCom offers a user-friendly interface, which allows its user, even if they do not have any expertise when it comes to web programming, to design and implement web components-commands in an automated way. These components follow the client-server architecture, so that they can be easily integrated to existing automated mechanisms, in order to expand their functionality. To test and evaluate the DeGraCom system, the components-commands produced by DeGraCom are tested on the TekTrain platform. TekTrain offers a number of tools and interfaces, along with a series of smart devices, and aims to ease the learning process of new technologies for children. The main interface offered by TekTrain, allows its users to define a number of commands for its smart devices to perform. DeGraCom aims to automate the process of creating such a command.
ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΜΗΧΑΝΙΣΜΟΥ ΑΥΤΟΜΑΤΟΠΟΙΗΣΗΣ ΤΗΣ ΑΝΑΠΤΥΞΗΣ ΓΡΑΦΙΚΩΝ ΕΝΤΟΛ...ISSEL
Καθώς το διαδίκτυο αποκτά ολοένα και σημαντικότερο ρόλο στην κοινωνία, τα υπολογιστικά συστήματα γίνονται ολοένα και μεγαλύτερα, και συγχρόνως πολυπλοκότερα. Διογκώνεται έτσι η ανάγκη για γρήγορη παραγωγή αξιόπιστου λογισμικού. Μία υποσχόμενη απάντηση στην ανάγκη αυτή είναι οι μηχανισμοί αυτοματοποίησης παραγωγής κώδικα για συγκεκριμένα προβλήματα. Η χρήση των μηχανισμών αυτών, αποφέρει σημαντικά κέρδη παραγωγικότητας και ποιότητας του τελικού αποτελέσματος. Ωστόσο η ανάπτυξή τους ακολουθεί ως επί το πλείστων τον «παραδοσιακό» τρόπο ανάπτυξης και συνεπώς παρουσιάζει τα μειονεκτήματα αυτού, όπως αυξημένη προσπάθεια εκσφαλμάτωσης και μεγαλύτερη ανθρωποπροσπάθεια ενώ ταυτοχρόνως απαιτεί σημαντικές τεχνικές γνώσεις. Με στόχο να αντιμετωπιστούν οι αγκυλώσεις που παρουσιάζει η ανάπτυξη μηχανισμών αυτοματοποίησης παραγωγής κώδικα, στην παρούσα διπλωματική εργασία, αξιοποιείται η μηχανική οδηγούμενη από μοντέλα ή μοντελοστρεφής μηχανική (Model Driven Engineering ή MDE). Συγκριμένα, αφού οριστεί ένα αφαιρετικό μοντέλο, πραγματοποιείται μια σειρά από μετασχηματισμούς, με τελικό αποτέλεσμα μια πλήρως λειτουργική εφαρμογή. Με αυτό τον τρόπο, επιταχύνεται διαδικασία ανάπτυξης λογισμικού και παράγεται λογισμικό με μεγαλύτερη αξιοπιστία. Η παρούσα διπλωματική εργασία υλοποιεί το σύστημα DeGraCom (Developing Graphical Commands). Το DeGraCom παρέχει μία φιλική γραφική διεπαφή επιτρέπει στους χρήστες του, ακόμη και αν δεν γνωρίζουν διαδικτυακό προγραμματισμό, να παράγουν διαδικτυακά τμήματα-εντολές με αυτοματοποιημένο τρόπο. Τα τμήματα αυτά ακολουθούν την αρχιτεκτονική Client-Server ούτως ώστε να είναι εύκολη η ενσωμάτωσή τους που σε υπάρχοντες διαδικτυακούς Αυτόματους Μηχανισμούς προς επέκταση των δυνατοτήτων τους. Για την δοκιμή και αξιολόγηση αυτού του συστήματος, τα τμήματα-εντολές που παράγονται δοκιμάστηκαν στην πλατφόρμα TekTrain. Το τελευταίο, παρέχει ένα σύνολο από εργαλεία και διεπαφές, παράλληλα με μία σειρά από έξυπνες συσκευές, με στόχο την διευκόλυνση την εκπαίδευσης των παιδιών στις νέες τεχνολογίες. Η βασική γραφική διεπαφή του επιτρέπει στους χρήστες της να ορίσουν ένα σύνολο από δράσεις/εντολές για τις έξυπνες συσκευές του. Το σύστημα DeGraCom στοχεύει στο να αυτοματοποιήσει την διαδικασία δημιουργίας νέων εντολών.
Static Analysis of Python code and Identification of Potential Security Vulne...ISSEL
The advent of computational systems has brought forth significant advancements, but concurrently, it has accentuated the urgency for secure and robust software. Security analysis techniques, specifically static code analysis, have been at the forefront of this pursuit. Inspired by the ability to examine code without executing it, these techniques offer the potential to detect vulnerabilities in systems effectively, including data flow issues, control flow complications, and complex security vulnerabilities. Compared to their traditional counterparts, modern computational systems present unique challenges. These systems often operate in environments where system integrity is paramount and any potential security vulnerability could lead to significant damage. This necessitates the implementation of mechanisms that provide rigorous vulnerability detection while maintaining system performance. The focal point of the present thesis is the application of static Python code analysis for the detection of security vulnerabilities in computational systems. A variety of techniques have been explored, including linting, control flow analysis, data flow analysis, complexity analysis, and pattern matching. Various methodologies for identifying security vulnerabilities are also investigated, such as input validation, output encoding, authentication and access control, cryptography, exception handling, buffer overflow, SQL injection, and file handling. A Python-based program is developed, utilizing these static code analysis techniques for comprehensive security evaluation. This tool probes IP addresses, URLs, API calls, and deploys anti-debugging and anti-virtualization strategies. Further, it scrutinizes the entropy of a file for potential obfuscation and contrasts the file against databases of known viruses via a cloud-based solution. It concludes with a basic dynamic analysis of the application’s source code, performed in a virtual environment. The outcomes of this research emphasize the significant role of Python static code analysis in maintaining the integrity of computational systems. The effective implementation of these techniques, along with appropriate software and a series of optimization steps, have the potential to provide solutions to prevalent security issues in computational systems, solidifying their place in a rapidly evolving digital landscape.
Static Analysis of Python code and Identification of Potential Security Vulne...
Ανάπτυξη ειδησεογραφικού ψηφιακού βοηθού πραγματικού χρόνου
1. Ανάπτυξη Ειδησεογραφικού
Βοηθού Πραγματικού χρόνου
Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης
Πολυτεχνική Σχολή
Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
Δοϊνάκης Μιχαήλ
ΑΕΜ: 9292
Θεσσαλονίκη, 13 Ιουλίου 2022
Επιβλέποντες: Ανδρέας Συμεωνίδης,
Αν. Καθηγητής Α.Π.Θ
Νικόλαος Μάλαμας,
Υποψήφιος Διδάκτορας
5. Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου
Δοϊνάκης Μ. 5
Εξωτερικό Σύστημα
Περιεχόμενο Μαζί με το Mac Studio
παρουσιάστηκε και το Studio
Display, μία οθόνη με σώμα
αλουμινίου ...
Όνομα αρχείου apple_studio_display.json
Τίτλος Studio Display: Η οθόνη της Apple
έχει ένα Α13 Bionic και κάμερα
iPhone
Url https://url.com/article0
Κατηγορία tech
Ημερομηνία έκδοσης 2022-04-30
● Προσομοίωση μέσω συλλογής
πραγματικών άρθρων από
ιστοσελίδες ειδήσεων
● Παροχή άρθρων σε μορφή json
Κατηγορία Αριθμός άρθρων
αθλητικά 5468
πολιτική 1483
τεχνολογία 1329
gaming 1273
ταινίες 1222
άλλο 1427
Σύνολο 12202
Παράδειγμα περιεχομένου αρχείου json στη βάση δεδομένων
7. Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου
Δοϊνάκης Μ.
Rasa
Βασικές λειτουργίες ψηφιακού βοηθού:
● Κατανόηση της επιθυμίας του χρήστη και εκτέλεση κατάλληλης ενέργειας
● Χαιρετισμός/Αποχαιρετισμός του χρήστη
● Παρουσίαση της απάντησης που επέστρεψε το Haystack στο χρήστη μαζί με
χρήσιμες πληροφορίες
● Υποστήριξη εντολών για την ανανέωση της βάσης δεδομένων on demand
7
8. Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου
Δοϊνάκης Μ. 8
● Ταξινόμηση της
ερώτησης
● Retriever: Αναζήτηση
του καταλληλότερων
εγγράφων στη βάση
δεδομένων
● Reader: Ανάγνωση των
εγγράφων και εξαγωγή
της απάντησης
● Επιστροφή της
απάντησης στο ψηφιακό
βοηθό
RASA Action Server - Haystack
9. Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου
Δοϊνάκης Μ. 9
Μοντέλα Retriever (1)
Όπου:
● Q: ερώτηση
● d: έγγραφο
● t: λέξη της πρότασης
● TF: πλήθος εμφάνισης της λέξης στο d
● |D|: συνολικός αριθμός εγγράφων
● |f ∊D: t∊f|: πλήθος των εγγράφων που εμφανίζεται το t
Μειονεκτήματα:
● Αύξηση TF→Αύξηση του σκορ
● Δεν λαμβάνεται υπόψη το μέγεθος του
εγγράφου
10. Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου
Δοϊνάκης Μ.
Μοντέλα Retriever (2)
10
Όπου:
● Q: ερώτηση
● d: έγγραφο
● t: λέξη της πρότασης
● TF: πλήθος εμφάνισης της λέξης στο d
● len_doc: μέγεθος του d
● len_avg: μέσος όρος των μεγεθών των εγγράφων
● |D|: συνολικός αριθμός εγγράφων
● |f ∊D: t∊f|: πλήθος των εγγράφων που εμφανίζεται το t
● k_1: παράμετρος κορεσμού TF
● b: επηρεασμός σκορ από το μέγεθος του εγγράφου
11. Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου
Δοϊνάκης Μ.
Μοντέλα Reader
● Πολυγλωσσικό μοντέλο της deepset (xml-roberta-large-squad2)
● Fine-tuned Ελληνικά μοντέλα του Greek-Bert
11
12. Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου
Δοϊνάκης Μ.
TP
TP+FN
Μοντέλα Reader
● Exact Match (EM) = Απόλυτη ταύτιση προβλεπόμενης απάντησης με την
πραγματική απάντηση
Μετρικές Αξιολόγησης
Μοντέλα ταξινόμησης
● Precision =
● Recall =
● Accuracy =
12
TP
TP + FP
● Precision =
● Recall =
Κοινές λέξεις προβλεπόμενης απάντησης με την πραγματική
Συνολικός αριθμός λέξεων στην πραγματική απάντηση
Κοινές λέξεις προβλεπόμενης απαντησης με την πραγματική
Συνολικός αριθμός λέξεων στην προβλεπόμενη απάντηση
TP + TN
TP + TN + FP + FN
13. Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου
Δοϊνάκης Μ.
Κατηγορία precision recall F1 Score
Macro avg 97.9 97.4 97.7
Weighted avg 98.5 98.2 98.2
Accuracy 98.2
Αξιολόγηση Μοντέλων Ταξινόμησης
13
Κατηγορία precision recall F1 Score
Macro avg 98.4 98.6 98.5
Weighted avg 98.9 98.9 98.9
Accuracy 98.4
Αποτελέσματα ταξινόμησης με το μοντέλο MLP Αποτελέσματα ταξινόμησης με το μοντέλο Greek Bert
16. Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου
Δοϊνάκης Μ.
Συμπεράσματα
● RASA → Εκπαίδευση βοηθού με περιορισμένο σύνολο δεδομένων
● Greek-Bert vs MLP→ Greek-Bert νοηματική σύνδεση
● Καθορισμός συνολικής απόδοσης από το τμήμα με τη μικρότερη απόδοση
● Ικανοποιητική απόδοση πολυ-γλωσσικών μοντέλων στα Ελληνικά
16
17. Ανάπτυξη Ειδησεογραφικού Βοηθού Πραγματικού χρόνου
Δοϊνάκης Μ.
Μελλοντικές Επεκτάσεις
● Υλοποίηση συστήματος παροχής άρθρων
● Έκθεση του συστήματος σε δοκιμαστικό κοινό
● Συλλογή ερωτήσεων για fine-tuning του Greek Bert
● Ενσωμάτωση συστήματος σε γνωστές εφαρμογές όπως messenger,
mattermost, discord, slack κτλ.
● Συνεχής βελτιστοποίηση των τμημάτων του συστήματος
17
Ο όγκος της πληροφορίας που παράγεται καθημερινά στο διαδίκτυο αυξάνεται πολύ γρήγορα και ένας από τους τομείς ο οποίος υποφέρει από τον καθημερινό βομβαρδισμό πληροφορίας είναι και αυτός των ειδήσεων. Χιλιάδες άρθρα δημοσιεύονται καθημερινά καθιστώντας αδύνατη την ανάγνωση και την εξαγωγή πληροφορίας από αυτά. Επιπλέον, ένα άρθρο είναι σχετικό με την επικαιρότητα μόνο για περιορισμένο χρονικό διάστημα συνεπώς η εξαγωγή πληροφορίας σε πραγματικό χρόνο καθίσταται αναγκαία. Η παρούσα διπλωματική εργασία μελετά έναν τρόπο για αυτοματοποίηση της διαδικασίας αναζήτησης απαντήσεων σε ερωτήσεις που αφορούν την επικαιρότητα.
Στόχος της παρούσας διπλωματικής εργασίας είναι η ανάπτυξη και συντήρηση ενός ψηφιακού βοηθού, ο οποίος θα αναγνωρίζει τις επιθυμίες των χρηστών του και θα παρουσιάζει σε αυτούς απαντήσεις με ευνόητο τρόπο. Οι χρήστες θα έχουν τη δυνατότητα να διατυπώνουν ερωτήσεις που αφορούν την επικαιρότητα (δηλαδή για θέματα ειδήσεων) που αφορούν:
Πολιτική
Αθλητικά
Τεχνολογία
Ταινίες
Ηλεκτρονικά Παιχνίδια (Gaming)
Σε συνδυασμό με το ψηφιακό βοηθό μελετήθηκε και η ανάπτυξη ενός συστήματος ερώτησης απάντησης για την εύρεση της απάντησης στην ερώτηση του χρήστη.
Ακόμη, μελετήθηκε και η εκπαίδευση μοντέλων κατανόησης φυσικής γλώσσας με στόχο την κατηγοριοποίηση άρθρων στις κατηγορίες που αναφέρθηκαν.
Προτού παρουσιαστεί το συνολικό σύστημα αξίζει να σημειωθεί ότι για την ανάπτυξη του ψηφιακού βοηθού χρησιμοποιήθηκε το RASA (open source framework για το σκοπό αυτό) και για την ανάπτυξη του συστήματος QA χρησιμοποιήθηκε το Haystack (open source framework για αναζήτηση σε μεγάλες βάσεις δεδομένων).
Η λειτουργία του συνολικού συστήματος μπορεί να παρουσιαστεί με το παρόν διάγραμμα. Αρχικά, ένα εξωτερικό σύστημα παρέχει άρθρα από το διαδίκτυο στο σύστημα που αναπτύχθηκε. Στη συνέχεια, τα άρθρα περνούν από έναν ταξινομητή, ο οποίος τα αντιστοιχίζει σε μία από τις υποστηριζόμενες κατηγορίες και τα αποθηκεύει σε μία βάση δεδομένων (elasticsearch). Ως είσοδος του χρήστη ορίζεται οτιδήποτε εισάγει ο ίδιος μέσω του πληκτρολογίου στην επικοινωνία του με τον ψηφιακό βοηθό. Έπειτα, το RASA επεξεργάζεται την είσοδο του χρήστη με στόχο να εξάγει την επιθυμία του. Σε περίπτωση ανιχνευθεί επιθυμία για ερώτηση, τότε η είσοδος περνάει στο σύστημα ερώτησης απάντησης το οποίο επιστρέφει την πιο πιθανή απάντηση στην ερώτηση του χρήστη.
Το εξωτερικό σύστημα προσομοιώθηκε μέσω της αυτοματοποιημένης λήψης άρθρων από πραγματικές ιστοσελίδες ειδησεογραφικού περιεχομένου. Με τον τρόπο αυτό δημιουργήθηκε ένα σύνολο δεδομένων με συνολικά 12202 άρθρα. Τα άρθρα έχουν τη μορφή αρχείων json και αποθηκεύονται στη βάση δεδομένων μαζί με το όνομα, τον τίτλο, το link από την ιστοσελίδα την οποία προήλθαν, την κατηγορία και την ημερομηνία έκδοσης τους.
Για την ταξινόμηση των άρθρων μελετήθηκαν δύο υλοποιήσεις. Η πρώτη, ήταν η κατασκευή ενός Multi-Layer Perceptron με 2 hidden layers και η δεύτερη ήταν το fine tuning του Ελληνικού BERT μοντέλου που αποτελείται από 12 attention heads, 12 hidden layers και έχει ένα λεξιλόγιο 35000 λέξεων. Και τα 2 μοντέλα εκπαιδεύτηκαν με το ίδιο σύνολο άρθρων που αποκτήθηκαν όπως αναφέρθηκε προηγουμένως. Κάτι που αξίζει να σημειωθεί στο σημείο αυτό είναι ότι το MLP εξαιτίας της απλής αρχιτεκτονικής του εκπαιδεύεται πιο γρήγορα από το μοντέλο Greek-Bert.
Μερικές από τις βασικές λειτουργίες του ψηφιακού βοηθού είναι οι εξής:
Κατανόηση της επιθυμίας του χρηστη και εκτέλεση κατάλληλης ενέργειας
Χαιρετισμός/Αποχαιρετισμός του χρήστη
Παρουσίαση της απάντησης που επέστρεψε το Haystack στο χρήστη μαζί με χρήσιμες πληροφορίες
Υποστήριξη εντολών για την ανανέωση της βάσης δεδομένων on demand
Στη παρούσα διαφάνεια παρουσιάζεται το σύστημα ερώτησης-απάντησης. Ως είσοδος ορίζεται η ερώτηση που έχει προηγουμένως αναγνωριστεί από το RASA. Αρχικά, η ερώτηση περνάει από έναν ταξινομητή, ο οποίος την ταξινομεί σε μία από τις διαθέσιμες κατηγορίες. Στη συνέχεια, η ερώτηση αλλά και η πληροφορία της ταξινόμησης φτάνουν στον Retriever ο οποίος ανατρέχει στη βάση και αναγνωρίζει ποια έγγραφα ανταποκρίνονται περισσότερο στην ερώτηση του χρήστη. Η αναζήτηση γίνεται μόνο στα έγγραφα που είναι της συγκεκριμένης κατηγορίας που ταξινομήθηκε η ερώτηση. Από τα πιο σχετικά έγγραφα ο Retriever επιστρέφει συγκεκριμένο αριθμό στον Reader. Αυτός με τη σειρά του “διαβάζει” το έγγραφο σε παράθυρα και επιστρέφει στην έξοδο την πιο πιθανή απάντηση.
Το μοντέλο του Reader δέχεται ως είσοδο ένα συγκεκριμένο μήκος πρότασης. Σε περίπτωση που το κείμενο εισόδου στον Reader ξεπερνάει το μέγιστο μέγεθος εισόδου, τότε αυτό χωρίζεται σε κομμάτια με μέγιστο μέγεθος max_sec_len επικαλυπτόμενα μεταξύ τους κατά έναν αριθμό λέξεων, doc_stride. Στη συνέχεια, τα κομμάτια αυτά εισέρχονται με τη σειρά στον Reader ο οποίος επιστρέφει την απάντηση πίσω στο RASA. Η επικάλυψη των κομματιών είναι απαραίτητη ώστε να βεβαιωθεί ότι η απάντηση δεν χωρίστηκε ανάμεσα σε δύο κομμάτια.
Το πρώτο μοντέλο Retriever είναι το TF-IDF. Μέσω αυτής αποδίδεται ένα σκορ σε κάθε έγγραφο της βάσης δεδομένων για το πόσο σχετικό είναι το αντίστοιχο έγγραφο με την εισερχόμενη ερώτηση.
Για κάθε λέξη της ερώτησης υπολογίζεται το γινόμενο του πλήθους εμφάνισης της λέξης σε κάθε έγγραφο και πολλαπλασιάζεται με την αντίστροφη συχνότητα εμφάνισης της λέξης στο σύνολο των εγγράφων, και στο τέλος αθροίζονται εξάγωντας έτσι ενα σκορ για την πρόταση για κάθε έγγραφο. Το έγγραφο που έχει το μεγαλύτερο σκορ είναι και αυτό που είναι το πιο σχετικό με την πρόταση.
Παρά το γεγονός ότι η παραπάνω μέθοδος είναι αρκετά αποδοτική έχει δύο βασικά μειονεκτήματα όσο αυξάνεται η συχνότητα εμφάνισης της λέξης στο έγγραφο τόσο αυξάνεται και το σκορ της, χωρίς ωστόσο αυτό να σημαίνει ότι το συγκεκριμένο έγγραφο είναι πιο σχετικό με την αρχική πρόταση. Επιπλέον, η TF-IDF δεν λαμβάνει καθόλου υπόψη το μέγεθος του εγγράφου.
Το σκορ BM25 είναι μία παραλλαγή του TF-IDF που αναγνωρίζει τις αδυναμίες που αναφέρθηκαν παραπάνω και τις αντιμετωπίζει βασίζόμενο στην επιλογή δύο παραμέτρων. Εισάγει την παράμετρο k1 που είναι υπεύθυνη για τον κορεσμό της συχνότητας εμφάνισης της λέξης, σε περίπτωση που κάποιος όρος εμφανίζεται πολλές φορές στο αντίστοιχο έγγραφο. Πιο συγκεκριμένα, το σκορ αυξάνεται γρήγορα στις αρχικές εμφανίσεις της λέξης στο κείμενο και σταδιακά επηρεάζει λιγότερο την άνοδο του σκορ. Επιπλέον, εισάγει την παράμετρο b η οποία καθορίζει πόσο θα επηρεάζεται το σκορ από το μέγεθος του εγγράφου.
Η αναζήτηση του κατάλληλου μοντέλου reader ήταν δύσκολη καθώς δεν υπάρχουν πολλά μοντέλα ερώτησης απάντησης εκπαιδευμένα στην Ελληνική γλώσσα. Αρχικά μελετήθηκε η συμπεριφορά του πολυγλωσσικού μοντέλου xml-roberta-large που είναι finetuned στο SQuAD2 dataset. Επιπλέον, μελετήθηκε και η συμπεριφορά 5 άλλων μοντέλων τα οποία αποτελούν fine tuned εκδόσεις του Greek-Bert, και αναπτύχθηκαν παράλληλα με τη παρούσα διπλωματική εργασία σε άλλη διπλωματική εργασία συναδέλφου.
Για την αξιολόγηση των τμημάτων του συστήματος χρησιμοποιήθηκαν οι συνήθεις μετρικές αξιολόγησης, precision, recall και accuracy. Αρχικά για τα μοντέλα ταξινόμησης χρησιμοποιήθηκαν οι μετρικές precision και recall, από τις οποίες εξάγεται και το F1 score, που είναι ο αρμονικός μέσος των δύο προηγούμενων. Σε προβλήματα ταξινόμησης όπου οι κλάσεις είναι παραπάνω των δύο, όπως και στη παρούσα περίπτωση όπου το άρθρο μπορεί να ταξινομηθεί σε μία από έξι πιθανές κλάσεις, τότε οι μετρικές που παρουσιάστηκαν παραπάνω εξάγονται για κάθε κλάση ορίζοντας διαδοχικά τη μία κλάση ως θετική και τις άλλες ως αρνητική.
Για τα μοντέλα του reader χρησιμοποιήθηκαν οι ίδιες μετρικές ωστόσο με μία παραλλαγή καθώς τώρα η απάντηση δεν είναι θετική η αρνητική κλάση αλλά μία ολόκληρη πρόταση. Το precision, λοιπόν, ορίζεται ως ο λόγος των κοινών λέξεων της προβλεπόμενης απάντησης με τη πραγματική, προς τον συνολικό αριθμό των λέξεων στην προβλεπόμενη απάντηση, ενώ το recall ορίζεται ως ο λόγος των κοινών λέξεων της προβλεπόμενης απάντησης με τη πραγματική, προς τον συνολικό αριθμό των λέξεων στην σωστή απάντηση. Επιπλέον, για την αξιολόγηση των reader χρησιμοποιήθηκε και η μετρική exact match, η οποία όπως δείχνει και το όνομα της αναφέρεται στην απόλυτη ταύτιση της προβλεπόμενης απάντησης με την πραγματική, και είναι μία εξαιρετικά αυστηρή μετρική για τα συστήματα ερώτησης απάντησης.
Παρατηρείται ότι και τα δύο μοντέλα ταξινόμησης, MLP και Greek-BERT, έχουν αρκετά καλά αποτελέσματα για όλες τις κλάσεις ταξινόμηση. Ωστόσο, το fine-tuning του greek-bert χρειάζεται αρκετά περισσότερο χρόνο για την εκπαίδευση του σε σχέση με το MLP. Παρόλα αυτά, το τελικό μοντέλο που επιλέγεται είναι αυτό του greek BERT διότι η τεχνολογία του με τα transformers επιτρέπει και τη νοηματική ”κατανόηση” της εισόδου σε αντίθεση με το MLP το οποίο χρησιμοποιεί τη μέθοδο TF-IDF.
Για την ταξινόμηση των ερωτήσεων κατά την είσοδο τους στο QA σύστημα, εξαιτίας της έλλειψης συνόλου δεδομένων ερωτήσεων, δοκιμάστηκε η χρήση του ίδιου μοντέλου που χρησιμοποιήθηκε για την ταξινόμηση των άρθρων. Η κύρια ιδέα είναι πως το περιεχόμενο των ερωτήσεων θα είναι παρόμοιο με αυτό των άρθρων, επομένως το μοντέλο θα είναι σε θέση να τις ταξινομήσει σωστά. Ωστόσο, αυτό δεν ισχύει για όλες τις κατηγορίες. Για το λόγο αυτό στη τελική υλοποίηση ο ταξινομητής ερωτήσεων παραλείπεται από το συνολικό σύστημα και η ερώτηση περνάει κατευθείαν στον Retriever
Για την αξιολόγηση των μοντέλων των Retriever χρησιμοποιήθηκε η ακρίβεια επιστροφής σωστού εγγράφου σε ένα σύνολο από έγγραφα. Στο διάγραμμα παρουσιάζεται η ακρίβεια του κάθε αλγορίθμου να βρήκε το σωστό έγγραφο στο πρώτο άρθρο, στο πρώτο ή στο δεύτερο, στο πρώτο ή στο δεύτερο ή στο τρίτο και ούτο καθεξης μεχρι και τα δέκα έγγραφα. Παρατηρούμε επίσης ότι ο αλγόριθμος BM25 παρουσιάζει καλύτερα αποτελέσματα από το πρώτο κιόλας έγγραφο και για το λόγω αυτό και επιλέχθηκε για το τελικό σύστημα. Επιπλέον, ο αριθμός των εγγράφων που θα επιστρέφει ο Retriever είναι 3 καθώς μετά το τρίτο έγγραφο η απόδοση του αλγορίθμου δεν παρουσιάζει σημαντική βελτίωση.
Το μοντέλο με τη μεγαλύτερη απόδοση είναι το xlm-roberta-large-squad2 από την deepset το οποίο είναι εκπαιδευμένο στο SQuAD2 και χρησιμοποιείται με τη μέθοδο zero-shot, καθώς δεν είναι εκπαιδευμένο στα Ελληνικά. Επιπλέον, τα δύο ελληνικά μοντέλα squad_bert_el και qacombination_bert_el έχουν παρόμοια απόδοση αλλά το πρώτο είναι αυτό που επιλέχθηκε καθώς η ακρίβεια του μοντέλου είναι κύριας σημασίας για το σύστημα.
Η εκπαίδευση του ψηφιακού βοηθού με το RASA framework μπορεί να πραγματοποιηθεί ακόμη και με περιορισμένο σύνολο δεδομένων, και στη συνέχεια μπορεί να πραγματοποιείται επανεκπαίδευση του όσο το σύνολο δεδομένων μεγαλώνει. Το Greek BERT προτιμήθηκε για την ταξινόμηση των άρθρων, έναντι του MLP, κυρίως γιατί επιτυγχάνει νοηματική σύνδεση της κατηγορίας με το άρθρο, σε αντίθεση με το MLP του οποίου τα χαρακτηριστικά εξάγονται με τη μέθοδο TF-IDF.
Επιπλέον, εξαιτίας του συνδυασμού πολλών τμημάτων για την υλοποίηση του συνολικού συστήματος, η συνολική απόδοση επηρεάζεται από το τμήμα με τη χαμηλότερη απόδοση. Ταυτόχρονα το πολυ γλωσσικό μοντέλο που χρησιμοποιήθηκε είχε ικανοποιητική απόδοση στα Ελληνικά και για αυτό και χρησιμοποιήθηκε.
Αρχικά ως πρώτη μελλοντική επέκταση μπορεί να μελετηθεί η υλοποίηση του συστήματος παροχής άρθρων και η έκθεση του συστήματος σε δοκιμαστικό κοινό. Παράλληλα, μέσω συλλογής ερωτήσεων από κοινό, θα μπορούσε να γίνει fine tuning του Greek BERT για την υλοποίηση ενός ταξινομητή ερωτημάτων. Το συνολικό σύστημα μπορεί να ενσωματωθεί σε γνωστές εφαρμογές συνομιλίας όπως το messenger, mattermost, discord, slack και άλλα. Τέλος, εξαιτίας της αρθρωτής δομής του συστήματος, κάθε ένα από τα τμήματα του μπορεί και θα πρέπει να βελτιώνεται συστηματικά καθώς με τη πάροδο του χρόνου θα αλλάζει η συμπεριφορά των χρηστών του συστήματος και έτσι θα πρέπει να αλλάζει και το ίδιο.
Video presentation of RASA-X
Στο σχήμα παρουσιάζονται τα βήματα επεξεργασίας της εισόδου του χρήστη, Αρχικά, η είσοδος παραδίδεται στο Duckling, το οποίο είναι υπεύθυνο για την εξαγωγή της οντότητας του χρόνου στην είσοδο του χρήστη, σε περίπτωση που ο χρήστης επιθυμεί απάντηση από μία συγκεκριμένη ημερομηνία και έπειτα. Στη συνέχεια η είσοδος περνά από τον whitespacetokenizer ο οποίος δημιουργεί μία διανυσματική αναπαράσταση της εισόδου του χρήστη, η παραγωγή token ανά λέξη, δηλαδή κάθε λέξη που χωρίζεται με κενό χαρακτήρα από τις υπόλοιπες αποτελεί ένα token. Από τα tokens που έχουν παραχθεί από τον Tokenizer ο CountVectorsFeaturizer παράγει χαρακτηριστικά (features) για την ταξινόμηση της επιθυμίας του χρήστη και την επιλογή της απάντησης του ψηφιακού βοηθού. Τα features παράγονται με την μέθοδο bag-of-words. Ο Dual Intent and Entity Transformer Classifier (DIETClassifier) χρησιμοποιείται για την εξαγωγή της επιθυμίας του χρήστη αλλά και την αναγνώριση οντοτήτων. Η αρχιτεκτονική του είναι βασισμένη στα transformers, και ουσιαστικά ταξινομεί την επιθυμία του χρήστη. Σε αυτό το στάδιο αποδίδεται ένα σκορ σε κάθε μία από της υποστηριζόμενες επιθυμίες του συστήματος. Σε περίπτωση που το σκορ είναι πιο χαμηλά από κάποιο κατώφλι (το κατώφλι τίθεται ως παράμετρος του συστήματος) ή η διαφορά των σκορ των δύο πιο πιθανών κατηγοριών είναι μικρότερη από ένα δεύτερο κατώφλι (και αυτό τίθεται ως παράμετρος του συστήματος) τότε ο fallback classifier θέτει την ταξινόμηση της επιθυμίας σε μία ειδική κατηγορία ταξινόμησης που σηματοδοτεί την αβεβαιότητα της πρόβλεψης. Στη περίπτωση αυτή, ο ψηφιακός βοηθός ζητά από το χρήστη να αναδιατυπώσει για την εκ νέου ταξινόμηση της επιθυμίας του. Η πληροφορία της ταξινόμησης αποστέλλεται μέσω REST API στον Action Server ο οποίος εκτελεί την αντίστοιχη λειτουργία στην επιθυμία του χρήστη.