1. Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης
Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού
με Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης
Ευάγγελος Παπαθωμάς (ΑΕΜ: 8692)
Επιβλέποντες
Ανδρέας Συμεωνίδης, Αναπληρωτής Καθηγητής
Θεμιστοκλής Διαμαντόπουλος, Μεταδιδακτορικός Ερευνητής
Θεσσαλονίκη, 2020
2. Δομή Παρουσίασης
• Εισαγωγή
• Υλοποίηση του Συστήματος
• Αξιολόγηση του Συστήματος
• Συμπεράσματα και Μελλοντική Εργασία
• Ερωτήσεις
Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με
Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης
2
3. Ορισμός του Προβλήματος
• Σήμερα, η ανάπτυξη λογισμικού είναι μία πολύπλοκη και χρονοβόρα διαδικασία.
• Πολλές επιλογές (π.χ. APIs, βιβλιοθήκες, εργαλεία κ.α.)
• Ελλιπείς ή προβληματικοί σχολιασμοί.
Πρόβλημα:
• Αύξηση του φόρτου εργασίας των μηχανικών λογισμικού λόγω της μεγάλης δαπάνης χρόνου για την
αναζήτηση παραδειγμάτων κώδικα χρησιμοποιώντας συμβατικές μηχανές αναζήτησης.
Σκοπός της Διπλωματικής:
• Η δημιουργία ενός Συστήματος Προτάσεων στην Τεχνολογία Λογισμικού (Recommendation Systems in
Software Engineering ή RSSE), το οποίο δέχεται ερωτήματα σε φυσική γλώσσα και προτείνει τμήματα
κώδικα υψηλής ποιότητας.
Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με
Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης
3
4. RSSEs στη Βιβλιογραφία
Αδυναμίες υπαρχουσών υλοποιήσεων:
• Δε δέχονται ερωτήματα φυσικής γλώσσας.
• Δεν εκμεταλλεύονται τους σχολιασμούς του κώδικα.
• Δεν πραγματοποιούν σημασιολογική ανάλυση του κώδικα.
• Δεν προτείνουν ολοκληρωμένα τμήματα κώδικα.
• Δεν επιτυγχάνουν υψηλές αποδόσεις όσον αφορά την επιστροφή σχετικών αποτελεσμάτων.
Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με
Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης
4
9. Neural Network (1/9)
Δίκτυο Αντιστοίχισης (Matching Network):
• Αρχιτεκτονική ειδικά κατασκευασμένη για την επίλυση one-shot learning προβλημάτων.
• Χρήση ξεχωριστών κωδικοποιητών.
• Χρήση μετρικής ομοιότητας διανυσμάτων.
• Δημιουργία τετραγωνικού πίνακα τιμών ομοιότητας, με διαγώνια στοιχεία τιμές ομοιότητας θετικών ζευγών.
Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με
Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης
9
10. Neural Network (2/9)
Κωδικοποιητές:
• Χρήση της state-of-the-art αρχιτεκτονικής των Μετασχηματιστών (Transformers).
• Δημιουργία ενσωματώσεων λέξεων (word embeddings).
• Κωδικοποίηση ενσωματώσεων ως προς τη θέση των λέξεων στο κείμενο.
• Χρήση Προσοχής Πολλαπλών Κεφαλών (Multi-Head Attention)
για τη σημασιολογική ανάλυση του εξεταζόμενου κειμένου.
• Χρήση Δικτύου Εμπρόσθιας Διάδοσης (Feed-Forward Network)
για το συνδυασμό πολύπλοκων συντακτικών πληροφοριών.
• Εκβάθυνση του δικτύου με την τριπλή επανάληψη των επιπέδων
Προσοχής Πολλαπλών Κεφαλών και Δικτύου Εμπρόσθιας Διάδοσης.
• Χρήση max pooling για τη δημιουργία ενσωματώσεων προτάσεων.
Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με
Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης
10
11. Neural Network (3/9)
Προσοχή Πολλαπλών Κεφαλών:
• Σημαντικές βελτιώσεις σε προβλήματα Νευρωνικής Μηχανικής Μετάφρασης.
• Εστίαση της προσοχής στις πιο κατάλληλες λέξεις του κειμένου.
• Μηχανισμός πολλαπλών κεφαλών για την εξέταση των πληροφοριών με διαφορετικούς τρόπους.
• Σημασιολογική ανάλυση του κειμένου.
Δίκτυο Εμπρόσθιας Διάδοσης:
• Χρήση μη γραμμικών μετασχηματισμών.
• Συνδυασμός πολύπλοκων συντακτικών και γραμματικών πληροφοριών.
• Δημιουργία ενσωματώσεων οι οποίες συμπεριλαμβάνουν τις πληροφορίες των συμφραζομένων.
Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με
Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης
11
12. Neural Network (4/9)
Ομοιότητα Επιφάνειας Τριγώνου - Ομοιότητα Επιφάνειας Τομέα:
• Γεωμετρική υβριδική μετρική ομοιότητας.
• Συνδυασμός ευκλείδειας απόστασης, μήκους και γωνίας μεταξύ των διανυσμάτων.
• Διόρθωση όλων των αδυναμιών της ευκλείδειας απόστασης και της ομοιότητας συνημίτονου.
• Όμοια χαρακτηρίζονται διανύσματα με μικρές ή μηδενικές διαφορές στην ευκλείδεια απόσταση, στο μήκος
και στη μεταξύ τους γωνία.
Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με
Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης
14
13. Neural Network (5/9)
Τετραγωνικές Απώλειες Περιθωρίου:
• Επιτρεπτή τιμή περιθωρίου οποιαδήποτε θετική τιμή.
• Η χρήση του τετραγώνου «τιμωρεί» περισσότερο τις μεγάλες και λιγότερο τις μικρές τιμές απωλειών.
• Γρήγορη σύγκλιση στο ολικό ελάχιστο της συνάρτησης.
Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με
Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης
16
14. Neural Network (6/9)
Βελτιστοποιητές (Optimizers):
• Χρήση του βελτιστοποιητή Adam για την εκπαίδευση του δικτύου.
• Εύρεση του βέλτιστου ρυθμού μάθησης με τη χρήση συνάρτησης εκθετικής αύξησης.
• Εκπαίδευση του δικτύου για εκθετικά αυξανόμενο ρυθμό μάθησης.
• Επιλογή ρυθμού μάθησης για τον οποίο υπάρχει απότομη μείωση απωλειών και απότομη αύξηση της
ακρίβειας (accuracy).
Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με
Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης
18
17. Neural Network (9/9)
Εκπαίδευση (Training):
• Εκπαίδευση του δικτύου για 40 εποχές.
• Αποθήκευση του μοντέλου όταν η τιμή της μετρικής MRR του συνόλου δεδομένων επικύρωσης (validation
dataset) περνά την προηγούμενη καλύτερη τιμή.
Υπερπαράμετρος Τιμή
NUM_LAYERS 3
INPUT_VOCAB_SIZE 10.002
TARGET_VOCAB_SIZE 10.002
INPUT_POSITION 10.002
TARGET_POSITION 10.002
NUM_HEADS 8
DFF 512
D_MODEL 128
RATE 0,1
LEARNING_RATE 3.2e-4
MARGIN 5
EPOCHS 40
Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με
Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης
21
18. Index Builder
• Χρήση του εργαλείου Annoy του Spotify, το οποίο αποτελεί υλοποίηση του αλγορίθμου Αναζήτησης
Πλησιέστερου Γείτονα (Nearest Neighbor Search).
• Προσεγγιστικός αλγόριθμος για τη μείωση του χρόνου αναζήτησης.
• Κατασκευή διανυσματικού χώρου με τη χρήση δυαδικών δέντρων, όπου κάθε κόμβος ανήκει σε μία
ενσωμάτωση κώδικα.
• Αναζήτηση του πιο όμοιου διανύσματος στο διάνυσμα εισαγωγής στα 10.000 κοντινότερα διανύσματα, έναντι
των 1.569.889 που περιέχονται συνολικά στο διανυσματικό χώρο.
Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με
Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης
26
19. Search Engine (1/3)
• Κατασκευή μίας διαδικτυακής εφαρμογής για την αναζήτηση ερωτημάτων.
• Δημιουργία Γραφικού Περιβάλλοντος Χρήστη για εύκολη προσβασιμότητα.
• Χρήση της υπηρεσίας App Engine της Πλατφόρμας Νέφους της Google (Google Cloud Platform).
• Προεπεξεργασία των εισαγόμενων ερωτημάτων.
• Επιστροφή ολοκληρωμένων τμημάτων κώδικα με τη χρήση του Νευρωνικού Δικτύου και του διανυσματικού
χώρου που κατασκευάστηκε με το εργαλείο Annoy.
Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με
Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης
27
22. Αξιολόγηση του Συστήματος (1/5)
Μετρικές Αξιολόγησης:
• Precision at K (P@K): μετρά τη σχετικότητα των πρώτων Κ αποτελεσμάτων χωρίς να λαμβάνει υπόψη τη
θέση τους στη λίστα αποτελεσμάτων.
𝑃@𝐾 =
σ 𝑟𝑒𝑙𝑒𝑣𝑎𝑛𝑡
𝐾
• Mean Reciprocal Rank (MRR): μετρά τη θέση του πρώτου σχετικού ερωτήματος που συναντάται στη λίστα
αποτελεσμάτων.
𝑀𝑅𝑅 =
1
𝑄
𝑖=1
𝑄
1
𝑟𝑎𝑛𝑘𝑖
• Normalized Discounted Cumulative Gain (NDCG): μετρά τη σχετικότητα των αποτελεσμάτων λαμβάνοντας
υπόψη τη θέση τους στη λίστα και το βαθμό της σχετικότητάς τους.
𝑁𝐷𝐶𝐺 =
𝐷𝐶𝐺
𝐼𝐷𝐶𝐺
𝐷𝐶𝐺 = σ𝑖=1
𝑁 2 𝑟𝑒𝑙 𝑖−1
𝑙𝑜𝑔2 𝑖+1
𝐼𝐷𝐶𝐺 = σ𝑖=1
𝑅𝐸𝐿 𝑁 2 𝑟𝑒𝑙 𝑖−1
𝑙𝑜𝑔2 𝑖+1
Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με
Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης
30
23. Αξιολόγηση του Συστήματος (2/5)
Μέθοδοι Αξιολόγησης:
• Σύγκριση με το παρόμοιο σύστημα CodeSearchNet.
• Σύγκριση των τιμών της MRR στα δεδομένα επικύρωσης και ελέγχου.
• Χρήση των 99 ερωτημάτων με τα οποία αξιολογείται το εν λόγο σύστημα για τον υπολογισμό της
NDCG.
• Υπολογισμός της MRR για κάθε ένα από 99 ερωτήματα.
• Εξέταση των αποτελεσμάτων του CODEtransformer σε ερωτήματα του Stack Overflow.
• Χρήση 40 δημοφιλών ερωτημάτων που αφορούν τη γλώσσα Java.
• Υπολογισμός της P@10 για κάθε ένα από 40 ερωτήματα.
Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με
Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης
31
24. Σύγκριση με το CodeSearchNet
Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με
Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης
32
25. Αξιολόγηση του Συστήματος (3/5)
Σύστημα Validation MRR
CodeSearchNet-NBoW 0,4972
CodeSearchNet-1D-CNN 0,4926
CodeSearchNet-biRNN 0,2713
CodeSearchNet-SelfAtt 0,5513
CODEtransformer 0,6260
Η μέτρηση της MRR στο σύνολο δεδομένων επικύρωσης κάθε συστήματος.
Σύστημα Test MRR
CodeSearchNet-NBoW 0,5140
CodeSearchNet-1D-CNN 0,5270
CodeSearchNet-biRNN 0,2865
CodeSearchNet-SelfAtt 0,5866
CODEtransformer 0,6263
Η μέτρηση της MRR στο σύνολο δεδομένων ελέγχου κάθε συστήματος.
Σύστημα NDCG
CodeSearchNet-NBoW 0,1207
CodeSearchNet-1D-CNN 0,1282
CodeSearchNet-biRNN 0,0623
CodeSearchNet-SelfAtt 0,1003
CODEtransformer 0,1028
Η μέτρηση της NDCG σε κάθε σύστημα.
Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με
Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης
33
26. Αξιολόγηση του Συστήματος (4/5)
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 61 63 65 67 69 71 73 75 77 79 81 83 85 87 89 91 93 95 97 99
Η μέτρηση της MRR σε κάθε ένα από τα 99 ερωτήματα.
Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με
Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης
34
27. Δημοφιλή Ερωτήματα του Stack Overflow
Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με
Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης
35
28. Αξιολόγηση του Συστήματος (5/5)
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
Η μέτρηση της P@10 σε κάθε ένα από τα 40 ερωτήματα.
Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με
Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης
36
29. Συμπεράσματα
• Η χρήση του CODEtransformer εξοικονομεί χρόνο και μειώνει το φόρτο εργασίας.
• Η παρουσίαση ολοκληρωμένων τμημάτων κώδικα επισπεύδει την ανάπτυξη λογισμικού.
• Η προεπεξεργασία και η ποιότητα των δεδομένων επηρεάζουν άμεσα την απόδοση του συστήματος.
• Η αρχιτεκτονική των Μετασχηματιστών πραγματοποιεί βαθιά σημασιολογική ανάλυση.
• Η χρήση της TS-SS εξασφαλίζει πραγματικά όμοιες ενσωματώσεις φυσικής γλώσσας και κώδικα.
• Η διαδικτυακή εφαρμογή επιτρέπει γρήγορη και εύκολη πρόσβαση στο σύστημα.
Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με
Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης
37
30. Μελλοντική Εργασία
• Η χρήση πραγματικών ερωτημάτων ως δεδομένα φυσικής γλώσσας, έναντι σχολιασμών κώδικα.
• Η χρήση των ονομάτων των συναρτήσεων σε συνδυασμό με ερωτήματα φυσικής γλώσσας.
• Η χρήση τεχνικών συμπίεσης Νευρωνικών Δικτύων.
• Η βελτίωση του γραφικού περιβάλλοντος της διαδικτυακής εφαρμογής.
Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με
Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης
38
31. Ευχαριστίες
Ευχαριστώ θερμά:
• τον κ. Ανδρέα Συμεωνίδη, για την εμπιστοσύνη που μου έδειξε.
• τον κ. Θεμιστοκλή Διαμαντόπουλο, για τη στήριξη και την καθοδήγησή του.
• την οικογένεια και τους στενούς μου φίλους, για τη βοήθεια και την κατανόησή τους.
• εσάς, για την προσοχή σας.
Σημασιολογική Αναζήτηση Κώδικα σε Αποθήκες Λογισμικού με
Τεχνικές Νευρωνικής Μηχανικής Μετάφρασης
39