Stelios poulakakis daktylidis diploma thesis presentation

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ
ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ
ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ &
ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ
ΤΟΜΕΑΣ ΗΛΕΚΤΡΟΝΙΚΗΣ & ΥΠΟΛΟΓΙΣΤΩΝ
Διπλωματική Εργασία
Εφαρμογή Τεχνικών Εξόρυξης Δεδομένων σε
Αποθετήρια Ανοικτού Λογισμικού
για την Εύρεση και Διόρθωση Σφαλμάτων
Εκπόνηση:
Πουλακάκης-Δακτυλίδης Στυλιανός,
Α.Ε.Μ : 8582
Επιβλέποντες:
Ανδρέας Λ. Συμεωνίδης,
Αναπληρωτής Καθηγητής Α.Π.Θ.
Διαμαντόπουλος Θεμιστοκλής,
Μεταδιδακτορικός Ερευνητής
Καρανικιώτης Θωμάς,
Υποψήφιος Διδάκτωρ
ΕΡΓΑΣΤΗΡΙΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΠΛΗΡΟΦΟΡΙΑΣ & ΥΠΟΛΟΓΙΣΜΩΝ
Θεσσαλονίκη, Ιούνιος 2020

Θεσσαλονίκη, Ιούνιος 2020 2
Διάρθρωση Παρουσίασης
Εφαρμογή Τεχνικών Εξόρυξης Δεδομένων σε Αποθετήρια Ανοικτού
Λογισμικού για την Εύρεση και Διόρθωση Σφαλμάτων
➢ Εισαγωγή
➢ Ανάλυση Μεθοδολογίας
➢ Αξιολόγηση & Αποτελέσματα
➢ Συμπεράσματα
➢ Μελλοντική Εργασία
|

|

Πιθανή Λύση
➢ Συστήματα Προτάσεων (Recommendation Systems
in Software Engineering)
Προκλήσεις
❖ Πως θα αξιοποιήσουμε τον όγκο αυτό πληροφορίας;
❖ Πως θα συμπεριλάβουμε την εξέλιξη κώδικα στην
ανάλυση;
❖ Πως θα μειώσουμε τον χρόνο αναζήτησης κώδικα;
❖ Πως θα παράγουμε χρήσιμες προτάσεις;
Περιγραφή του Προβλήματος
Open source Initiative => Συστήματα Ελέγχου Εκδόσεων (VCS)
Γιατί GitHub ;
Δημοφιλέστερη πλατφόρμα φιλοξενίας κώδικα (40Μ+ χρήστες,
100Μ+ αποθετήρια)
Επιπλέον χαρακτηριστικά όπως : Bug Tracking, Feature
Requests, Documentation, Version Control
Πρόσβαση σε τεράστιο όγκο δεδομένων
Συνεχής βελτιστοποίηση κώδικα μέσω της συνεργασίας
Εξέλιξη Κώδικα
• Σχηματισμός επαναλαμβανόμενων μοτίβων
• Συλλογική γνώση συνεισφερόντων προγραμματιστών
|

Ανάπτυξη Συστήματος Προτάσεων και Διόρθωσης Σφαλμάτων :
❖ Αξιοποίηση διαθέσιμης πληροφορίας από την πλατφόρμα
του GitHub
❖ Μελέτη εξέλιξης τμημάτων πηγαίου κώδικα
❖ Εντοπισμός γενικεύσιμων μοτίβων τροποποιήσεων και
διόρθωσης σφαλμάτων
❖ Παραγωγή χρήσιμων και άμεσα εκτελέσιμων προτάσεων σε
διαφορετικά σενάρια χρήσης
Σκοπός Διπλωματικής
|

Θεσσαλονίκη, Ιούνιος 2020
GitHub Commit – Βασική Μονάδα Ανάλυσης
Βασικά Πεδία ενός Commit
❑ Αναγνωριστικό SHA
(SHA id)
❑ Μήνυμα Commit
(Commit Message)
❑ Πηγαίος Κώδικας
(Code Patch)
6|

|

Αρχιτεκτονική του Συστήματος
|

Δημιουργία Συνόλου Δεδομένων
▪ Συλλογή δεδομένων από τα 3.000 δημοφιλέστερα
αποθετήρια σε Java
▪ Εφαρμογή εργαλείου PyDriller
▪ Git Cloning
▪ Δημιουργία Συνόλου Δεδομένων από Commits
▪ Αποθήκευση σε PostgreSQL βάση δεδομένων
Στάδια Προεπεξεργασίας
Διατήρηση αποθετηρίων με <2.500 commits
Διατήρηση μονάχα αρχείων με κατάληξη “.java”
Διατήρηση μονάχα commits του Main branch
Διατήρηση Single-file commits
Διατήρηση Modification commits
Διατήρηση commits με <100 γραμμές κώδικα
Εξαγωγή και Προεπεξεργασία Δεδομένων
|

Στόχος : Υπολογισμός Ομοιότητας μεταξύ τμημάτων Κώδικα
Code Before
1 MethodDeclaration:
2 Modifier: public
3 PrimitiveType: boolean
4 SimpleName: equals
5 SingleVariableDeclaration:
6 SimpleType:
7 SimpleName: Object
8 SimpleName: other
9 Block:
10 IfStatement:
11 InstanceofExpression:
12 SimpleName: other
13 SimpleType:
14 SimpleName: Region
15 Block:
16 ReturnStatement:
17 InfixExpression:
18 FieldAccess:
19 ParenthesizedExpression:
20 CastExpression:
21 SimpleType:
24 SimpleName: uniqueId
25 FieldAccess:
26 ThisExpression: this
28 ReturnStatement:
29 BooleanLiteral: false
Ανάλυση Κώδικα – Εξαγωγή AST
Code After
1 MethodDeclaration:
2 Modifier: public
3 PrimitiveType: boolean
5 SingleVariableDeclaration:
6 SimpleType:
7 SimpleName: Object
8 SimpleName: other
9 Block:
10 IfStatement:
11 InstanceofExpression:
13 SimpleType:
15 Block:
16 ReturnStatement:
17 MethodIncovation:
18 FieldAccess:
20 CastExpression:
21 SimpleType:
26 FieldAccess:
29 ReturnStatement:
30 BooleanLiteral: false
CodeDeletions
CodeAdditions
Μετατροπή σε αναπαράσταση που καθιστά
τη σύγκριση δυνατή
Αναπαράσταση Δέντρου – AST (Αbstract Syntax Tree)
|

Commit Features
SHA_id
Filename
Message
Code diff
Code Additions AST
Code Deletions AST
Method Code Before
Method Code After
Method Code before AST
Method Code After AST
Συνολικά : 62.634 commits γενικού σκοπού
Στόχος : μικρά και γενικεύσιμα commits διόρθωσης σφαλμάτων
❖ Απόρριψη commits χωρίς δεσμευμένες λέξεις του GitHub για την
επίλυση ενός issue (“fix”, “resolve”, “close” κ.α.)
❖ Απόρριψη commits με πολύ συχνούς όρους (“readme”, “license”,
“version” κ.α.)
❖ Απόρριψη commits με αριθμό χαρακτήρων εκτός του [10,200]
❖ Απόρριψη commits με >15 γραμμές κώδικα (σε οποιοδήποτε από
τα πεδία ( Method Code Before/After)
❖ Απόρριψη commits με έστω και ένα κενό AST
Τελικά : 14.832 commits
Τελικά Χαρακτηριστικά και Φιλτράρισμα Commits
|

Original : fixed the FC if “postUnlock” runnable is null.
1. Punctuation fixed the FC if postUnlock runnable is null
2. Tokenize [fixed, the, FC, if, postUnlock, runnable, is, null]
3. CamelCase [fixed, the, FC, if, post, Unlock, runnable, is, null]
4. Stop Words [fixed, FC, post, Unlock, runnable, null]
5. Stemming [fix, FC, post, Unlock, runnabl, null]
6. Lowercase [fix, fc, post, unlock, runnabl, null]
Επεξεργασία Μηνυμάτων
Παράδειγμα
|

Στόχος : Υπολογισμός Ομοιότητας μεταξύ Μηνυμάτων
Τεχνική Διανυσματοποίησης : TF-IDF (Term Frequency-
Inverse Document Frequency)
όπου η συνάρτηση εμφάνισης του όρου w στο μήνυμα m
ο συνολικός αριθμός μηνυμάτων
το πλήθος των μηνυμάτων που περιέχουν τον όρο w
Μοντέλο TF-IDF
Διανυσματοποίηση – Vector Space Modelling (VSM)
Μετατροπή σε αναπαράσταση που καθιστά τη σύγκριση δυνατή
𝑇𝐹. 𝐼𝐷𝐹 𝑤, 𝑚 = 𝑇𝐹 𝑤, 𝑚 ∗ 𝐼𝐷𝐹 𝑤 = 𝑇𝐹 𝑤, 𝑚 ∗ log(
𝐶
𝐷𝐹(𝑤)
)
𝑇𝐹 𝑤, 𝑚
𝐶 = 𝑀
𝐷𝐹(𝑤)
|

Αναπαράσταση Κώδικα – ASTs (Abstract Syntax Trees)
Μετατροπή σε Ordered Labeled Tree
Πρόβλημα
- Μεγάλη πολυπλοκότητα ακριβούς υπολογισμού TED
- Μη επαρκής επεκτασιμότητα (scalability) για μεγάλα
δέντρα (όπως ASTs)
Λύση : Αλγόριθμοι με κατά προσέγγιση υπολογισμό TED
Επεξεργασία Κώδικα / ASTs
1 ReturnStatement:
2 InfixExpression:
3 FieldAccess:
5 CastExpression:
6 SimpleType:
8 SimpleName: other
10 FieldAccess:
Υπολογισμός Διαφοράς/Απόστασης Δέντρων
TED -Tree Edit Distance
Abstract Syntax Tree
Ordered Labeled Tree
|

Αλγόριθμος κατά προσέγγιση υπολογισμού TED
❑ Παράμετρος p (Stem): Καθορίζει τον αριθμό επιπέδων των
υποδέντων pq-Grams
❑ Παράμετρος q (Base): Καθορίζει τον αριθμό “φύλλων” των
υποδέντων pq-Grams
Φάση 1 : Εισαγωγή εικονικών κόμβων (dummy nodes, ∗) – Διατήρηση
σχέσεων “γονέα-παιδιού” και “αδερφών” μεταξύ πραγματικών κόμβων (b)
Φάση 2 : Δημιουργία υποδέντρων pq-Grams (c)
Αλγόριθμος pq-Grams
Παράδειγμα
(p=2,q=3)
Δημιουργία δεικτών για κάθε υποδέντρο (π.χ. Για το πρώτο υποδέντρο
της (c) με stem: {∗A} και base: {∗∗B} προκύπτει o δείκτης: [∗A∗∗B] )
Σύσταση τελικού προφίλ pq-Grams για το αρχικό δέντρο (a)
για το παράδειγμα προκύπτει :
I(T) = {[∗A∗∗B],[∗A∗BC],[∗ABC∗],[∗AC∗∗],[AB∗∗∗],[AC∗∗D],
[AC∗DE],[ACDE∗],[ACE∗∗],[CD∗∗∗],[CE∗∗∗]}
|

Μοντέλο Ομοιότητας – Similarity Scheme
Βαθμός ομοιότητας κειμένου (Πεδίο του μοντέλου : Commit Message)
Υπολογισμός με βάση την απόσταση συνημιτόνου
όπου το σκορ TF-IDF για τη λέξη wi και το μήνυμα m, και N το συνολικό
πλήθος διαστάσεων του χώρου.
Βαθμός ομοιότητας κώδικα (Πεδία του μοντέλου : Code Before/After/Deletions/Additions
Υπολογισμός με βάση την απόσταση pq-Grams των δέντρων T1 και Τ2
Όπου , το συνολικό πλήθος δεικτών που υπάρχουν στα δύο προφίλ
αθροιστικά και , το πλήθος κοινών δεικτών
Score by : Καθορίζει ποιοι βαθμοί θα συμμετέχουν στον
τελικό υπολογισμό
𝑐𝑜𝑠. 𝑠𝑖𝑚 𝑚1, 𝑚2 =
𝑚1 ∗ 𝑚2
𝑚1 ∗ 2
=
σ𝑖=1
𝑁
[𝑡𝑓 𝑤𝑖, 𝑚1 ∗ 𝑡𝑓 𝑤𝑖, 𝑚2 ]
[ σ𝑖=1
𝑁
𝑡𝑓2 𝑤𝑖, 𝑚1 ∗ σ𝑖=1
𝑁
𝑡𝑓2 𝑤𝑖, 2 ]
𝒕𝒇 𝒘𝒊, 𝒎
𝑝𝑞. 𝑠𝑖𝑚 𝑇1, 𝑇2 = 1 − 𝛿 𝑇1, 𝑇2 = 2 ∗
Ι(Τ1)⋂Ι(Τ1)
Ι(Τ1) ∪ Ι(Τ1)
Ι(Τ1)⋂Ι(Τ1)
Ι(Τ1) ∪ Ι(Τ1)
|

Παράδειγμα Ομοιότητας pq-Grams
Δέντρο Τ1 Δέντρο Τ2
Προκύπτουν 42 υποδέντρα
Προκύπτουν 31 υποδέντρα
Ι(Τ1)
Ι(Τ2)
|
𝑝𝑞. 𝑠𝑖𝑚 𝑇1, 𝑇2 = 2 ∗
Ι Τ1 ⋂Ι Τ1
Ι Τ1 ∪ Ι Τ1
= 2 ∗
16
31 + 42
= 0.438

|

Εργαλείο Προτάσεων - Commit Recommender
Υποβολή ερωτημάτων από το Χρήστη
Εισαγωγή πεδίων εισόδου ανάλογα με το σενάριο χρήσης
Αξιοποίηση Μοντέλου Ομοιότητας
14.832 commits τροποποιήσεων κώδικα από δημοφιλή αποθετήρια
Παραγωγή Σχετικών Προτάσεων Commits
Παρουσίαση των πρώτων N αποτελεσμάτων στο χρήστη
Σενάρια Χρήσης
(1) Αναζήτηση σε φυσική γλώσσα (How to ... ?)
(2) Ανάπτυξη τεκμηρίωσης (documentation)
(3) Εύρεση σχετικού κώδικα
|

Θεσσαλονίκη, Ιούνιος 2020 20Εφαρμογή Τεχνικών Εξόρυξης Δεδομένων σε Αποθετήρια Ανοικτού
ΣΧ-1: Αναζήτηση σε Φυσική Γλώσσα
Παράδειγμα 2ο : Αναζήτηση με μήνυμα “null pointer exception”Παράδειγμα 1ο : Αναζήτηση με μήνυμα “concurrent modification exception”
|

ΣΧ-2: Ανάπτυξη Τεκμηρίωσης (1/2)
Παράδειγμα 1ο : Commit Εισόδου 10 πρώτα προτεινόμενα μηνήματα
|

Παράδειγμα 2ο : Commit Εισόδου 10 πρώτα προτεινόμενα μηνήματα
ΣΧ-2: Ανάπτυξη Τεκμηρίωσης (2/2)
|

Μετρικές Αξιολόγησης (1/2)
Ανάγκη και για
Ποσοτική Αξιολόγηση Συστήματος ⇒ Γενίκευση Αποτελεσμάτων
Σημαντικός παράγοντας για τα τελικά αποτελέσματα:
Σειρά Κατάταξης (Rank)
Μετρικές Αξιολόγησης
Reciprocal Rank≡RR=
1
rank
Mean Reciprocal Rank≡MRR=
1
Q
∑i=1
Q
RRi=
1
Q
∑i=1
Q
(
1
ranki
)
Average Precision≡AP=
∑
k=1
N
(P(k)∗rel(k))
NR
Mean Average Precision≡MAP=
1
Q
∑i=1
Q
APi
|

Μετρικές Αξιολόγησης (2/2)
Εφαρμογή για 10 ερωτήματα χρήστη του ΣΧ_2
Διάγραμμα Average Precision για 10 ερωτήματα
.
Διάγραμμα Reciprocal Rank για 10 ερωτήματα
|

|

Συμπεράσματα
Αξιοποίηση τόσο δομικού όσο και σημασιολογικού περιεχομένου των commits
Προσαρμογή σε διαφορετικά σενάρια χρήσης
Παροχή χρήσιμων και εκτελέσιμων συστάσεων σε επίπεδο commits
Εντοπισμός συχνών μοτίβων διόρθωσης σφαλμάτων
Γενίκευση μεμονωμένων λύσεων
Πολωμένη (biased) αξιολόγηση σε περιπτώσεις χρήσης ενός μόνο από τους
επιμέρους βαθμούς ομοιότητας
Σχετικά μεγάλος χρόνος εκτέλεσης
|

|

Μελλοντική Εργασία
Επέκταση με User Interface ή IDE plug-in
Παραλληλοποίηση συγκρίσεων για το μοντέλο ομοιότητας
Εφαρμογή ομαδοποίησης (Clustering) και οπτικοποίησης (Visualization)
Επιπλέον πειραματισμός
Επεκτάσεις σε άλλες γλώσσες προγραμματισμού και σύνολα δεδομένων
|

Ευχαριστίες
Θα ήθελα να ευχαριστήσω θερμά :
➢ Τον αναπληρωτή καθηγητή Ανδρέα Λ. Συμεωνίδη
➢ Τον μεταδιδακτορικό ερευνητή Θεμιστοκλή Διαμαντόπουλο
➢ Τον υποψήφιο διδάκτορα Θωμά Καρανικιώτη
➢ Όλους εσάς που παρακολουθήσατε την παρουσίαση
|

Ευχαριστώ πολύ για την προσοχή σας
Ερωτήσεις ;
|

Stelios poulakakis daktylidis diploma thesis presentation

Recommended

Recommended

More Related Content

What's hot

What's hot (15)

Similar to Stelios poulakakis daktylidis diploma thesis presentation

Similar to Stelios poulakakis daktylidis diploma thesis presentation (20)

More from ISSEL

More from ISSEL (20)

Stelios poulakakis daktylidis diploma thesis presentation