Διπλωματική εργασία του
Ιακωβίδη Ιωάννη
AEM: 7436
υπό την επίβλεψη του Επίκουρου Καθηγητή
Ανδρέα Λ. Συμεωνίδη
και του μεταδιδακτορικού ερευνητή
Κυριάκου Χατζηδημητρίου
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ
ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ
ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ & ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ
ΤΟΜΕΑΣ ΗΛΕΚΤΡΟΝΙΚΗΣ & ΥΠΟΛΟΓΙΣΤΩΝ
ΕΡΓΑΣΤΗΡΙΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΠΛΗΡΟΦΟΡΙΑΣ ΚΑΙ ΥΠΟΛΟΓΙΣΜΩΝ
Τεράστιος αριθμός διαθέσιμων συλλογών
δεδομένων
 Έξυπνες συσκευές
 Ενσωματωμένοι υπολογιστές
 Διαδικτυακές συναλλαγές
Μεγάλη ζήτηση για πλήθος και ποικιλία
δεδομένων
 Αυξανόμενη διαθέσιμη υπολογιστική δύναμη
Η χρήση ποικιλίας συλλογών δεδομένων
αποδεικνύεται χρονοβόρα
 Προεπεξεργασία δεδομένων για την μετατροπή τους
σε κοινή μορφή
Ιδιαίτερα δύσκολη η χρήση ημιδομημένων
δεδομένων (π.χ. Wikipedia)
 Δομή ποικίλει μεταξύ εγγραφών
Χρήση ενισχυτικής μάθησης για την
επεξεργασία δομημένων δεδομένων
 Σχεδίαση και υλοποίηση συστημάτων
ενισχυτικής μάθησης πολλαπλών σταδίων
 Αποκατάσταση δομής δεδομένων
 Εξαγωγή δομημένων δεδομένων από φυσική
γλώσσα
 Εξαγωγή δομημένων δεδομένων από HTML
σελίδες
 Ο πράκτορας αντιλαμβάνεται το περιβάλλον του
μέσω του σήματος κατάσταστης S
 Από το σήμα S εξάγονται χαρακτηριστικά σύμφωνα
με τα οποία επιλέγεται η ενέργεια Α
 Το περιβάλλον αντιδρά στην ενέργεια του πράκτορα
παράγοντας σήμα επιβράβευσης R και νέο σήμα
κατάστασης S’
 Ο πράκτορας προσαρμόζει τις ενέργειές του βάση
του σήματος επιβράβευσης
Ανακατασκευάζουμε την δομή σεναρίων έργων
του Shakespeare χρησιμοποιώντας μόνο το
κείμενο.
Τρεις μέθοδοι:
 Ανακατασκευή κόμβο-προς-κόμβο, σειριακή
αντιμετώπιση γραμμών
 Ανακατασκευή γραμμή-προς-γραμμή, σειριακή
αντιμετώπιση γραμμών
 Ανακατασκευή γραμμή-προς-γραμμή, μη-σειριακή
αντιμετώπιση γραμμών
Δύο κλίμακες:
Χαρακτηριστικά Play trees Scene trees
Μέσος όρος αριθμού φύλλων δένδρου 3940 195
Μέσος όρος αριθμού εσωτερικών κόμβων δένδρου 870 45
Αριθμός κατηγοριών κόμβων 18 6
Μέσο βάθος φύλλου 4.95 2.95
Ανακατασκευή κόμβο-προς-κόμβο, σειριακή
αντιμετώπιση γραμμών
Χαρακτηριστικά
Πληροφορίες δομής
Πληροφορίες περιεχομένου
(τρέχουσα και προηγούμενη γραμμή)
 Μονοπάτι προηγούμενης γραμμής
 Υπάρχον μονοπάτι τρέχουσας γραμμής
 Πρώτη λέξη γραμμής
 Τελευταία λέξη γραμμής
 Δομή γραμμής (σημεία στίξης,
κεφαλαία/μικρά)
Ανακατασκευή γραμμή-προς-γραμμή, σειριακή
αντιμετώπιση γραμμών
Speech
Speaker
MARCELLUS
Line
'Tis gone!
Stagedir
Exit Ghost
Speech
Speaker
MARCELLUS
Line
'Tis gone!
Μετατροπή σε sequence labeling task
Πλεονεκτήματα Μειονεκτήματα
 Μείωση απαιτούμενων
ενεργειών
 Γρηγορότερος αλγόριθμος
 Αύξηση αριθμού διαθέσιμων
ενεργειών
Θα θέλαμε να χρησιμοποιήσουμε τα μονοπάτια
επόμενων κόμβων για να βρούμε τα πιο δύσκολα
μονοπάτια.
Πρόβλημα:
 Η ελεύθερη (μη σειριακή) αντιμετώπιση των γραμμών
είναι υπερβολικά απαιτητική.
Παρατήρηση:
 Τα πιο χρήσιμα μονοπάτια είναι αυτά της
προηγούμενης και της επόμενης γραμμής.
Λύση:
 Επιλογή μεταξύ των επόμενων δύο γραμμών
Speech
Speaker
MARCELLUS
Line
'Tis gone!
Stagedir
Exit Ghost
Speech
Speaker
MARCELLUS
Speech
Speaker
MARCELLUS
Blank
Stagedir
Exit Ghost
Πλεονεκτήματα Μειονεκτήματα
 Χρήση μονοπατιού επομένης
γραμμής στα χαρακτηριστικά
 Αύξηση αριθμού διαθέσιμων
ενεργειών
 Αργότερος αλγόριθμος
Μετρικές επίδοσης:
 Path Percentage Similarity Measure: Ποσοστό σωστών
μονοπατιών κόμβων από την ρίζα του δέντρου μέχρι
το φύλλο.
 F1 Subtree Similarity Measure: Ποσοστό κοινών
υποδέντρων μεταξύ του ζητούμενου δέντρου και του
ανακατασκευασμένου.
 F1 TagType Measure: Μέσος όρος της τιμής F1 για
κάθε τύπο κόμβου στα φύλλα του δέντρου.
0.9
0.91
0.92
0.93
0.94
0.95
0.96
0.97
0.98
0.99
Path Perc Structure F1 TagType Perc
Επίδοση σε σκηνές
Node-by-Node Leaf-by-Leaf Serial Leaf-by-Leaf non-serial
0.6
0.65
0.7
0.75
0.8
0.85
0.9
0.95
1
Path Perc TagType Perc
Επίδοση σε έργα
Leaf-by-Leaf Serial Leaf-by-Leaf Non-serial
Σκηνές
 Κάθε μέθοδος παρουσιάζει ελαφρά βελτίωση σε σχέση με τις
προηγούμενες
Έργα
 Η ανά κόμβο ανοικοδόμηση υπερβολικά απαιτητική
 Η σειριακή μέθοδος καλύτερη της μη-σειριακής
S-CASE:
 Υπηρεσία ημιαυτόματης δημιουργία RESTful Web
Services με χρήση απαιτήσεων λογισμικού και
μοντέλων συστημάτων
Ασχολούμαστε με τον μηχανισμό αυτόματης εξαγωγής
οντοτήτων από προτάσεις απαιτήσεων λογισμικού.
Τέσσερεις τύποι οντοτήτων:
 Action: Ενέργειες που εκτελούνται
 Actor: Οντότητες που εκτελούν ενέργειες (σύστημα,
χρήστες κ.τ.λ.)
 Object: Οντότητες πάνω στις οποίες εκτελούνται
ενέργειες.
 Property: Ιδιότητες των οντοτήτων τύπου Actor
και Object
Τρεις τύποι σχέσεων μεταξύ οντοτήτων:
 IsActorOf: Συνδέει οντότητες τύπου Actor με τις
ενέργειες Action που εκτελούν
 ActsOn: Συνδέει ενέργειες Action με τις οντότητες
Object πάνω στις οποίες εκτελούνται
 HasProperty: Συνδέει οντότητες τύπου Action και
Object με τα χαρακτηριστικά Property
Εύρεση οντοτήτων-σχέσεων σε τρία βήματα:
 Εύρεση οντοτήτων Action και Object
 Εύρεση σχέσεων ActsOn μεταξύ Action και Object
 Εύρεση οντοτήτων Actor και Property και σχέσεων
IsActorOf και HasProperty
Προεπεξεργασία: Εξαγωγή συντακτικών
δεδομένων με χρήση Mate-tools
Εύρεση οντοτήτων Action και Object
 Αναζήτηση ακολουθόντας το συντακτικό δέντρο
Εύρεση οντοτήτων Action και Object
 Αναζήτηση ακολουθόντας το συντακτικό δέντρο
Χαρακτηριστικά
 Λέξη
 Part-of-Speech tag
 PoS tags των παιδιών
 Συντακτική σχέση των παιδιών με την
τρέχουσα λέξη
 Συντακτική σχέση με την λέξη-πατέρα
 Ακολουθία συντακτικών σχέσεων από
την τρέχουσα λέξη μέχρι την ρίζα
 Ακολουθία σχέσεων από την τρέχουσα
λέξη μέχρι άλλα Action/Object tags.
Εύρεση σχέσεων ActsOn
 Σειριακή εξέταση ζευγών Action-Object
Χαρακτηριστικά
 Ζεύγος λέξεων
 Ζεύγος PoS tags
 PoS tags των παιδιών
 Συντακτικές σχέσεις των
λέξεων με τις λέξεις-
πατέρες τους
 Ακολουθία συντακτικών
σχέσεων στο μονοπάτι από
Action σε Object
 Ακολουθία σχέσεων στο
μονοπάτι από την
οντότητα Object σε άλλες
οντότητες Object που
συνδέονται με την Action
Εύρεση οντοτήτων Actor/Property και σχέσεων
IsActorOf/HasProperty
 Αναζήτηση ακολουθόντας το συντακτικό δέντρο
Εύρεση οντοτήτων Actor/Property και σχέσεων
IsActorOf/HasProperty
 Αναζήτηση ακολουθόντας το συντακτικό δέντρο
Χαρακτηριστικά
 Ζεύγος λέξεων
 Ζεύγος PoS tags
 Συντακτικές σχέσεις των λέξεων με τις
λέξεις-πατέρες τους
 Ακολουθία PoS tags στο μονοπάτι από
την πρώτη λέξη στην δεύτερη
 Ακολουθία σχέσεων στο μονοπάτι από
την πρώτη λέξη στην δεύτερη
 Ακολουθία σχέσεων στο μονοπάτι από
την δεύτερη λέξη σε άλλες λέξεις που
συνδέονται με την πρώτη
0.74
0.75
0.76
0.77
0.78
0.79
0.8
0.81
0.82
0.83
0.84
0.85
Action/Object F1 Perc ActsOn F1 Perc IsActorOf/HasProperty F1
Perc
Επίδοση Τμημάτων Αλγορίθμου
Επιδόσεις μειώνονται με κάθε τμήμα του
αλγορίθμου
 Κάθε τμήμα βασίζεται στην έξοδο του προηγούμενου
 Κάθε τμήμα πιο πολύπλοκο από τα προηγούμενα
 Επιδόσεις μικρότερες στο νέο dataset
 Ο parser ενισχυτικής μάθησης παρουσιάζει
καλύτερες επιδόσεις
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
S-CASE dataset F1 Perc New requirements F1 Perc
Επίδοση Parsers
RL Parser
S-CASE Parser
Εξαγωγή πληροφοριών ταινιών από ιστοσελίδες.
Δύο datasets:
 Imdb: Σχετικά σταθερή δομή μεταξύ σελίδων
 Wikipedia: Μεγαλύτερη ανομοιομορφία στην δομή των
σελίδων
www.imdb.com www.wikipedia.com
title
• Gone With The Wind
Director
• Victor Fleming
Editor
• Hal C. Kern
• James E. Newcom
Δύο στάδια:
 Εξαγωγή πληροφοριών
από ιστοσελίδα
 Κατηγοριοποίηση
πληροφοριών
Πρώτο στάδιο:
 Ο πράκτορας ξεκινά στην κορυφή του δέντρου.
 Τρείς διαθέσιμες ενέργειες
Χαρακτηριστικά
 Όνομα κόμβου
 Ακολουθία ονομάτων
κόμβων από τη ρίζα του
δέντρου μέχρι τον τρέχοντα
κόμβο
 HTML χαρακτηριστικά του
κόμβου
 Επικεφαλίδα υποδέντρου
του κόμβου (αν υπάρχει)
 Ονόματα κόμβων που
παρουσιάζονται πάνω από
μία φορά στο υποδέντρο
του κόμβου
Πρώτη επιλογή:
 Εξερεύνηση των παιδιών του κόμβου
Πρώτη επιλογή:
 Εξερεύνηση των παιδιών του κόμβου
Δεύτερη επιλογή:
 Συνέχιση έρευνας στον επόμενο κόμβο
Δεύτερη επιλογή:
 Συνέχιση έρευνας στον επόμενο κόμβο
Τρίτη επιλογή:
 Εξαγωγή στοιχείων κόμβου
 Συνέχιση έρευνας στον επόμενο κόμβο
Τρίτη επιλογή:
 Εξαγωγή στοιχείων κόμβου
 Συνέχιση έρευνας στον επόμενο κόμβο
Δεύτερο στάδιο:
 Κατηγοριοποίηση των εξαγομένων δεδομένων
title
• The Jazz Singer
…
Editor
• Harold McCord
…
Production company
• Warner Bros. Pictures
…
Actor
• Al Jolson as Jakie Rabinowitz (Jack Robin) James E.
• Warner Oland as Cantor Rabinowitz
…
Χαρακτηριστικά
 Όνομα κόμβου
 HTML χαρακτηριστικά του
κόμβου
 Επικεφαλίδα υποδέντρου
του κόμβου (αν υπάρχει)
 Ονόματα κόμβων που
παρουσιάζονται πάνω από
μία φορά στο υποδέντρο
του κόμβου
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Extraction F1 Classification Perc Final F1
Επιδόσεις αλγορίθμου
Imdb
Wikipedia
 Επιδόσεις στο wikipedia dataset μικρότερες λόγω
μεγαλύτερης ανομοιομορφίας σελίδων
Συμπεράσματα:
 Οι μέθοδοι ενισχυτικήςμάθησης παρουσιάζουν top-
of-the-line επιδόσεις σε προβλήματα δομημένης
πρόβλεψης
 Μπορούν να εξερευνούν δομημένα δεδομένα με μια
ποικιλία τρόπων
Μελλοντική εργασία:
 Αποτελεσματική μη-σειριακή εξερεύνηση δέντρων
 Αντιστοίχηση τμημάτων ιστοσελίδων που περιέχουν
ίδια δεδομένα
 Χρήση NLP για εξαγωγή πληροφοριών από άγνωστες
ιστοσελίδες
Ερωτήσεις;

Ioannis Iakovidis

  • 1.
    Διπλωματική εργασία του ΙακωβίδηΙωάννη AEM: 7436 υπό την επίβλεψη του Επίκουρου Καθηγητή Ανδρέα Λ. Συμεωνίδη και του μεταδιδακτορικού ερευνητή Κυριάκου Χατζηδημητρίου ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ & ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΗΛΕΚΤΡΟΝΙΚΗΣ & ΥΠΟΛΟΓΙΣΤΩΝ ΕΡΓΑΣΤΗΡΙΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΠΛΗΡΟΦΟΡΙΑΣ ΚΑΙ ΥΠΟΛΟΓΙΣΜΩΝ
  • 2.
    Τεράστιος αριθμός διαθέσιμωνσυλλογών δεδομένων  Έξυπνες συσκευές  Ενσωματωμένοι υπολογιστές  Διαδικτυακές συναλλαγές Μεγάλη ζήτηση για πλήθος και ποικιλία δεδομένων  Αυξανόμενη διαθέσιμη υπολογιστική δύναμη
  • 3.
    Η χρήση ποικιλίαςσυλλογών δεδομένων αποδεικνύεται χρονοβόρα  Προεπεξεργασία δεδομένων για την μετατροπή τους σε κοινή μορφή Ιδιαίτερα δύσκολη η χρήση ημιδομημένων δεδομένων (π.χ. Wikipedia)  Δομή ποικίλει μεταξύ εγγραφών
  • 4.
    Χρήση ενισχυτικής μάθησηςγια την επεξεργασία δομημένων δεδομένων
  • 5.
     Σχεδίαση καιυλοποίηση συστημάτων ενισχυτικής μάθησης πολλαπλών σταδίων  Αποκατάσταση δομής δεδομένων  Εξαγωγή δομημένων δεδομένων από φυσική γλώσσα  Εξαγωγή δομημένων δεδομένων από HTML σελίδες
  • 6.
     Ο πράκτοραςαντιλαμβάνεται το περιβάλλον του μέσω του σήματος κατάσταστης S  Από το σήμα S εξάγονται χαρακτηριστικά σύμφωνα με τα οποία επιλέγεται η ενέργεια Α  Το περιβάλλον αντιδρά στην ενέργεια του πράκτορα παράγοντας σήμα επιβράβευσης R και νέο σήμα κατάστασης S’  Ο πράκτορας προσαρμόζει τις ενέργειές του βάση του σήματος επιβράβευσης
  • 7.
    Ανακατασκευάζουμε την δομήσεναρίων έργων του Shakespeare χρησιμοποιώντας μόνο το κείμενο.
  • 8.
    Τρεις μέθοδοι:  Ανακατασκευήκόμβο-προς-κόμβο, σειριακή αντιμετώπιση γραμμών  Ανακατασκευή γραμμή-προς-γραμμή, σειριακή αντιμετώπιση γραμμών  Ανακατασκευή γραμμή-προς-γραμμή, μη-σειριακή αντιμετώπιση γραμμών Δύο κλίμακες: Χαρακτηριστικά Play trees Scene trees Μέσος όρος αριθμού φύλλων δένδρου 3940 195 Μέσος όρος αριθμού εσωτερικών κόμβων δένδρου 870 45 Αριθμός κατηγοριών κόμβων 18 6 Μέσο βάθος φύλλου 4.95 2.95
  • 9.
    Ανακατασκευή κόμβο-προς-κόμβο, σειριακή αντιμετώπισηγραμμών Χαρακτηριστικά Πληροφορίες δομής Πληροφορίες περιεχομένου (τρέχουσα και προηγούμενη γραμμή)  Μονοπάτι προηγούμενης γραμμής  Υπάρχον μονοπάτι τρέχουσας γραμμής  Πρώτη λέξη γραμμής  Τελευταία λέξη γραμμής  Δομή γραμμής (σημεία στίξης, κεφαλαία/μικρά)
  • 10.
    Ανακατασκευή γραμμή-προς-γραμμή, σειριακή αντιμετώπισηγραμμών Speech Speaker MARCELLUS Line 'Tis gone! Stagedir Exit Ghost Speech Speaker MARCELLUS Line 'Tis gone! Μετατροπή σε sequence labeling task Πλεονεκτήματα Μειονεκτήματα  Μείωση απαιτούμενων ενεργειών  Γρηγορότερος αλγόριθμος  Αύξηση αριθμού διαθέσιμων ενεργειών
  • 11.
    Θα θέλαμε ναχρησιμοποιήσουμε τα μονοπάτια επόμενων κόμβων για να βρούμε τα πιο δύσκολα μονοπάτια. Πρόβλημα:  Η ελεύθερη (μη σειριακή) αντιμετώπιση των γραμμών είναι υπερβολικά απαιτητική. Παρατήρηση:  Τα πιο χρήσιμα μονοπάτια είναι αυτά της προηγούμενης και της επόμενης γραμμής.
  • 12.
    Λύση:  Επιλογή μεταξύτων επόμενων δύο γραμμών Speech Speaker MARCELLUS Line 'Tis gone! Stagedir Exit Ghost Speech Speaker MARCELLUS Speech Speaker MARCELLUS Blank Stagedir Exit Ghost Πλεονεκτήματα Μειονεκτήματα  Χρήση μονοπατιού επομένης γραμμής στα χαρακτηριστικά  Αύξηση αριθμού διαθέσιμων ενεργειών  Αργότερος αλγόριθμος
  • 13.
    Μετρικές επίδοσης:  PathPercentage Similarity Measure: Ποσοστό σωστών μονοπατιών κόμβων από την ρίζα του δέντρου μέχρι το φύλλο.  F1 Subtree Similarity Measure: Ποσοστό κοινών υποδέντρων μεταξύ του ζητούμενου δέντρου και του ανακατασκευασμένου.  F1 TagType Measure: Μέσος όρος της τιμής F1 για κάθε τύπο κόμβου στα φύλλα του δέντρου.
  • 14.
    0.9 0.91 0.92 0.93 0.94 0.95 0.96 0.97 0.98 0.99 Path Perc StructureF1 TagType Perc Επίδοση σε σκηνές Node-by-Node Leaf-by-Leaf Serial Leaf-by-Leaf non-serial 0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95 1 Path Perc TagType Perc Επίδοση σε έργα Leaf-by-Leaf Serial Leaf-by-Leaf Non-serial Σκηνές  Κάθε μέθοδος παρουσιάζει ελαφρά βελτίωση σε σχέση με τις προηγούμενες Έργα  Η ανά κόμβο ανοικοδόμηση υπερβολικά απαιτητική  Η σειριακή μέθοδος καλύτερη της μη-σειριακής
  • 15.
    S-CASE:  Υπηρεσία ημιαυτόματηςδημιουργία RESTful Web Services με χρήση απαιτήσεων λογισμικού και μοντέλων συστημάτων
  • 16.
    Ασχολούμαστε με τονμηχανισμό αυτόματης εξαγωγής οντοτήτων από προτάσεις απαιτήσεων λογισμικού.
  • 17.
    Τέσσερεις τύποι οντοτήτων: Action: Ενέργειες που εκτελούνται  Actor: Οντότητες που εκτελούν ενέργειες (σύστημα, χρήστες κ.τ.λ.)  Object: Οντότητες πάνω στις οποίες εκτελούνται ενέργειες.  Property: Ιδιότητες των οντοτήτων τύπου Actor και Object
  • 18.
    Τρεις τύποι σχέσεωνμεταξύ οντοτήτων:  IsActorOf: Συνδέει οντότητες τύπου Actor με τις ενέργειες Action που εκτελούν  ActsOn: Συνδέει ενέργειες Action με τις οντότητες Object πάνω στις οποίες εκτελούνται  HasProperty: Συνδέει οντότητες τύπου Action και Object με τα χαρακτηριστικά Property
  • 19.
    Εύρεση οντοτήτων-σχέσεων σετρία βήματα:  Εύρεση οντοτήτων Action και Object  Εύρεση σχέσεων ActsOn μεταξύ Action και Object  Εύρεση οντοτήτων Actor και Property και σχέσεων IsActorOf και HasProperty Προεπεξεργασία: Εξαγωγή συντακτικών δεδομένων με χρήση Mate-tools
  • 20.
    Εύρεση οντοτήτων Actionκαι Object  Αναζήτηση ακολουθόντας το συντακτικό δέντρο
  • 21.
    Εύρεση οντοτήτων Actionκαι Object  Αναζήτηση ακολουθόντας το συντακτικό δέντρο Χαρακτηριστικά  Λέξη  Part-of-Speech tag  PoS tags των παιδιών  Συντακτική σχέση των παιδιών με την τρέχουσα λέξη  Συντακτική σχέση με την λέξη-πατέρα  Ακολουθία συντακτικών σχέσεων από την τρέχουσα λέξη μέχρι την ρίζα  Ακολουθία σχέσεων από την τρέχουσα λέξη μέχρι άλλα Action/Object tags.
  • 22.
    Εύρεση σχέσεων ActsOn Σειριακή εξέταση ζευγών Action-Object Χαρακτηριστικά  Ζεύγος λέξεων  Ζεύγος PoS tags  PoS tags των παιδιών  Συντακτικές σχέσεις των λέξεων με τις λέξεις- πατέρες τους  Ακολουθία συντακτικών σχέσεων στο μονοπάτι από Action σε Object  Ακολουθία σχέσεων στο μονοπάτι από την οντότητα Object σε άλλες οντότητες Object που συνδέονται με την Action
  • 23.
    Εύρεση οντοτήτων Actor/Propertyκαι σχέσεων IsActorOf/HasProperty  Αναζήτηση ακολουθόντας το συντακτικό δέντρο
  • 24.
    Εύρεση οντοτήτων Actor/Propertyκαι σχέσεων IsActorOf/HasProperty  Αναζήτηση ακολουθόντας το συντακτικό δέντρο Χαρακτηριστικά  Ζεύγος λέξεων  Ζεύγος PoS tags  Συντακτικές σχέσεις των λέξεων με τις λέξεις-πατέρες τους  Ακολουθία PoS tags στο μονοπάτι από την πρώτη λέξη στην δεύτερη  Ακολουθία σχέσεων στο μονοπάτι από την πρώτη λέξη στην δεύτερη  Ακολουθία σχέσεων στο μονοπάτι από την δεύτερη λέξη σε άλλες λέξεις που συνδέονται με την πρώτη
  • 25.
    0.74 0.75 0.76 0.77 0.78 0.79 0.8 0.81 0.82 0.83 0.84 0.85 Action/Object F1 PercActsOn F1 Perc IsActorOf/HasProperty F1 Perc Επίδοση Τμημάτων Αλγορίθμου Επιδόσεις μειώνονται με κάθε τμήμα του αλγορίθμου  Κάθε τμήμα βασίζεται στην έξοδο του προηγούμενου  Κάθε τμήμα πιο πολύπλοκο από τα προηγούμενα
  • 26.
     Επιδόσεις μικρότερεςστο νέο dataset  Ο parser ενισχυτικής μάθησης παρουσιάζει καλύτερες επιδόσεις 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 S-CASE dataset F1 Perc New requirements F1 Perc Επίδοση Parsers RL Parser S-CASE Parser
  • 27.
    Εξαγωγή πληροφοριών ταινιώναπό ιστοσελίδες. Δύο datasets:  Imdb: Σχετικά σταθερή δομή μεταξύ σελίδων  Wikipedia: Μεγαλύτερη ανομοιομορφία στην δομή των σελίδων www.imdb.com www.wikipedia.com
  • 28.
    title • Gone WithThe Wind Director • Victor Fleming Editor • Hal C. Kern • James E. Newcom Δύο στάδια:  Εξαγωγή πληροφοριών από ιστοσελίδα  Κατηγοριοποίηση πληροφοριών
  • 29.
    Πρώτο στάδιο:  Οπράκτορας ξεκινά στην κορυφή του δέντρου.  Τρείς διαθέσιμες ενέργειες Χαρακτηριστικά  Όνομα κόμβου  Ακολουθία ονομάτων κόμβων από τη ρίζα του δέντρου μέχρι τον τρέχοντα κόμβο  HTML χαρακτηριστικά του κόμβου  Επικεφαλίδα υποδέντρου του κόμβου (αν υπάρχει)  Ονόματα κόμβων που παρουσιάζονται πάνω από μία φορά στο υποδέντρο του κόμβου
  • 30.
    Πρώτη επιλογή:  Εξερεύνησητων παιδιών του κόμβου
  • 31.
    Πρώτη επιλογή:  Εξερεύνησητων παιδιών του κόμβου
  • 32.
    Δεύτερη επιλογή:  Συνέχισηέρευνας στον επόμενο κόμβο
  • 33.
    Δεύτερη επιλογή:  Συνέχισηέρευνας στον επόμενο κόμβο
  • 34.
    Τρίτη επιλογή:  Εξαγωγήστοιχείων κόμβου  Συνέχιση έρευνας στον επόμενο κόμβο
  • 35.
    Τρίτη επιλογή:  Εξαγωγήστοιχείων κόμβου  Συνέχιση έρευνας στον επόμενο κόμβο
  • 36.
    Δεύτερο στάδιο:  Κατηγοριοποίησητων εξαγομένων δεδομένων title • The Jazz Singer … Editor • Harold McCord … Production company • Warner Bros. Pictures … Actor • Al Jolson as Jakie Rabinowitz (Jack Robin) James E. • Warner Oland as Cantor Rabinowitz … Χαρακτηριστικά  Όνομα κόμβου  HTML χαρακτηριστικά του κόμβου  Επικεφαλίδα υποδέντρου του κόμβου (αν υπάρχει)  Ονόματα κόμβων που παρουσιάζονται πάνω από μία φορά στο υποδέντρο του κόμβου
  • 37.
    0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Extraction F1 ClassificationPerc Final F1 Επιδόσεις αλγορίθμου Imdb Wikipedia  Επιδόσεις στο wikipedia dataset μικρότερες λόγω μεγαλύτερης ανομοιομορφίας σελίδων
  • 38.
    Συμπεράσματα:  Οι μέθοδοιενισχυτικήςμάθησης παρουσιάζουν top- of-the-line επιδόσεις σε προβλήματα δομημένης πρόβλεψης  Μπορούν να εξερευνούν δομημένα δεδομένα με μια ποικιλία τρόπων Μελλοντική εργασία:  Αποτελεσματική μη-σειριακή εξερεύνηση δέντρων  Αντιστοίχηση τμημάτων ιστοσελίδων που περιέχουν ίδια δεδομένα  Χρήση NLP για εξαγωγή πληροφοριών από άγνωστες ιστοσελίδες
  • 39.