BlogForever Crawler: Techniques and algorithms to harvest modern weblogs Pres...Vangelis Banos
Blogs are a dynamic communication medium which has been
widely established on the web. The BlogForever project has
developed an innovative system to harvest, preserve, manage
and reuse blog content. This paper presents a key component
of the BlogForever platform, the web crawler. More
precisely, our work concentrates on techniques to automatically
extract content such as articles, authors, dates and
comments from blog posts. To achieve this goal, we introduce
a simple and robust algorithm to generate extraction
rules based on string matching using the blog’s web feed in
conjunction with blog hypertext. This approach leads to a
scalable blog data extraction process. Furthermore, we show
how we integrate a web browser into the web harvesting process
in order to support the data extraction from blogs with
JavaScript generated content.
CLEAR: a Credible Live Evaluation Method of Website Archivability, iPRES2013Vangelis Banos
This document presents CLEAR, a method for evaluating the archivability of websites. CLEAR assesses website attributes like accessibility, cohesion, metadata, performance, and standards compliance by performing evaluations of facets within each attribute. It generates an archivability score on a scale of 0-100% for each facet and attribute, and an overall score for the website. The document demonstrates CLEAR's implementation in a web application called ArchiveReady.com and discusses its potential benefits for web archivists and professionals to improve web archiving practices and preserve websites effectively. It also outlines some limitations and directions for future work, such as differentially weighting facet evaluations.
This document appears to be a tutorial for visualizing Prolog programs. It describes the steps taken in a Prolog search, including unifying rules, applying substitutions, tracking the current goal and state, and finding solutions. Screenshots are included showing a dashed box for the current state, crossed out failed rules, the substitution process, and bolding the current goal with a gray path showing the search path. The tutorial walks through multiple steps of a Prolog search to find all solutions.
BlogForever Crawler: Techniques and algorithms to harvest modern weblogs Pres...Vangelis Banos
Blogs are a dynamic communication medium which has been
widely established on the web. The BlogForever project has
developed an innovative system to harvest, preserve, manage
and reuse blog content. This paper presents a key component
of the BlogForever platform, the web crawler. More
precisely, our work concentrates on techniques to automatically
extract content such as articles, authors, dates and
comments from blog posts. To achieve this goal, we introduce
a simple and robust algorithm to generate extraction
rules based on string matching using the blog’s web feed in
conjunction with blog hypertext. This approach leads to a
scalable blog data extraction process. Furthermore, we show
how we integrate a web browser into the web harvesting process
in order to support the data extraction from blogs with
JavaScript generated content.
CLEAR: a Credible Live Evaluation Method of Website Archivability, iPRES2013Vangelis Banos
This document presents CLEAR, a method for evaluating the archivability of websites. CLEAR assesses website attributes like accessibility, cohesion, metadata, performance, and standards compliance by performing evaluations of facets within each attribute. It generates an archivability score on a scale of 0-100% for each facet and attribute, and an overall score for the website. The document demonstrates CLEAR's implementation in a web application called ArchiveReady.com and discusses its potential benefits for web archivists and professionals to improve web archiving practices and preserve websites effectively. It also outlines some limitations and directions for future work, such as differentially weighting facet evaluations.
This document appears to be a tutorial for visualizing Prolog programs. It describes the steps taken in a Prolog search, including unifying rules, applying substitutions, tracking the current goal and state, and finding solutions. Screenshots are included showing a dashed box for the current state, crossed out failed rules, the substitution process, and bolding the current goal with a gray path showing the search path. The tutorial walks through multiple steps of a Prolog search to find all solutions.
The main streams in web technologies and the support of Digital Government Research Center www.dgrc.gr
(In Greek: Ημερίδα Αξιοποίησης Τεχνολογιών Διαδικτύου 11 Μαρ 2018)
Πρόταση για το πως οι δημόσιοι υπάλληλοι μπορούν να εργάζονται αποδοτικότερα μετασχηματίζοντας την Ελληνική Πολιτεία προς το καλύτερο.
Παρουσίαση στο συνέδριο ΕΛΛΑΚ 2011 #ellakconf
Τεχνολογίες Πληροφορικής & Επικοινωνιών και η Ελληνική Πραγματικότητα pdalian
Παρουσίαση στα πλαίσια της Ημερίδας "Πληροφορική και Τηλεπικοινωνίες: Οι απαιτήσεις της αγοράς εργασίας και η επιχειρηματικότητα", που διοργανώθηκε από το Γραφείο Διασύνδεσης του ΤΕΙ Ηπείρου και το Τμήμα Τεχνολογίας Πληροφορικής και Τηλεπικοινωνιών, με πρωτοβουλία του Υπεύθυνου
Καθηγητή Αντωνιάδη Νικόλαου, σε συνεργασία με την Ενωση Πληροφορικών Ελλάδος, στις 13 Μαΐου 2011.
Digital government Challanges for Greece (slides in Greek)Yannis Charalabidis
Από την παρουσίασή μου στη διαδικτακή εκδήλωση της KPMG για την Ψηφιακή Διακυβέρνηση. Πως τα κινητά, το πλαίσιο διαλειτουργικοτητας και τεχνητή νοημοσύνη μπορούν να βοηθήσουν την Ελλάδα να μη χάσει πάλι το τρένο ...
Ανάπτυξη εφαρμογών διαδικτύου.
Σχεδιασμός & κατασκευή ιστοσελίδων
Δίκτυα δεδομένων & αυτοματισμοί κτιρίων
Ανάπτυξη εφαρμογών CRM
Ανάπτυξη Smart Apps
Υπηρεσίες SMS Gateway
Audio & Video Streaming
Website Archivability - Library of Congress NDIIPP Presentation 2015/06/03Vangelis Banos
Website Archivability (WA) captures the core
aspects of a website crucial in diagnosing
whether it has the potentiality to be archived
with completeness and accuracy.
The main streams in web technologies and the support of Digital Government Research Center www.dgrc.gr
(In Greek: Ημερίδα Αξιοποίησης Τεχνολογιών Διαδικτύου 11 Μαρ 2018)
Πρόταση για το πως οι δημόσιοι υπάλληλοι μπορούν να εργάζονται αποδοτικότερα μετασχηματίζοντας την Ελληνική Πολιτεία προς το καλύτερο.
Παρουσίαση στο συνέδριο ΕΛΛΑΚ 2011 #ellakconf
Τεχνολογίες Πληροφορικής & Επικοινωνιών και η Ελληνική Πραγματικότητα pdalian
Παρουσίαση στα πλαίσια της Ημερίδας "Πληροφορική και Τηλεπικοινωνίες: Οι απαιτήσεις της αγοράς εργασίας και η επιχειρηματικότητα", που διοργανώθηκε από το Γραφείο Διασύνδεσης του ΤΕΙ Ηπείρου και το Τμήμα Τεχνολογίας Πληροφορικής και Τηλεπικοινωνιών, με πρωτοβουλία του Υπεύθυνου
Καθηγητή Αντωνιάδη Νικόλαου, σε συνεργασία με την Ενωση Πληροφορικών Ελλάδος, στις 13 Μαΐου 2011.
Digital government Challanges for Greece (slides in Greek)Yannis Charalabidis
Από την παρουσίασή μου στη διαδικτακή εκδήλωση της KPMG για την Ψηφιακή Διακυβέρνηση. Πως τα κινητά, το πλαίσιο διαλειτουργικοτητας και τεχνητή νοημοσύνη μπορούν να βοηθήσουν την Ελλάδα να μη χάσει πάλι το τρένο ...
Ανάπτυξη εφαρμογών διαδικτύου.
Σχεδιασμός & κατασκευή ιστοσελίδων
Δίκτυα δεδομένων & αυτοματισμοί κτιρίων
Ανάπτυξη εφαρμογών CRM
Ανάπτυξη Smart Apps
Υπηρεσίες SMS Gateway
Audio & Video Streaming
Website Archivability - Library of Congress NDIIPP Presentation 2015/06/03Vangelis Banos
Website Archivability (WA) captures the core
aspects of a website crucial in diagnosing
whether it has the potentiality to be archived
with completeness and accuracy.
The theory and practice of Website ArchivabilityVangelis Banos
The document discusses website archivability and presents CLEAR, a method for evaluating the archivability of websites. CLEAR assesses website attributes like accessibility, cohesion, metadata, performance, and standards compliance to determine an overall archivability score. It was developed to help automate quality assurance for web archives by providing credible, live measurements of how completely and accurately a website can be archived. The authors also describe a demonstration of CLEAR called ArchiveReady.com and discuss the potential impact of evaluating website archivability for web professionals and archive operators.
5. Τα ανοικτά δημόσια δεδομένα στην Ελλάδα
• Έχουν γίνει πρόοδοι σε πολλές κατευθύνσεις αλλά
υπάρχουν σοβαρά προβλήματα:
– Η απλή ανάρτηση αρχείων PDF και Excel σε δημόσιες
ιστοσελίδες δεν είναι open data!
– Τα κλειστά πρότυπα είναι ο κανόνας.
– Οι προβληματικές δημόσιες ιστοσελίδες είναι πολύ
περισσότερες από τις άρτιες.
– Δεν ασχολείται κανείς με την εμπειρία του χρήστη.
• Υπάρχει δυναμική
– Νέες εφαρμογές ενεργοποιούνται συνεχώς.
– Open Government Partnership (OGP).
11. Σκοπός
• Αναζήτηση στο πρόγραμμα Δι@ύγεια με:
–Ευχρηστία
–Ταχύτητα
–Ακρίβεια
• Σκοπός της ΥπερΔιαύγειας είναι να
προωθήσει τη διαφάνεια και να
βοηθήσει όλους του πολίτες να
χρησιμοποιήσουν τα δημόσια δεδομένα.
16. Αποδελτίωση του Κ.Η.Μ.ΔΗ.Σ.
(http://eprocurement.gov.gr/)
• DEiXTo – Εργαλείο Αποδελτίωσης Ιστού, http://deixto.com
• Εξαγωγή δεδομένων από ιστοσελίδες και κωδικοποίηση για
περαιτέρω επεξεργασία και χρήση από άλλες εφαρμογές.
Ροή RSS
HTML δεδομένα
21. Εφαρμογή GRGOV Mobile Search
• URL: http://hackathon.vbanos.gr/
• Επιτρέπει σε όλους τους κατόχους κινητών τηλεφώνων
και tablets (Apple iOS και Google Android) να κάνουν
αναζητήσεις και να έχουν πλήρη πρόσβαση:
I. στο πρόγραμμα Διαύγεια (http://diavgeia.gov.gr/),
II. στο Εθνικό Τυπογραφείο (ΦΕΚ),
(http://www.et.gr/)
III. στο Κεντρικό Ηλεκτρονικό Μητρών Δημοσίων
Συμβάσεων (ΚΗΜΔΗΣ).
(http://www.eprocurement.gov.gr/)
• Χρησιμοποιεί τα δεδομένα της ΥπερΔιαύγειας.
28. http://aperio.gr
• Δωρεάν διαδικτυακή εφαρμογή.
• Βρίσκει αυτόματα σε έγγραφα τις παραπομπές σε
ΦΕΚ και άλλα κυβερνητικά δημοσιεύματα.
• Εμπλουτίζει τα έγγραφα με υπερσυνδέσεις ιστού
για εύκολη και γρήγορη μελέτη.
• Αυτόματη εύρεση τμημάτων, άρθρων,
παραγράφων και εμπλουτισμός με υπερσυνδέσεις
μεταξύ τους.
• Προσθήκη σελιδοδεικτών, σημειώσεων και
σχολίων δημοσίων ή ιδιωτικών.
Συνεργασία με το aperio.gr
29. ΕΥΧΑΡΙΣΤΩ
http://vbanos.gr/
Στατιστικά από την ΥπερΔιαύγεια στις 6 Ιουνίου 2014
11.472.332 Αποφάσεις από το πρόγραμμα Δι@ύγεια.
479.373 Φύλλα Εφημερίδας της Κυβερνήσεως (ΦΕΚ).
153.302 Προκηρύξεις και Συμβάσεις.
1.800 Μοναδικοί επισκέπτες ανά ημέρα.
1 Μισθωμένος server με κόστος 50 Euro / μήνα
φιλοξενεί ολόκληρο το σύστημα.
1 Μηχανικός λογισμικού υπεύθυνος
για την υλοποίηση και τη λειτουργία.
Editor's Notes
Όραμα:
- Περισσότερη πρόσβαση, διαμοίραση και συμμετοχή του πολίτη στα δημοκρατικά δρώμενα
- Καλύτερη διακυβέρνηση μέσα από την αυξημένη διαφάνεια
Στόχος:
Μεγαλύτερη προσβασιμότητα στα κυβερνητικά δημοσιεύματα στον κάθε πολίτη για μελέτη, συζήτηση και συνεργασία.
Λύση:
Δωρεάν διαδικτυακή εφαρμογή που βρίσκει σε έγγραφα τις παραπομπές σε ΦΕΚ και άλλα κυβερνητικά δημοσιεύματα και εμπλουτίζει τα έγγραφα με υπερσυνδέσεις ιστού για εύκολη και γρήγορη μελέτη. Επίσης δίνει εργαλεία για προσθήκη σχολίων, επεξηγήσεων και συνεργασίας με άλλους πολίτες ή μέλη ομάδων.
Τρέχοντα χαρακτηριστικά:
- Αυτόματη εύρεση τμημάτων, άρθρων, παραγράφων κλπ στα ΦΕΚ μορφής PDF που διαθέτει το Εθνικό τυπογραφείο
- Αυτόματη εύρεση παραπομπών σε αυτά και εμπλουτισμός των ΦΕΚ με υπερσυνδέσεις μεταξύ τους
- Βελτιστοποίηση των ΦΕΚ του Εθνικού Τυπογραφείου για απευθείας φόρτωση του τμήματος εγγράφου χωρίς να φορτωθούν όλες οι προηγούμενες σελίδες
- Αυτόματη διόρθωση λανθασμένης κωδικοποίησης ελληνικών για όλα τα τεύχη ΦΕΚ έκδοσης 2000-2005 για σωστή αντιγραφή και αναζήτηση κειμένου
Μελλοντικές λειτουργίες:
- Εύκολη προσθήκη/αλλαγή παραπομπών από τους μελετητές για τις περιπτώσεις που δεν αναγνωρίζονται αυτόματα
- Υποστήριξη εμπλουτισμού οποιουδήποτε εγγράφου PDF ή HTML που έχει παραπομπές σε μέρος εγγράφου ΦΕΚ με υπερσυνδέσεις
- Δυνατότητα προσθήκης σημειώσεων και σχολίων δημοσίων ή ιδιωτικών
- Υποστήριξη παραπομπών σε άλλα είδη ελληνικών και ευρωπαϊκών κυβερνητικών δημοσιευμάτων πέρα από ΦΕΚ
- Αυτόματη εύρεση παραπομπών και δομής για δημοσιεύματα που είναι σκαναρισμένα (π.χ. τεύχη ΦΕΚ παλιότερα του 2000)
- Αναζήτηση με λέξεις κλειδιά σε πολλά είδη δημοσιευμάτων και σε πολλές χρονικές περιόδους δημοσίευσης