Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

The Preparation, Impact and Future of the META-NET White Paper Series “Europe’s Languages in the Digital Age”

82 views

Published on

Georg Rehm. The Preparation, Impact and Future of the META-NET White Paper Series “Europe’s Languages in the Digital Age”. Sanskrit and Other Indian Languages Technology (SOIL-Tech), Jawaharlal Nehru University, New Delhi, India, February 2019. February 15, 2019. Invited keynote talk.

Published in: Technology
  • Be the first to comment

  • Be the first to like this

The Preparation, Impact and Future of the META-NET White Paper Series “Europe’s Languages in the Digital Age”

  1. 1. The Preparation, Impact and Future of the META-NET White Paper Series “Europe’s Languages in the Digital Age” Georg Rehm German Research Centre for Artificial Intelligence (DFKI), Germany Sanskrit and Other Indian Languages Technology (SOIL-Tech) 15 February 2019 – New Dehli, India META-NET Language White Papers – Past, Present, Future 1
  2. 2. EU-funded project (Seventh Framework Programme) working on technologies for the Multilingual European Information Society (2010 – 2013) T4ME 2010 Conference “Challenges for Multilingual Europe” (November 17/18, 2010) META-FORUM 2010 Established in 2010, META-NET is a network of Excellence consisting of 60 research centres from 34 countries, dedicated to building the technological foundations of a multilingual European information society META-NET Conference “Solutions for Multilingual Europe” (Budapest – June 27/28, 2011) META-FORUM 2011 2011 EU-funded project (ICT Policy Support Programme) functioning as a part of META-NET to standardise language resources and tools (2011 – 2013) CESAR EU-funded project (ICT Policy Support Programme) to enhance the European Linguistic Infrastructure (2011 – 2013) METANET4U EU-funded project META-NORD (ICT Policy Support Programme) establishing an open linguistic infrastructure in the Baltic and Nordic countries (2011 – 2013) META-NORD Conference “A Strategy for Multilingual Europe” (Brussels – June 20/21, 2012) META-FORUM 2012 2012 Release of 32 volumes on 31 languages, revealing that there is a severe threat of digital extinction for at least 21 European languages (December 2012) META-NET White Papers Conference “Connecting Europe for New Horizons” (Berlin –September 19/20, 2013) META-FORUM 2013 Launch of the Strategic Research Agenda for Multilingual Europe 2020 (January 2013) Strategic Research Agenda for Multilingual Europe 2020 Initiated in 2013, META-SHARE has functioned as an open and secure network of repositories for sharing and exchanging language data, tools and related web services META-SHARE 2013 Workshop on “State of the Art of Machine Translation“, commissioned by the EU Parliament (December 2013) “State of the Art of Machine Translation – Current Challenges and Future Opportunities“ EU-funded project CRACKER (Horizon2020) pushing towards an improvement of MT research in terms of efficiency and effectiveness (2015 – 2017) CRACKER Founded in 2015, the federation has been assembling European research and innovation projects as well as all related community organisations working on multilingual technologies Cracking the Language Barrier Federation Conference “Technologies for the Multilingual Digital Single Market“ (Riga – April 27, 2015) META-FORUM 2015 Launch of the Strategic Agenda for the Multilingual Digital Single Market titled “Technologies for Overcoming Language Barriers towards a truly integrated European Online Market” (April 2015) Strategic Agenda for the Multilingual Digital Single Market (Version 0.5) Summit carrying the motto “Shape the future of the multilingual digital single market” (April 27–29, 2015) Riga Summit on the Multilingual Digital Single Market 2015 Conference “Beyond Multilingual Europe” (Lisbon – July 4/5, 2016) META-FORUM 2016 Launch of the Strategic Research and Innovation Agenda titled “Language as a Data Type and Key Challenge for Big Data” (July 2016) Strategic Research and Innovation Agenda (Version 0.9) 2016 Workshop on “Language Equality in the Digital Age”, commissioned by the EU Parliament’s Science and Technology Options Assessment Committee (STOA) (January 2017) “Language Equality in the Digital Age” Launch of the study on “Language equality in the digital age: Towards a Human Language Project”, commissioned by the EU Parliament (March 2017) “Language equality in the digital age: Towards a Human Language Project” Conference “Towards a Human Language Project” (Brussels – November 13/14, 2017) META-FORUM 2017 Launch of the Strategic Research and Innovation Agenda titled “Language Technologies for Multilingual Europe – Towards a Human Language Project” (December 2017) Strategic Research and Innovation Agenda (Version 1.0) 2017 EP vote on report “Language equality in the digital age” The European Parliament voted upon the joint CULT/ITRE report on “Language equality in the digital age” with 592 votes in favour, 45 against and 44 abstentions (September 18, 2018) HLP Prep Final Proposal Submission 2018 Deadline for final submission on September 18, 2018. 2019%2021 2010 2013 2019
  3. 3. 2010
  4. 4. ! 60 research centres in 34 countries (founded in 2010) Chair of Executive Board: Jan Hajic (CUNI) Dep.: J. van Genabith (DFKI), A. Vasiljevs (Tilde) General Secretary: Georg Rehm (DFKI) ! Multilingual Europe Technology Alliance. 900+ members in 67 countries (published in 2013) (31 volumes; published in 2012) T4ME (META-NET) CESAR METANET4UMETA-NORDMultilingual Europe Technology AllianceNET
  5. 5. 2012
  6. 6. Language White Papers 1/2 6 ! Key communication instruments to address decision makers and journalists. ! Cover all EU languages (30 volumes). ! White papers on the state of a language (general, social, strategic and technological aspects). ! Functions: " Awareness raising. " Inform politicians, journalists about societal and technological problems and challenges as well as economic opportunities. META-NET Language White Papers – Past, Present, Future
  7. 7. Language White Papers 2/2 7 ! Structure: " Part 1: Executive Summary " Part 2: General introduction " Part 3: Description of the respective language’s situation " Part 4: LT support for the respective language " Part 5: Information about META-NET; references ! Written in English, translated into the language they report upon ! Language White Papers were published by Springer: " Printed publications were distributed by META-NET " Printed publications can be purchased through the usual channels " Ebooks available via SpringerLink and META-NET website (free) META-NET Language White Papers – Past, Present, Future
  8. 8. 8
  9. 9. ! Basque ! Bulgarian* ! Catalan ! Croatian* ! Czech* ! Danish* ! Dutch* ! English* ! Estonian* ! Finnish* ! French* ! Galician ! German* ! Greek* ! Hungarian* ! Icelandic ! Irish* ! Italian* ! Latvian* ! Lithuanian* ! Maltese* ! Norwegian ! Polish* ! Portuguese* ! Romanian* ! Serbian ! Slovak* ! Slovene* ! Spanish* ! Swedish* ! Welsh * Official EU languagehttp://www.meta-net.eu/whitepapers
  10. 10. A few Numbers … ! This was a very big endeavour. ! >160 national experts contributed as authors or co-authors ! >50 additional experts have contributed data and information ! >8.000 copies printed and distributed ! >7.000 files in the White Paper revision control system ! Parallel production pipeline for printed books and ebooks 11META-NET Language White Papers – Past, Present, Future
  11. 11. Delivery Day – Sep. 14, 2012 12META-NET Language White Papers – Past, Present, Future
  12. 12. Methodology 13 ! 30 tables provide data for all languages (tools, resources, gaps etc.). ! Reduce numbers to one final score per language and area. ! Calibration of tables across languages in smaller groups. ! Final scores for each area and language were derived from two central features (quality, coverage), resulting in one big table: Basque Bulgarian Catalan Croatian Czech Danish Dutch English Estonian Finnish French Galician German Greek Hungarian Icelandic Irish Italian Latvian Lithuanian Maltese Norwegian Polish Portuguese Romanian Serbian Slovak Slovene Spanish Swedish Tokenization, Morphology (tokenization, POS tagging, morphological analysis/generation) 5 5 5 5 0 5 3,1 4,1 5 4 4 4,1 5 4 4,1 4,1 4,1 3,1 4,1 3 3,1 4,1 5 4,1 5 5 3,1 4,1 5 4,1 Parsing (shallow or deep syntactic analysis) 4 4 3 2 5 3,1 2,1 4,1 3,1 3,1 4 4,1 3 2,1 4 4 2 3,1 2,1 1,1 0 3,1 4 3,1 4 3,2 0 3,1 4 4,1 Sentence Semantics (WSD, argument structure, semantic roles) 3,1 2,1 2 1,2 3,1 1,1 2,1 3,1 2 2 1,1 2,1 1,1 2 1,2 1,1 0 4 0 1,1 0 3,1 1,3 3,1 4 0 0 2,2 2,1 2 Text Semantics(coreferenceresolution, context, pragmatics, inference) 1 2 1,1 0 3 1 2 1,1 2 1 2,1 2,1 2,1 2 0,2 0 0 3 0 1 0 3 1,2 1,2 4,1 0 0 0 2 2,1 Advanced Discourse Processing (text structure, coherence, rhetorical structure/RST, argumentative zoning, argumentation, 1 0 2 0 3 1 0 2 0 0 2 0 2,1 1 0 0 0 2 0 1 0 3 1 2 3,1 0 0 0 1 1 Information Retrieval(text indexing, multimedia IR, crosslingual IR) 4 2 1,2 2,3 0 3 3 4,1 3 3 4,1 2 3 3,1 1,1 0 3,1 4,1 0 1,2 0 4 2 0 5 3 2,1 0 2 3,1 Information Extraction (named entity recognition, event/relation extraction, opinion/sentiment recognition, text 3 3 1,1 3,1 4,1 3 2,1 3,1 2 2 3,1 1,2 3 3 6 1 0 4,1 3 3 0 4 2 3,1 4,1 2 1 2,1 1,1 4 Language Generation (sentence generation, report generation, text generation) 0 2 1,2 0,4 4 0 2,1 2 0 2,2 2 0 2 1,1 0 0 3 0 1,2 0 0 3,1 1 0 0 0 0 0 2 2,1 Summarization, Question Answering,advanced Information Access Technologies 2 2 0 0,1 3 2,1 2,1 2 2 2 3 1,1 2 1,1 0 0 0 3 0 0,1 0 3,1 2 2,2 4,1 0,1 1 1,1 2,1 1 Machine Translation 3,1 2 3,1 1,2 0 1,2 2,2 2,1 2,1 3 3,1 4,1 2,1 1 5 2 2,1 3,1 4 3 2,1 2,2 3 2,1 3,1 0,1 2 3,1 4,1 2,2 Speech Recognition 1 3 3 3 2,1 1,2 3,1 4 4 3 4 5 4 3,1 2,2 1,1 3,1 4,1 0 1,1 1 1,1 3,1 2,2 2,1 1 2 2,1 3,1 3,1 Speech Synthesis 2,4 3 4 3,1 4 2,1 4 4,1 4 4 4 5 4,1 4,1 4 2,1 3,1 4 3,1 3 4 2,1 5,1 4 2 4 3 3,2 4 3 Dialogue Management (dialogue capabilities and user modelling) 0 0 2,2 1 3,1 1 2,1 3,1 3 1,1 3 1 3,1 1,2 0 0 0 3 0 0 0 1,1 1 3 0 0 0 2,1 2 3 Reference Corpora 2,3 4,1 3,1 3,1 5 3,1 2,2 4,1 4 3,1 3,1 5 3,1 3 6 3,1 3,2 3 4,1 4 3 3 4 4,1 1,1 2,2 4,1 4,1 3,1 3,1 Syntax-Corpora(treebanks, dependency banks) 2,2 2,1 3 3,1 3,3 1,3 2,2 4,2 2,1 3,2 3 2 3 3,1 5,1 2,2 1,2 3 1 1 0 3,1 4 4 4,1 0 2 3,2 2 3 Semantics-Corpora 1 4,1 1 0 3,1 1,2 1,2 3 2 0 1,1 1 1,1 2,1 1,5 0 0 4 1 0 0 2,1 2,2 3,1 2,1 0 0 1,4 2 1 Discourse-Corpora 0 2 2 0 2,1 1,3 0 3 2,1 2,1 2 0 2 0 0 0 0 2,2 0 0 0 1,1 1,1 2 2,1 0 1,1 0 3 1 Parallel Corpora, Translation Memories 0 2,2 2,1 3 3,1 2,1 2,1 4 2,1 3 3,1 5 2 2 6 1,1 3,2 3,1 3,1 3,1 2,1 4,1 4 2,1 4,1 2,1 2 2,2 3,1 3,2 Speech-Corpora (raw speech data, labelled/annotated speech data, speech dialogue data) 2,2 2,1 3,1 3 2,2 1,2 4,1 5,1 3,1 2,1 3,1 4,1 2,1 2,1 2,2 2 2,2 2,1 1 2 2,1 3,2 3 4 2,2 4 2 3,1 2,1 3 Multimedia and multimodal data 5 1 2 3,1 2,2 1,2 1,3 1,1 1 2,1 1,2 2,2 1,2 2,1 1 1 1,1 3,1 0 1 0 4,1 1 0 0 1,1 2,1 0 2 1 Language Models 2 2 2,1 0 4 3 2,1 5 3 2 3 4,1 3 2,1 3,1 3 0 0 3,1 3,1 3 1 1 0 4 2,1 1,2 2,2 2 4 Lexicons, Terminologies 5,1 3,1 3,1 3,1 3,1 4 3,1 4,1 5 4 3,1 4,1 3,1 3 6 3 4 4,1 5 3,1 2,1 5 4 4,1 4,1 4 3,1 2,2 3 4,1 Grammars 3,1 3 2 0 2,1 1,3 2,1 3 4 4 3 2 3 1 5,1 3 3 3 3,1 0 0 3,2 4 2,3 2,1 0,1 2,1 2,1 3 3 Thesauri, WordNets 4 4,1 2,2 3,1 3,1 3 2,1 4,1 3,1 3,1 1,1 4 2,1 1,1 3,3 3 3,1 3,1 2,1 1 0 0 4 2,2 4 2,1 1,1 3 3 4,1 Ontological Resources for World Knowledge (e.g. upper models, Linked Data) 2 3 2,1 0 2,1 1,1 0 4 0 2,1 1,1 1 2,1 2 1 0 0 3,1 1 1,1 0 0 2,2 2 2 0,1 0 0 2 1 Language Technology (Tools, Technologies, Applications) Language Resources (Resources, Data, Knowledge Bases) META-NET Language White Papers – Past, Present, Future
  13. 13. Cluster-Based Presentation ! For journalists and politicians the big table is useless. ! Therefore: cluster-based cross-language comparison ! Each language is assigned to one of five clusters, ranging from excellent LT support to weak/no support. ! Presentation of key results with regard to four areas: " Machine Translation " Speech Processing " Text Analysis " Resources ! Results finalised at a meeting in Berlin with representatives of all 30 languages (October 21/22, 2011). 14META-NET Language White Papers – Past, Present, Future
  14. 14. MT English good French, Spanish moderate fragmentary Catalan, Dutch, German, Hungarian, Italian, Polish, Romanian weak or no support through LT Basque, Bulgarian, Croatian, Czech, Danish, Estonian, Finnish, Galician, Greek, Icelandic, Irish, Latvian, Lithuanian, Maltese, Norwegian, Portuguese, Serbian, Slovak, Slovene, Swedish, Welsh excellent Czech, Dutch, Finnish, French, German, Italian, Portuguese, Spanish moderate fragmentary Basque, Bulgarian, Catalan, Danish, Estonian, Galician, Greek, Hungarian, Irish, Norwegian, Polish, Serbian, Slovak, Slovene, Swedish weak or no support through LT Croatian, Icelandic, Latvian, Lithuanian, Maltese, Romanian, Welsh excellent English good Speech English good Dutch, French, German, Italian, Spanish moderate fragmentary Basque, Bulgarian, Catalan, Czech, Danish, Finnish, Galician, Greek, Hungarian, Norwegian, Polish, Portuguese, Romanian, Slovak, Slovene, Swedish weak or no support through LT Croatian, Estonian, Icelandic, Irish, Latvian, Lithuanian, Maltese, Serbian, Welsh excellent English good Czech, Dutch, French, German, Hungarian, Italian, Polish, Spanish, Swedish moderate fragmentary Basque, Bulgarian, Catalan, Croatian, Danish, Estonian, Finnish, Galician, Greek, Norwegian, Portuguese, Romanian, Serbian, Slovak, Slovene Icelandic, Irish, Latvian, Lithuanian, Maltese, Welsh weak or no support through LTexcellent ResourcesTextAnalytics
  15. 15. Fragmentary Weak/none Moderate Good Excellent Welsh Maltese Lithuanian Latvian Icelandic Irish Croatian Serbian Estonian Slovene Slovak Romanian Norwegian Greek Galician Danish Bulgarian Basque Swedish Portuguese Finnish Catalan Polish Hungarian Czech Italian German Dutch Spanish French English Levelofsupport Languages with names in red have little or no MT support Source: META-NET White Paper Series: Europe's Languages in the Digital Age. Springer, Heidelberg, New York, Dordrecht, London, September 2012. Georg Rehm and Hans Uszkoreit (series editors) Important: even current state of the art technologies are far from being perfect!
  16. 16. Fragmentary Weak/none Moderate Good Excellent Welsh Maltese Lithuanian Latvian Icelandic Irish Croatian Serbian Estonian Slovene Slovak Romanian Norwegian Greek Galician Danish Bulgarian Basque Swedish Portuguese Finnish Catalan Polish Hungarian Czech Italian German Dutch Spanish French English Levelofsupport Languages with names in red have little or no MT support Source: META-NET White Paper Series: Europe's Languages in the Digital Age. Springer, Heidelberg, New York, Dordrecht, London, September 2012. Georg Rehm and Hans Uszkoreit (series editors) Important: 20+ European languages are severely under-supported and face the danger of digital extinction.
  17. 17. Digital Language Extinction! ! “At Least 21 European Languages in Danger of Digital Extinction!” ! Press release on European Day of Languages (Sept. 26, 2012) ! Huge global interest in the topic and our key findings! ! 600+ mentions in the press ! News from 40+ countries in 35+ different languages ! 20+ television reports and 30+ broadcast interviews (radio, tv) with META-NET representatives ! Two Parliamentary Questions in the EP on the “digital extinction of languages” topic 18META-NET Language White Papers – Past, Present, Future
  18. 18. Desudensættesderpengeaftilatøgeantal- let af operationer og udvide ambulatorieka- paciteten på det urologiske område på Herlev, »Mensåerdetogsåvigtigtatholdefastidet målogikkestillesigtilfredsmed,at80eller85 pct.kommerigennemtiltiden.«B Af Jens Ejsing // ejs@berlingske.dk Det danske sprog har det svært i den digitale verden. Det konstaterer danske sprogforskere- og eksperter i forbindelse med den nye inter- nationale undersøgelse META-NET, der ser nærmere på, hvordan en lang række mindre, europæiske sprog som dansk klarer sig i den digitaleverden. Forskerne fra bl.a. Københavns Universitet og Dansk Sprognævn når frem til, at dansk i fremtiden kan få det endnu sværere i den digitale verden, fordi Google Translate, GPSer, applikationertilsmartphonesogandresprog- teknologiske programmer ikke i tilstrækkelig grad formår at behandle de mange nuancer i detdanskesprog. Professor i sprogteknologi på Københavns Universitet, Bolette Sandford Pedersen, mener, at der er brug for en slags digital dansk sprogbank fyldt med data, så bl.a. oversættel- ser bliver så præcise og gode som muligt. Med hjælp fra sprogbanken kan forskere ifølge professoren hjælpe virksomheder med at for- bedreprogrammer,derskalhåndteresproglig viden om bl.a. maskinoversættelse, tale- genkendelseoginformationssøgning. Dermedvilderblivelængeremellemfejlag- tige oversættelser, som når »hæld olie på pan- den« med Google Translate bliver til »pour oil on the forehead« på engelsk. Oversættelser, der er i værste fald er så upræcise, at danskere ender med at fravælge deres eget sprog i den digitaleverden. Sproghjælp til virksomheder Hun anerkender dog, at »teknologien til auto- matiske oversættelser på mange måder er fantastisk«. »Den er bare ikke god nok, når det gælder dansk,«sigerhun: »Detersomom,atviietvistomfanglægger det i hænderne på Google eller andre virk- somheder at afgøre, om dansk skal behandles godt nok eller ej. Men det danske marked er ikke stort for dem. Spørgsmålet er derfor, Dårlig sprogteknologi truer dansk på nettet Ord. Forskere arbejder på at forbedre danske oversættelser på internettet. om vi ikke i højere grad selv skal gøre noget for at sikre, at det fornødne datamateriale er til rådighed, så vi får gode oversættelser og anden god sprogteknologi. Det kunne f.eks. være ved, at vi gjorde en indsats for at få opret- tet en sprogbank med en masse beriget mate- rialeomdansk.« »Hvis vi hele tiden oplever, at oversættel- ser er behæftede med fejl, tør vi ikke stole på dem,« siger hun og understreger, at »fejlagtige oversættelserkanføretilstoremisforståelser«. Ifølge Dansk Sprognævns direktør, Sabine Kirchmeier-Andersen,kandårligsprogtekno- logi have konsekvenser for mange danskere, derikkeersågodetilengelsk. »Hvis vi har ambitioner om at bruge det danske sprog i fremtidens teknologiske univers, skal der gøres en indsats nu for at fastholde ekspertise og udbygge den viden, vi har,«menerhun: »Ellers risikerer vi, at kun folk, der taler fly- dendeengelsk,vilfåglædeafdenyegeneratio- ner af web-, tele- og robotteknologi, der er på vej.«B INFOGRAFIK: HENRIK KIÆR / TEKST: FLEMMING STEEN PEDERSEN KILDE: REGION HOVEDSTADEN H Der er omkring 80 sprog i EU. For 21 af dem – også dansk – gælder det, at der er store sprogteknologiske mangler, når det gælder bl.a. maskinoversættelse, talegenken- delse og informationssøgning. H Ifølge en EU-undersøgelse køber et stigende antal europæiske internetbrugere varer eller tjenester på nettet, hvor det sprog, der bliver anvendt, ikke er deres eget. Det gælder over halvdelen af brugerne. H Over hver tredje anvender et fremmed- sprog til at skrive mail eller indlæg på nettet. fakta H Sprog i Europa 38 Στην ψηφιακή εποχή δεν… µιλούν ελληνικά, όπως και αρκετές άλλες ευρωπαϊκές γλώσσες, σύµφωνα µε πανευρωπαϊ- κή έκθεση µε την υπογραφή 200 και πλέον ειδικών. Η συγκεκριµένη µελέ- τη δηµοσιεύτηκε από το επιστηµονικό δίκτυο ΜΕΤΑ-ΝΕΤ µε αφορµή τη χτε- σινή Ευρωπαϊκή Ηµέρα Γλωσσών. Για τις ανάγκες της έρευνάς τους, γλωσσολόγοι από 34 χώρες της Γη- ραιάς Ηπείρου βαθµολόγησαν τις διαθέσιµες γλωσσικές υπηρεσίες και δηµιούργησαν ένα «Λευκό Βι- βλίο» για κάθε ευρωπαϊκή γλώσσα. Στη µελέτη τους, οι ειδικοί αναζήτη- σαν µεταξύ άλλων τέσσερα βασικά ηλεκτρονικά εργαλεία, δηλαδή την ύπαρξη αυτόµατης µετάφρασης, τη δυνατότητα φωνητικής αλληλε- πίδρασης και ψηφιακής ανάλυσης κειµένου, ενώ ταυτόχρονα διερευνή- θηκε και η διαθεσιµότητα γλωσσικών πόρων ή πηγών. Σε πρώτη φάση εξέτασαν τις ιστο- σελίδες που επιτρέπουν στους χρή- στες να κάνουν µεταφράσεις online, όπως, για παράδειγµα, η υπηρεσία του κολοσσού πληροφορικής Google Translate. Την ίδια ώρα, εξετάστηκε και η «επικοινωνία» των ελληνόφω- νων χρηστών µε τις…συσκευές τους, όπως για παράδειγµα η δυνατότητα να «µιλήσει» κάποιος στο GPS στη µητρική του γλώσσα. Οι ερευνητές κατέληξαν στο συµπέρασµα ότι υπάρχουν τέτοιες συσκευές, αλλά δεν είναι τόσο διαδεδοµένες όσο οι αγγλόφωνες. Το «χρυσό» µετάλλιο κατακτά, όπως είναι άλλωστε και λογικό, η αγγλική γλώσσα. Οι αγγλόφωνοι χρή- στες έχουν την καλύτερη δυνατή τε- χνολογική υποστήριξη, κάτι το οποίο ευνοεί την περαιτέρω εξάπλωση της γλώσσας. Από «τεχνολογικό απο- κλεισµό» κινδυνεύουν περισσότερο η ισλανδική, η λετονική, η λιθουανική και η µαλτέζικη γλώσσα, ενώ σε λίγο καλύτερη µοίρα βρίσκονται η ελλη- νική, η βουλγαρική, η ουγγρική και η πολωνική, που όπως αναφέρει η έρευνα έχουν «αποσπασµατική» τε- χνολογική υποστήριξη. «Μέτρια» χαρακτηρίζεται η υπο- στήριξη χρηστών σε ολλανδική, γαλ- λική, γερµανική, ιταλική και ισπανική γλώσσα. Οι επικεφαλής της επιστη- µονικής οµάδας, Χανς Ουζκοράιτ και Γκεόργκ Ρεµ, αναφέρουν χαρακτηρι- στικά: «Υπάρχουν δραµατικές διαφο- ρές στην υποστήριξη της γλωσσικής τεχνολογίας ανάµεσα στις διάφορες ευρωπαϊκές γλώσσες. Το χάσµα µετα- ξύ “µικρών” και “µεγάλων” γλωσσών ολοένα και διευρύνεται. Πρέπει να εξασφαλίσουµε τον εφοδιασµό των µικρότερων και λιγότερο πλούσιων σε ψηφιακούς πόρους γλωσσών µε τις απαραίτητες βασικές τεχνολογί- ες. ∆ιαφορετικά, οι γλώσσες αυτές είναι καταδικασµένες σε ψηφιακή εξαφάνιση». Μάλιστα, οι ειδικοί τονίζουν ότι χω- ρίς αποφασιστική δράση οι γλώσσες αυτές δύσκολα θα… επιβιώσουν στον ψηφιακό κόσµου του 21ου αιώνα. Η κ. Μαρία Γαβριηλίδου, µέλος της επι- στηµονικής οµάδας από το Ινστιτούτο Επεξεργασίας του Λόγου Ερευνητικό Κέντρο Αθηνά, λέει στον «Ε.Τ.»: «Η έρευνα αυτή δεν λέει ότι δεν θα ζήσει η ελληνική γλώσσα ή ότι κινδυνεύει µε εξαφάνιση». Η ειδικός εξηγεί ότι όσο υπάρχουν άνθρωποι που µιλά- νε, γράφουν και επικοινωνούν µε µια γλώσσα, τότε αυτή θα συνεχίσει να υπάρχει. Είναι σηµαντικό, όµως, να έχουν όλοι οι χρήστες τη δυνατότητα να «µιλήσουν» στις µηχανές, όπως τα GPS τους, στα ελληνικά και να έχουν στη διάθεσή τους γλωσσικά εργαλεία ηλεκτρονικών υπολογιστών. Μεταξύ αυτών των «εργαλείων» είναι οι διορθωτές ορθογραφικών και συντακτικών λαθών, που χρησιµοποι- ούνται καθηµερινά από εκατοντάδες Ελληνες χρήστες και βασίζονται στη γλωσσική τεχνολογία. Παρ’ όλα αυτά, τονίζει ότι η ψη- φιακή εξάπλωση µιας γλώσσας είναι σηµαντική «∆εν είναι στα χέρια του µέσου χρήστη. Οι εκάστοτε κυβερ- νήσεις, η Ευρωπαϊκή Ενωση και ο ιδιωτικός τοµέας πρέπει να χρηµα- τοδοτήσουν την ανάπτυξη αυτής της τεχνολογίας για όλες τις γλώσσες», αναφέρει και συνεχίζει: «Οι χρήστες, όµως, πρέπει να απαιτούν να υπάρ- χουν και στη γλώσσα τους τα µέσα αυτά και να µην ικανοποιούνται µε τα αγγλικά». ■ Πέµπτη 27 Σεπτεµβρίου 2012 ΕΛΕΥΘΕΡΟΣ ΤΥΠΟΣ Life ΠΟΛΛΕΣ ΕΥΡΩΠΑΪΚΕΣ ΓΛΩΣΣΕΣ ΘΕΩΡΟΥΝΤΑΙ ΤΕΧΝΟΛΟΓΙΚΑ… ΞΕΠΕΡΑΣΜΕΝΕΣ Με ψηφιακή εξαφάνιση κινδυνεύουν τα ελληνικά ΕΛΕΝΗ ΒΕΡΓΟΥ evergou@e-typos.com Η γλώσσα της αποξένωσης… GREEKLISH Οι αγγλόφωνοι χρήστες έχουν την καλύτερη δυνατή τεχνολογική υποστήριξη, γεγονός που ευνοεί την περαιτέρω εξάπλωση της γλώσσας ΜΕ GREEKLISH επικοινω- νούν πλέον µέσω µηνυµά- των ή email οι περισσότεροι νέοι της χώρας µας. Παρά το γεγονός ότι τα τελευ- ταία χρόνια υπάρχουν τα γλωσσικά εργαλεία, τα οποία επιτρέπουν τη χρήση της ελληνικής γραµµατο- σειράς, έφηβοι και νέοι ενήλικες φαίνεται ότι δεν έχουν «αγκαλιάσει» αυτές τις τεχνολογίες. Ο καθη- γητής Γλωσσολογίας, κ. Γιώργος Μπαµπινιώτης, λέει στον «Ε.Τ.»: «Τα greeklish είναι πρόβληµα για την ελληνική γλώσσα, ιδίως για ανθρώπους νέας ηλικίας για έναν καθαρά γλωσσικό λόγο. Με τη χρήση των greeklish αποξενώνονται από τη µορφή της λέξης ή όπως λέµε το ετυµολογικό ίνδαλµα που δηλώνεται µε την ορθογραφία της λέξης και συνδέεται και µε τη ση- µασία της λέξης και µε την προέλευσή της». Ο κίνδυνος, µε τον οποίο έρχονται αντι- µέτωποι οι νέοι άνθρωποι, είναι η αποξένωση από τη γραπτή µορφή της γλώσ- σας. Αυτή η «οικειότητα», όµως, βοηθάει και στην κατανόηση της σηµασίας αλλά και την προέλευση της λέξης. «Αυτή η αποξένωση δεν είναι άνευ σηµασίας», αναφέρει ο ειδικός, ο οποίος εξηγεί ότι η διαδικασία της γραφής βοηθάει να εντυπω- θεί η λέξη και να συνδεθεί µε άλλες οµόρριζες λέξεις. «Οταν χρησιµοποιείται αυτή η µορφή επικοινωνίας, κα- ταστρέφονται, ατονούν. ∆εν είναι προς θάνατο, αλλά θα κάνει ζηµιά», αναφέρει ο κ. Μπαµπινιώτης, ο οποίος συµβουλεύει τους χρήστες να επιλέγουν την ελληνική γραµµατοσειρά. Γιώργος Μπαµπινιώτης. Date 30 September 2012 Page 16 Copyright material. This may only be copied under the terms of a Newspaper Licensing Agency agreement (www.nla.co.uk) or with written publisher permission. For external republishing rights see www.nla-republishing.com 49KYPIAKH 30 ΣΕΠΤΕΜΒΡΙΟΥ 2012 Η 26η Σεπτεµβρίου έχει καθιε- ρωθεί από το Συµβούλιο της Ευρώπης ως η Ευρωπαϊκή Ηµέρα των Γλωσσών, αλλά, σύµφωνα µε µια νέα ευρωπαϊκή επι- στηµονική έκθεση, οι 21 από τις 30 γλώσσες της Ευρώπης -µεταξύ των οποί- ων και η Ελληνική- αντιµετωπίζουν κίν- δυνο ψηφιακής εξαφάνισης. Η έρευνα κρούει τον κώδωνα κινδύ- νου, καθώς διαπίστωσε ότι η ψηφιακή βοήθεια για τις περισσότερες ευρωπαϊκές γλώσσες είναι ελλιπής ή απολύτως ανύ- παρκτη για τους χρήστες. Τις έφαγαν οι κοινές Η έκθεση, µε τη µορφή µιας σειράς Λευκών Βίβλων (µε τίτλο «Γλώσσες στην Ευρωπαϊκή Κοινωνία της Πληροφορίας»), από το επιστηµονικό δίκτυο ΜΕΤΑ- ΝΕΤ, το οποίο συνενώνει 60 ερευνητικά κέντρα σε 34 χώρες, επισηµαίνει ότι οι γλώσσες που µιλιούνται από σχετικά µικρό αριθµό ανθρώπων κινδυνεύουν, επειδή δεν έχουν τεχνολογική υποστή- ριξη όπως έχουν οι ευρέως χρησιµο- ποιούµενες γλώσσες. Λευκές Βίβλοι έχουν καταρτιστεί για τις εξής ευρω- παϊκές γλώσσες: αγγλικά, βασκικά, βουλγαρικά, γαλικιανά, γαλλικά, γερ- µανικά, δανικά, ελληνικά, εσθονικά, ιρλανδικά, ισλανδικά, ισπανικά, ιταλικά, καταλανικά, κροατικά, λετονικά, λι- θουανικά, µαλτέζικα, νορβηγικά (µπουκ- µόλ και νινόρσκ), ολλανδικά, ουγγρικά, πολωνικά, πορτογαλικά, ρουµανικά, σερβικά, σλοβακικά, σλοβενικά, σουη- δικά, τσεχικά και φινλανδικά. Κάθε Λευκή Βίβλος είναι γραµµένη στη γλώσ- σα στην οποία αναφέρεται και είναι µεταφρασµένη στα αγγλικά. Τέσσερις µεγάλοι κίνδυνοι Σύµφωνα µε τη νέα µελέτη, η Ισ- λανδική, η Λετονική, η Λιθουανική και η Μαλτέζικη αντιµετωπίζουν τον µε- γαλύτερο κίνδυνο εξαφάνισης σε µια ευρωπαϊκή τεχνολογική κοινωνία, που ολοένα περισσότερο προωθεί τη χρήση συγκεκριµένων γλωσσών και ιδίως της Αγγλικής. Όµως και άλλες γλώσσες, όπως η Ελληνική, η Βουλγαρική, η Ουγ- γρική και η Πολωνική, επίσης κινδυ- νεύουν στον σύγχρονο ψηφιακό κόσµο. Η έρευνα του ΜΕΤΑ-ΝΕΤ, στην οποία συνέβαλαν περισσότεροι από 200 ειδικοί, αξιολογεί τον κίνδυνο για κάθε γλώσσα µε βάση τέσσερα βασικά κριτήρια σε τεχνολογικό/ψηφιακό επίπεδο: την ύπαρ- ξη αυτόµατης µετάφρασης στη συγκε- κριµένη γλώσσα, τη δυνατότητα φωνη- τικής αλληλεπίδρασης, τη δυνατότητα ψηφιακής ανάλυσης κειµένου και τη διαθεσιµότητα των σχετικών ψηφιακών γλωσσικών πόρων/πηγών. Οι δυνατές Η γλώσσα µε την καλύτερη βαθµο- λογία στα κριτήρια είναι ασφαλώς η Αγγλική, που απολαµβάνει τη συγκριτικά καλύτερη τεχνολογική υποστήριξη (αν και όχι την καλύτερη δυνατή), γεγονός που διευκολύνει την περαιτέρω εξά- πλωσή της. Ακολουθούν µε ικανοποιητική ή µέ- τρια τεχνολογική/ψηφιακή υποστήριξη η Ολλανδική, η Γαλλική, η Γερµανική, η Ιταλική και η Ισπανική. Η Ελληνική, όπως επίσης η Βασκική, η Καταλανική, η Πολωνική, η Ουγγρική κ.ά. κατα- τάσσονται στις γλώσσες µε «αποσπα- σµατική» µόνο υποστήριξη, γι’ αυτό ακριβώς θεωρούνται γλώσσες υψηλού κινδύνου προς εξαφάνιση. Δραµατικές διαφορές Σύµφωνα µε τους επιµελητές της µε- λέτης Χανς Ουζκοράιτ και Γκέοργκ Ρεµ, «υπάρχουν δραµατικές διαφορές στην υποστήριξη της γλωσσικής τεχνολογίας ανάµεσα στις διάφορες ευρωπαϊκές γλώσσες και τεχνολογικές περιοχές. Το χάσµα µεταξύ ‘µικρών’ και ‘µεγάλων’ γλωσσών ολοένα και διευρύνεται. Πρέπει να εξασφαλίσουµε τον εφοδιασµό των µικρότερων και λιγότερο πλούσιων -σε ψηφιακούς πόρους- γλωσσών µε τις απαραίτητες βασικές τεχνολογίες, αλλιώς οι γλώσσες αυτές είναι καταδικασµένες σε ψηφιακή εξαφάνιση». Ως ελπίδα αυτών των γλωσσών θεω- ρείται η βελτίωση και η ευρύτερη αξιο- ποίηση του λογισµικού γλωσσικής τε- χνολογίας, το οποίο επιτρέπει τη φω- νητική και τη γραπτή επεξεργασία των διαφόρων γλωσσών. Παραδείγµατα αυτών των δυνατοτή- των είναι οι ηλεκτρονικοί ορθογραφικοί και συντακτικοί διορθωτές κειµένων, οι διαδραστικοί προσωπικοί «βοηθοί» των έξυπνων κινητών τηλεφώνων (π.χ. η Siri στο iPhone), τα συστήµατα αυ- τόµατης µετάφρασης, τα ηλεκτρονικά συστήµατα διαλόγου των τηλεφωνικών κέντρων, οι µηχανές αναζήτησης, η συνθετική φωνή στα συστήµατα πλοή- γησης των αυτοκινήτων. κ.ά. Το βασικό πρόβληµα Το σηµαντικό, σύµφωνα µε την έκ- θεση, είναι όλες αυτές οι δυνατότητες να προσφέρονται στους χρήστες και στη µητρική τους γλώσσα που κινδυνεύει µε εξαφάνιση. Χωρίς αποφασιστική δρά- ση, γίνεται η δυσοίωνη πρόβλεψη ότι οι γλώσσες αυτές δύσκολα θα επιβιώσουν στον ψηφιακό κόσµο του 21ου αιώνα. Ένα πρόβληµα είναι ότι το λογισµικό αυτών των συστηµάτων γλωσσικής τε- χνολογίας στηρίζεται σε στατιστικές µε- θόδους που απαιτούν τεράστιες ποσό- τητες γραπτών ή φωνητικών δεδοµένων, όµως τόσα πολλά δεδοµένα είναι δύσκολο να αποκτηθούν για γλώσσες που οµι- λούνται από σχετικά λίγους ανθρώπους. Εξάλλου, ακόµα και για ευρέως χρη- σιµοποιούµενες γλώσσες όπως τα αγ- γλικά, η σχετική γλωσσική τεχνολογία έχει ακόµα αδυναµίες, που είναι π.χ. φανερές στις άκρως ανεπαρκείς και γε- µάτες λάθη αυτόµατες µεταφράσεις. Η έκθεση προτείνει ότι πρέπει να αναληφθεί µια συντονισµένη µεγάλης κλίµακας προσπάθεια στην Ευρώπη, προκειµένου σταδιακά να δηµιουργηθούν ή να βελ- τιωθούν οι αναγκαίες τεχνολογίες και να βοηθηθούν οι γλώσσες που είναι ψη- φιακά παραγκωνισµένες. Τη γλώσσα µού... έχασαν Οι περισσότερες ευρωπαϊκές γλώσσες κινδυνεύουν µε ψηφιακή εξαφάνιση Πρέπει να εξασφαλιστεί ο εφοδιασµός των µικρότερων και λιγότερο πλούσιων -σε ψηφιακούς πόρους- γλωσσών µε τις απαραίτητες βασικές τεχνολογίες ?049-ΚΟΣΜΟΣ 29/09/2012 1:41 ?Μ Page 49 19
  19. 19. Website Visitors 20 began sending out press release European Day of Languages unusually high traffic META-NET Language White Papers – Past, Present, Future
  20. 20. Website Visitors – Locations 21META-NET Language White Papers – Past, Present, Future
  21. 21. Website Visitors – Locations 22META-NET Language White Papers – Past, Present, Future Brussels, Belgium, which is where the European Institutions are based. This is our main target audience!
  22. 22. 2014
  23. 23. Update of the Study ! Study comprised 31 volumes/languages. ! Many languages missing! Need for extension – at least of the comparison. ! We invited three language community bodies to participate in the update: European Federation of National Institutions for Language (EFNIL) Network to Promote Linguistic Diversity (NPLD) Experts Committee of the European Language Charter (Council of Europe) 24 CCURL 2014 – Collaboration and Computing for Under- Resourced Languages in the Linked Open Data Era
  24. 24. Excellent Good Moderate Fragmentary Weak/no support LanguageTechnologySupport MillionsofNativeSpeakers(Worldwide) Yiddish Welsh VlaxRomani Turkish Scots Romany Occitan Maltese Macedonian Luxembourgish Lithuanian Limburgish Latvian Icelandic Friulian Frisian Breton Bosnian Asturian Albanian Irish Croatian Serbian Hebrew Estonian Slovene Slovak Romanian Norwegian Greek Galician Danish Bulgarian Basque Swedish Portuguese Finnish Catalan Polish Hungarian Czech Italian German Dutch Spanish French English 0 50 100 150 200 250 300 350 400 Source: Georg Rehm, Hans Uszkoreit, Ido Dagan, Vartkes Goetcherian, Mehmet Ugur Dogan, Coskun Mermer, Tamás Váradi, Sabine Kirchmeier-Andersen, Gerhard Stickel, Meirion Prys Jones, Stefan Oeter, and Sigve Gramstad. An Update and Extension of the META-NET Study “Europe's Languages in the Digital Age”. In Proceedings of the Workshop on Collaboration and Computing for Under-Resourced Languages in the Linked Open Data Era (CCURL 2014), Reykjavik, Iceland, May 2014.
  25. 25. 2016
  26. 26. Basque Bulgarian Catalan Croatian Czech Danish Dutch English Estonian Finnish French 2012 96 153 101 76 91 111 97 225 101 68 109 2013 330 258 256 202 194 286 427 625 201 284 542 2014 866 825 891 840 868 1,063 988 978 711 972 1032 2015 383 240 468 264 269 375 661 534 248 412 703 2016 378 259 377 231 292 395 600 499 187 470 480 Galician Greek German Hungarian Icelandic Irish Italian Latvian Lithuanian Maltese Norwegian (nynorsk) 2012 86 107 100 90 164 138 128 107 81 70 83 2013 178 556 449 315 393 352 383 218 216 148 182 2014 799 1133 1382 874 905 954 862 728 665 704 676 2015 246 419 903 285 463 395 472 250 230 307 272 2016 585 403 689 358 334 416 446 222 245 207 263 Norwegian (bokmal) Polish Portug. Romanian Serbian Slovak Slovene Spanish Swedish Welsh 2012 91 107 160 90 86 108 84 170 107 – 2013 262 234 355 326 169 145 214 486 348 – 2014 879 918 863 765 711 672 731 1195 885 1014 2015 273 419 377 307 272 228 200 784 496 466 2016 331 382 352 345 241 243 222 866 593 505 Downloads of Language White Papers from Springer Link Continued Interest in the White Papers 27
  27. 27. Fragmentary Weak/none Moderate Good Excellent Welsh Maltese Lithuanian Latvian Icelandic Irish Croatian Serbian Estonian Slovene Slovak Romanian Norwegian Greek Galician Danish Bulgarian Basque Swedish Portuguese Finnish Catalan Polish Hungarian Czech Italian German Dutch Spanish French English Levelofsupport Languages with names in red have little or no MT support Source: META-NET White Paper Series: Europe's Languages in the Digital Age. Springer, Heidelberg, New York, Dordrecht, London, September 2012. Georg Rehm and Hans Uszkoreit (series editors) We carried out the study in 2011/2012. While support for many languages, and also overall, has improved in the meantime thanks to Deep Learning, the bigger picture appears to remain mostly the same.
  28. 28. • Multilingualism is at the heart of the European idea • 24 EU languages – all have the same status • Dozens of regional and minority languages as well as languages of immigrants and trade partners • Many economic, social and technical challenges: – Digital Extinction of 21 European languages – The Digital Single Market needs to be multilingual – Cross-lingual, cross-cultural communication – There’s no LT platform for Europe! (yet)
  29. 29. The EC and the Multilingual DSM • Blog post by Andrus Ansip (May 2016) • EC’s first public acknowledgment that language is of high relevance for the DSM. • “Overcoming language barriers is vital for building the DSM, which is by definition multilingual.” • “It is […] time to […] turn [language barriers] into competitive advantages.” • Blog post by Roberto Viola (DG Connect) and Rytis Martikonis (DG Translation) (Feb. 2017) • “We view the linguistic diversity of the EU as an asset and a great opportunity for the [DSM].” • “By using digital solutions we can bridge language barriers if we consider our diversity as an opportunity rather than an obstacle.” META-NET Language White Papers – Past, Present, Future 30
  30. 30. 2017
  31. 31. STUDY EPRS | European Parliamentary Research Service Scientific Foresight Unit (STOA) PE 581.621 Science and Technology Options Assessment STOA Workshop European Parliament 10 January 2017 Study published in March 2017 11 Key Recommendations
  32. 32. 2018
  33. 33. “Language equality” Resolution ! European Parliament Resolution “Language equality in the digital age” P8_TA(2018)0332 – based on STOA study ! Voting (11 Sept. 2018): 592 yes – 45 no ! Important Recommendations: " 29. Create a European LT platform for sharing of services " 41. Enable and empower European SMEs to use LTs " 26. ICT integrators should be given economic incentives for LT " 27. Europe has to secure its leadership in language-centric AI " 32. Set up LT financing platform; emphasise R&D in Deep NLU " 40. Develop investment instruments and accelerator programs 34 European Parliament 2014-2019 TEXTS ADOPTED Provisional edition P8_TA-PROV(2018)0332 Language equality in the digital age European Parliament resolution of 11 September 2018 on language equality in the digital age (2018/2028(INI)) The European Parliament, – having regard to Articles 2 and 3(3) of the Treaty on the Functioning of the European Union (TFEU), – having regard to Articles 21(1) and 22 of the Charter of Fundamental Rights of the European Union, – having regard to the 2003 UNESCO Convention for the Safeguarding of the Intangible Cultural Heritage, – having regard to Directive 2003/98/EC of the European Parliament and of the Council of 17 November 2003 on the re-use of public sector information1 , – having regard to Directive 2013/37/EU of the European Parliament and of the Council of 26 June 2013 amending Directive 2003/98/EC on the re-use of public sector information2 , – having regard to Decision (EU) 2015/2240 of the European Parliament and of the Council of 25 November 2015 establishing a programme on interoperability solutions and common frameworks for European public administrations, businesses and citizens (ISA2 programme) as a means for modernising the public sector3 , – having regard to the Council resolution of 21 November 2008 on a European strategy for multilingualism (2008/C 320/01)4 , – having regard to the Council decision of 3 December 2013 establishing the specific programme implementing Horizon 2020 – the Framework Programme for Research and 1 OJ L 345, 31.12.2003, p. 90. 2 OJ L 175, 27.6.2013, p. 1. 3 OJ L 318, 4.12.2015, p. 1. 4 OJ C 320, 16.12.2008, p. 1.
  34. 34. 2019
  35. 35. ELG – The Primary Platform for Language Technology in Europe Web Interface APIs European Language Grid – Content Catalogue LT Services, Tools, Components, Technologies Language Resources and Data Sets Organisations, Languages, Service Types etc. Cloud Infrastructure • Development of a functional language technology cloud platform for Europe • Market place for European LT business space (directory of stakeholders) • Hundreds of LT services and resources – easy-to-use and easy-to-integrate • Many different technologies for all European languages • Evaluation through 15-20 pilot projects feeding back into the platform • 30+ national competence centres will be set up for a strong European network • Services and resources can be made available by the community • Boosting the emerging Multilingual Digital Single Market • Interoperability of services through containerisation • Towards a thriving and flourishing European LT community Consortium • DFKI GmbH (Coordinator) (DE) • ILSP, R.C. “Athena“ (GR) • University of Sheffield (UK) • Charles University (CZ) • ELDA (FR) • Tilde (LV) • SAIL LABS GmbH (AT) • Expert System Iberia (ES) • University of Edinburgh (UK) 2019–2021 Coordinator: Georg Rehm georg.rehm@dfki.de GA number: 825627
  36. 36. Concluding Remarks • The META-NET White Paper Series turned out to be an extremely effective communication instrument • The White Papers made the EU calls ICT-17-2014 (17M€) and ICT-29-2018 (25M€) possible • They ultimately lead to the recent EP Resolution (2018) • The ELG platform will be filled with: • Hundreds of running services • Thousands of language resources and data sets • Catalogues of all European LT companies & research groups • All records will be explicitly linked to their languages • Goal for 2020: automatic production of the language comparison tables in real-time based on the ELG data
  37. 37. Thank you very much! META-NET Language White Papers – Past, Present, Future 38 Congratulations on putting together White Papers on 20 Languages of India!

×