Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Language Technology for Multilingual Europe:
Current State and Future Plans
Georg Rehm
Network Manager META-NET
German Res...
Outline
q 

Introduction

q 

Language White Paper Series

q 

Strategic Research Agenda

q 

Conclusions

http://www....
Multilingual Europe
q 

q 

q 

Challenge: Providing each language community with the most
advanced technologies for co...
Objectives
META-NET is a network of excellence dedicated to fostering the technological foundations of the European multil...
Four EU-Funded Projects
q 

q 

q 

q 

Initial project: T4ME (FP7;
13 partners, 10 countries)
Three ICT-PSP consortia...
META-VISION

Language White Paper Series

http://www.meta-net.eu

6
Language White Paper Series
q 

q 
q 

q 

Reports on the state of our languages in
the digital age and the level of s...
30 Languages Covered
q 
q 
q 
q 
q 
q 
q 
q 
q 
q 

Basque
Bulgarian*
Catalan
Czech*
Danish*
Dutch*
English*
Est...
Cross-Lingual Ranking
q 

In four application areas, each language is assigned to one of five
clusters, ranging from exce...
Resources

Speech

Text Analysis

MT

excellent

good

moderate

fragmentary

weak or no support

English

moderate

fragm...
Europe’s Languages and LT

English

good support through
Language Technology

http://www.meta-net.eu

Dutch
French
German
...
450	
  

400	
  

350	
  

300	
  

Languages treated in the 2010 editions of
Not	
  enough	
  R&I	
  on	
  European	
  la...
Key Observations
q 

When it comes to Language Technology support, there are massive
differences between Europe’s languag...
White Paper Press Campaign
q 

Headline of press release:
At Least 21 European Languages in Danger of Digital Extinction....
Coverage by Country
Basque Country, Austria, 0.20%
0.40%
Costa Rica, 0.20%
Finland, 0.70%
Portugal, 0.40%
Canada, 0.20%
Br...
Response: Examples
q 
q 
q 
q 
q 
q 
q 
q 
q 
q 
q 
q 
q 
q 

Austria:
Denmark:
Finland:
Germany:
Greece:
Ic...
Press Campaign: Examples
38

Πέµπτη 27 Σεπτεµβρίου 2012 ΕΛΕΥΘΕΡΟΣ ΤΥΠΟΣ

Life

Date 30 September 2012
Page 16

Γιώργος
Μπα...
Website: Visitors Overview
began sending
out press release

European Day
of Languages

unusually
high traffic

http://www....
Website: Visitors’ Cities

http://www.meta-net.eu

19
META-VISION

Strategic Research Agenda

http://www.meta-net.eu

20
Three Ingredients

Appropriate
Actors

Appropriate
Programme

Research &
Commercialisation

Vision & Agenda

Appropriate
S...
Strategic Research Agenda
q 

q 

q 

q 

META-NET Strategic Research Agenda
for Multilingual Europe 2020.
Addresses t...
Strategic Research Agenda

http://www.meta-net.eu

23
Priority Themes: 3 + 2
q 

Three Priority Research Themes:
§  Translation Cloud
§  Social Intelligence and e-Participat...
Gartner Hype Cycle 2012
13 of the 48 emerging
technologies are
language technologies!
META-NET

Conclusions

http://www.meta-net.eu

26
Conclusions
q 

q 

q 

Our white paper press campaign shows that Europe is extremely
interested in and passionate abou...
Q/A
Maturity

Database Technology

Network Technology

Web Technology

Language Technology

Language Technology

Labai ači...
Upcoming SlideShare
Loading in …5
×

Language Technology for Multilingual Europe: Current State and Future Plans

528 views

Published on

Georg Rehm. Language Technology for Multilingual Europe: Current State and Future Plans. European Languages in the Digital Age: quo vadis?, Vilnius, Lithuania, November 2012. November 14, 2012. Invited talk.

Published in: Technology
  • Be the first to comment

  • Be the first to like this

Language Technology for Multilingual Europe: Current State and Future Plans

  1. 1. Language Technology for Multilingual Europe: Current State and Future Plans Georg Rehm Network Manager META-NET German Research Center for Artificial Intelligence (DFKI), Berlin, Germany European Languages in the Age of Technology: Quo vadis? – Vilnius, Lithuania November 14, 2012 Co-funded by the 7th Framework Programme and the ICT Policy Support Programme of the European Commission through the contracts T4ME, CESAR, METANET4U, META-NORD (grant agreements no. 249119, 271022, 270893, 270899).
  2. 2. Outline q  Introduction q  Language White Paper Series q  Strategic Research Agenda q  Conclusions http://www.meta-net.eu 2
  3. 3. Multilingual Europe q  q  q  Challenge: Providing each language community with the most advanced technologies for communication and information so that maintaining their mother tongue does not turn into a disadvantage. While research has made considerable progress in recent years, the pace of progress is not fast enough to meet the challenge within the next 10-20 years. All stakeholders – researchers, LT user and provider industries, language communities, funding programmes, policy makers – should team up for a major dedicated push. http://www.meta-net.eu 3
  4. 4. Objectives META-NET is a network of excellence dedicated to fostering the technological foundations of the European multilingual information society. http://www.meta-net.eu 4
  5. 5. Four EU-Funded Projects q  q  q  q  Initial project: T4ME (FP7; 13 partners, 10 countries) Three ICT-PSP consortia since Feb. 2011: CESAR, METANET4U, META-NORD All EU member states and several non-member states covered. META-NET in Nov. 2012: 60 members in 34 countries. http://www.meta-net.eu/members http://www.meta-net.eu 5
  6. 6. META-VISION Language White Paper Series http://www.meta-net.eu 6
  7. 7. Language White Paper Series q  q  q  q  Reports on the state of our languages in the digital age and the level of support through language technology. Series covers 30 languages. Key communication instruments to address decision makers and journalists. Inform about societal and technological problems and challenges as well as economic opportunities. q  >2 years in the making. q  >200 national experts as contributors. q  >8.000 copies printed and distributed to politicians and journalists. http://www.meta-net.eu 7
  8. 8. 30 Languages Covered q  q  q  q  q  q  q  q  q  q  Basque Bulgarian* Catalan Czech* Danish* Dutch* English* Estonian* Finnish* French* q  q  q  q  q  q  q  q  q  q  Galician German* Greek* Hungarian* Icelandic Irish* Italian* Latvian* Lithuanian* Maltese* q  q  q  q  q  q  q  q  q  q  Norwegian Polish* Portuguese* Romanian* Serbian Slovak* Slovene* Spanish* Swedish* Croatian * = Official EU language http://www.meta-net.eu 8
  9. 9. Cross-Lingual Ranking q  In four application areas, each language is assigned to one of five clusters, ranging from excellent LT support to weak/no support: 1.  Machine Translation 2.  Speech Processing 3.  Text Analysis 4.  Resources q  Results finalised at a meeting in Berlin with representatives of all 30 languages (October 21/22, 2011). http://www.meta-net.eu 9
  10. 10. Resources Speech Text Analysis MT excellent good moderate fragmentary weak or no support English moderate fragmentary weak or no support Dutch, French, German, Italian, Spanish Basque, Bulgarian, Catalan, Czech, Danish, Finnish, Galician, Greek, Hungarian, Norwegian, Polish, Portuguese, Romanian, Slovak, Slovene, Swedish Croatian, Estonian, Icelandic, Irish, Latvian, Lithuanian, Maltese, Serbian good moderate fragmentary weak or no support Czech, Dutch, Finnish, French, German, Italian, Portuguese, Spanish Basque, Bulgarian, Catalan, Danish, Estonian, Galician, Greek, Hungarian, Irish, Norwegian, Polish, Serbian, Slovak, Slovene, Swedish Croatian, Icelandic, Latvian, Lithuanian, Maltese, Romanian good moderate fragmentary weak/no support English excellent good English excellent Catalan, Dutch, German, Hungarian, Italian, Polish, Romanian English excellent French, Spanish Basque, Bulgarian, Croatian, Czech, Danish, Estonian, Finnish, Galician, Greek, Icelandic, Irish, Latvian, Lithuanian, Maltese, Norwegian, Portuguese, Serbian, Slovak, Slovene, Swedish Czech, Dutch, French, German, Hungarian, Italian, Polish, Spanish, Swedish Basque, Bulgarian, Catalan, Croatian, Danish, Estonian, Finnish, Galician, Greek, Norwegian, Portuguese, Romanian, Serbian, Slovak, Slovene Icelandic, Irish, Latvian, Lithuanian, Maltese http://www.meta-net.eu 10
  11. 11. Europe’s Languages and LT English good support through Language Technology http://www.meta-net.eu Dutch French German Italian Spanish Catalan Czech Finnish Hungarian Polish Portuguese Swedish Basque Bulgarian Danish Galician Greek Norwegian Romanian Slovak Slovene Croatian Estonian Icelandic Irish Latvian Lithuanian Maltese Serbian weak or no support 11
  12. 12. 450   400   350   300   Languages treated in the 2010 editions of Not  enough  R&I  on  European  languages   of Computational Linguistics and Journal Conferences of ACL, EMNLP and COLING. Many European languages without any reference: Slovak, Maltese, Lithuanian, ➔  LT  research  on  European  languages,  except  for  English,    is  too  weak  and   Irish, Albanian, Croatian, Galician etc. too  slow       250   ➔  Many  languages  are  badly  covered   200   150   100   0   English   Chinese   German,  Standard   French   Spanish   Japanese   Arabic   Dutch   Portuguese   Czech   Danish   Swedish   Hindi   Korean   Turkish   Italian   Russian   Finnish   Hebrew   Hungarian   Slovene   Urdu   Romanian   Zulu   Bulgarian   Catalan-­‐Valencian-­‐Balear   Greek   Thai   Welsh   Estonian   Basque   German,  Swiss   InukStut   Indonesian   Ineseño   LaSn   Marathi   Malay   Pushto   Serbian   Syriac   Tamil   UgariSc   Ukrainian   Uspanteko   Vietnamese   50  
  13. 13. Key Observations q  When it comes to Language Technology support, there are massive differences between Europe’s languages and technology areas. q  LT support for English is ahead of any other language. q  Even support for English is far from being perfect. q  The gap between English and the other languages keeps widening! q  q  Several languages – Icelandic, Latvian, Lithuanian, Maltese – receive this weakest score in all four areas! At least 21 European languages in danger of digital extinction! (Languages put into the “weak or no support” category at least once.) http://www.meta-net.eu 13
  14. 14. White Paper Press Campaign q  Headline of press release: At Least 21 European Languages in Danger of Digital Extinction. Good News and Bad News on the European Day of Languages. q  Sent out to journalists, politicians and other stakeholder groups before the European Day of Languages (September 26). q  Overwhelmed by the huge interest in the topic and our key findings! q  520+ mentions in the online and traditional press. q  40+ interviews with META-NET representatives (television, radio). q  News came in from 41 countries in 35 different languages. http://www.meta-net.eu 14
  15. 15. Coverage by Country Basque Country, Austria, 0.20% 0.40% Costa Rica, 0.20% Finland, 0.70% Portugal, 0.40% Canada, 0.20% Brazil, 0.40% Sweden, 0.70% New Zealand, 0.20% Mexico, Slovakia, 0.40% 0.40% Norway, 0.40% Belgium, 0.90% UK, 1.10% Ireland, 1.30% Lithuania, 1.30% Bulgaria Bosnia and Herzegovina, Cyprus, 0.20% 0.20% International Australia, 0.20% Latvia Poland, 0.70% Denmark, Latin America, 1.30% 1.30% USA, 1.50% Malta, 2% Iceland, 2.20% Spain Hungary, 0.20% Netherlands Greece Romania Spain, 15.90% Serbia Slovenia, 2.40% Italy France, 2.60% Bulgaria, 10.80% Germany Estonia, 2.90% Russia Estonia Russia, 3.50% International, 7.90% Germany, 3.50% Italy, 4.20% Slovenia Latvia, 5.30% Serbia, 4.40% Iceland Malta Netherlands, 4.80% Romania, 4.40% France Greece, 4.60% USA Denmark Latin America Lithuania http://www.meta-net.eu 15
  16. 16. Response: Examples q  q  q  q  q  q  q  q  q  q  q  q  q  q  Austria: Denmark: Finland: Germany: Greece: Iceland: Italy: Lithuania: Norway: Slovenia: Serbia: Spain: UK: USA: http://www.meta-net.eu Der Standard. Politiken, Berlingske Tidende. Tiede. Heise Newsticker, Süddeutsche Zeitung. in.gr, Πρώτο Θέµα, Prosilipsis. Fréttablaðið, Morgunblaðið. Wired. Delfi, Elektronika, KaunoDiena. Computerworld. Delo, Dnevnik, Demokracija. Politika. El Mundo. Huffington Post. Mashable, NBC News, Reddit. 16
  17. 17. Press Campaign: Examples 38 Πέµπτη 27 Σεπτεµβρίου 2012 ΕΛΕΥΘΕΡΟΣ ΤΥΠΟΣ Life Date 30 September 2012 Page 16 Γιώργος Μπαµπινιώτης. GREEKLISH Η γλώσσα της αποξένωσης… ΠΟΛΛΕΣ ΕΥΡΩΠΑΪΚΕΣ ΓΛΩΣΣΕΣ ΘΕΩΡΟΥΝΤΑΙ ΤΕΧΝΟΛΟΓΙΚΑ… ΞΕΠΕΡΑΣΜΕΝΕΣ Με ψηφιακή εξαφάνιση κινδυνεύουν τα ελληνικά Σ την ψηφιακή εποχή δεν… µιλούν ελληνικά, όπως και αρκετές άλλες ευρωπαϊκές γλώσσες, σύµφωνα µε πανευρωπαϊκή έκθεση µε την υπογραφή 200 και πλέον ειδικών. Η συγκεκριµένη µελέτη δηµοσιεύτηκε από το επιστηµονικό δίκτυο ΜΕΤΑ-ΝΕΤ µε αφορµή τη χτεσινή Ευρωπαϊκή Ηµέρα Γλωσσών. Για τις ανάγκες της έρευνάς τους, γλωσσολόγοι από 34 χώρες της Γηραιάς Ηπείρου βαθµολόγησαν τις διαθέσιµες γλωσσικές υπηρεσίες και δηµιούργησαν ένα «Λευκό Βιβλίο» για κάθε ευρωπαϊκή γλώσσα. Στη µελέτη τους, οι ειδικοί αναζήτησαν µεταξύ άλλων τέσσερα βασικά ηλεκτρονικά εργαλεία, δηλαδή την ύπαρξη αυτόµατης µετάφρασης, τη δυνατότητα φωνητικής αλληλεπίδρασης και ψηφιακής ανάλυσης κειµένου, ενώ ταυτόχρονα διερευνήθηκε και η διαθεσιµότητα γλωσσικών πόρων ή πηγών. Σε πρώτη φάση εξέτασαν τις ιστοσελίδες που επιτρέπουν στους χρήστες να κάνουν µεταφράσεις online, όπως, για παράδειγµα, η υπηρεσία του κολοσσού πληροφορικής Google Translate. Την ίδια ώρα, εξετάστηκε και η «επικοινωνία» των ελληνόφωνων χρηστών µε τις…συσκευές τους, όπως για παράδειγµα η δυνατότητα ΕΛΕΝΗ ΒΕΡΓΟΥ evergou@e-typos.com να «µιλήσει» κάποιος στο GPS στη µητρική του γλώσσα. Οι ερευνητές κατέληξαν στο συµπέρασµα ότι υπάρχουν τέτοιες συσκευές, αλλά δεν είναι τόσο διαδεδοµένες όσο οι αγγλόφωνες. Το «χρυσό» µετάλλιο κατακτά, όπως είναι άλλωστε και λογικό, η αγγλική γλώσσα. Οι αγγλόφωνοι χρήστες έχουν την καλύτερη δυνατή τεχνολογική υποστήριξη, κάτι το οποίο ευνοεί την περαιτέρω εξάπλωση της γλώσσας. Από «τεχνολογικό αποκλεισµό» κινδυνεύουν περισσότερο η ισλανδική, η λετονική, η λιθουανική και η µαλτέζικη γλώσσα, ενώ σε λίγο καλύτερη µοίρα βρίσκονται η ελληνική, η βουλγαρική, η ουγγρική και η πολωνική, που όπως αναφέρει η έρευνα έχουν «αποσπασµατική» τεχνολογική υποστήριξη. «Μέτρια» χαρακτηρίζεται η υποστήριξη χρηστών σε ολλανδική, γαλλική, γερµανική, ιταλική και ισπανική γλώσσα. Οι επικεφαλής της επιστηµονικής οµάδας, Χανς Ουζκοράιτ και Γκεόργκ Ρεµ, αναφέρουν χαρακτηριστικά: «Υπάρχουν δραµατικές διαφορές στην υποστήριξη της γλωσσικής τεχνολογίας ανάµεσα στις διάφορες ευρωπαϊκές γλώσσες. Το χάσµα µεταξύ “µικρών” και “µεγάλων” γλωσσών ολοένα και διευρύνεται. Πρέπει να εξασφαλίσουµε τον εφοδιασµό των µικρότερων και λιγότερο πλούσιων σε ψηφιακούς πόρους γλωσσών µε τις απαραίτητες βασικές τεχνολογίες. ∆ιαφορετικά, οι γλώσσες αυτές είναι καταδικασµένες σε ψηφιακή εξαφάνιση». Μάλιστα, οι ειδικοί τονίζουν ότι χωρίς αποφασιστική δράση οι γλώσσες αυτές δύσκολα θα… επιβιώσουν στον ψηφιακό κόσµου του 21ου αιώνα. Η κ. Μαρία Γαβριηλίδου, µέλος της επιστηµονικής οµάδας από το Ινστιτούτο Οι αγγλόφωνοι χρήστες έχουν την καλύτερη δυνατή τεχνολογική υποστήριξη, γεγονός που ευνοεί την περαιτέρω εξάπλωση της γλώσσας Επεξεργασίας του Λόγου Ερευνητικό Κέντρο Αθηνά, λέει στον «Ε.Τ.»: «Η έρευνα αυτή δεν λέει ότι δεν θα ζήσει η ελληνική γλώσσα ή ότι κινδυνεύει µε εξαφάνιση». Η ειδικός εξηγεί ότι όσο υπάρχουν άνθρωποι που µιλάνε, γράφουν και επικοινωνούν µε µια γλώσσα, τότε αυτή θα συνεχίσει να υπάρχει. Είναι σηµαντικό, όµως, να έχουν όλοι οι χρήστες τη δυνατότητα να «µιλήσουν» στις µηχανές, όπως τα GPS τους, στα ελληνικά και να έχουν στη διάθεσή τους γλωσσικά εργαλεία ηλεκτρονικών υπολογιστών. Μεταξύ αυτών των «εργαλείων» είναι οι διορθωτές ορθογραφικών και συντακτικών λαθών, που χρησιµοποιούνται καθηµερινά από εκατοντάδες Ελληνες χρήστες και βασίζονται στη γλωσσική τεχνολογία. Παρ’ όλα αυτά, τονίζει ότι η ψηφιακή εξάπλωση µιας γλώσσας είναι σηµαντική «∆εν είναι στα χέρια του µέσου χρήστη. Οι εκάστοτε κυβερνήσεις, η Ευρωπαϊκή Ενωση και ο ιδιωτικός τοµέας πρέπει να χρηµατοδοτήσουν την ανάπτυξη αυτής της τεχνολογίας για όλες τις γλώσσες», αναφέρει και συνεχίζει: «Οι χρήστες, όµως, πρέπει να απαιτούν να υπάρχουν και στη γλώσσα τους τα µέσα αυτά και να µην ικανοποιούνται µε τα αγγλικά». ΜΕ GREEKLISH επικοινωνούν πλέον µέσω µηνυµάτων ή email οι περισσότεροι νέοι της χώρας µας. Παρά το γεγονός ότι τα τελευταία χρόνια υπάρχουν τα γλωσσικά εργαλεία, τα οποία επιτρέπουν τη χρήση της ελληνικής γραµµατοσειράς, έφηβοι και νέοι ενήλικες φαίνεται ότι δεν έχουν «αγκαλιάσει» αυτές τις τεχνολογίες. Ο καθηγητής Γλωσσολογίας, κ. Γιώργος Μπαµπινιώτης, λέει στον «Ε.Τ.»: «Τα greeklish είναι πρόβληµα για την ελληνική γλώσσα, ιδίως για ανθρώπους νέας ηλικίας για έναν καθαρά γλωσσικό λόγο. Με τη χρήση των greeklish αποξενώνονται από τη µορφή της λέξης ή όπως λέµε το ετυµολογικό ίνδαλµα που δηλώνεται µε την ορθογραφία της λέξης και συνδέεται και µε τη σηµασία της λέξης και µε την προέλευσή της». Ο κίνδυνος, µε τον οποίο έρχονται αντιµέτωποι οι νέοι άνθρωποι, είναι η αποξένωση από τη γραπτή µορφή της γλώσσας. Αυτή η «οικειότητα», όµως, βοηθάει και στην κατανόηση της σηµασίας αλλά και την προέλευση της λέξης. «Αυτή η αποξένωση δεν είναι άνευ σηµασίας», αναφέρει ο ειδικός, ο οποίος εξηγεί ότι η διαδικασία της γραφής βοηθάει να εντυπωθεί η λέξη και να συνδεθεί µε άλλες οµόρριζες λέξεις. «Οταν χρησιµοποιείται αυτή η µορφή επικοινωνίας, καταστρέφονται, ατονούν. ∆εν είναι προς θάνατο, αλλά θα κάνει ζηµιά», αναφέρει ο κ. Μπαµπινιώτης, ο οποίος συµβουλεύει τους χρήστες να επιλέγουν την ελληνική γραµµατοσειρά. Copyright material. This may only be copied under the terms of a Newspaper Licensing Agency agreement (www.nla.co.uk) or with written publisher permission. For external republishing rights see www.nla-republishing.com http://www.meta-net.eu 17
  18. 18. Website: Visitors Overview began sending out press release European Day of Languages unusually high traffic http://www.meta-net.eu 18
  19. 19. Website: Visitors’ Cities http://www.meta-net.eu 19
  20. 20. META-VISION Strategic Research Agenda http://www.meta-net.eu 20
  21. 21. Three Ingredients Appropriate Actors Appropriate Programme Research & Commercialisation Vision & Agenda Appropriate Support Funding http://www.meta-net.eu 21
  22. 22. Strategic Research Agenda q  q  q  q  META-NET Strategic Research Agenda for Multilingual Europe 2020. Addresses the problems we found when preparing the white papers. Three priority research themes and application/innovation scenarios. Can put Europe ahead of its competitors in this technology area. q  190+ contributors. q  Final version to be ready in Nov. 2012. q  SRA will be presented to the EC and national bodies. http://www.meta-net.eu 22
  23. 23. Strategic Research Agenda http://www.meta-net.eu 23
  24. 24. Priority Themes: 3 + 2 q  Three Priority Research Themes: §  Translation Cloud §  Social Intelligence and e-Participation §  Socially-Aware Interactive Assistant q  Two additional themes: §  European Language Technology Platform §  Core Technologies for Language Analysis and Production http://www.meta-net.eu 24
  25. 25. Gartner Hype Cycle 2012 13 of the 48 emerging technologies are language technologies!
  26. 26. META-NET Conclusions http://www.meta-net.eu 26
  27. 27. Conclusions q  q  q  Our white paper press campaign shows that Europe is extremely interested in and passionate about its languages. Two Parliamentary Questions in the European Parliament on the “digital extinction of languages” topic. Now is the time to move forward with a continent-wide, systematic push and to invest in strategic research. q  A modest investment is required. q  This push will generate a countless number of opportunities. q  Horizon 2020 and Connecting Europe Facility can provide sufficient resources to make our visions for Europe’s citizens and economy a reality. http://www.meta-net.eu 27
  28. 28. Q/A Maturity Database Technology Network Technology Web Technology Language Technology Language Technology Labai ačiū! 2013 2020 Thank you very much! office@meta-net.eu http://www.meta-net.eu http://www.facebook.com/META.Alliance 28

×