SlideShare a Scribd company logo
1 of 60
Download to read offline
Towards Technologies for
All European Languages
Georg Rehm
Network Manager META-NET
DFKI, Berlin, Germany
georg.rehm@dfki.de

Using the Potential of Technology to Promote CRSS Language Usage
Cardiff, Wales, UK – January 23, 2014

Co-funded by the 7th Framework Programme and the ICT Policy Support Programme of the European Commission through
the contracts T4ME, CESAR, METANET4U, META-NORD (grant agreements no. 249119, 271022, 270893, 270899).
Outline
q 

Introduction

q 

Language White Paper Series: Europe’s Languages in the Digital Age

q 

The META-NET Strategic Research Agenda for Multilingual Europe

q 

Recent Developments

q 

Conclusions and Recommendations

http://www.meta-net.eu

2
Multilingual Europe
q 

q 

q 

q 

Where were we back in 2010?
Challenge: Providing each language community with the most
advanced technologies for communication and information so that
maintaining their mother tongue does not turn into a disadvantage.
While research has made considerable progress in recent years, the
pace of progress is not fast enough to meet the challenge within the
next 10-20 years.
All stakeholders – researchers, LT user and provider industries,
language communities, funding programmes, policy makers –
should team up in a strategic alliance for a major dedicated
push.

http://www.meta-net.eu

3
q 

Network of excellence dedicated to fostering the technological
foundations of the European multilingual information society.
Initial project: T4ME (FP7). Three ICT-PSP consortia since
Feb. 2011: CESAR, METANET4U, META-NORD

q 

First funded phase (i.e., the four projects) ended on Jan. 31, 2013.

q 

All EU member states and several non-member states covered.

q 

META-NET: 60 research centres in 34 European countries.

http://www.meta-net.eu/members

q 
Objectives

http://www.meta-net.eu

5
Europe’s Languages in the Digital Age

Language White Paper Series

http://www.meta-net.eu

6
Language White Paper Series
q 

q 

q 

“Europe’s Languages
in the Digital Age”
Series covers 31 languages
in 31 volumes.
Reports on the state of our
languages in the digital age
and the level of support
through language technology.

q 

>2 years in the making.

q 

>215 experts as contributors.

q 

>8.000 copies distributed to
politicians and journalists.

http://www.meta-net.eu

7
q 
q 
q 
q 
q 
q 
q 
q 
q 
q 
q 
q 

Basque
Bulgarian*
Catalan
Croatian*
Czech*
Danish*
Dutch*
English*
Estonian*
Finnish*
French*
Galician

q 
q 
q 
q 
q 
q 
q 
q 
q 
q 
q 
q 

German*
Greek*
Hungarian*
Icelandic
Irish*
Italian*
Latvian*
Lithuanian*
Maltese*
Norwegian
Polish*
Portuguese*

q 
q 
q 
q 
q 
q 
q 

Romanian*
Serbian
Slovak*
Slovene*
Spanish*
Swedish*
Welsh

* Official EU language
Cross-Lingual Comparison
q 

q 

In four areas – 1. Machine Translation, 2. Text Analytics,
3. Speech Processing, 4. Language Resources – each language
is ranked: from excellent LT support to weak/no support.
Cross-lingual comparison discussed and finalised at a network
meeting with representatives of all languages (Oct., 2011).

http://www.meta-net.eu

9
Text Analytics

MT

excellent

moderate

fragmentary

weak or no support through LT
Basque, Bulgarian, Croatian,
Czech, Danish, Estonian, Finnish,
Galician, Greek, Icelandic, Irish,
Latvian, Lithuanian, Maltese,
Norwegian, Portuguese, Serbian,
Slovak, Slovene, Swedish, Welsh

English

Speech

good

moderate

fragmentary

weak or no support through LT

Dutch, French,
German, Italian,
Spanish

Basque, Bulgarian, Catalan,
Czech, Danish, Finnish,
Galician, Greek, Hungarian,
Norwegian, Polish,
Portuguese, Romanian, Slovak,
Slovene, Swedish

Croatian, Estonian, Icelandic,
Irish, Latvian, Lithuanian,
Maltese, Serbian, Welsh

good

moderate

fragmentary

weak or no support through LT

English

excellent

French, Spanish

Catalan, Dutch, German,
Hungarian, Italian, Polish,
Romanian

English

excellent

excellent

Resources

good

Czech, Dutch,
Finnish, French,
German, Italian,
Portuguese,
Spanish

Basque, Bulgarian, Catalan,
Danish, Estonian, Galician,
Greek, Hungarian, Irish,
Norwegian, Polish, Serbian,
Slovak, Slovene, Swedish

Croatian, Icelandic, Latvian,
Lithuanian, Maltese, Romanian,
Welsh

good

moderate

fragmentary

weak or no support through LT

English

Czech, Dutch,
French, German,
Hungarian,
Italian, Polish,
Spanish, Swedish

Basque, Bulgarian, Catalan,
Croatian, Danish, Estonian,
Finnish, Galician, Greek,
Norwegian, Portuguese,
Romanian, Serbian, Slovak,
Slovene

Icelandic, Irish, Latvian,
Lithuanian, Maltese, Welsh
Key Observations and Results
q 

q 

q 

q 

When it comes to technology
support, there are massive
differences between Europe’s
languages and technology areas.
Support for English is ahead of
any other language.
But: even support for English is
far from being perfect.
Several languages get the weakest
score in all four areas (e.g., Icelandic, Latvian, Lithuanian, Maltese)!

http://www.meta-net.eu

11
Ord. Forskere arbejder på at forbedre danske oversættelser på internettet.

Date 30 September 2012
Page 16

Dårlig sprogteknologi truer dansk på nettet

Digital Language Extinction!

Af Jens Ejsing

// ejs@berlingske.dk

Det danske sprog har det svært i den digitale
verden.
Det konstaterer danske sprogforskere- og
eksperter i forbindelse med den nye internationale undersøgelse META-NET, der ser
nærmere på, hvordan en lang række mindre,
europæiske sprog som dansk klarer sig i den
digitale verden.
Forskerne fra bl.a. Københavns Universitet
og Dansk Sprognævn når frem til, at dansk
i fremtiden kan få det endnu sværere i den
digitale verden, fordi Google Translate, GPSer,
applikationer til smartphones og andre sprogteknologiske programmer ikke i tilstrækkelig
grad formår at behandle de mange nuancer i
det danske sprog.
Professor i sprogteknologi på Københavns
Universitet, Bolette Sandford Pedersen,
mener, at der er brug for en slags digital dansk
sprogbank fyldt med data, så bl.a. oversættelser bliver så præcise og gode som muligt. Med

q 

q 

38

q 

hjælp fra sprogbanken kan forskere ifølge
professoren hjælpe virksomheder med at forbedre programmer, der skal håndtere sproglig
viden om bl.a. maskinoversættelse, talegenkendelse og informationssøgning.
Dermed vil der blive længere mellem fejlagtige oversættelser, som når »hæld olie på panden« med Google Translate bliver til »pour oil
on the forehead« på engelsk. Oversættelser,
der er i værste fald er så upræcise, at danskere
ender med at fravælge deres eget sprog i den
digitale verden.

Sproghjælp til virksomheder
Hun anerkender dog, at »teknologien til automatiske oversættelser på mange måder er
fantastisk«.
»Den er bare ikke god nok, når det gælder
dansk,« siger hun:
»Det er som om, at vi i et vist omfang lægger
det i hænderne på Google eller andre virksomheder at afgøre, om dansk skal behandles
godt nok eller ej. Men det danske marked
er ikke stort for dem. Spørgsmålet er derfor,

q 

Sprog i Europa
H Der er omkring 80 sprog i EU. For 21 af
dem – også dansk – gælder det, at der er
store sprogteknologiske mangler, når det
gælder bl.a. maskinoversættelse, talegenkendelse og informationssøgning.
H Ifølge en EU-undersøgelse køber et
stigende antal europæiske internetbrugere
varer eller tjenester på nettet, hvor det sprog,
der bliver anvendt, ikke er deres eget. Det
gælder over halvdelen af brugerne.

“At Least 21 European Languages in Danger of Digital Extinction!”
H Over hver tredje anvender et fremmedsprog til at skrive mail eller indlæg på nettet.

Press release sent out to journalists, politicians and other stakeholder
groups on the European Day of Languages (Sept. 26, 2012).
Overwhelmed by the huge interest in the topic and our key findings!
Πέµπτη 27 Σεπτεµβρίου 2012 ΕΛΕΥΘΕΡΟΣ ΤΥΠΟΣ

Life
q 

fakta H

om vi ikke i højere grad selv skal gøre noget
for at sikre, at det fornødne datamateriale er
til rådighed, så vi får gode oversættelser og
anden god sprogteknologi. Det kunne f.eks.
være ved, at vi gjorde en indsats for at få oprettet en sprogbank med en masse beriget materiale om dansk.«
»Hvis vi hele tiden oplever, at oversættelser er behæftede med fejl, tør vi ikke stole på
dem,« siger hun og understreger, at »fejlagtige
oversættelser kan føre til store misforståelser«.
Ifølge Dansk Sprognævns direktør, Sabine
Kirchmeier-Andersen, kan dårlig sprogteknologi have konsekvenser for mange danskere,
der ikke er så gode til engelsk.
»Hvis vi har ambitioner om at bruge det
danske sprog i fremtidens teknologiske
univers, skal der gøres en indsats nu for at
fastholde ekspertise og udbygge den viden, vi
har,« mener hun:
»Ellers risikerer vi, at kun folk, der taler flydende engelsk, vil få glæde af de nye generationer af web-, tele- og robotteknologi, der er på
vej.« B

049-ΚΟΣΜΟΣ 29/09/2012 1:41 ? Μ Page 49

600+ mentions in the press.

Copyright material. This may only be copied under the terms of a Newspaper Licensing Agency
agreement (www.nla.co.uk) or with written publisher permission.
For external republishing rights see www.nla-republishing.com

49

KYPIAKH 30 ΣΕΠΤΕΜΒΡΙΟΥ 2012

Οι περισσότερες ευρωπαϊκές γλώσσες
κινδυνεύουν µε ψηφιακή εξαφάνιση

Τη γλώσσα
20+ television reports and 30+ broadcast interviews µού... έχασανtv) with
(radio,
META-NET representatives.
Η
Γιώργος
Μπαµπινιώτης.

GREEKLISH

Η γλώσσα της
αποξένωσης…

ΜΕ GREEKLISH επικοινωνούν πλέον µέσω µηνυµάτων ή email οι περισσότεροι
νέοι της χώρας µας. Παρά
το γεγονός ότι τα τελευταία χρόνια υπάρχουν τα
γλωσσικά εργαλεία, τα
οποία επιτρέπουν τη χρήση
της ελληνικής γραµµατοσειράς, έφηβοι και νέοι
ενήλικες φαίνεται ότι δεν
έχουν «αγκαλιάσει» αυτές
τις τεχνολογίες. Ο καθηγητής Γλωσσολογίας, κ.
Γιώργος Μπαµπινιώτης, λέει
στον «Ε.Τ.»: «Τα greeklish
είναι πρόβληµα για την
ελληνική γλώσσα, ιδίως για
ανθρώπους νέας ηλικίας
για έναν καθαρά γλωσσικό
λόγο. Με τη χρήση των
greeklish αποξενώνονται
από τη µορφή της λέξης ή
όπως λέµε το ετυµολογικό
ίνδαλµα που δηλώνεται µε
την ορθογραφία της λέξης
και συνδέεται και µε τη σηµασία της λέξης και µε την
προέλευσή της». Ο κίνδυνος,
µε τον οποίο έρχονται αντιµέτωποι οι νέοι άνθρωποι,
είναι η αποξένωση από τη
γραπτή µορφή της γλώσσας. Αυτή η «οικειότητα»,
όµως, βοηθάει και στην
κατανόηση της σηµασίας
αλλά και την προέλευση της
λέξης. «Αυτή η αποξένωση
δεν είναι άνευ σηµασίας»,
αναφέρει ο ειδικός, ο οποίος
εξηγεί ότι η διαδικασία της
γραφής βοηθάει να εντυπωθεί η λέξη και να συνδεθεί
µε άλλες οµόρριζες λέξεις.
«Οταν χρησιµοποιείται αυτή
η µορφή επικοινωνίας, καταστρέφονται, ατονούν. ∆εν
είναι προς θάνατο, αλλά θα
κάνει ζηµιά», αναφέρει ο
κ. Μπαµπινιώτης, ο οποίος
συµβουλεύει τους χρήστες
να επιλέγουν την ελληνική
γραµµατοσειρά.

Πρέπει να εξασφαλιστεί ο εφοδιασµός των µικρότερων και λιγότερο πλούσιων
-σε ψηφιακούς πόρους- γλωσσών µε τις απαραίτητες βασικές τεχνολογίες

26η Σεπτεµβρίου έχει καθιερωθεί από το Συµβούλιο της
Ευρώπης ως η Ευρωπαϊκή
Ηµέρα των Γλωσσών, αλλά,
σύµφωνα µε µια νέα ευρωπαϊκή επιστηµονική έκθεση, οι 21 από τις 30
γλώσσες της Ευρώπης -µεταξύ των οποίων και η Ελληνική- αντιµετωπίζουν κίνδυνο ψηφιακής εξαφάνισης.
Η έρευνα κρούει τον κώδωνα κινδύνου, καθώς διαπίστωσε ότι η ψηφιακή
βοήθεια για τις περισσότερες ευρωπαϊκές
γλώσσες είναι ελλιπής ή απολύτως ανύπαρκτη για τους χρήστες.

Ακολουθούν µε ικανοποιητική ή µέτρια τεχνολογική/ψηφιακή υποστήριξη
η Ολλανδική, η Γαλλική, η Γερµανική,
η Ιταλική και η Ισπανική. Η Ελληνική,
όπως επίσης η Βασκική, η Καταλανική,
η Πολωνική, η Ουγγρική κ.ά. κατατάσσονται στις γλώσσες µε «αποσπασµατική» µόνο υποστήριξη, γι’ αυτό
ακριβώς θεωρούνται γλώσσες υψηλού
κινδύνου προς εξαφάνιση.

News came in
Με ψηφιακή εξαφάνισηfrom 40+ countries in 35+ different languages.
ΠΟΛΛΕΣ ΕΥΡΩΠΑΪΚΕΣ ΓΛΩΣΣΕΣ ΘΕΩΡΟΥΝΤΑΙ ΤΕΧΝΟΛΟΓΙΚΑ… ΞΕΠΕΡΑΣΜΕΝΕΣ

q 

Τις έφαγαν οι κοινές

Η έκθεση, µε τη µορφή µιας σειράς
Λευκών Βίβλων (µε τίτλο «Γλώσσες στην
Ευρωπαϊκή Κοινωνία της Πληροφορίας»),
από το επιστηµονικό δίκτυο ΜΕΤΑΝΕΤ, το οποίο συνενώνει 60 ερευνητικά
κέντρα σε 34 χώρες, επισηµαίνει ότι οι
γλώσσες που µιλιούνται από σχετικά
µικρό αριθµό ανθρώπων κινδυνεύουν,
επειδή δεν έχουν τεχνολογική υποστήριξη όπως έχουν οι ευρέως χρησιµοποιούµενες γλώσσες. Λευκές Βίβλοι
έχουν καταρτιστεί για τις εξής ευρωπαϊκές γλώσσες: αγγλικά, βασκικά,
βουλγαρικά, γαλικιανά, γαλλικά, γερµανικά, δανικά, ελληνικά, εσθονικά,
ιρλανδικά, ισλανδικά, ισπανικά, ιταλικά,
καταλανικά, κροατικά, λετονικά, λιθουανικά, µαλτέζικα, νορβηγικά (µπουκµόλ και νινόρσκ), ολλανδικά, ουγγρικά,
πολωνικά, πορτογαλικά, ρουµανικά,
σερβικά, σλοβακικά, σλοβενικά, σουηδικά, τσεχικά και φινλανδικά. Κάθε
Λευκή Βίβλος είναι γραµµένη στη γλώσσα στην οποία αναφέρεται και είναι
µεταφρασµένη στα αγγλικά.

Δραµατικές διαφορές

Σύµφωνα µε τους επιµελητές της µελέτης Χανς Ουζκοράιτ και Γκέοργκ Ρεµ,
«υπάρχουν δραµατικές διαφορές στην
υποστήριξη της γλωσσικής τεχνολογίας
ανάµεσα στις διάφορες ευρωπαϊκές
γλώσσες και τεχνολογικές περιοχές. Το
χάσµα µεταξύ ‘µικρών’ και ‘µεγάλων’
γλωσσών ολοένα και διευρύνεται. Πρέπει
να εξασφαλίσουµε τον εφοδιασµό των
µικρότερων και λιγότερο πλούσιων -σε
ψηφιακούς πόρους- γλωσσών µε τις
απαραίτητες βασικές τεχνολογίες, αλλιώς
οι γλώσσες αυτές είναι καταδικασµένες
σε ψηφιακή εξαφάνιση».
Ως ελπίδα αυτών των γλωσσών θεωρείται η βελτίωση και η ευρύτερη αξιοποίηση του λογισµικού γλωσσικής τεχνολογίας, το οποίο επιτρέπει τη φωνητική και τη γραπτή επεξεργασία των
διαφόρων γλωσσών.
Παραδείγµατα αυτών των δυνατοτήτων είναι οι ηλεκτρονικοί ορθογραφικοί
και συντακτικοί διορθωτές κειµένων,
οι διαδραστικοί προσωπικοί «βοηθοί»
των έξυπνων κινητών τηλεφώνων (π.χ.
η Siri στο iPhone), τα συστήµατα αυτόµατης µετάφρασης, τα ηλεκτρονικά
συστήµατα διαλόγου των τηλεφωνικών
κέντρων, οι µηχανές αναζήτησης, η
συνθετική φωνή στα συστήµατα πλοήγησης των αυτοκινήτων. κ.ά.

κινδυνεύουν τα ελληνικά
Σ q  Two Parliamentary Questions in the EP on the “digital extinction of
την ψηφιακή εποχή δεν…
µιλούν ελληνικά, όπως και
αρκετές άλλες ευρωπαϊκές
γλώσσες, σύµφωνα µε πανευρωπαϊκή έκθεση µε την υπογραφή 200 και
πλέον ειδικών. Η συγκεκριµένη µελέτη δηµοσιεύτηκε από το επιστηµονικό
δίκτυο ΜΕΤΑ-ΝΕΤ µε αφορµή τη χτεσινή Ευρωπαϊκή Ηµέρα Γλωσσών.
Για τις ανάγκες της έρευνάς τους,
γλωσσολόγοι από 34 χώρες της Γηραιάς Ηπείρου βαθµολόγησαν τις
διαθέσιµες γλωσσικές υπηρεσίες
και δηµιούργησαν ένα «Λευκό Βιβλίο» για κάθε ευρωπαϊκή γλώσσα.
Στη µελέτη τους, οι ειδικοί αναζήτησαν µεταξύ άλλων τέσσερα βασικά
ηλεκτρονικά εργαλεία, δηλαδή την
ύπαρξη αυτόµατης µετάφρασης,
τη δυνατότητα φωνητικής αλληλεπίδρασης και ψηφιακής ανάλυσης
κειµένου, ενώ ταυτόχρονα διερευνήθηκε και η διαθεσιµότητα γλωσσικών
πόρων ή πηγών.
Σε πρώτη φάση εξέτασαν τις ιστοσελίδες που επιτρέπουν στους χρήστες να κάνουν µεταφράσεις online,
όπως, για παράδειγµα, η υπηρεσία
του κολοσσού πληροφορικής Google
Translate. Την ίδια ώρα, εξετάστηκε
και η «επικοινωνία» των ελληνόφωνων χρηστών µε τις…συσκευές τους,
όπως για παράδειγµα η δυνατότητα

ΕΛΕΝΗ ΒΕΡΓΟΥ
evergou@e-typos.com

τεχνολογίας ανάµεσα στις διάφορες
ευρωπαϊκές γλώσσες. Το χάσµα µεταξύ “µικρών” και “µεγάλων” γλωσσών
ολοένα και διευρύνεται. Πρέπει να
εξασφαλίσουµε τον εφοδιασµό των
µικρότερων και λιγότερο πλούσιων
σε ψηφιακούς πόρους γλωσσών µε
τις απαραίτητες βασικές τεχνολογίες. ∆ιαφορετικά, οι γλώσσες αυτές
είναι καταδικασµένες σε ψηφιακή
εξαφάνιση».
Μάλιστα, οι ειδικοί τονίζουν ότι χωρίς αποφασιστική δράση οι γλώσσες
αυτές δύσκολα θα… επιβιώσουν στον
ψηφιακό κόσµου του 21ου αιώνα. Η
κ. Μαρία Γαβριηλίδου, µέλος της επιστηµονικής οµάδας από το Ινστιτούτο

Επεξεργασίας του Λόγου Ερευνητικό
Κέντρο Αθηνά, λέει στον «Ε.Τ.»: «Η
έρευνα αυτή δεν λέει ότι δεν θα ζήσει
η ελληνική γλώσσα ή ότι κινδυνεύει
µε εξαφάνιση». Η ειδικός εξηγεί ότι
όσο υπάρχουν άνθρωποι που µιλάνε, γράφουν και επικοινωνούν µε µια
γλώσσα, τότε αυτή θα συνεχίσει να
υπάρχει. Είναι σηµαντικό, όµως, να
έχουν όλοι οι χρήστες τη δυνατότητα
να «µιλήσουν» στις µηχανές, όπως τα
GPS τους, στα ελληνικά και να έχουν
στη διάθεσή τους γλωσσικά εργαλεία
ηλεκτρονικών υπολογιστών.
Μεταξύ αυτών των «εργαλείων»
είναι οι διορθωτές ορθογραφικών και
συντακτικών λαθών, που χρησιµοποιούνται καθηµερινά από εκατοντάδες
Ελληνες χρήστες και βασίζονται στη
γλωσσική τεχνολογία.
Παρ’ όλα αυτά, τονίζει ότι η ψηφιακή εξάπλωση µιας γλώσσας είναι
σηµαντική «∆εν είναι στα χέρια του
µέσου χρήστη. Οι εκάστοτε κυβερνήσεις, η Ευρωπαϊκή Ενωση και ο
ιδιωτικός τοµέας πρέπει να χρηµατοδοτήσουν την ανάπτυξη αυτής της
τεχνολογίας για όλες τις γλώσσες»,
αναφέρει και συνεχίζει: «Οι χρήστες,
όµως, πρέπει να απαιτούν να υπάρχουν και στη γλώσσα τους τα µέσα
αυτά και να µην ικανοποιούνται µε
τα αγγλικά». ■

languages” topic.

να «µιλήσει» κάποιος στο GPS στη
µητρική του γλώσσα. Οι ερευνητές
κατέληξαν στο συµπέρασµα ότι
υπάρχουν τέτοιες συσκευές, αλλά
δεν είναι τόσο διαδεδοµένες όσο οι
αγγλόφωνες.
Το «χρυσό» µετάλλιο κατακτά,
όπως είναι άλλωστε και λογικό, η
αγγλική γλώσσα. Οι αγγλόφωνοι χρήστες έχουν την καλύτερη δυνατή τεχνολογική υποστήριξη, κάτι το οποίο
ευνοεί την περαιτέρω εξάπλωση της
γλώσσας. Από «τεχνολογικό αποκλεισµό» κινδυνεύουν περισσότερο
η ισλανδική, η λετονική, η λιθουανική
και η µαλτέζικη γλώσσα, ενώ σε λίγο
καλύτερη µοίρα βρίσκονται η ελληνική, η βουλγαρική, η ουγγρική και
η πολωνική, που όπως αναφέρει η
έρευνα έχουν «αποσπασµατική» τεχνολογική υποστήριξη.
«Μέτρια» χαρακτηρίζεται η υποστήριξη χρηστών σε ολλανδική, γαλλική, γερµανική, ιταλική και ισπανική
γλώσσα. Οι επικεφαλής της επιστηµονικής οµάδας, Χανς Ουζκοράιτ και
Γκεόργκ Ρεµ, αναφέρουν χαρακτηριστικά: «Υπάρχουν δραµατικές διαφορές στην υποστήριξη της γλωσσικής

Οι αγγλόφωνοι
χρήστες έχουν
την καλύτερη
δυνατή τεχνολογική
υποστήριξη,
γεγονός που ευνοεί
την περαιτέρω
εξάπλωση
της γλώσσας

http://www.meta-net.eu

Τέσσερις µεγάλοι κίνδυνοι
Σύµφωνα µε τη νέα µελέτη, η Ισλανδική, η Λετονική, η Λιθουανική και
η Μαλτέζικη αντιµετωπίζουν τον µεγαλύτερο κίνδυνο εξαφάνισης σε µια
ευρωπαϊκή τεχνολογική κοινωνία, που
ολοένα περισσότερο προωθεί τη χρήση
συγκεκριµένων γλωσσών και ιδίως της
Αγγλικής. Όµως και άλλες γλώσσες,
όπως η Ελληνική, η Βουλγαρική, η Ουγγρική και η Πολωνική, επίσης κινδυνεύουν στον σύγχρονο ψηφιακό κόσµο.
Η έρευνα του ΜΕΤΑ-ΝΕΤ, στην οποία
συνέβαλαν περισσότεροι από 200 ειδικοί,
αξιολογεί τον κίνδυνο για κάθε γλώσσα
µε βάση τέσσερα βασικά κριτήρια σε
τεχνολογικό/ψηφιακό επίπεδο: την ύπαρξη αυτόµατης µετάφρασης στη συγκεκριµένη γλώσσα, τη δυνατότητα φωνητικής αλληλεπίδρασης, τη δυνατότητα
ψηφιακής ανάλυσης κειµένου και τη
διαθεσιµότητα των σχετικών ψηφιακών
γλωσσικών πόρων/πηγών.

Οι δυνατές
Η γλώσσα µε την καλύτερη βαθµολογία στα κριτήρια είναι ασφαλώς η
Αγγλική, που απολαµβάνει τη συγκριτικά
καλύτερη τεχνολογική υποστήριξη (αν
και όχι την καλύτερη δυνατή), γεγονός
που διευκολύνει την περαιτέρω εξάπλωσή της.

Το βασικό πρόβληµα
Το σηµαντικό, σύµφωνα µε την έκθεση, είναι όλες αυτές οι δυνατότητες
να προσφέρονται στους χρήστες και στη
µητρική τους γλώσσα που κινδυνεύει
µε εξαφάνιση. Χωρίς αποφασιστική δράση, γίνεται η δυσοίωνη πρόβλεψη ότι
οι γλώσσες αυτές δύσκολα θα επιβιώσουν
στον ψηφιακό κόσµο του 21ου αιώνα.
Ένα πρόβληµα είναι ότι το λογισµικό
αυτών των συστηµάτων γλωσσικής τεχνολογίας στηρίζεται σε στατιστικές µεθόδους που απαιτούν τεράστιες ποσότητες γραπτών ή φωνητικών δεδοµένων,
όµως τόσα πολλά δεδοµένα είναι δύσκολο
να αποκτηθούν για γλώσσες που οµιλούνται από σχετικά λίγους ανθρώπους.
Εξάλλου, ακόµα και για ευρέως χρησιµοποιούµενες γλώσσες όπως τα αγγλικά, η σχετική γλωσσική τεχνολογία
έχει ακόµα αδυναµίες, που είναι π.χ.
φανερές στις άκρως ανεπαρκείς και γεµάτες λάθη αυτόµατες µεταφράσεις. Η
έκθεση προτείνει ότι πρέπει να αναληφθεί
µια συντονισµένη µεγάλης κλίµακας
προσπάθεια στην Ευρώπη, προκειµένου
σταδιακά να δηµιουργηθούν ή να βελτιωθούν οι αναγκαίες τεχνολογίες και
να βοηθηθούν οι γλώσσες που είναι ψηφιακά παραγκωνισµένες.

12
Hospital.
Desuden sættes der penge af til at øge antallet af operationer og udvide ambulatoriekapaciteten på det urologiske område på Herlev,

ard Pedersen og tilføjer:
»Men så er det også vigtigt at holde fast i det
mål og ikke stille sig tilfreds med, at 80 eller 85
pct. kommer igennem til tiden.« B

INFOGRAFIK: HENRIK KIÆR / TEKST: FLEMMING STEEN PEDERSEN

KILDE: REGION HOVEDSTADEN

Ord. Forskere arbejder på at forbedre danske oversættelser på internettet.

Date 30 September 2012
Page 16

Dårlig sprogteknologi truer dansk på nettet
Af Jens Ejsing

hjælp fra sprogbanken kan forskere ifølge
professoren hjælpe virksomheder med at forbedre programmer, der skal håndtere sproglig
viden om bl.a. maskinoversættelse, talegenkendelse og informationssøgning.
Dermed vil der blive længere mellem fejlagtige oversættelser, som når »hæld olie på panden« med Google Translate bliver til »pour oil
on the forehead« på engelsk. Oversættelser,
der er i værste fald er så upræcise, at danskere
ender med at fravælge deres eget sprog i den
digitale verden.

// ejs@berlingske.dk

Det danske sprog har det svært i den digitale
verden.
Det konstaterer danske sprogforskere- og
eksperter i forbindelse med den nye internationale undersøgelse META-NET, der ser
nærmere på, hvordan en lang række mindre,
europæiske sprog som dansk klarer sig i den
digitale verden.
Forskerne fra bl.a. Københavns Universitet
og Dansk Sprognævn når frem til, at dansk
i fremtiden kan få det endnu sværere i den
digitale verden, fordi Google Translate, GPSer,
applikationer til smartphones og andre sprogteknologiske programmer ikke i tilstrækkelig
grad formår at behandle de mange nuancer i
det danske sprog.
Professor i sprogteknologi på Københavns
Universitet, Bolette Sandford Pedersen,
mener, at der er brug for en slags digital dansk
sprogbank fyldt med data, så bl.a. oversættelser bliver så præcise og gode som muligt. Med

Sproghjælp til virksomheder
Hun anerkender dog, at »teknologien til automatiske oversættelser på mange måder er
fantastisk«.
»Den er bare ikke god nok, når det gælder
dansk,« siger hun:
»Det er som om, at vi i et vist omfang lægger
det i hænderne på Google eller andre virksomheder at afgøre, om dansk skal behandles
godt nok eller ej. Men det danske marked
er ikke stort for dem. Spørgsmålet er derfor,

38

fakta H

Sprog i Europa
H Der er omkring 80 sprog i EU. For 21 af
dem – også dansk – gælder det, at der er
store sprogteknologiske mangler, når det
gælder bl.a. maskinoversættelse, talegenkendelse og informationssøgning.
H Ifølge en EU-undersøgelse køber et
stigende antal europæiske internetbrugere
varer eller tjenester på nettet, hvor det sprog,
der bliver anvendt, ikke er deres eget. Det
gælder over halvdelen af brugerne.
H Over hver tredje anvender et fremmedsprog til at skrive mail eller indlæg på nettet.

om vi ikke i højere grad selv skal gøre noget
for at sikre, at det fornødne datamateriale er
til rådighed, så vi får gode oversættelser og
anden god sprogteknologi. Det kunne f.eks.
være ved, at vi gjorde en indsats for at få oprettet en sprogbank med en masse beriget materiale om dansk.«
»Hvis vi hele tiden oplever, at oversættelser er behæftede med fejl, tør vi ikke stole på
dem,« siger hun og understreger, at »fejlagtige
oversættelser kan føre til store misforståelser«.
Ifølge Dansk Sprognævns direktør, Sabine
Kirchmeier-Andersen, kan dårlig sprogteknologi have konsekvenser for mange danskere,
der ikke er så gode til engelsk.
»Hvis vi har ambitioner om at bruge det
danske sprog i fremtidens teknologiske
univers, skal der gøres en indsats nu for at
fastholde ekspertise og udbygge den viden, vi
har,« mener hun:
»Ellers risikerer vi, at kun folk, der taler flydende engelsk, vil få glæde af de nye generationer af web-, tele- og robotteknologi, der er på
vej.« B

Πέµπτη 27 Σεπτεµβρίου 2012 ΕΛΕΥΘΕΡΟΣ ΤΥΠΟΣ

Life

Γιώργος
Μπαµπινιώτης.

GREEKLISH

Η γλώσσα της
αποξένωσης…

ΠΟΛΛΕΣ ΕΥΡΩΠΑΪΚΕΣ ΓΛΩΣΣΕΣ ΘΕΩΡΟΥΝΤΑΙ ΤΕΧΝΟΛΟΓΙΚΑ… ΞΕΠΕΡΑΣΜΕΝΕΣ

Με ψηφιακή εξαφάνιση
κινδυνεύουν τα ελληνικά
Σ
την ψηφιακή εποχή δεν…
µιλούν ελληνικά, όπως και
αρκετές άλλες ευρωπαϊκές
γλώσσες, σύµφωνα µε πανευρωπαϊκή έκθεση µε την υπογραφή 200 και
πλέον ειδικών. Η συγκεκριµένη µελέτη δηµοσιεύτηκε από το επιστηµονικό
δίκτυο ΜΕΤΑ-ΝΕΤ µε αφορµή τη χτεσινή Ευρωπαϊκή Ηµέρα Γλωσσών.
Για τις ανάγκες της έρευνάς τους,
γλωσσολόγοι από 34 χώρες της Γηραιάς Ηπείρου βαθµολόγησαν τις
διαθέσιµες γλωσσικές υπηρεσίες
και δηµιούργησαν ένα «Λευκό Βιβλίο» για κάθε ευρωπαϊκή γλώσσα.
Στη µελέτη τους, οι ειδικοί αναζήτησαν µεταξύ άλλων τέσσερα βασικά
ηλεκτρονικά εργαλεία, δηλαδή την
ύπαρξη αυτόµατης µετάφρασης,
τη δυνατότητα φωνητικής αλληλεπίδρασης και ψηφιακής ανάλυσης
κειµένου, ενώ ταυτόχρονα διερευνήθηκε και η διαθεσιµότητα γλωσσικών
πόρων ή πηγών.
Σε πρώτη φάση εξέτασαν τις ιστοσελίδες που επιτρέπουν στους χρήστες να κάνουν µεταφράσεις online,
όπως, για παράδειγµα, η υπηρεσία
του κολοσσού πληροφορικής Google
Translate. Την ίδια ώρα, εξετάστηκε
και η «επικοινωνία» των ελληνόφωνων χρηστών µε τις…συσκευές τους,
όπως για παράδειγµα η δυνατότητα

ΕΛΕΝΗ ΒΕΡΓΟΥ
evergou@e-typos.com

να «µιλήσει» κάποιος στο GPS στη
µητρική του γλώσσα. Οι ερευνητές
κατέληξαν στο συµπέρασµα ότι
υπάρχουν τέτοιες συσκευές, αλλά
δεν είναι τόσο διαδεδοµένες όσο οι
αγγλόφωνες.
Το «χρυσό» µετάλλιο κατακτά,
όπως είναι άλλωστε και λογικό, η
αγγλική γλώσσα. Οι αγγλόφωνοι χρήστες έχουν την καλύτερη δυνατή τεχνολογική υποστήριξη, κάτι το οποίο
ευνοεί την περαιτέρω εξάπλωση της
γλώσσας. Από «τεχνολογικό αποκλεισµό» κινδυνεύουν περισσότερο
η ισλανδική, η λετονική, η λιθουανική
και η µαλτέζικη γλώσσα, ενώ σε λίγο
καλύτερη µοίρα βρίσκονται η ελληνική, η βουλγαρική, η ουγγρική και
η πολωνική, που όπως αναφέρει η
έρευνα έχουν «αποσπασµατική» τεχνολογική υποστήριξη.
«Μέτρια» χαρακτηρίζεται η υποστήριξη χρηστών σε ολλανδική, γαλλική, γερµανική, ιταλική και ισπανική
γλώσσα. Οι επικεφαλής της επιστηµονικής οµάδας, Χανς Ουζκοράιτ και
Γκεόργκ Ρεµ, αναφέρουν χαρακτηριστικά: «Υπάρχουν δραµατικές διαφορές στην υποστήριξη της γλωσσικής

τεχνολογίας ανάµεσα στις διάφορες
ευρωπαϊκές γλώσσες. Το χάσµα µεταξύ “µικρών” και “µεγάλων” γλωσσών
ολοένα και διευρύνεται. Πρέπει να
εξασφαλίσουµε τον εφοδιασµό των
µικρότερων και λιγότερο πλούσιων
σε ψηφιακούς πόρους γλωσσών µε
τις απαραίτητες βασικές τεχνολογίες. ∆ιαφορετικά, οι γλώσσες αυτές
είναι καταδικασµένες σε ψηφιακή
εξαφάνιση».
Μάλιστα, οι ειδικοί τονίζουν ότι χωρίς αποφασιστική δράση οι γλώσσες
αυτές δύσκολα θα… επιβιώσουν στον
ψηφιακό κόσµου του 21ου αιώνα. Η
κ. Μαρία Γαβριηλίδου, µέλος της επιστηµονικής οµάδας από το Ινστιτούτο

Οι αγγλόφωνοι
χρήστες έχουν
την καλύτερη
δυνατή τεχνολογική
υποστήριξη,
γεγονός που ευνοεί
την περαιτέρω
εξάπλωση
της γλώσσας

Επεξεργασίας του Λόγου Ερευνητικό
Κέντρο Αθηνά, λέει στον «Ε.Τ.»: «Η
έρευνα αυτή δεν λέει ότι δεν θα ζήσει
η ελληνική γλώσσα ή ότι κινδυνεύει
µε εξαφάνιση». Η ειδικός εξηγεί ότι
όσο υπάρχουν άνθρωποι που µιλάνε, γράφουν και επικοινωνούν µε µια
γλώσσα, τότε αυτή θα συνεχίσει να
υπάρχει. Είναι σηµαντικό, όµως, να
έχουν όλοι οι χρήστες τη δυνατότητα
να «µιλήσουν» στις µηχανές, όπως τα
GPS τους, στα ελληνικά και να έχουν
στη διάθεσή τους γλωσσικά εργαλεία
ηλεκτρονικών υπολογιστών.
Μεταξύ αυτών των «εργαλείων»
είναι οι διορθωτές ορθογραφικών και
συντακτικών λαθών, που χρησιµοποιούνται καθηµερινά από εκατοντάδες
Ελληνες χρήστες και βασίζονται στη
γλωσσική τεχνολογία.
Παρ’ όλα αυτά, τονίζει ότι η ψηφιακή εξάπλωση µιας γλώσσας είναι
σηµαντική «∆εν είναι στα χέρια του
µέσου χρήστη. Οι εκάστοτε κυβερνήσεις, η Ευρωπαϊκή Ενωση και ο
ιδιωτικός τοµέας πρέπει να χρηµατοδοτήσουν την ανάπτυξη αυτής της
τεχνολογίας για όλες τις γλώσσες»,
αναφέρει και συνεχίζει: «Οι χρήστες,
όµως, πρέπει να απαιτούν να υπάρχουν και στη γλώσσα τους τα µέσα
αυτά και να µην ικανοποιούνται µε
τα αγγλικά». ■

ΜΕ GREEKLISH επικοινωνούν πλέον µέσω µηνυµάτων ή email οι περισσότεροι
νέοι της χώρας µας. Παρά
το γεγονός ότι τα τελευταία χρόνια υπάρχουν τα
γλωσσικά εργαλεία, τα
οποία επιτρέπουν τη χρήση
της ελληνικής γραµµατοσειράς, έφηβοι και νέοι
ενήλικες φαίνεται ότι δεν
έχουν «αγκαλιάσει» αυτές
τις τεχνολογίες. Ο καθηγητής Γλωσσολογίας, κ.
Γιώργος Μπαµπινιώτης, λέει
στον «Ε.Τ.»: «Τα greeklish
είναι πρόβληµα για την
ελληνική γλώσσα, ιδίως για
ανθρώπους νέας ηλικίας
για έναν καθαρά γλωσσικό
λόγο. Με τη χρήση των
greeklish αποξενώνονται
από τη µορφή της λέξης ή
όπως λέµε το ετυµολογικό
ίνδαλµα που δηλώνεται µε
την ορθογραφία της λέξης
και συνδέεται και µε τη σηµασία της λέξης και µε την
προέλευσή της». Ο κίνδυνος,
µε τον οποίο έρχονται αντιµέτωποι οι νέοι άνθρωποι,
είναι η αποξένωση από τη
γραπτή µορφή της γλώσσας. Αυτή η «οικειότητα»,
όµως, βοηθάει και στην
κατανόηση της σηµασίας
αλλά και την προέλευση της
λέξης. «Αυτή η αποξένωση
δεν είναι άνευ σηµασίας»,
αναφέρει ο ειδικός, ο οποίος
εξηγεί ότι η διαδικασία της
γραφής βοηθάει να εντυπωθεί η λέξη και να συνδεθεί
µε άλλες οµόρριζες λέξεις.
«Οταν χρησιµοποιείται αυτή
η µορφή επικοινωνίας, καταστρέφονται, ατονούν. ∆εν
είναι προς θάνατο, αλλά θα
κάνει ζηµιά», αναφέρει ο
κ. Μπαµπινιώτης, ο οποίος
συµβουλεύει τους χρήστες
να επιλέγουν την ελληνική
γραµµατοσειρά.

Copyright material. This may only be copied under the terms of a Newspaper Licensing Agency
agreement (www.nla.co.uk) or with written publisher permission.
For external republishing rights see www.nla-republishing.com

049-ΚΟΣΜΟΣ 29/09/2012 1:41 ? Μ Page 49

49

KYPIAKH 30 ΣΕΠΤΕΜΒΡΙΟΥ 2012

Οι περισσότερες ευρωπαϊκές γλώσσες
κινδυνεύουν µε ψηφιακή εξαφάνιση

Τη γλώσσα
µού... έχασαν
Πρέπει να εξασφαλιστεί ο εφοδιασµός των µικρότερων και λιγότερο πλούσιων
-σε ψηφιακούς πόρους- γλωσσών µε τις απαραίτητες βασικές τεχνολογίες

Η

26η Σεπτεµβρίου έχει καθιερωθεί από το Συµβούλιο της
Ευρώπης ως η Ευρωπαϊκή
Ηµέρα των Γλωσσών, αλλά,
σύµφωνα µε µια νέα ευρωπαϊκή επιστηµονική έκθεση, οι 21 από τις 30
γλώσσες της Ευρώπης -µεταξύ των οποίων και η Ελληνική- αντιµετωπίζουν κίνδυνο ψηφιακής εξαφάνισης.
Η έρευνα κρούει τον κώδωνα κινδύνου, καθώς διαπίστωσε ότι η ψηφιακή
βοήθεια για τις περισσότερες ευρωπαϊκές
γλώσσες είναι ελλιπής ή απολύτως ανύπαρκτη για τους χρήστες.

Τις έφαγαν οι κοινές
Η έκθεση, µε τη µορφή µιας σειράς
Λευκών Βίβλων (µε τίτλο «Γλώσσες στην
Ευρωπαϊκή Κοινωνία της Πληροφορίας»),
από το επιστηµονικό δίκτυο ΜΕΤΑΝΕΤ, το οποίο συνενώνει 60 ερευνητικά
κέντρα σε 34 χώρες, επισηµαίνει ότι οι
γλώσσες που µιλιούνται από σχετικά
µικρό αριθµό ανθρώπων κινδυνεύουν,
επειδή δεν έχουν τεχνολογική υποστήριξη όπως έχουν οι ευρέως χρησιµοποιούµενες γλώσσες. Λευκές Βίβλοι
έχουν καταρτιστεί για τις εξής ευρωπαϊκές γλώσσες: αγγλικά, βασκικά,
βουλγαρικά, γαλικιανά, γαλλικά, γερµανικά, δανικά, ελληνικά, εσθονικά,
ιρλανδικά, ισλανδικά, ισπανικά, ιταλικά,
καταλανικά, κροατικά, λετονικά, λιθουανικά, µαλτέζικα, νορβηγικά (µπουκµόλ και νινόρσκ), ολλανδικά, ουγγρικά,
πολωνικά, πορτογαλικά, ρουµανικά,
σερβικά, σλοβακικά, σλοβενικά, σουηδικά, τσεχικά και φινλανδικά. Κάθε
Λευκή Βίβλος είναι γραµµένη στη γλώσσα στην οποία αναφέρεται και είναι
µεταφρασµένη στα αγγλικά.

Τέσσερις µεγάλοι κίνδυνοι
Σύµφωνα µε τη νέα µελέτη, η Ισλανδική, η Λετονική, η Λιθουανική και
η Μαλτέζικη αντιµετωπίζουν τον µεγαλύτερο κίνδυνο εξαφάνισης σε µια
ευρωπαϊκή τεχνολογική κοινωνία, που
ολοένα περισσότερο προωθεί τη χρήση
συγκεκριµένων γλωσσών και ιδίως της
Αγγλικής. Όµως και άλλες γλώσσες,
όπως η Ελληνική, η Βουλγαρική, η Ουγγρική και η Πολωνική, επίσης κινδυνεύουν στον σύγχρονο ψηφιακό κόσµο.
Η έρευνα του ΜΕΤΑ-ΝΕΤ, στην οποία
συνέβαλαν περισσότεροι από 200 ειδικοί,
αξιολογεί τον κίνδυνο για κάθε γλώσσα
µε βάση τέσσερα βασικά κριτήρια σε
τεχνολογικό/ψηφιακό επίπεδο: την ύπαρξη αυτόµατης µετάφρασης στη συγκεκριµένη γλώσσα, τη δυνατότητα φωνητικής αλληλεπίδρασης, τη δυνατότητα
ψηφιακής ανάλυσης κειµένου και τη
διαθεσιµότητα των σχετικών ψηφιακών
γλωσσικών πόρων/πηγών.

Οι δυνατές
Η γλώσσα µε την καλύτερη βαθµολογία στα κριτήρια είναι ασφαλώς η
Αγγλική, που απολαµβάνει τη συγκριτικά
καλύτερη τεχνολογική υποστήριξη (αν
και όχι την καλύτερη δυνατή), γεγονός
που διευκολύνει την περαιτέρω εξάπλωσή της.

Ακολουθούν µε ικανοποιητική ή µέτρια τεχνολογική/ψηφιακή υποστήριξη
η Ολλανδική, η Γαλλική, η Γερµανική,
η Ιταλική και η Ισπανική. Η Ελληνική,
όπως επίσης η Βασκική, η Καταλανική,
η Πολωνική, η Ουγγρική κ.ά. κατατάσσονται στις γλώσσες µε «αποσπασµατική» µόνο υποστήριξη, γι’ αυτό
ακριβώς θεωρούνται γλώσσες υψηλού
κινδύνου προς εξαφάνιση.

Δραµατικές διαφορές
Σύµφωνα µε τους επιµελητές της µελέτης Χανς Ουζκοράιτ και Γκέοργκ Ρεµ,
«υπάρχουν δραµατικές διαφορές στην
υποστήριξη της γλωσσικής τεχνολογίας
ανάµεσα στις διάφορες ευρωπαϊκές
γλώσσες και τεχνολογικές περιοχές. Το
χάσµα µεταξύ ‘µικρών’ και ‘µεγάλων’
γλωσσών ολοένα και διευρύνεται. Πρέπει
να εξασφαλίσουµε τον εφοδιασµό των
µικρότερων και λιγότερο πλούσιων -σε
ψηφιακούς πόρους- γλωσσών µε τις
απαραίτητες βασικές τεχνολογίες, αλλιώς
οι γλώσσες αυτές είναι καταδικασµένες
σε ψηφιακή εξαφάνιση».
Ως ελπίδα αυτών των γλωσσών θεωρείται η βελτίωση και η ευρύτερη αξιοποίηση του λογισµικού γλωσσικής τεχνολογίας, το οποίο επιτρέπει τη φωνητική και τη γραπτή επεξεργασία των
διαφόρων γλωσσών.
Παραδείγµατα αυτών των δυνατοτήτων είναι οι ηλεκτρονικοί ορθογραφικοί
και συντακτικοί διορθωτές κειµένων,
οι διαδραστικοί προσωπικοί «βοηθοί»
των έξυπνων κινητών τηλεφώνων (π.χ.
η Siri στο iPhone), τα συστήµατα αυτόµατης µετάφρασης, τα ηλεκτρονικά
συστήµατα διαλόγου των τηλεφωνικών
κέντρων, οι µηχανές αναζήτησης, η
συνθετική φωνή στα συστήµατα πλοήγησης των αυτοκινήτων. κ.ά.

Το βασικό πρόβληµα
Το σηµαντικό, σύµφωνα µε την έκθεση, είναι όλες αυτές οι δυνατότητες
να προσφέρονται στους χρήστες και στη
µητρική τους γλώσσα που κινδυνεύει
µε εξαφάνιση. Χωρίς αποφασιστική δράση, γίνεται η δυσοίωνη πρόβλεψη ότι
οι γλώσσες αυτές δύσκολα θα επιβιώσουν
στον ψηφιακό κόσµο του 21ου αιώνα.
Ένα πρόβληµα είναι ότι το λογισµικό
αυτών των συστηµάτων γλωσσικής τεχνολογίας στηρίζεται σε στατιστικές µεθόδους που απαιτούν τεράστιες ποσότητες γραπτών ή φωνητικών δεδοµένων,
όµως τόσα πολλά δεδοµένα είναι δύσκολο
να αποκτηθούν για γλώσσες που οµιλούνται από σχετικά λίγους ανθρώπους.
Εξάλλου, ακόµα και για ευρέως χρησιµοποιούµενες γλώσσες όπως τα αγγλικά, η σχετική γλωσσική τεχνολογία
έχει ακόµα αδυναµίες, που είναι π.χ.
φανερές στις άκρως ανεπαρκείς και γεµάτες λάθη αυτόµατες µεταφράσεις. Η
έκθεση προτείνει ότι πρέπει να αναληφθεί
µια συντονισµένη µεγάλης κλίµακας
προσπάθεια στην Ευρώπη, προκειµένου
σταδιακά να δηµιουργηθούν ή να βελτιωθούν οι αναγκαίες τεχνολογίες και
να βοηθηθούν οι γλώσσες που είναι ψηφιακά παραγκωνισµένες.
Update of the Study (2013/2014)
q 
q 

q 

Study comprised 31 volumes/languages.
Many languages missing! Need for
extension – at least of the comparison.
We invited three language community
bodies to participate in the update:
European Federation of National
Institutions for Language (EFNIL)
Network to Promote Linguistic
Diversity (NPLD)
Experts Committee of the European
Language Charter (Council of Europe)

Submitted to LREC 2014

http://www.meta-net.eu

14
excellent

fragmentary

weak or no support

Speech
excellent

Catalan, Dutch, German,
Hungarian, Italian, Polish,
Romanian

good

moderate

fragmentary

weak or no support

Dutch, French,
German,
Hebrew,
Italian, Spanish

Basque, Bulgarian,
Catalan, Czech, Danish,
Finnish, Galician, Greek,
Hungarian, Norwegian,
Polish, Portuguese,
Romanian, Slovak,
Slovene, Swedish

Albanian, Asturian, Bosnian, Breton, Croatian, Estonian,
Frisian, Friulian, Icelandic, Irish, Latvian, Limburgish,
Lithuanian, Luxembourgish, Macedonian, Maltese, Occitan,
Romany, Scots, Serbian, Turkish, Vlax Romani, Welsh, Yiddish

good

moderate

fragmentary

weak or no support

English

excellent

French,
Spanish

Albanian, Asturian, Basque, Bosnian, Breton, Bulgarian,
Croatian, Czech, Danish, Estonian, Finnish, Frisian, Friulian,
Galician, Greek, Hebrew, Icelandic, Irish, Latvian, Limburgish,
Lithuanian, Luxembourgish, Macedonian, Maltese, Norwegian,
Occitan, Portuguese, Romany, Scots, Serbian, Slovak, Slovene,
Swedish, Turkish, Vlax Romani, Welsh, Yiddish

English

MT
Text Analytics

moderate

English

excellent

Resources

good

Czech, Dutch,
Finnish,
French,
German,
Italian,
Portuguese,
Spanish

Basque, Bulgarian,
Catalan, Danish, Estonian,
Galician, Greek,
Hungarian, Irish,
Norwegian, Polish,
Serbian, Slovak, Slovene,
Swedish, Turkish

Albanian, Asturian, Bosnian, Breton, Croatian, Frisian,
Friulian, Hebrew, Icelandic, Latvian, Limburgish, Lithuanian,
Luxembourgish, Macedonian, Maltese, Occitan, Romanian,
Romany, Scots, Vlax Romani, Welsh, Yiddish

good

moderate

fragmentary

weak/no support

English

Czech, Dutch,
French,
German,
Hungarian,
Italian, Polish,
Spanish,
Swedish

Basque, Bulgarian,
Catalan, Croatian, Danish,
Estonian, Finnish,
Galician, Greek, Hebrew,
Norwegian, Portuguese,
Romanian, Serbian,
Slovak, Slovene

Albanian, Asturian, Bosnian, Breton, Frisian, Friulian,
Icelandic, Irish, Latvian, Limburgish, Lithuanian,
Luxembourgish, Macedonian, Maltese, Occitan, Romany,
Scots, Turkish, Vlax Romani, Welsh, Yiddish
The META-NET Strategic Research Agenda for Multilingual Europe

Strategic Research Agenda

http://www.meta-net.eu

16
LT Already Surrounds Us
q 

Spell/grammar checker in MS Word

q 

Voice dialing on the cellphone

q 

Web search in Google

q 

Speech generation in game software

q 

Computer-assisted language learning

q 

Optical character recognition

q 

Semantic text classification in Autonomy

q 

Speech control in cars

q 

Voice dialogues in call centers

http://www.meta-net.eu

17
Witnessing a Breakthrough
q 

q 
q 

q 

q 
q 

q 

Microsoft presents their latest speech
translation technology
IBM Watson wins Jeopardy
Google renames its Division “Search” to
“Knowledge”
Siri improves the iPhone, Google responds by
introducing Google Now (Android)
Google Translate covers 60+ languages
All large IT corporations, EC, EP and EPO
deploy new generation translation technology
UK Text Analytics Company Autonomy bought
for 8bEUR by HP

http://www.meta-net.eu

18
Three Ingredients

Appropriate
Actors

Appropriate
Programme

Research &
Commercialisation

Vision & Agenda

Appropriate
Support
Funding

http://www.meta-net.eu

19
Strategic Research Agenda
q 

q 

q 
q 

q 

Addresses the problems we identified
when preparing the white papers.
Can put Europe ahead of its
competitors in this technology area.
200 contributors; >2 years.
54% from industry; 46% from
research; 4% from national and
international institutions.
Presented and discussed at 80+
conferences and major workshops.

q 

Published & presented in early 2013.

q 

http://www.meta-net.eu/sra

http://www.meta-net.eu

20
SRA: Contents – Brief Glimpse
q 

q 

Set the stage and describe the European situation, the needs and the LT
research and industry.
Discuss the state of IT, predictions
and mega-trends.

q 

Our technology vision for 2020.

q 

Select and specify priority themes.

q 

q 

Suggest a model for speeding up
innovation.
Outline proposals for the organisation
of research and innovation.

http://www.meta-net.eu

21
Translation Brokering

Specialized MT/LT Services

Trusted
Service
Broker

Patents

PR
Brochures

Informal
Language

Int.
Company
Names

Automatic
Summarization

http://www.meta-net.eu

Annual
Reports
Times and
Places

Human
Post-Editing

22
Ambient Translation

http://www.meta-net.eu

23
Crosslingual Virtual Meetings
q 

q 
q 
q 

Individual realtime translation of speech, slides, and handwritten
text (shared whiteboard)
Automatic minutes
Searchable recordings
Use cases:
§  Corporate
§  E-democracy
§  NGOs
§  Expert discussions
§  Fan clubs
§  Consumer fora
§  Medical self-help groups, etc.

http://www.meta-net.eu

24
Priority Research Themes
q 

Our priority themes (a) support technology progress, (b) lead to
solutions that European society needs and (c) solutions from which
European industry will benefit as users or as providers.
§  Translingual Cloud
§  Social Intelligence and e-Participation
§  Socially-Aware Interactive Assistants

q 

Two additional themes:
§  European Service Platform for
Language Technologies
§  Core Technologies for Language
Analysis and Production

http://www.meta-net.eu

25
PT1: Translingual Cloud
q 
q 

q 
q 

Europe has a big need for translations of publishable quality.
Machine Translation for many European and important other
languages.
Focus on High-Quality Translation
New research paradigms

q 

Stronger emphasis on the properties of
individual languages
Central role for semantics

q 

Methods for specific genres & domains

q 

http://www.meta-net.eu

26
Priority Research Theme 1: Translingual Cloud
Written (twitter, blog, article, newspaper,
text with/without metadata etc.) or
spoken input (spontaneous spoken
language, video/audio, multiple speakers)

Extending
translation with
semantic data and
linked open data

Modular combination
of analysis, transfer
and generation
models

From very fast but lower
quality to slower but very
high quality (including
instant quality upgrades)

Services and Technologies:
Automatic translation and
interpretation
Language checking
Post-editing
Workbenches for creative
translations
Novel translation and authoring
workflows

Quality assurance
Computer-supported human
translation
Multilingual content production and
text authoring
Trusted service centre (privacy,
confidentiality, security of source
data)

Exploiting strong
monolingual analysis
and generation methods
and resources

Multiple target
formats
Domain, task and
genre specialisation
models

Applications:
Crosslingual communication,
translation and search
Real-time subtitling, voice-over
generation and translating speech
from live events
Mobile interactive interpretation

Any
device

Target groups: European citizen, language
professional, organisations, companies, European
institutions, software applications

Multilingual content production
(media, web, technical, legal
documents)
Showcases: translingual spaces for
ambient translation

Multiple target
formats

Single access
point
PT2: Social Intelligence
q 
q 
q 
q 
q 

q 

q 
q 

Better decisions by monitoring social media
Inclusion of citizens into collective decision processes
Opinion formation, consensus building, decision making
Evolution of new solutions
New forms of democracy: e-democracy,
massive participation, transparency
Dialogues and debates across language
boundaries and across parties, political
alliances, social classes
Better than binary voting
Documented transparent
decision processes

http://www.meta-net.eu

28
Priority Research Theme 2: Social Intelligence and e-Participation
Mapping large, heterogeneous,
unstructured volumes of online
content to structured, actionable
representations

From shallow to deep,
from coarse-grained to
detailed processing
techniques

Making language
technologies interoperable
with knowledge representation and the semantic web

“Semantification” of the
web: tight integration
with the Semantic Web
and Linked Open Data

Services and Technologies:
especially social media, comments,
blogs, forums
decision-relevant information

sentiment analysis and opinion mining
including the temporal dimension)

cues
from arbitrary online content
visualising discussions and opinion
statements

support

Applications:
Make use of the
wisdom of the
crowds

and processes; modeling evolution of
opinions

collective deliberation and
e-participation
wide deliberation on pressing issues

Unleashing social intelligence by
detecting and monitoring opinions,
demands, needs and problems

-

analysis technologies

Target groups: European citizen,
European institutions, discussion
participants, companies

Improved
efficiency and
quality of decision
processes

Understanding influence
diffusion across social media
PT3: Interactive Assistants
q 

q 
q 

q 

q 
q 

q 

Conversational agents with socially-aware behaviour, combination
of analysis methods for speech, non-verbal and semantic signals.
Support people in interacting with their environments.
Human-computer, human-agent/robot,
computer-mediated human/human interaction.
Act in various environments, indoor and
outdoor, also virtual (web, games).
Understand agents’ intentions.
Need to be able to adapt to user’s
needs and environments.
Learn incrementally from all
interactions and information sources.

http://www.meta-net.eu

30
Priority Research Theme 3: Socially-Aware Interactive Assistants
ments, any
vocabulary

recovery,
selfassessment

Multilingual
capabilities

Interacting
naturally
with and in
groups

Include human-computer,
human-artificial agent and
computer-mediated humanhuman communication

Learning
and
forgetting
information

Adaptable to the
user’s needs and
preferences and
the environment

Services and Technologies:
recognition

understanding

inter-dependencies

and synthesis, providing expressive
voices

incremental conversational speech

priority themes

models of human communication

Applications:
dialogue systems

modalities (visual, tactile, haptic)

environment

Proactive,
self-aware,
user-adaptable

Interacts naturally with
humans, in any
language and modality

Can be personalised to
individual communication
abilities including special needs

verbal/non-verbal behaviour, social
context

Can learn incrementally
from all interactions and
other sources of information
Providers of operational and research technologies and services
National
Language
Institutions

Language
Service
Providers

Priority Research Theme 1:
Translingual
Cloud

Language
Processing

Language
Technology
Providers

Universities

Priority Research Theme 2:
Social Intelligence
& e-Participation

European
Institutions

Priority Research Theme 3:
Socially Aware
Interactive Assistants

European Service Platform for Language Technologies
(Cloud or Sky Computing Platform)

Language
Understanding

Text
analytics

Multilingual
technologies

Text
generation

Information and
relation extraction

Knowledge
Emotion/
Sentiment

Language
checking

Sentiment
analysis

Named entity
recognition

Other
companies (SMEs,
startups etc.)

Summarisation

Knowledge access
and management

Data protection
Tools
Data Sets
Resources
Components
Metadata
Standards
Interfaces
APIs
Catalogues
Quality Assurance
Data Import/Export
Input/Output
Storage
Performance
Availability
Scalability

Interfaces (web, speech, mobile etc.)

Beneficiaries/users of the platform
European
Institutions

Research
Centres

Public
Administrations

European
Citizens

Enterprises

LT User
Industries

Universities

Features

Research
Centres
Core Resources & Technologies

Icelandic

Icelandic

Finnish

Finnish
Norwegian
Norwegian

Estonian

Swedish

Estonian
Swedish

Lithuanian

Danish

Irish

Latvian

Polish

Latvian

Lithuanian

Danish

Irish

Slovak
English

English

Polish

Dutch
German

Dutch

Romanian

Slovak
Czech

German
Galician

Hungarian

Slovene
Croatian
Basque

Portuguese

Croatian

French

Serbian

Basque

Serbian
Catalan

Hungarian

Slovene

Romanian

French
Galician

Czech

Bulgarian

Bulgarian

Italian

Catalan
Portuguese

Spanish
Greek

Spanish

Italian
Greek

Maltese

http://www.meta-net.eu

Maltese

33
Languages to be supported
q 

q 

q 

q 

“The languages to be reflected with corresponding technologies include
not only the official languages of the EU but also recognised and
unrecognised regional languages and the languages of associated
countries or non-member states.”
“Equally important are the minority and immigrant languages that are
in active use by a significant population in Europe.”
“We need to intensify research and establish techniques, methods and
instruments for research and knowledge transfer so that all countries
can benefit as much as possible for their own language from the
research carried out in other countries for other languages.”
“Bootstrapping the set of core technologies and resources for all languages spoken in Europe is […] a challenge on the European scale […].”
Quoted from META-NET Strategic Research Agenda for Multilingual Europe 2020.
G. Rehm and H. Uszkoreit (eds.), Springer, 2013. Section 6.8, pages 66-67.

http://www.meta-net.eu

34
META-NET

Recent Developments

http://www.meta-net.eu

35
Recent Developments
q 

META-FORUM 2013 (Berlin), Sep. 19/20, 2013

q 

Meeting with Commissioner Neelie Kroes (Brussels), Oct. 29, 2013

q 

Workshop in the European Parliament (Brussels), Dec. 03, 2013

q 

Update of the Cross-Language Comparison (LREC 2014 paper)

q 

MT@EC (EC-internal MT services) to cooperate with EP

q 

Connecting Europe Facility (CEF)

q 

Horizon 2020

q 

Ongoing public interest in the “digital language extinction” topic
(radio interviews, requests for statements for articles, requests to
participate in panel discussions etc.)

http://www.meta-net.eu

36
STOA Workshop in the EP
q 
q 

Science and Technology Options Assessment (STOA), Dec. 03, 2013
“State of the Art of Machine Translation – Current Challenges and
Future Opportunities”
http://www.europarl.europa.eu/stoa/cms/home/events/workshops/translation

q 

q 

Presentations by research,
industry, EC, EP
Circa 80-90 participants

http://www.meta-net.eu

37
Horizon 2020
q 
q 
q 
q 

Work programme 2014/2015 – good news and bad news.
ICT 17 – 2014: “Cracking the language barrier”
Available budget for ICT 17: 15M€ (MT only!).
Challenge: “The digital single market is still fragmented by language
barriers that hamper a wide penetration of cross-border commerce,
social communication and exchange of cultural content. […] The aim
of this challenge is to launch interdisciplinary work leading to a new
paradigm in overcoming the language barrier and progressively, to
reach high quality for all language combinations and translation
directions. […] Special focus is on the 21 EU languages (both as
source and target languages) that have “fragmentary” or “weak/no”
MT support according to the META-NET Language White Papers.”

http://www.meta-net.eu

38
Horizon 2020
q 

ICT 17 – “Cracking the language barrier” – distribution of the 15M€:
§  One large Research and Innovation Action (4M€)
§  Circa five Innovation Actions (2M€ each)
§  One Coordination Action (1M€)

q 

§  “Regional and minority languages are not excluded but they are
not prioritized either.” (representative of the EC on ICT 17)
Additional funding for language-related projects is available in
several other challenges:
§  ICT 22: Multimodal and natural computer interaction (31M€)
§  ICT 15: Big and Open Data Innovation and Take-up (50M€)
§  ICT 16: Big Data – research (39M€)

http://www.meta-net.eu

39
Connecting Europe Facility
q 
q 

q 

q 

q 

q 

Digital Component of CEF (2014–2020): ca. 1B€.
Automated Translation as one of the five main, horizontal building
blocks (on the same level as, e.g., “Electronic identification and
authentication” and “Electronic delivery of documents”).
AT: machine translation engines and specialised language resources
including the necessary tools and APIs needed to operate the panEuropean digital services in a multilingual environment.
AT is considered to be an important and obligatory component of
Europe’s future digital infrastructure!
CEF is about deployment of existing technologies only –research is
not eligible for funding.
But: The language pairs for the AT Building Block CEF will be
demand driven. Demonstrate demand!

http://www.meta-net.eu

40
META-NET

Conclusions and
Recommendations
http://www.meta-net.eu

41
Conclusions
q 
q 

q 

q 

q 

q 
q 

Europe is extremely interested in and passionate about its languages.
Our Strategic Research Agenda for LT research and innovation can put
Europe ahead of its competitors in this technology area.
Provides useful and attractive solutions to European society, at the same
time creating huge business opportunities for European industry.
Now is the time to move forward with a continent-wide, systematic push
and to invest in strategic research. A modest investment is required.
We are very confident that we can help build applications that break
down language barriers in Europe and beyond.
This push will generate a countless number of opportunities.
Horizon 2020 and, partially, CEF can provide some resources to make
our visions for Europe’s citizens and economy a reality.

http://www.meta-net.eu

42
Conclusions
q 
q 

Situation of regional and minority languages is difficult!
Political: the EU/EC level very much concentrates on the languages
in danger of digital extinction. Nevertheless, not all of these are
official Member State languages!
Regional and minority languages are not excluded per se.

q 

Technological: for most regional and minority languages only very
few technologies exist. There are no “one size fits all”-technologies in
our toolboxes that can be immediately applied to new languages!

http://www.meta-net.eu

43
Recommendations
1. 

Build toy systems and prototypes for your languages with off-the-shelf
tools and the help of local (computational) linguists. Promote and share
them through repositories.

2.  Intensify (computational) linguistics research for regional and minority
languages. Build and share language resources.
3.  Make use of the European Commission’s Structural Funds.
4.  Intensify research and technology transfer between well equipped and
regional and minority languages. (CCURL 2014 Workshop.)
5.  Intensify collaboration among the language community bodies (NPLD,
EFNIL, Council of Europe ComEx on Language Charter, Maaya World
Network for Ling. Diversity). Be prepared to speak with one voice!
6.  Talk to innovators and app developers to somehow bring your language
to the youth through modern technologies (gamification?).
http://www.meta-net.eu

44
Diolch yn fawr iawn i chi!
Acknowledgements: This work would not have been possible
without the dedication and commitment of our colleagues
Aljoscha Burchardt, Kathrin Eichler, Tina Klüwer, Arle Lommel,
Felix Sasaki and Hans Uszkoreit (all DFKI), the 60 member
organisations of the META-NET network of excellence, the ca.
70 members of the Vision Groups, the ca. 30 members of the
META Technology Council, the more than 200 authors of and
contributors to the META-NET Language White Paper Series
and the ca. 200 representatives from industry and research who
contributed to the META-NET Strategic Research Agenda.

http://www.meta-net.eu
Vision Group

Translation and Localisation
Vision Group

Interactive Systems

2010
META-NET Website

Vision Group

Media and Information Services

2011

2012
Language White Paper Series

2013
Strategic
Research
Agenda

http://www.meta-net.eu
http://www.facebook.com/META.Alliance

Horizon 2020

Conne
Deliverin

2014-2020
Transport
Energy
Connect
META-SHARE:

An Open Resource Exchange Infrastructure
Georg Rehm
Network Manager META-NET
DFKI, Berlin, Germany
georg.rehm@dfki.de

Using the Potential of Technology to Promote CRSS Language Usage
Cardiff, Wales, UK – January 24, 2014

Co-funded by the 7th Framework Programme and the ICT Policy Support Programme of the European Commission through
the contracts T4ME, CESAR, METANET4U, META-NORD (grant agreements no. 249119, 271022, 270893, 270899).
META-SHARE at a Glance
q 
q 

q 

q 

Open exchange infrastructure for language resources and tools.
Language resources and tools are documented, uploaded, stored in
repositories, catalogued, can be downloaded, shared, discussed.
Improve their visibility, documentation, identification, availability,
preservation, interoperability.
Long-term goal: boost research, technology and innovation through
wide availability, pooling, openness and sharing of resources.

q 

Repositories store and maintain inventories of resources and tools.

q 

Metadata inventories are exported and harvested in the network.

q 

Currently 27 repositories up and running; 2.300+ LRs available.

http://www.meta-net.eu

48
http://www.meta-net.eu

49
What about Welsh?

http://www.meta-net.eu

57
What about Irish?

http://www.meta-net.eu

58
Gartner Hype Cycle 2012
13 of the 48 emerging
technologies are
language technologies!
Q/A

office@meta-net.eu
http://www.meta-net.eu
http://www.facebook.com/META.Alliance
60

More Related Content

Similar to Towards Technologies for all European Languages

Language Technology for Multilingual Europe
Language Technology for Multilingual EuropeLanguage Technology for Multilingual Europe
Language Technology for Multilingual EuropeGeorg Rehm
 
Language Technology for Multilingual Europe: Current State and Future Plans
Language Technology for Multilingual Europe: Current State and Future PlansLanguage Technology for Multilingual Europe: Current State and Future Plans
Language Technology for Multilingual Europe: Current State and Future PlansGeorg Rehm
 
The META-NET Strategic Research Agenda for Multilingual Europe
The META-NET Strategic Research Agenda for Multilingual EuropeThe META-NET Strategic Research Agenda for Multilingual Europe
The META-NET Strategic Research Agenda for Multilingual EuropeGeorg Rehm
 
eMysteries Newsletter 1
eMysteries Newsletter 1eMysteries Newsletter 1
eMysteries Newsletter 1OurMil
 
The Preparation, Impact and Future of the META-NET White Paper Series “Europe...
The Preparation, Impact and Future of the META-NET White Paper Series “Europe...The Preparation, Impact and Future of the META-NET White Paper Series “Europe...
The Preparation, Impact and Future of the META-NET White Paper Series “Europe...Georg Rehm
 
Portfolio gia paidia_9-12_etwn_0
Portfolio gia paidia_9-12_etwn_0Portfolio gia paidia_9-12_etwn_0
Portfolio gia paidia_9-12_etwn_0niparrianwn
 
Συνέντευξη του Προέδρου της HePIS, κ. Νικόλαου Φαλδαμή, στο Net Fax
Συνέντευξη του Προέδρου της HePIS, κ. Νικόλαου Φαλδαμή, στο Net FaxΣυνέντευξη του Προέδρου της HePIS, κ. Νικόλαου Φαλδαμή, στο Net Fax
Συνέντευξη του Προέδρου της HePIS, κ. Νικόλαου Φαλδαμή, στο Net FaxHellenic Professionals Informatics Society
 
η γλωσσα του διαδικτυου και οι νεοι θεωρία
η γλωσσα του διαδικτυου και οι νεοι   θεωρίαη γλωσσα του διαδικτυου και οι νεοι   θεωρία
η γλωσσα του διαδικτυου και οι νεοι θεωρίαEleni Kots
 

Similar to Towards Technologies for all European Languages (9)

Language Technology for Multilingual Europe
Language Technology for Multilingual EuropeLanguage Technology for Multilingual Europe
Language Technology for Multilingual Europe
 
Language Technology for Multilingual Europe: Current State and Future Plans
Language Technology for Multilingual Europe: Current State and Future PlansLanguage Technology for Multilingual Europe: Current State and Future Plans
Language Technology for Multilingual Europe: Current State and Future Plans
 
The META-NET Strategic Research Agenda for Multilingual Europe
The META-NET Strategic Research Agenda for Multilingual EuropeThe META-NET Strategic Research Agenda for Multilingual Europe
The META-NET Strategic Research Agenda for Multilingual Europe
 
eMysteries Newsletter 1
eMysteries Newsletter 1eMysteries Newsletter 1
eMysteries Newsletter 1
 
The Preparation, Impact and Future of the META-NET White Paper Series “Europe...
The Preparation, Impact and Future of the META-NET White Paper Series “Europe...The Preparation, Impact and Future of the META-NET White Paper Series “Europe...
The Preparation, Impact and Future of the META-NET White Paper Series “Europe...
 
Portfolio gia paidia_9-12_etwn_0
Portfolio gia paidia_9-12_etwn_0Portfolio gia paidia_9-12_etwn_0
Portfolio gia paidia_9-12_etwn_0
 
Συνέντευξη του Προέδρου της HePIS, κ. Νικόλαου Φαλδαμή, στο Net Fax
Συνέντευξη του Προέδρου της HePIS, κ. Νικόλαου Φαλδαμή, στο Net FaxΣυνέντευξη του Προέδρου της HePIS, κ. Νικόλαου Φαλδαμή, στο Net Fax
Συνέντευξη του Προέδρου της HePIS, κ. Νικόλαου Φαλδαμή, στο Net Fax
 
Strasbourg προκύρυξη pestalozzi 12
Strasbourg  προκύρυξη pestalozzi 12Strasbourg  προκύρυξη pestalozzi 12
Strasbourg προκύρυξη pestalozzi 12
 
η γλωσσα του διαδικτυου και οι νεοι θεωρία
η γλωσσα του διαδικτυου και οι νεοι   θεωρίαη γλωσσα του διαδικτυου και οι νεοι   θεωρία
η γλωσσα του διαδικτυου και οι νεοι θεωρία
 

More from Georg Rehm

QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...
QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...
QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...Georg Rehm
 
Observations on Annotations – From Computational Linguistics and the World Wi...
Observations on Annotations – From Computational Linguistics and the World Wi...Observations on Annotations – From Computational Linguistics and the World Wi...
Observations on Annotations – From Computational Linguistics and the World Wi...Georg Rehm
 
AI and Conference Interpretation – From Smart Assistants for the Human Interp...
AI and Conference Interpretation – From Smart Assistants for the Human Interp...AI and Conference Interpretation – From Smart Assistants for the Human Interp...
AI and Conference Interpretation – From Smart Assistants for the Human Interp...Georg Rehm
 
Künstliche Intelligenz beim Dolmetschen und Übersetzen
Künstliche Intelligenz beim Dolmetschen und ÜbersetzenKünstliche Intelligenz beim Dolmetschen und Übersetzen
Künstliche Intelligenz beim Dolmetschen und ÜbersetzenGeorg Rehm
 
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...Georg Rehm
 
European Language Technologies – Past, Present and Future
European Language Technologies – Past, Present and FutureEuropean Language Technologies – Past, Present and Future
European Language Technologies – Past, Present and FutureGeorg Rehm
 
Towards a Human Language Project for Multilingual Europe: AI and Interpretation
Towards a Human Language Project for Multilingual Europe: AI and InterpretationTowards a Human Language Project for Multilingual Europe: AI and Interpretation
Towards a Human Language Project for Multilingual Europe: AI and InterpretationGeorg Rehm
 
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) ÜberblickKI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) ÜberblickGeorg Rehm
 
Language Technologies for Multilingual Europe - Towards a Human Language Proj...
Language Technologies for Multilingual Europe - Towards a Human Language Proj...Language Technologies for Multilingual Europe - Towards a Human Language Proj...
Language Technologies for Multilingual Europe - Towards a Human Language Proj...Georg Rehm
 
AI for Translation Technologies and Multilingual Europe
AI for Translation Technologies and Multilingual EuropeAI for Translation Technologies and Multilingual Europe
AI for Translation Technologies and Multilingual EuropeGeorg Rehm
 
Kuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KIKuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KIGeorg Rehm
 
Artificial Intelligence for the Film Industry
Artificial Intelligence for the Film IndustryArtificial Intelligence for the Film Industry
Artificial Intelligence for the Film IndustryGeorg Rehm
 
KI für die Kundenkommunikation
KI für die KundenkommunikationKI für die Kundenkommunikation
KI für die KundenkommunikationGeorg Rehm
 
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...Georg Rehm
 
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenDigitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenGeorg Rehm
 
EPUB, quo vadis? Publishing im W3C
EPUB, quo vadis? Publishing im W3CEPUB, quo vadis? Publishing im W3C
EPUB, quo vadis? Publishing im W3CGeorg Rehm
 
Human Language Technologies in a Multilingual Europe
Human Language Technologies in a Multilingual EuropeHuman Language Technologies in a Multilingual Europe
Human Language Technologies in a Multilingual EuropeGeorg Rehm
 
Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...
Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...
Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...Georg Rehm
 
Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...
Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...
Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...Georg Rehm
 
Multilingualism for Digital Europe
Multilingualism for Digital EuropeMultilingualism for Digital Europe
Multilingualism for Digital EuropeGeorg Rehm
 

More from Georg Rehm (20)

QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...
QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...
QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...
 
Observations on Annotations – From Computational Linguistics and the World Wi...
Observations on Annotations – From Computational Linguistics and the World Wi...Observations on Annotations – From Computational Linguistics and the World Wi...
Observations on Annotations – From Computational Linguistics and the World Wi...
 
AI and Conference Interpretation – From Smart Assistants for the Human Interp...
AI and Conference Interpretation – From Smart Assistants for the Human Interp...AI and Conference Interpretation – From Smart Assistants for the Human Interp...
AI and Conference Interpretation – From Smart Assistants for the Human Interp...
 
Künstliche Intelligenz beim Dolmetschen und Übersetzen
Künstliche Intelligenz beim Dolmetschen und ÜbersetzenKünstliche Intelligenz beim Dolmetschen und Übersetzen
Künstliche Intelligenz beim Dolmetschen und Übersetzen
 
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...
 
European Language Technologies – Past, Present and Future
European Language Technologies – Past, Present and FutureEuropean Language Technologies – Past, Present and Future
European Language Technologies – Past, Present and Future
 
Towards a Human Language Project for Multilingual Europe: AI and Interpretation
Towards a Human Language Project for Multilingual Europe: AI and InterpretationTowards a Human Language Project for Multilingual Europe: AI and Interpretation
Towards a Human Language Project for Multilingual Europe: AI and Interpretation
 
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) ÜberblickKI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
 
Language Technologies for Multilingual Europe - Towards a Human Language Proj...
Language Technologies for Multilingual Europe - Towards a Human Language Proj...Language Technologies for Multilingual Europe - Towards a Human Language Proj...
Language Technologies for Multilingual Europe - Towards a Human Language Proj...
 
AI for Translation Technologies and Multilingual Europe
AI for Translation Technologies and Multilingual EuropeAI for Translation Technologies and Multilingual Europe
AI for Translation Technologies and Multilingual Europe
 
Kuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KIKuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KI
 
Artificial Intelligence for the Film Industry
Artificial Intelligence for the Film IndustryArtificial Intelligence for the Film Industry
Artificial Intelligence for the Film Industry
 
KI für die Kundenkommunikation
KI für die KundenkommunikationKI für die Kundenkommunikation
KI für die Kundenkommunikation
 
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
 
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenDigitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
 
EPUB, quo vadis? Publishing im W3C
EPUB, quo vadis? Publishing im W3CEPUB, quo vadis? Publishing im W3C
EPUB, quo vadis? Publishing im W3C
 
Human Language Technologies in a Multilingual Europe
Human Language Technologies in a Multilingual EuropeHuman Language Technologies in a Multilingual Europe
Human Language Technologies in a Multilingual Europe
 
Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...
Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...
Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...
 
Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...
Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...
Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...
 
Multilingualism for Digital Europe
Multilingualism for Digital EuropeMultilingualism for Digital Europe
Multilingualism for Digital Europe
 

Towards Technologies for all European Languages

  • 1. Towards Technologies for All European Languages Georg Rehm Network Manager META-NET DFKI, Berlin, Germany georg.rehm@dfki.de Using the Potential of Technology to Promote CRSS Language Usage Cardiff, Wales, UK – January 23, 2014 Co-funded by the 7th Framework Programme and the ICT Policy Support Programme of the European Commission through the contracts T4ME, CESAR, METANET4U, META-NORD (grant agreements no. 249119, 271022, 270893, 270899).
  • 2. Outline q  Introduction q  Language White Paper Series: Europe’s Languages in the Digital Age q  The META-NET Strategic Research Agenda for Multilingual Europe q  Recent Developments q  Conclusions and Recommendations http://www.meta-net.eu 2
  • 3. Multilingual Europe q  q  q  q  Where were we back in 2010? Challenge: Providing each language community with the most advanced technologies for communication and information so that maintaining their mother tongue does not turn into a disadvantage. While research has made considerable progress in recent years, the pace of progress is not fast enough to meet the challenge within the next 10-20 years. All stakeholders – researchers, LT user and provider industries, language communities, funding programmes, policy makers – should team up in a strategic alliance for a major dedicated push. http://www.meta-net.eu 3
  • 4. q  Network of excellence dedicated to fostering the technological foundations of the European multilingual information society. Initial project: T4ME (FP7). Three ICT-PSP consortia since Feb. 2011: CESAR, METANET4U, META-NORD q  First funded phase (i.e., the four projects) ended on Jan. 31, 2013. q  All EU member states and several non-member states covered. q  META-NET: 60 research centres in 34 European countries. http://www.meta-net.eu/members q 
  • 6. Europe’s Languages in the Digital Age Language White Paper Series http://www.meta-net.eu 6
  • 7. Language White Paper Series q  q  q  “Europe’s Languages in the Digital Age” Series covers 31 languages in 31 volumes. Reports on the state of our languages in the digital age and the level of support through language technology. q  >2 years in the making. q  >215 experts as contributors. q  >8.000 copies distributed to politicians and journalists. http://www.meta-net.eu 7
  • 9. Cross-Lingual Comparison q  q  In four areas – 1. Machine Translation, 2. Text Analytics, 3. Speech Processing, 4. Language Resources – each language is ranked: from excellent LT support to weak/no support. Cross-lingual comparison discussed and finalised at a network meeting with representatives of all languages (Oct., 2011). http://www.meta-net.eu 9
  • 10. Text Analytics MT excellent moderate fragmentary weak or no support through LT Basque, Bulgarian, Croatian, Czech, Danish, Estonian, Finnish, Galician, Greek, Icelandic, Irish, Latvian, Lithuanian, Maltese, Norwegian, Portuguese, Serbian, Slovak, Slovene, Swedish, Welsh English Speech good moderate fragmentary weak or no support through LT Dutch, French, German, Italian, Spanish Basque, Bulgarian, Catalan, Czech, Danish, Finnish, Galician, Greek, Hungarian, Norwegian, Polish, Portuguese, Romanian, Slovak, Slovene, Swedish Croatian, Estonian, Icelandic, Irish, Latvian, Lithuanian, Maltese, Serbian, Welsh good moderate fragmentary weak or no support through LT English excellent French, Spanish Catalan, Dutch, German, Hungarian, Italian, Polish, Romanian English excellent excellent Resources good Czech, Dutch, Finnish, French, German, Italian, Portuguese, Spanish Basque, Bulgarian, Catalan, Danish, Estonian, Galician, Greek, Hungarian, Irish, Norwegian, Polish, Serbian, Slovak, Slovene, Swedish Croatian, Icelandic, Latvian, Lithuanian, Maltese, Romanian, Welsh good moderate fragmentary weak or no support through LT English Czech, Dutch, French, German, Hungarian, Italian, Polish, Spanish, Swedish Basque, Bulgarian, Catalan, Croatian, Danish, Estonian, Finnish, Galician, Greek, Norwegian, Portuguese, Romanian, Serbian, Slovak, Slovene Icelandic, Irish, Latvian, Lithuanian, Maltese, Welsh
  • 11. Key Observations and Results q  q  q  q  When it comes to technology support, there are massive differences between Europe’s languages and technology areas. Support for English is ahead of any other language. But: even support for English is far from being perfect. Several languages get the weakest score in all four areas (e.g., Icelandic, Latvian, Lithuanian, Maltese)! http://www.meta-net.eu 11
  • 12. Ord. Forskere arbejder på at forbedre danske oversættelser på internettet. Date 30 September 2012 Page 16 Dårlig sprogteknologi truer dansk på nettet Digital Language Extinction! Af Jens Ejsing // ejs@berlingske.dk Det danske sprog har det svært i den digitale verden. Det konstaterer danske sprogforskere- og eksperter i forbindelse med den nye internationale undersøgelse META-NET, der ser nærmere på, hvordan en lang række mindre, europæiske sprog som dansk klarer sig i den digitale verden. Forskerne fra bl.a. Københavns Universitet og Dansk Sprognævn når frem til, at dansk i fremtiden kan få det endnu sværere i den digitale verden, fordi Google Translate, GPSer, applikationer til smartphones og andre sprogteknologiske programmer ikke i tilstrækkelig grad formår at behandle de mange nuancer i det danske sprog. Professor i sprogteknologi på Københavns Universitet, Bolette Sandford Pedersen, mener, at der er brug for en slags digital dansk sprogbank fyldt med data, så bl.a. oversættelser bliver så præcise og gode som muligt. Med q  q  38 q  hjælp fra sprogbanken kan forskere ifølge professoren hjælpe virksomheder med at forbedre programmer, der skal håndtere sproglig viden om bl.a. maskinoversættelse, talegenkendelse og informationssøgning. Dermed vil der blive længere mellem fejlagtige oversættelser, som når »hæld olie på panden« med Google Translate bliver til »pour oil on the forehead« på engelsk. Oversættelser, der er i værste fald er så upræcise, at danskere ender med at fravælge deres eget sprog i den digitale verden. Sproghjælp til virksomheder Hun anerkender dog, at »teknologien til automatiske oversættelser på mange måder er fantastisk«. »Den er bare ikke god nok, når det gælder dansk,« siger hun: »Det er som om, at vi i et vist omfang lægger det i hænderne på Google eller andre virksomheder at afgøre, om dansk skal behandles godt nok eller ej. Men det danske marked er ikke stort for dem. Spørgsmålet er derfor, q  Sprog i Europa H Der er omkring 80 sprog i EU. For 21 af dem – også dansk – gælder det, at der er store sprogteknologiske mangler, når det gælder bl.a. maskinoversættelse, talegenkendelse og informationssøgning. H Ifølge en EU-undersøgelse køber et stigende antal europæiske internetbrugere varer eller tjenester på nettet, hvor det sprog, der bliver anvendt, ikke er deres eget. Det gælder over halvdelen af brugerne. “At Least 21 European Languages in Danger of Digital Extinction!” H Over hver tredje anvender et fremmedsprog til at skrive mail eller indlæg på nettet. Press release sent out to journalists, politicians and other stakeholder groups on the European Day of Languages (Sept. 26, 2012). Overwhelmed by the huge interest in the topic and our key findings! Πέµπτη 27 Σεπτεµβρίου 2012 ΕΛΕΥΘΕΡΟΣ ΤΥΠΟΣ Life q  fakta H om vi ikke i højere grad selv skal gøre noget for at sikre, at det fornødne datamateriale er til rådighed, så vi får gode oversættelser og anden god sprogteknologi. Det kunne f.eks. være ved, at vi gjorde en indsats for at få oprettet en sprogbank med en masse beriget materiale om dansk.« »Hvis vi hele tiden oplever, at oversættelser er behæftede med fejl, tør vi ikke stole på dem,« siger hun og understreger, at »fejlagtige oversættelser kan føre til store misforståelser«. Ifølge Dansk Sprognævns direktør, Sabine Kirchmeier-Andersen, kan dårlig sprogteknologi have konsekvenser for mange danskere, der ikke er så gode til engelsk. »Hvis vi har ambitioner om at bruge det danske sprog i fremtidens teknologiske univers, skal der gøres en indsats nu for at fastholde ekspertise og udbygge den viden, vi har,« mener hun: »Ellers risikerer vi, at kun folk, der taler flydende engelsk, vil få glæde af de nye generationer af web-, tele- og robotteknologi, der er på vej.« B 049-ΚΟΣΜΟΣ 29/09/2012 1:41 ? Μ Page 49 600+ mentions in the press. Copyright material. This may only be copied under the terms of a Newspaper Licensing Agency agreement (www.nla.co.uk) or with written publisher permission. For external republishing rights see www.nla-republishing.com 49 KYPIAKH 30 ΣΕΠΤΕΜΒΡΙΟΥ 2012 Οι περισσότερες ευρωπαϊκές γλώσσες κινδυνεύουν µε ψηφιακή εξαφάνιση Τη γλώσσα 20+ television reports and 30+ broadcast interviews µού... έχασανtv) with (radio, META-NET representatives. Η Γιώργος Μπαµπινιώτης. GREEKLISH Η γλώσσα της αποξένωσης… ΜΕ GREEKLISH επικοινωνούν πλέον µέσω µηνυµάτων ή email οι περισσότεροι νέοι της χώρας µας. Παρά το γεγονός ότι τα τελευταία χρόνια υπάρχουν τα γλωσσικά εργαλεία, τα οποία επιτρέπουν τη χρήση της ελληνικής γραµµατοσειράς, έφηβοι και νέοι ενήλικες φαίνεται ότι δεν έχουν «αγκαλιάσει» αυτές τις τεχνολογίες. Ο καθηγητής Γλωσσολογίας, κ. Γιώργος Μπαµπινιώτης, λέει στον «Ε.Τ.»: «Τα greeklish είναι πρόβληµα για την ελληνική γλώσσα, ιδίως για ανθρώπους νέας ηλικίας για έναν καθαρά γλωσσικό λόγο. Με τη χρήση των greeklish αποξενώνονται από τη µορφή της λέξης ή όπως λέµε το ετυµολογικό ίνδαλµα που δηλώνεται µε την ορθογραφία της λέξης και συνδέεται και µε τη σηµασία της λέξης και µε την προέλευσή της». Ο κίνδυνος, µε τον οποίο έρχονται αντιµέτωποι οι νέοι άνθρωποι, είναι η αποξένωση από τη γραπτή µορφή της γλώσσας. Αυτή η «οικειότητα», όµως, βοηθάει και στην κατανόηση της σηµασίας αλλά και την προέλευση της λέξης. «Αυτή η αποξένωση δεν είναι άνευ σηµασίας», αναφέρει ο ειδικός, ο οποίος εξηγεί ότι η διαδικασία της γραφής βοηθάει να εντυπωθεί η λέξη και να συνδεθεί µε άλλες οµόρριζες λέξεις. «Οταν χρησιµοποιείται αυτή η µορφή επικοινωνίας, καταστρέφονται, ατονούν. ∆εν είναι προς θάνατο, αλλά θα κάνει ζηµιά», αναφέρει ο κ. Μπαµπινιώτης, ο οποίος συµβουλεύει τους χρήστες να επιλέγουν την ελληνική γραµµατοσειρά. Πρέπει να εξασφαλιστεί ο εφοδιασµός των µικρότερων και λιγότερο πλούσιων -σε ψηφιακούς πόρους- γλωσσών µε τις απαραίτητες βασικές τεχνολογίες 26η Σεπτεµβρίου έχει καθιερωθεί από το Συµβούλιο της Ευρώπης ως η Ευρωπαϊκή Ηµέρα των Γλωσσών, αλλά, σύµφωνα µε µια νέα ευρωπαϊκή επιστηµονική έκθεση, οι 21 από τις 30 γλώσσες της Ευρώπης -µεταξύ των οποίων και η Ελληνική- αντιµετωπίζουν κίνδυνο ψηφιακής εξαφάνισης. Η έρευνα κρούει τον κώδωνα κινδύνου, καθώς διαπίστωσε ότι η ψηφιακή βοήθεια για τις περισσότερες ευρωπαϊκές γλώσσες είναι ελλιπής ή απολύτως ανύπαρκτη για τους χρήστες. Ακολουθούν µε ικανοποιητική ή µέτρια τεχνολογική/ψηφιακή υποστήριξη η Ολλανδική, η Γαλλική, η Γερµανική, η Ιταλική και η Ισπανική. Η Ελληνική, όπως επίσης η Βασκική, η Καταλανική, η Πολωνική, η Ουγγρική κ.ά. κατατάσσονται στις γλώσσες µε «αποσπασµατική» µόνο υποστήριξη, γι’ αυτό ακριβώς θεωρούνται γλώσσες υψηλού κινδύνου προς εξαφάνιση. News came in Με ψηφιακή εξαφάνισηfrom 40+ countries in 35+ different languages. ΠΟΛΛΕΣ ΕΥΡΩΠΑΪΚΕΣ ΓΛΩΣΣΕΣ ΘΕΩΡΟΥΝΤΑΙ ΤΕΧΝΟΛΟΓΙΚΑ… ΞΕΠΕΡΑΣΜΕΝΕΣ q  Τις έφαγαν οι κοινές Η έκθεση, µε τη µορφή µιας σειράς Λευκών Βίβλων (µε τίτλο «Γλώσσες στην Ευρωπαϊκή Κοινωνία της Πληροφορίας»), από το επιστηµονικό δίκτυο ΜΕΤΑΝΕΤ, το οποίο συνενώνει 60 ερευνητικά κέντρα σε 34 χώρες, επισηµαίνει ότι οι γλώσσες που µιλιούνται από σχετικά µικρό αριθµό ανθρώπων κινδυνεύουν, επειδή δεν έχουν τεχνολογική υποστήριξη όπως έχουν οι ευρέως χρησιµοποιούµενες γλώσσες. Λευκές Βίβλοι έχουν καταρτιστεί για τις εξής ευρωπαϊκές γλώσσες: αγγλικά, βασκικά, βουλγαρικά, γαλικιανά, γαλλικά, γερµανικά, δανικά, ελληνικά, εσθονικά, ιρλανδικά, ισλανδικά, ισπανικά, ιταλικά, καταλανικά, κροατικά, λετονικά, λιθουανικά, µαλτέζικα, νορβηγικά (µπουκµόλ και νινόρσκ), ολλανδικά, ουγγρικά, πολωνικά, πορτογαλικά, ρουµανικά, σερβικά, σλοβακικά, σλοβενικά, σουηδικά, τσεχικά και φινλανδικά. Κάθε Λευκή Βίβλος είναι γραµµένη στη γλώσσα στην οποία αναφέρεται και είναι µεταφρασµένη στα αγγλικά. Δραµατικές διαφορές Σύµφωνα µε τους επιµελητές της µελέτης Χανς Ουζκοράιτ και Γκέοργκ Ρεµ, «υπάρχουν δραµατικές διαφορές στην υποστήριξη της γλωσσικής τεχνολογίας ανάµεσα στις διάφορες ευρωπαϊκές γλώσσες και τεχνολογικές περιοχές. Το χάσµα µεταξύ ‘µικρών’ και ‘µεγάλων’ γλωσσών ολοένα και διευρύνεται. Πρέπει να εξασφαλίσουµε τον εφοδιασµό των µικρότερων και λιγότερο πλούσιων -σε ψηφιακούς πόρους- γλωσσών µε τις απαραίτητες βασικές τεχνολογίες, αλλιώς οι γλώσσες αυτές είναι καταδικασµένες σε ψηφιακή εξαφάνιση». Ως ελπίδα αυτών των γλωσσών θεωρείται η βελτίωση και η ευρύτερη αξιοποίηση του λογισµικού γλωσσικής τεχνολογίας, το οποίο επιτρέπει τη φωνητική και τη γραπτή επεξεργασία των διαφόρων γλωσσών. Παραδείγµατα αυτών των δυνατοτήτων είναι οι ηλεκτρονικοί ορθογραφικοί και συντακτικοί διορθωτές κειµένων, οι διαδραστικοί προσωπικοί «βοηθοί» των έξυπνων κινητών τηλεφώνων (π.χ. η Siri στο iPhone), τα συστήµατα αυτόµατης µετάφρασης, τα ηλεκτρονικά συστήµατα διαλόγου των τηλεφωνικών κέντρων, οι µηχανές αναζήτησης, η συνθετική φωνή στα συστήµατα πλοήγησης των αυτοκινήτων. κ.ά. κινδυνεύουν τα ελληνικά Σ q  Two Parliamentary Questions in the EP on the “digital extinction of την ψηφιακή εποχή δεν… µιλούν ελληνικά, όπως και αρκετές άλλες ευρωπαϊκές γλώσσες, σύµφωνα µε πανευρωπαϊκή έκθεση µε την υπογραφή 200 και πλέον ειδικών. Η συγκεκριµένη µελέτη δηµοσιεύτηκε από το επιστηµονικό δίκτυο ΜΕΤΑ-ΝΕΤ µε αφορµή τη χτεσινή Ευρωπαϊκή Ηµέρα Γλωσσών. Για τις ανάγκες της έρευνάς τους, γλωσσολόγοι από 34 χώρες της Γηραιάς Ηπείρου βαθµολόγησαν τις διαθέσιµες γλωσσικές υπηρεσίες και δηµιούργησαν ένα «Λευκό Βιβλίο» για κάθε ευρωπαϊκή γλώσσα. Στη µελέτη τους, οι ειδικοί αναζήτησαν µεταξύ άλλων τέσσερα βασικά ηλεκτρονικά εργαλεία, δηλαδή την ύπαρξη αυτόµατης µετάφρασης, τη δυνατότητα φωνητικής αλληλεπίδρασης και ψηφιακής ανάλυσης κειµένου, ενώ ταυτόχρονα διερευνήθηκε και η διαθεσιµότητα γλωσσικών πόρων ή πηγών. Σε πρώτη φάση εξέτασαν τις ιστοσελίδες που επιτρέπουν στους χρήστες να κάνουν µεταφράσεις online, όπως, για παράδειγµα, η υπηρεσία του κολοσσού πληροφορικής Google Translate. Την ίδια ώρα, εξετάστηκε και η «επικοινωνία» των ελληνόφωνων χρηστών µε τις…συσκευές τους, όπως για παράδειγµα η δυνατότητα ΕΛΕΝΗ ΒΕΡΓΟΥ evergou@e-typos.com τεχνολογίας ανάµεσα στις διάφορες ευρωπαϊκές γλώσσες. Το χάσµα µεταξύ “µικρών” και “µεγάλων” γλωσσών ολοένα και διευρύνεται. Πρέπει να εξασφαλίσουµε τον εφοδιασµό των µικρότερων και λιγότερο πλούσιων σε ψηφιακούς πόρους γλωσσών µε τις απαραίτητες βασικές τεχνολογίες. ∆ιαφορετικά, οι γλώσσες αυτές είναι καταδικασµένες σε ψηφιακή εξαφάνιση». Μάλιστα, οι ειδικοί τονίζουν ότι χωρίς αποφασιστική δράση οι γλώσσες αυτές δύσκολα θα… επιβιώσουν στον ψηφιακό κόσµου του 21ου αιώνα. Η κ. Μαρία Γαβριηλίδου, µέλος της επιστηµονικής οµάδας από το Ινστιτούτο Επεξεργασίας του Λόγου Ερευνητικό Κέντρο Αθηνά, λέει στον «Ε.Τ.»: «Η έρευνα αυτή δεν λέει ότι δεν θα ζήσει η ελληνική γλώσσα ή ότι κινδυνεύει µε εξαφάνιση». Η ειδικός εξηγεί ότι όσο υπάρχουν άνθρωποι που µιλάνε, γράφουν και επικοινωνούν µε µια γλώσσα, τότε αυτή θα συνεχίσει να υπάρχει. Είναι σηµαντικό, όµως, να έχουν όλοι οι χρήστες τη δυνατότητα να «µιλήσουν» στις µηχανές, όπως τα GPS τους, στα ελληνικά και να έχουν στη διάθεσή τους γλωσσικά εργαλεία ηλεκτρονικών υπολογιστών. Μεταξύ αυτών των «εργαλείων» είναι οι διορθωτές ορθογραφικών και συντακτικών λαθών, που χρησιµοποιούνται καθηµερινά από εκατοντάδες Ελληνες χρήστες και βασίζονται στη γλωσσική τεχνολογία. Παρ’ όλα αυτά, τονίζει ότι η ψηφιακή εξάπλωση µιας γλώσσας είναι σηµαντική «∆εν είναι στα χέρια του µέσου χρήστη. Οι εκάστοτε κυβερνήσεις, η Ευρωπαϊκή Ενωση και ο ιδιωτικός τοµέας πρέπει να χρηµατοδοτήσουν την ανάπτυξη αυτής της τεχνολογίας για όλες τις γλώσσες», αναφέρει και συνεχίζει: «Οι χρήστες, όµως, πρέπει να απαιτούν να υπάρχουν και στη γλώσσα τους τα µέσα αυτά και να µην ικανοποιούνται µε τα αγγλικά». ■ languages” topic. να «µιλήσει» κάποιος στο GPS στη µητρική του γλώσσα. Οι ερευνητές κατέληξαν στο συµπέρασµα ότι υπάρχουν τέτοιες συσκευές, αλλά δεν είναι τόσο διαδεδοµένες όσο οι αγγλόφωνες. Το «χρυσό» µετάλλιο κατακτά, όπως είναι άλλωστε και λογικό, η αγγλική γλώσσα. Οι αγγλόφωνοι χρήστες έχουν την καλύτερη δυνατή τεχνολογική υποστήριξη, κάτι το οποίο ευνοεί την περαιτέρω εξάπλωση της γλώσσας. Από «τεχνολογικό αποκλεισµό» κινδυνεύουν περισσότερο η ισλανδική, η λετονική, η λιθουανική και η µαλτέζικη γλώσσα, ενώ σε λίγο καλύτερη µοίρα βρίσκονται η ελληνική, η βουλγαρική, η ουγγρική και η πολωνική, που όπως αναφέρει η έρευνα έχουν «αποσπασµατική» τεχνολογική υποστήριξη. «Μέτρια» χαρακτηρίζεται η υποστήριξη χρηστών σε ολλανδική, γαλλική, γερµανική, ιταλική και ισπανική γλώσσα. Οι επικεφαλής της επιστηµονικής οµάδας, Χανς Ουζκοράιτ και Γκεόργκ Ρεµ, αναφέρουν χαρακτηριστικά: «Υπάρχουν δραµατικές διαφορές στην υποστήριξη της γλωσσικής Οι αγγλόφωνοι χρήστες έχουν την καλύτερη δυνατή τεχνολογική υποστήριξη, γεγονός που ευνοεί την περαιτέρω εξάπλωση της γλώσσας http://www.meta-net.eu Τέσσερις µεγάλοι κίνδυνοι Σύµφωνα µε τη νέα µελέτη, η Ισλανδική, η Λετονική, η Λιθουανική και η Μαλτέζικη αντιµετωπίζουν τον µεγαλύτερο κίνδυνο εξαφάνισης σε µια ευρωπαϊκή τεχνολογική κοινωνία, που ολοένα περισσότερο προωθεί τη χρήση συγκεκριµένων γλωσσών και ιδίως της Αγγλικής. Όµως και άλλες γλώσσες, όπως η Ελληνική, η Βουλγαρική, η Ουγγρική και η Πολωνική, επίσης κινδυνεύουν στον σύγχρονο ψηφιακό κόσµο. Η έρευνα του ΜΕΤΑ-ΝΕΤ, στην οποία συνέβαλαν περισσότεροι από 200 ειδικοί, αξιολογεί τον κίνδυνο για κάθε γλώσσα µε βάση τέσσερα βασικά κριτήρια σε τεχνολογικό/ψηφιακό επίπεδο: την ύπαρξη αυτόµατης µετάφρασης στη συγκεκριµένη γλώσσα, τη δυνατότητα φωνητικής αλληλεπίδρασης, τη δυνατότητα ψηφιακής ανάλυσης κειµένου και τη διαθεσιµότητα των σχετικών ψηφιακών γλωσσικών πόρων/πηγών. Οι δυνατές Η γλώσσα µε την καλύτερη βαθµολογία στα κριτήρια είναι ασφαλώς η Αγγλική, που απολαµβάνει τη συγκριτικά καλύτερη τεχνολογική υποστήριξη (αν και όχι την καλύτερη δυνατή), γεγονός που διευκολύνει την περαιτέρω εξάπλωσή της. Το βασικό πρόβληµα Το σηµαντικό, σύµφωνα µε την έκθεση, είναι όλες αυτές οι δυνατότητες να προσφέρονται στους χρήστες και στη µητρική τους γλώσσα που κινδυνεύει µε εξαφάνιση. Χωρίς αποφασιστική δράση, γίνεται η δυσοίωνη πρόβλεψη ότι οι γλώσσες αυτές δύσκολα θα επιβιώσουν στον ψηφιακό κόσµο του 21ου αιώνα. Ένα πρόβληµα είναι ότι το λογισµικό αυτών των συστηµάτων γλωσσικής τεχνολογίας στηρίζεται σε στατιστικές µεθόδους που απαιτούν τεράστιες ποσότητες γραπτών ή φωνητικών δεδοµένων, όµως τόσα πολλά δεδοµένα είναι δύσκολο να αποκτηθούν για γλώσσες που οµιλούνται από σχετικά λίγους ανθρώπους. Εξάλλου, ακόµα και για ευρέως χρησιµοποιούµενες γλώσσες όπως τα αγγλικά, η σχετική γλωσσική τεχνολογία έχει ακόµα αδυναµίες, που είναι π.χ. φανερές στις άκρως ανεπαρκείς και γεµάτες λάθη αυτόµατες µεταφράσεις. Η έκθεση προτείνει ότι πρέπει να αναληφθεί µια συντονισµένη µεγάλης κλίµακας προσπάθεια στην Ευρώπη, προκειµένου σταδιακά να δηµιουργηθούν ή να βελτιωθούν οι αναγκαίες τεχνολογίες και να βοηθηθούν οι γλώσσες που είναι ψηφιακά παραγκωνισµένες. 12
  • 13. Hospital. Desuden sættes der penge af til at øge antallet af operationer og udvide ambulatoriekapaciteten på det urologiske område på Herlev, ard Pedersen og tilføjer: »Men så er det også vigtigt at holde fast i det mål og ikke stille sig tilfreds med, at 80 eller 85 pct. kommer igennem til tiden.« B INFOGRAFIK: HENRIK KIÆR / TEKST: FLEMMING STEEN PEDERSEN KILDE: REGION HOVEDSTADEN Ord. Forskere arbejder på at forbedre danske oversættelser på internettet. Date 30 September 2012 Page 16 Dårlig sprogteknologi truer dansk på nettet Af Jens Ejsing hjælp fra sprogbanken kan forskere ifølge professoren hjælpe virksomheder med at forbedre programmer, der skal håndtere sproglig viden om bl.a. maskinoversættelse, talegenkendelse og informationssøgning. Dermed vil der blive længere mellem fejlagtige oversættelser, som når »hæld olie på panden« med Google Translate bliver til »pour oil on the forehead« på engelsk. Oversættelser, der er i værste fald er så upræcise, at danskere ender med at fravælge deres eget sprog i den digitale verden. // ejs@berlingske.dk Det danske sprog har det svært i den digitale verden. Det konstaterer danske sprogforskere- og eksperter i forbindelse med den nye internationale undersøgelse META-NET, der ser nærmere på, hvordan en lang række mindre, europæiske sprog som dansk klarer sig i den digitale verden. Forskerne fra bl.a. Københavns Universitet og Dansk Sprognævn når frem til, at dansk i fremtiden kan få det endnu sværere i den digitale verden, fordi Google Translate, GPSer, applikationer til smartphones og andre sprogteknologiske programmer ikke i tilstrækkelig grad formår at behandle de mange nuancer i det danske sprog. Professor i sprogteknologi på Københavns Universitet, Bolette Sandford Pedersen, mener, at der er brug for en slags digital dansk sprogbank fyldt med data, så bl.a. oversættelser bliver så præcise og gode som muligt. Med Sproghjælp til virksomheder Hun anerkender dog, at »teknologien til automatiske oversættelser på mange måder er fantastisk«. »Den er bare ikke god nok, når det gælder dansk,« siger hun: »Det er som om, at vi i et vist omfang lægger det i hænderne på Google eller andre virksomheder at afgøre, om dansk skal behandles godt nok eller ej. Men det danske marked er ikke stort for dem. Spørgsmålet er derfor, 38 fakta H Sprog i Europa H Der er omkring 80 sprog i EU. For 21 af dem – også dansk – gælder det, at der er store sprogteknologiske mangler, når det gælder bl.a. maskinoversættelse, talegenkendelse og informationssøgning. H Ifølge en EU-undersøgelse køber et stigende antal europæiske internetbrugere varer eller tjenester på nettet, hvor det sprog, der bliver anvendt, ikke er deres eget. Det gælder over halvdelen af brugerne. H Over hver tredje anvender et fremmedsprog til at skrive mail eller indlæg på nettet. om vi ikke i højere grad selv skal gøre noget for at sikre, at det fornødne datamateriale er til rådighed, så vi får gode oversættelser og anden god sprogteknologi. Det kunne f.eks. være ved, at vi gjorde en indsats for at få oprettet en sprogbank med en masse beriget materiale om dansk.« »Hvis vi hele tiden oplever, at oversættelser er behæftede med fejl, tør vi ikke stole på dem,« siger hun og understreger, at »fejlagtige oversættelser kan føre til store misforståelser«. Ifølge Dansk Sprognævns direktør, Sabine Kirchmeier-Andersen, kan dårlig sprogteknologi have konsekvenser for mange danskere, der ikke er så gode til engelsk. »Hvis vi har ambitioner om at bruge det danske sprog i fremtidens teknologiske univers, skal der gøres en indsats nu for at fastholde ekspertise og udbygge den viden, vi har,« mener hun: »Ellers risikerer vi, at kun folk, der taler flydende engelsk, vil få glæde af de nye generationer af web-, tele- og robotteknologi, der er på vej.« B Πέµπτη 27 Σεπτεµβρίου 2012 ΕΛΕΥΘΕΡΟΣ ΤΥΠΟΣ Life Γιώργος Μπαµπινιώτης. GREEKLISH Η γλώσσα της αποξένωσης… ΠΟΛΛΕΣ ΕΥΡΩΠΑΪΚΕΣ ΓΛΩΣΣΕΣ ΘΕΩΡΟΥΝΤΑΙ ΤΕΧΝΟΛΟΓΙΚΑ… ΞΕΠΕΡΑΣΜΕΝΕΣ Με ψηφιακή εξαφάνιση κινδυνεύουν τα ελληνικά Σ την ψηφιακή εποχή δεν… µιλούν ελληνικά, όπως και αρκετές άλλες ευρωπαϊκές γλώσσες, σύµφωνα µε πανευρωπαϊκή έκθεση µε την υπογραφή 200 και πλέον ειδικών. Η συγκεκριµένη µελέτη δηµοσιεύτηκε από το επιστηµονικό δίκτυο ΜΕΤΑ-ΝΕΤ µε αφορµή τη χτεσινή Ευρωπαϊκή Ηµέρα Γλωσσών. Για τις ανάγκες της έρευνάς τους, γλωσσολόγοι από 34 χώρες της Γηραιάς Ηπείρου βαθµολόγησαν τις διαθέσιµες γλωσσικές υπηρεσίες και δηµιούργησαν ένα «Λευκό Βιβλίο» για κάθε ευρωπαϊκή γλώσσα. Στη µελέτη τους, οι ειδικοί αναζήτησαν µεταξύ άλλων τέσσερα βασικά ηλεκτρονικά εργαλεία, δηλαδή την ύπαρξη αυτόµατης µετάφρασης, τη δυνατότητα φωνητικής αλληλεπίδρασης και ψηφιακής ανάλυσης κειµένου, ενώ ταυτόχρονα διερευνήθηκε και η διαθεσιµότητα γλωσσικών πόρων ή πηγών. Σε πρώτη φάση εξέτασαν τις ιστοσελίδες που επιτρέπουν στους χρήστες να κάνουν µεταφράσεις online, όπως, για παράδειγµα, η υπηρεσία του κολοσσού πληροφορικής Google Translate. Την ίδια ώρα, εξετάστηκε και η «επικοινωνία» των ελληνόφωνων χρηστών µε τις…συσκευές τους, όπως για παράδειγµα η δυνατότητα ΕΛΕΝΗ ΒΕΡΓΟΥ evergou@e-typos.com να «µιλήσει» κάποιος στο GPS στη µητρική του γλώσσα. Οι ερευνητές κατέληξαν στο συµπέρασµα ότι υπάρχουν τέτοιες συσκευές, αλλά δεν είναι τόσο διαδεδοµένες όσο οι αγγλόφωνες. Το «χρυσό» µετάλλιο κατακτά, όπως είναι άλλωστε και λογικό, η αγγλική γλώσσα. Οι αγγλόφωνοι χρήστες έχουν την καλύτερη δυνατή τεχνολογική υποστήριξη, κάτι το οποίο ευνοεί την περαιτέρω εξάπλωση της γλώσσας. Από «τεχνολογικό αποκλεισµό» κινδυνεύουν περισσότερο η ισλανδική, η λετονική, η λιθουανική και η µαλτέζικη γλώσσα, ενώ σε λίγο καλύτερη µοίρα βρίσκονται η ελληνική, η βουλγαρική, η ουγγρική και η πολωνική, που όπως αναφέρει η έρευνα έχουν «αποσπασµατική» τεχνολογική υποστήριξη. «Μέτρια» χαρακτηρίζεται η υποστήριξη χρηστών σε ολλανδική, γαλλική, γερµανική, ιταλική και ισπανική γλώσσα. Οι επικεφαλής της επιστηµονικής οµάδας, Χανς Ουζκοράιτ και Γκεόργκ Ρεµ, αναφέρουν χαρακτηριστικά: «Υπάρχουν δραµατικές διαφορές στην υποστήριξη της γλωσσικής τεχνολογίας ανάµεσα στις διάφορες ευρωπαϊκές γλώσσες. Το χάσµα µεταξύ “µικρών” και “µεγάλων” γλωσσών ολοένα και διευρύνεται. Πρέπει να εξασφαλίσουµε τον εφοδιασµό των µικρότερων και λιγότερο πλούσιων σε ψηφιακούς πόρους γλωσσών µε τις απαραίτητες βασικές τεχνολογίες. ∆ιαφορετικά, οι γλώσσες αυτές είναι καταδικασµένες σε ψηφιακή εξαφάνιση». Μάλιστα, οι ειδικοί τονίζουν ότι χωρίς αποφασιστική δράση οι γλώσσες αυτές δύσκολα θα… επιβιώσουν στον ψηφιακό κόσµου του 21ου αιώνα. Η κ. Μαρία Γαβριηλίδου, µέλος της επιστηµονικής οµάδας από το Ινστιτούτο Οι αγγλόφωνοι χρήστες έχουν την καλύτερη δυνατή τεχνολογική υποστήριξη, γεγονός που ευνοεί την περαιτέρω εξάπλωση της γλώσσας Επεξεργασίας του Λόγου Ερευνητικό Κέντρο Αθηνά, λέει στον «Ε.Τ.»: «Η έρευνα αυτή δεν λέει ότι δεν θα ζήσει η ελληνική γλώσσα ή ότι κινδυνεύει µε εξαφάνιση». Η ειδικός εξηγεί ότι όσο υπάρχουν άνθρωποι που µιλάνε, γράφουν και επικοινωνούν µε µια γλώσσα, τότε αυτή θα συνεχίσει να υπάρχει. Είναι σηµαντικό, όµως, να έχουν όλοι οι χρήστες τη δυνατότητα να «µιλήσουν» στις µηχανές, όπως τα GPS τους, στα ελληνικά και να έχουν στη διάθεσή τους γλωσσικά εργαλεία ηλεκτρονικών υπολογιστών. Μεταξύ αυτών των «εργαλείων» είναι οι διορθωτές ορθογραφικών και συντακτικών λαθών, που χρησιµοποιούνται καθηµερινά από εκατοντάδες Ελληνες χρήστες και βασίζονται στη γλωσσική τεχνολογία. Παρ’ όλα αυτά, τονίζει ότι η ψηφιακή εξάπλωση µιας γλώσσας είναι σηµαντική «∆εν είναι στα χέρια του µέσου χρήστη. Οι εκάστοτε κυβερνήσεις, η Ευρωπαϊκή Ενωση και ο ιδιωτικός τοµέας πρέπει να χρηµατοδοτήσουν την ανάπτυξη αυτής της τεχνολογίας για όλες τις γλώσσες», αναφέρει και συνεχίζει: «Οι χρήστες, όµως, πρέπει να απαιτούν να υπάρχουν και στη γλώσσα τους τα µέσα αυτά και να µην ικανοποιούνται µε τα αγγλικά». ■ ΜΕ GREEKLISH επικοινωνούν πλέον µέσω µηνυµάτων ή email οι περισσότεροι νέοι της χώρας µας. Παρά το γεγονός ότι τα τελευταία χρόνια υπάρχουν τα γλωσσικά εργαλεία, τα οποία επιτρέπουν τη χρήση της ελληνικής γραµµατοσειράς, έφηβοι και νέοι ενήλικες φαίνεται ότι δεν έχουν «αγκαλιάσει» αυτές τις τεχνολογίες. Ο καθηγητής Γλωσσολογίας, κ. Γιώργος Μπαµπινιώτης, λέει στον «Ε.Τ.»: «Τα greeklish είναι πρόβληµα για την ελληνική γλώσσα, ιδίως για ανθρώπους νέας ηλικίας για έναν καθαρά γλωσσικό λόγο. Με τη χρήση των greeklish αποξενώνονται από τη µορφή της λέξης ή όπως λέµε το ετυµολογικό ίνδαλµα που δηλώνεται µε την ορθογραφία της λέξης και συνδέεται και µε τη σηµασία της λέξης και µε την προέλευσή της». Ο κίνδυνος, µε τον οποίο έρχονται αντιµέτωποι οι νέοι άνθρωποι, είναι η αποξένωση από τη γραπτή µορφή της γλώσσας. Αυτή η «οικειότητα», όµως, βοηθάει και στην κατανόηση της σηµασίας αλλά και την προέλευση της λέξης. «Αυτή η αποξένωση δεν είναι άνευ σηµασίας», αναφέρει ο ειδικός, ο οποίος εξηγεί ότι η διαδικασία της γραφής βοηθάει να εντυπωθεί η λέξη και να συνδεθεί µε άλλες οµόρριζες λέξεις. «Οταν χρησιµοποιείται αυτή η µορφή επικοινωνίας, καταστρέφονται, ατονούν. ∆εν είναι προς θάνατο, αλλά θα κάνει ζηµιά», αναφέρει ο κ. Μπαµπινιώτης, ο οποίος συµβουλεύει τους χρήστες να επιλέγουν την ελληνική γραµµατοσειρά. Copyright material. This may only be copied under the terms of a Newspaper Licensing Agency agreement (www.nla.co.uk) or with written publisher permission. For external republishing rights see www.nla-republishing.com 049-ΚΟΣΜΟΣ 29/09/2012 1:41 ? Μ Page 49 49 KYPIAKH 30 ΣΕΠΤΕΜΒΡΙΟΥ 2012 Οι περισσότερες ευρωπαϊκές γλώσσες κινδυνεύουν µε ψηφιακή εξαφάνιση Τη γλώσσα µού... έχασαν Πρέπει να εξασφαλιστεί ο εφοδιασµός των µικρότερων και λιγότερο πλούσιων -σε ψηφιακούς πόρους- γλωσσών µε τις απαραίτητες βασικές τεχνολογίες Η 26η Σεπτεµβρίου έχει καθιερωθεί από το Συµβούλιο της Ευρώπης ως η Ευρωπαϊκή Ηµέρα των Γλωσσών, αλλά, σύµφωνα µε µια νέα ευρωπαϊκή επιστηµονική έκθεση, οι 21 από τις 30 γλώσσες της Ευρώπης -µεταξύ των οποίων και η Ελληνική- αντιµετωπίζουν κίνδυνο ψηφιακής εξαφάνισης. Η έρευνα κρούει τον κώδωνα κινδύνου, καθώς διαπίστωσε ότι η ψηφιακή βοήθεια για τις περισσότερες ευρωπαϊκές γλώσσες είναι ελλιπής ή απολύτως ανύπαρκτη για τους χρήστες. Τις έφαγαν οι κοινές Η έκθεση, µε τη µορφή µιας σειράς Λευκών Βίβλων (µε τίτλο «Γλώσσες στην Ευρωπαϊκή Κοινωνία της Πληροφορίας»), από το επιστηµονικό δίκτυο ΜΕΤΑΝΕΤ, το οποίο συνενώνει 60 ερευνητικά κέντρα σε 34 χώρες, επισηµαίνει ότι οι γλώσσες που µιλιούνται από σχετικά µικρό αριθµό ανθρώπων κινδυνεύουν, επειδή δεν έχουν τεχνολογική υποστήριξη όπως έχουν οι ευρέως χρησιµοποιούµενες γλώσσες. Λευκές Βίβλοι έχουν καταρτιστεί για τις εξής ευρωπαϊκές γλώσσες: αγγλικά, βασκικά, βουλγαρικά, γαλικιανά, γαλλικά, γερµανικά, δανικά, ελληνικά, εσθονικά, ιρλανδικά, ισλανδικά, ισπανικά, ιταλικά, καταλανικά, κροατικά, λετονικά, λιθουανικά, µαλτέζικα, νορβηγικά (µπουκµόλ και νινόρσκ), ολλανδικά, ουγγρικά, πολωνικά, πορτογαλικά, ρουµανικά, σερβικά, σλοβακικά, σλοβενικά, σουηδικά, τσεχικά και φινλανδικά. Κάθε Λευκή Βίβλος είναι γραµµένη στη γλώσσα στην οποία αναφέρεται και είναι µεταφρασµένη στα αγγλικά. Τέσσερις µεγάλοι κίνδυνοι Σύµφωνα µε τη νέα µελέτη, η Ισλανδική, η Λετονική, η Λιθουανική και η Μαλτέζικη αντιµετωπίζουν τον µεγαλύτερο κίνδυνο εξαφάνισης σε µια ευρωπαϊκή τεχνολογική κοινωνία, που ολοένα περισσότερο προωθεί τη χρήση συγκεκριµένων γλωσσών και ιδίως της Αγγλικής. Όµως και άλλες γλώσσες, όπως η Ελληνική, η Βουλγαρική, η Ουγγρική και η Πολωνική, επίσης κινδυνεύουν στον σύγχρονο ψηφιακό κόσµο. Η έρευνα του ΜΕΤΑ-ΝΕΤ, στην οποία συνέβαλαν περισσότεροι από 200 ειδικοί, αξιολογεί τον κίνδυνο για κάθε γλώσσα µε βάση τέσσερα βασικά κριτήρια σε τεχνολογικό/ψηφιακό επίπεδο: την ύπαρξη αυτόµατης µετάφρασης στη συγκεκριµένη γλώσσα, τη δυνατότητα φωνητικής αλληλεπίδρασης, τη δυνατότητα ψηφιακής ανάλυσης κειµένου και τη διαθεσιµότητα των σχετικών ψηφιακών γλωσσικών πόρων/πηγών. Οι δυνατές Η γλώσσα µε την καλύτερη βαθµολογία στα κριτήρια είναι ασφαλώς η Αγγλική, που απολαµβάνει τη συγκριτικά καλύτερη τεχνολογική υποστήριξη (αν και όχι την καλύτερη δυνατή), γεγονός που διευκολύνει την περαιτέρω εξάπλωσή της. Ακολουθούν µε ικανοποιητική ή µέτρια τεχνολογική/ψηφιακή υποστήριξη η Ολλανδική, η Γαλλική, η Γερµανική, η Ιταλική και η Ισπανική. Η Ελληνική, όπως επίσης η Βασκική, η Καταλανική, η Πολωνική, η Ουγγρική κ.ά. κατατάσσονται στις γλώσσες µε «αποσπασµατική» µόνο υποστήριξη, γι’ αυτό ακριβώς θεωρούνται γλώσσες υψηλού κινδύνου προς εξαφάνιση. Δραµατικές διαφορές Σύµφωνα µε τους επιµελητές της µελέτης Χανς Ουζκοράιτ και Γκέοργκ Ρεµ, «υπάρχουν δραµατικές διαφορές στην υποστήριξη της γλωσσικής τεχνολογίας ανάµεσα στις διάφορες ευρωπαϊκές γλώσσες και τεχνολογικές περιοχές. Το χάσµα µεταξύ ‘µικρών’ και ‘µεγάλων’ γλωσσών ολοένα και διευρύνεται. Πρέπει να εξασφαλίσουµε τον εφοδιασµό των µικρότερων και λιγότερο πλούσιων -σε ψηφιακούς πόρους- γλωσσών µε τις απαραίτητες βασικές τεχνολογίες, αλλιώς οι γλώσσες αυτές είναι καταδικασµένες σε ψηφιακή εξαφάνιση». Ως ελπίδα αυτών των γλωσσών θεωρείται η βελτίωση και η ευρύτερη αξιοποίηση του λογισµικού γλωσσικής τεχνολογίας, το οποίο επιτρέπει τη φωνητική και τη γραπτή επεξεργασία των διαφόρων γλωσσών. Παραδείγµατα αυτών των δυνατοτήτων είναι οι ηλεκτρονικοί ορθογραφικοί και συντακτικοί διορθωτές κειµένων, οι διαδραστικοί προσωπικοί «βοηθοί» των έξυπνων κινητών τηλεφώνων (π.χ. η Siri στο iPhone), τα συστήµατα αυτόµατης µετάφρασης, τα ηλεκτρονικά συστήµατα διαλόγου των τηλεφωνικών κέντρων, οι µηχανές αναζήτησης, η συνθετική φωνή στα συστήµατα πλοήγησης των αυτοκινήτων. κ.ά. Το βασικό πρόβληµα Το σηµαντικό, σύµφωνα µε την έκθεση, είναι όλες αυτές οι δυνατότητες να προσφέρονται στους χρήστες και στη µητρική τους γλώσσα που κινδυνεύει µε εξαφάνιση. Χωρίς αποφασιστική δράση, γίνεται η δυσοίωνη πρόβλεψη ότι οι γλώσσες αυτές δύσκολα θα επιβιώσουν στον ψηφιακό κόσµο του 21ου αιώνα. Ένα πρόβληµα είναι ότι το λογισµικό αυτών των συστηµάτων γλωσσικής τεχνολογίας στηρίζεται σε στατιστικές µεθόδους που απαιτούν τεράστιες ποσότητες γραπτών ή φωνητικών δεδοµένων, όµως τόσα πολλά δεδοµένα είναι δύσκολο να αποκτηθούν για γλώσσες που οµιλούνται από σχετικά λίγους ανθρώπους. Εξάλλου, ακόµα και για ευρέως χρησιµοποιούµενες γλώσσες όπως τα αγγλικά, η σχετική γλωσσική τεχνολογία έχει ακόµα αδυναµίες, που είναι π.χ. φανερές στις άκρως ανεπαρκείς και γεµάτες λάθη αυτόµατες µεταφράσεις. Η έκθεση προτείνει ότι πρέπει να αναληφθεί µια συντονισµένη µεγάλης κλίµακας προσπάθεια στην Ευρώπη, προκειµένου σταδιακά να δηµιουργηθούν ή να βελτιωθούν οι αναγκαίες τεχνολογίες και να βοηθηθούν οι γλώσσες που είναι ψηφιακά παραγκωνισµένες.
  • 14. Update of the Study (2013/2014) q  q  q  Study comprised 31 volumes/languages. Many languages missing! Need for extension – at least of the comparison. We invited three language community bodies to participate in the update: European Federation of National Institutions for Language (EFNIL) Network to Promote Linguistic Diversity (NPLD) Experts Committee of the European Language Charter (Council of Europe) Submitted to LREC 2014 http://www.meta-net.eu 14
  • 15. excellent fragmentary weak or no support Speech excellent Catalan, Dutch, German, Hungarian, Italian, Polish, Romanian good moderate fragmentary weak or no support Dutch, French, German, Hebrew, Italian, Spanish Basque, Bulgarian, Catalan, Czech, Danish, Finnish, Galician, Greek, Hungarian, Norwegian, Polish, Portuguese, Romanian, Slovak, Slovene, Swedish Albanian, Asturian, Bosnian, Breton, Croatian, Estonian, Frisian, Friulian, Icelandic, Irish, Latvian, Limburgish, Lithuanian, Luxembourgish, Macedonian, Maltese, Occitan, Romany, Scots, Serbian, Turkish, Vlax Romani, Welsh, Yiddish good moderate fragmentary weak or no support English excellent French, Spanish Albanian, Asturian, Basque, Bosnian, Breton, Bulgarian, Croatian, Czech, Danish, Estonian, Finnish, Frisian, Friulian, Galician, Greek, Hebrew, Icelandic, Irish, Latvian, Limburgish, Lithuanian, Luxembourgish, Macedonian, Maltese, Norwegian, Occitan, Portuguese, Romany, Scots, Serbian, Slovak, Slovene, Swedish, Turkish, Vlax Romani, Welsh, Yiddish English MT Text Analytics moderate English excellent Resources good Czech, Dutch, Finnish, French, German, Italian, Portuguese, Spanish Basque, Bulgarian, Catalan, Danish, Estonian, Galician, Greek, Hungarian, Irish, Norwegian, Polish, Serbian, Slovak, Slovene, Swedish, Turkish Albanian, Asturian, Bosnian, Breton, Croatian, Frisian, Friulian, Hebrew, Icelandic, Latvian, Limburgish, Lithuanian, Luxembourgish, Macedonian, Maltese, Occitan, Romanian, Romany, Scots, Vlax Romani, Welsh, Yiddish good moderate fragmentary weak/no support English Czech, Dutch, French, German, Hungarian, Italian, Polish, Spanish, Swedish Basque, Bulgarian, Catalan, Croatian, Danish, Estonian, Finnish, Galician, Greek, Hebrew, Norwegian, Portuguese, Romanian, Serbian, Slovak, Slovene Albanian, Asturian, Bosnian, Breton, Frisian, Friulian, Icelandic, Irish, Latvian, Limburgish, Lithuanian, Luxembourgish, Macedonian, Maltese, Occitan, Romany, Scots, Turkish, Vlax Romani, Welsh, Yiddish
  • 16. The META-NET Strategic Research Agenda for Multilingual Europe Strategic Research Agenda http://www.meta-net.eu 16
  • 17. LT Already Surrounds Us q  Spell/grammar checker in MS Word q  Voice dialing on the cellphone q  Web search in Google q  Speech generation in game software q  Computer-assisted language learning q  Optical character recognition q  Semantic text classification in Autonomy q  Speech control in cars q  Voice dialogues in call centers http://www.meta-net.eu 17
  • 18. Witnessing a Breakthrough q  q  q  q  q  q  q  Microsoft presents their latest speech translation technology IBM Watson wins Jeopardy Google renames its Division “Search” to “Knowledge” Siri improves the iPhone, Google responds by introducing Google Now (Android) Google Translate covers 60+ languages All large IT corporations, EC, EP and EPO deploy new generation translation technology UK Text Analytics Company Autonomy bought for 8bEUR by HP http://www.meta-net.eu 18
  • 19. Three Ingredients Appropriate Actors Appropriate Programme Research & Commercialisation Vision & Agenda Appropriate Support Funding http://www.meta-net.eu 19
  • 20. Strategic Research Agenda q  q  q  q  q  Addresses the problems we identified when preparing the white papers. Can put Europe ahead of its competitors in this technology area. 200 contributors; >2 years. 54% from industry; 46% from research; 4% from national and international institutions. Presented and discussed at 80+ conferences and major workshops. q  Published & presented in early 2013. q  http://www.meta-net.eu/sra http://www.meta-net.eu 20
  • 21. SRA: Contents – Brief Glimpse q  q  Set the stage and describe the European situation, the needs and the LT research and industry. Discuss the state of IT, predictions and mega-trends. q  Our technology vision for 2020. q  Select and specify priority themes. q  q  Suggest a model for speeding up innovation. Outline proposals for the organisation of research and innovation. http://www.meta-net.eu 21
  • 22. Translation Brokering Specialized MT/LT Services Trusted Service Broker Patents PR Brochures Informal Language Int. Company Names Automatic Summarization http://www.meta-net.eu Annual Reports Times and Places Human Post-Editing 22
  • 24. Crosslingual Virtual Meetings q  q  q  q  Individual realtime translation of speech, slides, and handwritten text (shared whiteboard) Automatic minutes Searchable recordings Use cases: §  Corporate §  E-democracy §  NGOs §  Expert discussions §  Fan clubs §  Consumer fora §  Medical self-help groups, etc. http://www.meta-net.eu 24
  • 25. Priority Research Themes q  Our priority themes (a) support technology progress, (b) lead to solutions that European society needs and (c) solutions from which European industry will benefit as users or as providers. §  Translingual Cloud §  Social Intelligence and e-Participation §  Socially-Aware Interactive Assistants q  Two additional themes: §  European Service Platform for Language Technologies §  Core Technologies for Language Analysis and Production http://www.meta-net.eu 25
  • 26. PT1: Translingual Cloud q  q  q  q  Europe has a big need for translations of publishable quality. Machine Translation for many European and important other languages. Focus on High-Quality Translation New research paradigms q  Stronger emphasis on the properties of individual languages Central role for semantics q  Methods for specific genres & domains q  http://www.meta-net.eu 26
  • 27. Priority Research Theme 1: Translingual Cloud Written (twitter, blog, article, newspaper, text with/without metadata etc.) or spoken input (spontaneous spoken language, video/audio, multiple speakers) Extending translation with semantic data and linked open data Modular combination of analysis, transfer and generation models From very fast but lower quality to slower but very high quality (including instant quality upgrades) Services and Technologies: Automatic translation and interpretation Language checking Post-editing Workbenches for creative translations Novel translation and authoring workflows Quality assurance Computer-supported human translation Multilingual content production and text authoring Trusted service centre (privacy, confidentiality, security of source data) Exploiting strong monolingual analysis and generation methods and resources Multiple target formats Domain, task and genre specialisation models Applications: Crosslingual communication, translation and search Real-time subtitling, voice-over generation and translating speech from live events Mobile interactive interpretation Any device Target groups: European citizen, language professional, organisations, companies, European institutions, software applications Multilingual content production (media, web, technical, legal documents) Showcases: translingual spaces for ambient translation Multiple target formats Single access point
  • 28. PT2: Social Intelligence q  q  q  q  q  q  q  q  Better decisions by monitoring social media Inclusion of citizens into collective decision processes Opinion formation, consensus building, decision making Evolution of new solutions New forms of democracy: e-democracy, massive participation, transparency Dialogues and debates across language boundaries and across parties, political alliances, social classes Better than binary voting Documented transparent decision processes http://www.meta-net.eu 28
  • 29. Priority Research Theme 2: Social Intelligence and e-Participation Mapping large, heterogeneous, unstructured volumes of online content to structured, actionable representations From shallow to deep, from coarse-grained to detailed processing techniques Making language technologies interoperable with knowledge representation and the semantic web “Semantification” of the web: tight integration with the Semantic Web and Linked Open Data Services and Technologies: especially social media, comments, blogs, forums decision-relevant information sentiment analysis and opinion mining including the temporal dimension) cues from arbitrary online content visualising discussions and opinion statements support Applications: Make use of the wisdom of the crowds and processes; modeling evolution of opinions collective deliberation and e-participation wide deliberation on pressing issues Unleashing social intelligence by detecting and monitoring opinions, demands, needs and problems - analysis technologies Target groups: European citizen, European institutions, discussion participants, companies Improved efficiency and quality of decision processes Understanding influence diffusion across social media
  • 30. PT3: Interactive Assistants q  q  q  q  q  q  q  Conversational agents with socially-aware behaviour, combination of analysis methods for speech, non-verbal and semantic signals. Support people in interacting with their environments. Human-computer, human-agent/robot, computer-mediated human/human interaction. Act in various environments, indoor and outdoor, also virtual (web, games). Understand agents’ intentions. Need to be able to adapt to user’s needs and environments. Learn incrementally from all interactions and information sources. http://www.meta-net.eu 30
  • 31. Priority Research Theme 3: Socially-Aware Interactive Assistants ments, any vocabulary recovery, selfassessment Multilingual capabilities Interacting naturally with and in groups Include human-computer, human-artificial agent and computer-mediated humanhuman communication Learning and forgetting information Adaptable to the user’s needs and preferences and the environment Services and Technologies: recognition understanding inter-dependencies and synthesis, providing expressive voices incremental conversational speech priority themes models of human communication Applications: dialogue systems modalities (visual, tactile, haptic) environment Proactive, self-aware, user-adaptable Interacts naturally with humans, in any language and modality Can be personalised to individual communication abilities including special needs verbal/non-verbal behaviour, social context Can learn incrementally from all interactions and other sources of information
  • 32. Providers of operational and research technologies and services National Language Institutions Language Service Providers Priority Research Theme 1: Translingual Cloud Language Processing Language Technology Providers Universities Priority Research Theme 2: Social Intelligence & e-Participation European Institutions Priority Research Theme 3: Socially Aware Interactive Assistants European Service Platform for Language Technologies (Cloud or Sky Computing Platform) Language Understanding Text analytics Multilingual technologies Text generation Information and relation extraction Knowledge Emotion/ Sentiment Language checking Sentiment analysis Named entity recognition Other companies (SMEs, startups etc.) Summarisation Knowledge access and management Data protection Tools Data Sets Resources Components Metadata Standards Interfaces APIs Catalogues Quality Assurance Data Import/Export Input/Output Storage Performance Availability Scalability Interfaces (web, speech, mobile etc.) Beneficiaries/users of the platform European Institutions Research Centres Public Administrations European Citizens Enterprises LT User Industries Universities Features Research Centres
  • 33. Core Resources & Technologies Icelandic Icelandic Finnish Finnish Norwegian Norwegian Estonian Swedish Estonian Swedish Lithuanian Danish Irish Latvian Polish Latvian Lithuanian Danish Irish Slovak English English Polish Dutch German Dutch Romanian Slovak Czech German Galician Hungarian Slovene Croatian Basque Portuguese Croatian French Serbian Basque Serbian Catalan Hungarian Slovene Romanian French Galician Czech Bulgarian Bulgarian Italian Catalan Portuguese Spanish Greek Spanish Italian Greek Maltese http://www.meta-net.eu Maltese 33
  • 34. Languages to be supported q  q  q  q  “The languages to be reflected with corresponding technologies include not only the official languages of the EU but also recognised and unrecognised regional languages and the languages of associated countries or non-member states.” “Equally important are the minority and immigrant languages that are in active use by a significant population in Europe.” “We need to intensify research and establish techniques, methods and instruments for research and knowledge transfer so that all countries can benefit as much as possible for their own language from the research carried out in other countries for other languages.” “Bootstrapping the set of core technologies and resources for all languages spoken in Europe is […] a challenge on the European scale […].” Quoted from META-NET Strategic Research Agenda for Multilingual Europe 2020. G. Rehm and H. Uszkoreit (eds.), Springer, 2013. Section 6.8, pages 66-67. http://www.meta-net.eu 34
  • 36. Recent Developments q  META-FORUM 2013 (Berlin), Sep. 19/20, 2013 q  Meeting with Commissioner Neelie Kroes (Brussels), Oct. 29, 2013 q  Workshop in the European Parliament (Brussels), Dec. 03, 2013 q  Update of the Cross-Language Comparison (LREC 2014 paper) q  MT@EC (EC-internal MT services) to cooperate with EP q  Connecting Europe Facility (CEF) q  Horizon 2020 q  Ongoing public interest in the “digital language extinction” topic (radio interviews, requests for statements for articles, requests to participate in panel discussions etc.) http://www.meta-net.eu 36
  • 37. STOA Workshop in the EP q  q  Science and Technology Options Assessment (STOA), Dec. 03, 2013 “State of the Art of Machine Translation – Current Challenges and Future Opportunities” http://www.europarl.europa.eu/stoa/cms/home/events/workshops/translation q  q  Presentations by research, industry, EC, EP Circa 80-90 participants http://www.meta-net.eu 37
  • 38. Horizon 2020 q  q  q  q  Work programme 2014/2015 – good news and bad news. ICT 17 – 2014: “Cracking the language barrier” Available budget for ICT 17: 15M€ (MT only!). Challenge: “The digital single market is still fragmented by language barriers that hamper a wide penetration of cross-border commerce, social communication and exchange of cultural content. […] The aim of this challenge is to launch interdisciplinary work leading to a new paradigm in overcoming the language barrier and progressively, to reach high quality for all language combinations and translation directions. […] Special focus is on the 21 EU languages (both as source and target languages) that have “fragmentary” or “weak/no” MT support according to the META-NET Language White Papers.” http://www.meta-net.eu 38
  • 39. Horizon 2020 q  ICT 17 – “Cracking the language barrier” – distribution of the 15M€: §  One large Research and Innovation Action (4M€) §  Circa five Innovation Actions (2M€ each) §  One Coordination Action (1M€) q  §  “Regional and minority languages are not excluded but they are not prioritized either.” (representative of the EC on ICT 17) Additional funding for language-related projects is available in several other challenges: §  ICT 22: Multimodal and natural computer interaction (31M€) §  ICT 15: Big and Open Data Innovation and Take-up (50M€) §  ICT 16: Big Data – research (39M€) http://www.meta-net.eu 39
  • 40. Connecting Europe Facility q  q  q  q  q  q  Digital Component of CEF (2014–2020): ca. 1B€. Automated Translation as one of the five main, horizontal building blocks (on the same level as, e.g., “Electronic identification and authentication” and “Electronic delivery of documents”). AT: machine translation engines and specialised language resources including the necessary tools and APIs needed to operate the panEuropean digital services in a multilingual environment. AT is considered to be an important and obligatory component of Europe’s future digital infrastructure! CEF is about deployment of existing technologies only –research is not eligible for funding. But: The language pairs for the AT Building Block CEF will be demand driven. Demonstrate demand! http://www.meta-net.eu 40
  • 42. Conclusions q  q  q  q  q  q  q  Europe is extremely interested in and passionate about its languages. Our Strategic Research Agenda for LT research and innovation can put Europe ahead of its competitors in this technology area. Provides useful and attractive solutions to European society, at the same time creating huge business opportunities for European industry. Now is the time to move forward with a continent-wide, systematic push and to invest in strategic research. A modest investment is required. We are very confident that we can help build applications that break down language barriers in Europe and beyond. This push will generate a countless number of opportunities. Horizon 2020 and, partially, CEF can provide some resources to make our visions for Europe’s citizens and economy a reality. http://www.meta-net.eu 42
  • 43. Conclusions q  q  Situation of regional and minority languages is difficult! Political: the EU/EC level very much concentrates on the languages in danger of digital extinction. Nevertheless, not all of these are official Member State languages! Regional and minority languages are not excluded per se. q  Technological: for most regional and minority languages only very few technologies exist. There are no “one size fits all”-technologies in our toolboxes that can be immediately applied to new languages! http://www.meta-net.eu 43
  • 44. Recommendations 1.  Build toy systems and prototypes for your languages with off-the-shelf tools and the help of local (computational) linguists. Promote and share them through repositories. 2.  Intensify (computational) linguistics research for regional and minority languages. Build and share language resources. 3.  Make use of the European Commission’s Structural Funds. 4.  Intensify research and technology transfer between well equipped and regional and minority languages. (CCURL 2014 Workshop.) 5.  Intensify collaboration among the language community bodies (NPLD, EFNIL, Council of Europe ComEx on Language Charter, Maaya World Network for Ling. Diversity). Be prepared to speak with one voice! 6.  Talk to innovators and app developers to somehow bring your language to the youth through modern technologies (gamification?). http://www.meta-net.eu 44
  • 45. Diolch yn fawr iawn i chi! Acknowledgements: This work would not have been possible without the dedication and commitment of our colleagues Aljoscha Burchardt, Kathrin Eichler, Tina Klüwer, Arle Lommel, Felix Sasaki and Hans Uszkoreit (all DFKI), the 60 member organisations of the META-NET network of excellence, the ca. 70 members of the Vision Groups, the ca. 30 members of the META Technology Council, the more than 200 authors of and contributors to the META-NET Language White Paper Series and the ca. 200 representatives from industry and research who contributed to the META-NET Strategic Research Agenda. http://www.meta-net.eu Vision Group Translation and Localisation Vision Group Interactive Systems 2010 META-NET Website Vision Group Media and Information Services 2011 2012 Language White Paper Series 2013 Strategic Research Agenda http://www.meta-net.eu http://www.facebook.com/META.Alliance Horizon 2020 Conne Deliverin 2014-2020 Transport Energy Connect
  • 46.
  • 47. META-SHARE: An Open Resource Exchange Infrastructure Georg Rehm Network Manager META-NET DFKI, Berlin, Germany georg.rehm@dfki.de Using the Potential of Technology to Promote CRSS Language Usage Cardiff, Wales, UK – January 24, 2014 Co-funded by the 7th Framework Programme and the ICT Policy Support Programme of the European Commission through the contracts T4ME, CESAR, METANET4U, META-NORD (grant agreements no. 249119, 271022, 270893, 270899).
  • 48. META-SHARE at a Glance q  q  q  q  Open exchange infrastructure for language resources and tools. Language resources and tools are documented, uploaded, stored in repositories, catalogued, can be downloaded, shared, discussed. Improve their visibility, documentation, identification, availability, preservation, interoperability. Long-term goal: boost research, technology and innovation through wide availability, pooling, openness and sharing of resources. q  Repositories store and maintain inventories of resources and tools. q  Metadata inventories are exported and harvested in the network. q  Currently 27 repositories up and running; 2.300+ LRs available. http://www.meta-net.eu 48
  • 50.
  • 51.
  • 52.
  • 53.
  • 54.
  • 55.
  • 56.
  • 59. Gartner Hype Cycle 2012 13 of the 48 emerging technologies are language technologies!