IT in majhni jeziki

  • 739 views
Uploaded on

TEDxLjubljana talk on the preservation of language and language use through information technology.

TEDxLjubljana talk on the preservation of language and language use through information technology.

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
739
On Slideshare
0
From Embeds
0
Number of Embeds
1

Actions

Shares
Downloads
0
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. IT in “majhni” jeziki Tadej Gregorčič
  • 2. “Majhni” jeziki • 6912+ jezikov • 3500 jezikov govori 0,2 % ljudi • 40% ogroženih • Čez 100 let živih samo še 600?
  • 3. Ogroženi jeziki
  • 4. Internet • Internet: 90% vsebine v samo 12 jezikih • Jeziki in mediji • Unicode
  • 5. Slovenski jezik • Zgornji 3% po številu govorcev • 96% jezikov je manjših • EU • Ogroženost?
  • 6. Ohranjanja
  • 7. Ohranitev znanja jezika • Smithsonian Institute • Rosetta Project • Unesco • Revitalizacija • Ponovna obuditev
  • 8. Ohranitev smotrnosti uporabe jezika • Dosledna raba • Slovarji, orodja • Prevajalniki • Napredna jezikovna orodja (TTS, SR)
  • 9. Jezikovne tehnologije • Strojno prevajanje • Sinteza govora • Prepoznava govora • ... • Napredek v eni kategoriji - višja komercialna upravičenost drugih
  • 10. Jezikovne tehnologije • Strojno prevajanje • Sinteza govora • Prepoznava govora • ... • Napredek v eni kategoriji - višja komercialna upravičenost drugih
  • 11. 2005 • Systran (fr.) • Yahoo!, Altavista Babelfish • Google • Pravila + statistika
  • 12. Sprotno prevajanje • Prepoznava govora (jezik 1) • Prevod teksta (Systran API) • Sinteza govora (jezik 2) • Jezik: podatki (besede, morfemi, itd.) + koda (slovnica, izgovorjava)
  • 13. 2006+ • Google Translate Systran • Korpusi ZN • Statistika (ogromno podatkov, koda )
  • 14. Vzporedni korpusi • evrokorpus.gov.si • Translation memory (Trados ipd.) • TM vladnih inštitucij •?
  • 15. Vzporedni korpusi • evrokorpus.gov.si • Translation memory (Trados ipd.) • TM vladnih inštitucij • Primer: biblija
  • 16. Google Translate
  • 17. Crowdsourcing • Deluje (Wikipedia) • Napačen prevod - naravni motivator • Relativno hiter napredek • Vendar: nestrokovno
  • 18. Junij, 2009
  • 19. Google Translator Toolkit • Junij, 2009 (oktobra dodanih 200+ jezikov) • “Open Trados” • Globalni TM • Google TT + Google Translate • 345 jezikov, 10.664 jezikovnih parov
  • 20. Google Translator Toolkit • Produktivnejši prevajalci • Motivacija za prispevek v skupni TM • GT pred-prevede besedilo • Ogromni vzporedni korpusi • Strokovni prevod!
  • 21. Rezultati danes ...
  • 22. Samodejno podnaslavljanje
  • 23. Rezultati kmalu ...
  • 24. AR, “augmented reality”
  • 25. :)