IT in “majhni” jeziki
     Tadej Gregorčič
“Majhni” jeziki

• 6912+ jezikov
• 3500 jezikov govori 0,2 % ljudi
• 40% ogroženih
• Čez 100 let živih samo še 600?
Ogroženi jeziki
Internet

• Internet: 90% vsebine v samo 12 jezikih
• Jeziki in mediji
• Unicode
Slovenski jezik

• Zgornji 3% po številu govorcev
• 96% jezikov je manjših
• EU
• Ogroženost?
Ohranjanja
Ohranitev znanja jezika

• Smithsonian Institute
• Rosetta Project
• Unesco
• Revitalizacija
• Ponovna obuditev
Ohranitev smotrnosti
     uporabe jezika

• Dosledna raba
• Slovarji, orodja
• Prevajalniki
• Napredna jezikovna orodja (T...
Jezikovne tehnologije
• Strojno prevajanje
• Sinteza govora
• Prepoznava govora
• ...
• Napredek v eni kategoriji - višja
...
Jezikovne tehnologije
• Strojno prevajanje
• Sinteza govora
• Prepoznava govora
• ...
• Napredek v eni kategoriji - višja
...
2005

• Systran (fr.)
• Yahoo!, Altavista Babelfish
• Google
• Pravila + statistika
Sprotno prevajanje
• Prepoznava govora (jezik 1)
• Prevod teksta (Systran API)
• Sinteza govora (jezik 2)

• Jezik: podatk...
2006+

• Google Translate Systran
• Korpusi ZN
• Statistika (ogromno podatkov,   koda )
Vzporedni korpusi

• evrokorpus.gov.si
• Translation memory (Trados ipd.)
• TM vladnih inštitucij
•?
Vzporedni korpusi

• evrokorpus.gov.si
• Translation memory (Trados ipd.)
• TM vladnih inštitucij
• Primer: biblija
Google Translate
Crowdsourcing


• Deluje (Wikipedia)
• Napačen prevod - naravni motivator
• Relativno hiter napredek
• Vendar: nestrokovno
Junij, 2009
Google Translator Toolkit

• Junij, 2009 (oktobra dodanih 200+ jezikov)
• “Open Trados”
• Globalni TM
• Google TT + Google...
Google Translator Toolkit

• Produktivnejši prevajalci
• Motivacija za prispevek v skupni TM
• GT pred-prevede besedilo
• ...
Rezultati danes ...
Samodejno podnaslavljanje
Rezultati kmalu ...
AR, “augmented reality”
:)
IT in majhni jeziki
IT in majhni jeziki
IT in majhni jeziki
IT in majhni jeziki
IT in majhni jeziki
IT in majhni jeziki
IT in majhni jeziki
IT in majhni jeziki
IT in majhni jeziki
IT in majhni jeziki
IT in majhni jeziki
IT in majhni jeziki
IT in majhni jeziki
IT in majhni jeziki
IT in majhni jeziki
IT in majhni jeziki
IT in majhni jeziki
IT in majhni jeziki
IT in majhni jeziki
IT in majhni jeziki
IT in majhni jeziki
IT in majhni jeziki
Upcoming SlideShare
Loading in …5
×

IT in majhni jeziki

940 views

Published on

TEDxLjubljana talk on the preservation of language and language use through information technology.

Published in: Technology, News & Politics
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
940
On SlideShare
0
From Embeds
0
Number of Embeds
9
Actions
Shares
0
Downloads
3
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide
  • IT in majhni jeziki

    1. 1. IT in “majhni” jeziki Tadej Gregorčič
    2. 2. “Majhni” jeziki • 6912+ jezikov • 3500 jezikov govori 0,2 % ljudi • 40% ogroženih • Čez 100 let živih samo še 600?
    3. 3. Ogroženi jeziki
    4. 4. Internet • Internet: 90% vsebine v samo 12 jezikih • Jeziki in mediji • Unicode
    5. 5. Slovenski jezik • Zgornji 3% po številu govorcev • 96% jezikov je manjših • EU • Ogroženost?
    6. 6. Ohranjanja
    7. 7. Ohranitev znanja jezika • Smithsonian Institute • Rosetta Project • Unesco • Revitalizacija • Ponovna obuditev
    8. 8. Ohranitev smotrnosti uporabe jezika • Dosledna raba • Slovarji, orodja • Prevajalniki • Napredna jezikovna orodja (TTS, SR)
    9. 9. Jezikovne tehnologije • Strojno prevajanje • Sinteza govora • Prepoznava govora • ... • Napredek v eni kategoriji - višja komercialna upravičenost drugih
    10. 10. Jezikovne tehnologije • Strojno prevajanje • Sinteza govora • Prepoznava govora • ... • Napredek v eni kategoriji - višja komercialna upravičenost drugih
    11. 11. 2005 • Systran (fr.) • Yahoo!, Altavista Babelfish • Google • Pravila + statistika
    12. 12. Sprotno prevajanje • Prepoznava govora (jezik 1) • Prevod teksta (Systran API) • Sinteza govora (jezik 2) • Jezik: podatki (besede, morfemi, itd.) + koda (slovnica, izgovorjava)
    13. 13. 2006+ • Google Translate Systran • Korpusi ZN • Statistika (ogromno podatkov, koda )
    14. 14. Vzporedni korpusi • evrokorpus.gov.si • Translation memory (Trados ipd.) • TM vladnih inštitucij •?
    15. 15. Vzporedni korpusi • evrokorpus.gov.si • Translation memory (Trados ipd.) • TM vladnih inštitucij • Primer: biblija
    16. 16. Google Translate
    17. 17. Crowdsourcing • Deluje (Wikipedia) • Napačen prevod - naravni motivator • Relativno hiter napredek • Vendar: nestrokovno
    18. 18. Junij, 2009
    19. 19. Google Translator Toolkit • Junij, 2009 (oktobra dodanih 200+ jezikov) • “Open Trados” • Globalni TM • Google TT + Google Translate • 345 jezikov, 10.664 jezikovnih parov
    20. 20. Google Translator Toolkit • Produktivnejši prevajalci • Motivacija za prispevek v skupni TM • GT pred-prevede besedilo • Ogromni vzporedni korpusi • Strokovni prevod!
    21. 21. Rezultati danes ...
    22. 22. Samodejno podnaslavljanje
    23. 23. Rezultati kmalu ...
    24. 24. AR, “augmented reality”
    25. 25. :)

    ×