4. AnHitz proiektua
Zer da AnHitz proiektua AnHitz demoa
BerbaTek proiektua
• AnHitz zera da:
– ikerketa estrategikoko proiektua
– hizkuntz teknologietan
– Eusko Jaurlaritzako Industria eta Kultura sailek
Etortek programaren bidez diruz lagundua
– bost kideko partzuergo batek aurrera eramana
– 2006-2008 tartean
9. AnHitz proiektua
Hizkuntz teknologiak (V) AnHitz demoa
BerbaTek proiektua
• Oinarrizko tresnak
– Analizatzaile morfologikoak
– Analizatzaile sintaktikoak
– Lematizatzaileak
– Entitate ezagutzaileak
– ...
10. AnHitz proiektua
Hizkuntz teknologiak (VI) AnHitz demoa
BerbaTek proiektua
• Beste batzuk
– Irudien ezagutza
– Pertsona-gailu interfazeak
– Elkarrizketa sistemak
– ...
11. AnHitz proiektua
AnHitz partzuergoa (I) AnHitz demoa
BerbaTek proiektua
• VICOMTech (IK4)
– Ordenagailu bidezko elkarrekintzazko grafikoetan eta
multimedia digitalean ikerketa aplikatuko zentroa
– AnHitz proiektuan:
• Liderra
• Ikus-interfazeak
12. AnHitz proiektua
AnHitz partzuergoa (II) AnHitz demoa
BerbaTek proiektua
• Robotiker (Tecnalia)
– IKTetan eta produktuen garapenean espezializatutako
zentro teknologikoa
– AnHitz proiektuan:
• Aplikazioen integrazioa
13. AnHitz proiektua
AnHitz partzuergoa (III) AnHitz demoa
BerbaTek proiektua
• Elhuyar
– Zientzia eta euskara uztartzea eta euskararen
corpusaren eta estatusaren normalizazioa helburu
duen irabazi asmorik gabeko fundazioa
– AnHitz proiektuan:
• Corpusak
• Terminologia erauzketa
• Informazioaren berreskurapena
14. AnHitz proiektua
AnHitz partzuergoa (IV) AnHitz demoa
BerbaTek proiektua
• IXA Taldea (EHU)
– Lengoaia naturalaren prozesamenduan aritzen den
ikerketa-taldea
– AnHitz proiektuan:
• Oinarrizko tresnak
• Itzulpen automatikoa
• Galderak erantzuteko sistemak
15. AnHitz proiektua
AnHitz partzuergoa (V) AnHitz demoa
BerbaTek proiektua
• Aholab Taldea (EHU)
– Ahotsaren eta seinaleen tratamenduan aritzen den
ikerketa-taldea
– AnHitz proiektuan:
• Ahotsaren sintesia
• Ahotsaren ezagutza
• Hizlariaren ezagutza
16. AnHitz proiektua
AnHitz-en emaitzak (I) AnHitz demoa
BerbaTek proiektua
• Testu-baliabideak
– ZT Corpusa
• zientzia eta teknologiazko testuen Corpusa
• http://www.ztcorpusa.net/
– EPEC corpusa
• morfologikoki, sintaktikoki eta semantikoki etiketatuta eta
eskuz desanbiguatuta
• http://clic.ub.edu/ancora
– EuSemCor
• semantikoki etiketatutako euskarazko corpusa
• http://sisx04.si.ehu.es:8080/eusemcor/
17. AnHitz proiektua
AnHitz-en emaitzak (II) AnHitz demoa
BerbaTek proiektua
• Ahots-baliabideak
– SpeechDat-EU
• euskarazko ahotsezko bi datu-base
• telefonotatik eta telefono mugikorretatik lortuak
– EmoDB
• euskarazko emoziodun ahotsezko bi datu-base
– Bizkaifon
• bizkaieraren fonoteka
• http://bizkaifon.ehu.es/
18. AnHitz proiektua
AnHitz-en emaitzak (III) AnHitz demoa
BerbaTek proiektua
• Testuzko tresnak
– Erauzterm
• terminologia erauzketa euskarazko corpusetatik
– ElexBI
• terminologia erauzketa elebiduna corpus paraleloetatik
– AzerHitz
• terminologia erauzketa elebiduna corpus konparagarrietatik
19. AnHitz proiektua
AnHitz-en emaitzak (IV) AnHitz demoa
BerbaTek proiektua
• Testuzko tresnak (II)
– CorpEus
• Internet euskarazko corpus erraldoi gisa
• http://www.corpeus.org/
– DokuSare
• dokumentu eleanitzen artean eduki antzekodunak
identifikatzeko
– Elezkari
• bilatzaile eleanitza
25. AnHitz proiektua
Zer da AnHitz demoa (I) AnHitz demoa
BerbaTek proiektua
• AnHitz proiektuan garatutako hainbat hizkuntza-,
ahots- eta ikus-teknologia elkarlanean
• Zientzia eta Teknologiako aditua
• Interakzioa ahotsez eta euskaraz, 3Dko avatar
baten bidez
26. AnHitz proiektua
Zer da AnHitz demoa (II) AnHitz demoa
BerbaTek proiektua
• Bi kontsulta mota:
– Galderak erantzun
• nork asmatu zuen teleskopioa?
• noiz aurkitu zuten penizilina?
• non jaio zen Newton?
• non dago Nilo ibaia?
– Termino bilaketa testu-bilduma eleaniztun baten, eta
euskaraz ez dauden emaitzak automatikoki itzuli
• ozono-geruza
• energia berriztagarriak
• biomasa
27. AnHitz proiektua
Teknologien integrazioa (I) AnHitz demoa
BerbaTek proiektua
• 3D avatarra (VICOMTech)
• Testu-ahots bihurgailu eleanitza (Aholab)
• Euskarazko ahots-ezagutza (Robotiker, Aholab)
• Euskarazko galderak erantzuteko sistema (IXA)
• Termino-bilaketa eleanitza (Elhuyar)
• Itzulpen automatikoa (IXA)
• Zientzia eta Teknologiazko corpus eleanitzak
(Elhuyar)
• Dena integratzeko sistema (Elhuyar)
28. AnHitz proiektua
Teknologien integrazioa (II) AnHitz demoa
BerbaTek proiektua
Galdera
Zientzia eta
(eu)
Teknologiazko
QA
Avatarra dokumentu-
(eu)
bilduma
Erantzuna(k)
(eu)
(eu)
ERA Bilatzeko hitza(k)
BIL (eu)
Ahotsa
(eu)
ASR
(eu)
Testua
(eu) SISTEMA
TZAI Dokumentuak Zientzia eta
Teknologiazko
(eu)
LEA CLIR dokumentu-
bilduma
(eu-es-en)
(eu-es-en)
Dok-ak MT Dok-ak
(eu) (es-eu) (es)
Ahotsa TTS Testua
(eu) (eu) (eu)
Dok-ak MT Dok-ak
(eu) (en-eu) (en)
30. AnHitz proiektua
Ebaluazioa (I) AnHitz demoa
BerbaTek proiektua
• Demoa ebaluatu egin da
– 50 pertsona
– Bakoitzak 3 galdera eta 3 bilaketa
– Galdetegi bat bete
31. AnHitz proiektua
Ebaluazioa (II) AnHitz demoa
BerbaTek proiektua
• Ahotsaren ezagutza
Asmatze-maila %
Ongi 63,19
Zalantzan baina ongi 12,59
Gaizki baina errepikatzeko aukera 13,43
Gaizki 10,79
Sistemak ulertu al dizu zuk esandakoa? %
Ia beti 16,33
Gehienetan 38,78
Batzutan 34,69
Gutxitan 10,20
Ia inoiz ez 0,00
32. AnHitz proiektua
Ebaluazioa (III) AnHitz demoa
BerbaTek proiektua
• Ahotsaren sorkuntza
Sistemak esaten duena ongi ulertzen al da? %
Oso ongi 66,67
Ongi 18,75
Nahiko ongi 14,58
Gaizki 0,00
Oso gaizki 0,00
Naturala al zen sistemaren hizkera? %
Oso naturala 10,42
Naturala 33,33
Nahiko naturala 31,25
Artifiziala 22,92
Oso artifiziala 2,08
33. AnHitz proiektua
Ebaluazioa (IV) AnHitz demoa
BerbaTek proiektua
• Galderak erantzutea
Erantzun zuzena non eman dizu? %
1. aukeran 30,61
2. aukeran 8,16
3. aukeran 1,02
4. aukeran 3,06
5. aukeran 3,06
Erantzun zuzena ez zegoen aukeren artean 36,73
Ez du inongo erantzunik eman 17,35
34. AnHitz proiektua
Ebaluazioa (V) AnHitz demoa
BerbaTek proiektua
• Termino bilaketa eleanitza
Zer iruditu zaizkizu bueltatutako emaitzak? %
Oso egokiak 28,06
Egokiak 40,29
Nahiko txarrak 22,30
Ez dute zerikusirik nahi nuenarekin 9,35
35. AnHitz proiektua
Ebaluazioa (VI) AnHitz demoa
BerbaTek proiektua
• Itzulpen automatikoa
Zer iruditu zaizkizu emaitzen itzulpenak? %
Oso onak 4,44
Onak 8,89
Nahiko onak 16,67
Ulertzeko modukoak 38,89
Nahiko txarrak 26,67
Txarrak 2,22
Oso txarrak 2,22
36. AnHitz proiektua
Ebaluazioa (VII) AnHitz demoa
BerbaTek proiektua
• Balorazio orokorra
Sistema erabilgarria dela iruditzen al zaizu? %
Oso erabilgarria 25,00
Erabilgarria 37,50
Nahiko erabilgarria 37,50
Ez erabilgarria 0,00
Guztiz ez erabilgarria 0,00
Interakzio sistema hau beste erabilera batzuetan egokia al da? %
Bai, makinekin beti horrela izan beharko litzateke 20,83
Kasu askotan bai 39,58
Kasu batzuetan 39,58
Kasu gutxitan 0,00
Ez 0,00
39. AnHitz proiektua
Orain arteko proiektuak AnHitz demoa
BerbaTek proiektua
• Hizking21:
– 2002-2004
– Hasierako tresnak eta hizkuntz baliabideak
• AnHitz:
– 2006-2008
– Aplikazio aurreratuagoak
– Integrazioa
40. AnHitz proiektua
BerbaTek proiektua (I) AnHitz demoa
BerbaTek proiektua
• 2009-2011
• Ikerketa eta garapena
– Hizkuntz teknologiak
– Ahots-teknologiak
– Multimedia-teknologiak
41. AnHitz proiektua
BerbaTek proiektua (II) AnHitz demoa
BerbaTek proiektua
• Hizkuntzen Industriaren sektorea oinarri
teknologikoz hornitzeko
– Itzulpengintza
• itzulpengintza, software lokalizazioa, interpretazioa,
bikoizketa...
– Edukiak
• hiztegiak, egunkariak, liburuak, irakaskuntza-materiala,
ikus-entzunezkoak...
– Irakaskuntza
• hizkuntzen irakaskuntza, irakaskuntza arautua...
42. AnHitz proiektua
Helburuak (I) AnHitz demoa
BerbaTek proiektua
• Corpusak
– Internetetik corpus elebakar, paralelo eta
konparagarriak automatikoki
• Hiztegiak
– Hiztegi berriak pibotaje bidez
– Terminologia erauzketarekin jarraitu
• Ontologia lexikalak
– Domeinu-ontologien erauzketa automatikoa
• Analizatzaileak
– Sintaktikoa, semantikoa
43. AnHitz proiektua
Helburuak (II) AnHitz demoa
BerbaTek proiektua
• Itzulpen automatikoa
– Erregeletan oinarritutakoa hobetu
– Estatistikoa
– Adibideetan oinarritutakoa
– Hibridoa
– Interlingua
– Aurredizioa
– Postedizioa
44. AnHitz proiektua
Helburuak (III) AnHitz demoa
BerbaTek proiektua
• Informazio erauzketa
– Dokumentuen mapa kontzeptualak
– Laburpen automatikoa
– RDF ezagutza-baseen erauzketa
• Galderak erantzutea
– Elebakarrarekin jarraitu
– Eleanitza
– RDF ezagutza-baseen gainean