SlideShare a Scribd company logo
1 of 49
Download to read offline
Euskararako hizkuntz
 teknologiak batuz:
  AnHitz proiektua




     Igor Leturia – Elhuyar Fundazioa
 IEB 2009 – 2009/05/07 – Donostia
Edukia

• AnHitz proiektua
• AnHitz demoa
• BerbaTek proiektua
Edukia

• AnHitz proiektua
• AnHitz demoa
• BerbaTek proiektua
AnHitz proiektua


       Zer da AnHitz proiektua                         AnHitz demoa

                                                       BerbaTek proiektua




• AnHitz zera da:
  – ikerketa estrategikoko proiektua
  – hizkuntz teknologietan
  – Eusko Jaurlaritzako Industria eta Kultura sailek
    Etortek programaren bidez diruz lagundua
  – bost kideko partzuergo batek aurrera eramana
  – 2006-2008 tartean
AnHitz proiektua


       Hizkuntz teknologiak (I)            AnHitz demoa

                                           BerbaTek proiektua




• Ediziorako laguntzak
  – Hiztegi elektronikoak
  – Zuzentzaileak
     • ortografia, gramatika, estiloa...
  – Karaktereen ezagutza
  – Itzulpenetan laguntzeko programak
  – ...
AnHitz proiektua


     Hizkuntz teknologiak (II)                          AnHitz demoa

                                                        BerbaTek proiektua




• Edukien kudeaketa
  – Informazioaren berreskurapena
    • elebakarra, eleanitza...
  – Informazio-erauzketa
    • laburpen automatikoa, terminologia-erauzketa...
  – Dokumentuen sailkapena
  – Testuen sorkuntza
  – Itzulpen automatikoa
  – Galderak erantzutea
  – ...
AnHitz proiektua


     Hizkuntz teknologiak (III)   AnHitz demoa

                                  BerbaTek proiektua




• Ahotsaren teknologiak
  – Ahotsaren sintesia
  – Ahotsaren ezagutza
  – Hizlariaren ezagutza
  – Ahotsaren analisia
  – ...
AnHitz proiektua


      Hizkuntz teknologiak (IV)     AnHitz demoa

                                    BerbaTek proiektua




• Oinarrizko baliabideak
  – Datu-base lexikalak
  – Ontologia lexikoak
  – Testu-corpusak
     • elebakarrak, eleanitzak...
  – Itzulpen memoriak
  – Ahots-corpusak
  – ...
AnHitz proiektua


      Hizkuntz teknologiak (V)    AnHitz demoa

                                  BerbaTek proiektua




• Oinarrizko tresnak
  – Analizatzaile morfologikoak
  – Analizatzaile sintaktikoak
  – Lematizatzaileak
  – Entitate ezagutzaileak
  – ...
AnHitz proiektua


     Hizkuntz teknologiak (VI)   AnHitz demoa

                                 BerbaTek proiektua




• Beste batzuk
  – Irudien ezagutza
  – Pertsona-gailu interfazeak
  – Elkarrizketa sistemak
  – ...
AnHitz proiektua


       AnHitz partzuergoa (I)                     AnHitz demoa

                                                  BerbaTek proiektua




• VICOMTech (IK4)
  – Ordenagailu bidezko elkarrekintzazko grafikoetan eta
    multimedia digitalean ikerketa aplikatuko zentroa
  – AnHitz proiektuan:
    • Liderra
    • Ikus-interfazeak
AnHitz proiektua


       AnHitz partzuergoa (II)                  AnHitz demoa

                                                BerbaTek proiektua




• Robotiker (Tecnalia)
  – IKTetan eta produktuen garapenean espezializatutako
    zentro teknologikoa
  – AnHitz proiektuan:
     • Aplikazioen integrazioa
AnHitz proiektua


      AnHitz partzuergoa (III)                   AnHitz demoa

                                                 BerbaTek proiektua




• Elhuyar
  – Zientzia eta euskara uztartzea eta euskararen
    corpusaren eta estatusaren normalizazioa helburu
    duen irabazi asmorik gabeko fundazioa
  – AnHitz proiektuan:
    • Corpusak
    • Terminologia erauzketa
    • Informazioaren berreskurapena
AnHitz proiektua


      AnHitz partzuergoa (IV)                  AnHitz demoa

                                               BerbaTek proiektua




• IXA Taldea (EHU)
  – Lengoaia naturalaren prozesamenduan aritzen den
    ikerketa-taldea
  – AnHitz proiektuan:
    • Oinarrizko tresnak
    • Itzulpen automatikoa
    • Galderak erantzuteko sistemak
AnHitz proiektua


       AnHitz partzuergoa (V)                   AnHitz demoa

                                                BerbaTek proiektua




• Aholab Taldea (EHU)
  – Ahotsaren eta seinaleen tratamenduan aritzen den
    ikerketa-taldea
  – AnHitz proiektuan:
    • Ahotsaren sintesia
    • Ahotsaren ezagutza
    • Hizlariaren ezagutza
AnHitz proiektua


       AnHitz-en emaitzak (I)                             AnHitz demoa

                                                          BerbaTek proiektua




• Testu-baliabideak
  – ZT Corpusa
    • zientzia eta teknologiazko testuen Corpusa
    • http://www.ztcorpusa.net/
  – EPEC corpusa
    • morfologikoki, sintaktikoki eta semantikoki etiketatuta eta
      eskuz desanbiguatuta
    • http://clic.ub.edu/ancora
  – EuSemCor
    • semantikoki etiketatutako euskarazko corpusa
    • http://sisx04.si.ehu.es:8080/eusemcor/
AnHitz proiektua


       AnHitz-en emaitzak (II)                            AnHitz demoa

                                                          BerbaTek proiektua




• Ahots-baliabideak
  – SpeechDat-EU
    • euskarazko ahotsezko bi datu-base
    • telefonotatik eta telefono mugikorretatik lortuak
  – EmoDB
    • euskarazko emoziodun ahotsezko bi datu-base
  – Bizkaifon
    • bizkaieraren fonoteka
    • http://bizkaifon.ehu.es/
AnHitz proiektua


      AnHitz-en emaitzak (III)                           AnHitz demoa

                                                         BerbaTek proiektua




• Testuzko tresnak
  – Erauzterm
    • terminologia erauzketa euskarazko corpusetatik
  – ElexBI
    • terminologia erauzketa elebiduna corpus paraleloetatik
  – AzerHitz
    • terminologia erauzketa elebiduna corpus konparagarrietatik
AnHitz proiektua


       AnHitz-en emaitzak (IV)                          AnHitz demoa

                                                        BerbaTek proiektua




• Testuzko tresnak (II)
  – CorpEus
     • Internet euskarazko corpus erraldoi gisa
     • http://www.corpeus.org/
  – DokuSare
     • dokumentu eleanitzen artean eduki antzekodunak
       identifikatzeko
  – Elezkari
     • bilatzaile eleanitza
AnHitz proiektua


        AnHitz-en emaitzak (V)                      AnHitz demoa

                                                    BerbaTek proiektua




• Testuzko aplikazioak
  – EusBila
     • euskarazko bilatzailea
     • http://www.elebila.eu
  – Opentrad-Matxin
     • gaztelania-euskara itzultzaile automatikoa
     • http://www.opentrad.org
  – Ingelesa-euskara itzultzaile automatiko estatistikoa
AnHitz proiektua


      AnHitz-en emaitzak (VI)                            AnHitz demoa

                                                         BerbaTek proiektua




• Ahotsezko aplikazioak
  – AhoTTS
    • testu-ahots bihurgailua hiru hizkuntzatan eta emozioekin
    • http://aholab.ehu.es/tts/tts_en.html
  – Testu-ahots bihurgailua PDAtarako
  – Hitz eta esaldi isolatuen ezagutza sistema
    euskararako
  – Hizlarien ezagutza
AnHitz proiektua


      AnHitz-en emaitzak (VII)                AnHitz demoa

                                              BerbaTek proiektua




• Argitalpen ugari nazioarteko kongresu eta
  aldizkari zientifikoetan
Edukia

• AnHitz proiektua
• AnHitz demoa
• BerbaTek proiektua
Edukia

• AnHitz proiektua
• AnHitz demoa
• BerbaTek proiektua
AnHitz proiektua


      Zer da AnHitz demoa (I)               AnHitz demoa

                                            BerbaTek proiektua




• AnHitz proiektuan garatutako hainbat hizkuntza-,
  ahots- eta ikus-teknologia elkarlanean
• Zientzia eta Teknologiako aditua
• Interakzioa ahotsez eta euskaraz, 3Dko avatar
  baten bidez
AnHitz proiektua


      Zer da AnHitz demoa (II)                    AnHitz demoa

                                                  BerbaTek proiektua




• Bi kontsulta mota:
  – Galderak erantzun
     • nork asmatu zuen teleskopioa?
     • noiz aurkitu zuten penizilina?
     • non jaio zen Newton?
     • non dago Nilo ibaia?
  – Termino bilaketa testu-bilduma eleaniztun baten, eta
    euskaraz ez dauden emaitzak automatikoki itzuli
     • ozono-geruza
     • energia berriztagarriak
     • biomasa
AnHitz proiektua


    Teknologien integrazioa (I)            AnHitz demoa

                                           BerbaTek proiektua




• 3D avatarra (VICOMTech)
• Testu-ahots bihurgailu eleanitza (Aholab)
• Euskarazko ahots-ezagutza (Robotiker, Aholab)
• Euskarazko galderak erantzuteko sistema (IXA)
• Termino-bilaketa eleanitza (Elhuyar)
• Itzulpen automatikoa (IXA)
• Zientzia eta Teknologiazko corpus eleanitzak
  (Elhuyar)
• Dena integratzeko sistema (Elhuyar)
AnHitz proiektua


 Teknologien integrazioa (II)                                                                  AnHitz demoa

                                                                                               BerbaTek proiektua




                                                          Galdera
                                                                                               Zientzia eta
                                                           (eu)
                                                                                              Teknologiazko
                                                                                    QA
                 Avatarra                                                                      dokumentu-
                                                                                    (eu)
                                                                                                 bilduma
                                                         Erantzuna(k)
                                                                                                   (eu)
                                                             (eu)


ERA                                                Bilatzeko hitza(k)

 BIL                                                      (eu)
       Ahotsa
        (eu)
                  ASR
                  (eu)
                            Testua
                             (eu)     SISTEMA
TZAI                                                     Dokumentuak                           Zientzia eta
                                                                                              Teknologiazko
                                                             (eu)
LEA                                                                                CLIR        dokumentu-
                                                                                                 bilduma
                                                                                 (eu-es-en)
                                                                                                (eu-es-en)
                                                Dok-ak       MT         Dok-ak
                                                 (eu)      (es-eu)       (es)
        Ahotsa    TTS        Testua
         (eu)     (eu)        (eu)
                                                Dok-ak       MT         Dok-ak
                                                 (eu)      (en-eu)       (en)
AnHitz proiektua


Demoa   AnHitz demoa

        BerbaTek proiektua
AnHitz proiektua


              Ebaluazioa (I)             AnHitz demoa

                                         BerbaTek proiektua




• Demoa ebaluatu egin da
  – 50 pertsona
  – Bakoitzak 3 galdera eta 3 bilaketa
  – Galdetegi bat bete
AnHitz proiektua


             Ebaluazioa (II)                                   AnHitz demoa

                                                               BerbaTek proiektua




• Ahotsaren ezagutza
           Asmatze-maila                        %
           Ongi                                63,19
           Zalantzan baina ongi                12,59
           Gaizki baina errepikatzeko aukera   13,43
           Gaizki                              10,79

         Sistemak ulertu al dizu zuk esandakoa?        %
         Ia beti                                       16,33
         Gehienetan                                    38,78
         Batzutan                                      34,69
         Gutxitan                                      10,20
         Ia inoiz ez                                    0,00
AnHitz proiektua


            Ebaluazioa (III)                                   AnHitz demoa

                                                               BerbaTek proiektua




• Ahotsaren sorkuntza
         Sistemak esaten duena ongi ulertzen al da?    %
         Oso ongi                                      66,67
         Ongi                                          18,75
         Nahiko ongi                                   14,58
         Gaizki                                         0,00
         Oso gaizki                                     0,00
           Naturala al zen sistemaren hizkera?        %
           Oso naturala                               10,42
           Naturala                                   33,33
           Nahiko naturala                            31,25
           Artifiziala                                22,92
           Oso artifiziala                             2,08
AnHitz proiektua


             Ebaluazioa (IV)                                 AnHitz demoa

                                                             BerbaTek proiektua




• Galderak erantzutea

          Erantzun zuzena non eman dizu?             %
          1. aukeran                                 30,61
          2. aukeran                                  8,16
          3. aukeran                                  1,02
          4. aukeran                                  3,06
          5. aukeran                                  3,06
          Erantzun zuzena ez zegoen aukeren artean   36,73
          Ez du inongo erantzunik eman               17,35
AnHitz proiektua


                Ebaluazioa (V)                               AnHitz demoa

                                                             BerbaTek proiektua




• Termino bilaketa eleanitza

       Zer iruditu zaizkizu bueltatutako emaitzak?   %
       Oso egokiak                                   28,06
       Egokiak                                       40,29
       Nahiko txarrak                                22,30
       Ez dute zerikusirik nahi nuenarekin            9,35
AnHitz proiektua


              Ebaluazioa (VI)                                AnHitz demoa

                                                             BerbaTek proiektua




• Itzulpen automatikoa

         Zer iruditu zaizkizu emaitzen itzulpenak?   %
         Oso onak                                     4,44
         Onak                                         8,89
         Nahiko onak                                 16,67
         Ulertzeko modukoak                          38,89
         Nahiko txarrak                              26,67
         Txarrak                                      2,22
         Oso txarrak                                  2,22
AnHitz proiektua


                Ebaluazioa (VII)                                      AnHitz demoa

                                                                      BerbaTek proiektua




• Balorazio orokorra
             Sistema erabilgarria dela iruditzen al zaizu?   %
             Oso erabilgarria                                25,00
             Erabilgarria                                    37,50
             Nahiko erabilgarria                             37,50
             Ez erabilgarria                                  0,00
             Guztiz ez erabilgarria                           0,00
    Interakzio sistema hau beste erabilera batzuetan egokia al da?   %
    Bai, makinekin beti horrela izan beharko litzateke               20,83
    Kasu askotan bai                                                 39,58
    Kasu batzuetan                                                   39,58
    Kasu gutxitan                                                     0,00
    Ez                                                                0,00
Edukia

• AnHitz proiektua
• AnHitz demoa
• BerbaTek proiektua
Edukia

• AnHitz proiektua
• AnHitz demoa
• BerbaTek proiektua
AnHitz proiektua


       Orain arteko proiektuak                   AnHitz demoa

                                                 BerbaTek proiektua




• Hizking21:
  – 2002-2004
  – Hasierako tresnak eta hizkuntz baliabideak
• AnHitz:
  – 2006-2008
  – Aplikazio aurreratuagoak
  – Integrazioa
AnHitz proiektua


       BerbaTek proiektua (I)   AnHitz demoa

                                BerbaTek proiektua




• 2009-2011
• Ikerketa eta garapena
  – Hizkuntz teknologiak
  – Ahots-teknologiak
  – Multimedia-teknologiak
AnHitz proiektua


       BerbaTek proiektua (II)                                  AnHitz demoa

                                                                BerbaTek proiektua




• Hizkuntzen Industriaren sektorea oinarri
  teknologikoz hornitzeko
  – Itzulpengintza
     • itzulpengintza, software lokalizazioa, interpretazioa,
       bikoizketa...
  – Edukiak
     • hiztegiak, egunkariak, liburuak, irakaskuntza-materiala,
       ikus-entzunezkoak...
  – Irakaskuntza
     • hizkuntzen irakaskuntza, irakaskuntza arautua...
AnHitz proiektua


               Helburuak (I)                     AnHitz demoa

                                                 BerbaTek proiektua




• Corpusak
  – Internetetik corpus elebakar, paralelo eta
    konparagarriak automatikoki
• Hiztegiak
  – Hiztegi berriak pibotaje bidez
  – Terminologia erauzketarekin jarraitu
• Ontologia lexikalak
  – Domeinu-ontologien erauzketa automatikoa
• Analizatzaileak
  – Sintaktikoa, semantikoa
AnHitz proiektua


              Helburuak (II)            AnHitz demoa

                                        BerbaTek proiektua




• Itzulpen automatikoa
  – Erregeletan oinarritutakoa hobetu
  – Estatistikoa
  – Adibideetan oinarritutakoa
  – Hibridoa
  – Interlingua
  – Aurredizioa
  – Postedizioa
AnHitz proiektua


            Helburuak (III)          AnHitz demoa

                                     BerbaTek proiektua




• Informazio erauzketa
  – Dokumentuen mapa kontzeptualak
  – Laburpen automatikoa
  – RDF ezagutza-baseen erauzketa
• Galderak erantzutea
  – Elebakarrarekin jarraitu
  – Eleanitza
  – RDF ezagutza-baseen gainean
AnHitz proiektua


              Helburuak (IV)      AnHitz demoa

                                  BerbaTek proiektua




• Informazioaren berreskurapena
  – Bilaketa semantikoa
  – Ontologiak
  – Metadatu-editoreak
  – Multimedia
    • Hizlarien ezagutza
    • Irudien analisia
AnHitz proiektua


              Helburuak (V)        AnHitz demoa

                                   BerbaTek proiektua




• Ahotsa
  – Hizketa jarraiaren ezagutza
  – Ahotsen transformazioa
  – Diarizazioa
    • ahots segmentuen detekzioa
    • hizlarien ezagutza
    • ...
  – Elkarrizketa sistemak
AnHitz proiektua


               Helburuak (VI)                         AnHitz demoa

                                                      BerbaTek proiektua




• Irakaskuntza
  – Ahoskatzearen ebaluazio automatikoa
  – Ariketak ahotsaren bidez egitea
  – Idatzitako testuen ebaluazio automatikoa
  – Plagioen detekzioa
  – Corpusetatik irakaslearentzako baliabideak
    automatikoki sortzea
    • ariketak, adibideak...
  – Ikaslearentzako laguntzak
    • hiztegiak, corpusak, zuzentzaileak, sorkuntza
      morfologikoa...
AnHitz proiektua


              Helburuak (VII)                           AnHitz demoa

                                                        BerbaTek proiektua




• Demoak
  – Itzulpengintza
    • Dokumentalen bikoizketa automatikoa azpitituluetatik
    • Itzulpen automatikoa pibotaje bidez
  – Edukiak
    • Web bidezko bilatzaile semantiko multimedia
  – Irakaskuntza
    • Hizkuntzen irakaskuntzarako tutore pertsonala
Euskararako hizkuntz
 teknologiak batuz:
  AnHitz proiektua




     Igor Leturia – Elhuyar Fundazioa
 IEB 2009 – 2009/05/07 – Donostia

More Related Content

Viewers also liked

The Problem with Print
The Problem with PrintThe Problem with Print
The Problem with Printmediagrrl
 
M A R K E T I N G I L P O P O L O D E L L A N O T T E
M A R K E T I N G    I L  P O P O L O  D E L L A  N O T T EM A R K E T I N G    I L  P O P O L O  D E L L A  N O T T E
M A R K E T I N G I L P O P O L O D E L L A N O T T EFrancesco Lamacchia
 
M A R K E T I N G I L P O P O L O D E L L A N O T T E
M A R K E T I N G    I L  P O P O L O  D E L L A  N O T T EM A R K E T I N G    I L  P O P O L O  D E L L A  N O T T E
M A R K E T I N G I L P O P O L O D E L L A N O T T EFrancesco Lamacchia
 
Villalba Presentation
Villalba PresentationVillalba Presentation
Villalba Presentation5elizabeth
 
Unit 5
Unit 5Unit 5
Unit 5c.meza
 

Viewers also liked (9)

ELO Sonnet
ELO SonnetELO Sonnet
ELO Sonnet
 
Skene
SkeneSkene
Skene
 
The Problem with Print
The Problem with PrintThe Problem with Print
The Problem with Print
 
M A R K E T I N G I L P O P O L O D E L L A N O T T E
M A R K E T I N G    I L  P O P O L O  D E L L A  N O T T EM A R K E T I N G    I L  P O P O L O  D E L L A  N O T T E
M A R K E T I N G I L P O P O L O D E L L A N O T T E
 
M A R K E T I N G I L P O P O L O D E L L A N O T T E
M A R K E T I N G    I L  P O P O L O  D E L L A  N O T T EM A R K E T I N G    I L  P O P O L O  D E L L A  N O T T E
M A R K E T I N G I L P O P O L O D E L L A N O T T E
 
Projeto Forte
Projeto ForteProjeto Forte
Projeto Forte
 
Villalba Presentation
Villalba PresentationVillalba Presentation
Villalba Presentation
 
Unit 5
Unit 5Unit 5
Unit 5
 
studio di marketing
studio di marketing studio di marketing
studio di marketing
 

Similar to Igor Leturia An Hitz

Arbel digitala _hh_lh-arloak
Arbel digitala _hh_lh-arloakArbel digitala _hh_lh-arloak
Arbel digitala _hh_lh-arloakkepahernandez
 
Euskarazko hizkuntza teknologia libreak
Euskarazko hizkuntza teknologia libreakEuskarazko hizkuntza teknologia libreak
Euskarazko hizkuntza teknologia libreakTxopi
 
Gida eleaniztunak - Elhuyar Hizkuntza eta Teknologia
Gida eleaniztunak - Elhuyar Hizkuntza eta TeknologiaGida eleaniztunak - Elhuyar Hizkuntza eta Teknologia
Gida eleaniztunak - Elhuyar Hizkuntza eta TeknologiaElhuyar Fundazioa
 
EKT Asier Sarasua 09
EKT Asier Sarasua 09EKT Asier Sarasua 09
EKT Asier Sarasua 09Joxe
 

Similar to Igor Leturia An Hitz (9)

Arbel digitala _hh_lh-arloak
Arbel digitala _hh_lh-arloakArbel digitala _hh_lh-arloak
Arbel digitala _hh_lh-arloak
 
Arbel digitala _hh_lh-arloak
Arbel digitala _hh_lh-arloakArbel digitala _hh_lh-arloak
Arbel digitala _hh_lh-arloak
 
Aurkezpenaren gidoia 2010
Aurkezpenaren gidoia 2010Aurkezpenaren gidoia 2010
Aurkezpenaren gidoia 2010
 
Aurkezpenaren gidoia 2010
Aurkezpenaren gidoia 2010Aurkezpenaren gidoia 2010
Aurkezpenaren gidoia 2010
 
Hiztegiak, Internet eta euskararen desafioak
Hiztegiak, Internet eta euskararen desafioakHiztegiak, Internet eta euskararen desafioak
Hiztegiak, Internet eta euskararen desafioak
 
Euskarazko hizkuntza teknologia libreak
Euskarazko hizkuntza teknologia libreakEuskarazko hizkuntza teknologia libreak
Euskarazko hizkuntza teknologia libreak
 
Aurkezpenaren gidoia 2010
Aurkezpenaren gidoia 2010Aurkezpenaren gidoia 2010
Aurkezpenaren gidoia 2010
 
Gida eleaniztunak - Elhuyar Hizkuntza eta Teknologia
Gida eleaniztunak - Elhuyar Hizkuntza eta TeknologiaGida eleaniztunak - Elhuyar Hizkuntza eta Teknologia
Gida eleaniztunak - Elhuyar Hizkuntza eta Teknologia
 
EKT Asier Sarasua 09
EKT Asier Sarasua 09EKT Asier Sarasua 09
EKT Asier Sarasua 09
 

Igor Leturia An Hitz

  • 1. Euskararako hizkuntz teknologiak batuz: AnHitz proiektua Igor Leturia – Elhuyar Fundazioa IEB 2009 – 2009/05/07 – Donostia
  • 2. Edukia • AnHitz proiektua • AnHitz demoa • BerbaTek proiektua
  • 3. Edukia • AnHitz proiektua • AnHitz demoa • BerbaTek proiektua
  • 4. AnHitz proiektua Zer da AnHitz proiektua AnHitz demoa BerbaTek proiektua • AnHitz zera da: – ikerketa estrategikoko proiektua – hizkuntz teknologietan – Eusko Jaurlaritzako Industria eta Kultura sailek Etortek programaren bidez diruz lagundua – bost kideko partzuergo batek aurrera eramana – 2006-2008 tartean
  • 5. AnHitz proiektua Hizkuntz teknologiak (I) AnHitz demoa BerbaTek proiektua • Ediziorako laguntzak – Hiztegi elektronikoak – Zuzentzaileak • ortografia, gramatika, estiloa... – Karaktereen ezagutza – Itzulpenetan laguntzeko programak – ...
  • 6. AnHitz proiektua Hizkuntz teknologiak (II) AnHitz demoa BerbaTek proiektua • Edukien kudeaketa – Informazioaren berreskurapena • elebakarra, eleanitza... – Informazio-erauzketa • laburpen automatikoa, terminologia-erauzketa... – Dokumentuen sailkapena – Testuen sorkuntza – Itzulpen automatikoa – Galderak erantzutea – ...
  • 7. AnHitz proiektua Hizkuntz teknologiak (III) AnHitz demoa BerbaTek proiektua • Ahotsaren teknologiak – Ahotsaren sintesia – Ahotsaren ezagutza – Hizlariaren ezagutza – Ahotsaren analisia – ...
  • 8. AnHitz proiektua Hizkuntz teknologiak (IV) AnHitz demoa BerbaTek proiektua • Oinarrizko baliabideak – Datu-base lexikalak – Ontologia lexikoak – Testu-corpusak • elebakarrak, eleanitzak... – Itzulpen memoriak – Ahots-corpusak – ...
  • 9. AnHitz proiektua Hizkuntz teknologiak (V) AnHitz demoa BerbaTek proiektua • Oinarrizko tresnak – Analizatzaile morfologikoak – Analizatzaile sintaktikoak – Lematizatzaileak – Entitate ezagutzaileak – ...
  • 10. AnHitz proiektua Hizkuntz teknologiak (VI) AnHitz demoa BerbaTek proiektua • Beste batzuk – Irudien ezagutza – Pertsona-gailu interfazeak – Elkarrizketa sistemak – ...
  • 11. AnHitz proiektua AnHitz partzuergoa (I) AnHitz demoa BerbaTek proiektua • VICOMTech (IK4) – Ordenagailu bidezko elkarrekintzazko grafikoetan eta multimedia digitalean ikerketa aplikatuko zentroa – AnHitz proiektuan: • Liderra • Ikus-interfazeak
  • 12. AnHitz proiektua AnHitz partzuergoa (II) AnHitz demoa BerbaTek proiektua • Robotiker (Tecnalia) – IKTetan eta produktuen garapenean espezializatutako zentro teknologikoa – AnHitz proiektuan: • Aplikazioen integrazioa
  • 13. AnHitz proiektua AnHitz partzuergoa (III) AnHitz demoa BerbaTek proiektua • Elhuyar – Zientzia eta euskara uztartzea eta euskararen corpusaren eta estatusaren normalizazioa helburu duen irabazi asmorik gabeko fundazioa – AnHitz proiektuan: • Corpusak • Terminologia erauzketa • Informazioaren berreskurapena
  • 14. AnHitz proiektua AnHitz partzuergoa (IV) AnHitz demoa BerbaTek proiektua • IXA Taldea (EHU) – Lengoaia naturalaren prozesamenduan aritzen den ikerketa-taldea – AnHitz proiektuan: • Oinarrizko tresnak • Itzulpen automatikoa • Galderak erantzuteko sistemak
  • 15. AnHitz proiektua AnHitz partzuergoa (V) AnHitz demoa BerbaTek proiektua • Aholab Taldea (EHU) – Ahotsaren eta seinaleen tratamenduan aritzen den ikerketa-taldea – AnHitz proiektuan: • Ahotsaren sintesia • Ahotsaren ezagutza • Hizlariaren ezagutza
  • 16. AnHitz proiektua AnHitz-en emaitzak (I) AnHitz demoa BerbaTek proiektua • Testu-baliabideak – ZT Corpusa • zientzia eta teknologiazko testuen Corpusa • http://www.ztcorpusa.net/ – EPEC corpusa • morfologikoki, sintaktikoki eta semantikoki etiketatuta eta eskuz desanbiguatuta • http://clic.ub.edu/ancora – EuSemCor • semantikoki etiketatutako euskarazko corpusa • http://sisx04.si.ehu.es:8080/eusemcor/
  • 17. AnHitz proiektua AnHitz-en emaitzak (II) AnHitz demoa BerbaTek proiektua • Ahots-baliabideak – SpeechDat-EU • euskarazko ahotsezko bi datu-base • telefonotatik eta telefono mugikorretatik lortuak – EmoDB • euskarazko emoziodun ahotsezko bi datu-base – Bizkaifon • bizkaieraren fonoteka • http://bizkaifon.ehu.es/
  • 18. AnHitz proiektua AnHitz-en emaitzak (III) AnHitz demoa BerbaTek proiektua • Testuzko tresnak – Erauzterm • terminologia erauzketa euskarazko corpusetatik – ElexBI • terminologia erauzketa elebiduna corpus paraleloetatik – AzerHitz • terminologia erauzketa elebiduna corpus konparagarrietatik
  • 19. AnHitz proiektua AnHitz-en emaitzak (IV) AnHitz demoa BerbaTek proiektua • Testuzko tresnak (II) – CorpEus • Internet euskarazko corpus erraldoi gisa • http://www.corpeus.org/ – DokuSare • dokumentu eleanitzen artean eduki antzekodunak identifikatzeko – Elezkari • bilatzaile eleanitza
  • 20. AnHitz proiektua AnHitz-en emaitzak (V) AnHitz demoa BerbaTek proiektua • Testuzko aplikazioak – EusBila • euskarazko bilatzailea • http://www.elebila.eu – Opentrad-Matxin • gaztelania-euskara itzultzaile automatikoa • http://www.opentrad.org – Ingelesa-euskara itzultzaile automatiko estatistikoa
  • 21. AnHitz proiektua AnHitz-en emaitzak (VI) AnHitz demoa BerbaTek proiektua • Ahotsezko aplikazioak – AhoTTS • testu-ahots bihurgailua hiru hizkuntzatan eta emozioekin • http://aholab.ehu.es/tts/tts_en.html – Testu-ahots bihurgailua PDAtarako – Hitz eta esaldi isolatuen ezagutza sistema euskararako – Hizlarien ezagutza
  • 22. AnHitz proiektua AnHitz-en emaitzak (VII) AnHitz demoa BerbaTek proiektua • Argitalpen ugari nazioarteko kongresu eta aldizkari zientifikoetan
  • 23. Edukia • AnHitz proiektua • AnHitz demoa • BerbaTek proiektua
  • 24. Edukia • AnHitz proiektua • AnHitz demoa • BerbaTek proiektua
  • 25. AnHitz proiektua Zer da AnHitz demoa (I) AnHitz demoa BerbaTek proiektua • AnHitz proiektuan garatutako hainbat hizkuntza-, ahots- eta ikus-teknologia elkarlanean • Zientzia eta Teknologiako aditua • Interakzioa ahotsez eta euskaraz, 3Dko avatar baten bidez
  • 26. AnHitz proiektua Zer da AnHitz demoa (II) AnHitz demoa BerbaTek proiektua • Bi kontsulta mota: – Galderak erantzun • nork asmatu zuen teleskopioa? • noiz aurkitu zuten penizilina? • non jaio zen Newton? • non dago Nilo ibaia? – Termino bilaketa testu-bilduma eleaniztun baten, eta euskaraz ez dauden emaitzak automatikoki itzuli • ozono-geruza • energia berriztagarriak • biomasa
  • 27. AnHitz proiektua Teknologien integrazioa (I) AnHitz demoa BerbaTek proiektua • 3D avatarra (VICOMTech) • Testu-ahots bihurgailu eleanitza (Aholab) • Euskarazko ahots-ezagutza (Robotiker, Aholab) • Euskarazko galderak erantzuteko sistema (IXA) • Termino-bilaketa eleanitza (Elhuyar) • Itzulpen automatikoa (IXA) • Zientzia eta Teknologiazko corpus eleanitzak (Elhuyar) • Dena integratzeko sistema (Elhuyar)
  • 28. AnHitz proiektua Teknologien integrazioa (II) AnHitz demoa BerbaTek proiektua Galdera Zientzia eta (eu) Teknologiazko QA Avatarra dokumentu- (eu) bilduma Erantzuna(k) (eu) (eu) ERA Bilatzeko hitza(k) BIL (eu) Ahotsa (eu) ASR (eu) Testua (eu) SISTEMA TZAI Dokumentuak Zientzia eta Teknologiazko (eu) LEA CLIR dokumentu- bilduma (eu-es-en) (eu-es-en) Dok-ak MT Dok-ak (eu) (es-eu) (es) Ahotsa TTS Testua (eu) (eu) (eu) Dok-ak MT Dok-ak (eu) (en-eu) (en)
  • 29. AnHitz proiektua Demoa AnHitz demoa BerbaTek proiektua
  • 30. AnHitz proiektua Ebaluazioa (I) AnHitz demoa BerbaTek proiektua • Demoa ebaluatu egin da – 50 pertsona – Bakoitzak 3 galdera eta 3 bilaketa – Galdetegi bat bete
  • 31. AnHitz proiektua Ebaluazioa (II) AnHitz demoa BerbaTek proiektua • Ahotsaren ezagutza Asmatze-maila % Ongi 63,19 Zalantzan baina ongi 12,59 Gaizki baina errepikatzeko aukera 13,43 Gaizki 10,79 Sistemak ulertu al dizu zuk esandakoa? % Ia beti 16,33 Gehienetan 38,78 Batzutan 34,69 Gutxitan 10,20 Ia inoiz ez 0,00
  • 32. AnHitz proiektua Ebaluazioa (III) AnHitz demoa BerbaTek proiektua • Ahotsaren sorkuntza Sistemak esaten duena ongi ulertzen al da? % Oso ongi 66,67 Ongi 18,75 Nahiko ongi 14,58 Gaizki 0,00 Oso gaizki 0,00 Naturala al zen sistemaren hizkera? % Oso naturala 10,42 Naturala 33,33 Nahiko naturala 31,25 Artifiziala 22,92 Oso artifiziala 2,08
  • 33. AnHitz proiektua Ebaluazioa (IV) AnHitz demoa BerbaTek proiektua • Galderak erantzutea Erantzun zuzena non eman dizu? % 1. aukeran 30,61 2. aukeran 8,16 3. aukeran 1,02 4. aukeran 3,06 5. aukeran 3,06 Erantzun zuzena ez zegoen aukeren artean 36,73 Ez du inongo erantzunik eman 17,35
  • 34. AnHitz proiektua Ebaluazioa (V) AnHitz demoa BerbaTek proiektua • Termino bilaketa eleanitza Zer iruditu zaizkizu bueltatutako emaitzak? % Oso egokiak 28,06 Egokiak 40,29 Nahiko txarrak 22,30 Ez dute zerikusirik nahi nuenarekin 9,35
  • 35. AnHitz proiektua Ebaluazioa (VI) AnHitz demoa BerbaTek proiektua • Itzulpen automatikoa Zer iruditu zaizkizu emaitzen itzulpenak? % Oso onak 4,44 Onak 8,89 Nahiko onak 16,67 Ulertzeko modukoak 38,89 Nahiko txarrak 26,67 Txarrak 2,22 Oso txarrak 2,22
  • 36. AnHitz proiektua Ebaluazioa (VII) AnHitz demoa BerbaTek proiektua • Balorazio orokorra Sistema erabilgarria dela iruditzen al zaizu? % Oso erabilgarria 25,00 Erabilgarria 37,50 Nahiko erabilgarria 37,50 Ez erabilgarria 0,00 Guztiz ez erabilgarria 0,00 Interakzio sistema hau beste erabilera batzuetan egokia al da? % Bai, makinekin beti horrela izan beharko litzateke 20,83 Kasu askotan bai 39,58 Kasu batzuetan 39,58 Kasu gutxitan 0,00 Ez 0,00
  • 37. Edukia • AnHitz proiektua • AnHitz demoa • BerbaTek proiektua
  • 38. Edukia • AnHitz proiektua • AnHitz demoa • BerbaTek proiektua
  • 39. AnHitz proiektua Orain arteko proiektuak AnHitz demoa BerbaTek proiektua • Hizking21: – 2002-2004 – Hasierako tresnak eta hizkuntz baliabideak • AnHitz: – 2006-2008 – Aplikazio aurreratuagoak – Integrazioa
  • 40. AnHitz proiektua BerbaTek proiektua (I) AnHitz demoa BerbaTek proiektua • 2009-2011 • Ikerketa eta garapena – Hizkuntz teknologiak – Ahots-teknologiak – Multimedia-teknologiak
  • 41. AnHitz proiektua BerbaTek proiektua (II) AnHitz demoa BerbaTek proiektua • Hizkuntzen Industriaren sektorea oinarri teknologikoz hornitzeko – Itzulpengintza • itzulpengintza, software lokalizazioa, interpretazioa, bikoizketa... – Edukiak • hiztegiak, egunkariak, liburuak, irakaskuntza-materiala, ikus-entzunezkoak... – Irakaskuntza • hizkuntzen irakaskuntza, irakaskuntza arautua...
  • 42. AnHitz proiektua Helburuak (I) AnHitz demoa BerbaTek proiektua • Corpusak – Internetetik corpus elebakar, paralelo eta konparagarriak automatikoki • Hiztegiak – Hiztegi berriak pibotaje bidez – Terminologia erauzketarekin jarraitu • Ontologia lexikalak – Domeinu-ontologien erauzketa automatikoa • Analizatzaileak – Sintaktikoa, semantikoa
  • 43. AnHitz proiektua Helburuak (II) AnHitz demoa BerbaTek proiektua • Itzulpen automatikoa – Erregeletan oinarritutakoa hobetu – Estatistikoa – Adibideetan oinarritutakoa – Hibridoa – Interlingua – Aurredizioa – Postedizioa
  • 44. AnHitz proiektua Helburuak (III) AnHitz demoa BerbaTek proiektua • Informazio erauzketa – Dokumentuen mapa kontzeptualak – Laburpen automatikoa – RDF ezagutza-baseen erauzketa • Galderak erantzutea – Elebakarrarekin jarraitu – Eleanitza – RDF ezagutza-baseen gainean
  • 45. AnHitz proiektua Helburuak (IV) AnHitz demoa BerbaTek proiektua • Informazioaren berreskurapena – Bilaketa semantikoa – Ontologiak – Metadatu-editoreak – Multimedia • Hizlarien ezagutza • Irudien analisia
  • 46. AnHitz proiektua Helburuak (V) AnHitz demoa BerbaTek proiektua • Ahotsa – Hizketa jarraiaren ezagutza – Ahotsen transformazioa – Diarizazioa • ahots segmentuen detekzioa • hizlarien ezagutza • ... – Elkarrizketa sistemak
  • 47. AnHitz proiektua Helburuak (VI) AnHitz demoa BerbaTek proiektua • Irakaskuntza – Ahoskatzearen ebaluazio automatikoa – Ariketak ahotsaren bidez egitea – Idatzitako testuen ebaluazio automatikoa – Plagioen detekzioa – Corpusetatik irakaslearentzako baliabideak automatikoki sortzea • ariketak, adibideak... – Ikaslearentzako laguntzak • hiztegiak, corpusak, zuzentzaileak, sorkuntza morfologikoa...
  • 48. AnHitz proiektua Helburuak (VII) AnHitz demoa BerbaTek proiektua • Demoak – Itzulpengintza • Dokumentalen bikoizketa automatikoa azpitituluetatik • Itzulpen automatikoa pibotaje bidez – Edukiak • Web bidezko bilatzaile semantiko multimedia – Irakaskuntza • Hizkuntzen irakaskuntzarako tutore pertsonala
  • 49. Euskararako hizkuntz teknologiak batuz: AnHitz proiektua Igor Leturia – Elhuyar Fundazioa IEB 2009 – 2009/05/07 – Donostia