SlideShare a Scribd company logo
ZientziaAnitz, zientzia eta
 teknologiarako hizkuntza arteko
         web-bilatzailea



Xabier Saralegi eta Maddalen Lopez de Lacalle
             Elhuyar I+G taldea
ZientziaAnitz, zientzia eta
 teknologiarako hizkuntza arteko
         web-bilatzailea
• Motibazioa
• CLIRen beharra
• CLIRen erronkak
• ZientziaAnitz-en arkitektura
• ZientziaAnitz-en teknologia
• Ebaluazioa
• Ondorioak eta etorkizuneko lanak
ZientziaAnitz: Motibazioa

• Interneten Zientzia eta teknologiako
  albiste asko baina sakabanatuta
• Ingelesa nagusi baina ez esparru
  guztietan (Adib. dibulgazioa)
• Erabiltzaile euskaldunak ama hizkuntzan
  bilatu nahi du
• Honen gainean dagoen teknologia
  nagusia: CLIR (Cross-lingual information
  retrieval)
ZientziaAnitz: CLIRen beharra

• Ezagutza partekatzea hizkuntzaren muga
  gaindituz
• Lingua franca ↔ ama hizkuntza
• Bilaketa bakarrean hainbat hizkuntzatako
  emaitzak
• Bilaketaren emaitza eleaniztunak
  antolatzea
ZientziaAnitz: CLIRen erronkak

• Dokumentu esanguratsuak
  berreskuratzea (IR)
  – Eredu aljebraikoak (tf-idf), probabilistikoak
    (Okapi,Hizkuntza-Ereduak,Indri...)
• Itzulpena: galderak vs edukiak
  – Galderak laburrak → itzulpen-desanbiguazioa
    zaila
  – Edukiak luzeak → itzulpena motela
  – Galdera eta edukiak itzuliz emaitzarik onenak
ZientziaAnitz: CLIRen erronkak
• Itzulpena: MT (Machine Translation) vs
  MRD (Machine Readable Dictionaries)
  – MT hizkuntza bikote gutxirako
  – MT garestiak
  – Bilaketa/kontsulta asko sintaxirik gabekoak →
    MRDa egokiagoa
  – MRDn itzulpen anbiguoak
ZientziaAnitz: CLIRen erronkak
• Itzulpen arazoak:
  – Anbiguotasuna (MRD): corpus paraleloak, helburu-
    hizkuntzako corpusak, syn operadorea
     • Corpus paraleloak: Itzulpen probabilitateak. Adib.
       p(cosecha|uzta)>p(resultado|uzta)
     • Helburu-hizkuntzako corpusak: Hautagai-
       konbinazioen probabilitateak. Adib. Ozeano bare
       p(océano,pacífico)>p(océano,tranquilo)
     • Syn operadorea: Estatistikak bateratu. Adib.
       Bioerregai abantaila #syn(biocombustible
       biocarburante ) #wsyn(ventaja beneficio)
  – Out-Of-Vocabulary terminoak: kognatuen detekzioa
     • Adib. Antza kalkulatuz, LCSR(animali,
       animal)>0,85
ZientziaAnitz-en arkitektura eta
           teknologia
• Web aplikazioa
• Moduluak:
  – Bilduma osatu:
    • Arakatzailea: RSS+Kimatu
    • Indexatzailea: Indri toolkit
  – Galderak prozesatu:
    • Lematizatzailea: Eustagger
    • Galdera itzultzeko modulua
    • Berreskuratze-motorra: Indri
ZientziaAnitz-en arkitektura
ZientziaAnitz-en arkitektura
ZientziaAnitz: Arakatzailea

• RSS irakurgailua: RSS bitartez aurretik
  aukeratutako web-gunetako albiste
  berriak deskargatu
• Kimatu: Albisteak HTMLn: edukia markatu
  gabe->Boilerplate removal teknikak
  erabili behar dira (2. postua CLEANEVAL
  lehiaketan)
ZientziaAnitz: Arakatzailea
• Adibidea
ZientziaAnitz: Arakatzailea
• Albistearen testu zatiak
ZientziaAnitz: Arakatzailea
• Zarata
ZientziaAnitz-en arkitektura
ZientziaAnitz: Indexatzailea

• Indexatu: Dokumentuetako hitzen
  ezaugarriak datu-egitura konputagarrien
  bidez errepresentatu (hitzaren
  maiztasunak, posizioa, dokumentuaren
  luzera... )
• Ranking-algoritmoek informazio hau
  erabiliko dute dokumentu bakoitzarentzat
  esangura-maila kalkulatzeko
ZientziaAnitz-en arkitektura
ZientziaAnitz: Lematizatzailea

• Eustagger: Ixak garatutako
  lematizatzailea
• Gako-hitzak erauzi: Izenak, adjektiboak,
  aditzak eta adberbioak
Adib: ”Baleak ehizatzea debekatuta dagoen Antarktikako erreserbak”
/<Baleak>/<HAS_MAI>/
        ("balea"    IZE ARR DEK ABS NUMP MUGM )
/<ehizatzea>/
        ("ehizatu"    ADI SIN AMM ADIZE DEK ABS NUMS MUGM )
/<debekatuta>/
        ("debekatu"    ADI SIN AMM PART ERL MEN MOD)
/<dagoen>/
        ("egon"    ADT A1 NR_HU ERL MEN ZHG)
/<Antarktikako>/<HAS_MAI>/
        ("Antarktika"    IZE LIB PLU- DEK NUMS MUGM DEK GEL )
/<erreserbak>/
        ("erreserba"    IZE ARR DEK ABS NUMP MUGM )
ZientziaAnitz-en arkitektura
ZientziaAnitz: Galdera itzuli

• MRD: Elhuyar hiztegiak (eu-es,eu-en)
• Hitz ezezagunak (OOV): kognatuen
  detekzioa
• Itzulpen anbiguoak:
  – Galdera egituratuak
    • Kontsultako hitz baten itzulpen-hautagai guztiak
      multzokatu eta token bakarra bezala tratatzen
      dira. Pirkolaren metodoa (Pirkola, 1998)
  – Konkurrentziak
    • Ideia nagusia: itzulpen egokien arteko elkartze-
      maila beste itzulpenen artekoa baino handiagoa
ZientziaAnitz: Galdera itzuli

• Adibidea
  – Jatorrizko galdera (lemak): balea ehiza
    debekatu erreserba Antarktika
  – Galdera egituratua:
    • whale #syn(game hunting prey) #syn(forbid
      forbidden #1(stave off) prevent prohibit )
      #syn(reservation reserve) antarctic
  – konkurrentziak
    • whale hunting prohibit reserve antarctic
       – game:0.732299 -- hunting:1 -- prey:0.690568
ZientziaAnitz-en arkitektura
ZientziaAnitz: Berreskurapena

• Bilaketa-motorra: Erabiltzailearen
  kontsultak prozesatzen dituena. Metodo
  baten araberako rankingean bueltatzen
  ditu galderarekin bat datozen
  dokumentuak.
  – Indri eredua
    • Hizkuntza-ereduak eta inferentzia sareak
      konbinatzen ditu.
    • Galdera egituratuak onartzen ditu
ZientziaAnitz: Demoa
Ebaluaketa

• Metodoak: syn (Pirkola), konkurrentziak
  (Monz and Dorr)
• CLEF bilduma eta galderak
• MAP
  – Kontsulta motzak
    • elebakarra: 0,3176 - hizkuntz artekoa: 0,2404
      %76
  – Kontsulta luzeak
    • elebakarra: 0,3778 - hizkuntz artekoa: 0,2960
      %78
Ebaluaketa: Emaitzak

• (Saralegi and Lopez de Lacalle, 2009)
        Exekuzioa         Motzak (MAP) Luzeak (MAP)
     Elebakarra              0,3176       0,3778
     Hiztegiko lehena        0,2118       0,2500
     Galdera egituratua      0,2359       0,2960
     konkurrentziak          0,2338       0,2725
     Hibridoa                0,2371       0,2941
     Hibridoa+Atalasea       0,2404       0,2920
Ondorioak eta etorkizuneko
              lanak
• Zientzia eta Teknologia alorrerako
  bilatzaile bat euskera integratzen duena
• Galdera egituratuak emaitzarik onena
• Web zerbitzua laster kaleratzea
• Beste hizkuntza batzuk integratzea
• Itzulpen-prozesua hobetzea
• Galderaren hedapena
Erreferentziak

• Christof Monz, Bonnie J. Dorr. Iterative
  Translation Disambiguation for Cross-Language
  Information Retrieval. (SIGIR 2005)
• Ari Pirkola. The Effects of Structured and
  Dictionary Setups in Dictionary-Based Cross-
  language Information Retrieval. (SIGIR 1998)
• Xabier Saralegi, Maddalen Lopez de Lacalle.
  Comparing different approaches to treat
  Translation Ambiguity in CLIR: Structured
  Queries vs. Target Co-occurrence-Based
  Selection. (TIR 2009)

More Related Content

Featured

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
Marius Sescu
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
Expeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
Pixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
ThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
marketingartwork
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
Skeleton Technologies
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
SpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Lily Ray
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
Rajiv Jayarajah, MAppComm, ACC
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
Christy Abraham Joy
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
Vit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
MindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
RachelPearson36
 

Featured (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

Zientziaanitz Ieb

  • 1. ZientziaAnitz, zientzia eta teknologiarako hizkuntza arteko web-bilatzailea Xabier Saralegi eta Maddalen Lopez de Lacalle Elhuyar I+G taldea
  • 2. ZientziaAnitz, zientzia eta teknologiarako hizkuntza arteko web-bilatzailea • Motibazioa • CLIRen beharra • CLIRen erronkak • ZientziaAnitz-en arkitektura • ZientziaAnitz-en teknologia • Ebaluazioa • Ondorioak eta etorkizuneko lanak
  • 3. ZientziaAnitz: Motibazioa • Interneten Zientzia eta teknologiako albiste asko baina sakabanatuta • Ingelesa nagusi baina ez esparru guztietan (Adib. dibulgazioa) • Erabiltzaile euskaldunak ama hizkuntzan bilatu nahi du • Honen gainean dagoen teknologia nagusia: CLIR (Cross-lingual information retrieval)
  • 4. ZientziaAnitz: CLIRen beharra • Ezagutza partekatzea hizkuntzaren muga gaindituz • Lingua franca ↔ ama hizkuntza • Bilaketa bakarrean hainbat hizkuntzatako emaitzak • Bilaketaren emaitza eleaniztunak antolatzea
  • 5. ZientziaAnitz: CLIRen erronkak • Dokumentu esanguratsuak berreskuratzea (IR) – Eredu aljebraikoak (tf-idf), probabilistikoak (Okapi,Hizkuntza-Ereduak,Indri...) • Itzulpena: galderak vs edukiak – Galderak laburrak → itzulpen-desanbiguazioa zaila – Edukiak luzeak → itzulpena motela – Galdera eta edukiak itzuliz emaitzarik onenak
  • 6. ZientziaAnitz: CLIRen erronkak • Itzulpena: MT (Machine Translation) vs MRD (Machine Readable Dictionaries) – MT hizkuntza bikote gutxirako – MT garestiak – Bilaketa/kontsulta asko sintaxirik gabekoak → MRDa egokiagoa – MRDn itzulpen anbiguoak
  • 7. ZientziaAnitz: CLIRen erronkak • Itzulpen arazoak: – Anbiguotasuna (MRD): corpus paraleloak, helburu- hizkuntzako corpusak, syn operadorea • Corpus paraleloak: Itzulpen probabilitateak. Adib. p(cosecha|uzta)>p(resultado|uzta) • Helburu-hizkuntzako corpusak: Hautagai- konbinazioen probabilitateak. Adib. Ozeano bare p(océano,pacífico)>p(océano,tranquilo) • Syn operadorea: Estatistikak bateratu. Adib. Bioerregai abantaila #syn(biocombustible biocarburante ) #wsyn(ventaja beneficio) – Out-Of-Vocabulary terminoak: kognatuen detekzioa • Adib. Antza kalkulatuz, LCSR(animali, animal)>0,85
  • 8. ZientziaAnitz-en arkitektura eta teknologia • Web aplikazioa • Moduluak: – Bilduma osatu: • Arakatzailea: RSS+Kimatu • Indexatzailea: Indri toolkit – Galderak prozesatu: • Lematizatzailea: Eustagger • Galdera itzultzeko modulua • Berreskuratze-motorra: Indri
  • 11. ZientziaAnitz: Arakatzailea • RSS irakurgailua: RSS bitartez aurretik aukeratutako web-gunetako albiste berriak deskargatu • Kimatu: Albisteak HTMLn: edukia markatu gabe->Boilerplate removal teknikak erabili behar dira (2. postua CLEANEVAL lehiaketan)
  • 16. ZientziaAnitz: Indexatzailea • Indexatu: Dokumentuetako hitzen ezaugarriak datu-egitura konputagarrien bidez errepresentatu (hitzaren maiztasunak, posizioa, dokumentuaren luzera... ) • Ranking-algoritmoek informazio hau erabiliko dute dokumentu bakoitzarentzat esangura-maila kalkulatzeko
  • 18. ZientziaAnitz: Lematizatzailea • Eustagger: Ixak garatutako lematizatzailea • Gako-hitzak erauzi: Izenak, adjektiboak, aditzak eta adberbioak Adib: ”Baleak ehizatzea debekatuta dagoen Antarktikako erreserbak” /<Baleak>/<HAS_MAI>/ ("balea" IZE ARR DEK ABS NUMP MUGM ) /<ehizatzea>/ ("ehizatu" ADI SIN AMM ADIZE DEK ABS NUMS MUGM ) /<debekatuta>/ ("debekatu" ADI SIN AMM PART ERL MEN MOD) /<dagoen>/ ("egon" ADT A1 NR_HU ERL MEN ZHG) /<Antarktikako>/<HAS_MAI>/ ("Antarktika" IZE LIB PLU- DEK NUMS MUGM DEK GEL ) /<erreserbak>/ ("erreserba" IZE ARR DEK ABS NUMP MUGM )
  • 20. ZientziaAnitz: Galdera itzuli • MRD: Elhuyar hiztegiak (eu-es,eu-en) • Hitz ezezagunak (OOV): kognatuen detekzioa • Itzulpen anbiguoak: – Galdera egituratuak • Kontsultako hitz baten itzulpen-hautagai guztiak multzokatu eta token bakarra bezala tratatzen dira. Pirkolaren metodoa (Pirkola, 1998) – Konkurrentziak • Ideia nagusia: itzulpen egokien arteko elkartze- maila beste itzulpenen artekoa baino handiagoa
  • 21. ZientziaAnitz: Galdera itzuli • Adibidea – Jatorrizko galdera (lemak): balea ehiza debekatu erreserba Antarktika – Galdera egituratua: • whale #syn(game hunting prey) #syn(forbid forbidden #1(stave off) prevent prohibit ) #syn(reservation reserve) antarctic – konkurrentziak • whale hunting prohibit reserve antarctic – game:0.732299 -- hunting:1 -- prey:0.690568
  • 23. ZientziaAnitz: Berreskurapena • Bilaketa-motorra: Erabiltzailearen kontsultak prozesatzen dituena. Metodo baten araberako rankingean bueltatzen ditu galderarekin bat datozen dokumentuak. – Indri eredua • Hizkuntza-ereduak eta inferentzia sareak konbinatzen ditu. • Galdera egituratuak onartzen ditu
  • 25. Ebaluaketa • Metodoak: syn (Pirkola), konkurrentziak (Monz and Dorr) • CLEF bilduma eta galderak • MAP – Kontsulta motzak • elebakarra: 0,3176 - hizkuntz artekoa: 0,2404 %76 – Kontsulta luzeak • elebakarra: 0,3778 - hizkuntz artekoa: 0,2960 %78
  • 26. Ebaluaketa: Emaitzak • (Saralegi and Lopez de Lacalle, 2009) Exekuzioa Motzak (MAP) Luzeak (MAP) Elebakarra 0,3176 0,3778 Hiztegiko lehena 0,2118 0,2500 Galdera egituratua 0,2359 0,2960 konkurrentziak 0,2338 0,2725 Hibridoa 0,2371 0,2941 Hibridoa+Atalasea 0,2404 0,2920
  • 27. Ondorioak eta etorkizuneko lanak • Zientzia eta Teknologia alorrerako bilatzaile bat euskera integratzen duena • Galdera egituratuak emaitzarik onena • Web zerbitzua laster kaleratzea • Beste hizkuntza batzuk integratzea • Itzulpen-prozesua hobetzea • Galderaren hedapena
  • 28. Erreferentziak • Christof Monz, Bonnie J. Dorr. Iterative Translation Disambiguation for Cross-Language Information Retrieval. (SIGIR 2005) • Ari Pirkola. The Effects of Structured and Dictionary Setups in Dictionary-Based Cross- language Information Retrieval. (SIGIR 1998) • Xabier Saralegi, Maddalen Lopez de Lacalle. Comparing different approaches to treat Translation Ambiguity in CLIR: Structured Queries vs. Target Co-occurrence-Based Selection. (TIR 2009)