Reciprocal Enrichment 
    between Wikipedia and 
     Machine Translators
         OpenMT­2 project

             Mikel I...
languages in 
      wikipedia

           
Distribution of wikipedia
      articles by language
                                English
                             ...
Less than 1% of 
     languages have 
    more than 50% of 
         articles 
             
Can we ease good 
    article creation?  

              
How can we boost 
    article creation in 
          minority 
       languages?
              
OpenMT­2 project
     http://ixa.si.ehu.es/openmt2/



                    
What is it?

          
EHU, UPC and 
Basque wikipedians

         
Funded by the 
      Spanish 
     government
           
Free    

        
Hybrid Machine 
      Translation and 
    advanced evaluation 
          system
              
Hybrid?

        
Rule-based MT
                +
    Statistical post-editing

                
The aim: To teach the 
     existing MT to correct 
    it's own mistakes when 
           translating 
                
Using wikipedia

            
How?

       
(1)

      
Translate using 
      rule­based 
    Matxin­Opentrad
       http://opentrad.com/

                 
100 long articles
      es         eu

             
(2)

      
Correct Basque 
    output manually
            
(3)

      
Analyze logs

          
(4)

      
Make 
    improvements to 
     the MT system
            
     
Final test and 
       results

            
Tools

       
Google translator 
        toolkit

             
Specific help for wikipedia
            Not Free Software



                     
OmegaT
    http://omegat.org



             
Suitable to do the job
           Free software



                
What's in?

          
100 new and good 
      articles for the 
    Basque Wikipedia
              
Provide research 
        material

             
Walk towards a MT 
     system that can be 
    used in our wikipedia

               
Thank you.

         
Aurélio A. Heckert (source), David Vignoni (source), 
    Wilfredor (source), Tango project & Arkanosis (source) 
    , Om...
e­mail: mikel@hamahiru.org

    User page: http://eu.wikipedia.org/wiki/Lankide:Janfri

    Address: http://hamahiru.org/m...
Text licensed under
       cc­by­sa 3.0
    images maintain their original licenses


                        
Upcoming SlideShare
Loading in …5
×

Reciprocal Enrichment between Wikipedia and Machine Translators

625 views
595 views

Published on

The slides of the talk given in Wikimania 2010 in Gdansk, Poland.

Published in: Technology, Business
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
625
On SlideShare
0
From Embeds
0
Number of Embeds
3
Actions
Shares
0
Downloads
3
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Reciprocal Enrichment between Wikipedia and Machine Translators

  1. 1. Reciprocal Enrichment  between Wikipedia and  Machine Translators OpenMT­2 project Mikel Iturbe Wikimania 2010  Gdańsk, Poland     
  2. 2. languages in  wikipedia    
  3. 3. Distribution of wikipedia  articles by language English German French Polish Italian Japanese Spanish Dutch Other    
  4. 4. Less than 1% of  languages have  more than 50% of  articles     
  5. 5. Can we ease good  article creation?      
  6. 6. How can we boost  article creation in  minority  languages?    
  7. 7. OpenMT­2 project http://ixa.si.ehu.es/openmt2/    
  8. 8. What is it?    
  9. 9. EHU, UPC and  Basque wikipedians    
  10. 10. Funded by the  Spanish  government    
  11. 11. Free        
  12. 12. Hybrid Machine  Translation and  advanced evaluation  system    
  13. 13. Hybrid?    
  14. 14. Rule-based MT + Statistical post-editing    
  15. 15. The aim: To teach the  existing MT to correct  it's own mistakes when  translating     
  16. 16. Using wikipedia    
  17. 17. How?    
  18. 18. (1)    
  19. 19. Translate using  rule­based  Matxin­Opentrad http://opentrad.com/    
  20. 20. 100 long articles es         eu    
  21. 21. (2)    
  22. 22. Correct Basque  output manually    
  23. 23. (3)    
  24. 24. Analyze logs    
  25. 25. (4)    
  26. 26. Make  improvements to  the MT system    
  27. 27.    
  28. 28. Final test and  results    
  29. 29. Tools    
  30. 30. Google translator  toolkit    
  31. 31. Specific help for wikipedia Not Free Software    
  32. 32. OmegaT http://omegat.org    
  33. 33. Suitable to do the job Free software    
  34. 34. What's in?    
  35. 35. 100 new and good  articles for the  Basque Wikipedia    
  36. 36. Provide research  material    
  37. 37. Walk towards a MT  system that can be  used in our wikipedia    
  38. 38. Thank you.    
  39. 39. Aurélio A. Heckert (source), David Vignoni (source),  Wilfredor (source), Tango project & Arkanosis (source)  , OmegaT project (source) Image credits     
  40. 40. e­mail: mikel@hamahiru.org User page: http://eu.wikipedia.org/wiki/Lankide:Janfri Address: http://hamahiru.org/media/wikimania2010.pdf contact     
  41. 41. Text licensed under cc­by­sa 3.0 images maintain their original licenses    

×