A checklist by Gareth Morlais of the main language technology groups you need for your language to fight digital extinction. Rhestr o'r prif dechnolegau iaith sy'n helpu ieithoedd fel Cymraeg i baratoi ar gyfer yr oes ddigidol.
Digital Survival Kit for your language. Sut i oroesi yn yr oes ddigidol. Canllaw i ieithoedd
1. Sut i oroesi yn yr oes ddigidol. Canllaw i ieithoedd
Gareth Morlais, Llywodraeth Cymru, Welsh Government
2. 1. Adnoddau iaith
Geiriaduron, termiaduron ac
adnoddau cysylltiedig (Maint?
Perchnogaeth a thrwyddedu?
Safoni?)
Corpora – testun, iaith lafar a
corpora amlieithog cyfatebol
Gwyddoniaduron megis Wikipedia
Gwiro sillafu a gramadeg
Deallusrwydd artiffisial a
dealltwriaeth iaith
1. Language resources
Dictionaries, term
dictionaries
and associated dictionary
resources
(size? IP/licensing?
Standardised?)
Corpora – text, speech
and matched
bi/multilingual corpora
Encyclopaedia such as
Wikipedia
Spell & grammar (rule)
checker
Artificial Intelligence (AI)
and language
‘understanding’
3. 2. Dadansoddi testun
OCR: adnabod geiriau wedi eu sganio
(cipio testun ystyrlon o ddelweddau o
ddogfennau)
Sgriptiau rheolau gramadegol
Injan dadansoddiad a thagio gramadeg
yn awtomatig (strwythur iaith)
Peiriant dadansoddiad a thagio
semanteg awtomatig (Ystyr iaith a
gwella dealltwriaeth o’r cyd-destun er
mwyn datblygu deallusrwydd artiffisial
a dadansoddi sentiment)
Systemau tagio sy’n cysylltu termau
Cymraeg gyda rhai cyfystyr mewn
ieithoedd eraill
2. Text Analytics
Optical Character Recognition
(captures meaningful text from
document scans)
Grammar rule scripts
Automatic grammar analysis
and tagging engine (this is
about language structure)
Automatic semantic analysis
and tagging engine (this is
about language meaning,
context and improving
understanding. Aids AI and can
be used for sentiment analysis)
Meta tagging systems, linking
content and assets in your
language to others
4. 3. Llais
Adnabod gorchmynion Cymraeg
(dwi’n dweud "S4C" er mwyn newid
sianel y teledu)
Llais i destun (dwi’n dweud "S4C" ac
mae’r gair yn cael ei deipio gan
Word)
Llais synthetig Cymraeg (mae
cyfrifiadur yn darllen y gair "S4C" ac
yn ei 'ddweud'. E.g. Gwyneth a
Geraint, lleisiau Cymraeg RNIB)
Y ‘glud’ sy’n cysylltu’r holl
dechnolegau llais gyda deallusrwydd
artiffisial
3. Speech
Speech command recognition
(say “S4C” and TV changes to
S4C)
Speech-to-text (say “S4C” and
this word is typed into Word)
Synthetic speech (computer
reads the word “S4C” and ‘says’
it)
Text-to-speech and AI-to-speech
linkage systems
5. 4. Cyfieithu peirianyddol
Cofau cyfieithu
Cefnogaeth i’r Gymraeg mewn
pecynnau megis Deja Vu
Dulliau ystadegol a dulliau sy’n
seiliedig ar reolau
Dulliau i wella’r rhaglenni drwy
‘dysgu’ o gywiriadau cyfieithwyr go
iawn.
4. Machine translation
Translation memories
Support for language by
commercial packages such as
Deja Vu
MT using statistical and rule-
based methods
Post editing feedback systems
6. 5. Cefnogaeth cwmnïau mawr
Google (rhyngwynebau Cymraeg,
cydnabod y Gymraeg fel un o
‘ieithoedd chwilio’ Google,
GoogleTranslate)
Microsoft (pecyn iaith, cyfieithu)
Apple: lleoleiddio
Ac eraill
5. Support by major companies
Google (interfaces, search
language, translate)
Microsoft (language pack,
translate)
Apple localization
Others
7. 6. Daearyddol
Gallu mewnosod mapiau rhyngweithiol
gydag enwau llefydd yn yr iaith
Data am adnoddau ieithyddol daearyddol
7. Cymdeithasol
Cyflwyno cynnwys mewn un fan (e.e.
ffrwti.com)
Gwefannau lleol (e.e. poblcaerdydd.com)
Apiau sy’n dod â phobl at ei gilydd i
sgwrsio yn y byd go iawn (e.e. Ap fy Ardal
yr Urdd)
6. Geographical
Interactive embeddable maps
Data about geographical linguistic
resources
7. Social
Content aggregation applications
(like ffrwti.com)
Local reporting platforms (like
poblcaerdydd.com)
Face-to-face interaction inspiration
(like Ap Fy Ardal yr Urdd)
8. 8. Sgiliau
Siaradwyr yr iaith gyda gwybodaeth
am gyfrifiadureg a thechnoleg iaith.
9. A.y.b.
8. Skills
Citizens with coding and language
technology skills.
9. Etc.
9.
10. Cynllun Gweithredu Technoleg a
Chyfryngau Digidol Cymraeg
Welsh-language Technology and
Digital Media Action Plan
Marchnata a chodi
ymwybyddiaeth
Marketing and awareness raising
Ysgogi’r prif gwmnïau technoleg Motivating the main technology
companies
Ysgogi datblygiad o becynnau
meddalwedd a gwasanaethau
digidol Cymraeg newydd
Encouraging the development of
new
Welsh-language software
applications and digital services
Ysgogi creu, rhannu a defnyddio
cynnwys digidol Cymraeg
Stimulating the creation, sharing
and consumption of Welsh-
language digital content
Cefnogi arfer da yn y sector
cyhoeddus, y sector preifat a’r
trydydd sector
Supporting good practice in the
public, private and third sectors
11. Cefndir/Background
gan/by Gareth Morlais 11/15
gareth.morlais@cymru.gsi.gov.uk
Cydnabyddiaeth/Acknowledgement
Jeremy Evas (Prifysgol Caerdydd);
Georg Rehm (Meta-Net);
Delyth Prys & Dewi Bryn (Prifysgol Bangor)
Iwan Evans, Heledd Daniel & Gareth Cardew-Richardson,
Llywodraeth Cymru
Editor's Notes
Cynllun Gweithredu Technoleg a Chyfryngau Digidol CymraegThe Welsh Government’s Welsh-language Technology and Digital Media Action Plan
5 Amcan Cynllun Gweithredu Technoleg a Chyfryngau Digidol CymraegThe 5 Aims of the Welsh Government’s Welsh-language Technology and Digital Media Action Plan