Pranešimas VII Lietuvos jaunųjų mokslininkų konferencijoje „Operacijų tyrimas ir taikymai“
„Kompiuterininkų dienos – 2015“, Panevėžyje, KTU PTVF 2013-09-18
Pranešimas XVI kompiuterininkų konferencijos sekcijoje „Lietuvių kalba kompiuterinėse technologijose“,
„Kompiuterininkų dienos – 2013“, Šiauliai 2013-09-21
Pranešimas XVII mokslinės kompiuterininkų konferencijos
sekcijoje „K9. Saityno technologijų vystymas“
„Kompiuterininkų dienos – 2015“, Panevėžyje, KTU PTVF 2013-09-19
Pranešimas XVII mokslinės kompiuterininkų konferencijos
sekcijoje „K9. Saityno technologijų vystymas“
„Kompiuterininkų dienos – 2015“, Panevėžyje, KTU PTVF 2013-09-19
Pranešimas VII Lietuvos jaunųjų mokslininkų konferencijoje „Operacijų tyrimas ir taikymai“
„Kompiuterininkų dienos – 2015“, Panevėžyje, KTU PTVF 2013-09-18
Pranešimas XVI kompiuterininkų konferencijos sekcijoje „Lietuvių kalba kompiuterinėse technologijose“,
„Kompiuterininkų dienos – 2013“, Šiauliai 2013-09-21
Pranešimas XVII mokslinės kompiuterininkų konferencijos
sekcijoje „K9. Saityno technologijų vystymas“
„Kompiuterininkų dienos – 2015“, Panevėžyje, KTU PTVF 2013-09-19
Pranešimas XVII mokslinės kompiuterininkų konferencijos
sekcijoje „K9. Saityno technologijų vystymas“
„Kompiuterininkų dienos – 2015“, Panevėžyje, KTU PTVF 2013-09-19
Pranešimas VII Lietuvos jaunųjų mokslininkų konferencijoje „Operacijų tyrimas ir taikymai“
„Kompiuterininkų dienos – 2015“, Panevėžyje, KTU PTVF 2013-09-18
– Digital image acquisition, classes of images
– Image quality assessment
– Simple image features and their application
– Image filtering in the spatial and spectral domains
– Extracting certain features of images (corners, circles, edges)
– Exemplary applications
Pranešimas XVII mokslinės kompiuterininkų konferencijos
sekcijoje „K9. Saityno technologijų vystymas“
„Kompiuterininkų dienos – 2015“, Panevėžyje, KTU PTVF 2013-09-19
Pranešimas XVII mokslinės kompiuterininkų konferencijos
sekcijoje „K8. Statistiniai metodai, optimizavimas ir prognozavimas“
„Kompiuterininkų dienos – 2015“, Panevėžyje, KTU PTVF 2013-09-19
Pranešimas XII mokyklinės informatikos konferencijos sekcijoje
M5. Inovatyvūs mokymo metodai ir priemonės
„Kompiuterininkų dienos – 2015“, Panevėžyje, KTU PTVF 2013-09-19
The document discusses object detection using YOLOv5 models of varying sizes on different hardware platforms. It evaluates the mAP, inference time, parameters, and GFLOPS of YOLOv5s, YOLOv5m, YOLOv5l, and YOLOv5x models on a reduced COCO dataset. It also measures the average inference time of the optimized Int8 versions of these models on an iPhone 12's Neural Engine, GPU, and CPU. The results show that optimized YOLOv5 models can run real-time object detection at up to 100 images per second on the iPhone 12's Neural Engine.
This document summarizes research on supervised environmental data classification using spatial auto-beta models. The data consists of random fields with attribute values and class labels. A training set is used to classify new observations using generative classification methods. Specifically, attribute values fall within an interval and class labels take one of two values. Transformations are applied to make the data distribution normal. The best fitting distribution is selected to best describe the data. Classification accuracy is evaluated using actual error rates estimated from the data.
– Digital image acquisition, classes of images
– Image quality assessment
– Simple image features and their application
– Image filtering in the spatial and spectral domains
– Extracting certain features of images (corners, circles, edges)
– Exemplary applications
Pranešimas XVII mokslinės kompiuterininkų konferencijos
sekcijoje „K9. Saityno technologijų vystymas“
„Kompiuterininkų dienos – 2015“, Panevėžyje, KTU PTVF 2013-09-19
Pranešimas XVII mokslinės kompiuterininkų konferencijos
sekcijoje „K8. Statistiniai metodai, optimizavimas ir prognozavimas“
„Kompiuterininkų dienos – 2015“, Panevėžyje, KTU PTVF 2013-09-19
Pranešimas XII mokyklinės informatikos konferencijos sekcijoje
M5. Inovatyvūs mokymo metodai ir priemonės
„Kompiuterininkų dienos – 2015“, Panevėžyje, KTU PTVF 2013-09-19
The document discusses object detection using YOLOv5 models of varying sizes on different hardware platforms. It evaluates the mAP, inference time, parameters, and GFLOPS of YOLOv5s, YOLOv5m, YOLOv5l, and YOLOv5x models on a reduced COCO dataset. It also measures the average inference time of the optimized Int8 versions of these models on an iPhone 12's Neural Engine, GPU, and CPU. The results show that optimized YOLOv5 models can run real-time object detection at up to 100 images per second on the iPhone 12's Neural Engine.
This document summarizes research on supervised environmental data classification using spatial auto-beta models. The data consists of random fields with attribute values and class labels. A training set is used to classify new observations using generative classification methods. Specifically, attribute values fall within an interval and class labels take one of two values. Transformations are applied to make the data distribution normal. The best fitting distribution is selected to best describe the data. Classification accuracy is evaluated using actual error rates estimated from the data.
This document summarizes a presentation on analyzing Lombard speech and its acoustic properties. It discusses an experiment where 8 speakers recorded words in two rooms, one with acoustic treatment and one without, both with and without noise. Acoustic features were extracted from the speech samples and analyzed based on noise type, room type, and speaker gender. Key findings included identifying features that distinguish Lombard speech from normal speech and vary based on noise level. Future work will use these findings to automatically monitor and improve speech quality and intelligibility in noise.
This document discusses the history and development of hypertext and markup languages. It begins with early methods of calculating and writing before discussing the development of printing press and moveable type in the 15th century. It then outlines important developments in hypertext standards and systems from 1945 to the present, including XML, HTML, CSS and the creation of the World Wide Web in 1990. It also discusses early limitations and issues with HTML and predictions for the future of hypertext.
2. 2
Įvadas
• Automatinės šnekos atpažinimo (AŠA) sistemos
identifikuoja žodžius, kuriuos sako žmogus, ir
konvertuoja juos į tekstą.
• Taikoma įvairiose srityse: balsu valdomos vartotojo
sąsajos, automatinis telefono skambučių apdorojimas,
automatinis balso vertimas iš vienos kalbos į kitą,
stenografavimas ir t.t.
• Lietuvių kalbos struktūra yra gana sudėtinga, jai netinka
kitoms kalboms sukurti akustiniai modeliai.
4. 4
Paslėptieji Markovo Modeliai (PMM)
• PMM panaudojimas šnekai atpažinti remiasi prielaida,
kad kalbos signalas yra atsitiktinis procesas, kurio
parametrus galima nustatyti.
• Nagrinėjamas dvigubas atsitiktinis procesas, kuriame
vyksta du atsitiktiniai procesai: perėjimas iš vienos
būsenos į kitą ir stebėjimas būsenoje.
7. 7
HTK ir ATK įrankiai
• HTK - programinių priemonių rinkinys, naudojamas
PMM grįsto šnekos atpažinimo tyrimams.
– Skirta duomenims rengti, akustiniams ir kalbos modeliams mokyti
ir testuoti, akustiniams modeliams pritaikyti konkrečiam kalbėtojui,
rezultatams analizuoti.
• ATK - tai įrankis, skirtas kurti eksperimentines
programas, naudojant su HTK sukurtus akustinius
modelius.
– ATK turi C ++ sluoksnį, kuris komunikuoja su standartinėmis HTK
bibliotekomis. ATK palaiko Unix ir Windows platformas.
8. 8
Garsynai
Izoliuotų žodžių
garsynas
Garsynai
Frazių garsynas
10 kalbėtojų
(5 vyrų ir 5 moterų)
150 skirtingų žodžių,
pakartotų
10 kartų įrašų
(150 žodžių)
Sudarytas iš
Lietuvos radijo (LRT)
mediatekoje esančių
žinių laidų įrašų
(5859 žodžiai)
Žodžių lygio transkripcijos
9. 9
Transkripcijų žodynas
• Norint atlikti transkribavimą reikia pasirinkti,
pagal kokią fonetinę sistemą bus
transkribuojama.
• Šiame darbe fonetinė sistema sudaryta remiantis
lietuvių kalbos tarties žodynu.
• Transkribuojant atsižvelgta į kirčiavimą,
priebalsių minkštumą ir kietumą, balsių ilgumą ir
trumpumą.
10. 10
Pagrindiniai fonetinės transkripcijos
ženklai
• balsių ilgumas – pvz., [a:],
• garsų pusilgumas – pvz., [a.]
• priebalsių minkštumas – pvz., [l ‘]
• [ng] – gomurinis n, vartojamas prieš [k, g];
• [ae] – paplatėjęs e;
• [e*] – balse ė žymimas garsas;
• [x] – rašyboje dviraidžiu ch žymimas garsas.
• raidėmis ą, ę,..., žymimi ilgieji garsai, pvz., [a: ]).͘
• kirčio ženklai: pvz.,kairinis (pvz., ak)
11. 11
PMM apmokymo eiga
• Sukurtas fonetiškai subalansuotas žodynas
– 5859 žodžiai
– 84 fonemos ir 2 tylos modeliai
• HLEd įrankiu žodžių lygio transkripcijos išplėstos į fonemų
lygio transkripcijas.
• HCopy įrankiu audio failai konvertuoti į MFCC formatą.
12. 12
PMM apmokymo eiga (2)
• PMM modelių apmokymui sukurtas prototipo modelis,
aprašantis 25 MFCC požymių vektorius.
• Fonemos įvertinamos pagal sukurtą prototipą.
13. 13
PMM apmokymo eiga (3)
Tri-fonemų kūrimas iš fonemų
• EITI -> e i t i
EITI -> e+i i-t+i t-i
• Sudaromos tri-fonemos, ir
PMM modeliai iš naujo
įvertinami, remiantis jomis.
• Sukurtos taisyklės galimam
fonemų klasterizavimui.
• Modeliai įvertinami remiantis
sudarytomis taisyklėmis.
14. 14
Apmokytų PMM testavimas
• Frazių atpažinimo testavimui parinkti 100 sakinių
iš radijo žinių įrašų, t.y. 1873 žodžiai.
• Pavienių žodžių atpažinimo testavimui buvo
įrašyta 740 žodžių.
• Sugeneruotas žodžių tinklas (KM).
15. 15
AŠA sistemos tikslumas
• Žodžių klaidų lygis
– sistemos atpažinta žodžių seka yra lyginama su tikrąja
žodžių seka
• S – kiekis klaidingai atpažintų žodžių,
• D – kiekis praleistų žodžių,
• I – kiekis įterptų žodžių,
• N – žodžių kiekis testinėje imtyje.
%100×
++
=
N
IDS
WER
17. 17
Transkripcijų fonemų kiekio sumažinimas
• Sudarytos naujos žodžių fonetinės transkripcijos, kuriose
atsisakyta garsų pusilgumą, priebalsių minkštumą ir kirčio
ženklus žyminčių fonemų.
• Naujas fonemų kiekis – 32.
==================== HTK Results Analysis ================
WORD: %Corr=75.33, Acc=72.61 [H=1411, D=69, S=393, I=51, N=1873]
==================================================
18. 18
Žodžių tinklo praplėtimas bigramomis
• Įrankiu HLStats bigramos sudarytos iš žinių laidų įrašus
atitinkančių sakinių.
• Testuojama su tri-fonemomis.
================== HTK Results Analysis ================
WORD: %Corr=96.32, Acc=94.98 [H=1804, D=19, S=50, I=25, N=1873]
================================================
• Pavienių žodžių atpažinimo tikslumui bigramos įtakos
neturėjo.
20. 20
• Dažniausiai neatpažįstami panašiai skambantys žodžiai,
tokie kaip:
• lėšos - šios,
• įstatymui - įstatymai,
• projektą - projekte,
• kalba - kalbą,
• su dar - sudarė
• ir t.t.
• Praleisti trumpi žodžiai, tokie kaip: į, ir, o, iš.
• Reikėtų didesnio kiekio duomenų, kuriais būtų galima
apmokyti prastai atpažįstamų žodžių akustinius
modelius.
23. 23
Darbo rezultatų analizė
• Sukurtas balso įrašų stenografavimo įrankio
prototipas, skirtas ištisinei šnekai nepriklausomai
nuo kalbėtojo atpažinti.
• Sukurta gramatika, praplėsta bigramomis,
apmokytomis žinių laidų tekstais, ir sudarytas
žodynas, kuriame yra virš 5500 skirtingų žodžių.
24. 24
Darbo rezultatų analizė (2)
• Atsižvelgiant į gautus PMM testavimo rezultatus,
šiuo metu negalime sakyti, kad dabartinis įrankis
yra pritaikomas efektyviam naudojimui.
– Pirmoji priežastis kyla iš to, kad PMM apmokymui
reikėtų didesnio duomenų kiekio, atpažinimas
orientuotas tik į žinių laidų įrašus.
– Žodyno dydžio problema, nes didinant apmokymo
duomenų dydį reikia didinti ir žodyne esančių žodžių
kiekį.
25. 25
Rekomendacijos
• Pavienių žodžių atpažinimui pagerinti būtų
galima praplėsti žodyną ir bigramas apmokyti
didesniu kiekiu sakinių. Ištisinės šnekos
atpažinimui būtų galima trigramomis praplėsti
žodžių tinklą.
• Šnekos atpažinimo tikslumo padidinimui
apmokytus PMM akustinius modelius būtų
galima iš naujo įvertinti HHEd įrankiu padidinus
PMM būsenų mišinių skaičių.
26. 26
Apibendrinimas ir išvados
• Kuriamas garso įrašų stenografavimo įrankio prototipas priklausytų
tokioms AŠA klasifikacijoms: atpažįsta ištisinę šneką, yra
nepriklausoma nuo kalbėtojo, turi vidutinį žodyną.
• Išnagrinėjus šnekos signalo požymių išskyrimo metodus atpažinimui
buvo pasirinktas MFCC, nes šis metodas parodė geriausius
rezultatus lietuvių kalbos šnekos atpažinime.
• Išnagrinėjus metodus, skirtus automatiniam šnekos atpažinimui,
tolimesniam darbui pasirinkti paslėptieji Markovo modeliai kadangi
jie gali būti naudojami ištisinės šnekos atpažinimui.
• Sukurti izoliuotų žodžių ir frazių garsynai, kadangi ištisinės šnekos
atpažinime tikslesniems rezultatams gauti reikalingi kuo daugiau nuo
šnekėjimo tipo priklausomų duomenų.
• Taip pat remiantis lietuvių kalbos tarties žodynu sukurti žodyno ir
transkripcijų failai, kurie naudojami apmokant ir testuojant akustinius
modelius.
27. 27
• Tyrimų rezultatai parodė, kad PMM modeliai apmokyti tri-fonemomis
duoda geresnius atpažinimo rezultatus nei fonemomis apmokyti PMM.
Pavienių žodžių atpažinime (61%), frazių atpažinime (69%). Todėl
rekomenduojama šnekos atpažinimui naudoti tri-fonemas.
• Atlikus fonemų kiekio transkripcijose įtakos atpažinimo tikslumui tyrimus,
kai buvo atsisakyta kirčio ženklus, garsų pusilgumo ir minkštumo
žyminčių fonemų, paaiškėjo, kad tai didelės įtakos atpažinimo tikslumui
neturėjo - atpažinimo tikslumas padidėjo 2%.
• Atlikus tyrimus su bigramomis praplėstu žodžių tinklu nustatyta, kad
bigramos pagerina ištisinės šnekos atpažinimo tikslumą. Žodžių
atpažinimo tikslumas siekė 94%, tačiau pavienių žodžių atpažinimui tai
įtakos neturėjo, todėl reikėtų duomenų, kuriais būtų galima apmokyti
prastai atpažįstamų žodžių akustinius modelius.
Apibendrinimas ir išvados (2)