SlideShare a Scribd company logo
Automatinio šnekos atpažinimo
metodų tyrimas ir taikymai balso
įrašams stenografuoti
Jūratė Vaičiulytė
Vilniaus Universitetas
2015
2
Įvadas
• Automatinės šnekos atpažinimo (AŠA) sistemos
identifikuoja žodžius, kuriuos sako žmogus, ir
konvertuoja juos į tekstą.
• Taikoma įvairiose srityse: balsu valdomos vartotojo
sąsajos, automatinis telefono skambučių apdorojimas,
automatinis balso vertimas iš vienos kalbos į kitą,
stenografavimas ir t.t.
• Lietuvių kalbos struktūra yra gana sudėtinga, jai netinka
kitoms kalboms sukurti akustiniai modeliai.
3
Automatinio šnekos atpažinimo
sistemų veikimo principas
4
Paslėptieji Markovo Modeliai (PMM)
• PMM panaudojimas šnekai atpažinti remiasi prielaida,
kad kalbos signalas yra atsitiktinis procesas, kurio
parametrus galima nustatyti.
• Nagrinėjamas dvigubas atsitiktinis procesas, kuriame
vyksta du atsitiktiniai procesai: perėjimas iš vienos
būsenos į kitą ir stebėjimas būsenoje.
5
Paieška
6
PMM
7
HTK ir ATK įrankiai
• HTK - programinių priemonių rinkinys, naudojamas
PMM grįsto šnekos atpažinimo tyrimams.
– Skirta duomenims rengti, akustiniams ir kalbos modeliams mokyti
ir testuoti, akustiniams modeliams pritaikyti konkrečiam kalbėtojui,
rezultatams analizuoti.
• ATK - tai įrankis, skirtas kurti eksperimentines
programas, naudojant su HTK sukurtus akustinius
modelius.
– ATK turi C ++ sluoksnį, kuris komunikuoja su standartinėmis HTK
bibliotekomis. ATK palaiko Unix ir Windows platformas.
8
Garsynai
Izoliuotų žodžių
garsynas
Garsynai
Frazių garsynas
10 kalbėtojų
(5 vyrų ir 5 moterų)
150 skirtingų žodžių,
pakartotų
10 kartų įrašų
(150 žodžių)
Sudarytas iš
Lietuvos radijo (LRT)
mediatekoje esančių
žinių laidų įrašų
(5859 žodžiai)
Žodžių lygio transkripcijos
9
Transkripcijų žodynas
• Norint atlikti transkribavimą reikia pasirinkti,
pagal kokią fonetinę sistemą bus
transkribuojama.
• Šiame darbe fonetinė sistema sudaryta remiantis
lietuvių kalbos tarties žodynu.
• Transkribuojant atsižvelgta į kirčiavimą,
priebalsių minkštumą ir kietumą, balsių ilgumą ir
trumpumą.
10
Pagrindiniai fonetinės transkripcijos
ženklai
• balsių ilgumas – pvz., [a:],
• garsų pusilgumas – pvz., [a.]
• priebalsių minkštumas – pvz., [l ‘]
• [ng] – gomurinis n, vartojamas prieš [k, g];
• [ae] – paplatėjęs e;
• [e*] – balse ė žymimas garsas;
• [x] – rašyboje dviraidžiu ch žymimas garsas.
• raidėmis ą, ę,..., žymimi ilgieji garsai, pvz., [a: ]).͘
• kirčio ženklai: pvz.,kairinis (pvz., ak)
11
PMM apmokymo eiga
• Sukurtas fonetiškai subalansuotas žodynas
– 5859 žodžiai
– 84 fonemos ir 2 tylos modeliai
• HLEd įrankiu žodžių lygio transkripcijos išplėstos į fonemų
lygio transkripcijas.
• HCopy įrankiu audio failai konvertuoti į MFCC formatą.
12
PMM apmokymo eiga (2)
• PMM modelių apmokymui sukurtas prototipo modelis,
aprašantis 25 MFCC požymių vektorius.
• Fonemos įvertinamos pagal sukurtą prototipą.
13
PMM apmokymo eiga (3)
Tri-fonemų kūrimas iš fonemų
• EITI -> e i t i
EITI -> e+i i-t+i t-i
• Sudaromos tri-fonemos, ir
PMM modeliai iš naujo
įvertinami, remiantis jomis.
• Sukurtos taisyklės galimam
fonemų klasterizavimui.
• Modeliai įvertinami remiantis
sudarytomis taisyklėmis.
14
Apmokytų PMM testavimas
• Frazių atpažinimo testavimui parinkti 100 sakinių
iš radijo žinių įrašų, t.y. 1873 žodžiai.
• Pavienių žodžių atpažinimo testavimui buvo
įrašyta 740 žodžių.
• Sugeneruotas žodžių tinklas (KM).
15
AŠA sistemos tikslumas
• Žodžių klaidų lygis
– sistemos atpažinta žodžių seka yra lyginama su tikrąja
žodžių seka
• S – kiekis klaidingai atpažintų žodžių,
• D – kiekis praleistų žodžių,
• I – kiekis įterptų žodžių,
• N – žodžių kiekis testinėje imtyje.
%100×
++
=
N
IDS
WER
16
Fonemos ir tri-fonemos
Frazių atpažinimas fonemomis:
==================== HTK Results Analysis ==============
WORD: %Corr=53.92, Acc=44.63 [H=1010, D=93, S=770, I=174,N=1873]
================================================
Frazių atpažinimas tri-fonemomis:
=================== HTK Results Analysis ===============
WORD: %Corr=76.67, Acc=69.35 [H=1436, D=59, S=378, I=137,N=1873]
================================================
Pavienių žodžių atpažinimas fonemomis:
================ HTK Results Analysis ==================
WORD: %Corr=29.32, Acc=-15.68 [H=217, D=8, S=515, I=333, N=740]
================================================
Pavienių žodžių atpažinimas tri-fonemomis:
================ HTK Results Analysis ==================
WORD: %Corr=75.14, Acc=61.76 [H=556, D=0, S=184, I=99, N=740]
================================================
17
Transkripcijų fonemų kiekio sumažinimas
• Sudarytos naujos žodžių fonetinės transkripcijos, kuriose
atsisakyta garsų pusilgumą, priebalsių minkštumą ir kirčio
ženklus žyminčių fonemų.
• Naujas fonemų kiekis – 32.
==================== HTK Results Analysis ================
WORD: %Corr=75.33, Acc=72.61 [H=1411, D=69, S=393, I=51, N=1873]
==================================================
18
Žodžių tinklo praplėtimas bigramomis
• Įrankiu HLStats bigramos sudarytos iš žinių laidų įrašus
atitinkančių sakinių.
• Testuojama su tri-fonemomis.
================== HTK Results Analysis ================
WORD: %Corr=96.32, Acc=94.98 [H=1804, D=19, S=50, I=25, N=1873]
================================================
• Pavienių žodžių atpažinimo tikslumui bigramos įtakos
neturėjo.
19
20
• Dažniausiai neatpažįstami panašiai skambantys žodžiai,
tokie kaip:
• lėšos - šios,
• įstatymui - įstatymai,
• projektą - projekte,
• kalba - kalbą,
• su dar - sudarė
• ir t.t.
• Praleisti trumpi žodžiai, tokie kaip: į, ir, o, iš.
• Reikėtų didesnio kiekio duomenų, kuriais būtų galima
apmokyti prastai atpažįstamų žodžių akustinius
modelius.
21
AŠA įrankio prototipo koncepcinis modelis
22
AŠA įrankio prototipo veiksmų diagrama
23
Darbo rezultatų analizė
• Sukurtas balso įrašų stenografavimo įrankio
prototipas, skirtas ištisinei šnekai nepriklausomai
nuo kalbėtojo atpažinti.
• Sukurta gramatika, praplėsta bigramomis,
apmokytomis žinių laidų tekstais, ir sudarytas
žodynas, kuriame yra virš 5500 skirtingų žodžių.
24
Darbo rezultatų analizė (2)
• Atsižvelgiant į gautus PMM testavimo rezultatus,
šiuo metu negalime sakyti, kad dabartinis įrankis
yra pritaikomas efektyviam naudojimui.
– Pirmoji priežastis kyla iš to, kad PMM apmokymui
reikėtų didesnio duomenų kiekio, atpažinimas
orientuotas tik į žinių laidų įrašus.
– Žodyno dydžio problema, nes didinant apmokymo
duomenų dydį reikia didinti ir žodyne esančių žodžių
kiekį.
25
Rekomendacijos
• Pavienių žodžių atpažinimui pagerinti būtų
galima praplėsti žodyną ir bigramas apmokyti
didesniu kiekiu sakinių. Ištisinės šnekos
atpažinimui būtų galima trigramomis praplėsti
žodžių tinklą.
• Šnekos atpažinimo tikslumo padidinimui
apmokytus PMM akustinius modelius būtų
galima iš naujo įvertinti HHEd įrankiu padidinus
PMM būsenų mišinių skaičių.
26
Apibendrinimas ir išvados
• Kuriamas garso įrašų stenografavimo įrankio prototipas priklausytų
tokioms AŠA klasifikacijoms: atpažįsta ištisinę šneką, yra
nepriklausoma nuo kalbėtojo, turi vidutinį žodyną.
• Išnagrinėjus šnekos signalo požymių išskyrimo metodus atpažinimui
buvo pasirinktas MFCC, nes šis metodas parodė geriausius
rezultatus lietuvių kalbos šnekos atpažinime.
• Išnagrinėjus metodus, skirtus automatiniam šnekos atpažinimui,
tolimesniam darbui pasirinkti paslėptieji Markovo modeliai kadangi
jie gali būti naudojami ištisinės šnekos atpažinimui.
• Sukurti izoliuotų žodžių ir frazių garsynai, kadangi ištisinės šnekos
atpažinime tikslesniems rezultatams gauti reikalingi kuo daugiau nuo
šnekėjimo tipo priklausomų duomenų.
• Taip pat remiantis lietuvių kalbos tarties žodynu sukurti žodyno ir
transkripcijų failai, kurie naudojami apmokant ir testuojant akustinius
modelius.
27
• Tyrimų rezultatai parodė, kad PMM modeliai apmokyti tri-fonemomis
duoda geresnius atpažinimo rezultatus nei fonemomis apmokyti PMM.
Pavienių žodžių atpažinime (61%), frazių atpažinime (69%). Todėl
rekomenduojama šnekos atpažinimui naudoti tri-fonemas.
• Atlikus fonemų kiekio transkripcijose įtakos atpažinimo tikslumui tyrimus,
kai buvo atsisakyta kirčio ženklus, garsų pusilgumo ir minkštumo
žyminčių fonemų, paaiškėjo, kad tai didelės įtakos atpažinimo tikslumui
neturėjo - atpažinimo tikslumas padidėjo 2%.
• Atlikus tyrimus su bigramomis praplėstu žodžių tinklu nustatyta, kad
bigramos pagerina ištisinės šnekos atpažinimo tikslumą. Žodžių
atpažinimo tikslumas siekė 94%, tačiau pavienių žodžių atpažinimui tai
įtakos neturėjo, todėl reikėtų duomenų, kuriais būtų galima apmokyti
prastai atpažįstamų žodžių akustinius modelius.
Apibendrinimas ir išvados (2)
Automatinio šnekos atpažinimo
metodų tyrimas ir taikymai balso
įrašams stenografuoti
Jūratė Vaičiulytė
Vilniaus Universitetas
2015

More Related Content

Viewers also liked

Pawel FORCZMANSKI (West Pomeranian University of Technology) "Advanced digita...
Pawel FORCZMANSKI (West Pomeranian University of Technology) "Advanced digita...Pawel FORCZMANSKI (West Pomeranian University of Technology) "Advanced digita...
Pawel FORCZMANSKI (West Pomeranian University of Technology) "Advanced digita...
Lietuvos kompiuterininkų sąjunga
 
Rita ŠUKYTĖ. Naujos metodinės priemonės mokytojui
Rita ŠUKYTĖ. Naujos metodinės priemonės mokytojuiRita ŠUKYTĖ. Naujos metodinės priemonės mokytojui
Rita ŠUKYTĖ. Naujos metodinės priemonės mokytojui
Lietuvos kompiuterininkų sąjunga
 
Dr. Renata DANIELIENĖ (ECDL Lietuva). Saugumo svarba elektroninėje erdvėje
Dr. Renata DANIELIENĖ (ECDL Lietuva). Saugumo svarba elektroninėje erdvėjeDr. Renata DANIELIENĖ (ECDL Lietuva). Saugumo svarba elektroninėje erdvėje
Dr. Renata DANIELIENĖ (ECDL Lietuva). Saugumo svarba elektroninėje erdvėje
Lietuvos kompiuterininkų sąjunga
 
Rytis MALAKAUSKAS (VU MIF). Debesijos technologijos
Rytis MALAKAUSKAS (VU MIF). Debesijos technologijos Rytis MALAKAUSKAS (VU MIF). Debesijos technologijos
Rytis MALAKAUSKAS (VU MIF). Debesijos technologijos
Lietuvos kompiuterininkų sąjunga
 
Armantas OSTREIKA, Andrius LAURAITIS. HTML dokumentų turinio palyginimo algor...
Armantas OSTREIKA, Andrius LAURAITIS. HTML dokumentų turinio palyginimo algor...Armantas OSTREIKA, Andrius LAURAITIS. HTML dokumentų turinio palyginimo algor...
Armantas OSTREIKA, Andrius LAURAITIS. HTML dokumentų turinio palyginimo algor...
Lietuvos kompiuterininkų sąjunga
 
Daina GUDONIENĖ, Danguolė RUTKAUSKIENĖ. Masinių atvirų internetinių kursų tei...
Daina GUDONIENĖ, Danguolė RUTKAUSKIENĖ. Masinių atvirų internetinių kursų tei...Daina GUDONIENĖ, Danguolė RUTKAUSKIENĖ. Masinių atvirų internetinių kursų tei...
Daina GUDONIENĖ, Danguolė RUTKAUSKIENĖ. Masinių atvirų internetinių kursų tei...
Lietuvos kompiuterininkų sąjunga
 
Regina ZLATKAUSKIENĖ „Informacinių technologijų ugdymo turinio kaita“
Regina ZLATKAUSKIENĖ „Informacinių technologijų ugdymo turinio kaita“Regina ZLATKAUSKIENĖ „Informacinių technologijų ugdymo turinio kaita“
Regina ZLATKAUSKIENĖ „Informacinių technologijų ugdymo turinio kaita“
Lietuvos kompiuterininkų sąjunga
 
Dalius MAKACKAS, Regina MISEVIČIENĖ. Ekvivalenčių būsenų paieškos algoritmas ...
Dalius MAKACKAS, Regina MISEVIČIENĖ. Ekvivalenčių būsenų paieškos algoritmas ...Dalius MAKACKAS, Regina MISEVIČIENĖ. Ekvivalenčių būsenų paieškos algoritmas ...
Dalius MAKACKAS, Regina MISEVIČIENĖ. Ekvivalenčių būsenų paieškos algoritmas ...
Lietuvos kompiuterininkų sąjunga
 
Irina STOLYARCHUK. Focus areas of collaboration between IT Companies, Certifi...
Irina STOLYARCHUK. Focus areas of collaboration between IT Companies, Certifi...Irina STOLYARCHUK. Focus areas of collaboration between IT Companies, Certifi...
Irina STOLYARCHUK. Focus areas of collaboration between IT Companies, Certifi...
Lietuvos kompiuterininkų sąjunga
 
IT pirkimų iššūkiai: pirkti ar ne? Ką ir Kaip?
IT pirkimų iššūkiai: pirkti ar ne? Ką ir Kaip?IT pirkimų iššūkiai: pirkti ar ne? Ką ir Kaip?
IT pirkimų iššūkiai: pirkti ar ne? Ką ir Kaip?
Marijus Stroncikas
 
Jurgis PRALGAUSKIS. Modernios programavimo mokymo(-si) aplinkos
Jurgis PRALGAUSKIS. Modernios programavimo mokymo(-si) aplinkos Jurgis PRALGAUSKIS. Modernios programavimo mokymo(-si) aplinkos
Jurgis PRALGAUSKIS. Modernios programavimo mokymo(-si) aplinkos
Lietuvos kompiuterininkų sąjunga
 
Pawel FORCZMANSKI "Dimensionality reduction methods applied to digital image ...
Pawel FORCZMANSKI "Dimensionality reduction methods applied to digital image ...Pawel FORCZMANSKI "Dimensionality reduction methods applied to digital image ...
Pawel FORCZMANSKI "Dimensionality reduction methods applied to digital image ...
Lietuvos kompiuterininkų sąjunga
 

Viewers also liked (12)

Pawel FORCZMANSKI (West Pomeranian University of Technology) "Advanced digita...
Pawel FORCZMANSKI (West Pomeranian University of Technology) "Advanced digita...Pawel FORCZMANSKI (West Pomeranian University of Technology) "Advanced digita...
Pawel FORCZMANSKI (West Pomeranian University of Technology) "Advanced digita...
 
Rita ŠUKYTĖ. Naujos metodinės priemonės mokytojui
Rita ŠUKYTĖ. Naujos metodinės priemonės mokytojuiRita ŠUKYTĖ. Naujos metodinės priemonės mokytojui
Rita ŠUKYTĖ. Naujos metodinės priemonės mokytojui
 
Dr. Renata DANIELIENĖ (ECDL Lietuva). Saugumo svarba elektroninėje erdvėje
Dr. Renata DANIELIENĖ (ECDL Lietuva). Saugumo svarba elektroninėje erdvėjeDr. Renata DANIELIENĖ (ECDL Lietuva). Saugumo svarba elektroninėje erdvėje
Dr. Renata DANIELIENĖ (ECDL Lietuva). Saugumo svarba elektroninėje erdvėje
 
Rytis MALAKAUSKAS (VU MIF). Debesijos technologijos
Rytis MALAKAUSKAS (VU MIF). Debesijos technologijos Rytis MALAKAUSKAS (VU MIF). Debesijos technologijos
Rytis MALAKAUSKAS (VU MIF). Debesijos technologijos
 
Armantas OSTREIKA, Andrius LAURAITIS. HTML dokumentų turinio palyginimo algor...
Armantas OSTREIKA, Andrius LAURAITIS. HTML dokumentų turinio palyginimo algor...Armantas OSTREIKA, Andrius LAURAITIS. HTML dokumentų turinio palyginimo algor...
Armantas OSTREIKA, Andrius LAURAITIS. HTML dokumentų turinio palyginimo algor...
 
Daina GUDONIENĖ, Danguolė RUTKAUSKIENĖ. Masinių atvirų internetinių kursų tei...
Daina GUDONIENĖ, Danguolė RUTKAUSKIENĖ. Masinių atvirų internetinių kursų tei...Daina GUDONIENĖ, Danguolė RUTKAUSKIENĖ. Masinių atvirų internetinių kursų tei...
Daina GUDONIENĖ, Danguolė RUTKAUSKIENĖ. Masinių atvirų internetinių kursų tei...
 
Regina ZLATKAUSKIENĖ „Informacinių technologijų ugdymo turinio kaita“
Regina ZLATKAUSKIENĖ „Informacinių technologijų ugdymo turinio kaita“Regina ZLATKAUSKIENĖ „Informacinių technologijų ugdymo turinio kaita“
Regina ZLATKAUSKIENĖ „Informacinių technologijų ugdymo turinio kaita“
 
Dalius MAKACKAS, Regina MISEVIČIENĖ. Ekvivalenčių būsenų paieškos algoritmas ...
Dalius MAKACKAS, Regina MISEVIČIENĖ. Ekvivalenčių būsenų paieškos algoritmas ...Dalius MAKACKAS, Regina MISEVIČIENĖ. Ekvivalenčių būsenų paieškos algoritmas ...
Dalius MAKACKAS, Regina MISEVIČIENĖ. Ekvivalenčių būsenų paieškos algoritmas ...
 
Irina STOLYARCHUK. Focus areas of collaboration between IT Companies, Certifi...
Irina STOLYARCHUK. Focus areas of collaboration between IT Companies, Certifi...Irina STOLYARCHUK. Focus areas of collaboration between IT Companies, Certifi...
Irina STOLYARCHUK. Focus areas of collaboration between IT Companies, Certifi...
 
IT pirkimų iššūkiai: pirkti ar ne? Ką ir Kaip?
IT pirkimų iššūkiai: pirkti ar ne? Ką ir Kaip?IT pirkimų iššūkiai: pirkti ar ne? Ką ir Kaip?
IT pirkimų iššūkiai: pirkti ar ne? Ką ir Kaip?
 
Jurgis PRALGAUSKIS. Modernios programavimo mokymo(-si) aplinkos
Jurgis PRALGAUSKIS. Modernios programavimo mokymo(-si) aplinkos Jurgis PRALGAUSKIS. Modernios programavimo mokymo(-si) aplinkos
Jurgis PRALGAUSKIS. Modernios programavimo mokymo(-si) aplinkos
 
Pawel FORCZMANSKI "Dimensionality reduction methods applied to digital image ...
Pawel FORCZMANSKI "Dimensionality reduction methods applied to digital image ...Pawel FORCZMANSKI "Dimensionality reduction methods applied to digital image ...
Pawel FORCZMANSKI "Dimensionality reduction methods applied to digital image ...
 

More from Lietuvos kompiuterininkų sąjunga

LIKS ataskaita 2021-2023
LIKS ataskaita 2021-2023LIKS ataskaita 2021-2023
LIKS ataskaita 2021-2023
Lietuvos kompiuterininkų sąjunga
 
Eimutis KARČIAUSKAS. Informatikos mokymo pasiekimų vertinimų analizė
Eimutis KARČIAUSKAS. Informatikos mokymo pasiekimų vertinimų analizėEimutis KARČIAUSKAS. Informatikos mokymo pasiekimų vertinimų analizė
Eimutis KARČIAUSKAS. Informatikos mokymo pasiekimų vertinimų analizė
Lietuvos kompiuterininkų sąjunga
 
B. Čiapas. Prekių atpažinimo tyrimas naudojant giliuosius neuroninius tinklus...
B. Čiapas. Prekių atpažinimo tyrimas naudojant giliuosius neuroninius tinklus...B. Čiapas. Prekių atpažinimo tyrimas naudojant giliuosius neuroninius tinklus...
B. Čiapas. Prekių atpažinimo tyrimas naudojant giliuosius neuroninius tinklus...
Lietuvos kompiuterininkų sąjunga
 
D. Dluznevskij. YOLOv5 efektyvumo tyrimas „iPhone“ palaikomose sistemose
D. Dluznevskij.  YOLOv5 efektyvumo tyrimas „iPhone“ palaikomose sistemoseD. Dluznevskij.  YOLOv5 efektyvumo tyrimas „iPhone“ palaikomose sistemose
D. Dluznevskij. YOLOv5 efektyvumo tyrimas „iPhone“ palaikomose sistemose
Lietuvos kompiuterininkų sąjunga
 
I. Jakšaitytė. Nuotoliniai kursai informatikos mokytojų kvalifikacijai kelti:...
I. Jakšaitytė. Nuotoliniai kursai informatikos mokytojų kvalifikacijai kelti:...I. Jakšaitytė. Nuotoliniai kursai informatikos mokytojų kvalifikacijai kelti:...
I. Jakšaitytė. Nuotoliniai kursai informatikos mokytojų kvalifikacijai kelti:...
Lietuvos kompiuterininkų sąjunga
 
G. Mezetis. Skaimenines valstybes link
G. Mezetis. Skaimenines valstybes link G. Mezetis. Skaimenines valstybes link
G. Mezetis. Skaimenines valstybes link
Lietuvos kompiuterininkų sąjunga
 
E..Zikariene. Priziurima aplinkos duomenu klasifikacija, pagrista erdviniais ...
E..Zikariene. Priziurima aplinkos duomenu klasifikacija, pagrista erdviniais ...E..Zikariene. Priziurima aplinkos duomenu klasifikacija, pagrista erdviniais ...
E..Zikariene. Priziurima aplinkos duomenu klasifikacija, pagrista erdviniais ...
Lietuvos kompiuterininkų sąjunga
 
V. Jakuška. Ką reikėtu žinoti apie .lt domeną?
V. Jakuška. Ką reikėtu žinoti apie .lt domeną?V. Jakuška. Ką reikėtu žinoti apie .lt domeną?
V. Jakuška. Ką reikėtu žinoti apie .lt domeną?
Lietuvos kompiuterininkų sąjunga
 
V. Marcinkevičius. ARIS dirbtinio intelekto kurso mokymosi medžiaga, www.aris...
V. Marcinkevičius. ARIS dirbtinio intelekto kurso mokymosi medžiaga, www.aris...V. Marcinkevičius. ARIS dirbtinio intelekto kurso mokymosi medžiaga, www.aris...
V. Marcinkevičius. ARIS dirbtinio intelekto kurso mokymosi medžiaga, www.aris...
Lietuvos kompiuterininkų sąjunga
 
Jolanta Navickaitė. Skaitmeninė kompetencija ir informatikos naujovės bendraj...
Jolanta Navickaitė. Skaitmeninė kompetencija ir informatikos naujovės bendraj...Jolanta Navickaitė. Skaitmeninė kompetencija ir informatikos naujovės bendraj...
Jolanta Navickaitė. Skaitmeninė kompetencija ir informatikos naujovės bendraj...
Lietuvos kompiuterininkų sąjunga
 
Raimundas Matylevičius. Asmens duomenų valdymas
Raimundas Matylevičius. Asmens duomenų valdymasRaimundas Matylevičius. Asmens duomenų valdymas
Raimundas Matylevičius. Asmens duomenų valdymas
Lietuvos kompiuterininkų sąjunga
 
Romas Baronas. Tarpdisciplininiai moksliniai tyrimai – galimybė atsiverti ir ...
Romas Baronas. Tarpdisciplininiai moksliniai tyrimai – galimybė atsiverti ir ...Romas Baronas. Tarpdisciplininiai moksliniai tyrimai – galimybė atsiverti ir ...
Romas Baronas. Tarpdisciplininiai moksliniai tyrimai – galimybė atsiverti ir ...
Lietuvos kompiuterininkų sąjunga
 
Monika Danilovaitė. Informatikos metodų taikymas balso klosčių būklei įvertin...
Monika Danilovaitė. Informatikos metodų taikymas balso klosčių būklei įvertin...Monika Danilovaitė. Informatikos metodų taikymas balso klosčių būklei įvertin...
Monika Danilovaitė. Informatikos metodų taikymas balso klosčių būklei įvertin...
Lietuvos kompiuterininkų sąjunga
 
Rima Šiaulienė. IT VBE 2021 teksto maketavimo užduotis
Rima Šiaulienė. IT VBE 2021 teksto maketavimo užduotisRima Šiaulienė. IT VBE 2021 teksto maketavimo užduotis
Rima Šiaulienė. IT VBE 2021 teksto maketavimo užduotis
Lietuvos kompiuterininkų sąjunga
 
Gražina Korvel. Lombardo šnekos ir jos akustinių ypatybių analizė
Gražina Korvel. Lombardo šnekos ir jos akustinių ypatybių analizėGražina Korvel. Lombardo šnekos ir jos akustinių ypatybių analizė
Gražina Korvel. Lombardo šnekos ir jos akustinių ypatybių analizė
Lietuvos kompiuterininkų sąjunga
 
Gediminas Navickas. Ar mes visi vienodai suvokiame sintetinę kalbą?
Gediminas Navickas. Ar mes visi vienodai suvokiame sintetinę kalbą?Gediminas Navickas. Ar mes visi vienodai suvokiame sintetinę kalbą?
Gediminas Navickas. Ar mes visi vienodai suvokiame sintetinę kalbą?
Lietuvos kompiuterininkų sąjunga
 
Eugenijus Valavičius. Hiperteksto kelias
Eugenijus Valavičius. Hiperteksto keliasEugenijus Valavičius. Hiperteksto kelias
Eugenijus Valavičius. Hiperteksto kelias
Lietuvos kompiuterininkų sąjunga
 
Tomas Kasperavičius. Robotikos realizacija edukacinėje erdvėje
Tomas Kasperavičius. Robotikos realizacija edukacinėje erdvėjeTomas Kasperavičius. Robotikos realizacija edukacinėje erdvėje
Tomas Kasperavičius. Robotikos realizacija edukacinėje erdvėje
Lietuvos kompiuterininkų sąjunga
 
Paulius Šakalys. Robotika: sąvoka, rūšys, pritaikymas edukacinėje erdvėje
Paulius Šakalys. Robotika: sąvoka, rūšys, pritaikymas edukacinėje erdvėjePaulius Šakalys. Robotika: sąvoka, rūšys, pritaikymas edukacinėje erdvėje
Paulius Šakalys. Robotika: sąvoka, rūšys, pritaikymas edukacinėje erdvėje
Lietuvos kompiuterininkų sąjunga
 
Olga Kurasova. Dirbtinis intelektas ir neuroniniai tinklai
Olga Kurasova. Dirbtinis intelektas ir neuroniniai tinklaiOlga Kurasova. Dirbtinis intelektas ir neuroniniai tinklai
Olga Kurasova. Dirbtinis intelektas ir neuroniniai tinklai
Lietuvos kompiuterininkų sąjunga
 

More from Lietuvos kompiuterininkų sąjunga (20)

LIKS ataskaita 2021-2023
LIKS ataskaita 2021-2023LIKS ataskaita 2021-2023
LIKS ataskaita 2021-2023
 
Eimutis KARČIAUSKAS. Informatikos mokymo pasiekimų vertinimų analizė
Eimutis KARČIAUSKAS. Informatikos mokymo pasiekimų vertinimų analizėEimutis KARČIAUSKAS. Informatikos mokymo pasiekimų vertinimų analizė
Eimutis KARČIAUSKAS. Informatikos mokymo pasiekimų vertinimų analizė
 
B. Čiapas. Prekių atpažinimo tyrimas naudojant giliuosius neuroninius tinklus...
B. Čiapas. Prekių atpažinimo tyrimas naudojant giliuosius neuroninius tinklus...B. Čiapas. Prekių atpažinimo tyrimas naudojant giliuosius neuroninius tinklus...
B. Čiapas. Prekių atpažinimo tyrimas naudojant giliuosius neuroninius tinklus...
 
D. Dluznevskij. YOLOv5 efektyvumo tyrimas „iPhone“ palaikomose sistemose
D. Dluznevskij.  YOLOv5 efektyvumo tyrimas „iPhone“ palaikomose sistemoseD. Dluznevskij.  YOLOv5 efektyvumo tyrimas „iPhone“ palaikomose sistemose
D. Dluznevskij. YOLOv5 efektyvumo tyrimas „iPhone“ palaikomose sistemose
 
I. Jakšaitytė. Nuotoliniai kursai informatikos mokytojų kvalifikacijai kelti:...
I. Jakšaitytė. Nuotoliniai kursai informatikos mokytojų kvalifikacijai kelti:...I. Jakšaitytė. Nuotoliniai kursai informatikos mokytojų kvalifikacijai kelti:...
I. Jakšaitytė. Nuotoliniai kursai informatikos mokytojų kvalifikacijai kelti:...
 
G. Mezetis. Skaimenines valstybes link
G. Mezetis. Skaimenines valstybes link G. Mezetis. Skaimenines valstybes link
G. Mezetis. Skaimenines valstybes link
 
E..Zikariene. Priziurima aplinkos duomenu klasifikacija, pagrista erdviniais ...
E..Zikariene. Priziurima aplinkos duomenu klasifikacija, pagrista erdviniais ...E..Zikariene. Priziurima aplinkos duomenu klasifikacija, pagrista erdviniais ...
E..Zikariene. Priziurima aplinkos duomenu klasifikacija, pagrista erdviniais ...
 
V. Jakuška. Ką reikėtu žinoti apie .lt domeną?
V. Jakuška. Ką reikėtu žinoti apie .lt domeną?V. Jakuška. Ką reikėtu žinoti apie .lt domeną?
V. Jakuška. Ką reikėtu žinoti apie .lt domeną?
 
V. Marcinkevičius. ARIS dirbtinio intelekto kurso mokymosi medžiaga, www.aris...
V. Marcinkevičius. ARIS dirbtinio intelekto kurso mokymosi medžiaga, www.aris...V. Marcinkevičius. ARIS dirbtinio intelekto kurso mokymosi medžiaga, www.aris...
V. Marcinkevičius. ARIS dirbtinio intelekto kurso mokymosi medžiaga, www.aris...
 
Jolanta Navickaitė. Skaitmeninė kompetencija ir informatikos naujovės bendraj...
Jolanta Navickaitė. Skaitmeninė kompetencija ir informatikos naujovės bendraj...Jolanta Navickaitė. Skaitmeninė kompetencija ir informatikos naujovės bendraj...
Jolanta Navickaitė. Skaitmeninė kompetencija ir informatikos naujovės bendraj...
 
Raimundas Matylevičius. Asmens duomenų valdymas
Raimundas Matylevičius. Asmens duomenų valdymasRaimundas Matylevičius. Asmens duomenų valdymas
Raimundas Matylevičius. Asmens duomenų valdymas
 
Romas Baronas. Tarpdisciplininiai moksliniai tyrimai – galimybė atsiverti ir ...
Romas Baronas. Tarpdisciplininiai moksliniai tyrimai – galimybė atsiverti ir ...Romas Baronas. Tarpdisciplininiai moksliniai tyrimai – galimybė atsiverti ir ...
Romas Baronas. Tarpdisciplininiai moksliniai tyrimai – galimybė atsiverti ir ...
 
Monika Danilovaitė. Informatikos metodų taikymas balso klosčių būklei įvertin...
Monika Danilovaitė. Informatikos metodų taikymas balso klosčių būklei įvertin...Monika Danilovaitė. Informatikos metodų taikymas balso klosčių būklei įvertin...
Monika Danilovaitė. Informatikos metodų taikymas balso klosčių būklei įvertin...
 
Rima Šiaulienė. IT VBE 2021 teksto maketavimo užduotis
Rima Šiaulienė. IT VBE 2021 teksto maketavimo užduotisRima Šiaulienė. IT VBE 2021 teksto maketavimo užduotis
Rima Šiaulienė. IT VBE 2021 teksto maketavimo užduotis
 
Gražina Korvel. Lombardo šnekos ir jos akustinių ypatybių analizė
Gražina Korvel. Lombardo šnekos ir jos akustinių ypatybių analizėGražina Korvel. Lombardo šnekos ir jos akustinių ypatybių analizė
Gražina Korvel. Lombardo šnekos ir jos akustinių ypatybių analizė
 
Gediminas Navickas. Ar mes visi vienodai suvokiame sintetinę kalbą?
Gediminas Navickas. Ar mes visi vienodai suvokiame sintetinę kalbą?Gediminas Navickas. Ar mes visi vienodai suvokiame sintetinę kalbą?
Gediminas Navickas. Ar mes visi vienodai suvokiame sintetinę kalbą?
 
Eugenijus Valavičius. Hiperteksto kelias
Eugenijus Valavičius. Hiperteksto keliasEugenijus Valavičius. Hiperteksto kelias
Eugenijus Valavičius. Hiperteksto kelias
 
Tomas Kasperavičius. Robotikos realizacija edukacinėje erdvėje
Tomas Kasperavičius. Robotikos realizacija edukacinėje erdvėjeTomas Kasperavičius. Robotikos realizacija edukacinėje erdvėje
Tomas Kasperavičius. Robotikos realizacija edukacinėje erdvėje
 
Paulius Šakalys. Robotika: sąvoka, rūšys, pritaikymas edukacinėje erdvėje
Paulius Šakalys. Robotika: sąvoka, rūšys, pritaikymas edukacinėje erdvėjePaulius Šakalys. Robotika: sąvoka, rūšys, pritaikymas edukacinėje erdvėje
Paulius Šakalys. Robotika: sąvoka, rūšys, pritaikymas edukacinėje erdvėje
 
Olga Kurasova. Dirbtinis intelektas ir neuroniniai tinklai
Olga Kurasova. Dirbtinis intelektas ir neuroniniai tinklaiOlga Kurasova. Dirbtinis intelektas ir neuroniniai tinklai
Olga Kurasova. Dirbtinis intelektas ir neuroniniai tinklai
 

Jūratė VAIČIULYTĖ. Automatinio šnekos atpažinimo metodų tyrimas ir taikymai balso įrašams stenografuoti

  • 1. Automatinio šnekos atpažinimo metodų tyrimas ir taikymai balso įrašams stenografuoti Jūratė Vaičiulytė Vilniaus Universitetas 2015
  • 2. 2 Įvadas • Automatinės šnekos atpažinimo (AŠA) sistemos identifikuoja žodžius, kuriuos sako žmogus, ir konvertuoja juos į tekstą. • Taikoma įvairiose srityse: balsu valdomos vartotojo sąsajos, automatinis telefono skambučių apdorojimas, automatinis balso vertimas iš vienos kalbos į kitą, stenografavimas ir t.t. • Lietuvių kalbos struktūra yra gana sudėtinga, jai netinka kitoms kalboms sukurti akustiniai modeliai.
  • 4. 4 Paslėptieji Markovo Modeliai (PMM) • PMM panaudojimas šnekai atpažinti remiasi prielaida, kad kalbos signalas yra atsitiktinis procesas, kurio parametrus galima nustatyti. • Nagrinėjamas dvigubas atsitiktinis procesas, kuriame vyksta du atsitiktiniai procesai: perėjimas iš vienos būsenos į kitą ir stebėjimas būsenoje.
  • 7. 7 HTK ir ATK įrankiai • HTK - programinių priemonių rinkinys, naudojamas PMM grįsto šnekos atpažinimo tyrimams. – Skirta duomenims rengti, akustiniams ir kalbos modeliams mokyti ir testuoti, akustiniams modeliams pritaikyti konkrečiam kalbėtojui, rezultatams analizuoti. • ATK - tai įrankis, skirtas kurti eksperimentines programas, naudojant su HTK sukurtus akustinius modelius. – ATK turi C ++ sluoksnį, kuris komunikuoja su standartinėmis HTK bibliotekomis. ATK palaiko Unix ir Windows platformas.
  • 8. 8 Garsynai Izoliuotų žodžių garsynas Garsynai Frazių garsynas 10 kalbėtojų (5 vyrų ir 5 moterų) 150 skirtingų žodžių, pakartotų 10 kartų įrašų (150 žodžių) Sudarytas iš Lietuvos radijo (LRT) mediatekoje esančių žinių laidų įrašų (5859 žodžiai) Žodžių lygio transkripcijos
  • 9. 9 Transkripcijų žodynas • Norint atlikti transkribavimą reikia pasirinkti, pagal kokią fonetinę sistemą bus transkribuojama. • Šiame darbe fonetinė sistema sudaryta remiantis lietuvių kalbos tarties žodynu. • Transkribuojant atsižvelgta į kirčiavimą, priebalsių minkštumą ir kietumą, balsių ilgumą ir trumpumą.
  • 10. 10 Pagrindiniai fonetinės transkripcijos ženklai • balsių ilgumas – pvz., [a:], • garsų pusilgumas – pvz., [a.] • priebalsių minkštumas – pvz., [l ‘] • [ng] – gomurinis n, vartojamas prieš [k, g]; • [ae] – paplatėjęs e; • [e*] – balse ė žymimas garsas; • [x] – rašyboje dviraidžiu ch žymimas garsas. • raidėmis ą, ę,..., žymimi ilgieji garsai, pvz., [a: ]).͘ • kirčio ženklai: pvz.,kairinis (pvz., ak)
  • 11. 11 PMM apmokymo eiga • Sukurtas fonetiškai subalansuotas žodynas – 5859 žodžiai – 84 fonemos ir 2 tylos modeliai • HLEd įrankiu žodžių lygio transkripcijos išplėstos į fonemų lygio transkripcijas. • HCopy įrankiu audio failai konvertuoti į MFCC formatą.
  • 12. 12 PMM apmokymo eiga (2) • PMM modelių apmokymui sukurtas prototipo modelis, aprašantis 25 MFCC požymių vektorius. • Fonemos įvertinamos pagal sukurtą prototipą.
  • 13. 13 PMM apmokymo eiga (3) Tri-fonemų kūrimas iš fonemų • EITI -> e i t i EITI -> e+i i-t+i t-i • Sudaromos tri-fonemos, ir PMM modeliai iš naujo įvertinami, remiantis jomis. • Sukurtos taisyklės galimam fonemų klasterizavimui. • Modeliai įvertinami remiantis sudarytomis taisyklėmis.
  • 14. 14 Apmokytų PMM testavimas • Frazių atpažinimo testavimui parinkti 100 sakinių iš radijo žinių įrašų, t.y. 1873 žodžiai. • Pavienių žodžių atpažinimo testavimui buvo įrašyta 740 žodžių. • Sugeneruotas žodžių tinklas (KM).
  • 15. 15 AŠA sistemos tikslumas • Žodžių klaidų lygis – sistemos atpažinta žodžių seka yra lyginama su tikrąja žodžių seka • S – kiekis klaidingai atpažintų žodžių, • D – kiekis praleistų žodžių, • I – kiekis įterptų žodžių, • N – žodžių kiekis testinėje imtyje. %100× ++ = N IDS WER
  • 16. 16 Fonemos ir tri-fonemos Frazių atpažinimas fonemomis: ==================== HTK Results Analysis ============== WORD: %Corr=53.92, Acc=44.63 [H=1010, D=93, S=770, I=174,N=1873] ================================================ Frazių atpažinimas tri-fonemomis: =================== HTK Results Analysis =============== WORD: %Corr=76.67, Acc=69.35 [H=1436, D=59, S=378, I=137,N=1873] ================================================ Pavienių žodžių atpažinimas fonemomis: ================ HTK Results Analysis ================== WORD: %Corr=29.32, Acc=-15.68 [H=217, D=8, S=515, I=333, N=740] ================================================ Pavienių žodžių atpažinimas tri-fonemomis: ================ HTK Results Analysis ================== WORD: %Corr=75.14, Acc=61.76 [H=556, D=0, S=184, I=99, N=740] ================================================
  • 17. 17 Transkripcijų fonemų kiekio sumažinimas • Sudarytos naujos žodžių fonetinės transkripcijos, kuriose atsisakyta garsų pusilgumą, priebalsių minkštumą ir kirčio ženklus žyminčių fonemų. • Naujas fonemų kiekis – 32. ==================== HTK Results Analysis ================ WORD: %Corr=75.33, Acc=72.61 [H=1411, D=69, S=393, I=51, N=1873] ==================================================
  • 18. 18 Žodžių tinklo praplėtimas bigramomis • Įrankiu HLStats bigramos sudarytos iš žinių laidų įrašus atitinkančių sakinių. • Testuojama su tri-fonemomis. ================== HTK Results Analysis ================ WORD: %Corr=96.32, Acc=94.98 [H=1804, D=19, S=50, I=25, N=1873] ================================================ • Pavienių žodžių atpažinimo tikslumui bigramos įtakos neturėjo.
  • 19. 19
  • 20. 20 • Dažniausiai neatpažįstami panašiai skambantys žodžiai, tokie kaip: • lėšos - šios, • įstatymui - įstatymai, • projektą - projekte, • kalba - kalbą, • su dar - sudarė • ir t.t. • Praleisti trumpi žodžiai, tokie kaip: į, ir, o, iš. • Reikėtų didesnio kiekio duomenų, kuriais būtų galima apmokyti prastai atpažįstamų žodžių akustinius modelius.
  • 21. 21 AŠA įrankio prototipo koncepcinis modelis
  • 22. 22 AŠA įrankio prototipo veiksmų diagrama
  • 23. 23 Darbo rezultatų analizė • Sukurtas balso įrašų stenografavimo įrankio prototipas, skirtas ištisinei šnekai nepriklausomai nuo kalbėtojo atpažinti. • Sukurta gramatika, praplėsta bigramomis, apmokytomis žinių laidų tekstais, ir sudarytas žodynas, kuriame yra virš 5500 skirtingų žodžių.
  • 24. 24 Darbo rezultatų analizė (2) • Atsižvelgiant į gautus PMM testavimo rezultatus, šiuo metu negalime sakyti, kad dabartinis įrankis yra pritaikomas efektyviam naudojimui. – Pirmoji priežastis kyla iš to, kad PMM apmokymui reikėtų didesnio duomenų kiekio, atpažinimas orientuotas tik į žinių laidų įrašus. – Žodyno dydžio problema, nes didinant apmokymo duomenų dydį reikia didinti ir žodyne esančių žodžių kiekį.
  • 25. 25 Rekomendacijos • Pavienių žodžių atpažinimui pagerinti būtų galima praplėsti žodyną ir bigramas apmokyti didesniu kiekiu sakinių. Ištisinės šnekos atpažinimui būtų galima trigramomis praplėsti žodžių tinklą. • Šnekos atpažinimo tikslumo padidinimui apmokytus PMM akustinius modelius būtų galima iš naujo įvertinti HHEd įrankiu padidinus PMM būsenų mišinių skaičių.
  • 26. 26 Apibendrinimas ir išvados • Kuriamas garso įrašų stenografavimo įrankio prototipas priklausytų tokioms AŠA klasifikacijoms: atpažįsta ištisinę šneką, yra nepriklausoma nuo kalbėtojo, turi vidutinį žodyną. • Išnagrinėjus šnekos signalo požymių išskyrimo metodus atpažinimui buvo pasirinktas MFCC, nes šis metodas parodė geriausius rezultatus lietuvių kalbos šnekos atpažinime. • Išnagrinėjus metodus, skirtus automatiniam šnekos atpažinimui, tolimesniam darbui pasirinkti paslėptieji Markovo modeliai kadangi jie gali būti naudojami ištisinės šnekos atpažinimui. • Sukurti izoliuotų žodžių ir frazių garsynai, kadangi ištisinės šnekos atpažinime tikslesniems rezultatams gauti reikalingi kuo daugiau nuo šnekėjimo tipo priklausomų duomenų. • Taip pat remiantis lietuvių kalbos tarties žodynu sukurti žodyno ir transkripcijų failai, kurie naudojami apmokant ir testuojant akustinius modelius.
  • 27. 27 • Tyrimų rezultatai parodė, kad PMM modeliai apmokyti tri-fonemomis duoda geresnius atpažinimo rezultatus nei fonemomis apmokyti PMM. Pavienių žodžių atpažinime (61%), frazių atpažinime (69%). Todėl rekomenduojama šnekos atpažinimui naudoti tri-fonemas. • Atlikus fonemų kiekio transkripcijose įtakos atpažinimo tikslumui tyrimus, kai buvo atsisakyta kirčio ženklus, garsų pusilgumo ir minkštumo žyminčių fonemų, paaiškėjo, kad tai didelės įtakos atpažinimo tikslumui neturėjo - atpažinimo tikslumas padidėjo 2%. • Atlikus tyrimus su bigramomis praplėstu žodžių tinklu nustatyta, kad bigramos pagerina ištisinės šnekos atpažinimo tikslumą. Žodžių atpažinimo tikslumas siekė 94%, tačiau pavienių žodžių atpažinimui tai įtakos neturėjo, todėl reikėtų duomenų, kuriais būtų galima apmokyti prastai atpažįstamų žodžių akustinius modelius. Apibendrinimas ir išvados (2)
  • 28. Automatinio šnekos atpažinimo metodų tyrimas ir taikymai balso įrašams stenografuoti Jūratė Vaičiulytė Vilniaus Universitetas 2015