SlideShare a Scribd company logo
1 of 27
Download to read offline
K. Marasek
15.03.2018
Rozpoznawanie mowy: problem rozwiązany?
K. Marasek
PJATK/OPI
Motto:
„There is no data like more data” (Mercer P.)
K. Marasek
15.03.2018
Plan prezentacji
✓ Mowa jako taka
✓ Metody ASR
✓ Zagadnienia do rozwiązania
✓ Narzędzia analizy mowy, zasoby Clarin-PL
✓ Inicjatywa OPI
K. Marasek
15.03.2018
Mowa w komunikacji człowiek-maszyna
✓ komunikacji człowiek-maszyna: wymiana informacji zakodowanej w taki
sposób, by mogła być przesłana przez dostępne fizyczne medium
✓ Kodowanie: proces przygotowania reprezentacji informacji
✓ Źródła wiedzy: reguły niezbędne do zbudowania symbolicznej wersji
informacji i jej przesłania poprzez kanał transmisyjny
✓ Dekodowanie: modele źródeł wiedzy używane przez komputer:
deterministyczne, lecz często nieprecyzyjne
dekodowanie
Czesc!
zdania
frazy
głoski
cechy art.
kodowanie
K. Marasek
15.03.2018
Segmentalna struktura mowy
✓ Feature – cecha odróżniająca od innych segmentów
✓ Segment – część o stałych cechach
✓ Syllable – sylaba, jednostka organizacji wypowiedzi
✓ Setting – cecha paralingwistyczna
✓ utterance – fraza wypowiedzi
✓ speaking-turn – cała wypowiedź
K. Marasek
15.03.2018
Rozpoznawanie mowy: prosty model dekodera
Niech sekwencja parametrów akustycznych X=x1..xN jest wyjściem kanału
komunikacyjnego. Jeśli intencją mówcy było wypowiedzenie sekwencji słów
W=W1…WK to
X jest zakodowaną wersją W
✓ Celem rozpoznawania jest rekonstrukcja
W w oparciu o obserwację X
✓ Systemy ASR wykorzystują estymaty
prawdopodobieństwa hipotez dekodujących
parametryzacja sygnału
Źródło
informacji
Kanał
komunikacji
W X
K. Marasek
15.03.2018
Zmienność i złożoność mowy
✓ Warstwa lingwistyczna – tekst wypowiedzi
✓ Warstwa paralingwistyczna – nasz stosunek do tekstu
✓ Warstwa ekstralingwistyczna – to co nas identyfikuje
✓ Struktura płytka – opis akustyczny, składnia
✓ Cechy segmentów akustycznych
✓ Struktura głęboka – semantyka
✓ Prozodia – intonacja, głośność, sposób wypowiedzi
tS I m
u
g
b
I
p
a
n
p
S
I s
w
a
ts'
k o
g
o
z'v
e
f
t o r e k r
a n
o
0
50
100
150
200
250
300
350
400
450
500
0 0.25 0.5 0.75 1 1.25 1.5 1.75 2 2.25 2.5
Czas [s]
K. Marasek
15.03.2018
Modelowanie statystyczne w ARM
Najbardziej prawdopodobna sekwencja
słów W dla danego sygnału
akustycznego A
Prawdopodobieństwo a priori
sekwencji słów W (model języka)
Prawdopodobieństwo a priori sygnału
akustycznego A
Podejście Bayesa
Prawdopodobieństwo a priori
akustycznego sygnału A dla znanej
sekwencji słów W
Obliczane jako odległość od modeli akustycznych
P(W|A)=
𝑃 𝐴 𝑊 𝑃(𝑊)
𝑃(𝐴)
K. Marasek
15.03.2018
Co rozpoznajemy?
Kalisz k a l i S
Kamienna k a m j e n n a
Kaszuby k a S u b I
Katowice k a t o v i ts e
Kazimierz k a zi i m j e Z
Kielce k j e l ts e
Klakson k l a k s o n
Kolor k o l o r
Konopnickiej k o n o p ni i ts k j e j
Konstytucji k o n s t I t u ts j i
Koszalin k o S a l i n
Kościuszki k o si tsi u S k i
Krakowska k r a k o f s k a
Krakowsko k r a k o f s k o
Kraków k r a k u f
Krzyki k S I k i
Kujaw k u j a f
Kutno k u t n o
Dictionary
(!ENTER{_SIL_}(
Kutno
|
Sopot
|
Pozna361
|
Lubin
|
£uk363w
|
aleja
Solidarnoœci
|
Beskidy
|
Rzesz363w
)(!ENTER{_SIL_}
Vocabulary
I=172 W=Jana
I=173 W=Jura
I=174 W=Kazimierz
J=0 S=1 E=0
J=1 S=1 E=1
J=2 S=2 E=0
J=3 S=2 E=1
J=4 S=3 E=0
J=5 S=3 E=1
J=6 S=4 E=0
J=7 S=4 E=1
J=8 S=5 E=0
J=9 S=5 E=1
J=10 S=6 E=0
Lattice of
models
https://www.researchgate.net/figure/State-of-the-art-HMM-based-LVCSR-systems_fig1_261208516
K. Marasek
15.03.2018
Uproszczony system rozpoznawania mowy
K. Marasek
15.03.2018
Algorytm Viterbiego
HTKBook
K. Marasek
15.03.2018
Co jest wynikiem rozpoznawania?
✓ N-best list
✓ lattice
K. Marasek
15.03.2018
Miary jakości związane z ASR
✓ WER:
✓ OOV: Number of unknown words in a new
sample of language (it is called a test set),
usually expressed in percentage.
(ENG < 1%, PL > 10%)
✓ Perplexity: 2lp
Method WER
Inital trigram
+LDA/MLLT
+MMI
+MPE
+SAT(fMLLR)
+MMI
+fMMI
+BMMI
+SGMM
37.37
34.37
32.01
32.55
33.51
31.81
29.85
29.69
32.39
Domain WER Vocabulary
size
TV news 15,72 42k
Polish
Senate
19,6 87k
Lectures 27,75 210k
Euronews 15 250k
K. Marasek
15.03.2018
WFST
✓ 𝑊′ = 𝑎𝑟𝑔𝑚𝑎𝑥 𝑤 𝑃 𝐴 𝑊 𝑃(𝑊)
✓ 𝑊′
= 𝑎𝑟𝑔𝑚𝑎𝑥 𝑤 𝐴 ∙ (𝐻 ∙ 𝐶 ∙ 𝐿 ∙ 𝐺)
✓ H – HMM transducer (states to phonemes)
✓ C – context dependency transducer (triphones)
✓ L – pronounciation lexicon transducer
✓ G – grammar transducer (LM)
Hanneman,n 12
C:
K. Marasek
15.03.2018
Systemy hybrydowe ANN/HMM
✓ Sieci neuronowe w parametryzacji sygnału
✓ TANDEM (MLP), Bottleneck features, sieci splotowe
✓ Sieci neuronowe w modelowaniu akustycznym
✓ Modelowanie prawdopodobieństwa fonemów/stanów:
nadzorowany trening, RBM: uwzględnienie kontekstu
(pretraining), sieci splotowe (softmax ostatniej warstwy daje
p(stanów HMM)), LSTM, BLSTM, GRU
✓ Sieci neuronowe w modelowaniu języka
✓ Lattice rescoring
slideplayer.com/slide/4899423/
K. Marasek
15.03.2018
Neuronowe ASR: DeepSpeech
✓ (Baidu, Mozilla) – speech-to-text bez dodatkowych elementów
✓ „The network has five layers: the input is fed into three fully connected layers,
followed by a bidirectional RNN layer, and finally a fully connected layer. The
hidden fully connected layers use the ReLU activation. The RNN layer uses
LSTM cells with tanh activation. The output of the network is a matrix of
character probabilities over time.”
✓ CTC Connectionist Temporal Classification
✓ we: sekwencja obserwacji, wy: sekwencja etykiet) zamiast HMM, nie trzeba
dokładnego dopasowania czasowego w trakcie nauki systemu
✓ dołączenie LM (CER i WER)
✓ 120 000 000 parametrów!!! Słownik w postaci drzewa
K. Marasek
15.03.2018
Neuronowe ASR: attention based
✓ Chorowski, 2014, idea z MT
✓ Listen, Attend, Spell (Google,18)
✓ Wav2text (NARA, 2017):
✓ enkoder koduje postać czasową,
a dekoder zapisuje litery
✓ enkoder uczy się jak tworzyć Mel-
spektrogram wykorzystując
transfer learning (jak pre-training
RBM)
✓ Nie działa bez pre-treningu
✓ Wyniki – tylko CER (WSJ 6,54%)
✓ Musi najpierw zobaczyć całe
dane, Neural Transducer
K. Marasek
15.03.2018
Jakość i postęp
techxplore.com/, Veton Këpuska, JERSA,17TIMIT data, 17
HMM Attention Hybrid HMM/ANN
37% 9% 18% WER
K. Marasek
15.03.2018
Problemy
✓ Dane do nauki systemu:
✓ Niezbędne tysiące godzin poprawnie transkrybowanych nagrań
✓ Dobre warunki akustyczne nagrań
✓ Setki milionów parametrów do oszacowania: dane, zasoby
sprzętowe
✓ Język
✓ Potoczny vs klarowna konwersacja
techxplore.com/
K. Marasek
15.03.2018
Problemy
✓ Google, 2017 – transkrypcja rozmów
pacjent-lekarz, 13000 h nagrań (!)
„ Our analysis showed the speech recognition
models performed well on important medical
utterances, while errors occurred in causal
conversations.”
✓ Inne języki
✓ Adaptacja modeli z języka angielskiego – transfer
learning (raczej dla zbliżonych języków), WER ~
40%
✓ Problem małych zbiorów danych:
✓ BavarianSpeechArchive ~ 416 h, French ~ 500 h
(Baidu 40000h!)
✓ Trudne warunki akustyczne
✓ Mowa w tle, słaby sygnał GSM
Arxiv:1706.00290
K. Marasek
15.03.2018
http://clarin-pl.eu
✓ CLARIN = Common Language Resources and Technology Infrastructure
✓ Wspólne zasoby językowe i infrastruktura technologiczna
✓ Cel
połączenie zasobów i narzędzi językowych dla wszystkich języków
europejskich w ramach jednej wspólnej sieciowej infrastruktury naukowej
✓ Obszar działania: nauki humanistyczne i społeczne
✓ 2013-2015 i 2016-2018
✓ Partnerzy:
✓ Politechnika Wrocławska, Instytut Informatyki (lider)
✓ Instytut Podstaw Informatyki PAN
✓ Instytut Slawistyki PAN
✓ Polsko-Japońska Akademia Technik Komputerowych
✓ Uniwersytet Łódzki
✓ Uniwersytet Wrocławski
K. Marasek
15.03.2018
Korpusy mowy Clarin-PL
✓ Brak darmowych ogólnodostępnych korpusów mowy polskiej
✓ Koszt przygotowania korpusu nagrań jest wysoki
✓ Nagrano i zaanotowano ~56 godzin czytanej mowy o jakości
studyjnej oraz ~13 godzin czytanej mowy telefonicznej (> 500
sesji)
✓ Korpus udostępniono w dwóch formach:
✓ Jako baza danych w formacie EMU
✓ Jako bazowy system rozpoznawania mowy Kaldi
✓ Korpus udostępniono na otwartej licencji
(CLARIN PUB+BY+INF+NORED)
✓ http://mowa.clarin-pl.eu/korpusy
✓ Nadal udoskonalany (eliminacja błędów anotacji)
✓ Spore zainteresowanie (ale głównie spoza Polski  )
K. Marasek
15.03.2018
EMU + EMU WebApp + Kaldi baseline
✓ Integracja z R
✓ Dostęp do głosek, prozodia
✓ Skrypty do treningu ASR
✓ https://github.com/danijel3/ClarinStudioKaldi
✓ WER 39%
K. Marasek
15.03.2018
Korpusy Clarin2
✓ PELCRA korpus mowy spontanicznej
(współpraca z UŁ)
✓ Analiza prozodyczna
✓ Sejm RP
(współpraca z UŁ i IPI PAN)
✓ Polska Kronika Filmowa
(współpraca z UWr)
✓ System z otwartym słownikiem, bez adaptacji do mówców
✓ WER 23.50%
K. Marasek
15.03.2018
Narzędzia do analizy mowy Clarin-PL
✓ Detekcja mowy
✓ podział nagrania na fragmenty mowy i nie-mowy
✓ Diaryzacja mówców
✓ podział nagrania na fragmenty mowy poszczególnych
(niezidentyfikowanych) mówców
✓ Dopasowanie czasowe
✓ dopasowanie znanej transkrypcji do nagrania (podział na wyrazy,
fonemy, sylaby…)
✓ Detekcja słów kluczowych
✓ rozpoznawanie obecności wyrazów z listy
✓ Transliteracja mowy
✓ pełne rozpoznawanie mowy
K. Marasek
15.03.2018
• Zachęcamy do współpracy ☺
• Rozpoznawanie mowy polskiej
• DeepSpeech (Mozilla) – do zrobienia!
• Kaldi
• Systemy dialogowe (SLU)
• Wdrożenia
• Tłumaczenie maszynowe
• Tłumaczenie z mowy na mowę
• Tworzenie korpusów równoległych
• Synteza mowy
• Analiza sygnałów akustycznych
Katedra Multimediów PJATK
K. Marasek
15.03.2018
Konferencja AI
✓ CEL:
✓ Stworzenie koncepcji rozwoju metod i zastosowań sztucznej inteligencji w Polsce w kontekście
zwiększonych nakładów na tą tematykę w krajach rozwiniętych i w międzynarodowych dużych
korporacjach. Brak działań spowoduje zapóźnienie cywilizacyjne groźniejsze od zapóźnienia w
technologiach wytwarzania i olbrzymie koszty związane z zakupem rozwiązań wykorzystujących
sztuczną inteligencję. Wbrew istniejącym przekonaniom środowisko naukowe zajmujące się tymi
zagadnieniami jest w Polsce niewielkie i rozproszone. Należy podjąć działania wspierające i integrujące,
do czego spotkanie pod auspicjami MNiSW może się przyczynić.
✓ PROPOZYCJA DYSKUSJI:
✓ Wykorzystanie pozycji MNiSW dla stymulowania badań i zastosowań AI poprzez:
✓ system grantów w ramach NCBR (infostrateg?), NCN oraz stymulowanie udziału w programach
europejskich
✓ współprace uczelni i instytutów PAN i OPI PIB z Centrum Łukasiewicza (instytutami)
✓ stymulowanie konkretnych działań (np. konkursy, promocja, integracja) przez OPI PIB
✓ Konieczna współpraca merytoryczna ze wszystkimi, szczególnie z PSSI
✓ Planowany termin: 22 lub 23 maj
K. Marasek
15.03.2018
Dziękuję za uwagę!
☺
kmarasek@pjwstk.edu.pl

More Related Content

More from 2040.io

AIMeetup #4: Neural-machine-translation
AIMeetup #4: Neural-machine-translationAIMeetup #4: Neural-machine-translation
AIMeetup #4: Neural-machine-translation2040.io
 
AIMeetup #4: Artificial intelligence and economics
AIMeetup #4: Artificial intelligence and economicsAIMeetup #4: Artificial intelligence and economics
AIMeetup #4: Artificial intelligence and economics2040.io
 
AIMeetup #4: Let’s compete with machine! edrone crm
AIMeetup #4: Let’s compete with machine! edrone crmAIMeetup #4: Let’s compete with machine! edrone crm
AIMeetup #4: Let’s compete with machine! edrone crm2040.io
 
AIMeetup #3: Uczenie maszynowe - rocket science czy chleb powszedni?
AIMeetup #3: Uczenie maszynowe - rocket science czy chleb powszedni?AIMeetup #3: Uczenie maszynowe - rocket science czy chleb powszedni?
AIMeetup #3: Uczenie maszynowe - rocket science czy chleb powszedni?2040.io
 
AIMeetup #3: Cortana intelligence suite - tchnij życie w swoje dane
AIMeetup #3: Cortana intelligence suite - tchnij życie w swoje daneAIMeetup #3: Cortana intelligence suite - tchnij życie w swoje dane
AIMeetup #3: Cortana intelligence suite - tchnij życie w swoje dane2040.io
 
AIMeetup #2: A.I. - podstawowe pojęcia techniczne
AIMeetup #2: A.I. - podstawowe pojęcia techniczneAIMeetup #2: A.I. - podstawowe pojęcia techniczne
AIMeetup #2: A.I. - podstawowe pojęcia techniczne2040.io
 
AIMeetup #2: Jak dzięki Data Mining księgujemy automatycznie koszty w Infakt.pl?
AIMeetup #2: Jak dzięki Data Mining księgujemy automatycznie koszty w Infakt.pl?AIMeetup #2: Jak dzięki Data Mining księgujemy automatycznie koszty w Infakt.pl?
AIMeetup #2: Jak dzięki Data Mining księgujemy automatycznie koszty w Infakt.pl?2040.io
 
AIMeetup #2: Jak wykorzystaliśmy technologię rozpoznawania mowy i mówcy do au...
AIMeetup #2: Jak wykorzystaliśmy technologię rozpoznawania mowy i mówcy do au...AIMeetup #2: Jak wykorzystaliśmy technologię rozpoznawania mowy i mówcy do au...
AIMeetup #2: Jak wykorzystaliśmy technologię rozpoznawania mowy i mówcy do au...2040.io
 
AIMeetup #2: Gdzie można nakarmić sztuczną inteligencję?
AIMeetup #2: Gdzie można nakarmić sztuczną inteligencję? AIMeetup #2: Gdzie można nakarmić sztuczną inteligencję?
AIMeetup #2: Gdzie można nakarmić sztuczną inteligencję? 2040.io
 

More from 2040.io (9)

AIMeetup #4: Neural-machine-translation
AIMeetup #4: Neural-machine-translationAIMeetup #4: Neural-machine-translation
AIMeetup #4: Neural-machine-translation
 
AIMeetup #4: Artificial intelligence and economics
AIMeetup #4: Artificial intelligence and economicsAIMeetup #4: Artificial intelligence and economics
AIMeetup #4: Artificial intelligence and economics
 
AIMeetup #4: Let’s compete with machine! edrone crm
AIMeetup #4: Let’s compete with machine! edrone crmAIMeetup #4: Let’s compete with machine! edrone crm
AIMeetup #4: Let’s compete with machine! edrone crm
 
AIMeetup #3: Uczenie maszynowe - rocket science czy chleb powszedni?
AIMeetup #3: Uczenie maszynowe - rocket science czy chleb powszedni?AIMeetup #3: Uczenie maszynowe - rocket science czy chleb powszedni?
AIMeetup #3: Uczenie maszynowe - rocket science czy chleb powszedni?
 
AIMeetup #3: Cortana intelligence suite - tchnij życie w swoje dane
AIMeetup #3: Cortana intelligence suite - tchnij życie w swoje daneAIMeetup #3: Cortana intelligence suite - tchnij życie w swoje dane
AIMeetup #3: Cortana intelligence suite - tchnij życie w swoje dane
 
AIMeetup #2: A.I. - podstawowe pojęcia techniczne
AIMeetup #2: A.I. - podstawowe pojęcia techniczneAIMeetup #2: A.I. - podstawowe pojęcia techniczne
AIMeetup #2: A.I. - podstawowe pojęcia techniczne
 
AIMeetup #2: Jak dzięki Data Mining księgujemy automatycznie koszty w Infakt.pl?
AIMeetup #2: Jak dzięki Data Mining księgujemy automatycznie koszty w Infakt.pl?AIMeetup #2: Jak dzięki Data Mining księgujemy automatycznie koszty w Infakt.pl?
AIMeetup #2: Jak dzięki Data Mining księgujemy automatycznie koszty w Infakt.pl?
 
AIMeetup #2: Jak wykorzystaliśmy technologię rozpoznawania mowy i mówcy do au...
AIMeetup #2: Jak wykorzystaliśmy technologię rozpoznawania mowy i mówcy do au...AIMeetup #2: Jak wykorzystaliśmy technologię rozpoznawania mowy i mówcy do au...
AIMeetup #2: Jak wykorzystaliśmy technologię rozpoznawania mowy i mówcy do au...
 
AIMeetup #2: Gdzie można nakarmić sztuczną inteligencję?
AIMeetup #2: Gdzie można nakarmić sztuczną inteligencję? AIMeetup #2: Gdzie można nakarmić sztuczną inteligencję?
AIMeetup #2: Gdzie można nakarmić sztuczną inteligencję?
 

Rozpoznawanie mowy: problem rozwiązany?

  • 1. K. Marasek 15.03.2018 Rozpoznawanie mowy: problem rozwiązany? K. Marasek PJATK/OPI Motto: „There is no data like more data” (Mercer P.)
  • 2. K. Marasek 15.03.2018 Plan prezentacji ✓ Mowa jako taka ✓ Metody ASR ✓ Zagadnienia do rozwiązania ✓ Narzędzia analizy mowy, zasoby Clarin-PL ✓ Inicjatywa OPI
  • 3. K. Marasek 15.03.2018 Mowa w komunikacji człowiek-maszyna ✓ komunikacji człowiek-maszyna: wymiana informacji zakodowanej w taki sposób, by mogła być przesłana przez dostępne fizyczne medium ✓ Kodowanie: proces przygotowania reprezentacji informacji ✓ Źródła wiedzy: reguły niezbędne do zbudowania symbolicznej wersji informacji i jej przesłania poprzez kanał transmisyjny ✓ Dekodowanie: modele źródeł wiedzy używane przez komputer: deterministyczne, lecz często nieprecyzyjne dekodowanie Czesc! zdania frazy głoski cechy art. kodowanie
  • 4. K. Marasek 15.03.2018 Segmentalna struktura mowy ✓ Feature – cecha odróżniająca od innych segmentów ✓ Segment – część o stałych cechach ✓ Syllable – sylaba, jednostka organizacji wypowiedzi ✓ Setting – cecha paralingwistyczna ✓ utterance – fraza wypowiedzi ✓ speaking-turn – cała wypowiedź
  • 5. K. Marasek 15.03.2018 Rozpoznawanie mowy: prosty model dekodera Niech sekwencja parametrów akustycznych X=x1..xN jest wyjściem kanału komunikacyjnego. Jeśli intencją mówcy było wypowiedzenie sekwencji słów W=W1…WK to X jest zakodowaną wersją W ✓ Celem rozpoznawania jest rekonstrukcja W w oparciu o obserwację X ✓ Systemy ASR wykorzystują estymaty prawdopodobieństwa hipotez dekodujących parametryzacja sygnału Źródło informacji Kanał komunikacji W X
  • 6. K. Marasek 15.03.2018 Zmienność i złożoność mowy ✓ Warstwa lingwistyczna – tekst wypowiedzi ✓ Warstwa paralingwistyczna – nasz stosunek do tekstu ✓ Warstwa ekstralingwistyczna – to co nas identyfikuje ✓ Struktura płytka – opis akustyczny, składnia ✓ Cechy segmentów akustycznych ✓ Struktura głęboka – semantyka ✓ Prozodia – intonacja, głośność, sposób wypowiedzi tS I m u g b I p a n p S I s w a ts' k o g o z'v e f t o r e k r a n o 0 50 100 150 200 250 300 350 400 450 500 0 0.25 0.5 0.75 1 1.25 1.5 1.75 2 2.25 2.5 Czas [s]
  • 7. K. Marasek 15.03.2018 Modelowanie statystyczne w ARM Najbardziej prawdopodobna sekwencja słów W dla danego sygnału akustycznego A Prawdopodobieństwo a priori sekwencji słów W (model języka) Prawdopodobieństwo a priori sygnału akustycznego A Podejście Bayesa Prawdopodobieństwo a priori akustycznego sygnału A dla znanej sekwencji słów W Obliczane jako odległość od modeli akustycznych P(W|A)= 𝑃 𝐴 𝑊 𝑃(𝑊) 𝑃(𝐴)
  • 8. K. Marasek 15.03.2018 Co rozpoznajemy? Kalisz k a l i S Kamienna k a m j e n n a Kaszuby k a S u b I Katowice k a t o v i ts e Kazimierz k a zi i m j e Z Kielce k j e l ts e Klakson k l a k s o n Kolor k o l o r Konopnickiej k o n o p ni i ts k j e j Konstytucji k o n s t I t u ts j i Koszalin k o S a l i n Kościuszki k o si tsi u S k i Krakowska k r a k o f s k a Krakowsko k r a k o f s k o Kraków k r a k u f Krzyki k S I k i Kujaw k u j a f Kutno k u t n o Dictionary (!ENTER{_SIL_}( Kutno | Sopot | Pozna361 | Lubin | £uk363w | aleja Solidarnoœci | Beskidy | Rzesz363w )(!ENTER{_SIL_} Vocabulary I=172 W=Jana I=173 W=Jura I=174 W=Kazimierz J=0 S=1 E=0 J=1 S=1 E=1 J=2 S=2 E=0 J=3 S=2 E=1 J=4 S=3 E=0 J=5 S=3 E=1 J=6 S=4 E=0 J=7 S=4 E=1 J=8 S=5 E=0 J=9 S=5 E=1 J=10 S=6 E=0 Lattice of models https://www.researchgate.net/figure/State-of-the-art-HMM-based-LVCSR-systems_fig1_261208516
  • 11. K. Marasek 15.03.2018 Co jest wynikiem rozpoznawania? ✓ N-best list ✓ lattice
  • 12. K. Marasek 15.03.2018 Miary jakości związane z ASR ✓ WER: ✓ OOV: Number of unknown words in a new sample of language (it is called a test set), usually expressed in percentage. (ENG < 1%, PL > 10%) ✓ Perplexity: 2lp Method WER Inital trigram +LDA/MLLT +MMI +MPE +SAT(fMLLR) +MMI +fMMI +BMMI +SGMM 37.37 34.37 32.01 32.55 33.51 31.81 29.85 29.69 32.39 Domain WER Vocabulary size TV news 15,72 42k Polish Senate 19,6 87k Lectures 27,75 210k Euronews 15 250k
  • 13. K. Marasek 15.03.2018 WFST ✓ 𝑊′ = 𝑎𝑟𝑔𝑚𝑎𝑥 𝑤 𝑃 𝐴 𝑊 𝑃(𝑊) ✓ 𝑊′ = 𝑎𝑟𝑔𝑚𝑎𝑥 𝑤 𝐴 ∙ (𝐻 ∙ 𝐶 ∙ 𝐿 ∙ 𝐺) ✓ H – HMM transducer (states to phonemes) ✓ C – context dependency transducer (triphones) ✓ L – pronounciation lexicon transducer ✓ G – grammar transducer (LM) Hanneman,n 12 C:
  • 14. K. Marasek 15.03.2018 Systemy hybrydowe ANN/HMM ✓ Sieci neuronowe w parametryzacji sygnału ✓ TANDEM (MLP), Bottleneck features, sieci splotowe ✓ Sieci neuronowe w modelowaniu akustycznym ✓ Modelowanie prawdopodobieństwa fonemów/stanów: nadzorowany trening, RBM: uwzględnienie kontekstu (pretraining), sieci splotowe (softmax ostatniej warstwy daje p(stanów HMM)), LSTM, BLSTM, GRU ✓ Sieci neuronowe w modelowaniu języka ✓ Lattice rescoring slideplayer.com/slide/4899423/
  • 15. K. Marasek 15.03.2018 Neuronowe ASR: DeepSpeech ✓ (Baidu, Mozilla) – speech-to-text bez dodatkowych elementów ✓ „The network has five layers: the input is fed into three fully connected layers, followed by a bidirectional RNN layer, and finally a fully connected layer. The hidden fully connected layers use the ReLU activation. The RNN layer uses LSTM cells with tanh activation. The output of the network is a matrix of character probabilities over time.” ✓ CTC Connectionist Temporal Classification ✓ we: sekwencja obserwacji, wy: sekwencja etykiet) zamiast HMM, nie trzeba dokładnego dopasowania czasowego w trakcie nauki systemu ✓ dołączenie LM (CER i WER) ✓ 120 000 000 parametrów!!! Słownik w postaci drzewa
  • 16. K. Marasek 15.03.2018 Neuronowe ASR: attention based ✓ Chorowski, 2014, idea z MT ✓ Listen, Attend, Spell (Google,18) ✓ Wav2text (NARA, 2017): ✓ enkoder koduje postać czasową, a dekoder zapisuje litery ✓ enkoder uczy się jak tworzyć Mel- spektrogram wykorzystując transfer learning (jak pre-training RBM) ✓ Nie działa bez pre-treningu ✓ Wyniki – tylko CER (WSJ 6,54%) ✓ Musi najpierw zobaczyć całe dane, Neural Transducer
  • 17. K. Marasek 15.03.2018 Jakość i postęp techxplore.com/, Veton Këpuska, JERSA,17TIMIT data, 17 HMM Attention Hybrid HMM/ANN 37% 9% 18% WER
  • 18. K. Marasek 15.03.2018 Problemy ✓ Dane do nauki systemu: ✓ Niezbędne tysiące godzin poprawnie transkrybowanych nagrań ✓ Dobre warunki akustyczne nagrań ✓ Setki milionów parametrów do oszacowania: dane, zasoby sprzętowe ✓ Język ✓ Potoczny vs klarowna konwersacja techxplore.com/
  • 19. K. Marasek 15.03.2018 Problemy ✓ Google, 2017 – transkrypcja rozmów pacjent-lekarz, 13000 h nagrań (!) „ Our analysis showed the speech recognition models performed well on important medical utterances, while errors occurred in causal conversations.” ✓ Inne języki ✓ Adaptacja modeli z języka angielskiego – transfer learning (raczej dla zbliżonych języków), WER ~ 40% ✓ Problem małych zbiorów danych: ✓ BavarianSpeechArchive ~ 416 h, French ~ 500 h (Baidu 40000h!) ✓ Trudne warunki akustyczne ✓ Mowa w tle, słaby sygnał GSM Arxiv:1706.00290
  • 20. K. Marasek 15.03.2018 http://clarin-pl.eu ✓ CLARIN = Common Language Resources and Technology Infrastructure ✓ Wspólne zasoby językowe i infrastruktura technologiczna ✓ Cel połączenie zasobów i narzędzi językowych dla wszystkich języków europejskich w ramach jednej wspólnej sieciowej infrastruktury naukowej ✓ Obszar działania: nauki humanistyczne i społeczne ✓ 2013-2015 i 2016-2018 ✓ Partnerzy: ✓ Politechnika Wrocławska, Instytut Informatyki (lider) ✓ Instytut Podstaw Informatyki PAN ✓ Instytut Slawistyki PAN ✓ Polsko-Japońska Akademia Technik Komputerowych ✓ Uniwersytet Łódzki ✓ Uniwersytet Wrocławski
  • 21. K. Marasek 15.03.2018 Korpusy mowy Clarin-PL ✓ Brak darmowych ogólnodostępnych korpusów mowy polskiej ✓ Koszt przygotowania korpusu nagrań jest wysoki ✓ Nagrano i zaanotowano ~56 godzin czytanej mowy o jakości studyjnej oraz ~13 godzin czytanej mowy telefonicznej (> 500 sesji) ✓ Korpus udostępniono w dwóch formach: ✓ Jako baza danych w formacie EMU ✓ Jako bazowy system rozpoznawania mowy Kaldi ✓ Korpus udostępniono na otwartej licencji (CLARIN PUB+BY+INF+NORED) ✓ http://mowa.clarin-pl.eu/korpusy ✓ Nadal udoskonalany (eliminacja błędów anotacji) ✓ Spore zainteresowanie (ale głównie spoza Polski  )
  • 22. K. Marasek 15.03.2018 EMU + EMU WebApp + Kaldi baseline ✓ Integracja z R ✓ Dostęp do głosek, prozodia ✓ Skrypty do treningu ASR ✓ https://github.com/danijel3/ClarinStudioKaldi ✓ WER 39%
  • 23. K. Marasek 15.03.2018 Korpusy Clarin2 ✓ PELCRA korpus mowy spontanicznej (współpraca z UŁ) ✓ Analiza prozodyczna ✓ Sejm RP (współpraca z UŁ i IPI PAN) ✓ Polska Kronika Filmowa (współpraca z UWr) ✓ System z otwartym słownikiem, bez adaptacji do mówców ✓ WER 23.50%
  • 24. K. Marasek 15.03.2018 Narzędzia do analizy mowy Clarin-PL ✓ Detekcja mowy ✓ podział nagrania na fragmenty mowy i nie-mowy ✓ Diaryzacja mówców ✓ podział nagrania na fragmenty mowy poszczególnych (niezidentyfikowanych) mówców ✓ Dopasowanie czasowe ✓ dopasowanie znanej transkrypcji do nagrania (podział na wyrazy, fonemy, sylaby…) ✓ Detekcja słów kluczowych ✓ rozpoznawanie obecności wyrazów z listy ✓ Transliteracja mowy ✓ pełne rozpoznawanie mowy
  • 25. K. Marasek 15.03.2018 • Zachęcamy do współpracy ☺ • Rozpoznawanie mowy polskiej • DeepSpeech (Mozilla) – do zrobienia! • Kaldi • Systemy dialogowe (SLU) • Wdrożenia • Tłumaczenie maszynowe • Tłumaczenie z mowy na mowę • Tworzenie korpusów równoległych • Synteza mowy • Analiza sygnałów akustycznych Katedra Multimediów PJATK
  • 26. K. Marasek 15.03.2018 Konferencja AI ✓ CEL: ✓ Stworzenie koncepcji rozwoju metod i zastosowań sztucznej inteligencji w Polsce w kontekście zwiększonych nakładów na tą tematykę w krajach rozwiniętych i w międzynarodowych dużych korporacjach. Brak działań spowoduje zapóźnienie cywilizacyjne groźniejsze od zapóźnienia w technologiach wytwarzania i olbrzymie koszty związane z zakupem rozwiązań wykorzystujących sztuczną inteligencję. Wbrew istniejącym przekonaniom środowisko naukowe zajmujące się tymi zagadnieniami jest w Polsce niewielkie i rozproszone. Należy podjąć działania wspierające i integrujące, do czego spotkanie pod auspicjami MNiSW może się przyczynić. ✓ PROPOZYCJA DYSKUSJI: ✓ Wykorzystanie pozycji MNiSW dla stymulowania badań i zastosowań AI poprzez: ✓ system grantów w ramach NCBR (infostrateg?), NCN oraz stymulowanie udziału w programach europejskich ✓ współprace uczelni i instytutów PAN i OPI PIB z Centrum Łukasiewicza (instytutami) ✓ stymulowanie konkretnych działań (np. konkursy, promocja, integracja) przez OPI PIB ✓ Konieczna współpraca merytoryczna ze wszystkimi, szczególnie z PSSI ✓ Planowany termin: 22 lub 23 maj
  • 27. K. Marasek 15.03.2018 Dziękuję za uwagę! ☺ kmarasek@pjwstk.edu.pl