3. K. Marasek
15.03.2018
Mowa w komunikacji człowiek-maszyna
✓ komunikacji człowiek-maszyna: wymiana informacji zakodowanej w taki
sposób, by mogła być przesłana przez dostępne fizyczne medium
✓ Kodowanie: proces przygotowania reprezentacji informacji
✓ Źródła wiedzy: reguły niezbędne do zbudowania symbolicznej wersji
informacji i jej przesłania poprzez kanał transmisyjny
✓ Dekodowanie: modele źródeł wiedzy używane przez komputer:
deterministyczne, lecz często nieprecyzyjne
dekodowanie
Czesc!
zdania
frazy
głoski
cechy art.
kodowanie
4. K. Marasek
15.03.2018
Segmentalna struktura mowy
✓ Feature – cecha odróżniająca od innych segmentów
✓ Segment – część o stałych cechach
✓ Syllable – sylaba, jednostka organizacji wypowiedzi
✓ Setting – cecha paralingwistyczna
✓ utterance – fraza wypowiedzi
✓ speaking-turn – cała wypowiedź
5. K. Marasek
15.03.2018
Rozpoznawanie mowy: prosty model dekodera
Niech sekwencja parametrów akustycznych X=x1..xN jest wyjściem kanału
komunikacyjnego. Jeśli intencją mówcy było wypowiedzenie sekwencji słów
W=W1…WK to
X jest zakodowaną wersją W
✓ Celem rozpoznawania jest rekonstrukcja
W w oparciu o obserwację X
✓ Systemy ASR wykorzystują estymaty
prawdopodobieństwa hipotez dekodujących
parametryzacja sygnału
Źródło
informacji
Kanał
komunikacji
W X
6. K. Marasek
15.03.2018
Zmienność i złożoność mowy
✓ Warstwa lingwistyczna – tekst wypowiedzi
✓ Warstwa paralingwistyczna – nasz stosunek do tekstu
✓ Warstwa ekstralingwistyczna – to co nas identyfikuje
✓ Struktura płytka – opis akustyczny, składnia
✓ Cechy segmentów akustycznych
✓ Struktura głęboka – semantyka
✓ Prozodia – intonacja, głośność, sposób wypowiedzi
tS I m
u
g
b
I
p
a
n
p
S
I s
w
a
ts'
k o
g
o
z'v
e
f
t o r e k r
a n
o
0
50
100
150
200
250
300
350
400
450
500
0 0.25 0.5 0.75 1 1.25 1.5 1.75 2 2.25 2.5
Czas [s]
7. K. Marasek
15.03.2018
Modelowanie statystyczne w ARM
Najbardziej prawdopodobna sekwencja
słów W dla danego sygnału
akustycznego A
Prawdopodobieństwo a priori
sekwencji słów W (model języka)
Prawdopodobieństwo a priori sygnału
akustycznego A
Podejście Bayesa
Prawdopodobieństwo a priori
akustycznego sygnału A dla znanej
sekwencji słów W
Obliczane jako odległość od modeli akustycznych
P(W|A)=
𝑃 𝐴 𝑊 𝑃(𝑊)
𝑃(𝐴)
8. K. Marasek
15.03.2018
Co rozpoznajemy?
Kalisz k a l i S
Kamienna k a m j e n n a
Kaszuby k a S u b I
Katowice k a t o v i ts e
Kazimierz k a zi i m j e Z
Kielce k j e l ts e
Klakson k l a k s o n
Kolor k o l o r
Konopnickiej k o n o p ni i ts k j e j
Konstytucji k o n s t I t u ts j i
Koszalin k o S a l i n
Kościuszki k o si tsi u S k i
Krakowska k r a k o f s k a
Krakowsko k r a k o f s k o
Kraków k r a k u f
Krzyki k S I k i
Kujaw k u j a f
Kutno k u t n o
Dictionary
(!ENTER{_SIL_}(
Kutno
|
Sopot
|
Pozna361
|
Lubin
|
£uk363w
|
aleja
Solidarnoœci
|
Beskidy
|
Rzesz363w
)(!ENTER{_SIL_}
Vocabulary
I=172 W=Jana
I=173 W=Jura
I=174 W=Kazimierz
J=0 S=1 E=0
J=1 S=1 E=1
J=2 S=2 E=0
J=3 S=2 E=1
J=4 S=3 E=0
J=5 S=3 E=1
J=6 S=4 E=0
J=7 S=4 E=1
J=8 S=5 E=0
J=9 S=5 E=1
J=10 S=6 E=0
Lattice of
models
https://www.researchgate.net/figure/State-of-the-art-HMM-based-LVCSR-systems_fig1_261208516
12. K. Marasek
15.03.2018
Miary jakości związane z ASR
✓ WER:
✓ OOV: Number of unknown words in a new
sample of language (it is called a test set),
usually expressed in percentage.
(ENG < 1%, PL > 10%)
✓ Perplexity: 2lp
Method WER
Inital trigram
+LDA/MLLT
+MMI
+MPE
+SAT(fMLLR)
+MMI
+fMMI
+BMMI
+SGMM
37.37
34.37
32.01
32.55
33.51
31.81
29.85
29.69
32.39
Domain WER Vocabulary
size
TV news 15,72 42k
Polish
Senate
19,6 87k
Lectures 27,75 210k
Euronews 15 250k
13. K. Marasek
15.03.2018
WFST
✓ 𝑊′ = 𝑎𝑟𝑔𝑚𝑎𝑥 𝑤 𝑃 𝐴 𝑊 𝑃(𝑊)
✓ 𝑊′
= 𝑎𝑟𝑔𝑚𝑎𝑥 𝑤 𝐴 ∙ (𝐻 ∙ 𝐶 ∙ 𝐿 ∙ 𝐺)
✓ H – HMM transducer (states to phonemes)
✓ C – context dependency transducer (triphones)
✓ L – pronounciation lexicon transducer
✓ G – grammar transducer (LM)
Hanneman,n 12
C:
14. K. Marasek
15.03.2018
Systemy hybrydowe ANN/HMM
✓ Sieci neuronowe w parametryzacji sygnału
✓ TANDEM (MLP), Bottleneck features, sieci splotowe
✓ Sieci neuronowe w modelowaniu akustycznym
✓ Modelowanie prawdopodobieństwa fonemów/stanów:
nadzorowany trening, RBM: uwzględnienie kontekstu
(pretraining), sieci splotowe (softmax ostatniej warstwy daje
p(stanów HMM)), LSTM, BLSTM, GRU
✓ Sieci neuronowe w modelowaniu języka
✓ Lattice rescoring
slideplayer.com/slide/4899423/
15. K. Marasek
15.03.2018
Neuronowe ASR: DeepSpeech
✓ (Baidu, Mozilla) – speech-to-text bez dodatkowych elementów
✓ „The network has five layers: the input is fed into three fully connected layers,
followed by a bidirectional RNN layer, and finally a fully connected layer. The
hidden fully connected layers use the ReLU activation. The RNN layer uses
LSTM cells with tanh activation. The output of the network is a matrix of
character probabilities over time.”
✓ CTC Connectionist Temporal Classification
✓ we: sekwencja obserwacji, wy: sekwencja etykiet) zamiast HMM, nie trzeba
dokładnego dopasowania czasowego w trakcie nauki systemu
✓ dołączenie LM (CER i WER)
✓ 120 000 000 parametrów!!! Słownik w postaci drzewa
16. K. Marasek
15.03.2018
Neuronowe ASR: attention based
✓ Chorowski, 2014, idea z MT
✓ Listen, Attend, Spell (Google,18)
✓ Wav2text (NARA, 2017):
✓ enkoder koduje postać czasową,
a dekoder zapisuje litery
✓ enkoder uczy się jak tworzyć Mel-
spektrogram wykorzystując
transfer learning (jak pre-training
RBM)
✓ Nie działa bez pre-treningu
✓ Wyniki – tylko CER (WSJ 6,54%)
✓ Musi najpierw zobaczyć całe
dane, Neural Transducer
17. K. Marasek
15.03.2018
Jakość i postęp
techxplore.com/, Veton Këpuska, JERSA,17TIMIT data, 17
HMM Attention Hybrid HMM/ANN
37% 9% 18% WER
18. K. Marasek
15.03.2018
Problemy
✓ Dane do nauki systemu:
✓ Niezbędne tysiące godzin poprawnie transkrybowanych nagrań
✓ Dobre warunki akustyczne nagrań
✓ Setki milionów parametrów do oszacowania: dane, zasoby
sprzętowe
✓ Język
✓ Potoczny vs klarowna konwersacja
techxplore.com/
19. K. Marasek
15.03.2018
Problemy
✓ Google, 2017 – transkrypcja rozmów
pacjent-lekarz, 13000 h nagrań (!)
„ Our analysis showed the speech recognition
models performed well on important medical
utterances, while errors occurred in causal
conversations.”
✓ Inne języki
✓ Adaptacja modeli z języka angielskiego – transfer
learning (raczej dla zbliżonych języków), WER ~
40%
✓ Problem małych zbiorów danych:
✓ BavarianSpeechArchive ~ 416 h, French ~ 500 h
(Baidu 40000h!)
✓ Trudne warunki akustyczne
✓ Mowa w tle, słaby sygnał GSM
Arxiv:1706.00290
20. K. Marasek
15.03.2018
http://clarin-pl.eu
✓ CLARIN = Common Language Resources and Technology Infrastructure
✓ Wspólne zasoby językowe i infrastruktura technologiczna
✓ Cel
połączenie zasobów i narzędzi językowych dla wszystkich języków
europejskich w ramach jednej wspólnej sieciowej infrastruktury naukowej
✓ Obszar działania: nauki humanistyczne i społeczne
✓ 2013-2015 i 2016-2018
✓ Partnerzy:
✓ Politechnika Wrocławska, Instytut Informatyki (lider)
✓ Instytut Podstaw Informatyki PAN
✓ Instytut Slawistyki PAN
✓ Polsko-Japońska Akademia Technik Komputerowych
✓ Uniwersytet Łódzki
✓ Uniwersytet Wrocławski
21. K. Marasek
15.03.2018
Korpusy mowy Clarin-PL
✓ Brak darmowych ogólnodostępnych korpusów mowy polskiej
✓ Koszt przygotowania korpusu nagrań jest wysoki
✓ Nagrano i zaanotowano ~56 godzin czytanej mowy o jakości
studyjnej oraz ~13 godzin czytanej mowy telefonicznej (> 500
sesji)
✓ Korpus udostępniono w dwóch formach:
✓ Jako baza danych w formacie EMU
✓ Jako bazowy system rozpoznawania mowy Kaldi
✓ Korpus udostępniono na otwartej licencji
(CLARIN PUB+BY+INF+NORED)
✓ http://mowa.clarin-pl.eu/korpusy
✓ Nadal udoskonalany (eliminacja błędów anotacji)
✓ Spore zainteresowanie (ale głównie spoza Polski )
22. K. Marasek
15.03.2018
EMU + EMU WebApp + Kaldi baseline
✓ Integracja z R
✓ Dostęp do głosek, prozodia
✓ Skrypty do treningu ASR
✓ https://github.com/danijel3/ClarinStudioKaldi
✓ WER 39%
23. K. Marasek
15.03.2018
Korpusy Clarin2
✓ PELCRA korpus mowy spontanicznej
(współpraca z UŁ)
✓ Analiza prozodyczna
✓ Sejm RP
(współpraca z UŁ i IPI PAN)
✓ Polska Kronika Filmowa
(współpraca z UWr)
✓ System z otwartym słownikiem, bez adaptacji do mówców
✓ WER 23.50%
24. K. Marasek
15.03.2018
Narzędzia do analizy mowy Clarin-PL
✓ Detekcja mowy
✓ podział nagrania na fragmenty mowy i nie-mowy
✓ Diaryzacja mówców
✓ podział nagrania na fragmenty mowy poszczególnych
(niezidentyfikowanych) mówców
✓ Dopasowanie czasowe
✓ dopasowanie znanej transkrypcji do nagrania (podział na wyrazy,
fonemy, sylaby…)
✓ Detekcja słów kluczowych
✓ rozpoznawanie obecności wyrazów z listy
✓ Transliteracja mowy
✓ pełne rozpoznawanie mowy
25. K. Marasek
15.03.2018
• Zachęcamy do współpracy ☺
• Rozpoznawanie mowy polskiej
• DeepSpeech (Mozilla) – do zrobienia!
• Kaldi
• Systemy dialogowe (SLU)
• Wdrożenia
• Tłumaczenie maszynowe
• Tłumaczenie z mowy na mowę
• Tworzenie korpusów równoległych
• Synteza mowy
• Analiza sygnałów akustycznych
Katedra Multimediów PJATK
26. K. Marasek
15.03.2018
Konferencja AI
✓ CEL:
✓ Stworzenie koncepcji rozwoju metod i zastosowań sztucznej inteligencji w Polsce w kontekście
zwiększonych nakładów na tą tematykę w krajach rozwiniętych i w międzynarodowych dużych
korporacjach. Brak działań spowoduje zapóźnienie cywilizacyjne groźniejsze od zapóźnienia w
technologiach wytwarzania i olbrzymie koszty związane z zakupem rozwiązań wykorzystujących
sztuczną inteligencję. Wbrew istniejącym przekonaniom środowisko naukowe zajmujące się tymi
zagadnieniami jest w Polsce niewielkie i rozproszone. Należy podjąć działania wspierające i integrujące,
do czego spotkanie pod auspicjami MNiSW może się przyczynić.
✓ PROPOZYCJA DYSKUSJI:
✓ Wykorzystanie pozycji MNiSW dla stymulowania badań i zastosowań AI poprzez:
✓ system grantów w ramach NCBR (infostrateg?), NCN oraz stymulowanie udziału w programach
europejskich
✓ współprace uczelni i instytutów PAN i OPI PIB z Centrum Łukasiewicza (instytutami)
✓ stymulowanie konkretnych działań (np. konkursy, promocja, integracja) przez OPI PIB
✓ Konieczna współpraca merytoryczna ze wszystkimi, szczególnie z PSSI
✓ Planowany termin: 22 lub 23 maj