0
Historia automatycznego rozpoznawania mowy <ul><li>Na podstawie: </li></ul><ul><li>„ Automatic Speech Recognition  - a Bri...
Skróty i pojęcia <ul><li>ASR  - automatic speech recognition - automatyczne rozpoznawanie mowy </li></ul><ul><li>rozpoznaw...
Po co nam rozpoznawacze mowy? Motywacje <ul><li>wyzwanie samo w sobie! </li></ul><ul><li>ciekawość mechanizmów pozwalający...
Historia
1773 - Christian Kratzenstein <ul><li>rosyjski naukowiec, wytłumaczył fizjologiczne  różnice odpowiedzialne za różne brzmi...
1791 - Wolfgang von Kempelen  <ul><li>Acoustic-Mechanical Speech Machine </li></ul>
1879 - Charles Wheatstone <ul><li>rezonator zrobiony ze skóry - można było ręcznie modulować głos </li></ul>
1877 Gadająca lala - Thomas Edison
1881 A.G. Bell, C. Bell i C.S. Tainter <ul><li>dyktafon - woskowa płyta  </li></ul><ul><li>automatyzacja biura - dyktowani...
1922 - Fletcher et al.  @ Bell Laboratories  <ul><li>dokumentacja związku pomiędzy spektrum głosu (rozkład siły dźwięku po...
1930 - Homer Dudley - VODER  <ul><li>Zafascynowany pracą Fletchera stworzył VODERA Voice Operating DemonstratoR </li></ul>
VODER UI: <ul><li>nadgarstek: pasek wyboru  - relaxation oscylator lub szum </li></ul><ul><li>noga: pedał do kontrolowania...
 
VODER podczas 'World Fair' New York, 1939  <ul><li>„ wielki krok w ewolucji maszyn mówiących” </li></ul>
1961 - IBM 7094 - pierwszy śpiewający komputer  <ul><li>Bell Laboratories - John Kelly, Carol Lockbaum, Max Mathews </li><...
Daisy, Daisy... <ul><li>HAL 9000 śpiewa tą piosenkę gdy Dave Bowman &quot;przełącza go na stan uśpienia&quot; </li></ul><u...
Rozpoznawanie głosu <ul><li>wczesne techniki bazowały na teorii akustyczno-fonetycznej i zrozumieniu jak głos jest generow...
 
1952 - Davis, Biddulph, and Balashek @ Bell Laboratories <ul><li>rozpoznawacz cyfr dla jednego użytkownika, później 10 syl...
 
1959 - Fry, Denes  @ University College, England  <ul><li>rozpoznawacz fonemów - 4 samogłoski, 9 spółgłosek  </li></ul><ul...
1960’s - japoński hardware <ul><li>rozpoznawacz cyfr - NEC Laboratories 1963 </li></ul><ul><li>rozpoznawacz samogłosek - S...
Tom Martin @ RCA Laboratories <ul><li>alternatywą dla segmentowania było użycie niejednorodnej skali czasu </li></ul><ul><...
Vintsyuk @ ZSRR 1968 <ul><li>użycie  dynamicznego programowania  do lepszego dopasowania czasu między dwiema wypowiedziami...
Programowanie dynamiczne  <ul><li>od późnych lat 70-tych, głównie dzięki publikacji Sakoe i Chiba programowanie dynamiczne...
ARPA rozdaje granty ('70) <ul><li>Advanced Research Projects Agency (ARPA) of the U.S. Department of Defense  funduje  Spe...
Fred Jelinek, IBM <ul><li>“ voice-activated typewriter” (VAT), system transkrypcji dla jednego użytkownika  </li></ul><ul>...
n-gramy <ul><li>zestaw zasad statystycznych nazywano 'modelem języka' i do jego reprezentacji najczęściej używano modelu  ...
AT&T Bell Laboratories  <ul><li>zautomatyzowane usługi telekomunikacyjne (wybieranie głosowe, przełączanie rozmów, etc.) <...
AT&T Bell Laboratories <ul><li>efektem była cała gama algorytmów do tworzenia wzorców słów i wyrazów, które rozpoznawałyby...
1980’s <ul><li>zmiana metodologii z bardziej intuicyjnych metod opartych na wzorcach, na bardziej rygorystyczne środowiska...
HMM – Hidden Markov Model  (ukryty model Markova) <ul><li>HMM to podwójny proces stochastyczny modelujący: 1) specyficzne ...
 
HMM <ul><li>połączenie HMM i skończonej sieci stanów było kolejnym ważnym osiągnięciem '80 </li></ul><ul><li>w każdej chwi...
artificial neural networks (ANN)  <ul><li>ponowne próby w późnych latach '80 </li></ul><ul><li>sukcesy z rozpoznawanie poj...
Lata '90 - wiele innowacji <ul><li>pattern recognition przeszło w problem optymalizacyjny, w którym starano się minimalizo...
DARPA rzuca groszem <ul><li>sukces metod statystycznych zdobył zainteresowanie DARPA na przełomie '80/'90, w wyniku czego ...
do początków XXI wieku: <ul><li>kontynuowano prace nad systemami o rosnącym stopniu trudności  </li></ul><ul><li>od rozpoz...
 
Hidden Markov Model Tool Kit (HTK) <ul><li>System opracowany przez zespół z Cambridge University (led by Steve Young)  [51...
Zmiana dyskursu <ul><li>Większość badań nad ASR była skoncentrowana na przetworzeniu głosu na słowa. wierzono, że jest to ...
Zmiana dyskursu <ul><li>1) ludzie, rozmawiając z komputerami, często mówili naturalnym językiem, który nie zawsze spełniał...
<ul><li>W takim dialogu pozwalano na operacje pytania i potwierdzania, dopuszczając możliwość błędów w rozpoznawaniu lub r...
 
Pegasus, Jupiter - MIT 2000 <ul><li>Pegasus i Jupiter to systemy z którymi można porozmawiać przez telefon. Pierwszy dosta...
dzisiaj: <ul><li>HMIHY - How May I Help You  system at AT&T, Al Gorin - Consumer Communications Services in 2000 </li></ul...
 
- Apple Computer - wizja technologii na 2011 (apple community 1988) <ul><li>“ Knowledge Navigator” =    Speech User Interf...
Upcoming SlideShare
Loading in...5
×

Automatic Speech Recognition (seminarium)

1,428

Published on

Published in: Spiritual, Technology, Education
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
1,428
On Slideshare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
52
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Transcript of "Automatic Speech Recognition (seminarium)"

  1. 1. Historia automatycznego rozpoznawania mowy <ul><li>Na podstawie: </li></ul><ul><li>„ Automatic Speech Recognition - a Brief History of the Technology Development” B.H. Juang & Lawrence R. Rabiner Arkadiusz Janicki seminarium na przedmiot: „Automaty z wagami” prowadzący: Sebastian Bala Uniwersytet Wrocławski, zima 2008 </li></ul>
  2. 2. Skróty i pojęcia <ul><li>ASR - automatic speech recognition - automatyczne rozpoznawanie mowy </li></ul><ul><li>rozpoznawacz – mechanizm (system, algorytm) do automatycznego rozpoznawania mowy. (Nie ma takiego słowa w słowniku PWN, ale wydaje się być utworzone wg poprawnych reguł. Myślę, że p. Miodek by mnie nie skrzyczał.) </li></ul>
  3. 3. Po co nam rozpoznawacze mowy? Motywacje <ul><li>wyzwanie samo w sobie! </li></ul><ul><li>ciekawość mechanizmów pozwalających na zautomatyzowanie procesu mówienia </li></ul><ul><li>usprawnienie komunikacji pomiędzy człowiekiem a komputerem </li></ul><ul><li>zaprojektowanie maszyny z którą można by porozumiewać się w języku naturalnym (najwygodniejszym do większości zadań) </li></ul>
  4. 4. Historia
  5. 5. 1773 - Christian Kratzenstein <ul><li>rosyjski naukowiec, wytłumaczył fizjologiczne różnice odpowiedzialne za różne brzmienie samogłosek, oraz zaprezentował aparat generujący dźwięki za pomocą rur rezonansowych podłączonych do organów (np. kościelnych) </li></ul>
  6. 6. 1791 - Wolfgang von Kempelen <ul><li>Acoustic-Mechanical Speech Machine </li></ul>
  7. 7. 1879 - Charles Wheatstone <ul><li>rezonator zrobiony ze skóry - można było ręcznie modulować głos </li></ul>
  8. 8. 1877 Gadająca lala - Thomas Edison
  9. 9. 1881 A.G. Bell, C. Bell i C.S. Tainter <ul><li>dyktafon - woskowa płyta </li></ul><ul><li>automatyzacja biura - dyktowanie tekstów dla stenotypistek </li></ul>
  10. 10. 1922 - Fletcher et al. @ Bell Laboratories <ul><li>dokumentacja związku pomiędzy spektrum głosu (rozkład siły dźwięku pomiędzy częstotliwościami), oraz informacje o tym jak głos jest odbierany przez człowieka. </li></ul>
  11. 11. 1930 - Homer Dudley - VODER <ul><li>Zafascynowany pracą Fletchera stworzył VODERA Voice Operating DemonstratoR </li></ul>
  12. 12. VODER UI: <ul><li>nadgarstek: pasek wyboru - relaxation oscylator lub szum </li></ul><ul><li>noga: pedał do kontrolowania częstotliwości oscylatora (tonacji głosu syntezatora). </li></ul><ul><li>palce: 10 filtrów siły dźwięku w danej częstotliwości </li></ul>
  13. 14. VODER podczas 'World Fair' New York, 1939 <ul><li>„ wielki krok w ewolucji maszyn mówiących” </li></ul>
  14. 15. 1961 - IBM 7094 - pierwszy śpiewający komputer <ul><li>Bell Laboratories - John Kelly, Carol Lockbaum, Max Mathews </li></ul><ul><li>Arthur C. Clarke był przypadkowym gościem podczas demonstracji, co zaskutkowało umieszczeniem piosenki w Odysei Kosmicznej 2001 </li></ul>
  15. 16. Daisy, Daisy... <ul><li>HAL 9000 śpiewa tą piosenkę gdy Dave Bowman &quot;przełącza go na stan uśpienia&quot; </li></ul><ul><li>(...) Daisy, Daisy, give me your answer do I'm half crazy all for the love of you It won't be a stylish marriage I can't afford a carriage But you'll look sweet upon the seat Of a bicycle made for two (...) </li></ul>
  16. 17. Rozpoznawanie głosu <ul><li>wczesne techniki bazowały na teorii akustyczno-fonetycznej i zrozumieniu jak głos jest generowany podczas wypowiedzi. </li></ul><ul><li>np. aby wygenerować samogłoskę struny głosowe muszą wibrować. naturalne częstotliwości zwane formantami, lub częstotliwościami formantowymi (formant frequencies) są widoczne jako duże skupiska energii na diagramach częstotliwości </li></ul>
  17. 19. 1952 - Davis, Biddulph, and Balashek @ Bell Laboratories <ul><li>rozpoznawacz cyfr dla jednego użytkownika, później 10 sylab </li></ul><ul><li>Forgie and Forgie & MIT Lincoln Lab rozpoznawacz 10 samogłosek dla wielu użytkowników </li></ul>
  18. 21. 1959 - Fry, Denes @ University College, England <ul><li>rozpoznawacz fonemów - 4 samogłoski, 9 spółgłosek </li></ul><ul><li>dodając informacje statystyczne zwiększyli poprawność dla słów składających się z 2 lub więcej fonemów </li></ul><ul><li>pierwsze użycie składni statystycznej (na poziomie fonemów) </li></ul>
  19. 22. 1960’s - japoński hardware <ul><li>rozpoznawacz cyfr - NEC Laboratories 1963 </li></ul><ul><li>rozpoznawacz samogłosek - Suzuki and Nakata @ the Radio Research Lab in Tokyo 1961 </li></ul><ul><li>rozpoznawacz fonemów - Sakai and Doshita @ Kyoto University 1962 </li></ul><ul><ul><li>segmentowanie wypowiedzi i analiza różnych porcji danych </li></ul></ul><ul><ul><li>prekursor rozpoznawania mowy ciągłej (continuous speech recognition) </li></ul></ul>
  20. 23. Tom Martin @ RCA Laboratories <ul><li>alternatywą dla segmentowania było użycie niejednorodnej skali czasu </li></ul><ul><li>Tom Martin @ RCA Laboratories </li></ul><ul><li>tymczasowa niejednorodność przy powtórzeniach, wykrywanie zakończeń wypowiedzi, ... </li></ul>
  21. 24. Vintsyuk @ ZSRR 1968 <ul><li>użycie dynamicznego programowania do lepszego dopasowania czasu między dwiema wypowiedziami poprawiało jakość oceny ich podobieństwa. </li></ul><ul><li>jego praca, chociaż mało znana na zachodzie, wydaje się wyprzedzać osiągnięcia Sakoe i Chiba [18] i innych, którzy zaproponowali bardziej formalne metody, znane jako dynamiczne wygięcia czasu w dopasowaniu wzorca w mowie. </li></ul>
  22. 25. Programowanie dynamiczne <ul><li>od późnych lat 70-tych, głównie dzięki publikacji Sakoe i Chiba programowanie dynamiczne w przeróżnych formach stało się nieodzownym elementem systemów ASR. </li></ul>
  23. 26. ARPA rozdaje granty ('70) <ul><li>Advanced Research Projects Agency (ARPA) of the U.S. Department of Defense funduje Speech Understanding Research (SUR) </li></ul><ul><li>Carnegie Mellon University’s “Harpy” - pierwszy system wykorzystujący sieci stanów (finite state network FSN) </li></ul><ul><li>rozpoznawany język był dostarczony jako połączona sieć stworzona na podstawie danych słownikowych z syntaktycznymi regułami produkcji i zakresami słów. </li></ul>
  24. 27. Fred Jelinek, IBM <ul><li>“ voice-activated typewriter” (VAT), system transkrypcji dla jednego użytkownika </li></ul><ul><li>skupiono się na wielkości słownika - tak dużego jak się da i strukturze modelu języka (gramatyce). </li></ul><ul><li>statystyczne zasady syntaktyczne definiowały z jakim prawdopodobieństwem sekwencja symboli (słów lub fonemów) mogła pojawić się w wypowiedzi. </li></ul>
  25. 28. n-gramy <ul><li>zestaw zasad statystycznych nazywano 'modelem języka' i do jego reprezentacji najczęściej używano modelu 'n-gramów' </li></ul><ul><li>model n-gramów definiował zależności w zakresie n słów - jest to bardzo wygodna i mocna statystyczna reprezentacja gramatyki </li></ul><ul><li>Claude Shannon 1948 - zawody pomiędzy człowiekiem a komputerem. zadanie: odgadnięcie kolejnego słowa w zdaniu. komputer bazował na wiedzy statystycznej n-gramów o długości 3 i miał znaczną przewagę nad człowiekiem. </li></ul>
  26. 29. AT&T Bell Laboratories <ul><li>zautomatyzowane usługi telekomunikacyjne (wybieranie głosowe, przełączanie rozmów, etc.) </li></ul><ul><li>duża wydajność - system miał działać dla dziesiątków milionów amerykanów, </li></ul><ul><li>speaker-independent - bez potrzeby trenowania systemu dla indywidualnego użytkownika, bez względu na jego ton głosu czy akcent </li></ul>
  27. 30. AT&T Bell Laboratories <ul><li>efektem była cała gama algorytmów do tworzenia wzorców słów i wyrazów, które rozpoznawałyby słowo niezależnie od głosu czy akcentu. </li></ul><ul><li>badania nad zrozumieniem akustycznej różnorodności głosów zaskutkowało wynalezieniem metod mierzenia odległości spektralnej (np. odległość Itakury[22]) </li></ul><ul><li>'keyword spotting' - prosta forma rozumienia wypowiedzi. </li></ul>
  28. 31. 1980’s <ul><li>zmiana metodologii z bardziej intuicyjnych metod opartych na wzorcach, na bardziej rygorystyczne środowiska modelowania statystycznego (statistical modeling framework). </li></ul><ul><li>w połowie lat '80 pojawiły się publikacje dotyczące HMM </li></ul><ul><li>od tego czasu, do dziś HMM są podstawowym narzędziem wykorzystywanym w ASR, głównie ze względu na stały rozwój i ciągłe usprawnienia tej technologii </li></ul>
  29. 32. HMM – Hidden Markov Model (ukryty model Markova) <ul><li>HMM to podwójny proces stochastyczny modelujący: 1) specyficzne zachowania sygnału głosowego wraz ze spektralnymi efektami 2) strukturę języka w SMF (statistical modeling framework). Za pomocą próbek uczących i algortymu Baum'a-Welch'a, tworzymy najlepszą sieć odpowiadającą danemu modelowi. </li></ul>
  30. 34. HMM <ul><li>połączenie HMM i skończonej sieci stanów było kolejnym ważnym osiągnięciem '80 </li></ul><ul><li>w każdej chwili jest sprawdzanych wiele hipotetycznych możliwości zidentyfikowania dźwięku i wybierana jest ta o najlepszym wyniku </li></ul><ul><li>liczba hipotez do sprawdzenia może być ogromna i może wymagać wielkiej mocy obliczeniowej </li></ul><ul><li>finite state transducer - opracowana w połowie lat 90 stała się głównym komponentem prawie wszystkich współczesnych systemów rozpoznawania i rozumienia mowy. </li></ul>
  31. 35. artificial neural networks (ANN) <ul><li>ponowne próby w późnych latach '80 </li></ul><ul><li>sukcesy z rozpoznawanie pojedynczych cyfr </li></ul><ul><li>jednak ograniczenia wynikające ze specyfiki danych (czasowa zmienność) </li></ul><ul><li>aktualnie trwają prace nad połączeniem ANN i HMM </li></ul>
  32. 36. Lata '90 - wiele innowacji <ul><li>pattern recognition przeszło w problem optymalizacyjny, w którym starano się minimalizować empirical recognition error [44]. </li></ul><ul><li>uzmysłowiono sobie, że rozkład funkcji głosu nie może być dokładnie wyznaczony, ani zdefiniowany, więc Bayes'owska teoria decyzyjna jest w tym przypadku nieodpowiednia </li></ul><ul><li>celem rozpoznawacza powinno być osiągnięcie jak najmniejszego błędu podczas rozpoznawania, a nie najlepsze dopasowanie do zadanego zestawu danych. </li></ul><ul><li>wynik: zastosowanie discriminative training, support vector machines (SVM), ... </li></ul>
  33. 37. DARPA rzuca groszem <ul><li>sukces metod statystycznych zdobył zainteresowanie DARPA na przełomie '80/'90, w wyniku czego powstało kilka systemów: </li></ul><ul><li>SPHINX system from CMU [47] </li></ul><ul><li>BYBLOS system from BBN [48] </li></ul><ul><li>DECIPHER system from SRI [49] </li></ul>
  34. 38. do początków XXI wieku: <ul><li>kontynuowano prace nad systemami o rosnącym stopniu trudności </li></ul><ul><li>od rozpoznawania ciągłej mowy o stylizowanej strukturze gramatycznej (używanej w zadaniach wojskowych, np. zarządzaniu jednostkami morskimi) </li></ul><ul><li>do transkrypcji wiadomości (radiowych/telewizyjnych) (e.g., NAB używający słownika o ponad 20K słów), oraz rozmów. </li></ul>
  35. 40. Hidden Markov Model Tool Kit (HTK) <ul><li>System opracowany przez zespół z Cambridge University (led by Steve Young) [51], był i jest do dzisiaj jednym z najczęściej adoptowanych narzędzi do badań nad automatycznym rozpoznawaniem mowy. </li></ul>
  36. 41. Zmiana dyskursu <ul><li>Większość badań nad ASR była skoncentrowana na przetworzeniu głosu na słowa. wierzono, że jest to najważniejszy problem z jakim trzeba było się uporać, aby zbudować maszynę zdolną do rozmów. </li></ul><ul><li>Po latach doświadczeń zaobserwowano dwie ważne sprawy: </li></ul>
  37. 42. Zmiana dyskursu <ul><li>1) ludzie, rozmawiając z komputerami, często mówili naturalnym językiem, który nie zawsze spełniał gramatyczne więzy rozpoznawacza (słowa spoza słownika, niegramatyczne konstrukcje i zdania) a dodatkowo głos był często zakłócony różnego rodzaju hałasami </li></ul><ul><li>2) podobnie jak w tradycyjnej formie komunikacji (człowiek z człowiekiem), tak i w przypadku aplikacji konwersujących, często, aby uzyskać odpowiedni stopień zrozumienia, potrzebny był dialog pomiędzy rozmawiającymi. </li></ul>
  38. 43. <ul><li>W takim dialogu pozwalano na operacje pytania i potwierdzania, dopuszczając możliwość błędów w rozpoznawaniu lub rozumieniu wypowiedzi. </li></ul><ul><li>z pierwszym problemem radzono sobie już w początkowych aplikacjach (keyword spotting w AT&T) </li></ul><ul><li>drugi problem skupił uwagę społeczności badaczy na obszarze zarządzania dialogiem. </li></ul>
  39. 45. Pegasus, Jupiter - MIT 2000 <ul><li>Pegasus i Jupiter to systemy z którymi można porozmawiać przez telefon. Pierwszy dostarcza informacji o lotach samolotów, drugi o pogodzie. </li></ul><ul><li>Dzięki bobrze zaprojektowanemu zarządzaniu dialogiem systemy te dostarczały użytkownikowi odpowiednich informacji, bez konieczności zadawania szczegółowych zapytań, oraz przedzierania się przez pozycje menu. </li></ul><ul><li>Celem było zaprojektowanie maszyny, która potrafiła się komunikować, a niekoniecznie rozumiała wypowiadane słowa. </li></ul>
  40. 46. dzisiaj: <ul><li>HMIHY - How May I Help You system at AT&T, Al Gorin - Consumer Communications Services in 2000 </li></ul><ul><li>technologia dostępna dla ograniczonego, ale ciekawego zakresu zastosowań </li></ul>
  41. 48. - Apple Computer - wizja technologii na 2011 (apple community 1988) <ul><li>“ Knowledge Navigator” = Speech User Interface (SUI) + Multimodal User Interface (MUI) + intelligent voice-enabled agents </li></ul>
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×