Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Automatic Speech Recognition (seminarium)

1,837 views

Published on

Published in: Spiritual, Technology, Education
  • Login to see the comments

  • Be the first to like this

Automatic Speech Recognition (seminarium)

  1. 1. Historia automatycznego rozpoznawania mowy <ul><li>Na podstawie: </li></ul><ul><li>„ Automatic Speech Recognition - a Brief History of the Technology Development” B.H. Juang & Lawrence R. Rabiner Arkadiusz Janicki seminarium na przedmiot: „Automaty z wagami” prowadzący: Sebastian Bala Uniwersytet Wrocławski, zima 2008 </li></ul>
  2. 2. Skróty i pojęcia <ul><li>ASR - automatic speech recognition - automatyczne rozpoznawanie mowy </li></ul><ul><li>rozpoznawacz – mechanizm (system, algorytm) do automatycznego rozpoznawania mowy. (Nie ma takiego słowa w słowniku PWN, ale wydaje się być utworzone wg poprawnych reguł. Myślę, że p. Miodek by mnie nie skrzyczał.) </li></ul>
  3. 3. Po co nam rozpoznawacze mowy? Motywacje <ul><li>wyzwanie samo w sobie! </li></ul><ul><li>ciekawość mechanizmów pozwalających na zautomatyzowanie procesu mówienia </li></ul><ul><li>usprawnienie komunikacji pomiędzy człowiekiem a komputerem </li></ul><ul><li>zaprojektowanie maszyny z którą można by porozumiewać się w języku naturalnym (najwygodniejszym do większości zadań) </li></ul>
  4. 4. Historia
  5. 5. 1773 - Christian Kratzenstein <ul><li>rosyjski naukowiec, wytłumaczył fizjologiczne różnice odpowiedzialne za różne brzmienie samogłosek, oraz zaprezentował aparat generujący dźwięki za pomocą rur rezonansowych podłączonych do organów (np. kościelnych) </li></ul>
  6. 6. 1791 - Wolfgang von Kempelen <ul><li>Acoustic-Mechanical Speech Machine </li></ul>
  7. 7. 1879 - Charles Wheatstone <ul><li>rezonator zrobiony ze skóry - można było ręcznie modulować głos </li></ul>
  8. 8. 1877 Gadająca lala - Thomas Edison
  9. 9. 1881 A.G. Bell, C. Bell i C.S. Tainter <ul><li>dyktafon - woskowa płyta </li></ul><ul><li>automatyzacja biura - dyktowanie tekstów dla stenotypistek </li></ul>
  10. 10. 1922 - Fletcher et al. @ Bell Laboratories <ul><li>dokumentacja związku pomiędzy spektrum głosu (rozkład siły dźwięku pomiędzy częstotliwościami), oraz informacje o tym jak głos jest odbierany przez człowieka. </li></ul>
  11. 11. 1930 - Homer Dudley - VODER <ul><li>Zafascynowany pracą Fletchera stworzył VODERA Voice Operating DemonstratoR </li></ul>
  12. 12. VODER UI: <ul><li>nadgarstek: pasek wyboru - relaxation oscylator lub szum </li></ul><ul><li>noga: pedał do kontrolowania częstotliwości oscylatora (tonacji głosu syntezatora). </li></ul><ul><li>palce: 10 filtrów siły dźwięku w danej częstotliwości </li></ul>
  13. 14. VODER podczas 'World Fair' New York, 1939 <ul><li>„ wielki krok w ewolucji maszyn mówiących” </li></ul>
  14. 15. 1961 - IBM 7094 - pierwszy śpiewający komputer <ul><li>Bell Laboratories - John Kelly, Carol Lockbaum, Max Mathews </li></ul><ul><li>Arthur C. Clarke był przypadkowym gościem podczas demonstracji, co zaskutkowało umieszczeniem piosenki w Odysei Kosmicznej 2001 </li></ul>
  15. 16. Daisy, Daisy... <ul><li>HAL 9000 śpiewa tą piosenkę gdy Dave Bowman &quot;przełącza go na stan uśpienia&quot; </li></ul><ul><li>(...) Daisy, Daisy, give me your answer do I'm half crazy all for the love of you It won't be a stylish marriage I can't afford a carriage But you'll look sweet upon the seat Of a bicycle made for two (...) </li></ul>
  16. 17. Rozpoznawanie głosu <ul><li>wczesne techniki bazowały na teorii akustyczno-fonetycznej i zrozumieniu jak głos jest generowany podczas wypowiedzi. </li></ul><ul><li>np. aby wygenerować samogłoskę struny głosowe muszą wibrować. naturalne częstotliwości zwane formantami, lub częstotliwościami formantowymi (formant frequencies) są widoczne jako duże skupiska energii na diagramach częstotliwości </li></ul>
  17. 19. 1952 - Davis, Biddulph, and Balashek @ Bell Laboratories <ul><li>rozpoznawacz cyfr dla jednego użytkownika, później 10 sylab </li></ul><ul><li>Forgie and Forgie & MIT Lincoln Lab rozpoznawacz 10 samogłosek dla wielu użytkowników </li></ul>
  18. 21. 1959 - Fry, Denes @ University College, England <ul><li>rozpoznawacz fonemów - 4 samogłoski, 9 spółgłosek </li></ul><ul><li>dodając informacje statystyczne zwiększyli poprawność dla słów składających się z 2 lub więcej fonemów </li></ul><ul><li>pierwsze użycie składni statystycznej (na poziomie fonemów) </li></ul>
  19. 22. 1960’s - japoński hardware <ul><li>rozpoznawacz cyfr - NEC Laboratories 1963 </li></ul><ul><li>rozpoznawacz samogłosek - Suzuki and Nakata @ the Radio Research Lab in Tokyo 1961 </li></ul><ul><li>rozpoznawacz fonemów - Sakai and Doshita @ Kyoto University 1962 </li></ul><ul><ul><li>segmentowanie wypowiedzi i analiza różnych porcji danych </li></ul></ul><ul><ul><li>prekursor rozpoznawania mowy ciągłej (continuous speech recognition) </li></ul></ul>
  20. 23. Tom Martin @ RCA Laboratories <ul><li>alternatywą dla segmentowania było użycie niejednorodnej skali czasu </li></ul><ul><li>Tom Martin @ RCA Laboratories </li></ul><ul><li>tymczasowa niejednorodność przy powtórzeniach, wykrywanie zakończeń wypowiedzi, ... </li></ul>
  21. 24. Vintsyuk @ ZSRR 1968 <ul><li>użycie dynamicznego programowania do lepszego dopasowania czasu między dwiema wypowiedziami poprawiało jakość oceny ich podobieństwa. </li></ul><ul><li>jego praca, chociaż mało znana na zachodzie, wydaje się wyprzedzać osiągnięcia Sakoe i Chiba [18] i innych, którzy zaproponowali bardziej formalne metody, znane jako dynamiczne wygięcia czasu w dopasowaniu wzorca w mowie. </li></ul>
  22. 25. Programowanie dynamiczne <ul><li>od późnych lat 70-tych, głównie dzięki publikacji Sakoe i Chiba programowanie dynamiczne w przeróżnych formach stało się nieodzownym elementem systemów ASR. </li></ul>
  23. 26. ARPA rozdaje granty ('70) <ul><li>Advanced Research Projects Agency (ARPA) of the U.S. Department of Defense funduje Speech Understanding Research (SUR) </li></ul><ul><li>Carnegie Mellon University’s “Harpy” - pierwszy system wykorzystujący sieci stanów (finite state network FSN) </li></ul><ul><li>rozpoznawany język był dostarczony jako połączona sieć stworzona na podstawie danych słownikowych z syntaktycznymi regułami produkcji i zakresami słów. </li></ul>
  24. 27. Fred Jelinek, IBM <ul><li>“ voice-activated typewriter” (VAT), system transkrypcji dla jednego użytkownika </li></ul><ul><li>skupiono się na wielkości słownika - tak dużego jak się da i strukturze modelu języka (gramatyce). </li></ul><ul><li>statystyczne zasady syntaktyczne definiowały z jakim prawdopodobieństwem sekwencja symboli (słów lub fonemów) mogła pojawić się w wypowiedzi. </li></ul>
  25. 28. n-gramy <ul><li>zestaw zasad statystycznych nazywano 'modelem języka' i do jego reprezentacji najczęściej używano modelu 'n-gramów' </li></ul><ul><li>model n-gramów definiował zależności w zakresie n słów - jest to bardzo wygodna i mocna statystyczna reprezentacja gramatyki </li></ul><ul><li>Claude Shannon 1948 - zawody pomiędzy człowiekiem a komputerem. zadanie: odgadnięcie kolejnego słowa w zdaniu. komputer bazował na wiedzy statystycznej n-gramów o długości 3 i miał znaczną przewagę nad człowiekiem. </li></ul>
  26. 29. AT&T Bell Laboratories <ul><li>zautomatyzowane usługi telekomunikacyjne (wybieranie głosowe, przełączanie rozmów, etc.) </li></ul><ul><li>duża wydajność - system miał działać dla dziesiątków milionów amerykanów, </li></ul><ul><li>speaker-independent - bez potrzeby trenowania systemu dla indywidualnego użytkownika, bez względu na jego ton głosu czy akcent </li></ul>
  27. 30. AT&T Bell Laboratories <ul><li>efektem była cała gama algorytmów do tworzenia wzorców słów i wyrazów, które rozpoznawałyby słowo niezależnie od głosu czy akcentu. </li></ul><ul><li>badania nad zrozumieniem akustycznej różnorodności głosów zaskutkowało wynalezieniem metod mierzenia odległości spektralnej (np. odległość Itakury[22]) </li></ul><ul><li>'keyword spotting' - prosta forma rozumienia wypowiedzi. </li></ul>
  28. 31. 1980’s <ul><li>zmiana metodologii z bardziej intuicyjnych metod opartych na wzorcach, na bardziej rygorystyczne środowiska modelowania statystycznego (statistical modeling framework). </li></ul><ul><li>w połowie lat '80 pojawiły się publikacje dotyczące HMM </li></ul><ul><li>od tego czasu, do dziś HMM są podstawowym narzędziem wykorzystywanym w ASR, głównie ze względu na stały rozwój i ciągłe usprawnienia tej technologii </li></ul>
  29. 32. HMM – Hidden Markov Model (ukryty model Markova) <ul><li>HMM to podwójny proces stochastyczny modelujący: 1) specyficzne zachowania sygnału głosowego wraz ze spektralnymi efektami 2) strukturę języka w SMF (statistical modeling framework). Za pomocą próbek uczących i algortymu Baum'a-Welch'a, tworzymy najlepszą sieć odpowiadającą danemu modelowi. </li></ul>
  30. 34. HMM <ul><li>połączenie HMM i skończonej sieci stanów było kolejnym ważnym osiągnięciem '80 </li></ul><ul><li>w każdej chwili jest sprawdzanych wiele hipotetycznych możliwości zidentyfikowania dźwięku i wybierana jest ta o najlepszym wyniku </li></ul><ul><li>liczba hipotez do sprawdzenia może być ogromna i może wymagać wielkiej mocy obliczeniowej </li></ul><ul><li>finite state transducer - opracowana w połowie lat 90 stała się głównym komponentem prawie wszystkich współczesnych systemów rozpoznawania i rozumienia mowy. </li></ul>
  31. 35. artificial neural networks (ANN) <ul><li>ponowne próby w późnych latach '80 </li></ul><ul><li>sukcesy z rozpoznawanie pojedynczych cyfr </li></ul><ul><li>jednak ograniczenia wynikające ze specyfiki danych (czasowa zmienność) </li></ul><ul><li>aktualnie trwają prace nad połączeniem ANN i HMM </li></ul>
  32. 36. Lata '90 - wiele innowacji <ul><li>pattern recognition przeszło w problem optymalizacyjny, w którym starano się minimalizować empirical recognition error [44]. </li></ul><ul><li>uzmysłowiono sobie, że rozkład funkcji głosu nie może być dokładnie wyznaczony, ani zdefiniowany, więc Bayes'owska teoria decyzyjna jest w tym przypadku nieodpowiednia </li></ul><ul><li>celem rozpoznawacza powinno być osiągnięcie jak najmniejszego błędu podczas rozpoznawania, a nie najlepsze dopasowanie do zadanego zestawu danych. </li></ul><ul><li>wynik: zastosowanie discriminative training, support vector machines (SVM), ... </li></ul>
  33. 37. DARPA rzuca groszem <ul><li>sukces metod statystycznych zdobył zainteresowanie DARPA na przełomie '80/'90, w wyniku czego powstało kilka systemów: </li></ul><ul><li>SPHINX system from CMU [47] </li></ul><ul><li>BYBLOS system from BBN [48] </li></ul><ul><li>DECIPHER system from SRI [49] </li></ul>
  34. 38. do początków XXI wieku: <ul><li>kontynuowano prace nad systemami o rosnącym stopniu trudności </li></ul><ul><li>od rozpoznawania ciągłej mowy o stylizowanej strukturze gramatycznej (używanej w zadaniach wojskowych, np. zarządzaniu jednostkami morskimi) </li></ul><ul><li>do transkrypcji wiadomości (radiowych/telewizyjnych) (e.g., NAB używający słownika o ponad 20K słów), oraz rozmów. </li></ul>
  35. 40. Hidden Markov Model Tool Kit (HTK) <ul><li>System opracowany przez zespół z Cambridge University (led by Steve Young) [51], był i jest do dzisiaj jednym z najczęściej adoptowanych narzędzi do badań nad automatycznym rozpoznawaniem mowy. </li></ul>
  36. 41. Zmiana dyskursu <ul><li>Większość badań nad ASR była skoncentrowana na przetworzeniu głosu na słowa. wierzono, że jest to najważniejszy problem z jakim trzeba było się uporać, aby zbudować maszynę zdolną do rozmów. </li></ul><ul><li>Po latach doświadczeń zaobserwowano dwie ważne sprawy: </li></ul>
  37. 42. Zmiana dyskursu <ul><li>1) ludzie, rozmawiając z komputerami, często mówili naturalnym językiem, który nie zawsze spełniał gramatyczne więzy rozpoznawacza (słowa spoza słownika, niegramatyczne konstrukcje i zdania) a dodatkowo głos był często zakłócony różnego rodzaju hałasami </li></ul><ul><li>2) podobnie jak w tradycyjnej formie komunikacji (człowiek z człowiekiem), tak i w przypadku aplikacji konwersujących, często, aby uzyskać odpowiedni stopień zrozumienia, potrzebny był dialog pomiędzy rozmawiającymi. </li></ul>
  38. 43. <ul><li>W takim dialogu pozwalano na operacje pytania i potwierdzania, dopuszczając możliwość błędów w rozpoznawaniu lub rozumieniu wypowiedzi. </li></ul><ul><li>z pierwszym problemem radzono sobie już w początkowych aplikacjach (keyword spotting w AT&T) </li></ul><ul><li>drugi problem skupił uwagę społeczności badaczy na obszarze zarządzania dialogiem. </li></ul>
  39. 45. Pegasus, Jupiter - MIT 2000 <ul><li>Pegasus i Jupiter to systemy z którymi można porozmawiać przez telefon. Pierwszy dostarcza informacji o lotach samolotów, drugi o pogodzie. </li></ul><ul><li>Dzięki bobrze zaprojektowanemu zarządzaniu dialogiem systemy te dostarczały użytkownikowi odpowiednich informacji, bez konieczności zadawania szczegółowych zapytań, oraz przedzierania się przez pozycje menu. </li></ul><ul><li>Celem było zaprojektowanie maszyny, która potrafiła się komunikować, a niekoniecznie rozumiała wypowiadane słowa. </li></ul>
  40. 46. dzisiaj: <ul><li>HMIHY - How May I Help You system at AT&T, Al Gorin - Consumer Communications Services in 2000 </li></ul><ul><li>technologia dostępna dla ograniczonego, ale ciekawego zakresu zastosowań </li></ul>
  41. 48. - Apple Computer - wizja technologii na 2011 (apple community 1988) <ul><li>“ Knowledge Navigator” = Speech User Interface (SUI) + Multimodal User Interface (MUI) + intelligent voice-enabled agents </li></ul>

×