Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

AIMeetup #2: Jak wykorzystaliśmy technologię rozpoznawania mowy i mówcy do automatyzacji call centre

266 views

Published on

Bartosz Ziółko podczas AIMeetup #2 w Krakowie organizowanego przez 2040.io opowiadał o

Published in: Technology
  • Be the first to comment

AIMeetup #2: Jak wykorzystaliśmy technologię rozpoznawania mowy i mówcy do automatyzacji call centre

  1. 1. Bartosz Ziółko Jak wykorzystaliśmy technologie rozpoznawania mowy i mówcy do automatyzacji call centre. www.techmo.pl www.dsp.agh.edu.pl
  2. 2. 2 • Automatic speech recognition • Speaker verification, identification and profiling • Speech synthesis • Natural language processing • VR sound simmulation
  3. 3. 3 Speech recognition
  4. 4. Deep Neural Networks 4
  5. 5. 5 Speech recognition Fast Accurate Reliable Easily integratable • GRPC • MRCP v2 • Propietary protocol • C++ / Java clients Industry standards • SRGS • Semantic Interpretation Case #Words Speedup Numbers 1000 7,7x / core Streets 1300 5,5x / core Towns 265 6,7x / core Commands 50 26,5x / core Case Samples Rate Numbers 5600 98,4% Streets 12000 99,1% Towns 500 99,2% Commands 4900 98,5% [M. Ziółko, J. Gałka, B. Ziółko, T. Jadczyk, D. Skurzok, M. Mąsior, ”Automatic Speech Recognition System Dedicated for Polish, Interspeech 2011, Florence] [B. Ziółko, T. Jadczyk, D. Skurzok, P. Żelasko, J. Gałka, T. Pędzimąz, I. Gawlik, S. Pałka "SARMATA 2.0 Automatic Polish Language Speech Recognition System", Interspeech, Dresden, 2015]
  6. 6. Recent and undergoing applications 6 Automatic system for reporting failures by customers Automatic infoline Time alignment of film transcripts for audiodescription research
  7. 7. IVR + ASR 7
  8. 8. Example of a hypothesis without a grammar
  9. 9. 9 [A system and a method for providing a dialog with a user, B. Ziółko, T. Pędzimąż (patent in USA, and applications in Canada, Japan & EPO)] Quasi free dialogs in a game
  10. 10. 10 a - graph structure of simple dialogue scenario ; b - schematic (two dialogue coefficients a and b) representation of a multidimensional map of possible dialogue transitions in a particular graph node with 3 possible exits. Transitions map demonstrates simplified 2 dimensional case (in real applications tens or hundreds of dimensions are needed). The marked fields 3, 6, 7 determine the transition in the dialogue graph.
  11. 11. 11 Speaker verification, identification and profiling
  12. 12. Voice biometrics convenience price
  13. 13. Recording Matching Decision Voiceprint database YES NO Speaker verification
  14. 14. System supporting speaker identification in emergency call center [J. Gałka, J. Grzybowska, M. Igras, P. Jaciow, K. Wajda, M. Witkowski and M. Ziołko, "System supporting speaker identification in emergency call center", Interspeech, Dresden, 2015] Application for:
  15. 15. Zastosowania • Biometryczne systemy bezpieczeństwa – Zalety w porównaniu do innych systemów • Nieskończona ilość materiału do analizy (więcej nagrań – większa dokładność) • Wymagany jedynie tani sprzęt • Niewymagana obecność (zdalne rozpoznanie) • Bezpieczeństwo
  16. 16. Zastosowania • Biometryczne systemy bezpieczeństwa • Przez telefon – Transakcje bankowe » Zmniejszenie strat powiązanych z defraudacjami » Zmniejszenie kosztów prewencji defraudacji » Zwiększenie przychodu w związku ze wzrostem satysfakcji klientów – Poczta głosowa – Zakupy przez telefon – Głosowe interaktywne systemy odpowiadające
  17. 17. Zastosowania systemy bezpieczeństwa Odzyskiwanie hasła przez telefon 30 do 40 % telefonów do obsługi klienta to problemy z hasłem Telephony system Authentication centre Target system Password Reset SR USER
  18. 18. Zastosowanie – Monitoring • Kontrola zdalnej pracy i obecności pracowników • Weryfikacja zwolnień warunkowych i aresztów domowych • Gmina Iberville w LA (US) używa identyfikacji mówcy przez telefon dla osób objętych opieką kuratora –Przed automatyzacją -> 1400 $/dziecko –Po -> 193 $/dziecko • Użycie telefonów więziennych
  19. 19. Zastosowania • Wsparcie służb – W kryminalistyce – Rozpoznawanie mówców na żywo w identyfikacji osób dzwoniących • Śledzenie mówcy, wykrywanie i nadzór • Analiza mowy syntezowanej i modulowanej • Cechy głosu są trudniejsze do ukrycia niż twarz
  20. 20. Zastosowania • Rozpoznawanie mowy i mówcy – Ulepszenie systemów bezpieczeństwa – Transkrybowanie wielu mówców na raz w konwersacji - Rozprawy sądowe, parlamenty i inne transkrypcje spotkań
  21. 21. Czy biometria głosowa jest atrakcyjna? 21 5 18 23 36 18 zdecydowanie nieatrakcyjna raczej nieatrakcyjna ani atrakcyjna, ani nieatrakcyjna 23% nieatrakcyjna Dlaczego? 11 12 28 41 nie ufam jej jest dziwna/śmieszna łatwo nagrać mój głos głos może uleć modyfikacji np.… 12 26 35 42 innowacyjna łatwa w użyciu bezpieczna komfortowa 54% atrakcyjna Źródło: di.com.pl Badanie zostało przeprowadzone przez TNS Polska na zlecenie Nuance Communications, odbyło się w listopadzie 2014 r. i objęło 1000-osobową grupę internautów między 18 a 65 rokiem życia.
  22. 22. Czy biometria głosowa jest atrakcyjna? 22 5 18 23 36 18 zdecydowanie nieatrakcyjna raczej nieatrakcyjna ani atrakcyjna, ani nieatrakcyjna 23% nieatrakcyjna Dlaczego? 11 12 28 41 nie ufam jej jest dziwna/śmieszna łatwo nagrać mój głos głos może uleć modyfikacji np.… 12 26 35 42 innowacyjna łatwa w użyciu bezpieczna komfortowa 54% atrakcyjna Źródło: di.com.pl Badanie zostało przeprowadzone przez TNS Polska na zlecenie Nuance Communications, odbyło się w listopadzie 2014 r. i objęło 1000-osobową grupę internautów między 18 a 65 rokiem życia.
  23. 23. Czy biometria głosowa jest atrakcyjna? 23 5 18 23 36 18 zdecydowanie nieatrakcyjna raczej nieatrakcyjna ani atrakcyjna, ani nieatrakcyjna 23% nieatrakcyjna Dlaczego? 11 12 28 41 nie ufam jej jest dziwna/śmieszna łatwo nagrać mój głos głos może uleć modyfikacji np.… 12 26 35 42 innowacyjna łatwa w użyciu bezpieczna komfortowa 54% atrakcyjna Źródło: di.com.pl Badanie zostało przeprowadzone przez TNS Polska na zlecenie Nuance Communications, odbyło się w listopadzie 2014 r. i objęło 1000-osobową grupę internautów między 18 a 65 rokiem życia. nawyki
  24. 24. • Zamknięty/ otwarty zbiór • Weryfikacja / Identyfikacja • Zależne (stałe lub zmienne) lub niezależne od tekstu • Cechy niskiego poziomu (akustyczne) lub wysokiego (lingwistyczne, dialektowe, społeczne, itd.) Klasyfikacja System z zamkniętym zbiorem System ze zbiorem otwartymPoza bazą danych Narzucone błędne rozpoznanie Baza danych Baza danych Tak Nie Mówca NNowak ? Baza danych Baza danych „nie pasuje do żadnego” ? ? ? ?
  25. 25. Poziomy rozpoznawania mówcy Semantyka, dykcja, wymowa Status społeczno- finansowy, edukacja, miejsce urodzin Prozodia, rytm, tempo intonacji, modulacja głośności Typ osobowości, wpływ rodziców Akustyczne aspekty mowy Anatomiczna struktura narządów mowy Cechy wysokiego poziomu (nieakustyczne) Cechy niskiego poziomu (fizyczne) Trudna ekstrakcja Łatwa ekstrakcja
  26. 26. Playback detection 26 [J. Gałka, M. Grzywacz, R. Samborski Playback attack detection for text- dependent speaker verification over telephone channels, Speech Communication, vol. 67, pp. 143-153] Patent pending
  27. 27. Playback attack detection 27 [J. Gałka, M. Grzywacz, R. Samborski Playback attack detection for text-dependent speaker verification over telephone channels, Speech Communication, IF, vol. 67, pp. 143- 153]
  28. 28. Demo • ASR – Taxi: 12 333 76 12 • Biometry – VoiceColor: 12 312 25 96 • TTS – techmo.pl/tts • Soundtracer – https://www.youtube.com/watch?v=EWatzCC7rk0 – https://www.youtube.com/watch?v=05EL5SumE_E 28
  29. 29. 2929 DSP AGH Group and Techmo

×