Речевые интерфейсы Бочаров Виктор
Disclaimer <ul><li>Мы не будем говорить … </li></ul><ul><ul><li>о чат ботах, тесте Тьюринга и премии Лебнера </li></ul></u...
Источники <ul><li>Ravenclaw/Olympus dialog system architecture ( http :// www.ravenclaw-olympus.org )  </li></ul><ul><li>“...
Речевой интерфейс? <ul><li>наиболее естественный для человека </li></ul><ul><li>иногда является единственным возможным </l...
Речевой интерфейс – где? <ul><li>контакт   центры ( IVR) </li></ul><ul><li>точки самообслуживания </li></ul><ul><li>речево...
Контакт центр – альтернативы?
Речевой интерфейс – проблемы? <ul><li>оговорки, ошибки, … </li></ul><ul><li>вокруг бывает шумно </li></ul><ul><li>распозна...
Что дальше? 1 Ravenclaw/Olympus 2 Что можно сделать иначе? 3 Стандарты  W3C
<ul><li>Разработчики </li></ul><ul><ul><li>Dan Bohus  </li></ul></ul><ul><ul><li>Antoine Raux </li></ul></ul><ul><ul><li>…...
Ravenclaw/Olympus - demo <ul><li>VERA </li></ul>
Ravenclaw/Olympus <ul><li>Olympus  –  dialog system architecture  </li></ul><ul><li>Ravenclaw  –  dialog management framew...
Ravenclaw/Olympus SPHINX SPHINX SPHINX Dialog Manag. RAVENCLAW Back-end (perl) Lang. Generation ROSETTA HUB Recognition Se...
SPHINX –  распознавание речи <ul><li>несколько параллельных декодеров </li></ul><ul><li>LM  генерируется исходя из ожидаем...
PHOENIX -  парсер <ul><li>обрабатывает все гипотезы </li></ul><ul><li>понимает неполные и неверные фразы </li></ul><ul><li...
PHOENIX -  парсер <ul><li>Show fares of flights from Denver to Boston on United [Field] ( show  [_fares] (fares of flights...
HELIOS –  оценка гипотез <ul><li>на оценку влияют: </li></ul><ul><ul><li>оценки распознавания речи </li></ul></ul><ul><ul>...
Ravenclaw –  диалог … <ul><li>дерево задач </li></ul><ul><li>терминалы – агенты </li></ul><ul><ul><li>inform </li></ul></u...
Ravenclaw –  диалог …
Ravenclaw -  логика <ul><li>Фаза исполнения: </li></ul><ul><ul><li>Выбор следующего агента </li></ul></ul><ul><ul><li>Испо...
Ravenclaw - Roomline <ul><li>запись … </li></ul><ul><li>исходный код </li></ul>
Ravenclaw –  ошибки … <ul><li>Типы ошибок: </li></ul><ul><ul><li>non-understanding ( ничего не поняли) </li></ul></ul><ul>...
Ravenclaw –  стратегии … <ul><li>non-understanding </li></ul><ul><ul><li>попросить повторить </li></ul></ul><ul><ul><li>пе...
Ravenclaw –  стратегии … <ul><li>misunderstanding </li></ul><ul><ul><li>явное подтверждение </li></ul></ul><ul><ul><li>нея...
Ravenclaw -  реализации ~20 estim. ~80 estim. User Initiative Command & Control Team Talk 9 50 Mixed Initiative Informatio...
Ravenclaw - LARRI <ul><li>LA nguage-Based  R etrieval of  R epair  I nformation </li></ul><ul><li>интерактивный справочник...
 
План 1 Ravenclaw/Olympus 2 Что можно сделать иначе? 3 Стандарты  W3C
JASPIS  - отличия <ul><li>Центральное хранилище информации </li></ul>
JASPIS  - отличия <ul><li>Агенты и оценщики </li></ul>
Поддержка стандартов … <ul><li>см. след. слайд </li></ul>
План 1 Ravenclaw/Olympos 2 Что можно сделать иначе? 3 Стандарты  W3C
“ Voice browser” activity <ul><li>“ Applying Web technology to enable users to access services from their telephone via a ...
“ Модальности ” <ul><li>клавиатура </li></ul><ul><li>мышь </li></ul><ul><li>перо </li></ul><ul><li>речь </li></ul><ul><li>...
Модель мультимодального интерфейса ( W3C)
 
VoiceXML 2.0 <ul><li>Voice Extensible Markup Language  </li></ul><ul><li>управление диалогом </li></ul><ul><ul><li>речевые...
VoiceXML -  пример <ul><li><form> </li></ul><ul><li><field name=&quot;drink&quot;> </li></ul><ul><li><prompt> </li></ul><u...
VoiceXML -  пример <ul><li>C (компьютер): Would you like coffee, tea, milk, or nothing? </li></ul><ul><li>H (человек): Ora...
Грамматики <ul><li>SRGS </li></ul><ul><ul><li>S peech Recognition Grammar Specification </li></ul></ul><ul><ul><li>W3C Pro...
Вопросы
Upcoming SlideShare
Loading in...5
×

Dialog Systems Design

891

Published on

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
891
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
18
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide
  • Dialog Systems Design

    1. 1. Речевые интерфейсы Бочаров Виктор
    2. 2. Disclaimer <ul><li>Мы не будем говорить … </li></ul><ul><ul><li>о чат ботах, тесте Тьюринга и премии Лебнера </li></ul></ul><ul><ul><li>поисковых системах ( http:// www.ask.com ) </li></ul></ul><ul><li>«Мопед не мой …» (с) </li></ul>
    3. 3. Источники <ul><li>Ravenclaw/Olympus dialog system architecture ( http :// www.ravenclaw-olympus.org ) </li></ul><ul><li>“ Jaspis - A Spoken Dialog Architecture and its Applications” Markku Turunen (University of Tampere), 2004 </li></ul><ul><li>сайт W3C ( http://www.w3c.org/voice ) </li></ul>
    4. 4. Речевой интерфейс? <ul><li>наиболее естественный для человека </li></ul><ul><li>иногда является единственным возможным </li></ul><ul><li>интеграция нескольких технологий в одном решении </li></ul>
    5. 5. Речевой интерфейс – где? <ul><li>контакт центры ( IVR) </li></ul><ul><li>точки самообслуживания </li></ul><ul><li>речевой доступ к WEB </li></ul><ul><li>речевой интерфейс к настольным ПК </li></ul>
    6. 6. Контакт центр – альтернативы?
    7. 7. Речевой интерфейс – проблемы? <ul><li>оговорки, ошибки, … </li></ul><ul><li>вокруг бывает шумно </li></ul><ul><li>распознавание речи работает не идеально </li></ul><ul><li>речь подразумевает интеллект </li></ul>
    8. 8. Что дальше? 1 Ravenclaw/Olympus 2 Что можно сделать иначе? 3 Стандарты W3C
    9. 9. <ul><li>Разработчики </li></ul><ul><ul><li>Dan Bohus </li></ul></ul><ul><ul><li>Antoine Raux </li></ul></ul><ul><ul><li>… </li></ul></ul>
    10. 10. Ravenclaw/Olympus - demo <ul><li>VERA </li></ul>
    11. 11. Ravenclaw/Olympus <ul><li>Olympus – dialog system architecture </li></ul><ul><li>Ravenclaw – dialog management framework for task-oriented spoken dialog systems </li></ul>
    12. 12. Ravenclaw/Olympus SPHINX SPHINX SPHINX Dialog Manag. RAVENCLAW Back-end (perl) Lang. Generation ROSETTA HUB Recognition Server Synthesis THETA Multiple, parallel decoders PROCESS MONITOR Lang. Understand. PHOENIX/HELIOS DateTime Other domain agents Back-end Galaxy Stub Actual Perl Back-end Lang. Generation ROSETTA (Perl) Lang. Generation Galaxy Stub Text I/O TTYServer Parsing PHOENIX Confidence HELIOS Inputs from other modalities
    13. 13. SPHINX – распознавание речи <ul><li>несколько параллельных декодеров </li></ul><ul><li>LM генерируется исходя из ожидаемых грамматик </li></ul><ul><li>предоставляет несколько гипотез </li></ul>
    14. 14. PHOENIX - парсер <ul><li>обрабатывает все гипотезы </li></ul><ul><li>понимает неполные и неверные фразы </li></ul><ul><li>фреймы / слоты </li></ul>
    15. 15. PHOENIX - парсер <ul><li>Show fares of flights from Denver to Boston on United [Field] ( show [_fares] (fares of flights)) [Origin] ( from [City] ( Denver )) [Destination] ( to [City] ( Boston )) [airline] ( on [AirlineName] ( United )) </li></ul>
    16. 16. HELIOS – оценка гипотез <ul><li>на оценку влияют: </li></ul><ul><ul><li>оценки распознавания речи </li></ul></ul><ul><ul><li>оценки парсера </li></ul></ul><ul><ul><li>ожидания диалогового менеджера </li></ul></ul><ul><li>выбирается одна гипотеза </li></ul>
    17. 17. Ravenclaw – диалог … <ul><li>дерево задач </li></ul><ul><li>терминалы – агенты </li></ul><ul><ul><li>inform </li></ul></ul><ul><ul><li>request </li></ul></ul><ul><ul><li>expect </li></ul></ul><ul><ul><li>execute </li></ul></ul><ul><li>нетерминалы – агенства </li></ul>
    18. 18. Ravenclaw – диалог …
    19. 19. Ravenclaw - логика <ul><li>Фаза исполнения: </li></ul><ul><ul><li>Выбор следующего агента </li></ul></ul><ul><ul><li>Исполнение </li></ul></ul><ul><li>Фаза ввода: </li></ul><ul><ul><li>Сбор семантических ожиданий </li></ul></ul><ul><ul><li>Ожидание </li></ul></ul><ul><ul><li>Связывание слотов с концептами </li></ul></ul><ul><ul><li>Оценка ввода </li></ul></ul>
    20. 20. Ravenclaw - Roomline <ul><li>запись … </li></ul><ul><li>исходный код </li></ul>
    21. 21. Ravenclaw – ошибки … <ul><li>Типы ошибок: </li></ul><ul><ul><li>non-understanding ( ничего не поняли) </li></ul></ul><ul><ul><li>misunderstanding (поняли неправильно) </li></ul></ul>
    22. 22. Ravenclaw – стратегии … <ul><li>non-understanding </li></ul><ul><ul><li>попросить повторить </li></ul></ul><ul><ul><li>переспросить </li></ul></ul><ul><ul><li>сообщить, что ничего не понятно </li></ul></ul><ul><ul><li>помолчать </li></ul></ul><ul><ul><li>«вы могли бы сказать …» </li></ul></ul><ul><ul><li>продолжить диалог </li></ul></ul><ul><ul><li>… </li></ul></ul>
    23. 23. Ravenclaw – стратегии … <ul><li>misunderstanding </li></ul><ul><ul><li>явное подтверждение </li></ul></ul><ul><ul><li>неявное подтверждение </li></ul></ul><ul><ul><li>незапланированное неявное подтверждение </li></ul></ul>
    24. 24. Ravenclaw - реализации ~20 estim. ~80 estim. User Initiative Command & Control Team Talk 9 50 Mixed Initiative Information Mgmt. Room Line 10 44 Mixed Initiative Information Exploration Bus Line 31 + 61 + System Guided Guidance & Browsing LARRI # of concepts # of agents Interaction Type Domain Type System
    25. 25. Ravenclaw - LARRI <ul><li>LA nguage-Based R etrieval of R epair I nformation </li></ul><ul><li>интерактивный справочник по тех. обслуживанию F-18 </li></ul><ul><li>мультимодальный интерфейс </li></ul><ul><ul><li>визуальный: экран - мышь </li></ul></ul><ul><ul><li>речевой: наушники - микрофон </li></ul></ul>
    26. 27. План 1 Ravenclaw/Olympus 2 Что можно сделать иначе? 3 Стандарты W3C
    27. 28. JASPIS - отличия <ul><li>Центральное хранилище информации </li></ul>
    28. 29. JASPIS - отличия <ul><li>Агенты и оценщики </li></ul>
    29. 30. Поддержка стандартов … <ul><li>см. след. слайд </li></ul>
    30. 31. План 1 Ravenclaw/Olympos 2 Что можно сделать иначе? 3 Стандарты W3C
    31. 32. “ Voice browser” activity <ul><li>“ Applying Web technology to enable users to access services from their telephone via a combination of speech and DTMF. ” </li></ul><ul><li>http://www.w3.org/Voice/ </li></ul><ul><li>http://www.w3.org/2002/ mmi / </li></ul>
    32. 33. “ Модальности ” <ul><li>клавиатура </li></ul><ul><li>мышь </li></ul><ul><li>перо </li></ul><ul><li>речь </li></ul><ul><li>экран </li></ul><ul><li>GPS </li></ul><ul><li>системные события </li></ul><ul><li>… </li></ul>
    33. 34. Модель мультимодального интерфейса ( W3C)
    34. 36. VoiceXML 2.0 <ul><li>Voice Extensible Markup Language </li></ul><ul><li>управление диалогом </li></ul><ul><ul><li>речевые меню </li></ul></ul><ul><ul><li>речевые формы </li></ul></ul><ul><li>синтезированная речь </li></ul><ul><li>распознавание речи и DTMF ввода </li></ul>
    35. 37. VoiceXML - пример <ul><li><form> </li></ul><ul><li><field name=&quot;drink&quot;> </li></ul><ul><li><prompt> </li></ul><ul><li>Would you like coffee, tea, milk, or nothing? </li></ul><ul><li></prompt> </li></ul><ul><li><grammar src=&quot;drink.grxml&quot; type=&quot;application/srgs+xml&quot;/> </li></ul><ul><li></field> </li></ul><ul><li><block> </li></ul><ul><li><submit next=&quot;http://www.drink.example.com/drink2.asp&quot;/> </li></ul><ul><li></block> </li></ul><ul><li></form> </li></ul>
    36. 38. VoiceXML - пример <ul><li>C (компьютер): Would you like coffee, tea, milk, or nothing? </li></ul><ul><li>H (человек): Orange juice. </li></ul><ul><li>C: I did not understand what you said. </li></ul><ul><li>C: Would you like coffee, tea, milk, or nothing? </li></ul><ul><li>H: Tea </li></ul><ul><li>C: (продолжение в drink2.asp) </li></ul>
    37. 39. Грамматики <ul><li>SRGS </li></ul><ul><ul><li>S peech Recognition Grammar Specification </li></ul></ul><ul><ul><li>W3C Proposed Recommendation, December 2003 </li></ul></ul><ul><li>N-Gram </li></ul><ul><ul><li>Stochastic Language Models (N-Gram) Specification </li></ul></ul><ul><ul><li>W3C Working Draft 3 January 2001 </li></ul></ul>
    38. 40. Вопросы
    1. A particular slide catching your eye?

      Clipping is a handy way to collect important slides you want to go back to later.

    ×