1. Speech
Translator
watch videos
hold a conversations
have online video lectures
have video conferencing
in ANY languages.
Joona Yoon (joona@chonbuk.ac.kr)
on your browser.
3. Overview
3
• 동영상으로 생산·소비되는 정보가 더 많아지는 추세
→ 영상 번역이 가능하다면, 웹 브라우저의 이용 가치는 증가한다.
The Future of Online News Video – Digital News Publications Online News Comsuption: Video vs Text
4. Speech Translator
• 브라우저 탭에서 출력되는 소리로부터
음성을 감지하여 다른 언어로 번역한 결과를 보여주는 확장 프로그램
4
That sounds pretty good.
꽤 괜찮은 것 같다.
Show me the money.
7. Features
• 실시간 번역 기능
• (좌) 인식한 문장
• (우) 번역된 문장
• 오른쪽 아래에 인식 신뢰도를 표시
• 문장이 여러 개인 경우 구분한다.
7
*오른쪽은 실제 결과입니다.
: WWDC 2018 Keynote — Apple (https://youtu.be/UThGcWBIMpU?t=1h53m19s)
8. Features
• 번역된 문장 다시 듣기
• 인식한 소리를 다시 확인 가능
• 다운로드 가능
8
*오른쪽은 실제 결과입니다.
: [주식매매법] 똘똘똘이의 기도매매법 하이라이트(https://youtu.be/dAn4_5yj1R8)
9. Features
• 음소거 상태에서도 가능한 번역
• 소리를 키우기 힘든 도서관, 카페 등
• 오직 탭에서 나오는 소리만 인식
9
*오른쪽은 실제 결과입니다.
: [주식매매법] 똘똘똘이의 기도매매법 하이라이트(https://youtu.be/dAn4_5yj1R8)
10. Features
• 언어 지원
• 한국어, 영어(미국), 스페인어 외 101개국 언어 지원
• 지원 언어 현황
• http://api.speechtranslator.net/translate/supports
10
12. Features
• 추가로… (발전 가능성)
• 현재 보고 있는 영상에서 자주 등장하는 주제어를 읽고, 관련한 정보를 추천
• 또는 해당 키워드에 대한 간략한 검색 결과를 미리 볼 수 있다.
• 더빙 기능
• TTS 시스템을 활용하여 자연스러운 목소리로 번역된 문장을 읽어준다.
13
13. • 해외 뉴스 생방송, 외국 유명 강의, Ted talks 등을
자국어로 편안하게 시청할 수 있습니다.
Expected
14
14. • 해외 팬들은 K-POP 스타들의 라이브 방송을 편하게 즐길 수 있습니다.
• 영어·일어권 스타들도 국내 팬들과 더 쉽게 소통할 수 있습니다.
Expected
15
ex) 프로듀스 48 일본 참가자들
16. Speech Translator
• Web API를 사용하여 HTML5 웹 표준으로 개발
17
소리가 출력 중일 때, 브라우저 탭 상태
• 탭마다 출력 스트림이 있다. 이것을 확장 프로그램에서 캡쳐링
• 최소 요구 사항: Google Chrome 30+, Naver Whale 1.0.38+
17. Client
• getUserMedia API
• 비디오와 오디오 스트림을 다룰 수 있는 웹 표준
• chrome.tabCapture
18
https://developer.mozilla.org/en-US/docs/Web/API/MediaDevices/getUserMedia
https://developer.chrome.com/extensions/tabCapture
Speech
Translator
HTML/CSS
javascript
24. 오디오 변환 및 저장
• Bucket의 오디오 파일을 FLAC 포맷에서 WAV 포맷으로 변환 후 저장
26
25. Speech-To-Text (STT)
• Google Cloud Platform의 speech-to-text
• 딥 러닝 신경망 기반의 자동 음성 인식
• 120개 이상의 언어와 방언을 인식
• 강력한 소음 처리 기능
27https://cloud.google.com/speech-to-text/
*60분 초과 시 $0.006(USD)/15초
27. 번역
• Google Cloud Platform의 Translation
• 언어 감지 기능 제공
• 더 나은 번역과 새로운 언어 등 지속적인 업데이트
29https://cloud.google.com/translate/
*1,000,000글자 당 $20(USD)
월 최대 $2000
31. Deployment (Server)
• docker-compose를 사용하여 배포
• 웹 서버와 어플리케이션을 컨테이너화하여
스케일링 등 로드밸런싱이 가능하도록 구성
• Docker Swarm을 통한 서버 클러스터 준비 중
• 서비스 장애 복구 지원 예정
• 서비스 롤링 업데이트 지원 예정
33https://github.com/joonas-yoon/speech-translator-server/blob/master/docker-compose.yml