음성인식기술을 이용한 일본드라마 감성분석

1,597 views

Published on

Published in: Education
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,597
On SlideShare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
36
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

음성인식기술을 이용한 일본드라마 감성분석

  1. 1. 음성인식 기술을 이용한 일본 드라마 감성 분석 (Analysis of Japanese Drama using Emotional Speech Recognition) 2011. 6. 10( 금 ). 김성호 영남대학교 전자공학과 한국연구재단 학제간 융합연구팀 주최 세미나
  2. 2. Outline <ul><li>Introduction of emotional speech recognition </li></ul><ul><li>Related works and current status </li></ul><ul><li>Standard emotional recognition system </li></ul><ul><ul><li>MFCC feature </li></ul></ul><ul><ul><li>Classification by SVM </li></ul></ul><ul><li>Experimental results </li></ul><ul><li>Concusions </li></ul>
  3. 3. Introduction <ul><li>Speech </li></ul><ul><ul><li>A sequence of elementary acoustic symbols </li></ul></ul><ul><li>Information in speech </li></ul><ul><ul><li>Gender information, age, accent, speaker’s identity, health, and emotion </li></ul></ul><ul><li>Application of emotional speech recognition </li></ul><ul><ul><li>Recently, increased attention in this area </li></ul></ul><ul><ul><li>융합과제 : 반한 감정에 대한 정량적 분석에 도움 . </li></ul></ul><ul><ul><li>Human-Robot interaction </li></ul></ul><ul><ul><li>Smart call-centers </li></ul></ul><ul><ul><li>Computer tutoring system </li></ul></ul>
  4. 4. Related Works (2007-2008) <ul><li>[J. Sidorova, 2007] </li></ul><ul><ul><li>Feature: pitch, intensity, formant, harmonicity  116 dim. </li></ul></ul><ul><ul><li>Classifier: MLP (neural-network) </li></ul></ul><ul><ul><li>Number of emotions: 7 types (neutral, angry, disgusted, fear, joy, surprise, sad) </li></ul></ul><ul><ul><li>Test DB: EMO-DB (Deutch)  80.67% </li></ul></ul><ul><li>[T. Danisman, 2008] </li></ul><ul><ul><li>Feature: MFCC, energy </li></ul></ul><ul><ul><li>Classifier: SVM (Support Vector Machine) </li></ul></ul><ul><ul><li>Number of emotions: 5 types (angry, happy, neutral, sad, surprise) </li></ul></ul><ul><ul><li>Test DB: DES-DB (Denmark)  67.6% </li></ul></ul>
  5. 5. Related Works (2009-2011) <ul><li>[M. Vondra, 2009] </li></ul><ul><ul><li>Feature: F0, Intensity, MFCC </li></ul></ul><ul><ul><li>Classifier: GMM (Gaussian Mixture Model) </li></ul></ul><ul><ul><li>Number of emotions: 7 types </li></ul></ul><ul><ul><li>Test DB: EMO-DB (Deutch)  71.63% </li></ul></ul><ul><li>[M. El Ayadi, 2011] Survey </li></ul><ul><ul><li>Feature  Best feature is unknown. </li></ul></ul><ul><ul><li>Classifier </li></ul></ul><ul><ul><ul><li>HMM , GMM </li></ul></ul></ul><ul><ul><ul><li>SVM , Neural Net, k-NN </li></ul></ul></ul><ul><li>Current performance </li></ul><ul><ul><li>Speaker independent: around 50% </li></ul></ul><ul><ul><li>Speaker dependent: over 90% </li></ul></ul>
  6. 6. Standard Method of Emotional Speech Recognition <ul><li>Key algorithm </li></ul><ul><ul><li>Feature extractor: MFCC </li></ul></ul><ul><ul><li>Classifier: SVM </li></ul></ul>Recognized emotions MFCC SVM or Nearest class mean classifier MFCC Training acoustic files Testing acoustic files
  7. 7. Feature for Emotional Speech Recognition <ul><li>Mel Frequency Cepstral Coefficients ( MFCC ) </li></ul><ul><ul><li>Convey information of short time energy in frequency domain </li></ul></ul>Signal Fourier transform (frequency domain) Mapping the power spectrum onto the mel scale Take Log of powers at each mel frequency Final MFCC: Amplitude of resulting spectrum Mel scale: 사람이 차이를 느끼는 주파수 간격 Mel Scale Hertz Scale Take discrete Cosine transform
  8. 8. Classifier: Support Vector Machine <ul><li>Original SVM  basically binary class classifier </li></ul><ul><li>Multiclass SVM  use multiple SVMs and voting </li></ul>Feature space Learning : Finding optimal classifier Recognition : Performed by the learned classifier Ex. y=ax+b
  9. 9. Classifier: Nearest Class Mean Feature space Learning : Finding class means Recognition : Finding nearest class
  10. 10. Exp.1 on EMO Database <ul><li>EMO DB </li></ul><ul><ul><li>7 types (happy, angry, anxious, fearful, bored, disgusted, neutral) </li></ul></ul><ul><ul><li>10 kinds of sentences </li></ul></ul><ul><ul><li>10 people (male 5, female 5) </li></ul></ul><ul><ul><li>Language: Deutch </li></ul></ul>anger happy boredom
  11. 11. Recognition using Nearest Class Mean Classifier <ul><li>Learning: 150 (randomly selected), test: 150 </li></ul>Recognition rate: 47.0%
  12. 12. Recognition using SVM <ul><li>Recognition rate: 38.0% </li></ul>SVM 보다 Nearest Class Mean Classifier 가 우수함 .
  13. 13. Exp2. 독일어로 학습  일본어 테스트 <ul><li>놀람 </li></ul><ul><li>슬픔 </li></ul><ul><li>기쁨 </li></ul> 독일어와 일본어의 차이로 인해 인식이 불안정함 .
  14. 14. Exp3. 일본어로 학습  일본어로 테스트 <ul><li>DB 구성 : 5 개 감정 , 57 개 음성클립 ( 언덕 위의 구름 4 화만 활용 ) </li></ul>'neutral 'anger’ 'happy’ ‘ surprise’ 'sad'
  15. 15. 인식결과 : Nearest Class Mean Classifier 이용 56.7% surprise happy anger neutral sad
  16. 16. 인식결과 : SVM 이용 86.6%  SVM 인식 기법이 더 우수함 . surprise happy anger neutral sad
  17. 17. Exp.4 확장 실험 <ul><li>학습 : 158 음성 클립 (1-4 화 , 2 초 / 클립 )  26,635x20dim </li></ul><ul><li>10 회 반복 (cross-validation, random sampling, 5000 개 feature, 16ms/feature) </li></ul><ul><ul><li>평균인식률 : 92.85 </li></ul></ul>surprise happy anger neutral sad
  18. 18. 제 1 화 전체 음성 파일 분석 결과 <ul><li>세 주인공의 유년시절 </li></ul><ul><li>나레이션 많음 . </li></ul><ul><li>배경 음악 자주 있음 . </li></ul>surprise happy anger neutral sad surprise 불꽃놀이 헤어짐 영어수업 순양함 감탄
  19. 19. 제 2 화 전체 음성 파일 분석 결과 <ul><li>세 주인공의 학창시절 </li></ul><ul><li>나레이션 많음 . </li></ul><ul><li>배경 음악 자주 있음 . </li></ul>surprise 해군 훈련
  20. 20. 제 3 화 전체 음성 파일 분석 결과 <ul><li>청일전쟁 직전 </li></ul><ul><li>나레이션 많음 . </li></ul><ul><li>배경 음악 자주 있음 . </li></ul>surprise 부친상 , 회상 , 나레이션 조선군대 파병 관련 관료 대화
  21. 21. 제 4 화 전체 음성 파일 분석 결과 <ul><li>청일전쟁 </li></ul><ul><li>나레이션 많음 . </li></ul><ul><li>배경 음악 자주 있음 . </li></ul>육상전쟁 해상전쟁 종군기자 나레이션
  22. 22. 제 5 화 전체 음성 파일 분석 결과 <ul><li>청일전 승리 얘기 </li></ul><ul><li>미국 방문 </li></ul><ul><li>나레이션 많음 . </li></ul>민비시해사건소개 ( 놀람 ) 미국 무도회 나이아가라폭포관광 ( 놀람 )
  23. 23. 제 6 화 전체 음성 파일 분석 결과
  24. 24. 제 7 화 전체 음성 파일 분석 결과 해군교육 (anger) 문학인죽음 (sad) 장례식 (sad)
  25. 25. 제 8 화 전체 음성 파일 분석 결과
  26. 26. 제 9 화 전체 음성 파일 분석 결과 출항 , 헤어짐 (sad) 전투 (anger) 전투 (anger)
  27. 27. 결론 <ul><li>감성 언어 인식 기법 결론 </li></ul><ul><ul><li>MFCC 특징량 추출 및 인식기 (SVM, Nearest mean class classifier) 개발 </li></ul></ul><ul><ul><li>독일어 7 종 감정 인식 성능은 최대 47% 임 . </li></ul></ul><ul><ul><li>독일어 학습  일본어 감정 인식 성능은 매우 안좋음 . </li></ul></ul><ul><ul><li>일본어 5 종 감정 학습  일본어 감정 인식 최대 성능은 92.85% 임 . </li></ul></ul><ul><li>‘ 언덕위의 구름’ 전체 음성 분석 결과 </li></ul><ul><ul><li>1-9 화 전체 음성 파일에 적용 및 통계적 분석 결과 특정 장면에서 감정이 일부 상관 관계가 있었지만 , 배경 음악 , 나레이션 등에 의해 무의미한 부분이 많음 . </li></ul></ul><ul><ul><li>반한 감정 관련 음성학적으로 특이 사항을 발견하기 어려웠음 . </li></ul></ul>

×