Music Style Transfer
:인공지능을 활용한 음악 장르 변환
11기 구교정
13기 이현 정상형
[국내 최초 빅데이터 연합동아리 BOAZ]
유튜브 - https://www.youtube.com/channel/UCSniI26A56n2QZ71opJtTUg
페이스북 - https://www.facebook.com/BOAZbigdata
인스타그램 - http://www.instagram.com/boaz_bigdata
블로그 - https://blog.naver.com/boazbigdata
30. 선정 배경
선연 구경
선정 배경
Spectrogram
배 경
오디오
선행 연구
연구 설계
●
데이터
모 델
결 론
Spectrogram Mel-Spectrogram
Mel-Spectrogram
CycleGAN
31. 선정 배경
선연 구경
선정 배경
배 경
오디오
선행 연구
연구 설계
●
데이터
모 델
결 론
Mel filter bank
Spectrogram
Mel-Spectrogram
CycleGAN
32. 선정 배경
선연 구경
선정 배경
Jazz
배 경
오디오
선행 연구
연구 설계
●
데이터
모 델
결 론
Rock
Spectrogram
Mel-Spectrogram
CycleGAN
혁오 – 위잉위잉
33. 선정 배경
선연 구경
선정 배경
배 경
오디오
선행 연구
연구 설계
●
데이터
모 델
결 론
Griffin-Lim
Spectrogram
Mel-Spectrogram
CycleGAN
34. 선정 배경
선연 구경
선정 배경
배 경
오디오
선행 연구
연구 설계
●
데이터
모 델
결 론
Griffin-Lim
Phase 정보 손실
음원 해상도 저하
Spectrogram
Mel-Spectrogram
CycleGAN
35. 선정 배경
선연 구경
선정 배경
Spectrogram + Phase 정보
배 경
오디오
선행 연구
연구 설계
●
데이터
모 델
결 론
Spectrogram
CQT
CycleGAN
CQT
36. 선정 배경
선연 구경
선정 배경
배 경
오디오
선행 연구
연구 설계
●
데이터
모 델
결 론
Spectrogram
CQT
CycleGAN
막걸리나
37. 선정 배경
선연 구경
선정 배경
배 경
오디오
선행 연구
연구 설계
●
데이터
모 델
결 론
Spectrogram
CQT
CycleGAN
Cycle Loss
유의미한 변화 X
38. 선정 배경
선연 구경
선정 배경
배 경
오디오
선행 연구
연구 설계
●
데이터
모 델
결 론
Spectrogram
CQT
CycleGAN
Cycle Loss
유의미한 변화 X
Pixel-wise
구조적 변화 X
39. 선정 배경
선연 구경
선정 배경
배 경
오디오
선행 연구
연구 설계
●
데이터
모 델
결 론
CQT
CycleGAN
Spectrogram CycleGAN
Phase 정보 손실
음원 해상도 저하
유의미한 변화 X
구조적 변화 X
40. 선정 배경
선연 구경
선정 배경
배 경
오디오
선행 연구
연구 설계
●
데이터
모 델
결 론
CQT
CycleGAN
Spectrogram CycleGAN
Phase 정보 손실
음원 해상도 저하
유의미한 변화 X
구조적 변화 X
Waveform MelGAN
41. 선정 배경
선연 구경
선정 배경
배 경
오디오
선행 연구
연구 설계
●
데이터
모 델
결 론Dilation
WaveformWaveNet
Autoregressive Causality
42. 선정 배경
선연 구경
선정 배경
배 경
오디오
선행 연구
연구 설계
●
데이터
모 델
결 론Dilation
WaveformWaveNet
Autoregressive Causality
43. 선정 배경
선연 구경
선정 배경
배 경
오디오
선행 연구
연구 설계
●
데이터
모 델
결 론Dilation
WaveformWaveNet
Autoregressive Causality
44. 선정 배경
선연 구경
선정 배경
배 경
오디오
선행 연구
연구 설계
●
데이터
모 델
결 론Dilation
WaveformWaveNet
Autoregressive Causality
45. 선정 배경
선연 구경
선정 배경
배 경
오디오
선행 연구
연구 설계
●
데이터
모 델
결 론
WaveformWaveNet
Training
Condition + Input
Inference
Condition + 0
46. 선정 배경
선연 구경
선정 배경
배 경
오디오
선행 연구
연구 설계
●
데이터
모 델
결 론
WaveformMelGAN
47. 선정 배경
선연 구경
선정 배경
배 경
오디오
선행 연구
연구 설계
●
데이터
모 델
결 론
생성 전후의
구조적인 Loss 반영
WaveformMelGAN
48. 선정 배경
선연 구경
선정 배경
배 경
오디오
선행 연구
연구 설계
●
데이터
모 델
결 론
WaveformMelGAN
1D Waveform 2D Waveform
49. 선정 배경
선연 구경
선정 배경
배 경
오디오
선행 연구
연구 설계
●
데이터
모 델
결 론
WaveformMelGAN
Dilation 효과
50. 선정 배경
선연 구경
선정 배경
배 경
오디오
선행 연구
연구 설계
●
데이터
모 델
결 론
WaveformAutoencoder
Discriminator
Encoder
Jazz
Decoder
Rock
Decoder
Condition
51. 선정 배경
선연 구경
선정 배경
배 경
오디오
선행 연구
연구 설계
●
데이터
모 델
결 론
WaveformAutoencoder
Jazz
Decoder
Rock
Decoder
Condition
Encoder
음원을 Latent vector로
Embedding
Dilation 1D Conv
52. 선정 배경
선연 구경
선정 배경
배 경
오디오
선행 연구
연구 설계
●
데이터
모 델
결 론
WaveformAutoencoder
Jazz
Decoder
Rock
Decoder
Condition
Discriminator
음원의 스타일을 구분
속이는 방향으로 학습
1 x 1 Conv
53. 선정 배경
선연 구경
선정 배경
배 경
오디오
선행 연구
연구 설계
●
데이터
모 델
결 론
WaveformAutoencoder
Condition
Decoder
Latent vector 를 통해
음원을 생성
WaveNet
54. 선정 배경
선연 구경
선정 배경
배 경
오디오
선행 연구
연구 설계
●
데이터
모 델
결 론
WaveformAutoencoder
Train Discriminator
Train Encoder & Decoder
55. 선정 배경
선연 구경
선정 배경
배 경
오디오
선행 연구
연구 설계
●
데이터
모 델
결 론
WaveformAutoencoder
모든 Decoder가 복원할 수 있게 스타일을 구분할 수 없게
Encoding
56. 선정 배경
선연 구경
선정 배경
배 경
오디오
선행 연구
연구 설계
●
데이터
모 델
결 론
WaveformAutoencoder
음원
Encoding
원하는 스타일
Decoder 선택
스타일
변환 완료
58. 선정 배경
선연 구경
선정 배경
MelGAN
배 경
오디오
선행 연구
연구 설계
●
데이터
모 델
결 론
결 과
Autoencoder
Epoch 20
Original
Epoch 50
59. 선정 배경
선연 구경
선정 배경
MelGAN
배 경
오디오
선행 연구
연구 설계
●
데이터
모 델
결 론
결 과
Autoencoder
Epoch 20
Original
Epoch 50
60. 선정 배경
선연 구경
선정 배경
배 경
오디오
선행 연구
연구 설계
●
데이터
모 델
결 론
한계점
Image 와 Audio 데이터의 차이
높은 수준의
Style Transfer 연구
Audio 데이터의
적용하기 어려움
61. 선정 배경
선연 구경
선정 배경
배 경
오디오
선행 연구
연구 설계
●
데이터
모 델
결 론
한계점
WaveNet 의 높은 cost
해상도 높이기 어려움
44.1kH vs 16kH
매우 긴 Train & Inference
가성비, 활용도가 낮음
62. 선정 배경
선연 구경
선정 배경
배 경
오디오
선행 연구
연구 설계
●
데이터
모 델
결 론
한계점
Reference 연구의 부족
Audio Style Transfer
해당 주제 연구 자체가 매우 적음
아직까지도 많은 아이디어 필요
63. 선정 배경
선연 구경
선정 배경
배 경
오디오
선행 연구
연구 설계
●
데이터
모 델
결 론
향후 연구 방향
Music style을 결정하는 오디오 데이터의 특성 파악
이를 고려한 음악 데이터를 위한 Style Transfer 모델
고해상도를 위한 Low cost 모델