3. Proprietary + Confidential
Google Speech Group in Tokyo
Michiel Bacchiani Richard Sproat Llion Jones
Yotaro Kubo Shigeki Karita Tobenna Igwe Yuma Koizumi
18. Proprietary + Confidential
ちょっとだけ、手前味噌な研究紹介
Encoder Decoder
TdcnBlocks
マイクで
収録した音
強調した音
Y. Koizumi, et al., "DF-Conformer: Integrated architecture of Conv-TasNet and Conformer using linear complexity self-attention for speech enhancement," WASPAA 2021.
多段の dilated conv だけでは時間構造をうまく解析できない
Conv-TasNet
19. Proprietary + Confidential
ちょっとだけ、手前味噌な研究紹介
Encoder Decoder
Conformer
Block
マイクで
収録した音
強調した音
Y. Koizumi, et al., "DF-Conformer: Integrated architecture of Conv-TasNet and Conformer using linear complexity self-attention for speech enhancement," WASPAA 2021.
Conv-TasNet Conformer
一般的なAttention は O(N2
) の計算量が必要で
分析窓長が2.5ms の時間領域音声強調では使えない
20. Proprietary + Confidential
ちょっとだけ、手前味噌な研究紹介
Encoder Decoder
DF-Conformer
Block
マイクで
収録した音
強調した音
NEW
Y. Koizumi, et al., "DF-Conformer: Integrated architecture of Conv-TasNet and Conformer using linear complexity self-attention for speech enhancement," WASPAA 2021.
O(N) の Attention に変更
Dilated conv に変更 (Conv-TasNet のいいとこどり)
21. Proprietary + Confidential
ちょっとだけ、手前味噌な研究紹介
入力音 出力音
プレプリント:arxiv.org/abs/2106.15813
デモサイト:google.github.io/df-conformer/waspaa2021
Y. Koizumi, et al., "DF-Conformer: Integrated architecture of Conv-TasNet and Conformer using linear complexity self-attention for speech enhancement," WASPAA 2021.