Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

音声ポストプロダクションの機械化

816 views

Published on

多くの人手を割く必要のあった音声ポスプロ作業を細分化し、深層学習を利用することで作業効率と品質向上に寄与させるアプローチ方法を紹介します。

Published in: Technology
  • Be the first to comment

音声ポストプロダクションの機械化

  1. 1. 音声ポストプロダクションの効率化 2017/11/16 TensorFlow User Group #6 アイ・ペアーズ株式会社 取締役 映像開発部 部長 佐藤 直哉
  2. 2. 2 日本大学大学院 芸術学研究科 芸術学専攻 後期博士課程 中退 アイ・ペアーズ(株) 取締役 a.k.a. なヲタ 自己紹介 アルゴリズムで同期演奏システムを構築 アルゴリズムが至高だと認識 アルゴリズムの限界を察知 約半年前から深層学習を勉強 深層学習の脅威に驚愕 もっと広めたい
  3. 3. 3 自己紹介 – TensorFlowについて TensorFlowの選択理由 • 初期設定が簡易的なGPU前提深層学習ライブラリ • GPUによるFFT(高速フーリエ変換)が使用可能 ただし・・・ • Cloud ML Engine は未使用 • 推論フェーズはRaspberry Pi
  4. 4. 4 会社紹介 ほぼ全てのクリエイティヴ関連 コンテンツ制作を 内製で一元対応可能 受託開発 音声ナレーション制作 Webコンテンツ制作 CG映像制作
  5. 5. 5 音声ナレーション事業フロー 弊社クライアント ナレーター 原 稿 ナレーター指名 アサイン レコーディング ポスト プロダクション データ変換 納 品
  6. 6. 6 機械化のポイント • 人手作業の削減 • ローリスクハイリターン • 世に出回らないデータの活用 複合的技術の細分化 内製部分 レコーディング直後の生音声
  7. 7. 7 音声ポストプロダクション  各種ノイズ成分除去 • 背景雑音 • リップノイズ • 紙のめくる音  特定周波数成分強調  タイミング調整  音量調節  言い間違い検査・修正
  8. 8. 8 ポスプロで必要な技術 波形データの直接書換は稀 各エフェクトの逐次適応作業 技術者は最適なエフェクトパラメーターの算出 経験と知識 • Compressor • Cutting • Limitter • NoiseGate etc.
  9. 9. 9 ポスプロの実情  各種ノイズ成分除去 • 背景雑音 • リップノイズ • 紙のめくる音  特定周波数成分強調  タイミング調整  音量調節  言い間違い検査・修正 1人で同時複合的に実行
  10. 10. 10 ポスプロのワンオペ Q. 何故 改善できないのか? A. 結果的に生産性が高い Q. 何故 ワンオペの方が効率的? A. 作業レイヤー分の聞き直し発生
  11. 11. 11 ポスプロのワンオペ – 理想図 各色のマスクはエフェクト
  12. 12. 12 ポスプロのワンオペ – 現実 各色のマスクはエフェクト
  13. 13. 13 ポスプロのワンオペ問題 Q. 何故 改善できないのか? A. 結果的に生産性が高い Q. 何故 ワンオペの方が効率的? A. 作業レイヤー分の聞き直し発生 ・・・不測の事態に対応困難
  14. 14. 14 ポスプロ機械化について 質問してみた。
  15. 15. 15 ポスプロ機械化について質問① Q. ポスプロ作業がAIに代わってほしいか? A. むしろ推奨
  16. 16. 16 ポスプロ機械化について質問② Q. AI技術を既存作業フローに組込むのは? A. 作業時間増大や作業手順制限は懸念
  17. 17. 17 ポスプロ機械化について質問③ Q. AI技術のための新規手順を覚えてほしい! A. 作業時間が減るとしても極力回避
  18. 18. 18 ポスプロ機械化について質問④ Q. AI技術開発のための別作業要求したい! A. 作業時間ください…
  19. 19. 19 ポスプロ機械化について質問 – 総評価 結果的に… 自分が別ラインで開発を進める!
  20. 20. 20 深層学習の目論見と失敗 これまでの制作物をそのまま学習データに利用 オリジナルと処理後の不適合 同時複合的処理が適応済みデータ
  21. 21. 21 深層学習の目論見と失敗 – 解説 オリジナル ポスプロ後 場所も音量も 整合性なし
  22. 22. 22 深層学習の目論見と失敗 – 結論 改めて教師データ作成へ
  23. 23. 23 機械化を含んだ新たな生成フロー 1. 録音データ 2. エフェクト 3. 以後既存作業 ① Effect A ② Effect B ③ Effect C 0.1 0.3 1.3 0.2 0.8 2.1 1.3 5.0 2.2 5.3 0.1 1.4 0.0 0.0 1.0 1.0 0.0 0.0 人手によるポスプロ作業へ
  24. 24. 最適パラメーターを学習 24 機械化を含んだ新たな生成フロー 1. 録音データ 2. エフェクト ① Effect A ② Effect B ③ Effect C 0.1 0.3 1.3 0.2 0.8 2.1 1.3 5.0 2.2 5.3 0.1 1.4 0.0 0.0 1.0 1.0 0.0 0.0
  25. 25. 25 ニューラルネットワーク – プロトタイプ RNN (LSTM) の使用 1. 音声データをFFTでスペクトログラム 2. Conv2Dで畳み込み 3. 1ステップごとにLSTMへ入力 4. LSTMの出力を全結合 5. ラベルデータからロス値算出
  26. 26. 26 結果 人手作業時間 40% 削減 従来の作業時間 オリジナルデータの4倍で計算 1時間のデータ  従来の想定作業:4時間  機械化工程追加:2時間15分
  27. 27. 27 推察 • 品質は従来手法と同様 納品レベル • 既存・新規のアルゴリズムで済む 深層学習だけではない • 必ず1度は人間が聞く必要性 1倍を下回れない
  28. 28. 28 展望 弊社クライアント ナレーター レコーディング ポスト プロダクション データ変換 原稿OCR イントネーショ ン スケジュール管理 ベストマッチング リアルタイムチェッカー Speech API 一括ファイル管理 ポスプロ一括処理
  29. 29. 29 まとめ • ローリスクハイリターン部分を探し、複合的部分を細分・レイヤー化 • 既存手順を変えないように、機械化部分を含む新たなフロー構築 • 世に出回らない自社だけのデータを活用 • 可能な限り教師用データセットは新規 • 『音声データ』『Tensorflow.fft』『RNN』の組み合わせ • 簡単なプロトタイプでも既に大幅な人手作業削減可能 • 機械学習以外も考慮 • 既存サービスを多いに利用
  30. 30. 30 おわりに 他の事業ドメインでも機械化を進める これまでの手作業に疑問を呈す データがあれば深層学習で解決

×