『転声こえうらない』利用者の基本周波数分析 full version

『転声こえうらない』利用者の
基本周波数分析
〇堀部貴紀*1*2, 石原達馬*3, 白井暁彦*1, 森勢将雅*2
1: 株式会社Wright Flyer Live Entertainment
2: 明治大学 3:グリー株式会社
音学シンポジウム2020 [ 一般発表 ]

堀部貴紀『転声こえうらない』利用者の基本周波数分析
【いつでもどこでも「なりたい自分」になれるvocoder】
• 収録者のなりたい声のタイプを選ぶ（キャラクターの雰囲気で選びたい）
• 気軽に利用できる
• スマホで収録する
【満足できる品質には至らない例】
・収録者の声質の推定
・収録時に混入する背景雑音
・変換後のキャラクターとの印象
背景：スマホ時代の
アバター配信者のためのボイスチェンジャー
なりたいスタイル
外の騒音
エアコン
部屋の環境や持ち方

● ブラウザのみで利用できる
無料ボイスチェンジャーサービス
● Twitterでシェアして拡散させる
● なりたい声は13種類
● WebAudio経由で保存した10秒間の音声
をボコーダーに渡してサーバ上で変換する
● 声のタイプに対応したプリセット(声の高
さ：pitch, フォルマント：formant)
● 利用者は同意に基づき実験に参加
音声サンプルとともに
声のタイプと性別(男性, 中性, 女性)を
自己申告で回答
「転声こえうらない」https://vr.gree.net/lab/vc/

分析対象
対象区間 2019年7月1日から2020年3月31日
最大収録時間 10秒
合計収録件数 40,467件
重複を省いた件数 20,803件
【分析対象とサンプル件数】
● 分析項目
○ 統計的に容易な基本周波数
○ 利用者の収録環境を把握するため信号対雑音比(SNR)
（類似の研究に対して）非常に多くのサンプルを獲得することができた
収録時間、平均基本周波
数、SNRが小数点3桁まで
一致するサンプルを同一
発話とみなして除外

分析結果
● 最大10秒までにしているが, 10秒以上話している話者が多い
● 本サービス開始からの約 8 ヶ月間において, 男性利用者が多い
● 0 dBあたりのサンプルは収録に失敗していることを示す
● 50 dB付近にピークが観測される以外にも, 150 dB付近に,
もう1つのピークが観測できる（興味深い）

1. スマホのWebAudio環境をターゲットとした多数のユーザによるデータを獲得できた
⇒ 品質向上のためには物理的・UX的に何を改善すればよいか？
2. どんな声のユーザがどんな声になりたいのか？
⇒ より魅力的な（商品性のある）ボイチェンとは？
3. キャラクターの印象、抑揚、感情などへの応用
⇒ STTによる変換前音声の自然言語処理は実施している。
【その他】
1. モバイルでのリアルタイム処理のための高速化
2. 声と性別、アイデンティティについての考察（女性のユーザが多い）
3. Zoom授業などWebAudio環境の改善へ貢献
【ディスカッション歓迎】
よりよいボイチェンサービスのための課題

Twitter @koeuranai
https://vr.gree.net/lab/vc/

● 音声ファイルの基本周波数 𝐹0 を用いる
● 有声音区間の 𝐹0 の要素数を 𝑁 とすると,
𝐹0 = 𝑒𝑥𝑝
𝑛=0
𝑁−1
log 𝐹0 𝑛
𝑁
● 0より大きい 𝐹0 について人間の音の高さの知覚が対数的な尺度であるため,
対数をとって平均値を求めた
解析方法 - 平均基本周波数 𝑭𝟎 -

● CheapTrickにより得られたスペクトル包絡 𝑆 𝑝 を用いる
● 𝑆 𝑝: 時間と周波数の軸からなる2次元配列
● 各フレームにおける 𝑆 𝑝 の総和を求め、ソートした1次元配列に直す
● ソートした1次元配列はパワーに相当
● この1次元配列の要素数のうち, 上位・下位それぞれ10%にあたるインデックス
を求める
要素数を N とすると, それぞれのインデックスは以下で表される
ℎ𝑖𝑔ℎ = 𝑟𝑜𝑢𝑛𝑑 0.9 × 𝑁
l𝑜𝑤 = 𝑟𝑜𝑢𝑛𝑑 0.1 × 𝑁
解析方法 - 信号対雑音比 -

● ソートされたパワーのうちhigh 番目を収録された信号のパワー 𝑃𝑠, low 番目を
雑音のパワー 𝑃𝑛 とすると,
P𝑆𝑁 = 10 log
𝑃𝑠
𝑃𝑛
● 全ての区間に音声が含まれるわけではなく、ある程度無音区間が存在
● 有声区間においても、瞬間的なピークでパワーを計測することは妥当とは言い
難い
● 全区間から上位・下位それぞれ10%のパワーを信号・雑音のパワーと仮定
● 𝑃𝑛はCheapTrickでスペクトル包絡を求める際に、0にならないように補正され
ているので、𝑃𝑆𝑁が無限大に発散する問題は生じない
解析方法 - 信号対雑音比 -

方法
● 森勢らによる音声分析合成システムWORLDをベースに, リアルタイムで動
作する音声合成エンジン RealWorld を独自に開発
● 利用者がブラウザの WebAudio 経由で録音した音声
○ PCM形式で16 kHz,16 bits,モノラルに圧縮されたファイルが格納され
ている
● 分析
○ WAVファイル形式でデコード
○ Librosa.load 関数でサンプリングレート 16 kHzの波形として取り出し
た
○ WORLD を python用に拡張した pyworldライブラリを使用
○ pyworldライブラリ：DIO [11]
● 録音環境は各利用者の環境に依存するが, 主にスマートフォンの内蔵マイク
やPCマイクが想定される

分析対象
対象区間 2019年7月1日から2020年3月31日
最大収録時間 10秒
合計収録件数 40,467件
重複を省いた件数 20,803件
【分析対象とサンプル件数】
● 分析項目
○ 統計的に容易な基本周波数
○ 利用者の収録環境を把握するため信号対雑音比

• 変換に用いられるプリセットの改善などサービス品質改善
• 利用者とのコミュニケーション用公式Twitter アカウント「@koeuranai」
の担当キャラクターを 3 ヶ月ごとに変更
この実験期間は四半期ごとに区切ってすすめていることから,
• T1：2019 年 7-9 月
• T2：2019 年 10-12 月
• T3：2020 年 1-3 月
実験結果 - 期間を区切った分析 -

分析結果 – 期間を区切った分析 -
平均基本周波数
信号対雑音比
女性比率が上がっている
収録環境は概ね均一

実験結果 - 自己申告の性別を考慮した分析 -
• 音声と性別を紐づけるため, 2020年3月から収録音声に対して自己申告で性別
を男性,女性,中性の3種類の集計を始めた.
• 声のスタイルや自己申告の性別など詳細なデータを集計した 2020 年 3 月 1
日から 3 月 31 日までの 1 ヶ月間について性別に基づいた平均基本周波数の
ヒストグラム
● 男性を選択した利用者のF0
● 一般男性の平均125 Hz 近辺が 1 番多い
● 利用者の中にも, F0が200 Hz∼250 Hz近辺という結果になった利用者もいた
● 一般女性の声の高さのような特徴を持っていることがわかる
● 中性を選択した利用者：女性のように声が高い
● 本分析のサンプル数が少ないため, 今後も引き続き調査していく必要

• 選択した声のスタイルや自己申告の性別など詳細なデータの集計
 どのような声の特徴をもつ利用者か
 どのような声のスタイルに変換したいのか
• 今後の研究
 声質変換システムを利用者の 𝑭𝟎 に合わせたパラメータを設定するアル
ゴリズムへ発展させられる可能性
 SNR特性
 Zoom等のWebAudio経由のハングアウト環境改善
 遠隔相互授業やWebinarのためのソフトウェア設計や選定の指針
• 利用者によりよい部屋の環境や録音機材としてのスマホの持ち方について,
指針が出せる程度の分類ができる可能性
総括

『転声こえうらない』利用者の基本周波数分析 full version

More Related Content

More from GREE VR Studio Lab

『転声こえうらない』利用者の基本周波数分析 full version