SlideShare a Scribd company logo
1 of 12
Download to read offline
音声データの扱い方と基礎知識
Audacity基本操作
2016.4
1.音声データの記録
マイクを通して録音された音声は、ICレコーダーなどのデジタル機器ではデータとして記録されます。
もともとの「音」は空気の振動ですから、この振動をどのくらい忠実にデータとして記録できるか、が「音質」を左右することになります。
空気の振動である「音」のカタチを波形と言います。この波形をそのまま記録したものがWAVE形式のデータです。パソコンなどでは拡張子が.wav という表記になります。
ポイント(1)
波形をそのまま記録したデータは「WAVEデータ(.wav)」
音楽CDのパッケージをよく見ると、『 44.1kHz/16bit 』 という表記がされていることがあります。
44.1kHzのような数字を「サンプリング周波数」といいます。
44.1kHzは実際の音の波のカタチ=波形を、1秒間に44100回計測してデータ化しています、という意味です。Kは1000倍という記号なので、44.1kHz = 44100Hz になります。
この数字が大きいほど、より細かな波の形まで記録できることになり「いい音=実際の音に忠実な音」のデータであるということができます。
デジタルカメラの写真に置き換えると「画素数」が近いかもしれません。画素数が多いほど鮮明な画像データになるのと同じです。
16bitのような数字は、「量子化ビット数」といいます。
データを記録するときに、どれくらい細かい差異まで記録できるか、という数字です。先ほどのデジカメの例でいえば、1つの画素がどれくらい細かな色の違いを表現できるか、と
いう性能に相当します。音声データの場合も、1秒間に何回の記録を行うか、という「サンプリング周波数」と、その1回あたりの記録の際にどれくらい細かな違いを記録できるか、
という「量子化ビット数」の組み合わせで音質が決まります。
44.1kHz/16bit という組み合わせは、おおむね人間の耳が実際の音と記録された音の違いをほぼ認識できない(ほぼ原音に忠実な録音ができる)水準、ということで音楽CDなど
の規格に採用されています。
ポイント(2)
44.1kHz/16bit は音楽CDで使われている標準規格。このような数字が大きいほど高音質になる。
実際の波形
データとして記録された波形
細かくデータを記録できるほど、実際の波形(元の音)
に忠実な音質(=高音質)になります。
データを細かく記録すると、そのぶんデータの量も
大きくなります。
高画質なデジカメの写真データが大きいサイズになる
のと同じです。
一般に、CD音質である44.1kHz/16bitで記録した場合、
1分間あたりのデータ量はおよそ 10MB ほどになり
ます。
CD1枚に入るデータ量が700MB強なので、
音楽CDの最大収録時間は74分となっています。
低音質なデータ 高音質なデータ
2.圧縮データ
波形を忠実に記録したWAVEデータは、データのサイズが大きいというデメリットがあります。そのため用いられるのが圧縮データです。
様々な形式がありますが、代表的なものがMP3データ(パソコンではファイル名を.mp3と表記)です。
当然ですが圧縮するとデータ量が小さくなるのと引き換えに、音質が悪くなります。
どのくらい圧縮するか、を表す数字をビットレートといい、kbpsという単位で表記します。一般によく使われるビットレートは128kbps、192kbps、256kbps、320kbpsなど。
数字が大きくなるほど、圧縮率は低い(=音質がよく、データ量が大きい)ということになります。
CD音質(44.1kHz/16bitのWAVE)データを128kbpsでMP3に圧縮すると、データ量はおよそ10分の1になります。
5分の楽曲はWAVEデータの状態では50MB前後ありますが、128kbpsのMP3にすると5MB前後になる計算です。
繊細な耳を持つ人が聞くと、128kbpsの音質は劣化がわかると言われています。CDの音質をできるだけ劣化させずにデータ量だけを落としたい場合は、192kbps以上の
ビットレートを使うと良いでしょう。実際にはデータを間引いてサイズを落としていますが、320kbpsで圧縮されたMP3は一般の人ではほとんどWAVEと区別がつきません。
ポイント(3)
データサイズを落とすにはMP3などの圧縮データを使う。音質劣化を避けるためにはビットレートを高めに。
ラジオ局でも、スタジオから送信所までの間はコーデックという機器を通して圧縮したデータで音声を送っています。
データ量を小さくするメリットは、データの伝送が速くなることです。スタジオの音と、オンエアの音声とはデータが送られる時間のぶんだけコンマ何秒レベルの遅延があり
ますが、送るデータが小さいほどこの遅延が短くなるのです。
その反面、データを小さくするほど音質が劣化します。コーデックや回線の性能に応じて最適なビットレートを選ぶことで、音質と伝送速度のバランスをとっています。
3.ステレオとモノラル
音楽CDなどのデータは、右(R)と左(L)に分けて収録されています。これを「ステレオ」といいます。
再生機器(コンポなど)で再生すると、右と左のスピーカーからはそれぞれ別の音が出て立体感のある音になります。
バンドで言えば、ボーカルなどはセンターから(左右のスピーカーから均等に)、ギターは右側から、ベースは左側から、と
いった感じです。
古い音源などでは、音が左右にわかれていない録音もあります。これを「モノラル」といいます。
モノラル音源を再生すると、左右のスピーカーから同じ音が出ます。
逆に再生機器がモノラルしか対応していない場合は、音源がステレオでも左右同じミックスされた音になります。
ポイント(4)
音声が右(R)と左(L)に分かれているのがステレオ。ステレオ音源はステレオ対応機器で再生しないと
再現できない。
オーケストラやバンドなど、たくさんの楽器や声を録音するときに、楽器ごとにバラバラに録音してあとで重ねる
ことがあります。音を重ねる作業を「ミキシング」、ひとつひとつの録音のことを「トラック」といいます。
複数のトラックをミキシングし、バランスなどを整えた後、最終的に音楽CDなどにするためには右(R)トラックと
左(L)トラックのふたつにまとめなければなりません。トラック数がRとLの2つになるので、この作業を
「ミックスダウン」といいます。
より立体的な、臨場感のある音を作るために、音を左右だけでなく後ろや正面などにも振り分けて再生できるよう
にした機器があります。代表的なものは5.1chサラウンドと呼ばれるもので、左右のスピーカーに加えセンター、
右後ろ、左後ろ、低音専用のスピーカー(ウーハー)の6つが聴く人を取り囲むように音を再生するので、たとえば
「右後ろからジェット機が左前方に向けて通り過ぎる」などの臨場感あふれた音を作ることが可能になります。
このような機器で単なるステレオ音源を再生しても、同様の効果は得られません。5.1ch対応の音源は、
6つのトラックにそれぞれ音を振り分けて収録することで作られます。
音楽CDはステレオ規格なので左右の2chですが、映画などのDVDやブルーレイなどでは5.1chや6.1chのものも
増えています。これらも当然5.1ch対応機器で再生しないと単なるステレオになってしまいます。
RL
RL
リアRリアL
センター
ウーハー
ステレオのイメージ
5.1chサラウンドのイメージ
公式サイト(英語) http://www.audacityteam.org/
窓の杜 http://www.forest.impress.co.jp/library/software/audacity/
4.音声データの扱い方 Audacity編
音声データを扱えるソフトウェアは多々ありますが、ここからは無料で利用できて汎用性の高いAudacityを使って解説します。
Audaxityは公式サイトのほか、各種ダウンロードサイトから入手できます。
※ 初期状態ではMP3ファイルでの書き出しができないのでlameのインストール
が必要です。「Audacity mp3 lame」などで検索するとたくさん出てきますので
入れておきましょう。
Audacityの起動画面 ここにwaveデータやmp3データ等の音声ファイルをドラッグ&ドロップすると・・・
取り込まれた波形が表示されました。
これで波形データを扱うことができます。
4.VUメーター
音声を録音したり再生したりする機器には、必ずといっていいほど「VUメーター」が付いています。
ごく単純に言えば、「どのくらいの大きさの音が再生(または録音)されているか」を示すものです。
アナログ機器にはこのような針が振れるタイプのVUメーターが付いて
いることが多いですが、役割は同じもの。
赤いゾーンに針が振れてしまうと「割れた」状態の音に。
ステレオ音源では左右違う振れ方をします。(モノラルだと左右同じ)
AudacityのVUメーター。音声を再生すると、音の大きさに連動して
ゲージが振れます。
「大きな音」の波形は上下に大きく振れます。この
振れ幅がVUメーターと連動しています。 「小さな音」の波形は上下の振れ幅が小さく、VU
メーターも低くしか振れません。
音が大きすぎる=波形の振れ幅が大きすぎると、画面
表示の上下に波形が当たって潰れてしまいます。
俗に「音が割れている」という状態です。
VUメーターでもゲージがいっぱいに振れてしまい、
割れたことを示す赤いサインが表示されます。
もともと割れた状態の音は、音質が歪んでしまいデータ上で修正することは困難
です。音声データを扱う際は常にVUメーターをチェックし、音が割れていないこと
を確認しつつ(かつ、小さすぎて聞き取りにくくないことをチェックしつつ)作業
することが必要です。
5.Audacityの基本操作
以下のツールボックスからモードを切り替えて操作します。
起動状態では、「カーソルモード」になっています。
波形の任意の場所から再生、または波形の範囲を選択できます。
拡大/縮小ボタン
クリックするたびに波形を拡大、縮小
(例)波形の特定の部分を削除したい場合
削除したい付近のところでクリック、「拡大(+)」ボタンで拡大
削除したい範囲をドラッグして選択
再生ボタンを押すと選択範囲のみ
再生できるので確認
選択された状態で「Delete」キー
で該当箇所が削除されます。
一時停止/再生/停止 ボタン
再生を開始したいところにカーソル
モードでカーソルを合わせて、
再生ボタン(またはSpaceキー)で再生、
一時停止ボタン(または「P」キー)で
一時停止。
5.Audacityの基本操作
タイムシフトツール
特定のトラックを任意の場所へ移動できます。
タイムシフトツールを選択し任意のトラックをクリックしたまま左右へドラッグして動かし
トラックを任意の位置へ調整します。
クリックしたまま左右へ
エンベロープツール
トラックの振れ幅を調整します。
エンベロープツールでトラックの振れ幅を制限したり変化させたりする
ことができます。同じトラックの中で強弱付けたい部分があるときなど
に使用します。
6.ミキシング
ナレーションにBGMを重ねたり、効果音を重ねたり、と複数の音源を重ねてそれぞれの音量(レベル)のバランスをとる作業を「ミキシング」といいます。
音源のひとつひとつを「トラック」といいます。
二段になっているものはステレオトラック(上段がL、
下段がR)、モノラルトラックは一段で表示されます。
+または-にスライドさせて音量(レベル)を
調整します。
LとRのスライダーは、パン(トラックを左に振る
か右に振るか)を調整します。意図的にどちら
かに寄せない場合はセンターのままでOK。
「表示」 > 「ミキサーボード」 で全トラックのレベルを細かく調整できる
ミキサーボードを表示させることが出来ます。
トラックごとのVUメーターが確認できるので、再生しながらレベルを調整します。
「ミュート」ボタンを押すとそのトラックだけ音が鳴らないように、「ソロ」ボタンを
押すとソロボタンを押したトラック以外のトラックを全ミュートにして再生すること
ができます。特定のトラックを微調整するときなどに使用します。
7.エフェクト
エフェクトは音源に特定の効果を付加する機能です。エフェクトには様々な種類のものがありますが、代表的なものを紹介します。
フェードイン/フェードアウト
徐々に音が小さくなり消えてゆくのがフェードアウト、無音から徐々に音が大きくなってゆくのがフェードインです。
フェードインをかけたい部分をカーソルモードでドラッグして選択。 「エフェクト」メニューから「フェードアウト」を選択すると波形が変化してフェードアウトがかかります。
選択する範囲が短ければ急に音が消えた感じに、長ければゆっくり音が小さくなっていく感じになります。何秒かけてフェードアウトするのが最も効果的かを考えましょう。
フェードインも全く同じ手順です。
エコー
エコーを書けたい部分を選択し、「エフェクト」メニューから「エコー」をクリック。
ディレイ時間:元の音に何秒遅れてエコー音が聞こえるようにするか、を設定します。
減衰ファクター:エコー効果がどの程度持続するか、を設定します。数値が大きいほど深くエコーがかかった感じになります。
ディレイ時間: 0.2
減衰ファクター: 0.4
くらいが標準的なエコーに聞こえるかも?
まずはこの数値で試して微調整を。
8.書き出し
・音源の取り込み
・ミキシング
・エフェクト
などなどの作業が終わり、音源が完成したら「書き出し」を行います。
プロジェクトのサンプリング周波数が「44100」になっていることを確認。
それ以外の数値でも書き出しできますが、再生環境によって正しく
再生できないことがあります。
「ファイル」メニューから「オーディオの書き出し」を選択。
「プロジェクトファイルの保存」を選ぶと編集途中のデータを保存しておくこともできます。
書き出したいファイル形式、ファイル名を指定して保存。
音質を劣化させたくない場合は「WAV」を選択。
ファイルサイズを小さくしたい場合は「mp3」などを選びます。
mp3は保存前に「オプション」メニューから圧縮レートを選ぶことが出来ます。
「品質」で圧縮レートを指定します。
音質を維持したい場合はできるだけ大きな数値(192kbps以上)を
選んでおくとよいでしょう。

More Related Content

What's hot

深層学習を用いたコンピュータビジョン技術とスマートショップの実現
深層学習を用いたコンピュータビジョン技術とスマートショップの実現深層学習を用いたコンピュータビジョン技術とスマートショップの実現
深層学習を用いたコンピュータビジョン技術とスマートショップの実現
DeNA
 
NTT研究所インターン 感想
NTT研究所インターン 感想NTT研究所インターン 感想
NTT研究所インターン 感想
Makoto Kawano
 
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
Shinnosuke Takamichi
 

What's hot (20)

リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
 
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
 
自称・世界一わかりやすい音声認識入門
自称・世界一わかりやすい音声認識入門自称・世界一わかりやすい音声認識入門
自称・世界一わかりやすい音声認識入門
 
音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?
 
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
 
深層学習を用いたコンピュータビジョン技術とスマートショップの実現
深層学習を用いたコンピュータビジョン技術とスマートショップの実現深層学習を用いたコンピュータビジョン技術とスマートショップの実現
深層学習を用いたコンピュータビジョン技術とスマートショップの実現
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
 
サーベイ論文:画像からの歩行者属性認識
サーベイ論文:画像からの歩行者属性認識サーベイ論文:画像からの歩行者属性認識
サーベイ論文:画像からの歩行者属性認識
 
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測深層学習に基づく音響特徴量からの振幅スペクトログラム予測
深層学習に基づく音響特徴量からの振幅スペクトログラム予測
 
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
 
NTT研究所インターン 感想
NTT研究所インターン 感想NTT研究所インターン 感想
NTT研究所インターン 感想
 
HLSについて知っていることを話します
HLSについて知っていることを話しますHLSについて知っていることを話します
HLSについて知っていることを話します
 
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
 
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価
スペクトログラム無矛盾性を用いた 独立低ランク行列分析の実験的評価
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現
 
敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワーク敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワーク
 
グラフデータベース入門
グラフデータベース入門グラフデータベース入門
グラフデータベース入門
 
UE4で使えるSpatialized Audio Plug-inどう違うの?どれ使えばいいの?
UE4で使えるSpatialized Audio Plug-inどう違うの?どれ使えばいいの?UE4で使えるSpatialized Audio Plug-inどう違うの?どれ使えばいいの?
UE4で使えるSpatialized Audio Plug-inどう違うの?どれ使えばいいの?
 
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
 

Viewers also liked

Viewers also liked (8)

MP3と音声圧縮(simple)
MP3と音声圧縮(simple)MP3と音声圧縮(simple)
MP3と音声圧縮(simple)
 
高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―
 
音声にまつわる技術の基礎
音声にまつわる技術の基礎音声にまつわる技術の基礎
音声にまつわる技術の基礎
 
AWS初心者向けWebinar AWSとのネットワーク接続入門
AWS初心者向けWebinar AWSとのネットワーク接続入門AWS初心者向けWebinar AWSとのネットワーク接続入門
AWS初心者向けWebinar AWSとのネットワーク接続入門
 
Amazon VPC VPN接続設定 参考資料
Amazon VPC VPN接続設定 参考資料Amazon VPC VPN接続設定 参考資料
Amazon VPC VPN接続設定 参考資料
 
AWS Black Belt Techシリーズ AWS Direct Connect
AWS Black Belt Techシリーズ AWS Direct ConnectAWS Black Belt Techシリーズ AWS Direct Connect
AWS Black Belt Techシリーズ AWS Direct Connect
 
0528 kanntigai ui_ux
0528 kanntigai ui_ux0528 kanntigai ui_ux
0528 kanntigai ui_ux
 
女子の心をつかむUIデザインポイント - MERY編 -
女子の心をつかむUIデザインポイント - MERY編 -女子の心をつかむUIデザインポイント - MERY編 -
女子の心をつかむUIデザインポイント - MERY編 -
 

音声データの扱い方と基礎知識・Audacity基本操作