音を表す

本当に初心者の人に捧げるコンピューター入門

ソフトウェア：データ編　その６

音を表す

　前の２章では画像を数値化する方法に関して概説してきました。それでは今度は音はどうでしょう？
　音も画像同様に数値化することは可能です。そしてビットマップとメタファイルに対応するような、データ化の方法が大きく分けて２種類あります。

方法その１：音をそのままデータにする：ＰＣＭ

　みなさんは音が空気中を伝わる振動であることはご存じでしょう。よく理科の教科書には音の波形とかいって以下のような図が載っているのを見たことはあるでしょう？

　さてではこれをどうやって数値化するのでしょうか？それには前にビットマップの時に使ったのと同じような方法が使えます。すなわち細かく分けるのです。
　ビットマップの時は画像を小さな点に分けて、その点の色をデータに設定しました。音も同様に、上のグラフのＸ軸とＹ軸を細かく分けて、以下のようなデータを作るのです。

　Ｘ軸は時間を表し、Ｙ軸はその時間における波の大きさです。
　Ｘ軸の分け方が十分細かければ、上の棒グラフの頂上を結んでいくとほぼ元の波形と同じ物が再現できることがわかります。Ｘ軸の分け方の細かさをサンプリングレートといいます。よくＣＤなんかにデジタルサンプリングして云々と書いてあることがありますが、要するにこういうことをしているわけです。
　同時にＹ軸の分割数も細かくすればよりリアルな音になります。
　こういう方法で数値化された音のデータをＰＣＭデータとかＷＡＶＥデータと呼んでいます。

サンプリングレートと音質

　さてそれではこのサンプリングレートはどのくらいにする必要があるのでしょう？
　人間の耳は約２０～２００００Ｈｚ（ヘルツ）、すなわち一秒間に２０回から２００００回の振動範囲の音しか聞こえないということはたぶんご存じでしょう。ならば細かく分けるときに２００００ヘルツの音がほぼ再現できるぐらいに分ければ、それ以上はもう分けなくてもいいわけです。すなわち４００００ぐらいにしておけばいいわけです。

　このため最も高品質の音データ、すなわちＣＤの場合はＸ軸を１秒間を44100個に分割し、Ｙ軸を-32,768 ～ 32,767に分割したデータを利用します。
　しかしこれではかなりデータ量が大きくなるので、もっと音質を犠牲にして、たとえばＸを22050とか11025とか8000とかに分割することもあります。またＹの分割数も-128～127とすることもあります。
　このためＰＣＭデータの品質を表すのに例えば8bit-22050Hzというような表示が行われますが、これはサンプリングレートが22050Hzで、Ｙ軸が-128～127の値を取るようにして作ったデータという意味です。

　当然分割数を減らせばそれだけ音質は劣化します。しかし実際に本当にいい音が出るかどうかは、スピーカーやアンプの性能に依存します。現在のコンピューターに付属されているスピーカーやアンプはとてつもなくちゃちな物が多いので、そういうもので聞く限りは、サンプリングレートが44100Hzのデータと11025Hzのデータの差が分からないことがほとんどです。

ＭＰ３とは？

　というわけで、音をデータ化できたわけですが、ここでも前にビットマップのところで出たような問題が発生します。
　というのは、単純なＰＣＭの方式だとデータの量が莫大になってしまうのです。
　試しに16bit-44100Hzステレオ（これはＣＤの音質です）の１分間分のデータがどのようなサイズになるか計算してみると、

この意味は、１秒間が４４１００に分割されていて、そのおのおのに１６ビット、すなわち２バイトのデータが必要です。更にステレオなのでその２倍、１分間は６０秒ということで・・・

　これは１０ＭＢのサイズになってしまいます！！
　まあだからＣＤ１枚（６４０ＭＢぐらい）には７０分ぐらいの音楽しか入らないわけですが・・・

　でもやっぱり、たかが１分程度のデータに１０ＭＢは大きすぎますね。ということでここでもデータのサイズを小さくする必要があります。
　そのための手段としてもちろん、サンプリングレートを落とすというのも考えられますが、これは絵の解像度や色数を減らしたというのと同じで、本質的解決にはなりません。

　しかしここでもデータ圧縮技法が使えます。
　最近よくあるＭＰ３というデータフォーマットは、ＰＣＭデータをＪＰＥＧ画像と似たような方式で圧縮した物に他なりません。

方法その２：音の鳴らし方をデータにする

　音を表すにもメタファイルのような方法があります。すなわち音の鳴らし方をデータ化しておくわけです。その方法はちょっと考えればお分かりでしょう。すなわち楽譜をそのままデータにしてしまえばいいわけです。
　一昔前の主にDOSの時代には、ゲームのＢＧＭなどにはそれをそのまんまにしたようなＭＭＬというのも使われていました。例えば下のような感じです

E8.G8.AB->C+ D8.C+8.<B-AG A8.E8.DC+D E2A16E16B-16E16

　ＥとかＧというのは音名です。８とか１６とかいうのはそれが八分音符か十六分音符かを表します。ピリオドはそのまんま付点で、＋とか－がシャープやフラットを表しています

　しかし最近ではＭＭＬを使う代わりにＭＩＤＩを使うのが普通になりました。皆さんも名前ぐらいは聞いたことがあるのではないでしょうか？
　ＭＩＤＩというのも音の出し方をデータ化した物ですが、楽譜とは違って、キーボード（コンピューターのじゃないよ！）のどのキーがいつどのぐらいの強さで押されたかとか、ピッチベンドのレバーがどのくらい倒されたかといったような情報をデータ化した物です。
　例えば以下のような信号があります。


信号名	データ	説明
ノートオン	9n kk vv	ｎ番目のシンセでkk番のキーがvvという強さで押されたことを示す。
ノートオフ	8n kk vv	ｎ番目のシンセでkk番のキーがvvという強さで離されたことを示す。
コントロールチェンジ	Bn cc vv	コントロールとは様々なエフェクトがどのような強さで与えられたかを示します。エフェクトとは例えばモジュレーション（音を震わせる）ボリューム（音の大きさですね）パンポット（ステレオの場合音がどの位置に定位するか）などといったような効果のことです。
プログラムチェンジ	Cn pp	シンセは様々な音を合成できるところが取り柄です。当然内部ではこの音色には何番といった番号が割り振られているので、それを使って音色を切り替えます。
ピッチベンド	En ll mm	音のピッチをずらします。ロック系の音楽だったらこれがないと話になりません。

　ＭＩＤＩ信号は大体３バイトもしくは２バイト一組で情報を伝えます。

　ＭＩＤＩに対応したシンセは、上記のような信号を受け取ったらその通りに音を出すようにできているわけです。

　ところで上の情報には信号が送られる時間が入っていませんね。どうしてでしょう？
　ＭＩＤＩとは元々複数のシンセサイザーつなぐためのデータ規格として生まれました。現在のシンセは一台で例えば最大６４和音まで出せるとかいうのは普通ですが、初期の頃のシンセは一つが一時に一音しか出せなかったのです。しかし演奏をするためには和音が出せないと困るのは当然でしょう。そのために当時は一台のキーボードにたくさんのシンセをつないで演奏したのです。すなわち５台のシンセをつなげば５重の和音までが出せるわけです。

　ここで少し困ったことが起こりました。同一メーカーのシンセをつなぐ分には問題はないのですが、異なったメーカーのシンセをつなぐことができないのです。
　しかしミュージシャンというのは音にはうるさいのが当然です。どうしてもこのメーカーのこの機器と別なメーカーのこれを組み合わせたいという欲求は起こります。そこでシンセメーカーが協議して作った規格がＭＩＤＩ規格です。

　すなわちこの規格に対応したシンセ同士であればつないでも問題なく演奏ができるわけです。
　要するにもともとライブ演奏で複数のシンセをつないで鳴らすことが目的だったのです。だとすれば信号はリアルタイムに送られてくるわけだから、信号を送った時間とかは必要なかったわけです。

　それからしばらくしてパソコンが普及して、逆にこの情報に時間を加えて保存しておけばパソコンで曲が鳴らせるじゃないか！ということになり、これが実際に便利だったので現在のように普及していったのです。

ＧＭ規格

　ところでＭＩＤＩデータを扱う際によくＧＭ対応とかいうのを聞いたことはありませんか？これはなんでしょう？

　これは大ざっぱにいえば、音色番号と実際の音色の規格です。
　というのは、ＭＩＤＩ情報で異なるメーカーのシンセをつないで鳴らすことはできたのですが、ＭＩＤＩ規格には音色番号と実際の音色の対応の規格はなかったのです。するとどういうことが起こるかというと、あるシンセでは音色番号１番がピアノだったのが、別な機種では１番がバイオリンだったなどということが起こるわけです。
　ＭＩＤＩデータを持っていって他のシンセで鳴らしても、これではメチャメチャになります。
　というわけで音色番号１番はピアノ、・・・というような取り決めを作って、それに対応したシンセであればどれで鳴らしても同じように聞こえるわけです。

　しかし実際聞いてみるとこれが結構違います。それはシンセの機種が異なれば、音を発生させる機構そのものが違うためです。そのため例えば同じピアノであっても、何となく似ているけどやっぱり違う、ということにしかなりません。これはどこか一社のシンセが世界標準にでもならない限り、どうしようもない問題です。そんなことにはならない方がいいですしね。

　ちなみにその後ＧＳとかＸＧという規格も現れました。ＧＭだと音色数が１２８個しか定義されていないのですがそれでは全然足りないからです。両者ともＧＭの上位互換、すなわちその中にＧＭ規格を含んでいるので、ＧＭ規格に則って作られたデータは正しく演奏できます。しかしＧＳはローランド、ＸＧはヤマハが作った規格なので、拡張された部分には両者に互換性はありません。

→ＧＭ規格の音色表

ＰＣＭ方式とＭＩＤＩ方式の簡単な比較

　というわけで、二つの方式を簡単に比較した表を下に示します。


項目	ＰＣＭ	ＭＩＤＩ
データのサイズ	大きい	小さい
音のリアルさ	サンプリングレートによる	使うＭＩＤＩ機器による
再現性	何で聞いてもほぼ同じ	機器が異なると違った音になる
編集しやすさ	大変	楽
ボーカル	問題ない	ボーカルの入った曲はほぼ無理（最近ヤマハから歌えるシンセが出てますが）