Musical Balance

MUSICAL BALANCE

 これは結構難しい問題です。個人差や体調により聞こえ方が違ってくるのです。スーパー・ツィーターを追加する時のクロス周波数やレベルなどは一度の試聴では決められません。その存在を忘れられる程度が実は丁度良かったりします。

64万の法則と呼ばれるものがあります。スピーカーの低音と高音の再生限界周波数をかけて64万になったとき、バランスが良く聞こえる、というものです。誰により最初に言い出されたかは不明ですがPercy Wilsonが1957年に著したTHE GRAMOPHONE HANDBOOKの52頁に以下の文章を見つけました。

the Medes and Persiansはユダヤ民族が捕囚時代の帝国でその法律とは金科玉条(golden rule)を意味する。64万のルールはあくまでも経験上の目安であって絶対的なものではないことを最後に指摘しています。では何故このようなルールが言い出されたのかを考えてみました。以下のグラフはPercy Wilsonの記念碑的な著作1929年のMODERN GRAMOPHONE AND ELECTRIC REPRODUCERSにあるSP時代の録音特性並びに各時代のHMV sound-box(=機械増幅スピーカ)の周波数特性です。電気録音(Orthophonic Recording)された盤を当時普及していた普通のサウンドボックスで再生すると高域よりの再生音になって、低域が十分に再生できなかったので電蓄Orthophonic Victorola(イコライザー内蔵)が開発され、見合った低域を再生するためにホーンにも工夫がなされたとのことです。初期の蓄音機(サウンドボックス)は有名品でも相当な周波数特性の偏りがあった。下図HMVに見るとおり年代を追って(a1912 b1924 c1926 太線のd1928年)低域を補強しバランスの取れた特性になっています。録音特性(イコライザー)だけの問題では無いんですねーこれは現在の再生特性の好みの問題でもあります。好みのスピーカーがある=スピーカーの特性は今でも不完全で偏りがある。

私の仮説と推量は以下の通り:数字は概数です。通常録音の音楽レコードはテストレコードと違い限界特性を示すものではありません。例えば1930年発売のParlophone Frequency Test Record P9797は32Hzから4096Hzまで7オクターブで8音刻まれ、P9798は50Hzから7オクターブの6400Hzまで刻まれていますが、当時の電蓄では高低端を満足には再生できなかったでしょう。詳細はGRAMOPHONE1930年10月号にWilsonによる解説がありA面がP9797でB面がP9798からなるテストレコードでした。そのレコードに付随した注意書きは次の通り。anchorとあるのはarmatureとした方がよいとWilsonは解説しています。当時の電磁型ピックアップはMI型に属するbalanced armature別名rocker systemで録音にも用いられていました。このテストレコードのスポット信号は一般のピックアップではなくBuchmann-Meyer(1930)による光学的手法によってその速度振幅が測定されていたので正確でした。1958年のIEC98でも"Recorded velocity" is here defined as that determined by the Buchmann-Meyer light-band method.と述べられています。

 "Attention is called to the fact that, at the present time, the ordinary pick-ups or mechanical sound-boxes do not transfer the correct movement of the needle to the anchor of the magneto-electric pick-up, or the diaphragm of acoustic sound-boxes as the motion is partly transferred to the complete instrument, and in consequence the sound emission will appear weaker than the actual recording."

「刻めるか」と「音圧として忠実に再生できているか」は別の問題です。音楽録音はその問題の狭間にあることは現在も変わりません。対象となる再生機器により録音特性をいじるのは昔から変わらない手法のように思います。これは映像でも同じでブラウン管から液晶になって黒の諧調が少なくなり、映像製作側も深い夜や影の表現を避けているように感じられます(古いモノクロ映画や時代劇を見ると一目瞭然)。

Bass Treble TOTAL 私の仮説 (800Hzを中心にして高低端の拡大の歴史)
32 20000 640000 Modern LP:実際の録音では超低音はカットされる事が多い
40 x 16000 640000 Modern LP:上記の代案だが再生範囲としては現実に近い
50 12800 640000 Monaural SP & Monaural LP (1950年前後)
100 6400 640000 Electrical recording & reproduction of SP (1920年代後半以降)
200 3200 640000 Acoustic/Mechanical recording & reproduction of SP
400 1600 640000 Edison Cylinder?:800Hzから高低1オクターブ?

64万のルールによる音楽的バランスと各時代の録音再生限界とが奇妙に一致しています。だからこそ、今でもSPを聞いてもLPを聞いても周波数特性は違っているが音楽的にはアンバランスには聞こえないので、良い条件で再生できればどちらも楽しめるわけです。各時代の録音特性限界は技術的な観点だけから設定されたものではないことに思い至りますが、これは逆さまの理屈・牽強付会でしょうか。それとも、そのような録音特性と再生による音楽に我々が慣らされてしまっているだけなのかは分かりませんが。。。[慣れ→学習→偏向]  Harry F. Olsonもラジオやレコードの音に我々が慣らされていることを指摘しています(下記9.22(1)参照)。

冒頭に述べたとおり、高低のバランスは録音再生限界とは別の問題だと思います。私は低域寄りのスピーカシステム(A:50Hz〜15000Hz)と高域寄りのスピーカシステム(B:80Hz〜20000Hz)とを曲種により切り替えて聞いています(時にはA+B)。不思議なのはぼやけた録音と思っていたものを違うスピーカで聴くとピントが合い焦点が定まる場合がある。何々向けシステムというほど一般化・定式化するのは間違いだが各スピーカには大編成オーケストラvs小編成室内楽コンボに対して再生適否があると感じる(両方を満足に再生するスピーカは私はまだ聞いたことがない)ーこれは録音現場(大ホールvsスタジオ)によるものなのか又は視聴空間によるものなのかは分からないが、大ホール録音を狭い視聴空間に再現することは本質的に難しいのではないだろうか(音像の距離感)?音響心理学によると、高音寄りは前に出た印象で低音寄りは引っ込んだ奥行きのある音になるそうです。再生音量によって音楽の印象が違ってくる主原因は聴感ラウドネス曲線によるものと考えますー曲や録音環境に見合った最適音量があるようですが、その感覚は個人個人で少し違っているように思います。near fieldか広い部屋で聞くかポータブル機器でイヤホンで聴くか等再生環境を一律化しない限り、録音側の所謂loudness warなどの録音補正の存在理由はなくならないと感じます。
疑問:低音側再生は50Hzまでフラットなスピーカは少ないがフラットにした方が良いのか? @フラットでは混変調歪が多くなり音がすっきりしなくなる Aスピーカと壁の距離など部屋の特性 Bそもそもそのような低音をフラットに再生する環境に対して最適化した録音ではない(低音側再生能力が低い環境を対象にしている)。どうも古いレコード録音はBが支配的だったようです。再生側の問題と録音側の問題がリンクしているので一概に言えない。古いレコードにはレンジの狭い再生環境の方が良い場合がある。私たちが低音(ドン)や高音(シャリ)と呼ぶのはせいぜい100Hzや10kHzでトーンコントロールの中心周波数もそれに準じています。モノラルのジャズ録音や映画音楽では50Hz以下の成分は少なく、オルガン曲の一部ではその成分が録音されています。
因みに「狭い部屋では低音はまともに再生できない」といわれる理由は定在波(standing waves)の発生にあるようです。定在波の基本周波数は170÷壁の距離(M)例えば壁間5Mでは34Hzとその倍数の定在波が発生する。壁間3.4Mでは50Hzの定在波。壁間2.5Mでは68Hzの定在波。定在波の発生を抑えるためには後ろの壁をカーテンなどで遮音するのがよいそうです。床と天井でも同様です。床はカーペット等で防音した方が<癖のない低音>になるということなんですねー癖のあるroom noteを好む人もいますが。。。理想は平行面が少ないイビツの部屋でホールも天井が高く壁面は扇形になっているものが多い。長方形の部屋におけるNatural Modesについての式はLord Rayleighが1878年に発表していました。定在波があると主に低音の音圧が視聴位置によって変化するのです。スピーカに近いほうが低音の音圧が低くなる逆転現象も発生する。

下図は戦後の研究に基づく資料を編集しました。低域端と高域端は共に音圧が高ければその可聴範囲が広がる、ことを示していますが、普通の音楽に高レベルの超低音や超高音は含まれてないことは確かです。私見では16Hzや20kHz単一音では聞こえないが、複合音ではその効果が聞き取れるように思います。40Hz程度までしか再生できないスピーカでも20Hz以下のカットオフフィルターの影響は感じられ、超音波領域25kHz程度までsuper tweeterの効果が聞こえるように感じます。これまでの聴覚野の研究は主に単一純音によるものらしいが、複合音を使った脳幹反応の研究も期待されます。音楽の範囲を下端の可聴領域にまで広げた図が白水社1989年刊「図解音楽事典」に載っています(生音楽の範囲)。一方再生音楽範囲として設定する場合には下端は音楽とは無縁の雑音領域です。可聴域が凡そ20Hz-20kHzであることはベル研究所などの調査により1930年代から知られていました。

The Gramophone1936年1月号でWilsonが「ハイファイとは何か」で高い理想と課題を示しています:@全音域を放送再生するには20Hz−20kHzまで周波数特性を伸ばす。(オルガンと拍手を除く)通常の音声は50Hz−10000Hzに収まる。帯域内偏差は±1dB以内が望ましい。Aダイナミックレンジは語りで40dB,音楽では70dB程度必要なので再生する部屋の静音特性と容量に配慮する(録音時の部屋と同じ容量の部屋での再生が望ましい)。B許容される歪は実演と直接比較して5%以内、記憶に対し10%以内。歪が3次高調波主体の場合、それぞれの半分が許容値。高音域が広いほど振幅歪も明確になるので、再生帯域を5000Hzまで狭めれば歪が15%程度あっても聞き取れない(実演と同等)。C再生はバイノーラルであること。そうでないと再生がクランプされる。多チャンネル収録・再生にはそれぞれのチャンネルが上記@ABを満たすものでなければならない。補足として:収録スタジオ環境と再生部屋環境の反響時間が異なるとバランスを崩しやすい。現状の結論は「正確な再生は不可能」。一方で人が音楽を聴くとき求めるものは、その正確さではなく審美的刺激である。計測機械と違い人間の感覚の許容値は幅広いのでイルージョンとして音楽は楽しめ凡そ5段階の感覚尺度になる: Delightful歓喜, Comfortable安楽, Tolerable程程, Uncomfortable不快, Intolerableもう無理 
注1:上の文章で記録(record)ではなく記憶(memory)と書いていることが意義深いーそれほど記憶(音量も含め「こんな音だった」或いは「こんな音ではなかった」)は曖昧になる。実演と再生の直接比較は交互に任意に切り替えて比較したケースでしょうか。一曲ごとの比較では既に記憶の領域になるので1950年代LPやテープの再生と実演を比較してもはっきり区別できなかった事が報告されています。
注2:Wilsonのいうバイノーラルはステレオと同義です。1930年代は当然モノラルでone speakerの再生だったはずですからsound stageがモノラルでは狭まる(clamp)のは当たり前です。将来のステレオ又は多チャンネル再生を理想として挙げていると思われます。

2018年4月追記:diyAudioの投稿によると英国のJames Duguid MoirのHIGH QUALITY SOUND REPRODUCTION(1958年初版の81頁)で40万の法則に言及し、彼自身は75万を提示し中心周波数は860Hz〜870Hzとし、高低端の積は40万〜75万の間にあるべきとしている由。当時ラジオの時代から戦後のハイファイ(ステレオLP前夜)への過渡期にあたり各オーディオメーカー(pickup & amp & speaker system)への開発要求にすぎなかったのではないでしょうか? 現在の比較的平坦なtweeterと違い可聴域に共振ピークを持ったtweeterが過去に多くあり、誇張した耳障りな音がしたことも事実でWilsonは以下の文章で”nasality or piercing top notes"と指摘しています。BTH=British Thomson Houston社所属の技師Moirは映画音響設備に造詣が深く、Wireless World Oct.1957て家庭でもスピーカセットの並列配置(現在一般化された方法即ち2台のスピーカを正面に向け離して設置*注参照)を推奨しました。Wireless World Nov.1956では"Stereophony in the Home"の題名でステレオテープの再生について寄稿していました。ステレオ盤に先行してオープンテープによるステレオが誕生していたんですね。
この
奇妙な神話の中心周波数を計算すると64万の平方根が800Hzで、40万の平方根は約632Hzで、75万の平方根は約866Hzです。中心周波数は機械的な1kHzではなくフォノ・イコライザーのターンオーバー前後にある。それらの数字に科学的な意味はありません。数学的な意味は:低音端Lに或る数kを掛けたもの=中心周波数=高域端Hを同じ或る数kで割ったもの(Lk=center frequency=H/k)という条件での中心周波数はSQRT(L x H)になる。一方で音圧域(spectrum)は再生する音楽の内容により変わるはずです。右手がない人にバランスが良くなるからといって左手もなくしたらと言うのは理不尽です。

*注:ステレオを導入するにあたって「スピーカを正面に向け離して設置」か「内向きに設置してそれぞれのスピーカの軸上で聞く」かなどいろいろ議論や検討が行われました。現在の録音手法は「正面に向け離して設置」を前提にしているようです。内向き設置だと音は広がりますが主に高音の定位に違和感(スピーカの外側から聴こえる)を感じることがあります。


再生周波数範囲の狭窄について

Harry F. OlsonのMusic, Physics and Engineering (Formerly Titled MUSICAL ENGINEERING) second edition 1967は1930年代から1950年代にわたって自他の研究内容を積層的に記述した面白い本です。9.23:FREQUENCY-RANGE PREFERENCE FOR STEREOPHONICALLY REPRODUCED SPEECH AND MUSICの一節です。意図的な再生周波数範囲の狭窄の例として、低音端と高音端の積として500,000(cycles^2)を示しています。それぞれの数値は明記されていませんがラジオや電蓄としては100Hz-5000Hzが妥当なところで、これは当時の一般的な再生実態を指しているようです。これも1957年なのでカットオフの積を示すのが当時のスタイルだったのでしょう。スピーカは何デシベルまで減衰したところを周波数帯域とするかについて共通規格がない。-10dBまで許容すればBカーブの再生帯域は100Hz-5000Hzあたりになる。図のBカットオフは急峻過ぎ(約34dB/Oct)普通フルレンジはフィルター無しAカーブのように低域端は12dB/Oct程度で減衰します。Aカーブ帯域35Hz-17000Hz-10dB(-6dB基準でのLC1Aの規格は50Hz-15000Hz)は今も通用する性能です。50万の平方根は約707です。フト思いついて周波数特性表に使う片対数方眼紙を手にとって凝視しました。片対数方眼紙上各高低のcutoff周波数の距離的に真中が中心周波数になるので計算機を使わなくとも中心周波数が求められます。例えば下図で80Hzx8000Hzの場合の中心周波数は数値が示されていませんが縦傍線の800Hzです。これは対数の性質から既知の事なのでしょうが私はこれまで気が付きませんでした。計算尺も対数を応用したものだったんですね。
因みに「スピーカーは変換機としては非常に低能率の機器で能率を出力レベルで換算すると1%の能率が約92dB/W、2%で約95dB/W、4%で約98dB/Wということになる」とHI-FI STEREO GUIDE 1976で解説されています。アンプから供給される電力の大半がボイスコイルで無駄に消費されているんですね。最近の低能率スピーカー(85 dB/W)では約0.2%しか音圧に変換できていない。真空管アンプの効率の比ではない。 特に振幅の大きいWooferではギャップにより高能率は実現しにくい。dynamic speakerの構造は基本的に変わらない。 In 1925 Edward W. Kellog and Chester Rice developed coil-driven (dynamic) paper-cone speaker. スピーカーの能率とアンプの所要出力についてはAUDIOTOOL(エクセルファイル)のdB換算シートを参照ください。

再生装置の平均的な周波数特性について下図が示されています。各媒体の潜在能力とは別に各再生装置による制約も分かります。Table Model Radio Receiverの帯域は凡そ100Hz-5000Hzになっています。Phonograph(電蓄)はDisc Record(レコード盤)の再生装置を指しています。

sound-reproducing sytems

モノラル時代の再生帯域の好みについては以下の図版(P.392):比較的狭い再生周波数帯域の方が好まれる傾向を示しています。

1947年頃のモノラル再生について同書より

1930年代に英国グラモフォン誌で(発展途上で改良の余地がある)電蓄をP. Wilsonは推奨したが、(洗練され完成された)サウンドボックスによるアコースティック再生の方が周波数範囲は狭いが音が良い、電蓄の高音は作り物、という批判がありました。特にヴォーカルやバイオリンなどでは今でも当時の電蓄よりはサウンドボックス再生の方が音が良いと感じます。録音及び再生上ハイファイが達成できない場合には再生周波数範囲の狭窄が有効だということです。サウンドボックス箱の共振が音を豊かにするのでハイファイとは無縁のものだが、そのサウンドに魅せられる人は今もいる。塩ビレコード盤も高低の共振や高調波歪が音を豊かにする傾向がある。 真のハイファイは未だ生まれていない(無垢の)子らに委ねましょう。所謂オーディオ的なものが終わった時に真のハイファイが生まれる。現在はその一途上。 30年ほど前バイオリンの独奏にマイクとアンプをつけてスピーカから出た音を聞きました。不適切なマイク設定と再生装置だったのか、アコースティックと比べるとガリガリザワザワしたエレキギターみたいな音で驚きました。キリギリスの声を自分で録音したときも、生と比べ物になりませんでした。流石にプロのエンジニアさんが収録し補正したLPやCDではそれほど違和感がありませんが、実演と比較するのは酷だと思います。LP誕生当時実演と再生を比べて違いがなかったというのは人の耳がそれほど正確ではない(許容範囲が広い)ことの証左です。公園での素人のギターやラッパの音は稚拙ですが前に出る力強さや音の拡がりはスピーカで聴く音(イルージョン)の比ではないことをずっと感じてきました。再生音を大きくしても実演の静かな力強さに及ばない。

基音(fundamental)とその高調波(harmonics)についてOlsonは以下の図版を示し次のように解説しています:"The important factor in the comparison between Figs.6.1 and 6.2 is the great extension of the frequency range when the harmonics are included." 足音(footstep)や暗雑音background noiseに含まれる部屋雑音まで記載しています。


音の歪(欠落と誇張)について

周波数レンジの狭窄も歪みの一部ですが、基音(記譜音)のレンジは元来相当に狭く(最も広いパイプオルガンの平均律16Hz〜4186Hz)、それぞれの楽器の音の違いは主に倍音の分布と強度の違いです(一部の楽器例えばグラスハーモニカでは基音より数次上の倍音の方が大きい)。ハープとピアノは似た基音音域を持ち多くの楽譜を共用できますが、その演奏音の違いは明らかです(他の楽器と比べてもパープ及ハープシコード・チェンバロは倍音成分が圧倒的に多い)。複合音からなる音楽を聴くとき、欠落したあるべき音(倍音や和音)を脳内で或る程度補間する働きがあるそうです。常に補間を強要されるような再生システムでは脳が疲れますねーそれがイルージョンとしてのオーディオにおける聴き疲れではないかと思います。自然な音には疲れを感じないのです。逆に騒音には気にならないように脳にフィルターがかかる便利な仕組み(パチンコをしているときや運転中の自動車のエンジン音)。Percy Wilsonは以下のように記述しています。

'comb and paper' とは子供遊びの笛(Kazooの一種)で日本で言えば草笛といったところ。そのハミング音が面白いのでビートルズやジミーヘンドリックスの曲に効果音として使われたこともあったそうです。誇張が多い音は一聴印象的に聞こえるが長い間には受け入れられないものになる。録音や再生の不備(low fidelity)をhigh-fidelityに装うトリックもありました:例えば1963年頃のFairchild DYNALIZER (automatic dynamic equaliser to produce "apparent loudness" automatically)  や COMPANDER(compress & expand)など。それらは映画音楽やBGMなどの雰囲気・効果音楽の製作視聴には効果的です。我々には「こけおどし」に弱い体質がある。


演奏音量と再生音量の関係について

レコード盤の場合そのまま録音し歪みの無い低い音量で聴くと物足りなく感じることがあります。それを補正するためにフレッチャ・マンソンカーブと呼ばれるラウドネス曲線に基づいて周波数バランスをフラットではない方向(圧縮compression拡大expansion)で録音することが多く試みられました(RCAのRichterによる米国特許3229038参照)。しかしながらそのようなレコード音源を大音量で再生したらバランスが崩れたものになってしまいます。レコードの器楽コンチェルト録音はピアノやバイオリン独奏部がオケに比べてオンマイク気味で強調されすぎて実演のバランスとはかけ離れていることが多い。最近のCDの素直な録音の方が実演のバランスに近いのですが、レコードを聴きなれたオーディオ耳には物足りなく聞こえたりする。再生音量によってそのアナログ盤の印象が変わる経験を持たないオーディオマニアは居ないでしょう。幾つかのアンプにはLoudnessポジションが付いていますが、大音量で圧縮音源を再生する時には逆ラウドネス・カーブを持ったトーンコントロールが必要になりますね。一般にvolumeをあげるとloudnessがキャンセルされる仕組みですが市場のスピーカの感度が85〜95dBとばらつきがあるのでloudnessの使用は限定される。再生音量にも正解なし、ただ個人の裁量によるのみーこれは音楽の種類(小編成の室内楽曲vs.オーケストラ曲)と再生する部屋(容量とdead or live)によると思っています。「演奏音量は再生音量より一般に高いレベル」と私は思い込んでおりましたが、その反論となる興味深い文章をPercy WilsonのTHE GRAMOPHONE HANDBOOK(1957年発行)で見つけたので以下紹介します。オーディオ好きな殿方が大音量で再生しがちなことを揶揄しているようです。確かに、そのようなオーディオはご婦人達の受けがよろしくありませんね。録音レベルについてはLPでは一定の範囲に収まるようですが、SPでは盤により録音レベルの違いが大きい印象を受けます。Gilbert Arthur Briggsはスピーカーで有名なWharfedale Wireless Worksを興した人で1950年代"Live" versus "Recorded" Soundを掲げていろんなホールで実演とレコード/テープ再生音の比較デモンストレーションを行いました。Royal Festival Hallの興行は1954年11月、2回目が1955年5月、3回目が1956年5月で1955年10月には米国カーネギーホールでも開催しました。因みに高城重躬「音の遍歴」(1974年)P.136以降にヤマハホールで1953年8月30日開催された山葉レコード・コンサート第一回プログラムほか各地ホールで1958年頃まで続いたレコード・コンサートの盛況を述べP.146「それが近ごろでは無料で、それも景品でもつけないとさっぱり集まらないらしい。それほどFMやレコードが家庭に浸透し、わざわざホールに出かける必要がなくなったのである。まことに結構なことである。」と締めくくっています。戦争が終わってやっと人心地が付き、音楽に飢えていた時代は英・日共通のようです。余力があり豊かな米国ではさほどの盛況にはならなかったようです。

Briggs氏の1955年10月米国カーネギーホールでのデモンストレーションについてWireless World同年12月号に次の記載があります。"from Missouri"は成句で”証拠なしでは信用しない疑い深い”人の意味です。"One significant reaction was a widespread disbelief in the indication of the neon instantaneous power level meters. With amplifiers rated at 50 watts and upwards being widely advertised for use in the American home, it seems incredible that Carnegie Hall could be filled with realistic sound on some items with peak power of 5 watts or less... We can sympathize with our friends "from Missouri" but we can also reassure them that indeed they "were shown" - as we were in the slightly larger Royal Festival Hall." 1954年11月のRoyal Festival Hallでの興行(三千人入場)については1954年12月号に詳細報告があります:ピークメータを監視すると極稀に15Wレベルに達しオルガン独奏で3W程度だったが、予期せぬところで60Wレベルのランプが明滅したーそれは音楽と無関係の超低周波雑音で真空管アンプ(QUAD IIを4台並列接続)への過負荷が原因ではないかと私は思います。無響室と違いホールや一般の部屋では距離が倍になっても余り減衰しないことが知られています(反射の影響が大きいので逆2乗の法則inverse square lawが成り立たない)。音響学によれば、コンサートホールの普通の席では指向性が弱まりどの席でもほぼ同じ音量が得られるそうです。通常の部屋で2.5M以上スピーカから離れて聞くと反射音と直接音のレベル比は2:1以上になり反射音の音圧レベルが圧倒的になります。これは悪いことではなく歌声などは反射音がある程度ないと豊かな音になりません。

聴取者の資質(一般男女/エンジニア/音楽家)とプログラムの内容による音量の違いについて放送の観点から調べた面白い報告が英国WIRELESS WORLD 1950年12月号に載っていました。プログラムの変わり目の音BOW BELLSはLondonのEast End地区にあるBow Church (St. Mary-le-Bow)の鐘の音ですが、それが耳に付くそうだ。好ましい音の大きさの傾向:鐘の音<語り<音楽の順。男女差はさほど違いが無い反面、好みの音の大きさは職業によることが大きいことが指摘されています:つまり音を聴く姿勢(どう聴くか)により好みの音量は変わるようです。プログラムエンジニアだけ男女差が顕著です。プログラムエンジニアというのは放送上のMusical Balance(ピアノのパートが弱いとか全体に音のバランス)をチェックする役目を負った人々でした。1961年出版「英国放送史」第1巻(放送の誕生)79頁"we have to face immediately several problems requiring solution by acoustical rather than electrical experts" "No two engineers have the same idea of musical balance and not being on the spot it is difficult for them to say whether the amount of piano coming through is correct or not" と1922年の事情について綴られています。BBCの委託を受け、歴史家Asa Briggsは5巻の大著を出版。

オーディオ的な音(インパクトのある音)というのがあります。若い人から紹介されたフィストラーリ指揮ポップなクラシック曲(くるみ割り人形等)ではメリハリがありますが奥行きがありません。オーマンディ指揮の同曲はニュアンスが異なり地味ですが滋味があります。音楽では指揮者とその音作りやバランスが支配的な場合があります。オーディオ的な音と音楽構成の違いでしょうか?どちらが上等かを言っているのではありません。演奏家についても演奏とは解釈(interpretation)なのだということをWalter GiesekingやBackhausによるモーツアルトのピアノソナタを聞くたびに感じます。彼らは一般にはモーツアルト向きではないと思われるのですがその演奏は音楽自体が持つ美しさを際立てているように思います。古いアナログ録音盤は協奏曲の中で独奏者の音を大きめに際立て過ぎている場合も多くあり、実演のバランスとかけ離れた録音もあります(高名な器楽奏者の場合にありがち)。実演ではチェンバロなどは独奏部分しか聴こえないのが当たり前なのですが。。。
音質(sound quality)と演奏内容(performance)は相反すると言った人がいます。実演を含め音は良くてもつまらない演奏があり、一方では音は良いとは言えないが感動する演奏やレコードがあります。Beetlesのレコードは音が良いとはお世辞にも言えないが内容はケチをつけがたい。カザルスが演奏するバッハ曲はカザルスの身体と分けがたい音楽になっていると感じます。まさにカザルスを通してバッハが語りかけるような演奏(intimate play)です。客観的にはもっと良い演奏があるはずですが、intimate playとして感じられ忘れられない演奏はむしろ古いレコードに残されていると個人的に感じます。Joseph Szigetiが演奏するバッハのバイオリンソナタもそれらの一つです。音質と演奏内容、言い換えれば音の美しさと音楽の美しさは共存できるのか?


レコードの音がソフトだと感じる人は耳が老化しているか?

最近レコードの音がより滑らかに聞こえます。若い頃煩いと感じたMalcolm演奏バッハ・チェンバロ作品集(Stereo LP)や面白みを感じられなかったThe Genius of Bud Powell(モノラルLP)がバランスよく聞こえるのです。

老化により高域が聞こえにくくなるのは良く知られたことですが、高域が不足しているとは感じません。むしろ5kHzあたりの高音を低くしたいくらいに感じます。これは私だけでなく他の同年代のレコード愛好家からも指摘されました:「高レベルの高音は要らない」。テレビアニメの効果音の一部や地震の警戒音は3kHz程度でしょうが耳についてしょうがありません。これはどういうことなのか? Olsonの本に示された等ラウドネス曲線(耳の感度の等高線)に見る通り3kHz〜4kHzあたりが耳の感度が高いので警戒音に使われています。低音部は特に感度が低いので聞き取るのにある程度の音圧が必要になるんですね。人間の耳は測定器と違い元々HI-FIに作られていない。何故3kHz〜4kHz近傍の感度が高いのかは生存にかかわる音(捕食者や獲物が現れた時の草葉のこすれる音あるいは上からの風を切る音)だったからではないかと私は考えています。私の場合、外耳道の中間あたりがへの字型に狭くなっていて横方向のスリット幅も左右で広さが違います(人により年代により外耳道の形は変わるらしい)。先ごろ綿棒で擦りすぎて耳を痛めたので耳鼻科にかかりましたが、光ファイバーによる外耳道画像や二種類のヘッドフォンによる(周波数/骨伝導)聴覚テストやクリーニングもやってもらいました。分泌液によって耳垢は自然に外に向かって押し出されるので分泌液をむやみに綿棒で拭き取らないほうがよいそうです。

SeashoreのIn Search Of Beauty In Music - A Scientific Approach To Musical Esthetics (1947年初版)に次の図を見つけました。太い横線0dBを若者の聴覚の標準として以下中年や老年の聴覚損失について報告しています。基音が聞こえるだけで多くの高域倍音成分が聞き取れません。注目すべきは、高域が聞こえないだけでなく基音の聴取レベルも低くなっています。幸いにも私の周りは静かな環境なので、若い頃よりも再生音量は小さくなっていますが音圧を上げる必要は感じません。テレビの音も同様です。聴感は環境に影響され、静かな環境では低レベルの再生で十分に感じられ、車のタイヤの地擦り音など暗雑音がある場合には大きめの再生音が必要になるようです。
高域ロスにも個人差があるようで、聴覚レベルの低下(基音部)と周波数領域の狭窄(倍音部)は同時に起こるわけではないようです。障害者は健常者と異なり一人一人がそれぞれ独自の障害程度を持っています。オーディオの世界では老人は聴覚障害者扱いされるようです。スピーカーユニットを交換したついでにテストCDで周波数特性を測って見ました。一応40Hz〜10kHzまで聞こえました。10kHzはやっと聞こえる程度です。30代には13kHz程度だったので、下の図ほど顕著ではないですね。ゆっくりした劣化と脳内の補正のせいで今まで気が付きませんでした。現在20kHzクロス(-6dB/Oct)のスーパー・ツィーターから聞こえる音はより低い帯域からの雑音だと言うことなんですね(フルレンジスピーカーの高域でのインピーダンス上昇に対する補正にはなっています)。高域を補正してブーストしてもあまり意味がない:より低い帯域にまで影響を及ぼし煩いだけになる。

同じ本の188頁でSeashoreは述べています: Differential hearing. "It is a well-established fact that, in an average audience of intelligent people, some may be particularly sensitive to any one of the four attributes (pitch, intensity, time, and timbre), and at the same time be relatively insensitive to any one or more of these four basic capacities. The result is that each person hears music according to the peculiarity of his own ear. This is analogous to color blindness. A most interesting phenomenon musically in this respect is presbycousis which may be translated as old age hearing". 因みに絶対音感についてもSeashoreは報告しています:演奏家を調査すると演奏家の親を持つ子供が絶対音感を持っている例が多いが、それが創作・演奏・聴取にどれだけ関係するかは分かっていない。絶対音感を持たない優れた演奏家や音楽家も存在する。一方で女性に演奏家は多く居るが大作曲家が居ないのは何故か等も論じています。もともと備わった能力(talent)の問題なのかそれとも女性の社会進出が遅れていたせいなのか、興味が尽きません。normal illusion of hearingについても数ページ解説しています。Seashoreは最後の35章でWHY WE LOVE MUSICの問いに対して1940年の自稿からの心理学的回答を転載しています。分かりやすい結論(handy conclusion)だけを求め、自分で考える習慣のない人には面白く感じられないかもしれませんが、いろいろインスピレーションを与えてくれる本です。

余談ですがオーディオは男性しか興味を持たないのは何故でしょう?音楽や香道など他の趣味の場合は本質的に男女差はありません。女性が機械や理屈が常に苦手というわけでもありません(女性の家電・オーディオ評論家はいます)。「男性はロマン(狩/未だ得ぬもの/抽象)を求め女性は現実(既得物/具象)を求める」とも言われますが本当にそうなのでしょうか?収集癖は男女ともにありますがその対象と仕方は異なります。オーディオのイベント会場で男性に連れられている女性のなんともいえない居心地の悪さを表す表情が忘れられません。再生音量については女性の方が一般に小さく、大音量には抵抗がありオーディオ好きな男性の再生音を煩く感じるのは事実です。桃山時代「わび茶」を興したのは男性で現在確立された茶道にいそしむのは主に女性です。書家は男性が多く書道を教えるのは主に女性です。歌舞伎やシェークスピア劇が男性だけで構成されていたのは単にその時代のせいか、それとも本質的な原因があるのかー結論のないお話でした。

「レコードの音がソフトに聞こえる」のは前記の「周波数の狭窄」によりバランスが良く聞こえるのと同じことで、ある意味「周波数特性の狭窄」の効果を傍証しています。音源が別の場合、古いレコードの方が新しいCDより音が良い、というのも『周波数の狭窄』もしくは『老人の聴覚』で説明が付きます。実際にはどのフォーマットの音もillusionなので、どちらが好みかの問題です。つまり楽しめるのはどっちかであって、音楽の質を問うものではないようです。老人と若者の聴覚の違いによっても好みの音楽のジャンルやフォーマットが異なるわけです。私が思うに「年を経るに従い段々古いフォーマットの方を愛好する」傾向がある。目新しいからといって若者がレコードに飛びついたとしても、本当に楽しめるかは疑問です。私にはCDと同音源の新譜のレコードを買う意味が全く分かりません。最近新譜のレコードが出ているそうですが、若者のトレンド(マーケット)におもねっているだけのように思います。

老年の指揮者による演奏が素晴らしく感じるのは何故でしょう?楽器の演奏者が未だ若くよく音を聞き分け、且つ器用だからでしょうか?逆に若年の指揮者が老人からなる楽器奏者達を指揮したら散散なことになりそうですー実際にそのような光景は見たことがありません。器楽や声楽の演奏家が後に指揮者に転向する理由が分かります(アシュケナージやバレンボイムなど多数例)。

何故老年でも音楽を楽しめるのか?音楽の何を楽しんでいるのか?つまり音楽の本質は何か?誰も現象を見るだけで真の答えを知りません。

若い頃より再生音量も小さくして聴くようになりました。若い人に訊いたら映画館の爆音が気にならないようで、彼らの再生音も一般に大きめのようです。私は20年ほど前から映画館(特にDolby System)の音が耐えられなくなり行かなくなりました。

20年ぶりにCDPを買い替えたところ、デジタル臭がない自然な音に驚きました。CD発売当時から何か変な感じ(いかにもHI-FIですよといったデジタル臭?)が鼻につき、いい音と感じたことはありませんでしたが、どのCDもそれなりに良い音に聞こえます。これはCDP(DACのICチップ)の進化なのか、それとも私の老化した耳のせいか?ある人はCDPのICチップがここ数年で進歩しやっとCD本来の音が取り出せるようになったと言いますが本当でしょうか?それでは30年以上前デジタルだから音が良いハズとして推奨した評論家先生の耳やメーカーの主張は何だったのか?頭の中のバイアス(should-be bias or expectant bias)はどの時代にもある、と実感します。そのバイアスを利用したご商売が繁盛する。

自分の耳の特性に配慮しないで、どれが良いとかワイワイやるのがオーディオマニアの通例です。測定・収集・理論・メーカーの能書きや評論家先生の言説の鸚鵡返しなどそれぞれの分野に執着する人がいます。 即ち何が本質かを考えずより上質の錯覚を求めている。Everyone is seeking "superior illusion for oneself" in this hobby. 機器の単独特性よりも再生する部屋の音響や個々の耳の特性の方が重要ですがそれらに配慮や疑いを持たない人が多い。現在オーディオ再生機器は平均的な性能の物でよいと思っています(カートリッジも丸針で十分で安上がり)。私の経験では古いレコードを特殊形状針で再生するとき、内周側で高域と低域のバランスが崩れ、煩く感じられることが多くありました。最近は丸針しか使わなくなりましたが、耳の老化のせいもあって内周の音質劣化がさほど気にならなくなり、レコードの再生音がより滑らかに聞こえるようになりました。私もいろんな機器を試したり測定したりオーディオ本を読んだりHPにいろいろ書き散らして私の錯覚を追及してきましたが、そろそろいい加減にします(虚心坦懐に音楽を楽しめる幸せを感じる毎日です)。最近は機器を変えることによる音の変化よりも機器を変えなくとも一回一回の再生の印象が変わることが多いと感じられますので私はレコードの再生はLive Performanceだと思っています。再生音がいい時もあれば悪いと感じられる場合があり、今日は如何かなと期待と不安を懐いて聞きます。日々の体調や環境によるものが大きいと感じます。

『聴覚のイメージ』と逆ラウドネス曲線(reverse loudness curve as hearing characteristic)

逆ラウドネス曲線とはラウドネス等高線を上下反転したもので、人間の聴覚感度特性(周波数特性)を表します。音圧レベルが低いと高低端のおちこみが大きくなります。数字が反転して見にくいですが、それぞれ1kHzを基準として上から20/40/60/80/100dBでイメージとしてみてください(正しくは並べ変えすべきだが面倒)。近年のラウドネス研究(ISO 226-2003)では中音域の盛り上がり(溜め)はなく1kHzから低域に向かって感度が下がり続けており、下図より更に低音は聞こえにくいとされています。

次に聴覚野の図の音楽の範囲に注目してください。遠目に見るとイチョウの葉か扇のように見えますね。上部は丸みを帯び扇の要に向かって尻つぼみになっています。10kHz以上が音楽(従来のクラシック音楽)に含まれている音圧レベルは約20dB〜60dBです。下図では音楽のピークが約100dBで周波数範囲も35Hz-13000Hzに狭められています。興味深いのは高域ロスよりも低レベルでの低音の狭窄です。人間の聴覚感度特性はフラットではないので上図のように低音ロスのほうが顕著です。再生音圧をある程度上げるとガラリとバランスが変わるのは主に100Hz前後の低音の聴き取りによるものなんですね。 山本氏の本で紹介されているクラシック音楽のスペクトラムのピークも聴覚野における音楽のピークと一致しています。
Olsonの本9.16 FREQUENCY AND VOLUME RANGE OF SPEECH AND MUSICにベル研究所が1934年発表した聴覚野の図が紹介されており、同様の傾向(聴取中心音圧60dB-65dB程度で声は±20dB, 音楽は±35dB前後)を既に示しています。

「可聴域が凡そ20Hz-20kHz」というのは特定条件下での最大範囲(お題目)で実際に聞こえている周波数範囲は(老年の高域ロスを排除しても)元来かなり狭い。従って前述の「再生周波数範囲の狭窄」があっても音楽が「普通に聞こえている」と感じるわけです。50dB-80dBで中心周波数を見ると600Hz-800Hzです:これが奇妙な神話の種明かしか?往々にして見かけの数字(お題目)に注目してその数字の背景を見過している。見れども視ず、聞けども聴かず、自分に都合の良いところしか気に留めず、都合の悪いところは無視する傾向があります。図を初めの方に示したのにその意義に気づかなかった私自身への叱咤です(8年も経ってしまいました)。

白水社「図解音楽事典」dtv-Atlas zur Musik(1989)19頁に次のような解説がありました(一部翻訳を編集):「脳への伝達:30000の神経線維が電気パルス(各繊維ごとに900ヘルツまでの所謂<活動電位>)によって1500の音高差と325の強さレベル、つまり約340000種の値を基底膜上の場所から聴神経をへて脳に伝達する。そのさい、全パルス周波数の総和がラウドネスを形成するのである。」 1500*325=487500です。何処かの電位の欠落を見込んで34万としているらしい。

可聴範囲は上図で16Hz-20kHzになっていますがその高低端は既に音楽の領域を離れ痛覚に属します。図解音楽事典では次のように解説しています:「有害限界:75フォンで短い不快感、90フォンで継続的不快感、痛覚域値は130−140フォン、ラウドネスの感覚の固有尺度はソーン(sone)で、1ソーン=40dBにおける通常音のラウドネス、2ソーン=その2倍の強さ、などとなる。ラウドネス感覚は時間にも左右され、音の強さを完全に聴きとるまでに0.2秒,聴こえなくなるまでに0.14秒かかる。2分後にラウドネスは10dB下がり(順応)、その後はほぼ一定である。ときにはコルチ器官内での順応によって、また外リンパ内での機械的な振動の影響によって、1つの聴取過程が他の聴取過程を消し去ることもある(マスキング)」  図解音楽事典の聴覚野の図(18頁)は最低値を0dBとして作図し10dB上方向ズレているので「痛覚域値は130−140フォン」としていますが本文(19頁)の記述「1kHzが聞こえなくなったときを0フォンと定義する。そのとき鼓膜の音圧は20μPa(=0dB)」と齟齬がある。各文献は注意して読まなければならない。20μPaはOlsonの本(CGS単位系)では”0.0002 dynes per square centimeter of a free progressive sound wave of 1,000 cycles per second”でHarvey Fletcherの原記載(1938年米国音響学会誌) 0dB=0.000204 dyne per square centimeterも引用されています。 

ところで<正常な聴覚><平均的な聴覚>ってどうなんでしょう?人選方法や音源(単一純音なのか複合音なのか)はどうなっているか具体的な説明に乏しい。ISO 226 Acoustics -- Normal equal-loudness-level contoursは2023年現在改定されており、そこではpure tones/binaural/listeners are otologically normal persons in the age range from 18 years to 25 years inclusive等とされています。otologyのoto-は音ではなく「耳」を意味するギリシャ語から。正常な聴覚年齢が微妙です。研究者の周辺の大学生や研究生を被験者にしたのか。18歳以下は自己責任がないので痛覚領域は試せませんね。実際最近の研究では高レベル域を省略する傾向があります。25歳以上からの身体劣化は生物として当然。

ISO 532はラウドネス計算法、ISO 226はラウドネス等高線を規定しています。ISO 226改定:Robinson-Dadson(1956)に準拠したISO 226(1987)→多くの研究者が400Hz周辺のウネリは不自然と指摘したことを契機に日本の研究者が主導し1983年以降のデータを基にしたISO 226(2003)→ISO 226(2023)。2023年草稿は2003年と大きな違いはないようで、標準normativeを参考informativeに変えるなど近年のコンプライアンスに準じた表現になっているようです。全人種・全年齢の平均ではないのですからあくまでも参考データです。


The process of my thinking on musical balance is as follows:

Occasionally I heard some rules about 400000 cycles^2 etc as suitable reproduction range for speakers to get good musical balance, but I was not interested in such myth.
The xxx cycles^2 is the product of lowest reproducible frequency L and highest reproducible frequency H. The center frequency = SQRT(LxH) according to equation: Lk=center frequency=H/k.  SQRT(400000) is around 632Hz, SQRT(500000) around 707Hz and SQRT(640000) 800Hz and so on. I think 400000 cycles^2 is determined thoughtlessly by 20Hz and 20kHz as conventional hearing limits.
In 2014 THE GRAMOPHONE HANDBOOK by Percy Wilson (1957) was presented to me by Mr. Jean HIRAGA and on page 52 I found the old source of this mystery as 640000 cycles^2.
I correlate this rule with the history of analog records (cylinder/mechanical reproduction of SP/electrical reproduction of SP/monaural LP/stereo LP).
Bass Treble TOTAL Assumption (History of Frequency-Range Extension from 800Hz)
32 20000 640000 Modern Stereophonic LP:Usually Lowest Bass is cut off
40 x 16000 640000 Modern Stereophonic LP:Alternative of above, near to actual conditions
50 12800 640000 Standard Play (coarse groove) & Monaural (fine groove) LP around 1950
100 6400 640000 Electrical recording & reproduction of SP since the end of 1920s
200 3200 640000 Acoustic/Mechanical recording & reproduction of SP
400 1600 640000 Edison Cylinder?:One octave from 800Hz?
Next I looked into my reference book written by Olson: Music, Physics and Engineering (Formerly Titled MUSICAL ENGINEERING) second edition 1967. I found the corresponding pages there too as 500000 cycles^2 for instance. Olson indicated frequency-range preference by narrowing the range of reproduction similar to old record and radio sound.  He showed test data of frequency-range preference narrow/medium/wide in speech and music. To my surprise narrow range is generally preferred. However I cannot agree about the cutoff of low (fundamental) frequencies corresponding to the cutoff of high frequencies (overtones) mechanically. Overtones upon reproduction may sound noisy sometimes. Cutoff of fundamental should be decided according to the spectrum of recorded source.
Recently I have some phenomena about my hearing of old LP records: "They sound more smooth and mellow than I heard them in my youth". 
I read "old age hearing" in Seashore's book (1947) "In Search Of Beauty In Music - A Scientific Approach To Musical Esthetics". Then my hearing records as mellow may be due to my old age, narrowing the range of frequencies not by reproducers, but by the peculiarity of old ears. There is frequency-range preference surely from the point of appreciation and that specific frequency-range preference is differing according to age, experience and the peculiarity of audience respectively. I had limit 13kHz at 30 years old and now after 40 years limit is around 10kHz for usual sound level of pure tone in open air (not using headphones). How about you? Test by mixed tones (i.e., music) may indicate other values since intermodulation distortion can be perceived in spite of limit. I feel deep bass through intermodulation beyond the ability of woofers and the same for higher frequencies. Usual hearing test is carried out with pure tones only. Interesting report from a Japanese group ("Detection threshold for tones above 22 kHz") was released at AES 110th convention in Amsterdam (May 2001) suggesting supersonic effect was perceived with full-range speakers, but not perceived with channel-divided multi-speaker system. Intermodulation distortion may help us to perceive the existance of "something".
Even now I can enjoy some records more pleasantly than before. What is the essence of music proper? Nobody has clear answer.

Conclusion of my detective work on this matter:
Hearing field represents a summary of loudness curves as hearing characteristic.
Range of audible frequencies is narrowed for usual and lower sound levels.
And this is the reason why we can enjoy old recordings in every format.
The center frequency in hearing field between 50dB-80dB sound level is located between 600Hz and 800Hz,
from which some myths such as 640000 cycles^2 etc arised.

In the course of research (8 years journey) I studied some backgrounds of hearing music:
1. Frequency-Range Preference.
2. Difference of Sound Levels between Live Music and Reproduced Music.
    We esp. the menfolk are accustomed to play our records too loudly at home.
3. Preferred Relative Sound Levels among Genres of Music, Occupations and Male/Female.
4. Old Age Hearing: Roll-off/Loss of Higher Frequencies.
5. Usual Sound Levels (average) and Hearing Field.
6. Essence of Music (?)


ホームページへ戻る