houyhnhnmのエキセントリックらぶらぶ音声データ講座 第5回

〜 まとめ 〜

音声データ形式の比較

厳密な比較ではなく主観的な比較です。

結局どの音声データ形式がいいかという話になったときに、このくらいのイメージなら選びやすいんじゃないかなということです。実際は音源や実装に左右されます。

アンケート(2004年) http://www.hydrogenaudio.org/forums/index.php?showtopic=18634

  1. 不可逆圧縮
  2. 可逆圧縮

の順で書きます。


1不可逆圧縮

普通はMP3を使います。

他の不可逆圧縮形式はMP3くらいサイズを小さくしつつMP3より質を重視する場合に使います。

総論

フォーマット 長所
(by HA wiki)
短所
(by HA wiki)

MP3

MP3

普通

  • 広く使われておりほとんどすべてのハードウェアが対応している
  • ISOに規格化されMPEGの仕様に含まれている
  • デコードが速くAACやOgg Vorbisよりシンプル
  • だれでも独自に実装できる(仕様とデモソースが公開されている)
  • ライセンススケジュールが緩やか
  • 他の新しいコーデックよりパフォーマンスや効率性が悪い
  • すべての変換コーデックを誤作動させる場合がある
  • 最大ビットレート(320kbps)では足りないことがある
  • マルチチャンネルに対応している実装がまだない
  • 高音質オーディオ(48kHzより高いサンプリングレート)では使えない

Ogg Vorbis

Ogg Vorbis

全ビットレートで高音質

  • 仕様がパブリックドメイン(商用・非商用問わず無料)
  • 使いやすい高レベルAPI
  • 全面的に(48kbpsより高いビットレートで)パフォーマンスが良い(128kbpsのリスニングテストで首位)
  • 仕様がよくできている
  • 多くの携帯プレーヤーが対応している
  • ストリーミングに向いている(Icecastプロジェクトなどを利用)
  • 完全なギャップレス再生が可能
  • チューニングの余地がたくさんある
  • ハイブリッドフィルタバンク(サブバンド符号化(ウェーブレット変換)において信号を帯域ごとに分けるもの)用に設計できる
  • 公式な開発が十分に行われていない(積極的な開発は常に第三者によって行われている)
  • 現在の実装ではデコードに必要な計算量がMP3より多い

Musepack

Musepack

高ビットレートで高音質

  • 問題の生じるケースが他のほとんどのフォーマットとは異なる(プリエコーが少ない)
  • エンコード・デコードがとても速い
  • デフォルト(--standard)でとても良い音質になるように設計されている
  • オープンソース
  • Pocket PCや、Palm OSベース・Windows CE/Windows Mobileベースの機器、さらにスマートフォンでも携帯して再生できる(http://tcpmp.corecodec.org/参照)
  • iRiver h1x0・Archos Gminiで携帯して再生できる(http://www.rockbox.org/参照)
  • http://www.musepack.net/のフォーラムでサポート・開発されている
  • 携帯プレーヤーの対応が(まだ)不十分
  • 48kHzより高いサンプリングレートに対応していない

AAC

AAC

低ビットレートで高音質

  • ISOが承認した国際規格
  • 複数のサンプリングレート(8kHz〜96kHz)・ビット深度・マルチチャンネル(〜48ch)に柔軟に対応している
  • 無料で高音質のもの(iTunesやNero Digital)をはじめいくつかの実装がある
  • 約150kbpsでほとんどのサンプルにおいてほとんどの人が音源と区別できなくなる
  • MPEG-4の仕様に含まれている
  • だれでも独自に実装できる(仕様とデモソースが公開されている)
  • いくつかの携帯プレーヤーが対応している(Philips Expanium・Apple iPod・Nokiaの携帯電話・Sony Jukebox)
  • すべての変換コーデックを誤作動させる場合がある
  • たくさんの特許により厳重に保護されている
  • ますます錯綜している
  • AACにはいろいろな種類(AAC LC・AAC HE・AAC PSなど)があるが、多くのプレーヤー(特に携帯プレーヤー)は(今のところ)AAC LCにしか対応していないので、正しいAACでもプレーヤーで再生できないことがある

各論

音質

音質の比較は様々なリスニングテストによって行われています。テストされる者が音声データの候補のうちどれを聞いているのかがわからない状態で、圧縮前の音声と圧縮後の音声を聞き分けることができるかを試し、できるとすれば劣化はどのくらいかを示す、といったブラインドテストの形で行われるのがHydrogenaudioでは一般的です。特に、テストする者にとっても音声データの候補のうちどれを聞かせているのかがわからない状態でなされるダブルブラインドテストの形で行われることが多いようです。具体的には国際電気通信連合の無線通信部門(ITU-R)の勧告ITU-R BS.1116-1(隠れ基準付き3刺激二重盲検法)が参考にされています。

リンク先のグラフはスコアに対する95%信頼区間を表しています。その見方については公開テストのページにある「How to interpret the plots:」を参照してください(注意)。

32kbps
  • 2004年6月
  • グラフ上で重なって
    いるものは逆転する
    可能性あり
48kbps
  • 2006年11月
  • グラフ上で重なって
    いるものは逆転する
    可能性あり
64kbps
  • 2007年7月
  • グラフ上で重なって
    いるものは逆転する
    可能性あり
cf. 個人によるテスト
(2006年9月)
80kbps
  • 2005年7月
  • 個人
  • グラフ上で重なって
    いるものは逆転する
    可能性あり
cf. 他の個人によるテスト
(2009年9月
ロック・メタルのみ)
96kbps
  • 2005年8月
  • 個人
  • グラフ上で重なって
    いるものは逆転する
    可能性あり
cf. 他の個人によるテスト
(2007年5月)
cf. 他の個人によるテスト
(2007年8月)
128kbps
  • 2005年12月
  • グラフ上で重なって
    いるものは逆転する
    可能性あり
130〜135kbps
  • 2005年11月
  • 個人
  • グラフ上で重なって
    いるものは逆転する
    可能性あり
180kbps
  • 2005年8月
  • 個人
  • クラシックのみ
  • グラフ上で重なって
    いるものは逆転する
    可能性あり
  1. AAC (HE v2)
  2. mp3PRO
  3. WMA Std
  4. Real Audio
  5. QDesign
  6. (Lowpass)
  7. Ogg Vorbis
  8. MP3
  1. AAC (HE)
  2. WMA Pro
  3. Ogg Vorbis
  4. WMA Std
  5. AAC (LC)
  1. AAC (HE)
  2. WMA Pro
  3. Ogg Vorbis
クラシック
  1. Ogg Vorbis
  2. AAC (LC)
  3. AAC (HE)
  4. MP3
  5. WMA Std
クラシック以外
  1. Ogg Vorbis
  2. AAC (LC)
  3. AAC (HE)
  4. WMA Std
  5. MP3
クラシック
  1. Ogg Vorbis
  2. AAC (LC)
  3. MP3
  4. WMA Std
  5. Musepack
クラシック以外
  1. Ogg Vorbis
  2. AAC (LC)
  3. MP3
  4. Musepack
  5. WMA Std
  1. Ogg Vorbis
  2. AAC (LC)
  3. WMA Pro
  4. MP3
クラシック
  1. Ogg Vorbis
  2. AAC (LC) (iTunes)
  3. MP3
  4. AAC (LC) (Nero)
クラシック以外
  1. AAC (LC) (iTunes)
  2. Ogg Vorbis
  3. AAC (LC) (Nero)
  4. MP3
クラシック
  1. Ogg Vorbis
  2. Musepack
  3. MP3
  4. AAC (LC) (Nero)
  5. AAC (LC) (FAAC)

使ったソフトなどを加えてもう少し詳しくしたテスト結果

他のリスニングテスト

速度

エンコード速度の比較がいくつか行われています。

Rockboxでのデコード速度 http://www.rockbox.org/wiki/CodecPerformanceComparison

シェア

Hydrogenaudioでのシェアは次の通りです。

  2001年
  • 728人
    が回答
2002年
  • ?人
    が回答
2003年
  • 219人
    が回答
2004年
  • 682人
    が回答
2005年
  • 604人
    が回答
2006年
  • 971人
    が回答
2007年
  • 924人
    が回答
2008年
  • 1212人
    が回答
2009年
  • 923人
    が回答
2011年
  • ?人
    が回答
 
MP3 30.64% 32.32% 21.92% 28.01% 36.09% 46.04% 54.22% 56.19% 59.10% ?% MP3
Ogg Vorbis 22.94% 24.85% 19.63% 20.38% 25.50% 27.39% 22.84% 17.66% 14.27% ?% Ogg Vorbis
Musepack 29.95% 29.60% 47.49% 28.45% 24.17% 9.68% 4.44% 3.80% 4.52% ?% Musepack
AAC 7.42% 5.60% 10.96% 11.14% 11.26% 12.67% 12.77% 16.25% 16.29% ?% AAC
WMA 0.41% ?% ?% 1.17% 1.99% 1.34% 0.86% 0.25% 0.48% ?% WMA
Atrac ?% ?% ?% 0.15% (AC3を含む) ?% ?% 0.43% 0.17% 0.00% ?% Atrac
RM / VQF 0.41% ?% ?% 0.00% ?% ?% ?% ?% ?% ?% RM / VQF
mp3PRO ?% ?% ?% 0.29% ?% ?% ?% ?% ?% ?% mp3PRO
WavPack lossy ?% ?% ?% ?% ?% ?% ?% 0.66% 0.36% ?% WavPack lossy
LossyWAV + lossless             ?% 0.50% 0.95% ?% LossyWAV + lossless

Hydrogenaudioでのシェア(不可逆圧縮)

(2008年以前の投票者数は、2009年に行われたサーバーのソフトのアップデートによって、各候補への投票だけでなく「View Results (Null Vote)」(結果を見るために候補の中から何も選択しないでされた投票)も算入するようになったため、Hydrogenaudio側では表示が変わっています。また、新しいアンケートが始まってから古いアンケートにされた投票は、こちらに反映されていない場合があります。)


2可逆圧縮

音質を一切劣化させたくない場合に使います。

総論

フォーマット 長所
(by HA wiki, Roberto)
短所
(by HA wiki, Roberto)

LPAC

LPAC

  • まあまあの圧縮率
  • 高解像度(ここでは高いサンプリングレートやビット深度のこと)対応
  • RIFFチャンク対応
  • クローズドソース
  • エラーに弱い
  • シークが遅い
  • タグ非対応
  • マルチチャンネル非対応
  • ハイブリッドモード・不可逆モードなし
  • ハードウェアによる対応なし
  • リプレイゲイン非対応
  • PC Japan 2001年11月号で音楽評論家が薦めていた
  • 開発は後継のMPEG-4 ALSに移っている

La

La

  • 圧縮率がとても高い
  • タグ(ID3v1)対応
  • RIFFチャンク対応
  • パイピング対応
  • クローズドソース
  • エンコード・デコードがとても遅い
  • マルチチャンネル・高解像度(ここでは高いサンプリングレートやビット深度のこと)非対応
  • ハードウェアによる対応なし
  • ハイブリッドモード・不可逆モードなし
  • ソフトウェアによる対応が不十分
  • リプレイゲイン非対応
  • foobar2000ではロスレスにならない

Monkey's Audio

Monkey's Audio

  • オープンソース
  • 効率性が高い
  • ソフトウェアによる対応が充実
  • シンプルでユーザーフレンドリー、公式GUIあり
  • Java版によるマルチプラットフォーム対応
  • タグ(ID3v1・APEタグ)対応
  • 高解像度(ここでは高いサンプリングレートやビット深度のこと)対応
  • GUIエンコーダの方はRIFFチャンクに対応
  • パイピングに対応しているバージョンもある
  • マルチチャンネル非対応
  • エラーに弱い
  • ハイブリッドモード・不可逆モードなし
  • ハードウェアによる対応が不十分(Gemei X21)
  • リプレイゲイン非対応
  • 可逆性のクイックチェック用にMD5ハッシュ値を記録できる
  • CUEシートに似たAPLというファイルを作成できる

TTA

TTA

  • オープンソース
  • 効率性が良い
  • ハードウェアによる対応あり(マイナーなDVDプレーヤー)
  • マルチチャンネル・高解像度(ここでは高いサンプリングレートやビット深度のこと)対応
  • タグ(ID3)対応
  • リプレイゲイン互換
  • エラーに強い
  • ストリーミング非対応
  • ハイブリッドモード・不可逆モードなし
  • RIFFチャンク非対応
  • パイピング非対応
  • Matroskaコンテナに入れることができる

TAK

  • エンコードが速い
    (FLAC -8と比べると、InsaneモードもTurboモードもさらに高い圧縮率でありながら、Insaneモードは圧縮速度が等しく、Turboモードは圧縮速度が数倍速い)
  • デコードが速い(FLAC・WavPackと同程度)
  • 圧縮率が高い(Monkey's Audioのhighレベルと同程度)
  • エラーに強い
  • シークが速い
  • クローズドソース(オープンになる予定)
  • ハードウェアによる対応なし
  • ソフトウェアによる対応が不十分(再生はWinamp・foobar2000用プラグインのみ、タグ付けはMp3tagのみ)
 

FLAC

FLAC
  • オープンソース
  • デコードがとても速い
  • エンコードが速い
  • ハードウェアによる対応あり(Karma・Phatboxなど)
  • ソフトウェアによる対応がとても充実
  • エラーに強い
  • ストリーミング対応
  • マルチチャンネル・高解像度(ここでは高いサンプリングレートやビット深度のこと)対応
  • タグ(FLACタグ)対応
  • RIFFチャンク対応(--keep-foreign-metadataオプション)
  • パイピング対応
  • リプレイゲイン互換
  • ハイブリッドモード・不可逆モードなし
  • CUEシートの一部を埋め込むことができる
  • 可逆性のクイックチェック用にMD5ハッシュ値を記録できる
  • Oggコンテナ・Matroskaコンテナに入れることができる

WavPack

WavPack

  • オープンソース
  • デコードがとても速い
  • エンコードがとても速い
  • 効率性が良い
  • エラーに強い
  • ストリーミング対応
  • ハードウェアによる対応あり(Rockboxの導入による)
  • マルチチャンネル・高解像度(ここでは高いサンプリングレートやビット深度のこと)対応
  • ハイブリッドモード・不可逆モードあり
  • タグ(ID3v1・APE)対応
  • RIFFチャンク対応
  • 自己解凍ファイルを作成できる
  • パイピング対応
  • ソフトウェアによる対応が充実
  • リプレイゲイン互換
  • ハードウェアによる対応が不十分
  • 32ビット浮動小数点音声データに対応
  • CUEシートを埋め込むことができる
  • 可逆性のクイックチェック用にMD5ハッシュ値を記録できる
  • エンコードとデコードが非対称になるようにエンコードすることもできる(-xオプション)
  • Matroskaコンテナに入れることができる

各論

効率性

効率性とは(たぶん)圧縮率と変換速度のバランスのことです。一般に小さく圧縮しようとするほど時間がかかります。

例えばSpeek(Wim Speekenbrink)という人による比較を見ると、LaやOptimFROGが圧縮率を重視していてFLACがデコードの速さに特徴があるのに比べて、Monkey's Audio・TTA・WavPackはバランスがとれていると言えます。その3つを比べると、Monkey's Audioが圧縮率に優れ、TTAがエンコード速度に優れているのに対して、WavPackはデフォルトでもhighオプション付きでもさらに速く小さくできる別の方法がある点では不利です。

ただし、このような関係は、2007年のTAKの公開やFLACのバージョンアップによって変わりつつあります。Speekによる比較より新しいものとして、例えばSynthetic Soul(Neil Popham)という人による比較(2008年12月21日)(2008年12月27日版)があり、グラフにすると次のようになります。

圧縮率とエンコード速度での比較

Synthetic Soulによる比較(エンコード)

(y軸の始点の圧縮率を0%にしたもの)

Synthetic Soulによる比較(エンコード)

圧縮率とデコード速度での比較

Synthetic Soulによる比較(デコード)

(y軸の始点の圧縮率を0%にしたもの)

Synthetic Soulによる比較(デコード)

さらに言うと、もし圧縮率と変換速度だけを見て可逆圧縮形式の中からどれかひとつを選ぶなら、「2つの圧縮方法を比べたときに一方が圧縮率も変換速度も優れているなら、もう一方を使う理由はない。」という基準で判断することになります。この基準を前述のSynthetic Soulによる比較に当てはめた場合、圧縮率の高い順に並べると

エンコード速度を重視 デコード速度を重視
圧縮方法 圧縮後のサイズ エンコード速度 圧縮方法 圧縮後のサイズ デコード速度
La -high -noseek 62.115% 4x La -high -noseek 62.115% 5x
La 62.304% 5x La 62.304% 7x
Monkey's Audio Extra High 63.062% 21x Monkey's Audio Extra High 63.062% 21x
      OptimFROG Optimize High 63.377% 23x
      OptimFROG 63.386% 23x
Monkey's Audio High 63.507% 36x Monkey's Audio High 63.507% 34x
      TAK -p4m 63.544% 104x
      TAK -p4e 63.562% 104x
      TAK -p3m 63.650% 112x
      TAK -p3e 63.695% 112x
TAK -p3 63.763% 38x TAK -p3 63.763% 113x
Monkey's Audio Normal 63.793% 41x      
      TAK -p2m 63.860% 125x
TAK -p2e 63.946% 53x TAK -p2e 63.946% 126x
TAK -p2 64.077% 66x TAK -p2 64.077% 126x
      TAK -p1m 64.640% 142x
TAK -p1e 64.748% 91x      
TAK -p1 64.836% 108x      
      TAK -p0m 65.455% 142x
TAK -p0e 65.573% 109x TAK -p0e 65.573% 142x
TAK -p0 65.802% 131x      
FLAC -0 70.674% 134x      

以外を使う理由はないということになります。これら以外の圧縮方法は圧縮率も変換速度もわずかに劣っているからです。(余談ですが、Firefoxでは「Ctrl + クリック」は表のセルをいくつか強調するのに使えるので便利です。)

(なお、FLACのデコード速度はWAVEファイルに戻す時の速度であり、この時MD5ハッシュ値が計算されます。
http://flac.sourceforge.net/comparison.html
それに対して、再生時はMD5ハッシュ値の計算を省くのでさらに速くなります。
http://www.synthetic-soul.co.uk/comparison/lossless/?all=1
http://www.hydrogenaudio.org/forums/index.php?showtopic=58850&view=findpost&p=607126
そのため、デコード速度を再生負荷の目安とする場合は注意してください。)

いずれにせよ、これは圧縮率と変換速度だけから判断する場合の結論です。可逆圧縮形式の中からどれかひとつを選ぶために検討する要素は、http://wiki.hydrogenaudio.org/index.php?title=Lossless_comparisonに並べられているように様々です。

シェア

Hydrogenaudioでのシェアは次の通りです。

  2001年
  • ?人
    が回答
2002年
  • 270人
    が回答
2003年
  • 166人
    が回答
2004年・2005年
  • 715人
    が回答
2006年
  • 433人
    が回答
2007年
  • 924人
    が回答
2008年
  • 1212人
    が回答
2009年
  • 923人
    が回答
2011年
  • ?人
    が回答
 
FLAC ?% 35.56% 54.22% 52.73% 52.66% 59.42% 65.59% 67.30% ?% FLAC
WavPack ?% 1.85% 5.42% 14.83% 32.33% 21.97% 14.52% 13.44% ?% WavPack
Monkey's Audio ?% 57.41% 31.33% 18.18% 8.31% 4.65% 4.29% 2.38% ?% Monkey's Audio
YALAC / TAK         0.46% 0.76% 4.46% 5.47% ?% YALAC / TAK
OptimFROG ?% 1.11% 1.20% 0.98% 1.15% 0.22% 0.17% 0.12% ?% OptimFROG
WMA Lossless ?% 0.74% 3.01% 1.96% 1.39% 1.41% 0.33% 0.71% ?% WMA Lossless
Apple Lossless ?% ?% ?% 5.03% 3.46% 2.71% ?% 2.97% ?% Apple Lossless
Shorten ?% 1.11% 1.20% 0.00% 0.00% ?% ?% ?% ?% Shorten
La ?% 0.00% 3.01% 0.56% ?% ?% ?% ?% ?% La
LPAC ?% 2.22% 0.60% ?% ?% ?% ?% ?% ?% LPAC
TTA ?% ?% ?% 1.12% 0.00% ?% ?% ?% ?% TTA
RKAudio ?% 0.00% 0.00% ?% ?% ?% ?% ?% ?% RKAudio
Bonk ?% ?% 0.00% ?% ?% ?% ?% ?% ?% Bonk
Szip ?% 0.00% ?% ?% ?% ?% ?% ?% ?% Szip

Hydrogenaudioでのシェア(可逆圧縮)

(2008年以前の投票者数は、2009年に行われたサーバーのソフトのアップデートによって、各候補への投票だけでなく「View Results (Null Vote)」(結果を見るために候補の中から何も選択しないでされた投票)も算入するようになったため、Hydrogenaudio側では表示が変わっています。また、新しいアンケートが始まってから古いアンケートにされた投票は、こちらに反映されていない場合があります。)

リンク集

可逆圧縮形式を比較しているページには次のものがあります。


さらに主観的に書くと

  • 32kbps以下・・・HE-AAC v2がベスト (∵リスニングテスト)
  • 48〜64kbps・・・HE-AAC v1がベスト (∵リスニングテスト)
  • 80kbps以上・・・Ogg Vorbis (aoTuV) または AAC-LC (AppleまたはNero)がベスト (∵リスニングテスト)
  • ロスレス・・・WavPackがベスト (∵速くて多機能)

となりますが、押し付けは不要かつ不能だと思うので好きな方法を選んでください。

クリエイティブ・コモンズ・ライセンス
このサイトの文章は、クリエイティブ・コモンズ・ライセンスの下でライセンスされています。
トップページ