Vision

ヘッドフォンによる空間オーディオ:頭の中に9つのスピーカーとサブウーファーを詰め込む科学

ヘッドフォンによる空間オーディオ:頭の中に9つのスピーカーとサブウーファーを詰め込む科学
Apple AirPods Max ヘッドフォンの横に、Spatial Audio コンテンツの特集ページを含む Apple Music アプリが表示されている Apple iPhone 14。
サイモン・コーエン / デジタル・トレンド

空間オーディオが注目を集めています。より没入感のある3Dのようなリスニング体験を提供するという目標は映画館で生まれたかもしれませんが、空間オーディオをめぐる議論の多くは音楽、特に音楽ストリーミングサービスで比較的最近配信されているDolby Atmos Musicトラックへと移っています。

空間オーディオの魅力は、もはや謎めいたものではありません。ステレオ以来の革新的な音楽鑑賞方法の一つと、Appleの驚異的なマーケティング力を組み合わせると、多くの人が試してみたいと願うようになるでしょう。

おすすめ動画

しかし、ストリーミングサービスによって空間オーディオに違いがあるのか​​どうかは、いささか謎です。例えば、Apple MusicとAmazon Musicでは違いがあるかもしれません。では、ヘッドフォンはどうでしょうか?ヘッドフォンは空間オーディオの音質に影響を与えるのでしょうか?

答えは「はい」と「はい」ですが、おそらくあなたが考えている理由とは違うでしょう。説明のために、ヘッドフォンで空間オーディオを聴くときに、舞台裏で何が起こっているのかを詳しく見ていきましょう。

先に進む前に、空間オーディオとは何か、そしてそれを体験できるさまざまな方法について説明する入門書があります。

頭の中にスピーカーがいっぱいの部屋

目を閉じて KEF LS50 スピーカーを聴いている男性。
ビル・ロバーソン / デジタルトレンド

ドルビーアトモスのような空間オーディオフォーマットは、マルチチャンネルサラウンドサウンド(ドルビーデジタルなど)の拡張版であり、部屋の周囲に設置されたスピーカーを通して映画館のようなリスニング体験を実現するように設計されています。この仮想的な部屋には、前方、後方、両側面、そして天井があります。

ドルビーアトモスで制作される音楽は、9.1チャンネルの「ベッド」から始まります。これは通常、7.1.2チャンネルレイアウトで構成され、フロント(左、センター、右)、サイド(サラウンド左/右)、リア(左/右)、天井(ハイト左/右)のスピーカーに加え、サブウーファーに送られる低周波効果音(LFE)チャンネルに対応しています。これらの9チャンネルはそれぞれ異なる音量で再生できますが、ドルビーアトモスでは最大118個のサウンド「オブジェクト」が追加され、9つのスピーカーがカバーする半球状の空間内を自由に移動できます。

ヘッドフォンで空間オーディオを聴くと、同じ9.1チャンネル、118個のオブジェクトからなるサウンドトラックが聞こえてきます。これは矛盾しているように思えます。頭に装着した2つの小さなスピーカーで、周囲に9つのスピーカーを配置したのと同じ効果が得られるのでしょうか?

脳を騙す

ヘッドホンを装着して驚いた表情をしている男性の THX Spatial Audio 画像。
THX

その答えは、心理音響学にあります。心理音響学は、脳が音情報をどのように解釈し、反応するかを研究する科学分野です。これには、音源定位と呼ばれるプロセスが含まれます。これは、脳が聴覚的な手がかりを用いて、音がどの方向から来ているのか、そして音源がどれくらい近いか遠いかを判断するプロセスです。

私たちは音の高さと音量を合成することで音源の位置を特定します。しかし、最も大きな手がかりは、音が左右の耳にどのように届くかです。私たちはわずかなタイミングの違いにも非常に敏感です。もし音が右耳よりわずか1ミリ秒早く左耳に届いたとしたら、私たちの脳はそれを察知し、それに応じて反応します。

心理音響モデル(およびステレオヘッドフォン)を使用すると、音が各耳に届く方法を慎重に制御することで、現実世界の音の方向と距離をシミュレートできます。

バイノーラルレンダリング

Apple TV 4K 向けの Apple のヘッドトラッキング空間オーディオ。
りんご

Dolby Atmos のような空間オーディオ形式を心理音響の原理を使用してヘッドフォンで配信できるサウンドのセットに変換するプロセスは、バイノーラル レンダリングと呼ばれます。

Dolby Atmos、DTS:X、Sony 360 Reality Audio(360RA)をヘッドフォンで聴いたことがあるなら、再生チェーンのどこかの段階で、バイノーラル・レンダリング・ソフトウェア・アルゴリズムが使われ、その体験が生み出されています。5.1chや7.1chサウンドトラックのビデオゲームでも同様です。THX Spatial AudioやImmerse Gaming Hiveなどの技術によって、これらのサウンドトラックはバイノーラル・レンダリングされます。

バイノーラルレンダリングの素晴らしい点は、どんなステレオヘッドホンやイヤホンでも使えることです。有線でも無線でも、10ドルでも1,000ドルでも、すべてのステレオヘッドセットはバイノーラルレンダリングされた空間オーディオに対応しています。あるヘッドホンが「空間オーディオに対応」と謳っているかもしれませんが、それはまるで4つの車のタイヤが「舗装道路に対応」していると言うようなものです。つまり、どれも空間オーディオに対応しているということです。

空間オーディオ:すべては頭の外にある?

Neumann KU 100 ダミーヘッド バイノーラル マイク。
人間の頭の形は空間認識に非常に重要であるため、レコーディングエンジニアは空間音響を捉えるために、このNeumann KU 100のような頭の形をしたマイクをよく使用します。両耳にマイクが付いています 。Neumann

さて、バイノーラル・レンダリングは、あなたの脳を騙して、まるでどんな古いヘッドフォンでも7.1.2チャンネルのフルサウンドシステムを聴いているかのように錯覚させる、つまり、すべてはあなたの頭の中にある、と説明したところで、ここで少し矛盾したことを述べさせていただきます。部分的にですが。

私たち一人ひとりが音源定位の手がかりをどのように解釈するかは、頭の形、特に耳の形と位置と大きく関係しています。頭部の生理学的特性は、鼓膜に届く音にそれぞれ固有の指紋(聴覚指紋?)を形成します。全く同じものは二つとありません。乳児期初期から、脳は音源定位能力を発達させていく中で、この聴覚指紋をテンプレートとして利用していきます。

このオーディオプリントは、数学的に記述され、各耳に入ってくる音をフィルタリングするために使用される場合、「頭部伝達関数」(HRTF) として知られています。

HRTFが鍵

空間オーディオの図解。
体現する

バイノーラル レンダリングをできるだけリアルにするために、空間オーディオは HRTF プロファイルを使用して処理されます。

ご想像の通り、私たちは皆、独自のHRTFプロファイルを持っています。理想的な世界では、頭部と上半身を3Dスキャンし、得られたHRTFプロファイルをApple MusicやAmazon Music(あるいは空間オーディオをサポートする他のアプリ)にアップロードします。すると、各アプリのバイノーラル・レンダリング・アルゴリズムがそのHRTFプロファイルを用いて、脳が高度にリアルに解釈できる音のセットを作成します。

まだそこまでには至っていません。アップロード可能なパーソナライズされたHRTFがないため、各空間オーディオアプリは汎用HRTFを使用しています。その名の通り、これらの汎用HRTFは数百もの個別のHRTFから集められ、音が耳に入る様子を近似的に再現します。個人のHRTFがこの平均HRTFに近ければ近いほど、空間オーディオはよりリアルに聞こえます。

汎用HRTFは、ステレオコンテンツの空間化や、ヘッドトラッキングによる空間オーディオの向上にも使用されます。音楽アプリ、ワイヤレスヘッドホン、またはワイヤレスイヤホンに空間サウンドモードが搭載されている場合は、ステレオサウンドに奥行きを与えることができます。また、ヘッドホンに頭の動きをトラッキングするセンサーが内蔵されている場合は、ヘッドトラッキングによる空間オーディオを生成し、よりリアルで、まるで部屋にいるかのようなリスニング体験を実現します。

最高のHRTFを持っているのは誰ですか?

興味深いことに、すべてのバイノーラルレンダラーは汎用HRTFを使用していますが、すべてが同じ汎用HRTFを使用しているわけではありません。Amazon MusicやTidalなど一部のアプリは、Dolbyが提供する汎用HRTFを使用しています。これは、これらのアプリに搭載されているDolby Atmosバイノーラルレンダリングエンジンに組み込まれています。一方、Apple MusicはAppleが独自に開発した汎用HRTFを使用しています。

定義上、あらゆる一般的なHRTFは、人によってフィット感の度合いが異なります。これは、ワイヤレスイヤホンが人によってフィット感の度合いが異なるのと同じです。AppleのHRTFがDolbyのHRTFよりも優れているかどうかは、どれだけ適合させるかによって決まります。それを知る唯一の方法は、両方を試してみることです。

現実に一歩近づく:パーソナライズされたHRTF

Embody のパーソナライズされた HRTF プロファイルを表す 3D グラフ。
体現する

完全な3D解剖学的スキャンはカスタマイズされたHRTFの聖杯ですが、いくつかの企業は、汎用HRTFを超える簡単な方法を提供する中間段階を考案しました。Appleはこれを「パーソナライズされた空間オーディオ」と呼んでいます。iOS 16以降を搭載したiPhone X以降(SEモデルを除く)をお持ちの場合は、内蔵のTrueDepthセルフィーカメラを使用して、顔の正面と両耳の3D写真を撮影できます。これは、AppleがFaceIDでスマートフォンのロックを解除する際に顔をスキャンするのに使用するのと同じ技術です。

残念ながら、これによって作成されるパーソナライズされた HRTF は、特定の Apple AirPods または Beats ワイヤレス ヘッドフォンおよびイヤフォンと組み合わせてのみ使用できます。他のデバイスを使用するときに空間オーディオを聞く方法には影響しません。

ソニーは、Sony Headphonesアプリ内で同様の機能を提供しています。360RA対応のソニー製ヘッドホンまたはイヤホンを購入すると、左右の耳の写真を撮ってアプリにアップロードできます。

写真は評価され、パーソナライズされたHRTF(心拍数伝達関数)を作成するために使用され、スマートフォンのSony 360RAトラックをストリーミングする音楽アプリに転送されます。2024年3月現在、Amazon Music、Tidal、Nugs.net、PeerTracksが含まれます。

仮想空間オーディオスタジオの作成

Embody の Immerse Virtual Studio ソフトウェアのスクリーンショット。
サイモン・コーエン / デジタルトレンド/エンボディ

ヘッドフォンで空間オーディオを聴く方法としてバイノーラル レンダリングを使用するのは素晴らしいことですが、多くのミュージシャンやその他のクリエイターにとって、空間オーディオを作成する上で不可欠な要素となっています。

「頭の中にスピーカーがぎっしり詰まった部屋」のセクションで述べたように、ドルビーアトモスのような空間オーディオフォーマットは、スピーカーで聴くために作られています。しかし、エコーなどの不要な効果を排除するための適切な音響処理を施した7.1.2以上のスタジオを構築するには、数千ドルもの費用がかかります。

新進気鋭のアーティストや、趣味で空間音響を試してみたい方にとって、これは高額な投資となるかもしれません。しかし、バイノーラルレンダリングのおかげで、高品質なヘッドフォンと適切なソフトウェアさえあれば、パソコン上にバーチャルスタジオが完成します。

バーチャルスタジオソフトウェアの一例として、EmbodyのImmerse Virtual Studio Signature Editionが挙げられます。ProToolsなどのあらゆるデジタルオーディオワークステーション(DAW)と連携できるほか、スタンドアロンとしても使用でき、様々なソースからバイノーラルレンダリングされた空間音響を体験できます。

Immerse を使用すると、ハンス・ジマーが数多くの有名な映画音楽のマスタリングを手がけた Alan Myerson の 7.1.6 スタジオや、グラミー賞やアカデミー賞を受賞した 7.1.4 スタジオの Lurssen Mastering など、最も権威のあるプロ仕様の Dolby Atmos スタジオ内で空間オーディオをミックスする様子をシミュレートできます。

Embody ソフトウェアを使用した電話ベースの耳のスキャンの図。
AppleやSonyと同様に、 Embodyはスマートフォンのカメラを使ってパーソナライズされたHRTFを生成します。

実際にその録音空間内で作業しているかのように音を聞くための鍵は、ほぼすべてのスマートフォンを使用して作成できる Immerse のパーソナライズされた HRTF と、数十種類の一般的な一般向けおよびプロ向けの有線および無線のヘッドフォンやイヤフォン専用のヘッドフォン プロファイルを組み合わせることです。

これらの要素は、アーティストに空間オーディオコンテンツの開発に最適な環境を提供します。しかし、前述のように、ほとんどの人は空間オーディオを聴くための最適化された環境を持っていません。Embodyのソフトウェアでは、パーソナライズされたHRTFの有無にかかわらず、様々なバイノーラルレンダラーに切り替えることができるため、平均的なリスナーと同じように録音を聴くことができます。このソフトウェアにはApple Music独自のバイノーラルレンダラーが搭載されており、TidalやAmazon Musicで使用されているのと同じ汎用HRTFでDolbyバイノーラルをモニタリングすることもできます。

金メダルを目指す

一般的に、音楽レーベルがApple MusicやTidalなどのストリーミングサービスにドルビーアトモス対応の楽曲を提供する場合、それは単一のバージョンのみとなります。これはアーティストにとってジレンマを生み出します。

そのバージョンは、Atmosスピーカー構成の物理的なスタジオで、あるいは同様の空間を仮想化するソフトウェアを使用してマスタリングされている可能性が高いでしょう。しかし、前述の通り、HRTFや特定のバイノーラルレンダラーといった変数は、異なるプラットフォームで聴いた場合のトラックの響きに大きな影響を与える可能性があります。

アーティストは、Amazon Music でストリーミングされ、汎用 HRTF でバイノーラル レンダリングされたときに最高の音質になるようにミックスを微調整したくなるかもしれません。特に、ほとんどの聴衆がそのように聴くだろうと考えている場合はそうでしょう。

しかし、そうすると、完全な 7.1.4 Dolby Atmos サウンド システムや、パーソナライズされた HRTF を使用した Apple Music でのサウンドが損なわれてしまいます。

ほとんどのアーティストは、リリース後にトラックをリマスターするためにスタジオに戻る時間や資金がないため、次の決定を下す必要があります。7.1.4 リスニング体験を最大限に高めるために最適化されたバージョンを作成し、時間の経過とともに Apple や Amazon などの企業がバイノーラル レンダリングやパーソナライズされた HRTF のサポートを向上させるにつれて、ヘッドフォン体験がどんどん良くなることを信じるか、あるいは、本来のサウンドには及ばないバージョンを作成して、今日のリスナー向けに最適化されたヘッドフォン ミックスを作成するかです。

もちろん、この決定はアーティストとレーベルの判断に委ねられます。しかし、Appleの空間オーディオ報奨金のようなプログラムが、音楽業界の誰もが約束された金銭的報酬を得るためだけに空間ミックスを急ぐ動機を生み出すのではないかと懸念しています。

それでも、私たちはオーディオにおける刺激的な時代のまさに始まりに立っています。それは、音楽の作り方、そしてヘッドフォンの有無に関わらず、音楽を聴くときの音の響き方を根本から変えるでしょう。

Forbano
Forbano is a contributing author, focusing on sharing the latest news and deep content.