見出し画像

ラウドネス時代の「映像の音作り」について思うこと

皆さんお久しぶりです、または初めまして。MAミキサーの福山です。
少し真面目な記事です。

TVを始め、様々なストリーミングや配信サービス、プラットフォームで導入されている「ラウドネス」の話です。


自己紹介

これから記事を読んでくださる方の中には、初めましての方もいらっしゃるかもしれないので、軽く自己紹介させてください。

福岡でTVCMをはじめ、WebCM、VP、MVなどの映像制作にMAミキサー、音響効果という、音を担うセクションで携わっております、ふくやまと申します。
経歴ーー
1社目:PA、ラジオ、劇場、テレビ局のMAなどの音響業務を行う会社に在籍し、地方局にて番組のMA、効果で出向。また、たまにPAのアシなどを行う。
2社目(現在):主にCMなどの広告映像を制作する総合プロダクションにて、MA、音響効果、選曲、録音などを行っております。

今回の記事に関しては、主にその中の『MA』に関係してくる話です。

MAって?

簡単に説明すると、映像の音の最終調整をするのがMAというものです。
ナレーションを収録したり、現場の音を綺麗に整えたり、同録素材や効果さん、音楽屋さんから受け取った効果音や音楽など映像の中の音のバランスや音質を綺麗に整えてあげるのが僕らMAミキサーの仕事なわけですが、ここで行うミックス作業が本記事の本題「ラウドネス」に大きく関係してきます。

一言にMAと言っても、その中にもいろんな媒体の幅があります。
「番組」「CM」「映画」「ドラマ」「吹き替え」「アニメ」「ドキュメンタリー」などなど
さらにいえば、このそれぞれの中にも枝分かれがあるくらいだと思います。

「番組」といっても「バラエティ」なのか、「ニュース」なのか「情報番組」なのかなど。
また、納品の形式媒体の違いなどによっても、作業の内容や求める音は変わってきたりします。

例えば、僕の生業にしてる「CM」でいうと、「TVCM」なのか、縦型でスマホで見る前提の「SNS的などの広告」なのか、これによって当然、納品のファイルも変わりますし、プラットフォームに合わせて音作りが変わることだってあります。

かなり前置きが長くなりましたが、今回のnoteでは、上記のようなことも踏まえて、僕が思う「映像における音作り」について思うことを書いていきたいと思います。

あくまで僕個人の現在での考えですので、多少考えが広告によることもあるでしょうし、一個人の意見として受け止めていただけると幸いです。

勿論、記事について、意見などありましたら、僕としても色々勉強させていただきたいので、その際は、是非コメントなど下さい。

ラウドネスって?

では、やっと本題に入らせていただきます。
とは言いつつ、一旦ラウドネスというものを簡単に説明させてください。

今となっては、みんな知ってる言葉「ラウドネス」というものについてです。
メタルバンドのそれではないです。笑

⚠︎僕は映像側の人間なので、本概要は映像に限っての話として書かせてもらいます。

現在は当たり前の「ラウドネス規定による納品」ですが、
以前は、ラウドネス値としての規定というものはなく、レベル管理は「VUメーター」によるものでした。
よくMVなどでレコーディングスタジオの映像の時に映る、左から右に針が触れるあのメーターです。
納品規定はざっくり以下でした。
「0VU(-20dBFS)を厳守」
厳守とはいえ、音というものの性質上、Peekがちょっと0越えちゃうとか、そういうのは当然だと起きます。
簡単に噛み砕くと「0VUあたりをメーターが振っててくださいね〜」ということです。

では、何故VUメーターによる納品規定を変えたのか

それはVUメーターの性質と音作りや音質によるものでした。

VUメーターというものは、音のレベルを測定するものですが、それはあくまで電気信号としての大きさを示します。
人間の耳は、同じレベルで出てるものでも、低音より高音のほうが大きく聞こえてしまう周波数特性を持ってます。

もうこれでお分かりだと思いますが、「VUメーターの表示」と「人間の聞こえ方」というものが、必ずしも一致する訳ではない。ということです。
さらに言うと、数値などでなく、針の触れ方で納品しろということなので、納品の際のVUの納め方は人によって少なからず「許容の差」が出ます。

極端な例えですが、人によっては「全く0を超えず、このくらいで押さえておこう」というひともいれば一方で「ちょこちょこピークが超えるくらいは良しとして大きく聞こえるようにギリギリ攻めます」って人もいた訳です。

また、VU時代に限り、音を大きく聞かせるためにできることがありました。
それは、「人間の耳につく音作りをする」ということです。
当初、特にCMなど、短い尺で印象に残るものの音作りは特に多かった手法です。

上記でも書いたように、人間の耳は、「低音より高音の方が聞こえる」という特性を持ってます。
100Hzと2kHzを同じ音量で聞いた時、人間は「後者の方が大きい」と感じます。
これを逆手に取ると、低域を減らすことで、VU上のメーターの余白を稼げる、ということにもなります。

その結果、「硬い音質」とよく言われるような、不自然に高音成分の多い音作りが増えました。

こういった音は、長い間聴いてると耳が疲れます
そもそも人間が普段聞いてる、人の声の周波数バランスとは異なること、そして耳につく高音成分の多さが原因です。
人間らしいナチュラルな音質にしたいと思うなら、そこに足らないのは低音成分の量です。
ただ、ナチュラルな音質にするべく、低音と高音とのバランスを取ると、硬い音質より当然VUは振ることになります。

結果として、尺の長い番組やニュースなどは、疲れない音作りでナチュラルなミックス。
数十秒しか流れない中で印象に残したいCMなどは、しっかり主張することを目的に、シャキシャキなミックスという流れができてきました。

これによってなにが起きたかというと・・・。
視聴者がリモコンを触ることが増えました。
同じVUメーターによる納品をしていても、音作りによって、人間の感じる音量感が違ったからです。

昔は、
・番組と番組間
・番組とCM間
・放送局間
などはよく、CMに入ったら、「うるさいな〜」、「耳障りな音だな〜」とリモコンで音量ボタンを触ってた。という人も少なくないんじゃないでしょうか。

長くなりましたが、ラウドネス規定が設けられた理由はそういうことです。

1番は、視聴者にリモコンでの頻繁な音量操作を避けてもらう為です。
そして、音作りの差による、素材のバラつきを無くし、ナチュラルな音を視聴者に提供する為です。

つまり、VUが電気信号のレベルでの基準を持ってたのに対し、人間の聴覚特性を加味した基準を導入したのが「ラウドネス」による規定です。

以下、ラウドネス曲線というものです。



これは人間が同レベルに感じるには、周波数ごとにどのくらいの音量レベルが必要かというのをグラフ化したものです。
見ての通り、音量によって曲線の幅こそ変わりますが、一貫して低音になればなるほど人間の耳は聞こえにくく、2k〜5kくらいまでが1番聞こえやすいということがわかります。
ちなみに人間の可聴周波数は一般的に20Hz~20kHzと言われています。

日本のTV放送における音声レベルの納品基準はARIB TR-B32という規格で、平-24.0LKFSとなってます。
このLKFSというものが、「平均ラウドネス値」というもので、1時間番組であれば1時間、15秒CMであれば15秒のトータル尺でのラウドネス値の平均を-24.0LKFSという数値で納品してくださいね、というものです。

なぜ平均なのかというと、
当然音量は変動するものですし、ずっと-24.0でなんてのはほぼ不可能で、ミックスも崩壊します。
また、ミックスのダイナミックレンジなんてものは皆無で、音量による表現などは皆無で何も感情の動かないものしかできないからです。

一応、許容範囲として±1LKFSは規定上、設けてありますが、-23.0LKFSなんて納品の仕方は個人的におすすめしません。
設けられてる±1LKFSは、あくまで各ラウドネスメーターの誤差だったりを考慮してのもので、1LKFSも誤差が出るメーターは僕は知りませんし、そもそものターゲットラウドネス値は-24.0LKFSです。

-23.0LKFSで納品しても規定オーバーとされ、素材を返却される局もあると聞きます。(僕はそんな輩技したことないので、聞いた話ですが・・・)
でも当然ですよね、それは先ほども書きましたように、あくまで誤差による許容や生放送などを加味した上での許容です。
パッケージしてるものなのに、規定に納めれない訳はないのですから。
結局、ここを崩し出す輩が居ると、またレベル戦争が起きますし、もしかすると許容範囲を設けなくなり、「納品はこれで測定したもの以外受け付けないよ」とメーターの機種の指定がされる、ということにもなりかねません。

ちなみにLKFSの他にLUFSというのもよく聞くかと思います。
特に音楽を作られてる方の方は、こちらの方が耳馴染みがあるのではないでしょうか。
この違いは、EBUやITUなど、規格を作った連合が異なるため、元々は改良のされ方が異なりましたが、現在では名称こそ違いますが、同じものと考えてもらって問題ないです

その他にも、厳密にはトゥルービークなど色んな規定はあるんですが、今回は省きます。
もっと詳しく見たい方は、Googleなどで「テレビ放送 納品規定」などで調べるといろんな協会の資料が出てくるので、読んでみてください。

ラウドネス時代の「映像の音作り」について思うこと

ここからが僕の言いたいことです。

上記でもお伝えしたように、特にTVCMなどでは、昔から音を硬くして聴感の音量を稼いできた歴史があります。
それが悪いことだったのかは分かりませんが、少なくともラウドネス時代の現在は、そうするべきではないと僕は思っております。

基準が人間の聴覚特性をもってるものである以上、ナチュラルな音作り、作品を最大限表現できるダイナミックレンジというものが、より大切な時代だと思ってます。
今の納品規定の中では、音を硬く作って耳につくミックスをしても、音量も稼げず、不快な音で、良いことはありません。
マイクを通して収録した声を、その人の自然な声質かつミックスの中でも聴きやすい音質に整えてあげること
飛び道具などは別として、これが本来の僕らの仕事です。

ただ現状も以前の名残なのか、TVなどを見ていてると、「硬く聴き疲れるミックス」が少なからずあるのも事実です。
また、いい時代でもありますが、誰でもプラットフォームの『ラウドネスノーマライゼーション』に頼り、ミックスできる時代になったことも大きいです。

そして近年、YoutubeをはじめSNS、ホームページなど、様々な媒体で流れるものが、爆発的に増えています。
そういったものをユーザーの方が視聴するのは、スマートフォンPCなどが圧倒的に多いです。

怖いのはここから・・・。
特にスマートフォンなどの多くは、僕らが作業してるモニタースピーカやテレビなんかより圧倒的にバランスが高音に寄ってます。
これは悪ではなく、スマホの作り上、仕方のないことです。

ただ、先ほどの「硬い音質の音源」がそこから再生されたときにどうなるでしょう・・・。
その硬さに、さらに拍車がかかり、すごく耳に痛い音に聞こえ、とても聞いてられません。

僕が普段携わっているTVCMというところで見ると、TVCMを作りつつ、同じシリーズでWEB広告も作るということが、ここ5、6年でかなり増えました。
また、別のものを作らずとも、TVCMの素材をそのままWEBにも流したい、ということもとても多いです。
上記の話に戻りますが、そういった際に「硬い音」を作ってしまうと、それがそのまま「スマホやPCで主に聞かれる媒体にも流れてしまうと」いうことにもなります。
その後は先ほど言ったように、「不快な音質」で視聴者に届くほかありません。
偉そうな言い方になりますが、ここはミキサーや制作側がしっかり考えて音というものを作っていかないといけないと思っております。

そしてもうひとつがダイナミックレンジです。

今も昔も変わらずある、ダイナミックレンジを過度に狭めた作品
これは本当に「作品の表現を殺す」と言っても過言ではないと思ってます。

特にTVCMについては、尺や性質などの関係上、映画や番組などに比べると狭くなってしまうのはありますし、ラジオやPodcastなどは、ながら聴きというものも視聴環境としてある中で、聞き取れないものがあるのもよくない、など、プラットフォームに適したものがあるとは思っており、重々承知してます。
ただ、今回はダイナミクス表現が本来必要なものに限っての話です。

ダイナミックレンジを過度に狭めたミックスというのは
「びっくりするくらいつまらない」ものに聞こえます・・・。
こんなのは周知の事実だとは思いますが、未だそういうものがオンエアものでさえ少なくないのも事実です。

僕もこの手の失敗はしてきましたが、オンエア聞いて絶望します・・・。笑
本当に「のぺー」っとしてます・・・。
どこが山場的なのか、みたいな表現は、音だけで言うと皆無です。(映像側にはしっかりあるのにね・・・)

そしてこの問題と密接に関わってると思ってるのが、またまた「ラウドネス」というものだと思ってます。
先ほども記載したように、現在の日本のテレビ放送のものは、番組、CMに関わらず「-24.0LKFS」という基準の元、納品されたものです。

これによって聴感の差が無くなったように見えますよね。
間違いなく以前のVU納品時代よりは、差がなくなりましたが、全くないわけではないと僕は感じでます。

それは、平均ラウドネス値というものを測定する「尺」にあります。
2時間の特番も15秒の番組も、TV OnAirする以上、ターゲットの平均ラウドネス値は変わりません。

ただ、音量の大きな箇所、小さな箇所などの割合はどうでしょう。

先ほどレンジの話でもしたように、CMは番組などに比べ、静かな箇所が少なく、ダイナミックレンジも比較的狭いです。

そして「平均」とあるように、小さな箇所が多ければ多いほど、他の箇所の音量を稼げます。(そもそも「稼げる」という言い方が戦争を招いてますが、ここはわかりすさのためご了承ください)
ラウドネス計測にも、Gatingなどはありますが、そこを加味してもやはりその差は感じてしまう、というのが個人的な意見です。

実際、番組経験とCMを両方経験してきた僕ですが、
会話ベースだと、番組はVU0をだいたい振らすミックスでLKFSは−24程度な感じでしたが、同じことをナレーションのそこそこあるCMでやると−20程度になる感じです。

1時間番組と15秒のCMを例に出すと、この2つのダイナミックレンジには、現実的に差が生まれることが多いです。
現実的にと言ったのは、聞かせないといけないものや、静かでいい部分など、いろんな兼ね合いの上で、そうならざるを得ないケースによるものだからです。

特に番組の中でもレベルが煽られるCM前後、TV〜CMの跨ぎの一発目は「正直嫌だな〜」とは思っちゃうのが本音です。笑(これは番組を悪く言いたいわけでは全くなく、規定による差を伝えたいだけなのでご理解ください・・・)

とはいえ、ここもミックスなどにもよるところなので、一概には言えないところですが、少なからず尺によって差を感じてしまう場合もあるということです。

作り手からすると、上記の番組の前後などの流れや他の尺の異なるCMなどと並んだ際、小さく聞こえることはなるべく避けようとしたいところです。

そして印象として『大きく聞こえる』ということもあります。

肝は、頭と終わりです。正直ここがしっかり聞こえていれば、印象として『他より小さい』と感じることは少ないと思います。
要は、作品の中でのダイナミクス配置次第で、印象自体はコントロールできる、ということです。

頭と終わりだけ、不自然にレベルの大きいCMもよく目にします。
一時期すごくよく流れてた某携帯会社のCMで会社名を叫ぶものは、それが顕著に行われていると感じました。

他との繋がり部分で不自然なダイナミクスを作る手法は、作品の構成や企画に寄り添ってそうなっている場合を除き、これは「レベル戦争」に他なりません。
他と戦うためのダイナミックレンジの表現は、作品の企画や構成とマッチしてるのかというところは必ずしもイコールではないということです。
ラウドネス納品時代にも関わらず、こういった戦いをしてしまうのは、本末転倒です。

とはいえ、CMで言うと、映像はクライアントさんの為のもの、そして僕らのお客さんは、監督やプロデューサーです。

色々言いましが、これが僕ら技術者の独りよがりなものでは、成り立ちません。
この映像にどんな音作りが正解か。これは、これまでの事をガン無視するような極論を言いますが、正解は「クライアントさんの納得したもの」です。

中には、意図があってそのような表現をしたかったり、クライアントさんからすれば、当然「自社の広告が多くの人に残って欲しい」と思います。
これは全く悪ではないです。

加えて僕ら技術者としても、お客さんの要望や意図によって、本来目的としていない処理や音作りになることがあることもまた理解できます。

必要であれば、ラウドネスについて簡単にでもお伝えし、お互いが幸せになれるミックスという選択肢を提示すること、これもミキサーの仕事だと思ってます。これの1番いい終着点は、「お互いが納得できる」ことだと思います。
綺麗事ではありますが、僕ら技術者やその周りの監督やプロデューサー、そしてお客さんまでもが、作品の音というものの考え方を、段々と、二人三脚でアップデートしていきたいなと思っております。

さて、変に締めかけたところで、もう1つ思うことがあります。

色々考えてましたが、今までのことを踏まえ、映像のラウドネスというものに限って僕が思ってるのは尺によって納品規素材の「平均ラウドネス値」を変えるべきなのではないかということです。

これによって、尺のことなる前後間のレベル差など他を気にすることなく、作品に寄り添ったレンジが作れ、納品規定としても、よりラウドネスとしての効果が発揮できる気がしております。
その他にも、Gatingの数値なども絡んでくるところかもしれませんが、ボヤーっとこんなことを思いました。

映像の種類(バラエティ、ニュース、CM、映画、etc…)なども考慮した上でそうしないといけないと思いますし、これが現実的に実現可能なのか、正解なのか間違いなのかは、僕もわからないところですので、是非皆さんの意見を聞いてみたいと思っております。

YouTubeの「ラウドネス規定値」に関して

(2023/07/13追記)
完全に書き忘れてたんですが、もう一つ長い間思ってましたことがありますので、追記です。

YouTubeのラウドネス規定値に関してです。

YouTube公式として、規定値が公言されてないので、色々と記事や説はありますが、僕の認識てまは、現在のYouTubeでは-14.0LUFSというラウドネス値の規定がなされてます。

これは-24.0LKFSのTV放送などと比べて、LU/LKこそ規格こそは変わりますが、10というかなり大きな差があります。
YouTubeのラウドネスノーマライゼーションは、素材として-14.0LUFSより大きなものは下げられますが、小さなものはあげることはありません。

これはこれでピーク含め、今まで書いてきたような、「作品の為」を考えると理に適ってることだと思いますので、そこは問題ないと思ってます。

規定値が設けられてる以上、他との兼ね合いなどを考えると、(上記のような「作品のトーンや意図」と反するものは例外)なるべくは-14.0に近づけるに越したことはありません。

しかし、映像表現の中で、-14.0という数値は、僕個人としてはあまりにも高すぎると感じてるのが現状です。
当然、ミックスをそもそも-14.0という数値では作ることはメーターやプラグインなどが扱いづらくなったり、そういうところで感覚が馬鹿になるので、そもそもは低めのミックスとして作ります。
それを後に測定して、マスターを作るわけですが、ダイナミックレンジの広いものだと、-14.0まで引き上げるにはピークを叩く or ラウドネス値を規定より低く納品するという処理をせざるを得ない時があります。

これは今までも散々書いてきた「映像の表現」というところを狭めてるとも思えます。

そういう時、僕は後者のラウドネス値を低くすることを選ぶことが多いです。
「多い」とあえて書いたのは、そうでない時もあるからです。
これはお客さんからして、ピークの表現より音量を取りたいとした場合もある為です。

特にTVCMの近年事情として、Webにも転用することがあるということは、上記でもお伝えしました。
作品としてはおんなじものですが、プラットフォームが違う以上、プラットフォーム毎の規定に合わせます。
ただ、上記のようなことが起きた場合、前者のピークを削るものを選ぶと、厳密にはミックスの異なるものになります。
それは、なるべく避けたいと思ったり、作品の持ってるピークの表現などを殺さないよう、後者を選択してます。

シンプルにいうと、僕が言いたいのは、YouTubeの規定は「別にもうちょっと低くてもいいんじゃない?」ってことです。
別にあとは再生機であげてあげればいいだけで、データとしてそこまで高くする必要はないという風に思ってます。

規定は規定である以上、誰しも準じたいと思ってますし、それがミックスを崩す必要のないものの方がみんな幸せじゃん、って話です。

規定としてのラウドネス値は、あくまで前後間や他との差異を無くすためのものだと思ってるので、別に規定として、高かろうが低かろうが、正直なんでもいいと思ってます。

ちなみに、YouTubeやNETFLIX、Spotifyなど様々なプラットフォーム毎に異なるラウドネス値の現在ですが、さらにiphoneなどの機器側でプラットフォーム毎のノーマライズをする研究も進んでるという話も聞いたことありますし、期待大です。

 「TikTokのラウドネスノーマライゼーション」について


先日、自分のTikTokを見直してた時です。
「あれ?俺こんなポンピングしてるミックスしてないぞ?」となりました。

同じものをYoutubeにも上げてたりするので、聴き比べましたが明らかに違う。
明らかにCompやLimiterによって叩かれてるポンピング。

ただ単にラウンドネスノーマライゼーションするなら全然構わないんですが、波形そのものを変えちゃダメでしょ・・・!て感じです。
そのことをTweetした際に、ある記事を教えてくれた方がいました。

その記事によると、やはり疑った通りの処理をしているみたいです。
かなり詳しく検証されてる記事だったんですが、2024年1月現在、リンクが無効になっておりました・・。
いくらなんでもこのノーマライズは、音楽や音メインのものを上げられてる方からしては、流石にどうなのよ・・・というところです。
TikTokもまともなノーマライズになることを、密かに祈ってます・・・。

まとめ


散々偉そうに長々と書いてきましたが、誤解のないように改めてお伝えすると、
ラウドネスが-何LUFSだのはぶっちゃけどうでもいいんです。
大事なのは、そこに囚われず、本来あるべき表現での作品作りをしていきたいですね。ということです。
本当にこれだけです。

世の中によりいい音作りで、より表現豊かな、良い作品が増えることを願っての思いや考えを綴らせていただきました。

終始、偉そな書き方ですみませんが、僕も勉強中の身でもありますので、色々とご意見などいただければと思っております。

またちょこちょこと書いていきたいと思ってますので、リクエストなども色々いただけると嬉しいです。

ではまた。

この記事が気に入ったらサポートをしてみませんか?