P1000383.jpg

年前買了鐵三角的M50監聽耳機,聽假人頭錄音的音檔後對於聲音在空間上的表現非常好奇,
請朋友幫忙爬文找的結果就是以下這篇文章。
原文轉錄自此 http://www.erji.net/read.php?tid=434701&keyword
都是簡體字,有興趣的可以參考看看。

PS:原本想放假人頭的火柴盒錄音檔供參考,但是檔案上傳至痞客幫後無法表現XZ平面的聲音,只剩下Y軸上下的聲音可以區辨出來,所以在此作罷。不過如果真的好奇的朋友我可以用MSN丟檔給你。

本文

 HIFI里面,比较玄学的是声场;耳烧里面,争论得很多的,也是声场。更有甚者,提出了耳机/耳塞无声场论。 迫使我不得不静下心来,撰写这篇声场的物理性/数学性解剖。
注意:本文将涉及到一些数学推算,所以希望有兴趣的朋友认真阅读,不要走马看花。

另外,本文核心内容和数学证明,是属于本人原创,非网络转载,如果有错误之处(基本上是无错误的,但是有缺陷,我会在文中指出);也请各位心平气和的共同探讨以进一步完善。但是,我不欢迎专牛角尖类型的探讨。

文章将要解决的问题:

1) 什么是声场。

2)耳塞有无声场。

3)为何耳机声场不如箱子。

4)如何通过软件运算来模拟扩大声场距离感。

5)箱子的摆位如何影响声场。

6)究竟如何获取最真实的声场。


第一节:什么是声场。
不少老烧,说听出了ES3声场是椭圆的,UE10是长方的,650是四方的,等等等等。 我个人感觉是四个字 “莫名其妙”!

在我的理解里,声场,就是简简单单的:原始音源的方位角+距离。比如通过耳机,我想大概听到,耳机里面的那声鼓,大概在我右前方的多少角度,大概多远。

OK,就说声纳吧,玩的就是声场,定义敌舰,简单来说,就是敌舰(也就是原始音源)的方位角为60度,距离30KM.



声场的定义明确下来,我们才可以有的放矢,才可以数学建模,来用数学的方式表达和证实声场。


那么,人的耳朵,能感觉到这个声场的存在么?当然能! 实际上,人的听觉定位能力如果用数学来描述,将是非常复杂 (至少到现在为止,科学家还没有真正完全揭开听觉定位的深度秘密)。总的来说,人的听觉定位,最主要还是由两大因素限定: 两耳的时间差,强度差。另外,相位差也是一大重要因素,但是数学描述复杂,同时重要性弱于时间差和强度差,所以本文不涉及讨论。声源发声时,声源到两耳的距离一般来说并不相等.因此到达2耳的声音也就不完全相同,而是具有一定的强度差和时间差.一般我们近似的把人头当做一个球体来处理,对于一般人来说两耳间距为17厘米左右.


那么,时间差的作用是什么? 强度差的作用又是什么?

时间差的作用,我的认为是:判定声场中的方位角。强度差的作用,我认为是:判定声场中的距离。



为什么说是时间差可以判定声场的方位角?很简单的例子:两耳间距17cm,那么不管哪个地方哪个方向发出的声音,时间差不会超过两耳间距/声速,也就是Max(dT)=0.17米/(340米/秒)=0.0005秒。 很惊讶吧,大脑能够根据小于0.0005的时间差距来判断出声音来自那个方位角。

Max(dT) 0.0005秒,发生方位角a=0或者180度的情况下,也就是,当音源-左耳朵-右耳朵成一直线的情况下—这个应该很好理解。

当方位角a变化的时候,dT也发生相应的变化,a=0度开始,dT慢慢减少,一直到a=90度的时候,音源距离左右耳朵相等,此时dT=0。然后,超过90度后,左耳朵开始先听到声音,此时dT变成负的了。一直到a=180度,此时dT= - 0.0005秒。

时间差解决了方位角问题,但是,它无法解决距离L问题。很简单的例子: 音源不管是在100公里外,还是在1米外,只要音源是和左右耳朵成一直线,那么dt一直是0.0005秒。根据dt,大脑根本无法判断音源究竟离耳朵多远。 这个艰巨的任务,交给了强度差来处理。

插一句,理解的读者应该看出这里面有个问题,即耳朵如何通过时间差来判断前后方向的问题,因为声音是X轴对称的。实际上,这是由人耳耳廓结构造成的HRFT来判定前后的,我下文会详细讲解。

还是回到老问题上,左右耳声音强度差如何判断出音源距离。

声音,在空气中的传播,有一个很重要的特点,就是声音强度在离开音源后,先急速下降,再慢慢下降,强度的衰减的速度随着距离的增加而减缓。一个简单的例子:你把耳朵贴在喇叭上,即使喇叭声音很低,也会觉得太响了。离开喇叭才10cm,声音马上就降低下来;再离开1米,声音降低的程度就随着距离的增加开始减弱。



这种特性,用图来表示,就是这么一种曲线。用数学来描述,就是强度P=原是强度P/距离的平方,也就是P(L)=P(原)/L2. 这是本文里面非常重要的一个基本公式,我会在后面证明阶段用到。当然,这是最精简的示意性质的声音强度公式,实际情况是非常复杂的。


讨论完声音强度的特性和公式后,我们再回到原先的话题上,耳朵如何通过强度差来判断音源位置距离。

这里的强度差,是指左右耳听到的声音强度之差。

举一个例子:拿起你的右手,尽量贴近你的右耳朵,打一个响指,OK,是不是右耳朵被很响的震了一下,左耳朵则没听到多少声响? 也就是,此时左右耳声音强度差很大。而且,你的大脑在那个0.0005秒的瞬间,计算出:我靠!这么大的强度差,肯定音源就在我耳边,距离非常近!

然后,你再试试看,不要再贴近你的右耳朵,用右手在右前方再打一个响指,此时,是不是右耳朵听到的还是比左耳朵响?但是,此时的强度差没有刚才那么大了。当然,你的大脑也在瞬间反应出来:强度差不大,呵呵,这种强度差,音源差不多距离我半米左右吧。

呵呵,通过这个活生生的例子,你基本上明白了,强度差和音源距离的关系。

强度差越大,表明音源越近,你的大脑越容易判断出大概距离。--这是由声音强度衰减特性决定的,距离越近,衰退越快速。

强度差越低,表明音源越远,你的大脑越难判断出大概距离。--- 比如打雷,左耳朵和右耳朵基本上听到的是相同强度的声音,于是你迷糊了,究竟这个雷,打在10KM处还是100KM处?天知道!

耳朵感知的音源距离=左右耳强度差的倒数。

下面,我用经验数学公式来描述强度差与音源距离的上述关系,也就是: L(判)=1/( P(左)-P(右))= 1/{P(原)/L(左)2- P(原)/L(右)2}.


细心的朋友,会发现一个问题。当方位角a很小(比如0度)的时候,那么强度差很容易听到。但是随着a角度上去后,强度差开始变得不明显,特别是当a角=90度的时候,左右声音强度差就等于0了,此时还能用强度差来判断距离么?

呵呵,这里面的解释比较复杂。实际上,答案是,a=90度;强度差=0 的时候,音源在正面中心,此时大脑根据强度差来判断距离的能力完全丧失了。但是!我要说的是但是! 生命就是一种奇迹,此时,大脑会根据另一种强度差来判断音源距离,那就是(我不知道正确的名字是啥)-经验声音强度差。 举个例子,你活了这么多年,你母亲很多次会站在正对面和你说话,此时你的眼睛和耳朵会协助大脑长期条件反射,你会知道母亲的这个正面的说话的声音的音量大小,大概距离你多少远。

嗬嗬,这种根据经验声音强度差来判断,完全是一种大脑后天培养的能力—所以这种能力会存在缺陷。举个例子:每年夏夜,你都会听到蛐蛐叫;听了多少年了,只听到声音,从没有晚上起来拿手电去查个究竟,看看蛐蛐究竟离你多远---反正比较远,因为你两个耳朵听到的蛐蛐的叫声强度差不多。

多少年过去了,今天晚上,你躺在床上再好好听一下蛐蛐的叫声(夏夜,应该听得到吧,反正我这里能听到):你会发现,你很容易听出来蛐蛐的方位角。 但是,你无法听出来,蛐蛐离你大概多少远,即使你很认真地去听,很认真地去想,也很难。因为-你大脑中还没有蛐蛐叫声的参照系统。好比你看天上的星星,你不知道究竟是那颗亮一点的星星离我们远呢,还是那颗暗一点的星星离我们远—因为没有参照物。

而且,根据经验声音强度差来判断距离会产生错觉。再举个例子:你用MX500听交响,如果根据经验声音强度差来判断,会出现如下谬论:音量开高了,难道就距离近了,声场下来了?音量开低了,难道距离远了,声场拉开了?呵呵,你的大脑聪明得很,它会告诉你,此时它不知道!!

洋洋洒洒这么多文字,基本上讲清楚了耳朵的声场定位的原理和局限。先总结总结,以免你们忘记:

1)当音源和左右耳成直线距离时(也就是方位角a很小时),耳朵的方向感和距离感最好,此时时间差最大,同时左右耳强度差最高(当然,强度差大小和音源与耳朵的距离也有关-最好是音源和左右耳呈直线,同时音源非常贴近一只耳朵)---- 也就是说,此时耳朵在声场定位方面的能力最强--- 所以古话说,“侧耳聆听”。

2)a角度升高,时间差开始减低,但是耳朵还是很好的根据时间差来做方位角定向。但是!因为方位角定向无法应付X轴对称的方位角定向;所以人有耳廓,根据HRTF修正,来辨别前后。头部相关传输函数HRTF定义,看附录a.
               
2.1 正因为HRTF对前后定位的贡献,所以无HRTF修正的普通CD,你用耳塞听,你只能听到,声音好像都发生在眼前,没有发生在身后的。在左?在右?在方位角30度处?这些基本上都还可以听出来。但是听起来就是没有身后发出的声音。
       
2.2 如何解决前后定位问题?用人头录音来做HRTF修正。看附录a.


3)a角度升高,左右耳强度差开始降低,人耳开始逐渐根据经验声音强度差来判断距离,此时耳朵对距离远近的定位效果开始减退。所以老话说:听宽声场易,听纵声场难。  更有甚者: 花百万买箱子声音的接像退后一米。 呵呵,一句话,因为耳朵对于a角接近90度的声音的距离感只能凭经验来判断距离,所以实际上,耳朵对于正前方的声音的声场定位的能力非常薄弱的。 不过,生物的进化是非常perfect的,一般而言,眼睛对距离的定位能力远远高于耳朵,但是眼睛视野不够广;所以人两侧长了耳朵,主要是用来做方位角定向,然后脖子转动,眼睛定位目标距离。

顺便,06年这个人的疑问,得到了解决。http://www.erji.net/read.php?tid=315337

歇口气,下面即将开始讲解:录音所记录的声场,耳机/耳塞的声场,箱子为何能扩大声场。基本上采用数学推算了,各位届时可要打起精神……..


第二节:录音,如何记录声场。

万物有因缘,讲放音,先讲录音,讲讲录音的时候,如何把声场信息记录到双声道录音中。

一般普通的CD录音,我们称之为室内录音,左右声道麦克风的距离都比较远。(据说录交响现场,左右声道的麦克风的距离高达30米)。

那么?为什么要这么做?因为—要记录声场。

声场的物理表达形式,我已经讲清楚了。1)时间差 管方位角。 2)强度差 管距离感。那么,要做好CD的立体声的声场的录制,必须拉开时间差和强度差,也就是拉大L左和L右之间的差距。此时,最好的方式就是,拉开左右声道麦克风的间距。



这样的话,站在中间唱歌的人,方位角还是90,时间差强度差还是0;但是边缘的乐器等,方位角就很低了,时间差和强度差都有所上升---自己看图,和上面的图比较比较,不用多解释了。很多HIFI发烧碟, 人声很正中很清晰,但是无纵深距离感(也就是说,你不太能感觉到他究竟离你多远),但是边上的乐器,比如鼓的方位感和距离感就比较明显了。


OK,假设左右声道麦克风非常完美,同时同步工作得非常棒,那么可以肯定,它记录下了完美的时间差信息和强度差信息,也就是记录好了声场信息。那么,接下来,我们就可以讨论箱子回放时候的声场情况。

第三节:箱子,如何再现声场信息。





OK,你现在坐在两个对称箱子的正对面的中间,黄金位置上。如果麦克风纪录的时间差信息无误,那么你在这个位置上听录音,时间差不会改变—很简单,正因为你正坐在黄金位置上,那么左箱子到达你左耳的时间和右箱子到达你右耳的时间基本上是同时,所以唯一的时间差就是当时麦克风录音室后的左右声道时间差。箱子,很好地为坐在中间黄金位置的你再现了 有时间差所控制的 方位角a的定位。

如果你位置坐片偏差了,比如靠左了,那么箱子到达你左右耳的时间就有误差,此误差导致了你对录音的那个音源的方位角的定位的误差。
方位角对了,不是万事大吉,最主要的,也是最难的,就是强度差要搞对。还记住文章开头的那句总结么?

“强度差越大,表明音源越近,你的大脑越容易判断出大概距离。
强度差越低,表明音源越远,你的大脑越难判断出大概距离。--- 比如打雷,左耳朵和右耳朵基本上听到的是相同强度的声音,于是你迷糊了,究竟这个雷,打在10KM处还是100KM处?天知道!唯独知道-我靠,好远啊,好宽的声场啊!!”


实际上,这里有一个相互很有哲学性的制约的要素:那就是强度差越大,表明音源越近,定位越清晰,但是声场越小。反之,那就是强度差越小,表明音源越远,定位越不清晰,但是声场越大。

所以,玩HIFI就是玩平衡,你要结像定位清晰,那就要牺牲声场。 否则,你要声场牛B要无边无际,对不起,结像定位那就抱歉点了。---请吃透这句话!!也算不枉看这么多文字!


OK,现在,让我们计算一下听箱子时候你左右耳朵的强度差。在计算的时候,为了计算方便同时不影响任何推论,我假设麦克风所获取的声音强度刚好在箱子中完美放出,也就是说,麦克风当时的位置,现场声音强度多大,那么现在我箱子也放出多大的声音强度。

这样的话,我们就可以非常方便的计算出此时左右耳朵接受到的声音强度差。

左右耳朵接受到的声音强度差

1)  Delt P=P3-P4

2)  P3=P1/L32+P2/ L42

3)  P4= P2/L32+P1/ L42

4)  P1=P0/L12

5)  P2=P0/L22

结合者5个等式,可以推算出(经过就不写了,很简单,有兴趣自己去算)

Delt P=Po*( L22 L42+ L12 L32 - L22 L32 - L12 L42)/ (L12 L22 L32 L42)

考虑到L3约等于L4, 可以看出,Delt P接近0,也就是说,此时听箱子的左右耳朵,强度差比较低,强度差越低,表明音源越远,大脑越难判断出大概距离,但是声场很大。
================================================
第四节 再看一下耳塞/耳机方面的重放情况:



耳塞和耳机重放,有一个很大的特点,就是左耳朵只能听到左耳塞;右耳朵只能听到右耳赛 (KK是一个例外,KK和箱子一样,左耳朵可以听到左单元和右单元;右耳朵也可以听到右单元和左单元;)。那么箱子那个图中的L4不附存在,L3则是指耳膜和耳机/耳塞单元的距离(很小),此时:

左右耳朵接受到的声音强度差

1)  Delt P=P3-P4

2)  P3=P1/L32

3)  P4= P2/L32

4)  P1=P0/L12

5)  P2=P0/L22

结合者5个等式,可以推算出(经过就不写了,很简单,有兴趣自己去算)

Delt P=Po*( L12 - L22) / (L12 L22 L32)

看此等式,首先,它不可能接近0,因为L1和L2差距比较大。其次,L1, L2都是麦克风录音所定义的,无法改变,所以,能变的就是L3大小,如果是耳机,那么L3比较大;如果是耳塞,那么L3比较小; L3越小,Delt P越大,也就是说强度差越高,表明音源越近,定位结像越精确,但是声场越小。耳塞的L3小于耳机的L3,所以耳塞声场小于耳机。就这么简单。

但是无论耳机还是耳塞,声场无法与箱子比拟,因为箱子的Delt P=Po*( L22 L42+ L12 L32 - L22 L32 - L12 L42)/ (L12 L22 L32 L42)
,不但分母L3, L4都很大,而且分子里面因为L3约等于L4,所以分子接近0,整个Delt P接近0,耳机/耳塞的声场是没有办法和箱子的声场比。


第五节:大总结!

写到这里,基本上快结束了。最后总结几句吧:

1)从原理上讲:箱子声场>耳机>塞子,但是塞子有声场。
2)不管是箱子还是耳机塞子,对于方位角的定位都很准确,只要AD/DA时钟精确的话。否则时钟不准(存在jitter),那么肯定影响时间差,进而影响方位角的定位。
2)如要想要听声场,可以,耳机赛子的话,有个办法,把塞子拔出来点;把耳机掰开来点,这样L3就大了,于是Delt P下来了。后遗症就是,结像和距离定位感就差了。
3)只要离开箱子一定距离,使得L3约等于L4,那么基本上箱子的声场就能定型了;要听结像和距离定位,可以,拔箱子尽量合过来,脑袋探在中间,这样L3和L4之间的差距拉开了,Delt P就增大了,结像和距离感就开始精确了。
4)为啥箱子比耳机自然?耳机比塞子自然? 很简单,第一:声场大;第二:听箱子HRTF全效工作;听耳机HRTF半效工作;听塞子,HRTF基本不工作(只是塞子头和鼓膜的那么一丁点耳道贡献了点HRTF.
5)除非人头录音,否则塞子/耳机听不到来自后面的声音,最多听到的是和你耳朵平行的声音。
6)双声道的箱子,不可能听到来自后面的声音。一定要听,5.1声道登场!!!
7)只要认真看完全文,那么引子里面的6个问题也就一一可以自己解答了,我也懒得再泼妈。



写累了!!  但是很欣慰!!终于把声场写完了。壮举!壮举啊!!




====================================
附录a: 人头录音

一种更先进的录音技术。其目的是用耳机时把虚拟的声音变的更加真实。过耳机的朋友大多知道,耳机重播音乐的效果和喇叭有很大的不同,特别是在“音场”方面。耳机虽然也能营造出音场的效果,但远不如喇叭自然。“耳机的最重大缺陷就是音场不自然”已经成为发烧友的共识。这是什么造成的呢?主要有两个因素。首先,用喇叭重播音乐时,声音信号从喇叭发出,通过空气传播,到达人耳。这时,人耳听到的“喇叭声音”和听到自然界中各种声音一样,经过耳廓、外耳、耳道,传导到耳鼓膜,被大脑神经所感知。

在这个过程中,人的耳廓、耳道、人的头盖骨、肩部等对声波的折射、绕射和衍射,都会对声音造成一定影响。在声学上,用HRTF,即“头部相关传输函数”来描述这种影响。正是由于HRTF的影响,人的大脑能根据经验判断出声音发出的方位和距离。人即使蒙上眼睛也能判断声音发出的方向和距离,这就是K大脑根据HRTF影响的经验做出的判断。通过耳机欣赏音乐时,声音是被耳机的驱动单元直接“灌”进双耳的,也就是说,人的耳廓、头盖骨和肩部等对声音造成的影响没有了,HRTF不存在了。在这种情况下,人的大脑就无法准确判断声音的方位和距离。很多人觉得,用耳机欣赏音乐时,音场的感觉不自然,乐器的定位似乎是虚的,其主要原因就在于此。另一个原因是,制作立体声录音时,一般左右声道的话筒彼此相距几米、甚至十几米。相距如此远得到的立体声信号被两只相距只有30厘米的耳机单元灌进双耳,通常得到的效果就是:音场的大部分似乎挤压在左右耳之间的脑海中,俗称“头中效应”(In-Head Effect)。

然而,有一种“仿真人头”(Dummy Head)的双声道录音方式完美地解决了耳机的这一弊端。用仿真人头方式录制的唱片当用耳机欣赏时,能营造出比喇叭更为逼真的360度音场效果,是迄今为止在音场再现方面最完美的一种高保真录放方式。要想用喇叭营造出可与之媲美的音场效果是不可能的,除非用无数只喇叭将听者围起来,录音时用上无数声道!然而,仿真人头录制的CD只有用耳机欣赏才能体会到其妙处,用喇叭欣赏并不能发挥其音场上的优势。为什么呢?这就要谈到仿真人头录音技术的原理了。

简单地说,仿真人头录音方式就是把两个微型全方向性话筒安置在一个与真人头几乎一模一样的假人头的耳道内(接近人耳鼓膜的位置),模拟人耳听到声音的整个过程。这个假人头有耳廓、耳道、头盖骨、头发和肩膀,甚至皮肤和骨头也是采用和人体最为接近的材料制造的。这一切都为了一个目的:尽可能真实地模拟人耳在听到声音时所受到的一切HRTF的影响。

这样两个话筒录制到的信号应该说就相当于一个在假人头所在位置的真人的双耳所听到的声音。这个双声道的信号不能加任何后期处理(否则就会破坏“模拟真人头”的真实性),直接灌录到唱片上。只要用耳机欣赏这张唱片,就能几乎完美地将录音场所的音场(360度)还原出来,好像听者就处在录音场所中似的,因为所有的HRTF都保存在了唱片上,被耳机重放出来。显然,用喇叭放这张唱片也会有不错的立体声效果,但绝不能跟耳机相比。因为在喇叭播放的过程中,听者又受到了一次HRTF的影响,干扰了唱片中原有的原始HRTF信息

noiramon 發表在 痞客邦 PIXNET 留言(0) 人氣()