更易理解用图像概念去解释音质名词
- 三频与结像
去年笔者写过一篇《iMP3 adb玩音频(1):音质名词的解释》,虽然使用尽可能通俗的语言去描述,但文字形式的表达多少还是枯燥与不易理解。后来笔者也在思考,认为在很多方面,声音与图像的道理是相似的,所以为何不用更直观的图像概念去表示音频概念呢?
视觉与听觉都是我们感知事物的重要方式,但中国有句俗话叫“耳听为虚眼见为实”,大概就是说我们更倚重眼睛看到的事物,并且对视觉体验的要求往往要比听觉体验更高,比如白纸黑字总要比口头约定更有效力,比如我们挑选手机,手机屏幕的尺寸、分辨率、画质都是重中之重,但手机的音质却鲜有关注,再比如花1万块买个单反相机与花1万块买个耳机,在大众看来前者是有追求、有品味,而后者则是神经病、败家子。
于是话题也就来了,既然对于照片、影像我们的感触更直接,判断的标准也更客观更统一,那么如果用画质的概念去形容音质,通过一些照片去比较,就可以更容易的理解某某音质名词究竟是怎么的含义,所以也就有了这篇文章。
三频
三频是指低频、中频、高频,有的器材低音很震撼,大概可以说它低频好;有些器材听起来很亮丽,从某种程度上也可以说是高频好。从真实的角度说三频分布均匀是最好的,但有些器材为了一些特殊听感与个性的需要,可能会刻意增强或削弱某一频段的表现,比如让低音残废或者高频暗淡。正如上面图片中锐腾 塞克斯风的黑、白、棕三对耳塞,就是在三频的组成比例上下文章,有的注重均衡,有的注重低频,有的注重高频,于是造成了声音上的较大区别。
显示屏幕的域
两块屏幕两种不同的颜表现
在图像中,三原大概相当于声音里的三频,域范围大概相当于声音里的频率响应范围,所以显示屏幕的域越广越好,而耳机、音箱同样是频率响应范围越广越优秀。在显示器的评测文章中我们基本都会看到有域测试,消费级显示器的域表现通常不是很好,颜有偏颇,例如有些显示器红表现不够好,有些绿表现不够好,而我们看到的整体画面就会
偏,比如偏黄、偏蓝等等。音频器材也是同样的道理,比如一款正规的耳机往往会有频率响应曲线图,三频的多少分布上总会有所不同。但实际要求上却也有不同,比如一个三频不均衡的耳机,依然可能是一个声音好听的耳机。但是显示屏幕如果彩有偏差,那应该不会是一个好的显示屏幕。
结像
不少耳机发烧友的听感文章里都会有结像这个词语,而结像是什么,是个很抽象、不容易理解的概念。如果用相机、照片的概念来表述,你可以把它理解为对焦,结像好的声音就相当于一张对焦清晰的照片。
对焦失败(结像不好)
对焦成功(结像好)
比如上面两张照片,一张是对焦失败的,一张是对焦成功的,拍摄的主体看上去一个模糊一个清晰。另外唠叨一句,这两张可不是手抖模糊,而是魅族MX4手机相机优化很糟糕,经常出现不会对焦与跑焦的情况,所以拍出来的大部分都是废片。
而结像好与坏,就与上面的两张照片类似,一首音乐如果你用某套器材听起来声音模糊、发虚,形体感不强,那就是结像不好,就像那张对焦失败的照片。所以对焦好坏对于照片还是至关重要,没对好焦的照片就是一张废片;而结像不够好的音频器材,也是废材,都没有什么卵用。
高解析
低解析
解析比较容易理解一种素质,就是指声音的清晰度、对细节信息的还原能力,一方面与录音的质量、音乐文件的无损程度有关,一方面也与播放器、耳机的好坏有关系。在听较好质量的音乐时,耳机、播放器的好坏之分,很大的已经也是它的解析强弱。在图像中也有解析这个概念,意思也很相近,就是图片的清晰度、细节表现,它的好坏同样与图片本身的质量,以及显示屏幕的好坏有关系。
原图
锐化带来的高解析错觉,画面生硬,有细节损失
但是,一些时候解析也容易“作假”,解析好一般可以理解为某个地方的细节突出与明显,但这种突出可能是通过刻意制造出来的,比如声音薄、低音少的耳机,就会显得好似解析高,但实际上这是减少声音信息的内容,达到突出少量细节的目的,但是这样的声音初听也许觉得很惊艳,但听一会就会感觉出来声音假、不耐听。照片也可以经过锐化处理,让解析看起来似乎更好,但过度锐化会让照片丢失细节,看起来假、不耐看,这与耳机的假解析是类似的。
人声
适合人声的器材应该类似这张照片,适当的突出人物而弱化背景
大多数人听音乐,听的都是流行歌曲,所以人声表现好坏,往往关系到一款播放器、耳机的评价。怎么算人声好,一般说来大概就是人声距离近、清晰,如果再加一些音染就更好了,但是人声距离近、人声突出,也就意味着背景音乐会相对不突出,或者说容易被耳朵忽略。如果用照片的概念做比喻的话,也就是人像照片,一般都会用大光圈,把背景虚化掉,这样
人物就会显得显眼。而音染,就相当于照片中的PS,比如磨皮呀、美白呀、瘦脸呀,所以听歌曲听到的人声,往往比歌手真人原汁原味出来的好听很多。同理那些美妙绝伦的人像题材照片,照片中人往往也比真人看起来漂亮的多。
无论是流行歌曲,还是人像题材的影视作品,很多时候追求的并不是100%的真实,而是加入了很多修饰、润,一种高于现实的美。并且也正得益于过多的美化处理,它们对器材,比如耳机、音箱,或者是显示图像的显示屏幕的性能要求并不高,我们用普通的耳机听歌曲一样好听,用普通显示器显示美女照片一样美丽。相反,有时候太好的耳机听流行歌曲,因为解析过高、信息量太大,反而感觉出来录音中的不足,并听到很多影响人声的额外声音,反而不那么好听。
信息量与声场
信息量从字面上很容易理解,就是所包含的信息的多少,但是在音质描述里,也比较容易与解析混淆。它究竟与解析有怎么样的区别,下面笔者用2张图来表现一下。
有一定景深,画面信息量较多
浅景深,画面信息量较少
这两张照片拍摄的是同样的内容情景,但是景深不一样,上面的一张景深深一些,所以后面盒子上的文字大致还是能辨认出来。下面的照片景深浅,所以虚化的比较严重,后面盒子的文字完全无法辨别。如果抛开照片的拍摄意图、美感,单纯的以这两张照片所记录的信息量多少来说,无疑是上面那张景深深的照片信息更多,照片文件的大小也是深景深的那张大一些。
而解析呢,两张照片的主题都是小房子,小房子前面的部分也都是清晰的,所以就不能说景深浅的照片没有景深深的照片解析高,两张应该是同样细节表现力,解析是相同水平。但由于拍摄参数的不同,整张照片内容的信息量是不同的,这样就理解了吧。
还有,照片中的景深,也有些类似音质里里面声场的纵深,纵深不够好,声音听起来就比较平面,纵深好的话,那么听起来就显得深邃,层次感强。但是和照片景深不同的是,音频里面基本都是纵深越深越好。
表示听的词语
另外,照片的信息量的大小,也不只是景深,还有分辨率、颜等诸多方面。同样声音的信
息量大小,也与音乐文件的无损程度,以及三频的多少有关系。比如某些耳机低频残缺,虽然对某一细节刻画很清晰,让人感觉解析很高,但从完整度上说音乐的信息是缺失的,也就是信息量不足。
最后,信息量是越大越好吗?笔者认为无论是音乐还是照片,都要根据具体情况来看。比如风景照片,有时候为了表现完整的大自然之美,那就需要景深,需要大的信息量,才能把景全部记录下来。而人像作品,很多时候为了突出人,需要浅景深,前后的信息都虚化掉。而音乐中,像古典音乐、交响乐,需要的是真实重现,所以需要各种信息都要记录下来,这就需要播放器、耳机等音频器材的信息量,要求很高的硬素质,越高端的器材也就表现越好。而流行音乐,本身不需要那么多的信息量,甚至信息量过大还可能会出现顾此失彼,注意力不能很好的集中在人声上面,从而造成听觉疲劳等问题。
- 动态、瞬态、通透性与听感
动态
动态又是个很不好理解的词语,就算对定义大致理解,但是实际听器材听音乐,依然可能把
握不好究竟怎么是动态好,怎么是动态不好。而如果用图像来表达的话,也许能更好把握一些。
动态可以看成是灰阶、宽容度
一张平板电脑实拍照片
图像里也有动态这个概念,用来表示光线明暗的变化范围,也可以说是灰阶、宽容度什么的。比如上面的那张照片,是个平板电脑,当时笔者用相机拍摄后,在家里的一个显示器看的时候,下面屏幕与边框的界限分不清,似乎是平稳过度融为一体的。后来换了一台好一些的显示器,下部屏幕与边框的界限很明显可以看出来。也就是说,最初的那台显示器的动态很差,照片原本的信息无法很好的表现出来,或者是需要把显示器亮度调到很高时才能表现出来。
同理,我们用手机、相机拍夜景的时候,也有动态,或者是宽容度这个概念。有的机器拍出来的夜景,暗部是死黑一片,即便后期PS处理增加曝光,暗部依然细节很少看不到什么内容。而好的机器拍出来的照片,暗部的内容是可以保留下来的,即便原始照片直接看看不太
出来,但经过曝光处理,也是可以还原出来的。另外,现在大多数相机、手机中开始加入了HDR高动态范围功能,意义就在于保持整体曝光适合的前提下,增强暗部的细节与内容。
音质中的动态,是声音响度的范围,与图像中的灰阶的级数范围很类似。用动态不够好的播放器、耳机,原本音乐有的内容感觉不到,或者说是正常音量下感觉不到,必须开大音量才能感觉到,但此时其他的声音就会变的太大而让整首音乐无法正常聆听,那就是动态不够好。而动态好的耳机,正常音量下该有的内容都可以被还原出来,都可以感受到。