理解音频压缩格式

理解音频压缩格式

音频领域的发展正处在十字路口。随着因特网带宽的增加,我们不再像之前那么需要数据压缩的音频文件了。Joe Albano将带我们探索音频品质和体积的问题。

我们每天都会听歌。不知道你思考过没有,现在的很多人都只会听一种音频文件——我在谈论那些无所不在的,经过数据压缩的低解析度音频文件,像MP3和你从iTunes Store下载的MP4/AAC。涉及到音乐制作的用户,需要了解这些格式在音质方面的妥协。无损的方式能在不妥协音质的条件下减少音频文件的体积,保留所有音频数据——FLAC和Apple Lossless可能是大家最熟悉的编码方式——但它们最多将文件体积减掉一半。有损编码——MP3、MP4/AAC等——会更剧烈地削减文件体积。这些小体积的音频文件,在互联网诞生时,成为了流媒体和音频下载成功的关键——但要将音频文件压缩到原体积(最高品质的PCM)的5至10倍小,你必须得牺牲点什么。

图1 最常见的音频文件格式:线性PCM、无损编码和有损编码
图1 最常见的音频文件格式:线性PCM、无损编码和有损编码

受影响的

有损数据压缩技术利用心理学原理,实现了体积的缩减。人类的听觉器官(耳朵&大脑)存在遮蔽效应,会遮挡声波中的一些元素,让听者无法接收到它们。有损算法分解和分析音频波形,对其进行重新编码,将那些被遮蔽的音频部分以较低的比特解析度表示。这些有损算法使用了感知编码(Perceptual Coding)来表现心理分析和数据衰减,最后的音频文件会比原体积小大约10倍左右,即CD中一首40M的歌曲只有4MB左右大了!这不仅能让它小到可以放进邮件中,也减少了数据比率(用于流媒体和下载),从PCM的1.4MB/秒(1400 kb/秒)下降到128-160 kb/秒。即便在早期互联网带宽较小的时期,这些传输活动也能进行。这巩固了音频(视频)在新互联网世界的地位。

图2 文件体积对比:PCM(16&24位)、有损(Apple Lossless)和MP3 & MP4文件(各种比特率)。
图2 文件体积对比:PCM(16&24位)、有损(Apple Lossless)和MP3 & MP4文件(各种比特率)。

但这些数据/体积的减少会带来损耗。与无损文件不同,有损格式不会保留所有的音频数据,尽管比起直接削减采样率和比特解析度,它的声音会好很多,但音质的损失还是可以听出来的——编码本身,它的执行方式以及新文件的体积,都决定着音质的妥协程度。

声音

MP3和AAC会从原始,未压缩的PCM音频数据中拿走多少?这要看情况。MP3或AAC转码处理并不只有一种执行方式,所以,不同的编码软件可能制造出不同的结果。在适合音乐的最小文件体积中(128/160 kb/秒),通常会有明显的低频损失,高频会感觉脏,深度和清晰度都有损失,有时候,也会减弱立体声声场。同等体积的AAC,会比MP3的声音效果好一些(当我不得不使用有损格式时,我更倾向于AAC)。现在,更常用的是“双倍”体积——256 kb,甚至320 kb/秒的MP3/AAC。Apple也将iTunes Store的标准提升到了256 kb AAC(甚至慷慨地升级了用户过去购买的128kb文件)。

当我在文章中使用音频片段时,我会转码为256 kb AAC。单独来听,它们更容易接受,没有小体积MP3的缺憾。但既然当前的有损文件没有那么糟糕(至少比以前好),那么为什么你在网上听到的流媒体音频——特别是YouTube和其他社交媒体网站——仍然很糟糕呢?

造成这个问题的主要原因是,当音频上传到商业流媒体网站时,网站会进一步减小文件体积(大概是为了最大化服务器带宽),对音频进行有损的转码,导致你精心准备的256/320 kb音频文件变得尖锐、相位模糊。不幸地是,要解决这个问题很麻烦,除非你有办法求助。很多网站没有给你任何的选项,而一些网站会让你花钱购买更好音质的会员——如果你在推广自己的音乐,或推广你自己作为工程师或混音师的录音室技艺,那么真得仔细考虑你所使用网站的音质选项了。

现状

现状就是这样,我们应该谈谈有损音频。随着大部分用户的带宽变大,我们真的还需要有损压缩吗?256 kb只不过比原始(CD品质)的PCM版本小5倍,无损的编码只是PCM文件的一半,体积差异并没有以前那么大了。Apple还没有进入无损领域,但提供可下载的高音质无损版本,已经成为越来越多网站的计划(Jay-Z的新流媒体服务就以低价格的高解析度选项为特色)。虽然很多人还是会碰到连接过慢的问题,也不是大规模抛弃有损格式的时候,但逐渐地,我们将不需要它们,无损音频应该会占据主导。

但这个潜在的过程因为其他因素变得复杂。当一些人谈论高解析度音频时,他们不仅是指有损和无损编码技术的差异,而是在说最高音质(未转码)PCM文件的采样率(如标准的44.1k和48k),尤其是高采样率(96k)。24位解析度是(更加精准)现在可接受的专业标准PCM音频,但采样率的问题存在争议(并非所有工程师都相信,提升采样率会获得好处,因为这会在音频文件中引入超声元素)。现在录音音质的争论,更多是聚焦在为了获得更响文件(声名狼藉的响度战争)而在母带处理中使用/过度使用重压缩和限制的问题。所以,有损和无损的问题跳转到了标准解析度PCM和高解析度PCM的争论以及对母带压缩的抱怨。争论不休,不同的阵营关注的方面不同,逐渐让这个问题成了音频领域的巴别塔。

好好利用它

对于这篇文章,我尝试只关注有损/无损转码的问题和标准,将那些问题留在其他时间和地方。所以,当你为自己精心制作的录音和混音制作有损版本的时候,怎样做能尽可能地保证品质,达到可接受的目的呢?比如,如果我需要给音乐人客户在邮件中贴上附件(小文件),试听整个混音的处理,我可能不会犹豫,就将它转码成256k AAC或320k MP3。但如果是将文件发送给发烧爵士乐厂牌,主要的评判标准是音质的话,我会坚持(他们也会)用无损文件,就算这意味着放弃发送邮件,改用能处理较大体积文件的分享网站。

在制作无损文件时,有一些可用的选项。像是Joint Stereo(可改善立体声文件的转码)和Filter Low Frequencies(帮助避免文件中强烈低频造成的失真),有时候能帮助你找出某些音频文件中存在的问题,但关键的设置是品质和数据比率——比特率。如果有Quality选项,那可能会消耗较长的时间(现在基本可以忽略),但至少,你知道你会获得了那个转码器的最佳处理结果。说到比特率,因为现在的带宽越来越高,所以我不会使用过去的标准(128/160kb),而是使用256/320kb——文件体积虽然加倍了,但仍然比原始文件小五倍,而比特率越高,也越能减少文件中的人工现象。实际上,如果换个思路,你甚至可以制作和发送无损的版本——它比256/320kb的有损文件立体要大2、3倍,但不会被邮件服务商拒收,又能避免所有有损文件的问题!

图3 在Logic(顶部和中部)和QuickTime Pro 7(底部)中的MP3和MP4文件制作选项。
图3 在Logic(顶部和中部)和QuickTime Pro 7(底部)中的MP3和MP4文件制作选项。

如果使用独立软件制作文件,那么你应该尝试多个转码器,选中一款音质最好的。如果使用DAW,大部分会在“并轨到硬盘”处理中包含MP3或AAC文件的制作选项,比如数据比率选项。大部分的DAW都有授权的高品质转码算法。同样,iTunes和QuickTime也能获得不错的结果(在Mac上,你应该在“实用工具”里放一个QuickTime 7的拷贝,它为AAC/M4A音频文件的转码提供了用户自定的品质选项——需要你做一点实验)。不需要多说,原始文件越干净,感知编码过程得到的品质就会越好。不幸的是,电平过大,压缩严重的母带如今随处可见,通常,它的转码效果比压缩少,动态足的混音要差很多。

总结

因为很多用户还是使用着小带宽,邮件服务商仍然会限制附件的大小,所以我们似乎还需要使用有损音频,至少在短时间内。除了技术考虑,有损音频文件也是一代音乐爱好者和制作人习惯使用的标准。有些研究指出,某些听众甚至更喜欢听带宽受限,有压缩的音质,而不是最高品质的PCM!(我想,这可能就是一种习惯——如果/当他们有机会习惯更好的声音品质,他们也会转过来的)。在这期间,担心音质的人们可以交换PCM/无损的音频,在有需要的时候,找到品质最好的转码器,选择最高的比特率,留意任何可以发布作品的网站。注意这个领域的发展——一切都会变得更好,改变即将到来。

发表评论

登录后才能评论

评论列表(1条)

  • K-cat
    K-cat 2015年8月11日 上午12:05

    顶啦,我呢,比较追求音质