在MP3之后,3GPP又制定了一系列的语音编码(压缩)新标准──AAC和AMR家族。AAC家族包含了AAC、HE-AAC、EAAC+;其竞争对手AMR家族则包含了:AMR、AMR-WB、AMR-WB+。这些新技术足够让人眼花缭乱,但对手机芯片、制造业者和工程师而言,这是一个崭新的机会。
AAC
AAC(Advanced Audio Coding)也称为MPEG-2 AAC,是一种数据会遗失(lossy)的语音串流压缩标准。AAC是MPEG-2的一部份,是用来取代MP3的,但是AAC和MP3不同,AAC无法向后兼容,MP3可以,例如:MP3可以和MP2兼容。
AAC最多可以支持48个频道,取样率从8 kHz到96 kHz。AAC的语音分辨率(resolution)比MP3高,一般而言,96 kbps的AAC之语音品质优于或等同于128 kbps的MP3,因此,AAC可以在低速的网络内传输语音串流,而且,不会影响语音的品质。
HE-AAC(AAC+)
HE(high efficiency) AAC又称为MPEG-4 HE-AAC或简称AAC+,它是MPEG-2 AAC和SBR(Spectral Band Replication)带宽延伸修订版的技术组合。HE-AAC不是要取代AAC,而是要延伸MPEG-4的语音品质,能够以更低的速率传输(32 kbps)。而且,HE-AAC译码器可以对AAC解碼。
若要产生48 kbps的HE-AAC立体声,HE-AAC编码器会产生两种信号:一个是42 kbps的MPEG AAC信号,另一个是6 kbps的SBR信号。然后,此SBR信号置于MPEG AAC的辅助字段内(该字段是MPEG-4定义的)。最后,构成一个完整48 kbps的MPEG-4 HE-AAC串流。SBR代表高频的成份,而AAC代表低频的成份。HE-AAC译码器使用AAC和SBR信号,产生全频信号;而AAC译码器只使用AAC信号,亦即,只有低频成份被它解碼。
HE-AAC能传输48 kbps的CD立体声,或128 kbps、5.1声道的“环场声”(surround sound)。这样的效率,使它适用于Internet传输,或移动数字广播。不过,由于HE-AAC的高延迟特性,使它不适用于双向的通信应用。
EAAC+
Enhanced AAC+(EAAC+)是在2004年时,纳入3GPP的第6版标准中。根据3GPP,它是由MPEG-4 AAC、MPEG-4 SBR和MPEG-4“参数立体声”(Parametric Stereo)技术组合的。“参数立体声”技术能够在低传输率中,进行“立体声”的编码,其基本原理类似SBR。
AMR
AMR(Adaptive Multi-Rate)标准是在1998年被提出。它的主要功能是提供移动装置使用的基本语音(baseline speech)。它以可变速率的非立体声(mono)传输,速率在4.75 kbps~12.2 kbps之间,它属于窄频,带宽只有3.5 kHz。它被3GPP当成3G无线电网络系统的基本编译码技术;3G是从GSM、WCDMA、EDGE、GPRS演变而来的,而且,不管是2G、2.5G或3G,AMR都是这些无线电网络标准的最基本编译码技术。
AMR的基本原理是:当通信干扰增加时,就降低编译码速率,而且还能实现更多的校错(error correction)功能。AMR也可以让不同手机系统的编译码技术之间能够尽量兼容,这是靠ACELP(Algebraic Code Excited Linear Prediction)技术达到的。ACELP是一种语音压缩系统,它可以在低速的网络环境中,提供高品质的语音。
AMR-WB
AMR-WB(wideband extension)是AMR的升级版,它也是使用ACELP技术。2000年12月时,ETSI/3GPP将AMR-WB标准化,并公布于世。ITU-T在2002年采用它,并另命名为G.722.2。
由于AMR-WB的语音带宽很宽(50 Hz~7 kHz),所以它的语音品质很高。它具有9种采样速率(都是非立体声),分别是:23.85 kbps、23.05 kbps、19.85 kbps、18.25 kbps、15.85 kbps、14.25 kbps、12.65 kbps、8.85 kbps、6.6 kbps。其中,能够保持高的语音品质,并且速率最低者是12.65 kbps。AMR-WB已经被UMTS/IMT-2000无线电网络采用,作为它的编译码基本技术;UMTS也是一种3G新标准。
AMR-WB+
2004年9月,ETSI/3GPP将AMR-WB+标准化。AMR-WB+是AMR-WB的升级版,它使用ACELP和TCX(Transform Coded Excitation)技术,提供高品质的语音和其它音频内容──这包括:自然声、数字音乐、与音乐相混合的声音(voice-between-music/voice-over-music)。
AMR-WB+增加了立体声信号和支持更高的采样速率。并且,使用高效率的“参数立体声”(HE-PS)技术,能够以低速率传输高品质的立体声。TCX转换编码技术则补偿了ACELP的不足。
AMR-WB+的采样速率是从6 kbps~48 kbps;立体声的采样速率是8 kbps~48 kbps,非立体声的采样速率是6 kbps~36 kbps。这使得它的语音带宽更宽(24 kHz),接近CD的语音品质。此外,AMR-WB+可以和AMR-WB兼容。
技术比较
根据欧洲广播联盟(EBU)的人工测试(其方法称为MUSHRA),除AMR家族尚未测试以外,编译码后的语音品质最好者是AAC+,在采样率为48 kbps时,它的品质与CD一样好。其它技术的语音品质,按优劣顺序分别是:MP3PRO、AAC、Real 8、7 kHz LPF、WMA 8、MP3、Real G2、3.5 kHz LPF。
按照3GPP的分类,依传输率大小,可区分成两类:
1. 低于或等于24 kbps者:ARM-WB+、HE-AAC/AAC+、EAAC+。
2. 高于24 kbps者:HE-AAC/AAC+、EAAC+。
根据3GPP的MUSHRA测试结果,ARM-WB+在采样率为48 kbps时的语音品质最高。若以ARM-WB+与EAAC+做比较,在采样率低于24 kbps时,ARM-WB+的立体声优于EAAC+。
结语
目前,AAC和AMR-WB技术已经被使用于2G和2.5手机中。而AAC+、EAAC+和AMR-WB+则被使用于3G手机中。它们的应用如图1所示。音乐手机比视频手机、电视手机更早被市场接受。但是,MP3播放机的价格却一直下滑,所以,音乐手机或音乐播放机极需要AAC+、EAAC+和AMR-WB+的兴起和普及,以带动另一波的购买热潮。
更好的语音编译码技术会继续推陈换新,但到2010-2015年,当手机的传输率可达到1 Gbps时,追求效率更佳的编解码技术的趋势可能会逐渐消退,不过,编解码技术的内涵仍然是很迷人的。