原声语音信号可以看成是模拟信号,其数字化就是将这些模拟信号进行模数转换变成数字信号。最早的原声语音信号数字化采用的是PCM(Pulse Code Modulation)技术即脉冲编码调制技术。1967年,日本NHK技术研究所首先把将通信技术中的PCM技术引进音响领域,从此标志着数字音响时代的开始。
2.1典型的原声信号数字化方法
原声信号的数字化一般从信号的波形、信号的参数等方面入手,可以分为波形编码、参数编码和混合编码等。
波形编码力图使还原出的语音波形与原语音信号波形一致,这种数字化的方法适应能力强、编码后的语音质量好,但所需的编码速率高。这类方法的典型代表有前述的脉冲编码调制(PCM)、自适应差分脉冲编码调制(Adaptive Difference Pulse CodeModulation,ADPCM)、连续可变斜率增量(ContinuouslyVariable Slope Delta,CVSD)编码调制[2]等。其中CVSD编码由于其抗突发错误能力较强,在移动通信、军事通信和卫星通信等领域得到了广泛地应用。
参数编码的编码对象是原声信号的特征参数,通过对这些参数的提取及编码来保持原声语意,其特点是编码速率较低,合成语音质量较差,如线性预测编码(Linear Prediction Code,LPC)、多脉冲激励线性预测编码(Multi Pulse Excited Linear Prediction Code,MPELPC)[3]等。
混合编码编码对象包括了原声信号的波形和参数,针对参数编码语音质量低的缺点,混合编码采用合成-分析的方法,能够在中低速率上获得高质量的语音编码,节省传输信道容量及存储量。其典型代表如线性预测编码(Code Excited Linear Prediction,CELP)、短时延码激励线性预测编码(Low-DelayCode Excited Linea rPrediction,LD-CELP)、矢量和激励线性预测编码(Vector Sum Code Excited Linear Prediction,VSCELP)等。
针对不同的编码方式,欧洲广播联盟和3GPP国际组织等机构组织陆续推出了EAAC+、AMR-WB+和G.729.1等编码标准,用以规范编码方法,极大促进了语音信号的数字化进程。