Mixed Excitation Linear Prediction

MELP（Mixed-Excitation Linear Prediction、混合励振線形予測）は、1996年に Federal-Standard 1015（LPC-10e）の代替として選ばれた低ビットレートの音声符号化方式で、2.4kbpsで音声を符号化できる^[1]。 MELPe（enhanced Mixed-Excitation Linear Prediction）は 2.4kbps MELP をさらに改良したもので、騒音が多い環境での特性が優れ^[2]、0.6、1.2、2.4kbpsで音声を符号化できる。

2.4kbps MELP は最初、米軍用のMIL-STD-3005 で規格化された^[3]。その拡張版である MELPe は米軍/NATOの共通規格として STANAG4591 で規格化されている。主に軍用の暗号化戦術無線通信システムや政府用の暗号化電話のための音声符号化方式として使用されている。

概要

MELP はアメリカ国防総省が中心となって規格化を行った低ビットレートの音声符号化方式で、Federal-Standard 1015（2.4kbps LPC-10e）の後継として規格化された。2.4kbps MELP符号化方式の選択と規格化は DoD Digital Voice Processor Consortium（DDVPC、国防総省デジタルボイス処理装置コンソーシアム）が1993年から1997年にかけて行い^[1]、MIL-STD-3005 となった。2.4kbps MELPは Federal-Standard 1015（2.4kbps LPC-10e）より優れており、 Federal-Standard 1016（4.8kbps CELP）と同等か優れた音質で、騒音の多い環境での性能が優れていた。

MIL-STD-3005 はその後、雑音抑制の前処理追加などの拡張が行われると共に 1.2kbps での符号化がサポートされ、MELPe（enhanced MELP）となった。軍用車両のハンヴィー（HMMWV）やCH-47ヘリコプターの騒音環境での評価では、2.4kbps MELPe はオリジナルの 2.4kbps MELP より優れており、1.2kbps MELPe も 2.4bps MELP に近く、Federal-Standard 1015（2.4kbps LPC-10e）より優れた音質だった^[4]^[2]。1.2kbps/2.4 kbps MELPe は NATO で様々な評価が行われ^[5]、2002年に NATO の規格としても採用され STANAG4591 となった。

その後、2005年には STANAG4591 に 0.6kbps（600bps）での符号化が追加され、MIL-STD-3005 は STANAG4591 に統合されて^[6]、米軍/NATOの共通規格となっている。

MELPe は0.6、1.2、2.4kbpsの音声符号化をサポートし、2.4kbps MELPe の性能は Federal-Standard 1016（4.8kbps CELP）より優れている。ビットレートが下がるにつれて性能も低下するが、0.6kbps MELPe でも Federal-Standard 1015（2.4kbps LPC-10e）より性能が優れている^[7]。

アルゴリズム

MELP

MELP のアルゴリズムは、線形予測符号（LPC）を用いたLPCボコーダーに以下のような拡張を加え、性能の向上を行ったものである。

Mixed Excitation（混合励振）
Aperiodic Pulses（非周期パルス）
Adaptive Spectral Enhancement（適応スペクトル強調）
Pulse Dispersion Filter（パルス分散フィルタ）
Fourier Series Modeling（フーリエ級数モデリング）

人間の声は、声道の周波数選択特性と音源である声帯などの音の特性や有声・無声の区別でモデル化できる。有声時、声帯からは特定の周波数(ピッチ周波数)のパルス状の波形の並びで表されるブザーのような音が生成され、無声時には口腔、舌、歯、唇などの調音器官からスペクトルの広い雑音が生成される。人間の声の有声・無声の区別は単純ではなく、有声音にも周期的な成分（有声音）と雑音成分（無声音）とが混じっていることも多い。

Mixed Excitation（混合励振）はこの考え方に基づき、声帯音にあたる励振信号をパルス列と雑音との組み合わせでモデル化する方法で、その比率は周波数ごとに変える。MELPでは 0-500Hz、500-1000Hz、1000-2000Hz、2000-3000Hz、3000-4000Hz の5つのバンドに分け有声・無声の判定を行っている。Mixed Excitation の方法はLPCボコーダーより自然な音質を実現でき、また騒音による音質の低下がLPCボコーダーと比べ少ないという特徴がある^[8]。

Aperiodic Pulses（非周期パルス）は無声音と有声音の中間の状態で現れるトーン性の歪みを減らすための情報で、 MELP では1ビットのフラグで表現される。無声音と有声音の中間の状態ではピッチ周波数を非周期的に変動させ、不自然な歪みを減らしている。

Adaptive Spectral Enhancement（適応スペクトル強調）は生成される音声がフォルマント周波数の領域で自然に聞こえるようにするためのもので、フォルマント周波数を強調するように働く。

Pulse Dispersion Filter（パルス分散フィルタ）はフォルマントを含まない領域での音質の改善を行うためのフィルタである。

Fourier Series Modeling（フーリエ級数モデリング）は有声時の声帯音に当たる励振信号をフーリエ変換の係数で表現する方法である。線形予測の残差信号（励振信号）にピッチ周期に同期した離散フーリエ変換を行い、その係数のピーク値（フーリエ強度、Fourier magnitude）の列でモデル化する。フーリエ強度はベクトル量子化により符号化される。単純で固定的な波形を用いるのに比べ、より自然な音声を生成できる。

符号化は 22.5ms のフレーム単位に行い、1フレーム当たり54ビットに符号化される。音声全体のスペクトル情報は10次の線形予測係数として抽出され、線スペクトル対（LSP）に変換した後にマルチステージベクトル量子化される。

MELPe

MELPe では、MELP のアルゴリズムに加え、雑音抑制の前処理追加などの拡張が行われ、騒音の多い環境での音質が向上している。雑音抑制のアルゴリズムとしては、MMSE-STSA法（minimum mean-square-error short-time spectral amplitude estimator）を対数スペクトルに拡張したものが用いられている^[9]。

1.2kbps MELPe は、3フレームをひとまとまりのスーパーフレームとし、フレーム間のパラメータの相関を利用して線スペクトル対などがベクトル量子化やコードブックによりまとめて符号化され、ビット数の削減が行われる。まとめて処理する単位が長くなったため、有声時のピッチ周波数の誤差を減らすために音声信号の先読み長が MELP より129サンプル長くなった。処理フレーム数が増えたことと先読み長の変更により符号化遅延時間は MELP での 42.625ms から 103.75ms になった。

0.6kbps MELPe は、4フレームがスーパーフレームとして扱われ、各種パラメータがさらに効率的にベクトル量子化される。量子化の方法も複数用意され、スーパーフレーム内の有声・無声のパターンによって切り替えを行う^[10]。有声時のピッチ周波数の変化を補間し滑らかにする機能も強化された^[10]。フレーム長は 22.5ms のままで変わらない。またフーリエ級数モデリングでのフーリエ強度や非周期パルスの情報は使用されない。符号化対象となるフレーム数が 1.2kbps MELPe より1フレーム多いため、0.6kbps MELPe の符号化遅延時間は 126.25ms である^[10]。

圧縮率

MELPe は圧縮率が非常に高い。同じ 8 kHz のサンプリング周波数の音声入力に対し、64 kbit/s μ-Law G.711を基準とした MELPe の圧縮比とフレーム長などのパラメータをまとめると以下の表のようになる。

ビットレート	G.711に対する圧縮比	フレーム長	フレーム周期
2400 bps	26.7倍	54 ビット	22.5 ms
1200 bps	53.3倍	54 ビット	67.5 ms
600 bps	106.7倍	54 ビット	90 ms

多くの低ビットレート音声符号化方式と同様、圧縮率が高くなるに従って音質は低下し、ノイズなどによるパケットロスが発生した場合の影響も大きくなる。

歴史

MELP の基本的な考え方は、当時ジョージア工科大学の学生だったアラン・マクレー（Alan McCree）が1992年から1995年にかけて発表した^[8]^[11]^[12]。その後アトランタシグナルプロセッサー（Atlanta Signal Processors Inc.、2001年にポリコム社が買収）に商業用にライセンスされ、テキサス・インスツルメンツ（Texas Instruments Inc.）が中心となって 2.4kbps MELP のインプリメントが行われた。これが MIL-STD-3005 となった。

1.2kbps/2.4kbps MELPe はシグナルコム（SignalCom Inc. 、後にマイクロソフトに買収）が中心となり1998年頃から2001年頃にかけて開発された。雑音抑制フロントエンドのアルゴリズムには AT&T の技術が使われた。これは NATO の STANAG4591 として2002年に規格化された。

0.6kbps MELPe の仕様はフランスのタレス・グループ（Thales Group）により2005年に STANAG4591 に追加された^[10]。

知的財産権

MELPe とその派生コーデックについて、以下の企業を含むいくつかの企業が知的財産権を所有している。テキサス・インスツルメンツ（2.4kbps基本アルゴリズム）、マイクロソフト（1.2kbpsアルゴリズム）、AT&T（雑音抑制）などである。

MELP や MELPe はアメリカ国防総省やNATOが中心になって研究・開発の援助を行ってきたため、アメリカ国防総省やNATO向けのアプリケーションのみロイヤリティは無償となっている。

脚注

^ ^a ^b L. Supplee, R. Cohn, J. Collura, A. McCree. MELP: The New Federal Standard at 2400 Bps. IEEE icassp, vol.2, pp.1591. 1997.
^ ^a ^b J. S. Collura. Noise Pre-Processing for Tactical Secure Voice Communications. Tactical Mobile Communications, RTO Meeting Proceedings 26. NATO RTO. Nov. 1999. ISBN 92-837-1022-3
^ Department of Defense. MIL-STD-3005 Analog-to-Digital Conversion of Voice by 2,400 bit/second Mixed Excitation Linear Prediction (MELP). United States Department of Defense. Dec. 1999.
^ J.S. Collura, D.F. Brandt, D.J. Rahikka. The 1.2kbps/2.4kbps MELP speech coding suite with integrated noise pre-processing. IEEE Mil. Commun.Conf. Proc., Vol.2, pp.1449-1453. 1999.
^ M. D. Street, J.S. Collura. Interoperable Voice Communications: Test and Selection of STANAG 4591. RTO-MP-065. NATO RTO. 2001.
^ Department of Defense. MIL-STD-3005 NOTICE 1. United States Department of Defense. Feb. 2008.
^ J. Benesty, M. M. Sondhi, Y. Huang (ed). Springer Handbook of Speech Processing. pp.346. Springer, 2007. ISBN 978-3540491255.
^ ^a ^b A. McCree, T.P. Barnwell III. A 2400 bps mixed excitation LPC vocoder. Proc. IEEE Conf. Military Communications, vol.1, pp.381-384. 1992.
^ J. Benesty, S. Makino, J. Chen (ed). Speech Enhancement. pp.60. Springer, 2005. ISBN 978-3540240396.
^ ^a ^b ^c ^d G. Guilmin, F. Capman, B. Ravera, F. Chartier. New NATO STANAG narrow band voice coder at 600 bits/s. Proc. IEEE Int. Conf. Acoust. Speech Signal Process, pp.689-693. 2006.
^ A. McCree, T.P. Barnwell III. Improving the performance of amixed excitation LPC vocoder in acoustic noise. Proc. IEEE Int. Conf. Acoust. Speech Signal Processing, pp.137-140. 1992.
^ A. McCree, T.P. Barnwell III, A mixed excitation LPC vocoder model for low bit rate speech coding, IEEE Trans. Speech Audio Process. 3(4), pp.242-250. 1995.

参考文献

J. Benesty, M. M. Sondhi, Y. Huang (ed). Springer Handbook of Speech Processing. Springer, 2007. ISBN 978-3540491255.
J. Benesty, S. Makino, J. Chen (ed). Speech Enhancement. Springer, 2005. ISBN 978-3540240396.
L. Supplee, R. Cohn, J. Collura, A. McCree. MELP: The New Federal Standard at 2400 Bps. IEEE icassp, vol.2, pp.1591. 1997.
J. S. Collura. Noise Pre-Processing for Tactical Secure Voice Communications. Tactical Mobile Communications, RTO-MP-26. NATO RTO. Nov. 1999. ISBN 92-837-1022-3
J.S. Collura, D.F. Brandt, D.J. Rahikka. The 1.2kbps/2.4 kbps MELP speech coding suite with integrated noise pre-processing. IEEE Mil. Commun.Conf. Proc., Vol.2, pp.1449-1453. 1999.
M. D. Street, J.S. Collura. Interoperable Voice Communications: Test and Selection of STANAG 4591. RTO-MP-065. NATO RTO. 2001.
Department of Defense. MIL-STD-3005 Analog-to-Digital Conversion of Voice by 2,400 bit/second Mixed Excitation Linear Prediction (MELP). United States Department of Defense. Dec. 1999.
Department of Defense. MIL-STD-3005 NOTICE 1. United States Department of Defense. Feb. 2008.
NATO. STANAG 4591 C3(EDITION 1), 600 BIT/S, 1200 BIT/S AND 2400 BIT/S NATO INTEROPERABLE NARROW BAND VOICE CODER. NATO Standardization Agency. 3, Oct. 2008.