О ДВУХ ПОДХОДАХ К ПАРАМЕТРИЧЕСКОМУ КОДИРОВАНИЮ СТЕРЕОСИГНАЛА

О двух подходах к параметрическому кодированию стереосигнала

57
УДК 621.391

К. В. ЮРКОВ, С. Е. ПЕТРОВ
О ДВУХ ПОДХОДАХ К ПАРАМЕТРИЧЕСКОМУ КОДИРОВАНИЮ СТЕРЕОСИГНАЛА
Рассматриваются два подхода к кодированию стереофонического сигнала. Предлагаемые подходы позволяют обеспечить высокое качество синтезированного стереофонического аудиосигнала при небольших затратах на кодирование.
Ключевые слова: параметрический стереосигнал, кодирование аудиосигнала.
Введение. Одна из важных задач обработки цифровых сигналов — кодирование аудиосигналов. В настоящее время существует множество стандартов сжатия монофонических аудиосигналов, доминирующим является алгоритм AAC+ (Advanced Audio Coding) [1].
При постановке задачи кодирования стереосигнала предполагается, что монофонический кодер уже реализован. Известны три основных алгоритма обработки стереофонического сигнала. Кратко остановимся на каждом из них.
Mid-Side Stereo [1]. Данный алгоритм подразумевает раздельную передачу суммы и разности правого и левого каналов. Понятно, что если полученные таким образом сигналы переданы идеально точно, то этот метод позволяет идеально точно восстановить исходный стереофонический сигнал. Существенным недостатком данного подхода, является необходимость в большинстве случаев передавать два моносигнала, обладающие практически одинаковой энергией.
Intensity Stereo [2]. Данный алгоритм предполагает передачу одного моноканала, полученного как полусумма правого и левого каналов, и набора параметров, определяющих соотношения энергий правого и левого каналов.
Parametric Stereo [3]. Данный алгоритм предполагает передачу одного моноканала, полученного как полусумма правого и левого каналов, и набора параметров. Параметры в этом случае определяют как соотношения энергий правого и левого каналов, так и углы поворота на комплексной плоскости.
Последние два подхода требуют меньших затрат на кодирование (объем информации, в битах, на выходе кодера) по сравнению с алгоритмом “mid-side stereo”, однако существенным их недостатком является невозможность в некоторых случаях восстановить исходную стереопару с достаточным качеством.
Перечисленные алгоритмы имеют как достоинства, так и существенные недостатки. Таким образом, разработка методов кодирования стереофонического аудиосигнала, позволяющих достичь высокого качества его восстановления при малых затратах на кодирование, является актуальной задачей.
На рис. 1 представлена общая схема кодирования стереосигнала на основе спектрального преобразования.
Входной стереосигнал поступает в модуль комплексного спектрального преобразования. В качестве такого преобразования могут быть, в частности, использованы преобразование Фурье, квадратурное зеркальное преобразование [4], модифицированное косинусное преобразование [5] или любой другой банк ортогональных фильтров. Полученные спектры правого (R) и левого (L) каналов поступают в модуль совмещения каналов и извлечения параметров. На выходе данного модуля наблюдается моноспектр, который обрабатывается любым монокодером, и определяются параметры стереосигнала (далее — стереопараметры), которые

ИЗВ. ВУЗОВ. ПРИБОРОСТРОЕНИЕ. 2012. Т. 55, № 1

58 К. В. Юрков, С. Е. Петров
также подвергаются кодированию. Кроме того, возможно дополнительное кодирование разностного сигнала.
В настоящей статье рассматриваются два подхода к кодированию стереосигнала. Использование первого подхода не предусматривает кодирования разностного сигнала, а следовательно, не позволяет в общем случае восстановить оригинальный стереосигнал. Второй подход использует кодирование разностного сигнала, но при этом требует дополнительного объема информации для его передачи.
L Комплексное спектральное R преобразование

Совмещение каналов, извлечение
параметров

Моносигнал

Монокодер

Стереопараметры

Кодер параметров

Разностный сигнал

Кодер разностного сигнала

Битовый поток

Рис. 1

Совмещение стереоканалов. В случае когда разностный сигнал не передается, возни-

кает проблема получения одного моноканала из двух стереоканалов. Рассмотрим следующую

схему.

Введем необходимые обозначения. Обозначим через l = (l1, …, lm ) ∈ m и

r = (r1, …, rm ) ∈ m временные кадры длиной m в левом и правом каналах. Через

L = ( L1, …, LN ) ∈ N и R = ( R1, …, RN ) ∈ N обозначим спектры длиной N соответствую-

щих временных сигналов.

Комплексные значения коэффициентов спектра представим в экспоненциальной форме:

( ) ( )Lk = akL exp jϕkL , Rk = akR exp jϕkR , k = 1, …, N,

где akL и akR — значения амплитуд сигналов в левом и правом каналах, ϕkL и ϕkR — соответ-

ствующие значения фаз этих сигналов.

( )Обозначим через Mk = akM exp jϕkM соответствующее значение совмещенного сигна-

ла. Естественным решением задачи совмещения стереоканалов может служить сигнал

( )Zk = akZ exp

jϕkZ

=

Lk

+ Rk 2

.

Данное решение является удовлетворительным за исключением варианта, когда сигна-

лы Lk и Rk близки к противоположным, т.е. Lk ≈ −Rk . При этом амплитуда сигнала Zk ма-

ла, а угол ϕkZ фактически принимает случайные значения. Для того чтобы избежать ослабле-

ния совмещенного сигнала Mk , выберем значение akM как

akM

=

akL + akR 2

.

Для решения проблемы случайных значений угла ϕkZ при возникновении противопо-

ложных сигналов Lk и Rk вычислим значение ϕkM согласно формуле

ИЗВ. ВУЗОВ. ПРИБОРОСТРОЕНИЕ. 2012. Т. 55, № 1

О двух подходах к параметрическому кодированию стереосигнала

59

( )ϕkM

=

⎧⎪∠ ⎩⎪⎨ϕkZ

Lk e , akZ

jψ + Rk e− jψ akM ≥ 10−3

,

,

akZ

akM < 10−3;

где величина поворачивающего угла ψ определена эмпирически и равна ψ = π 100 .

Полученный сигнал Mk используем для оценки параметров исходного стереосигнала.
Оценка параметров стереосигнала. Полагаем, что спектр стереосигнала и спектр совмещенного моносигнала разделены на подполосы. Параметры амплитуд и фаз сигналов вы-

числяются для каждой из подполос и передаются в закодированный поток. Через индексы n, k обозначим принадлежность сигнала к компоненту спектра, имеющему номер k в подпо-

лосе с номером n .
На рис. 2 приведено графическое представление на комплексной плоскости левого канала ( Ln,k ), правого канала ( Rn,k ), их оценок ( Lˆn,k , Rˆn,k ) и моноканала ( M n,k ). Как следует

из анализа представленного рисунка, значения Lˆn,k , Rˆn,k могут быть получены путем преоб-

разования моносигнала Mn,k при помощи поворота и масштабирования.

Im

Ln,k Lˆn,k

M n,k

ϕ Rn,k ϕ Rˆn,k
Re

Рис. 2
Согласно стандартной модели образования стереофонического сигнала один и тот же сигнал поступает на два записывающих устройства. Следовательно, левый и правый каналы отличаются лишь задержкой (сдвигом фаз в спектральной области) и коэффициентами усиления.
Так как в качестве амплитуды совмещенного сигнала было выбрано среднее значение амплитуд сигналов правого и левого каналов, естественной формой их восстановления являются оценки

Lˆn,k = ge jϕM n,k , Rˆn,k = (2 − g ) e− jϕM n,k .
Таким образом, параметрами, описывающими стереосигнал в подполосе, является пара (g, ϕ) , при этом ϕ ∈[−π, π], g ∈[0, 2].

Иногда, в зависимости от типа спектрального преобразования, для уменьшения затрат на кодирование необходимо вычислять значения стереопараметров одновременно для подполос в группе спектров. Обозначим количество спектров группы через ν .
Ошибка восстановления стереосигнала в полосе длиной q может быть вычислена как

∑ ∑E ( g,ϕ) =

ν q⎛ n=1 k=1⎜⎝

Ln,k

− Lˆn,k

2

+

Rn,k

− Rˆn,k

2 ⎠⎞⎟ .

ИЗВ. ВУЗОВ. ПРИБОРОСТРОЕНИЕ. 2012. Т. 55, № 1

60 К. В. Юрков, С. Е. Петров

Для выбора параметров стереосигнала необходимо решить следующую экстремальную задачу:
E ( g, ϕ) → min . g ,ϕ
Вычислим частные производные функции E ( g, ϕ) и приравняем их к нулю. Уравнение

имеет решение Из уравнения

∂E

( g, ϕ)
∂g

=

0

∑ ∑ ∑ ∑ν

q anM,k anL,k − ν

q
anM,k anR,k

∑ ∑ ( )g = 1 + n=1k=1

ν
2

q

n=1 k =1
anM,k 2

.

n=1 k =1

∂E ( g,ϕ) = 0
∂ϕ

находим значение тангенса фазы:

( ) ( ) ( ) ( )∑∑ ∑∑ν

q

anR,k

2
sin

ϕnM,k − ϕnR,k

ν
+

q

anL,k

2
sin

ϕnL,k − ϕnM,k

∑∑( ) ( ) ∑∑( ) ( )tgϕ =

n=1 k =1
ν q anR,k

2
cos

ϕnM,k − ϕnR,k

n=1 k =1

ν
+

q

anL,k

2
cos

ϕnL,k − ϕnM,k

.

n=1 k =1

n=1 k =1

Полученные параметры (g, ϕ) квантуются и передаются в закодированный поток.
Отметим, что аналогичная методика оценки параметров стереосигнала используется в работе [2], однако разница заключается в том, что предлагаемый в настоящей статье подход подразумевает решение задачи минимизации ошибки восстановления.
Оценка параметров стереосигнала при передаче разностного сигнала. Рассмотрим ситуацию, когда необходимо получить идеальное качество восстановления стереосигнала. В этом случае передачи только стереопараметров бывает недостаточно. Однако в рассмотренной выше схеме исправления ошибок, полученных при восстановлении стереосигналов, необходимо передавать два разностных сигнала — для левого и правого каналов. В данной статье предлагается подход, при котором требуется дополнительно передать лишь один разностный сигнал.
Особенность предлагаемого подхода заключается в том, что оценка параметров стереосигнала производится в той же спектральной области, в которой будет осуществляться кодирование моносигнала. В рассматриваемом случае банком фильтров, используемым для кодирования сигнала, является модифицированное дискретное косинусное преобразование. Для анализа потребуется также мнимая составляющая данного преобразования, которая вычисляется путем применения модифицированного дискретного синусного преобразования к сигналу. Обе части данного преобразования образуют комплексный спектр, однако для того чтобы восстановить временной сигнал, достаточно лишь его вещественной части.
Выберем один сигнал из стереопары, например левый, в качестве опорного и найдем параметры для формирования (предсказания) другого канала, правого. В качестве параметров используем пару (g, ϕ) , при этом будем оценивать только ошибку предсказания веществен-
ной части сигнала. Имеем задачу

ИЗВ. ВУЗОВ. ПРИБОРОСТРОЕНИЕ. 2012. Т. 55, № 1

О двух подходах к параметрическому кодированию стереосигнала

61

∑E ( g,ϕ)

=

q
k=1 ⎣⎡akR

cos ϕkR

−

gakL

cos(ϕkL

+ ϕ)⎤⎦2

→

min
g ,ϕ

.

Вычислим частные производные

∑∂E ( g,ϕ)
∂g

=

q
k=1 ⎡⎣akR

cos ϕkR

−

gakL

cos(ϕkL

+

ϕ)⎦⎤

akL

cos(ϕkL

+

ϕ),

∑∂E ( g,ϕ)
∂ϕ

=

q
⎣⎡akR
k =1

cos ϕkR

−

gakL

cos(ϕkL

+

ϕ)⎤⎦

akL

sin(ϕkL

+

ϕ).

Приравняв частные производные к нулю, получим систему уравнений

∑g = ∑∑∑g =

q k
q k

=1akRakL cos(ϕkL + ϕ) cos ϕkR

q k =1

(akL

)2

cos2 (ϕkL

+

ϕ)

,

q k =1

akR

akL

sin(ϕkL

+

ϕ)

cos

ϕkR

=1(akL )2 cos(ϕkL + ϕ) sin(ϕkL +

ϕ)

⎫ ⎪ ⎪⎪ ⎬ ⎪ .⎪ ⎪⎭

(1)

Данная система уравнений не может быть решена аналитически. Однако так как система имеет вид

g = f1 (ϕ); ⎫⎪ g = f2 (ϕ),⎬⎭⎪
то значение угла ϕ , являющееся решением экстремальной задачи

f1 (ϕ) − f2 (ϕ) → min , ϕ

(2)

одновременно является решением системы (1).

Задачу (2) предлагается решать методом перебора. Для этого выберем параметр v ∈ ,

определяющий точность решения системы уравнений (1), и множество Ωv = [0 : 2π / v : 2π] .

Путем перебора всех ϕ ∈ Ωv решим задачу (2). Значение коэффициента g вычисляется из

первого уравнения системы (1).

Полученные стереопараметры ( g, ϕ) квантуются и передаются в поток. Обозначим де-

квантованную пару через ( gˆ, ϕˆ ) . Разностный сигнал вычисляется как

Dk = akR cos ϕkR − gakL cos(ϕkL + ϕ) ,
его вещественная часть обрабатывается монокодером. Как правило, разностный сигнал имеет небольшую энергию, следовательно, не требует значительных затрат на кодирование.
Заключение. Представлены два новых метода кодирования стереофонического аудиосигнала. Каждый из методов имеет свою область применения. Первый может быть применен, когда требуется передать стереофоническую картину при наименьших затратах на кодирование, второй — когда необходимо получить идеальное качество восстановленного стереосигнала.
Описание методов квантования и эффективного кодирования параметров стереосигнала выходит за рамки данной статьи. Однако заметим, что при использовании в стандартном аудиокодере представленных методов наблюдается улучшение перцептуального качества восстановленного аудиосигнала по сравнению с известными аналогами для большинства тестовых последовательностей.

ИЗВ. ВУЗОВ. ПРИБОРОСТРОЕНИЕ. 2012. Т. 55, № 1

62 В. Н. Кузнецов, А. С. Гранкин
СПИСОК ЛИТЕРАТУРЫ
1. ISO/IEC 13818-7. Information Technology — Generic Coding of Moving Pictures and Associated Audio Information — Part 7: Advanced Audio Coding (AAC). 1997.
2. Herre J., Brandenburg K., Lederer D. Intensity stereo coding // Proc. of the 96th AES Convention, Amsterdam, 1994. (Preprint N 3799).
3. Faller С. Parametric coding of spatial audio // Proc. of the 7th Intern. Conf. on Digital Audio Effects (DAFx-04), Naples, Italy, Oct. 2004.
4. Johnston J. D. A filter family designed for use in quadrature mirror filter banks // Proc. IEEE Intern. Conf. on Acoustics, Speech, and Signal Processing. 1980. April. P. 291—294.
5. Temerinac M., Edler B. Overlapping block transform: window design, fast algorithm, and an image coding experiment // IEEE Trans. on Communications. 1995. Vol. 43, N 9. P. 2417—2425.
Сведения об авторах Кирилл Валерьевич Юрков — канд. техн. наук, доцент; Санкт-Петербургский национальный исследова-
тельский университет информационных технологий, механики и оптики, кафедра информационных систем; E-mail: yourkovkirill@mail.ru Сергей Евгеньевич Петров — Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, НИИ наукоемких компьютерных технологий; мл. науч. сотрудник; E-mail: petrovse@mail.ru

Рекомендована кафедрой информационных систем

Поступила в редакцию 08.07.10 г.

ИЗВ. ВУЗОВ. ПРИБОРОСТРОЕНИЕ. 2012. Т. 55, № 1