Покращене кодування і відображення параметрів багатоканального кодування мікшованих об’єктів
Номер патенту: 94117
Опубліковано: 11.04.2011
Автори: Віллємоус Ларс, Енгдегард Джонас, Реш Барбара, Пурнхаген Хейко
Формула / Реферат
1. Кодер аудіооб'єктів для генерування кодованого сигналу аудіооб'єктів, що використовує множинність аудіооб'єктів, де множинність аудіооб'єктів включає стереооб'єкт, представлений двома аудіооб'єктами, які мають певну ненульову кореляцію, складається з:
генератора інформації мікшування (96), призначеного для генерування інформації мікшування, що вказує на розподіл множинності аудіооб'єктів на щонайменше два канали мікшування;
генератора об'єктних параметрів (94), призначеного для генерування об'єктних параметрів для аудіооб'єктів, де об'єктні параметри включають апроксимації енергій об'єктів множинності аудіооб'єктів і дані кореляції для стереооб'єкта; і
інтерфейса виводу даних (98) для генерування кодованого сигналу аудіооб'єктів, використовуючи інформацію мікшування і об'єктні параметри.
2. Кодер аудіооб'єктів, описаний у пункті 1, крім того, містить:
даунмікшер (92) для розкладання множинності аудіооб'єктів на множинність каналів мікшування, де кількість аудіооб'єктів більше, ніж кількість каналів мікшування, і де даунмікшер з'єднується з генератором інформації мікшування таким чином, що розподіл множинності аудіооб'єктів на множинність каналів мікшування здійснюється так, як зазначено в інформації мікшування.
3. Кодер аудіооб'єктів, описаний у пункті 2, у якому інтерфейс (98) виводу даних генерує кодований аудіосигнал, використовуючи додатково множинність каналів мікшування.
4. Кодер аудіооб'єктів, описаний у пункті 1, у якому генератор параметрів (94) застосовується для генерування об'єктних параметрів з початковим частотно-часовим розкладанням, і де генератор інформації мікшування (96) застосовується для генерування інформації мікшування з вторинним частотно-часовим розкладанням, при цьому вторинне частотно-часове розкладання менше початкового частотно-часового розкладання.
5. Кодер аудіооб'єктів, описаний у пункті 1, у якому генератор інформації мікшування (96) застосовується для генерування інформації мікшування таким чином, щоб інформація мікшування дорівнювала усьому частотному діапазону аудіооб’єктів.
6. Кодер аудіооб'єктів, описаний у пункті 1, у якому генератор інформації мікшування (96) застосовується для генерування інформації мікшування, яка представляє матрицю мікшування, визначену в такий спосіб:
X = DS,
де S - матриця, що представляє аудіооб'єкти та має кількість рядків, рівних кількості аудіооб'єктів,
де D - матриця мікшування, та
де X - матриця, що представляє множинність каналів мікшування та має кількість рядків, рівних кількості каналів мікшування.
7. Кодер аудіооб'єктів, описаний у пункті 1, де генератор інформації мікшування (96) використовується для обчислення інформації мікшування, при цьому інформація мікшування вказує на те,
який аудіооб'єкт повністю або частково включається в один або більше з множинності каналів мікшування, і
коли аудіооб'єкт включається в більше ніж один канал мікшування, а інформація про частини аудіооб'єкта включається в один канал мікшування, коли їх існує більше ніж один.
8. Кодер аудіооб'єктів, описаний у пункті 7, в якому інформація про частину є фактором меншим за 1, та більшим за 0.
9. Кодер аудіооб'єктів, описаний у пункті 2, в якому даунмікшер (92) використовується для включення стереовідтворення фонової музики в щонайменше два канали мікшування, та для введення голосової доріжки в щонайменше два канали мікшування у визначеному співвідношенні.
10. Кодер аудіооб'єктів, описаний у пункті 2, в якому даунмікшер (92) використовується для виконання додавання сигналів за зразком, які входять в канал мікшування згідно з інформацією мікшування.
11. Кодер аудіооб'єктів, описаний у пункті 1, в якому інтерфейс виводу даних (98) використовується для стискання даних інформації мікшування та об’єктних параметрів перед генеруванням кодованого сигналу аудіооб’єктів.
12. Кодер аудіооб'єктів, описаний у пункті 1, в якому генератор інформації мікшування (96) використовується для генерування інформації про потужність та кореляцію, яка вказує на характеристики потужності та кореляції щонайменше двох каналів мікшування.
13. Кодер аудіооб'єктів, описаний у пункті 1, в якому генератор інформації мікшування генерує інформацію групування, яка відображає, які два аудіооб'єкти формують стереооб'єкт.
14. Кодер аудіооб'єктів, описаний у пункті 1, в якому генератор об'єктних параметрів (94) використовується для генерування об'єктних параметрів прогнозування для аудіооб'єктів, при цьому параметри прогнозування обчислюються як ті, в яких зважене додавання каналів мікшування для первинного об'єкта, що контролюється параметрами прогнозування чи первинним об'єктом, приводить до апроксимації первинного об'єкта.
15. Кодер аудіооб'єктів, описаний у пункті 14, в якому параметри прогнозування генеруються згідно з частотним діапазоном, і де аудіооб'єкти охоплюють множинність частотних діапазонів.
16. Кодер аудіооб'єктів, описаний у пункті 14, в якому кількість аудіооб'єктів дорівнює N, кількість каналів мікшування дорівнює K, а кількість об'єктних параметрів прогнозування, підрахована генератором об'єктних параметрів (94), менше ніж або дорівнює N × K.
17. Кодер аудіооб'єктів, описаний у пункті 16, в якому генератор об'єктних параметрів (94) використовується для підрахування щонайбільше об'єктних параметрів прогнозування K × (N-K).
18. Метод кодування аудіооб'єктів для генерування кодованого сигналу аудіооб'єктів, що застосовує множинність аудіооб'єктів, де множинність аудіооб'єктів включає стереооб'єкт, представлений двома аудіооб'єктами, які мають ненульову кореляцію, включає:
генерування інформації мікшування (96), яка вказує на розподіл множинності аудіооб'єктів на щонайменше два канали мікшування;
генерування (94) об'єктних параметрів для аудіооб'єктів, де об'єктні параметри містять апроксимації енергій об'єктів множинності аудіооб'єктів і дані кореляції для стереооб'єкта; та
генерування (98) кодованого сигналу аудіооб'єктів, використовуючи інформацію мікшування і об'єктні параметри таким чином, що кодований сигнал аудіооб'єктів містить інформацію мікшування і об'єктні параметри.
19. Аудіосинтезатор для генерування вихідних даних через кодований сигнал аудіооб'єктів, де кодований сигнал аудіооб'єктів містить інформацію мікшування і об'єктні параметри, що включає:
синтезатор вихідних даних (100) для генерування вихідних даних, що використовуються для відтворення множинності вихідних каналів визначеної конфігурації аудіовиходу, яка представляє множинність аудіооб’єктів, де множинність аудіооб’єктів включає стереооб'єкт, представлений двома аудіооб'єктами, що мають певну ненульову кореляцію, при цьому синтезатор вихідних даних використовується для отримання, як входу, інформації мікшування та об'єктних параметрів (95), де об'єктні параметри (95) містять апроксимації енергій об'єктів множинності аудіооб'єктів і дані кореляції для стереооб'єкта, з кодованого аудіосигналу, та для використання інформації мікшування (97), яка вказує на розподіл множинності аудіооб'єктів на щонайменше два канали мікшування, та параметрів аудіо об’єктів для аудіооб'єктів.
20. Аудіосинтезатор, описаний у пункті 19, в якому синтезатор вихідних даних (100) використовується для транскодування параметрів аудіооб'єктів у просторові параметри для визначеної конфігурації аудіовиходу, додатково використовуючи передбачене розташування аудіооб'єктів у конфігурації аудіовиходу.
21. Аудіосинтезатор, описаний у пункті 19, в якому синтезатор вихідних даних (100) використовується для перетворення множинності каналів мікшування у стереомікшування для визначеної конфігурації аудіовиходу, використовуючи матрицю перетворення, яку отримали завдяки передбаченому розташуванню аудіооб'єктів.
22. Аудіосинтезатор, описаний у пункті 21, в якому синтезатор вихідних даних (100) використовується для визначення матриці перетворення, яка застосовує інформацію мікшування, де матриця перетворення обчислюється таким чином, що міняються принаймні частини каналів мікшування, коли аудіооб'єкт, що знаходиться в першому каналі мікшування та представляє першу половину стереоплощини, треба програти у другій половині стереоплощини.
23. Аудіосинтезатор, описаний у пункті 20, крім того, містить рендерер каналів (104) для відтворення каналів аудіовиходу для визначеної конфігурації аудіовиходу, що використовує просторові параметри та щонайменше два канали мікшування чи перетворені канали мікшування.
24. Аудіосинтезатор, описаний у пункті 19, в якому синтезатор вихідних даних (100) використовується для виводу вихідних каналів визначеної конфігурації аудіовиходу, що додатково використовує щонайменше два канали мікшування.
25. Аудіосинтезатор, описаний у пункті 19, в якому просторові параметри включають першу групу параметрів для розмікшування Два-В-Три (TTT) та другу групу параметрів енергій для розмікшування Три-Два-Шість, та
в якому синтезатор вихідних даних (100) використовується для обчислення параметрів прогнозування для матриці прогнозування Два-В-Три (TTT), використовуючи матрицю відтворення, визначену передбаченим розташуванням аудіооб'єктів, матрицю часткового мікшування, яка описує мікшування каналів виходу у три канали, згенеровані гіпотетичним процесом розмікшування Два-В-Три (TTT), та матрицю мікшування.
26. Аудіосинтезатор, описаний у пункті 25, в якому синтезатор вихідних даних (100) використовується для обчислення фактичних вагових коефіцієнтів мікшування для матриці часткового мікшування таким чином, що енергія зваженої суми двох каналів дорівнює енергіям каналів у межах граничного коефіцієнта.
27. Аудіосинтезатор, описаний у пункті 26, в якому вагові коефіцієнти мікшування для матриці часткового мікшування визначаються наступним чином:
,
де wp - ваговий коефіцієнт мікшування, p - ціла індексна змінна, fj,i - матричний елемент матриці енергій, що відображає апроксимацію матриці коваріантності каналів виходу визначеної конфігурації виходу.
28. Аудіосинтезатор, описаний у пункті 25, в якому синтезатор вихідних даних (100) використовується для обчислення окремих коефіцієнтів матриці прогнозування через систему лінійних рівнянь.
29. Аудіосинтезатор, описаний у пункті 25, в якому синтезатор вихідних даних (100) використовується для рішення системи лінійних рівнянь, що базуються на:
C3(DED*) = A3ED*,
де C3 - матриця прогнозування Два-В-Три (TTT), D - матриця мікшування, виведена з інформації мікшування, E - матриця енергії, виведена з об'єктів аудіоджерел, і A3 - приведена матриця мікшування, та де * вказує на складну спряжену операцію.
30. Аудіосинтезатор, описаний у пункті 25, в якому параметри прогнозування для розмікшування Два-В-Три (TTT) виведені з параметризації матриці прогнозування таким чином, що матриця прогнозування визначається лише за двома параметрами, та
в якому синтезатор вихідних даних (100) використовується для попередньої обробки щонайменше двох каналів мікшування так, що результат попередньої обробки та параметризованої матриці прогнозування відповідає необхідній матриці розмікшування.
31. Аудіосинтезатор, описаний у пункті 30, в якому параметризація матриці прогнозування наступна:
,
де індекс ТТТ (Два-В-Три) - параметризована матриця прогнозування, та де a,b і g - коефіцієнти.
32. Аудіосинтезатор згідно з пунктом 19, в якому матриця перетворення мікшування G обчислюється наступним чином:
G = DTTTC3,
де C3 - матриця прогнозування Два-В-Три (TTT), де DTTT та CTTT дорівнюють I, де I - попарна одинична матриця, і де CTTT базується на:
,
де a,b та g - постійні коефіцієнти.
33. Аудіосинтезатор, описаний у пункті 32, в якому параметри прогнозування для розмікшування Два-В-Три (TTT) визначаються як a та b, де g встановлено на 1.
34. Аудіосинтезатор, описаний у пункті 25, в якому синтезатор вихідних даних (100) використовується для обчислення параметрів енергій для розмікшування Три-Два-Шість, використовуючи матрицю енергій F, яка базується на: YY*»F=AEA*,
де A - матриця відтворення, E - матриця енергій, виведена з об'єктів аудіоджерел, Y - матриця вихідних каналів, а * вказує на складну спряжену операцію.
35. Аудіосинтезатор, описаний у пункті 34, в якому синтезатор вихідних даних (100) використовується для обчислення параметрів енергій, об'єднуючи елементи матриці енергій.
36. Аудіосинтезатор, описаний у пункті 35, в якому синтезатор вихідних даних (100) використовується для обчислення параметрів енергій, що базуються на наступних рівняннях:
де j - абсолютна величина j(z)=|z| або фактичний оператор значення j(z)=Re{z},
де CLD0 - енергетичний параметр перепаду висот першого каналу, де CLD1 - енергетичний параметр перепаду висот другого каналу, де CLD2 - енергетичний параметр перепаду висот третього каналу, де ICC1 - перший міжканальний енергетичний параметр когерентності, та ICC2 - другий міжканальний енергетичний параметр когерентності, і де fij - елементи матриці енергій F у точках i,j у цій матриці.
37. Аудіосинтезатор, описаний у пункті 25, в якому перша група параметрів включає параметри енергій, та в якому синтезатор вихідних даних (100) використовується для отримання параметрів енергій, об'єднуючи елементи матриці енергій F.
38. Аудіосинтезатор, описаний у пункті 37, в якому параметри енергій обчислюють на основі:
де CLD0TTT - перший параметр енергій першої групи та де CLD1TTT - другий параметр енергій першої групи параметрів.
39. Аудіосинтезатор, описаний у пункті 37 чи 38, в якому синтезатор вихідних даних (100) використовується для обчислення вагових коефіцієнтів для зважування каналів мікшування, при цьому вагові коефіцієнти використовуються для контролю довільних коефіцієнтів посилення мікшування просторового декодера.
40. Аудіосинтезатор, описаний у пункті 39, в якому синтезатор вихідних даних використовується для обчислення вагових коефіцієнтів на основі:
Z = DED*,
W = D26ED*26,
де D - матриця мікшування, E - матриця енергій, виведена з об'єктів аудіоджерел, де W - проміжна матриця, де D26 - матриця часткового мікшування для мікшування з 6 до 2 каналів визначеної конфігурації виходу, та де G - матриця перетворення, що містить довільні коефіцієнти посилення мікшування просторового декодера.
41. Аудіосинтезатор, описаний у пункті 25, в якому об'єктні параметри є об'єктними параметрами прогнозування, та де синтезатор вихідних даних використовується для попереднього розрахування матриці енергій на основі об'єктних параметрів прогнозування, інформації мікшування, та інформації енергій згідно з каналами мікшування.
42. Аудіосинтезатор, описаний у пункті 41, в якому синтезатор вихідних даних (100) використовується для розрахування матриці енергій на основі:
E=CZC*,
де E - матриця енергій, C - матриця параметрів прогнозування, а Z - матриця коваріантності щонайменше двох каналів мікшування.
43. Аудіосинтезатор, описаний у пункті 19, в якому синтезатор вихідних даних (100) використовується для генерування двох стереоканалів для конфігурації стереовиходу за допомогою розрахування параметризованої матриці стереовідтворення та матриці перетворення, яка залежить від параметризованої матриці стереовідтворення.
44. Аудіосинтезатор, описаний у пункті 43, в якому синтезатор вихідних даних (100) використовується для розрахування матриці перетворення на основі:
G=A2×C,
де G - матриця перетворення, A2 - матриця часткового відтворення, а C - матриця параметрів прогнозування.
45. Аудіосинтезатор, описаний у пункті 43, в якому синтезатор вихідних даних використовується для розрахування матриці перетворення на основі:
G(DED*)=A2ED*,
де G - матриця енергій, отримана з аудіоджерела доріжок, D - матриця мікшування, отримана з інформації мікшування, A2 - приведена матриця відтворення, а * вказує на повну спряжену операцію.
46. Аудіосинтезатор, описаний у пункті 43, в якому параметризована матриця стереовідтворення A2 визначається наступним чином:,
де µ, ν, та κ - речовинні параметри, які задаються залежно від розташування та гучності одного чи більше первинних аудіооб'єктів.
47. Метод аудіосинтезування для генерування вихідних даних, використовуючи кодований сигнал аудіооб'єктів, де кодований сигнал аудіооб'єктів містить інформацію мікшування та об’єктні параметри, щo включає:
отримання об'єктних параметрів (95), де об'єктні параметри (95) містять апроксимації енергій об'єктів множинності аудіооб'єктів і кореляційні дані для стереооб'єкта; і
генерування вихідних даних, які використовуються для створення множинності каналів виходу визначеної конфігурації аудіовиходу, що відбиває множинність аудіооб'єктів, де множинність аудіооб'єктів включає стереооб'єкт, представлений двома аудіооб'єктами, що мають ненульову кореляцію, використовуючи інформацію мікшування (97), яка вказує на розподіл множинності аудіооб'єктів на щонайменше два канали мікшування; та об'єктні параметри (95) для аудіооб'єктів.
48. Кодований сигнал аудіооб'єктів, що включає інформацію мікшування, яка вказує на розподіл множинності аудіооб'єктів на щонайменше два канали мікшування, причому кодований сигнал аудіооб'єктів містить об'єктні параметри (95), де об'єктні параметри (95) містять апроксимації енергій об'єктів множинності аудіооб'єктів і дані кореляції для стереооб'єкта, де множинність аудіооб'єктів включає стереооб'єкт, представлений двома аудіооб'єктами, що мають ненульову кореляцію, і де об'єктні параметри (95) такі, що відтворення аудіооб'єктів можливе при використанні об'єктних параметрів та щонайменше двох каналів мікшування.
Текст
1. Кодер аудіооб'єктів для генерування кодованого сигналу аудіооб'єктів, що використовує множинність аудіооб'єктів, де множинність аудіооб'єктів включає стереооб'єкт, представлений двома аудіооб'єктами, які мають певну ненульову кореляцію, складається з: генератора інформації мікшування (96), призначеного для генерування інформації мікшування, що вказує на розподіл множинності аудіооб'єктів на щонайменше два канали мікшування; генератора об'єктних параметрів (94), призначеного для генерування об'єктних параметрів для аудіооб'єктів, де об'єктні параметри включають апроксимації енергій об'єктів множинності аудіооб'єктів і дані кореляції для стереооб'єкта; і інтерфейса виводу даних (98) для генерування кодованого сигналу аудіооб'єктів, використовуючи інформацію мікшування і об'єктні параметри. 2. Кодер аудіооб'єктів, описаний у пункті 1, крім того, містить: даунмікшер (92) для розкладання множинності аудіооб'єктів на множинність каналів мікшування, де кількість аудіооб'єктів більше, ніж кількість каналів мікшування, і де даунмікшер з'єднується з генератором інформації мікшування таким чином, що розподіл множинності аудіооб'єктів на множинність каналів мікшування здійснюється так, як зазначено в інформації мікшування. 3. Кодер аудіооб'єктів, описаний у пункті 2, у якому інтерфейс (98) виводу даних генерує кодований аудіосигнал, використовуючи додатково множинність каналів мікшування. 2 (19) 1 3 10. Кодер аудіооб'єктів, описаний у пункті 2, в якому даунмікшер (92) використовується для виконання додавання сигналів за зразком, які входять в канал мікшування згідно з інформацією мікшування. 11. Кодер аудіооб'єктів, описаний у пункті 1, в якому інтерфейс виводу даних (98) використовується для стискання даних інформації мікшування та об’єктних параметрів перед генеруванням кодованого сигналу аудіооб’єктів. 12. Кодер аудіооб'єктів, описаний у пункті 1, в якому генератор інформації мікшування (96) використовується для генерування інформації про потужність та кореляцію, яка вказує на характеристики потужності та кореляції щонайменше двох каналів мікшування. 13. Кодер аудіооб'єктів, описаний у пункті 1, в якому генератор інформації мікшування генерує інформацію групування, яка відображає, які два аудіооб'єкти формують стереооб'єкт. 14. Кодер аудіооб'єктів, описаний у пункті 1, в якому генератор об'єктних параметрів (94) використовується для генерування об'єктних параметрів прогнозування для аудіооб'єктів, при цьому параметри прогнозування обчислюються як ті, в яких зважене додавання каналів мікшування для первинного об'єкта, що контролюється параметрами прогнозування чи первинним об'єктом, приводить до апроксимації первинного об'єкта. 15. Кодер аудіооб'єктів, описаний у пункті 14, в якому параметри прогнозування генеруються згідно з частотним діапазоном, і де аудіооб'єкти охоплюють множинність частотних діапазонів. 16. Кодер аудіооб'єктів, описаний у пункті 14, в якому кількість аудіооб'єктів дорівнює N, кількість каналів мікшування дорівнює K, а кількість об'єктних параметрів прогнозування, підрахована генератором об'єктних параметрів (94), менше ніж або дорівнює N K. 17. Кодер аудіооб'єктів, описаний у пункті 16, в якому генератор об'єктних параметрів (94) використовується для підрахування щонайбільше об'єктних параметрів прогнозування K (N-K). 18. Метод кодування аудіооб'єктів для генерування кодованого сигналу аудіооб'єктів, що застосовує множинність аудіооб'єктів, де множинність аудіооб'єктів включає стереооб'єкт, представлений двома аудіооб'єктами, які мають ненульову кореляцію, включає: генерування інформації мікшування (96), яка вказує на розподіл множинності аудіооб'єктів на щонайменше два канали мікшування; генерування (94) об'єктних параметрів для аудіооб'єктів, де об'єктні параметри містять апроксимації енергій об'єктів множинності аудіооб'єктів і дані кореляції для стереооб'єкта; та генерування (98) кодованого сигналу аудіооб'єктів, використовуючи інформацію мікшування і об'єктні параметри таким чином, що кодований сигнал аудіооб'єктів містить інформацію мікшування і об'єктні параметри. 19. Аудіосинтезатор для генерування вихідних даних через кодований сигнал аудіооб'єктів, де кодований сигнал аудіооб'єктів містить інформацію мікшування і об'єктні параметри, що включає: 94117 4 синтезатор вихідних даних (100) для генерування вихідних даних, що використовуються для відтворення множинності вихідних каналів визначеної конфігурації аудіовиходу, яка представляє множинність аудіооб’єктів, де множинність аудіооб’єктів включає стереооб'єкт, представлений двома аудіооб'єктами, що мають певну ненульову кореляцію, при цьому синтезатор вихідних даних використовується для отримання, як входу, інформації мікшування та об'єктних параметрів (95), де об'єктні параметри (95) містять апроксимації енергій об'єктів множинності аудіооб'єктів і дані кореляції для стереооб'єкта, з кодованого аудіосигналу, та для використання інформації мікшування (97), яка вказує на розподіл множинності аудіооб'єктів на щонайменше два канали мікшування, та параметрів аудіо об’єктів для аудіооб'єктів. 20. Аудіосинтезатор, описаний у пункті 19, в якому синтезатор вихідних даних (100) використовується для транскодування параметрів аудіооб'єктів у просторові параметри для визначеної конфігурації аудіовиходу, додатково використовуючи передбачене розташування аудіооб'єктів у конфігурації аудіовиходу. 21. Аудіосинтезатор, описаний у пункті 19, в якому синтезатор вихідних даних (100) використовується для перетворення множинності каналів мікшування у стереомікшування для визначеної конфігурації аудіовиходу, використовуючи матрицю перетворення, яку отримали завдяки передбаченому розташуванню аудіооб'єктів. 22. Аудіосинтезатор, описаний у пункті 21, в якому синтезатор вихідних даних (100) використовується для визначення матриці перетворення, яка застосовує інформацію мікшування, де матриця перетворення обчислюється таким чином, що міняються принаймні частини каналів мікшування, коли аудіооб'єкт, що знаходиться в першому каналі мікшування та представляє першу половину стереоплощини, треба програти у другій половині стереоплощини. 23. Аудіосинтезатор, описаний у пункті 20, крім того, містить рендерер каналів (104) для відтворення каналів аудіовиходу для визначеної конфігурації аудіовиходу, що використовує просторові параметри та щонайменше два канали мікшування чи перетворені канали мікшування. 24. Аудіосинтезатор, описаний у пункті 19, в якому синтезатор вихідних даних (100) використовується для виводу вихідних каналів визначеної конфігурації аудіовиходу, що додатково використовує щонайменше два канали мікшування. 25. Аудіосинтезатор, описаний у пункті 19, в якому просторові параметри включають першу групу параметрів для розмікшування Два-В-Три (TTT) та другу групу параметрів енергій для розмікшування Три-Два-Шість, та в якому синтезатор вихідних даних (100) використовується для обчислення параметрів прогнозування для матриці прогнозування Два-В-Три (TTT), використовуючи матрицю відтворення, визначену передбаченим розташуванням аудіооб'єктів, матрицю часткового мікшування, яка описує мікшування каналів виходу у три канали, згенеровані 5 гіпотетичним процесом розмікшування Два-В-Три (TTT), та матрицю мікшування. 26. Аудіосинтезатор, описаний у пункті 25, в якому синтезатор вихідних даних (100) використовується для обчислення фактичних вагових коефіцієнтів мікшування для матриці часткового мікшування 94117 6 таким чином, що енергія зваженої суми двох каналів дорівнює енергіям каналів у межах граничного коефіцієнта. 27. Аудіосинтезатор, описаний у пункті 26, в якому вагові коефіцієнти мікшування для матриці часткового мікшування визначаються наступним чином: 2 wp (f2p1,2p1 f2p,2p 2f2p1,2p ) f2p1,2p1 f2p,2p, p 12,3 , , де wp - ваговий коефіцієнт мікшування, p - ціла індексна змінна, fj,i - матричний елемент матриці енергій, що відображає апроксимацію матриці коваріантності каналів виходу визначеної конфігурації виходу. 28. Аудіосинтезатор, описаний у пункті 25, в якому синтезатор вихідних даних (100) використовується для обчислення окремих коефіцієнтів матриці прогнозування через систему лінійних рівнянь. 29. Аудіосинтезатор, описаний у пункті 25, в якому синтезатор вихідних даних (100) використовується для рішення системи лінійних рівнянь, що базуються на: C3(DED*) = A3ED*, де C3 - матриця прогнозування Два-В-Три (TTT), D - матриця мікшування, виведена з інформації мікшування, E - матриця енергії, виведена з об'єктів аудіоджерел, і A3 - приведена матриця мікшування, та де * вказує на складну спряжену операцію. 30. Аудіосинтезатор, описаний у пункті 25, в якому параметри прогнозування для розмікшування ДваВ-Три (TTT) виведені з параметризації матриці прогнозування таким чином, що матриця прогнозування визначається лише за двома параметрами, та в якому синтезатор вихідних даних (100) використовується для попередньої обробки щонайменше двох каналів мікшування так, що результат попередньої обробки та параметризованої матриці прогнозування відповідає необхідній матриці розмікшування. 31. Аудіосинтезатор, описаний у пункті 30, в якому параметризація матриці прогнозування наступна: 2 1 CTTT 1 2 , 3 1 1 де індекс ТТТ (Два-В-Три) - параметризована матриця прогнозування, та де , і - коефіцієнти. 32. Аудіосинтезатор згідно з пунктом 19, в якому матриця перетворення мікшування G обчислюється наступним чином: G = DTTTC3, де C3 - матриця прогнозування Два-В-Три (TTT), де DTTT та CTTT дорівнюють I, де I - попарна одинична матриця, і де CTTT базується на: 2 1 C TTT 1 2 , 3 1 1 де , та - постійні коефіцієнти. 33. Аудіосинтезатор, описаний у пункті 32, в якому параметри прогнозування для розмікшування Два В-Три (TTT) визначаються як та , де встановлено на 1. 34. Аудіосинтезатор, описаний у пункті 25, в якому синтезатор вихідних даних (100) використовується для обчислення параметрів енергій для розмікшування Три-Два-Шість, використовуючи матрицю енергій F, яка базується на: YY*F=AEA*, де A - матриця відтворення, E - матриця енергій, виведена з об'єктів аудіоджерел, Y - матриця вихідних каналів, а * вказує на складну спряжену операцію. 35. Аудіосинтезатор, описаний у пункті 34, в якому синтезатор вихідних даних (100) використовується для обчислення параметрів енергій, об'єднуючи елементи матриці енергій. 36. Аудіосинтезатор, описаний у пункті 35, в якому синтезатор вихідних даних (100) використовується для обчислення параметрів енергій, що базуються на наступних рівняннях: f CLD0 10 log10 55 , f 66 f CLD1 10 log10 33 f 44 , f CLD2 10 log10 11 , f 22 ( f34 ) ICC 1 , f33 f44 ICC 2 ( f12 ) , f11f22 де - абсолютна величина (z)=z або фактичний оператор значення (z)=Rez, де CLD0 - енергетичний параметр перепаду висот першого каналу, де CLD1 - енергетичний параметр перепаду висот другого каналу, де CLD2 - енергетичний параметр перепаду висот третього каналу, де ICC1 - перший міжканальний енергетичний параметр когерентності, та ICC2 - другий міжканальний енергетичний параметр когерентності, і де fij елементи матриці енергій F у точках i,j у цій матриці. 37. Аудіосинтезатор, описаний у пункті 25, в якому перша група параметрів включає параметри енергій, та в якому синтезатор вихідних даних (100) використовується для отримання параметрів енергій, об'єднуючи елементи матриці енергій F. 38. Аудіосинтезатор, описаний у пункті 37, в якому параметри енергій обчислюють на основі: 7 94117 l2 r CLD0 10 log10 TTT c2 2 f11 f22 f33 f44 , 10 log10 f55 f66 l2 CLD1 10 log10 TTT r2 де CLD0TTT - перший параметр енергій першої групи та де CLD1TTT - другий параметр енергій першої групи параметрів. 39. Аудіосинтезатор, описаний у пункті 37 чи 38, в якому синтезатор вихідних даних (100) використовується для обчислення вагових коефіцієнтів для зважування каналів мікшування, при цьому вагові коефіцієнти використовуються для контролю довільних коефіцієнтів посилення мікшування просторового декодера. 40. Аудіосинтезатор, описаний у пункті 39, в якому синтезатор вихідних даних використовується для обчислення вагових коефіцієнтів на основі: Z = DED*, W = D26ED*26, w /z 0 11 11 , G 0 w 22 / z 22 де D - матриця мікшування, E - матриця енергій, виведена з об'єктів аудіоджерел, де W - проміжна матриця, де D26 - матриця часткового мікшування для мікшування з 6 до 2 каналів визначеної конфігурації виходу, та де G - матриця перетворення, що містить довільні коефіцієнти посилення мікшування просторового декодера. 41. Аудіосинтезатор, описаний у пункті 25, в якому об'єктні параметри є об'єктними параметрами прогнозування, та де синтезатор вихідних даних використовується для попереднього розрахування матриці енергій на основі об'єктних параметрів прогнозування, інформації мікшування, та інформації енергій згідно з каналами мікшування. 42. Аудіосинтезатор, описаний у пункті 41, в якому синтезатор вихідних даних (100) використовується для розрахування матриці енергій на основі: E=CZC*, де E - матриця енергій, C - матриця параметрів прогнозування, а Z - матриця коваріантності щонайменше двох каналів мікшування. 43. Аудіосинтезатор, описаний у пункті 19, в якому синтезатор вихідних даних (100) використовується для генерування двох стереоканалів для конфігурації стереовиходу за допомогою розрахування параметризованої матриці стереовідтворення та матриці перетворення, яка залежить від параметризованої матриці стереовідтворення. 44. Аудіосинтезатор, описаний у пункті 43, в якому синтезатор вихідних даних (100) використовується для розрахування матриці перетворення на основі: G=A2C, 8 f11 f22 10 log10 f f 33 44 , де G - матриця перетворення, A2 - матриця часткового відтворення, а C - матриця параметрів прогнозування. 45. Аудіосинтезатор, описаний у пункті 43, в якому синтезатор вихідних даних використовується для розрахування матриці перетворення на основі: G(DED*)=A2ED*, де G - матриця енергій, отримана з аудіоджерела доріжок, D - матриця мікшування, отримана з інформації мікшування, A2 - приведена матриця відтворення, а * вказує на повну спряжену операцію. 46. Аудіосинтезатор, описаний у пункті 43, в якому параметризована матриця стереовідтворення A2 1 визначається наступним чином: , 1 де µ, ν, та κ - речовинні параметри, які задаються залежно від розташування та гучності одного чи більше первинних аудіооб'єктів. 47. Метод аудіосинтезування для генерування вихідних даних, використовуючи кодований сигнал аудіооб'єктів, де кодований сигнал аудіооб'єктів містить інформацію мікшування та об’єктні параметри, щo включає: отримання об'єктних параметрів (95), де об'єктні параметри (95) містять апроксимації енергій об'єктів множинності аудіооб'єктів і кореляційні дані для стереооб'єкта; і генерування вихідних даних, які використовуються для створення множинності каналів виходу визначеної конфігурації аудіовиходу, що відбиває множинність аудіооб'єктів, де множинність аудіооб'єктів включає стереооб'єкт, представлений двома аудіооб'єктами, що мають ненульову кореляцію, використовуючи інформацію мікшування (97), яка вказує на розподіл множинності аудіооб'єктів на щонайменше два канали мікшування; та об'єктні параметри (95) для аудіооб'єктів. 48. Кодований сигнал аудіооб'єктів, що включає інформацію мікшування, яка вказує на розподіл множинності аудіооб'єктів на щонайменше два канали мікшування, причому кодований сигнал аудіооб'єктів містить об'єктні параметри (95), де об'єктні параметри (95) містять апроксимації енергій об'єктів множинності аудіооб'єктів і дані кореляції для стереооб'єкта, де множинність аудіооб'єктів включає стереооб'єкт, представлений двома аудіооб'єктами, що мають ненульову кореляцію, і де об'єктні параметри (95) такі, що відтворення аудіооб'єктів можливе при використанні об'єктних параметрів та щонайменше двох каналів мікшування. 9 Галузь техніки Даний винахід пов'язаний з декодуванням множинності об'єктів з кодованого багато об'єктного сигналу, що базується на існуючому багатоканальному мікшуванні та додаткових контрольних даних. Рівень техніки винаходу Недавні розробки в сфері звукозапису полегшують відновлення багатоканального відтворення аудіо сигналу, що базується на стерео (чи моно) сигналі, і відповідних контрольних даних. Ці параметричні методи стереофонічного кодування, зазвичай, містять в собі параметризацію. Параметричний багатоканальний аудіо декодер, (напр. декодер MPEG Surround, визначений в ISO/IEC 23003-1 [1], [2]), відновлює канали М, що базуються на переданих каналах K, де М>K, шляхом використання додаткових контрольних даних. Ці контрольні дані складаються з параметризації багатоканального сигналу, що базується на (IDD) (Міжканальній Різниці Потужностей) та (ІСС) (Міжканальній Когерентності). Як правило, ці параметри добуваються на стадії кодування і описують співвідношення навантаження та кореляцію між канальними парами, що використовувалися в процесі розмікшування. Використання такої кодувальної системи допускає кодування при значно нижчій швидкості передачі даних, ніж при передачі в усіх каналах М, що робить таке кодування дуже ефективним і в той же час гарантує сумісність з пристроями K і М каналів. Найбільш спорідненою системою кодування є відповідний кодер аудіо об'єктів [3], [4], де декілька аудіо об'єктів мішкуються в кодувальнику, а пізніше відбувається їх розмікшування контрольними даними. Процес розмікшування можна також розглядати як роз'єднання об'єктів, які змішуються при мікшуванні. Отриманий розмікшований сигнал може бути відтворений одним чи більше каналами відтворення. Більш точно, [3, 4] представляє метод для синтезування аудіо каналів з мікшування (сумарний сигнал), статистичну інформацію про вихідні об'єкти; ці мікшовані сигнали складаються з різних підмножин об'єктів, і розмікшування виконується окремо для кожного мікшованого каналу. Суть винаходу Перший варіант здійснення винаходу стосується кодування аудіо об'єктів для генерування кодованого аудіо сигналу з використанням множинності аудіо об'єктів, що містить у собі: генератор інформації мікшування призначений для генерування інформації мікшування, що вказує на розподіл множинності аудіо об'єктів на, щонайменше, два канали мікшування; генератор об'єктних параметрів, призначений для генерування об'єктних параметрів для аудіо об'єктів; інтерфейс виводу даних для генерування кодованого сигналу аудіо об'єктів, що використовує інформацію мікшування і об'єктні параметри. Другий варіант здійснення винаходу стосується методу кодування аудіо об'єктів для генерування кодованого аудіо сигналу з використанням безлічі аудіо об'єктів, що містить у собі: генерування інформації мікшування, яке вказує на розподіл 94117 10 безлічі аудіо об'єктів, щонайменше, на два мікшуючих канали; генерування об'єктних параметрів для аудіо об'єктів; і генерування кодованого аудіо сигналу з використанням мікшованих даних і об'єктних параметрів. Третій варіант здійснення винаходу стосується аудіо синтезатора для генерування вихідної інформації з використанням кодованого аудіо сигналу, що містить у собі: синтезатор вихідних даних для генерування вихідних даних, що використовуються для створення безлічі вихідних каналів для визначеної конфігурації аудіо виходу, що представляє безліч аудіо об'єктів, до того ж, такий синтезатор вихідних даних застосовується для використання мікшованих даних, які вказують на розподіл безлічі аудіо об'єктів, щонайменше, на два мікшуючих канали, а також параметри аудіо об'єктів. Четвертий варіант здійснення винаходу стосується аудіо синтезуючого методу для генерування вихідних даних з використанням кодованого аудіо сигналу, що містить у собі: генерування вихідних даних, що використовуються для створення безлічі вихідних каналів для визначеної конфігурації аудіо виходу, що представляє безліч аудіо об'єктів; до того ж, такий синтезатор вихідних даних застосовується для використання мікшованих даних, які вказують на розподіл безлічі аудіо об'єктів, щонайменше, на два мікшуючих канали, а також параметри аудіо об'єктів. П'ятий варіант здійснення винаходу стосується кодованого сигналу аудіо об'єктів, що містить в собі дані множинності, що вказують на розподіл аудіо об'єктів, щонайменше, на два мікшуючих канали, і параметри аудіо об'єктів; при цьому параметри об'єктів такі, що дозволяють виконувати відновлення аудіо об'єктів з використанням об'єктних параметрів і принаймні двох мікшуючих каналів. Шостий варіант здійснення винаходу стосується комп'ютерної програми для відтворення на комп'ютері методу кодування аудіо об'єктів і методу декодування аудіо об'єктів. Стислий опис графічного матеріалу Даний винахід буде описаний за допомогою наочних прикладів, що не обмежують сферу чи суть винаходу, з посиланням на супровідні креслення, на яких: Фіг. 1а ілюструє процес кодування просторових аудіо об'єктів, який охоплює кодування та декодування; Фіг. 16 ілюструє процес кодування просторових аудіо об'єктів з багаторазовим використанням декодеру MPEG Surround; Фіг. 2 ілюструє роботу кодувальника просторових аудіо об'єктів; Фіг. 3 ілюструє екстрактор параметрів аудіо об'єктів, що працює в режимі енергій; Фіг. 4 ілюструє екстрактор параметрів аудіо об'єктів, що працює в режимі прогнозування; Фіг. 5 ілюструє структуру КПАО для транскодера MPEG Surround; Фіг. 6 ілюструє різні режими роботи перетворювача мікшування; 11 Фіг. 7 ілюструє структуру декодера MPEG Surround для стерео мікшування; Фіг. 8 ілюструє приклад практичного використання, що включає КПАО кодер; Фіг. 9 ілюструє втілення кодувальника; Фіг. 10 ілюструє втілення декодера; Фіг. 11 ілюструє таблицю для відображення різних доцільних режимів декодера/синтезатора; Фіг. 12 ілюструє метод розрахунку певних просторових параметрів розмікшування; Фіг. 13а ілюструє метод розрахунку додаткових просторових параметрів розмікшування; Фіг. 136 ілюструє метод розрахунку з використанням параметрів прогнозування; Фіг. 14 ілюструє загальний огляд системи кодера/декодера; Фіг. 15 ілюструє метод розрахунку об'єктних параметрів прогнозування; і Фіг. 16 ілюструє метод стерео відтворення. Опис доцільного втілення Наведені нижче приклади втілення є лише зображувальними для принципів представленого винаходу для покращеного кодування і відображення параметрів багатоканального кодування мікшованих об'єктів. Зрозуміло, що модифікації, варіації впорядкування і деталі, зображені тут, будуть очевидними для спеціалістів в даній області техніки. Отже, є намір обмежитись лише рамками пунктів цього патенту, а не специфічними деталями, представленими у вигляді описань і пояснень втілень. Доцільні відтворення забезпечують кодувальну схему, що поєднує функціональність кодувальної схеми і виконання функцій багатоканального декодеру. Передані контрольні дані відносяться до окремих об'єктів і дозволяють, таким чином, маніпулювати відтворенням на базі рівня і розташування в просторі. Таким чином, контрольні дані безпосередньо пов'язані з так званим описом сценарію, надаючи інформацію про розташування об'єктів. Опис сценарію може контролюватися слухачем інтерактивно на стороні декодера, або, також, виробником на стороні кодувальника. Платформа транскодеру, як передбачає даний винахід, використовується для перетворення контрольних даних, пов'язаних з об'єктом, і сигналу мікшування в контрольні дані і сигнал мікшування, що пов'язані з системою відтворення, як напр. декодер MPEG Surround. В представленій схемі кодування об'єкти можуть бути довільно розподіленні в наявних каналах мікшування кодувальника. Транскодер забезпечує детальне використання інформації багатоканального мікшування, надаючи перекодований сигнал мікшування і контрольні дані, пов'язані з об'єктами. Таким чином, розмікшування в декодері виконується не по всім каналам окремо, як передбачувалося в [3], а всі канали мікшування одностайно задіяні в єдиному процесі мікшування. В цій новій схемі інформація багатоканального мікшування повинна бути частиною контрольних даних і кодуватися кодувальником об'єктів. Розподіл об'єктів в канали мікшування може бути виконаний автоматично, чи це може бути запроектований вибір на стороні кодувальника. В 94117 12 останньому випадку, можна спроектувати мікшування таким, що відповідає відтворенню за існуючою схемою багатоканального відтворення (напр. Система стерео відтворення), що забезпечує відтворення і пропускає стадії транскодування і багатоканального декодування. У той час, як попередні схеми об'єктного кодування просто описують процес декодування з використанням одиничного каналу мікшування, даний винахід не обмежується цими рамками, оскільки він забезпечує метод для одночасного декодування мікшувань, що містять більше одного каналів мікшування. Якість, що одержується при відокремленні об'єктів, збільшується зі збільшенням кількості каналів мікшування. У такий спосіб, даний винахід успішно усуває розбіжність між єдиним моно каналом мікшування і багатоканальною схемою кодування, де кожний об'єкт передається по окремому каналу. Запропонована схема, таким чином, забезпечує гнучке масштабування якості відокремлення об'єктів відповідно до вимог до застосування і властивостей передавальної системи (як пропускна властивість каналу). Більше того, використання більше одного каналу мікшування є сприятливим, оскільки це дозволяє додатково розглянути кореляцію між окремими об'єктами замість обмеження характеристик для різниць інтенсивності, як у первинній технічній схемі об'єктного кодування. Первинні схеми ґрунтуються на припущенні, що всі об'єкти незалежні та взаємно некорельовані (нульова кроскореляція), у той час, як у дійсності об'єкти корельовані, як у випадку з лівим і правим каналом стерео сигналу. Включення кореляції в опис (контрольні дані), як передбачує даний винахід, робить його більше повним і, отже, значно полегшує здатність відокремлення об'єктів. Доцільне втілення містить в собі принаймні одну з наступних характеристик: Система для передачі і створення множинності окремих аудіо об'єктів з використанням багатоканального мікшування та додаткових контрольних даних об'єктів, що описують ці об'єкти, містить у собі: кодувальник просторових аудіо об'єктів для кодування множинності аудіо об'єктів у багатоканальне мікшування, інформацію про багатоканальне мікшування, і об'єктні параметри; або декодер просторових аудіо об'єктів для декодування багатоканального мікшування, інформацію про багатоканальне мікшування, об'єктні параметри і матрицю відтворення об'єктів у другий багатоканальний аудіо сигнал, придатний для відтворення. Фіг. 1а ілюструє процес кодування просторових аудіо об'єктів (КПАО), що містить в собі КПАО кодувальник 101 і КПАО декодер 104. Кодувальник просторових аудіо об'єктів 101 кодує N об'єктів в об'єктне мікшування, яке складається з K>1 аудіо каналів, згідно з параметрами кодування. Дані про застосовувану вагову матрицю мікшування D виводяться КПАО кодувальником разом з факультативними даними, що стосуються потужності і кореляції мікшування. Матриця D часто, але не обов'язково завжди, постійна в часі й частоті, і, отже, надає порівняно низький обсяг інформації. Зрештою, КПАО кодувальник вилучає об'єктні па 13 раметри для кожного об'єкта, як функцію часу і частоти на перцепційних підставах. Декодер просторових аудіо об'єктів 104 приймає об'єктні канали мікшування, інформацію мікшування і об'єктні параметри(генеровані кодером) як вхід і генерує вихід аудіо каналами М для подання користувачеві. Відтворення N об'єктів в М аудіо каналах відбувається з використанням матриці відтворення у вигляді вхідних даних користувача в декодер КПАО. Фіг. 16 ілюструє процес кодування просторових аудіо об'єктів з багаторазовим використанням декодера MPEG Surround. КПАО декодер 104 у даному винаході може бути використаний як КПАО для декодера MPEG Surround 103. Матриця відтворення, що контролюється користувачем А розміром MN, визначає цільове відтворення N об'єктів для М аудіо каналів. Ця матриця може залежати як від часу, так і від частоти, і вона є кінцевим виходом для більшості інтерфейсів, що є зручними для користувача для роботи з аудіо об'єктами, які також можуть використовувати зовнішній опис сценарію. У випадку для пристрою динаміків 5.1 кількість аудіо каналів виходу дорівнює М=6. Завданням КПАО декодера є перцепційне відновлення цільового відтворення первісних аудіо об'єктів. КПАО для транскодера MPEG Surround 102 приймає на вхід матрицю відтворення А, мікшування об'єктів, допоміжну інформацію мікшування, в тому числі вагову матрицю мікшування D, і допоміжну об'єктну інформацію, та генерує стерео мікшування і додаткову інформацію MPEG Surround. Коли для даного винаходу конструюється транскодер, тоді наступний декодер MPEG Surround 103 на базі цих даних буде відтворювати один канал виходу звуку М з доцільними властивостями. КПАО декодер, як передбачає даний винахід, складається з КПАО для транскодера MPEG Surround 102 і стерео мікшування, що базується на декодері MPEG Surround 103. Матриця відтворення, що контролюється користувачем А розміром MN визначає цільове відтворення об'єктів N для аудіо каналів М. Ця матриця може залежати від частоти і часу, і вона є кінцевим виходом для більш зручного користувацького інтерфейсу для роботи з аудіо об'єктами. Для динаміків 5.1 кількість вихідних аудіо каналів дорівнює М=6. Завданням КПАО декодера є перцепційне відновлення цільового відтворення первісних аудіо об'єктів. КПАО для транскодера MPEG Surround 102 приймає на вхід матрицю відтворення А, мікшування об'єктів, допоміжну інформацію мікшування, в тому числі вагову матрицю мікшування D, і допоміжну об'єктну інформацію, та генерує стерео мікшування і додаткову інформацію MPEG Surround. Коли транскодер конструюється для даного винаходу, тоді наступний декодер MPEG Surround 103 на базі цих даних буде відтворювати один канал виходу звуку M з бажаними властивостями. Фіг. 2 ілюструє роботу кодувальника просторових аудіо об'єктів (КПАО) 101 для даного винаходу. Аудіо об'єкти N подаються в мікшер 201 і екстрактор параметрів аудіо об'єктів 202. Мікшер 201 зводить об'єкти в об'єктне мікшування, що склада 94117 14 ється з K>1 аудіо каналів в залежності від параметрів кодувальника, а також виводить інформацію мікшування. Ця інформація містить в собі опис використаної вагової матриці мікшування D i, факультативно, якщо наступний екстрактор аудіо параметрів працює в режимі прогнозування, параметри, що описують потужність і кореляцію об'єктів мікшування. Як буде розглядатися в наступному пункті, значення таких додаткових параметрів полягає в тому, щоб надати доступ к енергії і кореляції підмножин відтворюваних аудіо каналів в випадку, коли об'єктні параметри виражені тільки по відношенню до мікшування; при цьому основним параметром є сигнали вперед/назад для настройок динаміків об'ємного звуку 5.1. Екстрактор параметрів аудіо об'єктів 202 витягає об'єктні параметри в відповідності з параметрами кодера. Управління кодувальником на основі змін часу і частоти визначає, який з двох режимів кодувальника застосовується: режим на основі енергій чи на основі прогнозування. В режимі на основі енергій параметри кодувальника містять інформацію про групування аудіо об'єктів N в стерео об'єкти Р i моно об'єкти N-2P. Кожний з режимів буде описаний далі на Фігурах 3 та 4. Фіг. 3 ілюструє роботу екстрактора параметрів аудіо об'єктів 202 у режимі енергій. Групування 301 стерео об'єктів Р і моно об'єктів N-2P здійснюються відповідно до інформації групування, що міститься в параметрах кодувальника. Для кожного розглянутого частотно-часового інтервалу виконуються наступні операції. Два параметри потужності об'єктів і зведена кореляція добуваються по кожному зі стерео об'єктів Р екстрактором стерео параметрів 302. Один параметр потужності добувається по кожному з моно об'єктів N-2Р екстрактором моно параметрів 303. Тотальна множина параметрів потужності N тa зведені параметри кореляції Р потім кодуються в 304 разом із групованими даними для формування параметрів об'єктів. Кодування може містити крок нормування відносно найбільшого параметра потужності або суми екстрагованих параметрів потужності об'єктів. Фіг. 4 ілюструє екстрактор параметрів аудіо об'єктів 202, що працює в режимі прогнозування. Для кожного розглянутого частотно-часового інтервалу виконуються наступні операції. Для кожного з об'єктів N виводиться лінійна комбінація об'єктних каналів мікшування K, яка відповідає даним об'єктам у значенні найменших квадратів. Вагові коефіцієнти K цієї лінійної комбінації називаються коефіцієнтами об'єктного прогнозування (КОП), і вони обчислюються КОП екстрактором 401. Тотальна множина N·K КОП кодується в 402, щоб отримати об'єктні параметри. Кодування може включати скорочення загальної кількості КОП, які базуються на лінійній взаємозалежності. Як передбачає даний винахід, ця загальна кількість може бути зменшена до max{K·(N-K),0}, якщо вагова матриця мікшування має повний ранг. Фіг. 5 ілюструє структуру КПАО для транскодера MPEG Surround 102, як передбачає даний винахід. Для кожного частотно-часового інтервалу обчислювач параметрів 502 поєднує додаткову інформацію мікшування і об'єктні параметри з ма 15 трицею відтворення, для того, щоб створити MPEG Surround параметри типу CLD, СРС, ІСС та МТП, і матрицю конвертора мікшування G розміром 2K. Конвертор мікшування 501 перетворює об'єктне мікшування у стерео мікшування із застосуванням матричної операції відповідно до матриць G. У спрощеному режимі транскодера K=2 для цієї матриці існує тотожна матриця, а об'єктне мікшування передається в незмінному вигляді, як стерео мікшування. Цей режим показаний на кресленні, де позиційний перемикач 503 знаходиться у положенні А, тоді як при звичайному режимі перемикач має положення В. Додатковою перевагою транскодера є його використання в якості автономної прикладної системи, де параметри MPEG Surround ігноруються, і вихід конвертера мікшування використовується безпосередньо для стерео відтворення. Фіг. 6. Ілюструє різні режими роботи конвертера мікшування 501, як передбачає даний винахід. Дане мікшування переданих об'єктів відбувається у форматі бітового виходу з аудіо кодувальника каналу K, цей бітовий потік спочатку декодується аудіо декодером 601 в аудіо сигнали часової області K. Потім ці сигнали всі трансформуються в частотну область набором QMF фільтрів гібриду MPEG Surround в T/F пристрій 602. Операція частотно-часової змінної матриці, визначеної даними матриці перетворювача, виконується на результуючих сигналах гібриду області QMF пристроєм матрицювання 603, який виводить стерео сигнал в область гібриду. Пристрій гібридного синтезу 604 конвертує стерео сигнал області гібриду QMF. Область гібриду QMF визначається з метою отримання покращеного частотного розкладання в бік низьких частот за допомогою подальшого фільтрування піддіапазонів QMF. Якщо це подальше фільтрування визначається наборами фільтрів Найквиста, то тоді перетворення від гібридної до стандартної області QMF складається з простого підсумовування груп сигналів гібридних піддіапазонів, див. [Е. Счуієрс, Й. Бреебарт, і X. Пурнхаген, "Параметричне стерео кодування низької складності" матеріали 116ї AES конвенції Берлін, Германія 2004, Препринт 6073]. Ці сигнали утворюють перший можливий вихідний формат конвертера мікшування, як зазначається за допомогою перемикача селектору 607, що знаходиться в положенні А. Такий сигнал області QMF може надійти безпосередньо в відповідний інтерфейс області QMF декодеру MPEG Surround, а це є найбільш сприятливий режим роботи за показниками затримки, складності і якості. Наступна можливість здобувається через виконання синтезу набору фільтрів QMF 605 з метою отримання стерео сигналу часової області. При встановленні перемикача селектору в положення В, конвертер видає цифровий аудіо стерео сигнал, що також може надійти в інтерфейс часової області наступного декодера MPEG Surround, чи може бути відтворений безпосередньо в пристрої стерео відтворення. Третя можливість, коли перемикач селектору 607 встановлений в положення С здобувається кодуванням стерео сигналу часової області стерео кодувальником 606. Формат виходу конвертера 94117 16 мікшування тоді являє собою стерео аудіо потік бітів, який є сумісним з внутрішнім декодером, що розміщується в декодері MPEG. Цей третій режим підходить для випадків, коли КПАО для транскодеру MPEG Surround відокремлюється декодером MPEG, зв'язком, що накладає обмеження на швидкість бітового потоку, або у випадку, коли користувач бажає зберегти специфічне відтворення об'єктів для програвання в майбутньому. Фіг. 7 ілюструє структуру декодеру MPEG Surround для стерео мікшування. Таке стерео мікшування конвертується в три проміжні канали блоком Два-В-Три (ТТТ). Ці проміжні канали далі розщеплюються на два трьома блоками Один-В-Два (ОТТ), щоб створити ті самі шість каналів для конфігурації каналів 5.1. Фіг.8 ілюструє сценарій практичного використання для кодувальника КПАО. Аудіо мікшер 802 виводить стерео сигнал (П і Л), який типово складається з поєднання вхідних сигналів мікшера (тут вхідні канали 1-6) та, факультативно, додаткових входів повернень ефектів, таких як штучне відлуння і т.п. Мікшер також виводить окремий канал (тут канал 5) з мікшеру. Це можна зробити, наприклад, за допомогою розповсюджених функціональних можливостей мікшера, таких як "прямі виходи" або "допоміжна відправка", з метою виведення окремого каналу після будь-яких процесів вставки (такі як динамічна обробка і еквалайзер). Стерео сигнал (Л і П) та вихід окремого каналу (obj5) завантажуються в кодувальник КПАО 801, що являє собою спеціальний різновид кодувальника КПАО 101 на Фіг. 1. Проте, він ясно ілюструє типове впровадження, коли аудіо об'єкт obj5, (що містить, наприклад, мову) підлягає модифікації на рівні контролю користувача зі сторони декодеру, хоча він ще залишається частиною стерео міксу (Л і П). З самої ідеї очевидно, що два чи більше аудіо об'єктів могли б бути пов'язанні з панеллю "вихід об'єкту" в 801, і більш того стерео мікс можна б було розширити багатоканальним міксом, таким як 5.1-mix. Нижче в тексті буде викладений математичний опис даного винаходу. Для складних дискретних сигналів х,у, складний внутрішній продукт і квадрат енергій визначається за формулою x, y xk yk k 2 2 x x, x xk k (1) де y(k) позначає складний сполучений сигнал у(k). Всі сигнали, що розглядаються тут, є зразками діапазону модульованої групи фільтрів або віконного FFT аналізу дискретних тимчасових сигналів. Зрозуміло, що ці піддіапазони потрібно перетворити знову у дискретну тимчасову область за допомогою відповідних операцій синтезу груп фільтрів. Сигнальний блок зразків L представляє сигнал у частотно-часовому інтервалі, що є частиною перцепційно мотивованої фрагментації частотно-часової площини, що застосовується для опи 17 94117 су властивостей сигналу. В цих параметрах, визначені аудіо об'єкти можуть бути представлені у вигляді рядків N довжиною L в матриці, s1 0 s1 1 s1 L 1 s 0 s 2 1 s 2 L 1 S 2 s N 0 s N 1 s N L 1 (2) Вагова матриця мікшування D розміром KN де K>1 визначає сигнал мікшування каналу K у формі матриці з рядками K через множення матриць X=DS (3) Керована користувачем матриця відтворення об'єктів А розміром MN визначає цільове відтворення аудіо об'єктів в канал М у формі матриці з рядками М через множення матриць Y=AS (4) Ігноруючи на якийсь час вплив основного аудіо кодування, завдання декодера КПАО полягає в тому, щоб створити апроксимацію перцепційного сприйняття цільового відтворення Y первісних аудіо об'єктів за визначених матриці відтворення А, мікшуванні X, матриці мікшуванні D і параметрах об'єкта. Параметри об'єктів в режимі енергій, відповідно для даного винаходу, несуть інформацію про коваріантності первісних об'єктів. У детерміністській версії, що підходить для наступної деривації, а також опису операцій типового кодувальника, дана коваріація надається в ненормалізованому вигляді матричним добутком SS*, де зірочка позначає складну сполучену транспозиційну матричну операцію. Отже, параметри об'єктів в режимі енергій представляють невід'ємну NN матрицю Е, з точністю до коефіцієнта масштабування, (5) SS*E Прототипне кодування аудіо об'єктів часто розглядає об'єктну модель, в якій всі об'єкти некорельовані. У цьому випадку матриця Е є діагональною і лише містить апроксимацію до об'єктних енергій Sn=||sn||2 де n=1,2,...,N. Екстрактор об'єктних параметрів, відповідно до Фіг. 3, ураховує важливу деталь цієї ідеї, що має особливе значення для тих випадків, коли об'єкти укомплектовані як стерео сигнали, які не підтримують відсутності кореляції. Групування відібраних об'єктів стереопар дописується індексними множинами {(np,mp), р=1,2,…,Р}. Для цих стереопар обчислюється кореляція sn,sm, а складне, фактичне або абсолютне значення нормованої кореляції (ІСС) n,m sn , sm sn sm (6) 18 добувається екстрактором стерео параметрів 302. На декодері, ІСС дані потім можуть бути об'єднані з енергіями, для того щоб створити матрицю Е з 2Р недіагональних елементів. Наприклад, для всіх об'єктів N=3, з яких перші два становлять єдину пару (1,2), передана енергія і кореляційні дані становлять S1,S2,S3 I 1,2. У цьому випадку об'єднання в матрицю Е дає S1 * E 1,2 S1S 2 0 1,2 S1S 2 S2 0 0 0 S3 Параметри об'єктів у режимі прогнозування в представленому винаході спрямовані на те, щоб створити матрицю коефіцієнта прогнозування об'єкта (КПО) С NK, для декодера, де SCX=CDS (7) Інакше кажучи, для кожного об'єкта існує лінійна комбінація каналів мікшування, в яких об'єкт може бути приблизно відновлений sn(k)cn,1x1(k)+…+cn,KxK (8) У доцільному втіленні, екстрактор КОП 401 вирішує стандартні рівняння CXX*=SX* (9) або, для більше ефективного дійсного випадку КОП, вирішує CRe{XX*}=Re{SX*} (10) В обох випадках, приймаючи дійсну вагову матрицю мікшування D i несингулярну коваріантність мікшування, вона обчислюється множенням ліворуч на D DC=I (11) де І матриця тотожності розміру K. Якщо D має повний ряд, за елементарною лінійною алгеброю треба, щоб набір рішень для (9) був параметризирований max{K·(N-K),0} параметрами. Це застосовується при сукупному кодуванні КОП даних в 402. Повна матриця прогнозування С може бути відновлена на декодері зі скороченого набору параметрів і матриці мікшування. Наприклад, розглянемо для стерео мікшування (K=2) випадок із трьох об'єктів (N=3), що містять стерео музичний треки(s1,s2) і центрально панорамований одиночний інструмент чи голосову доріжку s3. Матриця мікшування являє собою 1 0 1/ 2 D 0 1 1 / 2 (12) 19 Тобто, 94117 лівий x1 s1 s 3 / 2 , канал а мікшування правий канал x 2 s 2 s 3 / 2 . КОП для одиночної доріжки прямує до наближення s3с31х1+с32х2 і рівняння (11) у цьому випадку може бути вирішено таким чином, щоб c 11 1 c 31 / 2 , отримати c 21 с 31 / 2 і c 22 1 c 32 / 2 . Таким чином, число, що задовольняє КОП має вигляд K(NK)=2·(3-2)=2. КОП с31,с32 можна обчислити нормальними рівняннями x c 31, c 32 1 x 1, x 2 x 1, x 2 s 3 , x1 , s 3 , x 2 x2 КПАО для транскодера MPEG Surround Відповідно до Фіг. 7, каналами виходу М=6 конфігурації 5.1 є (y1,y2,…,y6)=(lf,ls,rf,c,lfe). Транскодер повинен вивести стерео мікшування (l0,r0) і параметри для блоків Два-В-Два (ТТТ) і Один-ВДва (ОТТ). Оскільки основна увага приділяється стерео мікшуванню, будемо допускати, що K=2. Через те, що і об'єктні параметри і MPS ТТТ параметри існують як в режимі енергій, так і в режимі прогнозування, то повинні бути розглянуті всі чотири комбінації. Режим енергій є підхожою альтернативою, наприклад, якщо кодувальник аудіо мікшування не є кодувальником форми сигналу в розглянутому частотному інтервалі. Зрозуміло, що параметри MPEG Surround, отримані в нижченаведеному тексті, повинні бути належним чином відцифровані і кодовані до того, як вони будуть передані. Для подальшого роз'яснення ці чотири комбінації, що згадані вище, включають 1. Об'єктні параметри в режимі енергій і транскодер у режимі прогнозування 2. Об'єктні параметри в режимі енергій і транскодер в режимі енергій 3. Об'єктні параметри в режимі прогнозування (КІП) і транскодер у режимі прогнозування 4. Об'єктні параметри в режимі прогнозування (КІП) і транскодер в режимі енергій Якщо кодувальник аудіо мікшування є кодувальником форми сигналу в розглянутому частотному інтервалі, об'єктні параметри можуть бути як у режимі енергій, так і в режимі прогнозування, але транскодер має переважно працювати в режимі прогнозування. Якщо кодувальник аудіо мікшування не є кодувальником форми сигналу в розглянутому частотному інтервалі, тоді і кодер об'єктів і транскодер повинні працювати в режимі енергій. Четверта комбінація менш значима, тому наступний опис буде стосуватися лише трьох перших комбінацій. Об'єктні параметри надані в режимі енергій В режимі енергій, дані для транскодера описуються триплетом матриць (D,E,A). Параметри MPEG Surround OTT добуваються виконанням обчислень енергії і кореляції при віртуальному відтворенні, виведеними з переданих параметрів, і 20 6N матриці відтворення А. Шестиканальна цільова коваріантність виражена в YY*=AS(AS)*=A(SS*)A* (13) Вставка (5) в (13) призводить до наближення (14) YY*F=AEA* яке повністю визначається наявними даними. Припустимо fkl позначає елементи F. Тоді параметри являють собою f CLD0 10 log10 55 f 66 (15) f CLD1 10 log10 33 f 44 (16) f CLD2 10 log10 11 f 22 f34 ICC 1 f33 f 44 (17) ICC 2 f12 f11f 22 (18) (19) де це або абсолютна величина (z)=|z| або фактичний оператор значення (z)=Re{z}. Як ілюстративний приклад, розглянемо випадок із трьох об'єктів, описаних раніше, для рівняння (12). Припустимо, матриця відтворення має вигляд 0 0 1 А 1 0 0 1 1 0 0 0 0 0 0 1 0 1 1 Цільове відтворення, таким чином, полягає в розміщенні об'єкту 1 між правим переднім і правим surround, об'єкту 2 між лівим переднім і лівим surround, a об'єкту 3 в правому передньому, центральному і каналі сабвуфера. Припустимо для простоти, що ці три об'єкти некорельовані і всі мають однакову енергію, таку що 1 0 0 Е 0 1 0 0 0 1 В цьому випадку, права сторона формули (14) стає 21 1 1 0 F 0 0 0 1 1 0 0 0 0 0 0 2 1 1 1 0 0 1 1 0 0 94117 новлює, що A3=D36A де 6 в 3 матриця часткового мікшування визначається 0 0 1 0 1 1 0 0 1 0 1 1 w1 w1 0 D36 0 0 w2 0 0 0 Поміщаючи відповідні значення у формули (15)-(19) потім одержуємо f CLD0 10 log10 55 f 66 1 10 log10 0dB , 1 f CLD1 10 log10 33 f 44 2 10 log10 3dB , 1 f12 f11f 22 1 1 1 0 0 0 w2 0 0 0 qw 3 qw 2 (20) Вагові функції часткового мікшування wp, p=1,2,3 відрегульовані таким чином, що енергія wр(у2р-1+y2р) дорівнює сумі енергій ||y2p-1||2+||y2p||2 3 точністю до граничного коефіцієнту. Всі дані, які потрібні для виведення матриці часткового мікшування D36 доступні в F Тоді, матриця прогнозування С3 розміром 32 є такою C3XA3S f 1 CLD2 10 log10 11 10 log10 0dB , f 1 22 f34 1 1 ICC 1 , f33 f 44 2 1 2 ICC 2 22 (21) Така матриця переважно виводиться за попереднім розглядом нормальних рівнянь C3(DED*)=A3ED* 1, Як наслідок, декодеру MPEG Surround буде задано використати декореляцію між правим переднім і правим surround, але не використовувати декореляцію між лівим переднім і лівим surround. Для ТТТ параметрів MPEG Surround в режимі прогнозування, першим кроком є формування зведеної матриці відтворення А3 розміром 3N для об'єднаних каналів (l,r,qc) де q 1/ 2 . Вона вста Розв'язання таких нормальних рівнянь дає в результаті найкраще співпадання форм сигналів для (21) даної моделі коваріантності об'єктів Е. Бажано провести заключну обробку матриці С3, що включає порядкові фактории для компенсації втрат прогнозування для окремого каналу чи загального. Для того, щоб проілюструвати і пояснити кроки, що зазначені вище, розглянемо продовження специфічного шестиканального відтворення, наведеного вище. На основі матричних елементів F, вагові коефіцієнти мікшування є результатами розв'язання рівнянь 2 w p f 2p1,2p1 f 2p,2p 2f 2p1,2p f 2p1,2p1 f 2p,2p, p 12,3, , Які в конкретному прикладі мають вигляд, 0.3536 1.0607 С 3 1.4358 0.1134 0.3536 0.3536 w 2 1 1 2 1 1 1 1 2 w 2 2 1 2 1 2 1 w 2 1 1 2 1 1 1 3 За умовою w 1,w 2 , w 3 1/ 2, 3 / 5 ,1/ 2 . Вставлення в (20) надає, A3 0 3 D 36 A 2 5 0 2 0 0 0 3 5 1 Вирішуючи систему рівнянь C3(ded*)=A3ED* знаходимо, (переключаючись зараз на кінцеву точність) Матриця С3 містить найкращі вагові коефіцієнти для досягнення апроксимації для відтворення доцільних об'єктів у комбінованих каналах (l,r,qc) з об'єктного мікшування. Такий загальний тип операцій над матрицею не може бути застосований декодером MPEG Surround, що прив'язаний до обмеженого простору ТТТ матриць використанням лише двох параметрів. Метою конвертера мікшування даного винаходу є провести попередню обробку мікшування об'єкта так, щоб сумарний ефект попередньої обробки і ТТТ матриці MPEG Surround був ідентичний необхідному розмікшуванню, описаному С3. В MPEG Surround, TTT матриця для прогнозування (l,r,qc) з (l0,r0) параметризується трьома параметрами (,,) за допомогою 23 С ТТТ 94117 2 1 1 2 3 1 1 (22) 24 перед ТТТ розмікшуванням. Маючи матрицю мікшування каналів шість в два D26=DTTTD36 і значення з Z=DED* W CTTTG=C3 w 11 / z11 G 0 (23) Як легко може бути перевірено, приймаємо що DTTTCTTT=І де І це попарна одинична матриця 1 0 1 D TTT 0 1 1 (24) Звідси, матричне множення ліворуч обох сторін на DTTT (23) приводить до G=DTTTC3 (25) У характерному випадку, G буде оборотна і (23) має єдине рішення для СTTT, що задовольняє умову рівняння DTTTCTTT=І. Параметри ТTТ(,) визначаються цим рішенням. Для конкретного прикладу, розглянутого вище, легко можна перевірити, що рішення представлені 1.4142 0 G та (,)=(0.3506, 0.4072) 1.7893 0.2401 Відзначимо, що головна частина стерео мікшування міняється між лівою і правою стороною для цієї матриці конвертера, що відбиває той факт, що даний приклад відтворення розміщує об'єкти, які перебувають у лівому каналі мікшування, в праву звукову зону, і навпаки. Такого поводження не можливо отримати від декодера MPEG Surround в стерео режимі. Якщо не можливо застосувати конвертер мікшування, то може бути розроблена наступна субоптимальна процедура. Все, що потрібно для ТТТ параметрів MPEG Surround у режимі енергій, так цей розподіл енергії для комбінованих каналів (І,r,с). Отже, релевантні CLD параметри можна вивести з елементів F через l2 r 2 10 log10 2 c f f f f 44 10 log10 11 22 33 f 55 f 66 CLD0 TTT l CLD1 10 log10 TTT r 2 2 f11 f 22 10 log10 f f 44 33 (26) (27) У цьому випадку для конвертера мікшування зручно використати тільки діагональну матрицю G з позитивними записами. Доцільно досягти правильного розподілу енергії для каналів мікшування (28) D26ED* 26 Матрицю конвертера мікшування G відповідно до даного винаходу одержуємо вибором =1 і розв'язанням системи рівнянь (29) просто вибираємо / z 22 0 w 22 (30) Наступним зауваженням є те, що такий конвертер мікшування діагональної форми може бути пропущений з об'єкту в транскодері MPEG Surround і застосований за допомогою активації параметрів довільного коефіцієнта підсилення мікшування (ПКУМ) ADG декодера MPEG Surround. Такі коефіцієнти підсилення будуть визначеними в логарифмічній області ADGi=101og10(wu/zu) для i=1,2. Об'єктні параметри задані в режимі прогнозування. (КОП) У режимі об'єктного прогнозування, доступні дані представляються матричною трійкою (D,C,A), де С це матриця N2, що містить N пар КОП. Через релятивну природу коефіцієнтів прогнозування, для подальшого обчислення параметрів MPEG Surround на основі енергій буде необхідним мати доступ до апроксимації 22 матриці коваріантності об'єктного мікшування, XX*Z (31) Ця інформація, переважним чином, передається з кодувальника об'єктів як частина додаткової інформації, але вона може також бути обчислена на транскодері з вимірів, виконаних на отриманому мікшуванні, чи які безпосередньо виведені з (D,C) при розгляді наближеної моделі об'єкта. За заданою Z, коваріантність об'єктів можна розрахувати, вставляючи предикативну модель Y=СХ, яка дає E=CZC* (32) а всі ОТТ параметри MPEG Surround і ТТТ параметри режиму енергії можуть бути обчислені з Е, як у випадку з параметрами об'єктів, що базуються на енергіях. Однак, велика перевага надається використанню КОП в комбінації з ТТТ параметрами MPEG Surround у режимі прогнозування. У цьому випадку, апроксимація форми сигналів D36YА3СХ безпосередньо дає наведену матрицю прогнозування С3=А3С (32) з якої кроки, що залишилися, для одержання ТТТ (,) параметрів конвертера мікшування подібні до кроків для об'єктних параметрів, заданих в 25 94117 режимі енергій. Фактично, кроки формул з (22) по (25) абсолютно ідентичні. Результуюча матриця G подається в конвертер мікшування, а ТТТ параметри (,) передаються в декодер MPEG Surround. Окреме застосування конвертера мікшування для стерео відтворення У всіх випадках, описаних вище, об'єкт для стерео конвертера мікшування 501 виводить апроксимацію для стерео мікшування каналу аудіо відтворення 5.1. Це стерео відтворення може бути виражене 2N матрицею А2, що визначається як A2=D26A. У багатьох випадках застосування мікшування цікаве саме по собі, і безпосереднє керування стерео відтворенням А2 представляє інтерес. Розглянемо ще раз приклад з центрально панорамованою моно голосовою доріжкою, що закодована в такий спосіб, який представлений на Фіг. 8 і обговорювався в розділі стосовно формули (12). Контроль користувача над гучністю голосу може бути реалізований таким відтворенням A2 1 1 2 1 0 / 2 0 1 / 2 (33) де - коефіцієнт контролю відношення голоса до музики. Структура матриці конвертера мікшування базується на GDSA2S (34) Для об'єктних параметрів на основі прогнозування просто допускаємо апроксимацію SCDS і отримуємо матрицю конвертера GA2C. Для об'єктних параметрів на основі енергій розв'язуємо нормальні рівняння G(dED*)=A2ED* (35) Фіг. 9 ілюструє найкраще втілення кодувальника аудіо об'єктів, відповідно до однієї особливості даного винаходу. Кодер аудіо об'єктів 101 загалом був описаний відповідно до попередніх даних. Кодувальник аудіо об'єктів для генерування кодованого об'єктного сигналу використовує множинність аудіо об'єктів 90, які були показані на Фіг. 9 як вхідні для мікшера 92 і генератора об'єктних параметрів 94. Крім того, кодувальник аудіо об'єктів 101 містить у собі генератор мікшування даних 96 для генерації даних мікшування 97, що вказує на розподіл множинності аудіо об'єктів на, щонайменше, два канали мікшування, відзначені на 93 як вихідні для мікшера 92. Генератор об'єктних параметрів, призначений для генерування об'єктних параметрів 95 для аудіо об'єктів, де об'єктні параметри розраховуються таким чином, що відновлення аудіо об'єктів можливо при використанні об'єктних параметрів і, щонайменше, двох каналів мікшування 93. Важливо, однак, що дане відновлення не відбувається на стороні декодера. Проте, генератор об'єктних параметрів з боку кодера розраховує об'єктні параметри для об'єктів 95 таким чином, що таке повне 26 відновлення може бути виконане на стороні декодера. Крім того, кодер аудіо об'єктів 101 містить інтерфейс виводу 98 для генерування кодованого аудіо сигналу 99, використовуючи інформацію мікшування 97 і об'єктні параметри 95. Залежно від області застосування, канали мікшування 93 можуть також бути використані і кодовані в кодований аудіо сигнал. Однак, можуть бути ситуації, у яких вихідний інтерфейс 98 генерує кодований аудіо сигнал 99 який не містить каналів мікшування. Ця ситуація може виникнути, коли будь-які канали мікшування повинні бути використані на стороні декодера таким чином, щоб інформація мікшування і об'єктні параметри для аудіо об'єктів могли були передані окремо від каналів мікшування. Така ситуація доцільна, коли канали мікшування об'єктів 93 можуть бути придбані окремо від об'єктних параметрів та інформації мікшування за меншу ціну, а об'єктні параметри та інформацію мікшування можна придбати за додаткові кошти, щоб підвищити ефективність роботи користувача декодера. За відсутністю об'єктних параметрів та інформації мікшування, користувач може відтворювати канали мікшування як стерео чи багатоканальний сигнал, в залежності від кількості каналів, що задіяні в мікшуванні. Безумовно, користувач може відтворювати також і моно сигнал, просто додаючи, щонайменше, два канали мікшування переданих об'єктів. Для збільшення гнучкості якостей відтворення і прослуховування, та якостей придатності, об'єктні параметри та інформація мікшування дозволяє користувачу забезпечити відтворення аудіо об'єктів у будь-якому призначеному пристрої аудіо відтворення, такому як стерео система, багатоканальна система, чи, навіть, система синтезу хвильового поля. Доки система синтезу хвильового поля ще не є дуже популярною, такі багатоканальні системи як 5.1 та 7.1 набирають популярність на ринку споживання. Фіг. 10 ілюструє аудіо синтезатор для генерування вихідних даних. З цією метою аудіо синтезатор містить в собі синтезатор вихідних даних 100. Синтезатор вихідних даних отримує у якості вхідних даних інформацію мікшування 97 та об'єктні параметри 95, і, вірогідно, дані призначеного аудіо джерела, такі як місцеположення аудіо джерела, або визначена користувачем гучність специфічного джерела, яку воно повинно мати при відтворенні, як вказано в 101. Синтезатор вихідних даних 100 призначений для генерування вихідних даних, що придатні для створення множинності вихідних каналів визначеної конфігурації аудіо виходу, що представляє множинність аудіо об'єктів. Загалом, синтезатор вихідних даних 100 має здатність використовувати інформацію мікшування 97 та об'єктні параметри 95. Як розглядалося пізніше в зв'язку з Фіг. 11, вихідні дані можуть бути даними для великого ряду корисних сфер застосування, що містять в собі специфічне відтворення вихідних каналів, або лише відновлення сигналів джерела, чи такі, що вміщують транскодування параметрів в параметри відтворення для конфігу 27 рації просторового розмікшування, але не для будь-якого специфічного відтворення вихідних каналів, а, наприклад, для зберігання, чи для передачі таких просторових параметрів. Загальний сценарій використання даного винаходу наведений на Фіг. 14. Існує сторона кодувальника 140, що містить кодувальник аудіо об'єктів 101, який приймає аудіо об'єкти N, як вхідний сигнал. Вихід привілейованого кодувальника аудіо об'єктів містить в собі, крім інформації мікшування і об'єктних параметрів, які не показані на Фіг. 14, канали мікшування K. Кількість каналів мікшування для даного виходу має бути більшою чи дорівнювати двом. Канали мікшування передаються на сторону декодера 142, яка містить в собі просторовий розмікшувач 143. Просторовий розмікшувач 143 може вміщувати патентноздатний аудіо синтезатор, коли аудіо синтезатор використовується в режимі транскодеру. Однак, коли аудіо синтезатор 101, як ілюструє Фіг. 10, працює в режимі просторового розмікшувача, тоді просторовий розмікшувач 143 та аудіо синтезатор втілюють один й той самий пристрій. Просторовий розмікшувач генерує М вихідних каналів, що програються через М динаміків. Ці динаміки розташовуються у визначеному просторовому розміщенні і загалом представляють визначену конфігурацію аудіо виходу. Вихідний канал визначеної конфігурації аудіо виходу можна розглядати як цифровий або аналоговий сигнал динаміка, який потрібно відіслати з виходу просторового розмікшувача 143 в вхід репродуктора в визначеній позиції серед множинності таких позицій для конфігурації аудіо виводу. В залежності від ситуації, кількість вихідних каналів М має дорівнювати двом, коли виконується стерео відтворення. Однак, коли відбувається багатоканальне відтворення, тоді кількість вихідних каналів М - більша за два. Зазвичай, будуть мати місце ситуації, в яких кількість каналів мікшування буде меншою, ніж кількість вихідних каналів згідно вимогам лінії передач. У цьому випадку М більше ніж К, і може бути набагато більше ніж К, у два рази, чи навіть більше. Фіг. 14, до того ж, містить декілька матричних записів для того, щоб проілюструвати функціональність патентноздатного кодувальника і патентноздатного декодера. Як правило, оброблюються масиви вибіркових значень. Тому, як показано в рівнянні (2), аудіо об'єкт представляється як рядок вибіркових значень L. Матриця S має N рядків, відповідно до кількості об'єктів та L стовпців, відповідно до кількості значень. Матриця Е обчислюється як показано в рівнянні (5) та має N стовпців і N рядків. Матриця Е містить об'єктні параметри, коли об'єктні параметри надаються в режимі енергій. Для некорельованих об'єктів, матриця Е має, як вказувалося раніше стосовно рівняння (6), лише головні діагональні елементи, де головний діагональний елемент представляє енергію аудіо об'єкта. Всі недіагональні елементи представляють, як вказувалося раніше, кореляцію двох аудіо об'єктів, яка є особливо придатною, коли деякі об'єкти представляють два канали стерео сигналу. 94117 28 В залежності від специфіки втілення, рівняння (2) - є сигналом часової області. Тоді генерується однозначна величина енергії для цілого масиву аудіо об'єктів. Проте, найкраще, щоб аудіо об'єкти оброблялися конвертером час/частота, який містить, наприклад, тип алгоритму трансформування або алгоритм блоку фільтрів. В останньому випадку, рівняння (2) є чинним для кожного піддіапазону, і дозволяє отримати матрицю Е для кожного піддіапазону, та, звичайно, для кожного часового циклу. Матриця каналу мікшування X має К рядків і L стовпців, та розраховується, як вказано в рівнянні (3). Як вказано в рівнянні (4), вихідні канали М розраховуються з використанням N об'єктів з застосуванням так званої матриці відтворення А для N об'єктів. Залежно від ситуації, N об'єкти можуть бути регенеровані декодером, з використанням параметрів мікшування та об'єктних параметрів, і відтворення може бути застосованим безпосередньо до сигналів відновлених об'єктів. В якості альтернативи, мікшування може бути безпосередньо трансформоване для вихідних каналів без детального обчислення сигналів джерела. Здебільшого, матриця відтворення А вказує на розміщення окремих джерел згідно визначеної конфігурації аудіо виходу. Якщо б було шість об'єктів і шість вихідних каналів, тоді б можна було б розмістити кожний об'єкт в кожному каналі виходу, а матриця відтворення відображала б цю схему. Проте, якщо б хотіли розмістити всі об'єкти між двома місцеположеннями динаміків виходу, тоді б матриця відтворення мала б інший вигляд і відбивала б цю іншу ситуацію. Матриця відтворення, або якщо формулювати більш загально, передбачене розміщення об'єктів, а також передбачена відносна гучність аудіо джерел, може бути розрахована кодувальником і передана в декодер, як так званий опис сценарію. Проте в інших втіленнях, цей опис сценарію може бути генерований самим користувачем для отримання користувальницького мікшування для конфігурацій аудіо виходу. Передача опису сценарію, проте, не є необхідною, але цей опис сценарію може також бути генерований користувачем, щоб задовольнити його потреби. Користувач може, наприклад, забажати розмістити певні аудіо об'єкти в місцях, відмінних від тих, де вони розміщувалися при генеруванні. Існують також випадки, коли об'єкти були спроектовані самі собою і не мають ніякого "оригінального" розміщення стосовно інших об'єктів. В цій ситуації, відносне розміщення аудіо джерел спочатку робить сам користувач. Повернемось до Фіг. 9, де зображений мікшер 92. Цей мікшер спрямований на мікшування множинності аудіо об'єктів в канали мікшування, де кількість аудіо об'єктів перевищує кількість каналів мікшування, і де мікшер сполучається з генератором інформації мікшування таким чином, що розподілення множинності аудіо об'єктів в множинність каналів мікшування відбувається, як вказано в інформації мікшування. Інформація мікшування, породжена генератором інформації мікшування 96 на Фіг. 9, може бути створена автоматично чи упорядкована вручну. Доцільно надавати інформацію 29 мікшування з розкладанням меншим, ніж розкладання параметрів об'єктів. Так біти сторонньої інформації можуть бути збережені без значної втрати якості, відтоді як було доведено, що достатньо фіксованої інформації мікшування для певного аудіо фрагмента або лише повільно змінюваної ситуації мікшування, яка не обов'язково повинна бути частотно-відбірною. В одному втіленні, інформація мікшування представляє матрицю відтворення, що має К рядків та N стовпців. Значення в рядку матриці мікшування має певну величину, коли аудіо об'єкт, що стосується цього значення матриці мікшування знаходиться в каналі мікшування, що представлений рядком матриці мікшування. Коли аудіо об'єкт розміщується в більш, ніж одному каналі мікшування, то значення більше одного рядка матриці мікшування має певну величину. Проте, доцільно, щоб квадрати величин для одного аудіо об'єкта після додавання складали 1.0. Проте, можливі і інші величини. Додатково, аудіо об'єкти можуть бути введені в один чи більше канали мікшування зі змінними рівнями, а ці рівні можуть бути позначені ваговими коефіцієнтами в матриці мікшування, для певних аудіо об'єктів, які відмінні від одного і які в сумі не складають 1.0. Коли канали мікшування розміщуються в кодованому сигналі аудіо об'єкту, що генерований інтерфейсом виводу 98, цей кодований аудіо сигнал може бути, наприклад сигналом часового ущільнення певного формату. У якості альтернативи, кодованим сигналом аудіо об'єкту може бути будьякий сигнал, який дозволяє відокремлення об'єктних параметрів 95, інформація мікшування 97 та канали мікшування 93 на декодері. Крім того, інтерфейс виводу даних 98 може вміщувати кодувальники для об'єктних параметрів, інформацію мікшування чи канали мікшування. Кодувальники для об'єктних параметрі та інформації мікшування можуть бути диференційними та/або ентропічними кодувальниками, а кодувальники для каналів мікшування можуть бути моно або стерео аудіо кодувальниками, такими як МР3 кодери або ААС кодери. Всі ці операції кодування призводять до подальшого стискання даних з метою зменшення швидкості передачі для кодованого сигналу аудіо об'єктів 99. В залежності від специфіки використання, мікшер 92 має змогу розміщувати стерео репрезентацію фонової музики в, щонайменше, двох каналах мікшування, і, більш того, впроваджувати голосову доріжку в, щонайменше, двох каналах мікшування в визначеному співвідношенні. В цьому втіленні, перший канал фонової музики знаходиться в межах першого каналу мікшування, а другий канал фонової музики - в межах другого каналу мікшування. Це призводить до оптимального відтворення стерео фонової музики на стерео пристрої. Однак, користувач може ще й змінювати розташування голосового треку між правим та лівим стерео динаміком. У якості альтернативи, перший та другий канали фонової музики можуть бути розміщені в одному каналі мікшування, а голосовий трек - в іншому каналі мікшування. Отже, усуваючи один канал мікшування, можна повністю 94117 30 відокремити голосовий трек від фонової музики, що особливо підходить для караоке відтворення. Проте, якість стерео відтворення фонових каналів постраждає через параметризацію об'єктів, яка, звичайно, являє собою метод стискання з втратами. Мікшер 92 пристосований для виконання послідовного додавання в часовій області. Таке додавання використовує зразки з аудіо об'єктів, які потрібно мікшувати в один канал мікшування. Коли потрібно представити аудіо об'єкт в канал мікшування з певним відсотковим відношенням, треба провести попереднє зважування перед процесом додавання сигналів за зразком. Як альтернатива, таке додавання може відбуватися в частотній області, або у області піддіапазонів, тобто в області, що є наступною після часо-частотної конверсії. Отже, можна б навіть було провести мікшування в області групи фільтрів, коли часо-частотна конверсія і є групою фільтрів, або в області трансформації, коли часо-частотна конверсія являє собою трансформацію типу FFT, MDCT, чи будь-яку іншу. З точки зору даного винаходу, генератор об'єктних параметрів 94 генерує параметри енергій і, додатково, кореляційні параметри між двома об'єктами, коли два аудіо об'єкта разом представляють стерео сигнал, як видно з наступного рівняння (6). Як альтернатива, об'єктні параметри є параметрами режиму прогнозування. Фіг. 15 ілюструє кроки алгоритму або засоби обчислювального пристрою для розрахувати цих прогнозованих аудіо параметрів. Як вже, розглядалося для рівнянь (7)-(12), потрібно розрахувати статистичну інформацію на канали мікшування в матриці X та аудіо об'єкти в матриці S. Зокрема, блок 150 ілюструє перший крок розрахування дійсної частини S·X* та дійсної частини X·X*. Ці дійсні частини не є числами, а матрицями, і ці матриці визначаються в одне втілення через записи в рівняння (1), коли розглядається наступне втілення в рівняння (12). Здебільшого, значення кроку 150 можуть бути розраховані з використанням дійсних даних в кодувальнику аудіо об'єктів 101. Тоді, матриця прогнозування С розраховується як ілюструє крок 152. Зокрема, система рівнянь розв'язується звичайним шляхом, щоб отримати всі величини матриці прогнозування С, що має N рядків і K стовпців. Зокрема, вагові фактори сn,i, надані в рівнянні (8) розраховуються таким чином, щоб зважене лінійне додавання всіх каналів мікшування якнайкраще відтворювало відповідні аудіо об'єкти. Така матриця прогнозування призводить до покращеного відтворення аудіо об'єктів при зростанні кількості каналів мікшування. Далі буде детально розглянута Фіг. 11. Зокрема, Фіг. 7 ілюструє декілька видів вихідних даних, придатних для утворення множинності каналів виходу наперед визначеної конфігурації аудіо виходу. Рядок 111 ілюструє ситуацію, в якій вихідні дані синтезатору вихідних даних 100 є відновленими аудіо джерелами. Синтезатор вихідних даних 100 потребує цих вихідних даних для відтворення відновлених аудіо джерел, які вміщують інформацію мікшування, канали мікшування та параметри аудіо об'єктів. Для відтворення віднов 31 лених джерел, проте, не обов'язково потрібні конфігурація виходу та призначене позиціювання самих аудіо джерел в просторовій конфігурації аудіо виходу. В цьому першому режимі, позначеному номером 1 на Фіг. 11, синтезатор вихідних даних 100 мав би виводити відновлені аудіо джерела. В випадку використання параметрів прогнозування як параметрів аудіо об'єктів, синтезатор вихідних даних 100 працює відповідно до рівняння (7). Коли об'єктні параметри знаходяться в режимі енергій, тоді синтезатор вихідних даних використовує обернену матриці мікшування і матрицю енергій для відновлення сигналів джерел. У якості альтернативи, синтезатор вихідних даних 100, працює таким чином, як це ілюструє, наприклад, блок 102 на Фіг. 1b. Коли синтезатор виходу є різновидом транскодеру для генерування просторових параметрів мікшера, то потрібні інформація мікшування, параметри аудіо об'єктів, вихідна конфігурація та призначене позиціювання. Зокрема, вихідна конфігурація та призначене позиціювання забезпечуються відтворенням матриці А. Проте, канали мікшування не потрібні для генерування просторових параметрів мікшера, як це буде детально розглянуто, стосовно Фіг. 12. Залежно від ситуації, просторові параметри мікшера, що генеруються синтезатором вихідних даних 100, можна буде потім використовувати прямим просторовим мікшером, таким як мікшер MPEGsurround, для розмікшування каналів мікшування. Для такого втілення не потрібно видозмінювати канали мікшування об'єктів, але можна застосувати просту матрицю конверсії, що має лише діагональні елементи, як це обговорюється в рівнянні (13). В режимі 2, як позначено 112 на Фіг. 11, синтезатор вихідних даних 100 вивів би просторові параметри мікшера і, бажано, матрицю конверсії G, як вказувалось в рівнянні (13), що включає коефіцієнти посилення, які можна використати як довільні параметри коефіцієнтів посилення мікшування (ДМК)декодера MPEG-surround. В режимі номер 3, як вказує 113 на Фіг. 11, вихідні дані вміщують просторові параметри в матриці перетворення, яка ілюстрована у відношенні до рівняння (25). В цьому випадку, синтезатор вихідних даних 100 не обов'язково повинен виконувати поточне мікшоване перетворення, щоб конвертувати мікшування об'єктів в стерео мікшування. Інший режим роботи, позначений режимом номер 4 в рядку 114 Фіг. 11, ілюструє синтезатор вихідних даних 100 Фіг. 10. В цьому випадку транскодер функціонує як вказує 102 на Фіг. 16 і виводить не лише просторові параметри мікшера, але й, додатково, конвертоване мікшування. Проте, більше немає потреби виводити матрицю перетворення G на додаток для конвертованого мікшування. Виводу конвертованого мікшування і просторових параметрів мікшера достатньо, як вказано на Фіг. 16. Режим номер 5 позначає ще одне використання синтезатору вихідних даних 100, проілюстроване на Фіг. 10. В цьому випадку вказані рядком 115 на Фіг. 11, вихідні дані, генеровані синтезатором вихідних даних, не містять просторових парамет 94117 32 рів мікшера, а лише матрицю перетворення G, як показано рівнянням (35), наприклад, чи фактично містять вихід самих аудіо сигналів, як вказано в 115. В такому втіленні має інтерес лише стерео відтворення і немає потреби в просторових параметрах мікшера. Проте, для генерування стерео виходу потрібна вся наявна вхідна інформація, що вказана на Фіг.11. Ще один режим синтезатора вихідних даних вказаний номером 6 на рядку 116. Тут, синтезатор вихідних даних 100 генерує багатоканальний вихід, і цей синтезатор вихідних даних 100 був би подібний до елемента 104 на Фіг. 16. Як наслідок цього, синтезатор вихідних даних 100 вимагає надання всієї наявної вхідної інформації і виводить багатоканальний вихідний сигнал, що має більше двох каналів виходу для відтворення відповідною кількістю динаміків, що повинні бути розміщенні в призначених положеннях відповідно до визначеної конфігурації аудіо виходу. Таким багатоканальним виходом є вихід 5.1, вихід 7.1 чи вихід 3.0, що має лівий, центральний і правий динамік. Далі, розглядається Фіг. 11 для ілюстрування одного прикладу розрахування декількох параметрів параметризації з Фіг. 7, отриманих від декодера MPEG Surround. Як вказується, Фіг. 7 ілюструє параметризацію декодера MPEG Surround, починаючи з стерео мікшування 70, що має лівий канал мікшування I0 і правий канал мікшування r0. Схематично обидва канали мікшування введені в так званий блок Два-В-Два 71. Блок Два-В-Три контролюється декількома вхідними параметрами 72. Блок 71 генерує три вихідних канали 73а, 73b, 73с. Кожний вихідний канал вводиться в блок Один-НаДва. Це означає, що канал 73а вводиться в блок 74а, канал 73b вводиться в блок 74b, а канал 73с вводиться в блок 74с. Кожен блок виводить два канали виходу. Блок 74а виводить передній лівий канал If і і лівий surround канал ls. Далі, блок 74b виводить передній правий канал rf і правий surround канал rs. Крім того, блок 74с виводить центральний канал с і низькочастотний збагачений канал lfe. Важливо, що повне розмікшування з каналів мікшування 70 в канали виходу відбувається з використанням операції матриці, а деревовидну структуру, що показана на Фіг. 7 не потрібно виконувати покроково, а лише шляхом однієї, чи декількох матричних операцій. Крім того, проміжні сигнали, позначені 73 а, 73b і 73 с не чітко розраховані певним втіленням, а ілюстровані на Фіг. 7 лише з прикладної мети. Крім того, блоки 74а, 74b отримують деякі залишкові сигнали res10TT, res20TT, які можна використати для впровадження певної випадковості в сигнали виходу. Як відомо з MPEG Surround, блок 71 контролюється або параметрами прогнозування СРС або параметрами енергій CLDTTT. Для розмікшовування з двох каналів у три канали, потрібно, щонайменше, два параметри прогнозування СРС1, СРС2, або, щонайменше, два параметри енергій CLD1TTT та CLD2TTT. Крім того, в блоці 71 може бути використана міра кореляції ІССTTT, яка, проте, є факультативною характеристикою, що не використовується в одному втіленні винаходу. Фіг. 12 і 13 33 ілюструють необхідні кроки і/або засоби, для розрахування всіх параметрів CPC/CLDTTT, CLD0, CLD1, ІСС1, CLD2, ІСС2 з об'єктних параметрів 95 Фіг.9, інформації мікшування 97 Фіг. 9 та призначене позиціювання аудіо джерел, тобто опис сценарію 101, що ілюструє Фіг. 10. Ці параметри дійсні для визначеного формату аудіо виходу стереофонічної системи 5.1. Безумовно, специфічне розрахування параметрів для такого специфічного здійснення може бути пристосоване для інших аудіо форматів і параметризації, згідно з ідеями цього документу. Крім того, послідовність кроків або впорядкування засобів на Фіг. 12 і 13а,б наведені ілюстративно і можуть бути зміненими у межах логічного змісту математичних рівнянь. Крок 120 представляє матрицю відтворення А. Матриця відтворення вказує на те, де має бути розміщене джерело множинності джерел в контексті з визначеною конфігурацією виходу. Крок 121 ілюструє похідну часткової матриці мікшування D36, як вказано в рівнянні (20). Ця матриця відбиває ситуацію мікшування з шести вихідних каналів в три канали і має розмір 3N. Коли є намір генерувати більше каналів виходу, ніж конфігурація 5.1, як наприклад, 8-канальна вихідна конфігурація (7.1), тоді матриця, визначена в масиві 121 була б матрицею D38. В кроці 122, зведена матриця відтворення А3 створюється множенням матриці D36 і повної матриці відтворення, як визначено в кроці 120. В кроці 123, представлена матриця мікшування D. Ця матриця мікшування D може бути відтворена з кодованого сигналу аудіо об'єктів, коли ця матриця цілком вводиться в цей сигнал. Як альтернатива, ця матриця мікшування може бути параметризована, наприклад, для специфічного зразка мікшування даних і для матриці мікшування G. Далі, в кроці 124 надається матриця енергій об'єктів. Ця матриця енергій об'єктів відображається об'єктними параметрами для N об'єктів і може бути вилучена з імпортованих аудіо об'єктів чи відновлена, з використанням певного правила відновлення. Це правило відновлення може містити ентропічне декодування та інше. В кроці 125 визначається "скорочена" матриця прогнозування С3. Значення цієї матриці можна розрахувати шляхом рішення системи лінійних рівнянь, як вказано в кроці 125. Саме елементи матриці С3 можуть бути розраховані множенням обох сторін рівняння на обернену (DED*). В кроці 126, розраховується матриця перетворення G. Ця матриця перетворення G має розмір KK і генерується згідно рівняння (25). Щоб вирішити рівняння в кроці 126, повинна бути надана специфічна матриця DTTT, як зазначено в кроці 127. Приклад для цієї матриці наданий в рівнянні (24), а визначення можна вивести з відповідного рівняння для СТТТ, як визначено в рівнянні (22). Отже, рівняння (22) окреслює що потрібно зробити в кроці 128. Крок 129 визначає рівняння для розрахування матриці СТТТ. Оскільки матриця СТТТ визначається відповідно до рівняння в масиві 129, то можуть бути виведені параметри , і , які є параметрами СРС. Бажано, має дорівнювати 1, 94117 34 щоб єдиними залишковими параметрами входу СРС для масиву 71 були і . Залишковими параметрами, необхідними для схеми на Фіг. 7 є параметри, що входять в масиви 74а, 74b і 74с. Розрахування цих параметрів обговорюється в співвідношенні до Фіг. 13а. В кроці 130, надається матриця відтворення А. Розмір матриці відтворення А складає N рядків за кількістю аудіо об'єктів і М стовпців за кількістю вихідних каналів. Ця матриця відтворення містить інформацію про сценарний вектор, коли використовується цей сценарний вектор. Як правило, матриця відтворення містить інформацію про розміщення аудіо джерел в певному положенні в пристрої виходу. Коли, наприклад, розглядається матриця відтворення А під рівнянням (19), стає зрозумілим, як певне розміщення аудіо об'єктів може бути кодоване у межах цієї матриці відтворення. Зрозуміло, що можуть бути використані інші шляхи позначення певного положення, такі як величини, що не дорівнюють 1. До того ж, коли використовуються величини, що менші за 1 з одного боку і більші за 1 з іншого боку, то також може бути справлений вплив на гучність аудіо об'єктів. В одному втіленні, матриця відтворення генерується декодером без будь якої інформації зі стороні кодувальника. Це дозволяє користувачу розмістити аудіо об'єкти за його бажанням, не приділяючи уваги просторовому відношенню аудіо об'єктів в пристрої кодувальника. В іншому втіленні, відносне і абсолютне місце розташування аудіо джерел може бути кодоване на стороні кодувальника і передане в декодер, як вид сценарного вектору. Далі, на стороні декодера, ця інформація про розташування аудіо джерел, що є, бажано, незалежною від призначеного пристрою аудіо відтворення, оброблюється для виведення матриці відтворення, яка відбиває місце розміщення аудіо джерел, що модифіковане для специфічної конфігурації аудіо виходу. В кроці 131 представляється матриця енергій об'єктів Е, яку вже було розглянуто відносно кроку 124 Фіг. 12. Ця матриця має розмір NN та містить параметри аудіо об'єктів. В одному втіленні така матриця передбачена для кожного піддіапазону і кожного масиву зразків часової області або області піддіапазонів. В кроці 132 розраховується матриця енергій виходу F. F є коваріантною матрицею вихідних каналів. Проте, оскільки вихідні канали ще не відомі, матриця енергій виходу розраховується з використанням матриці відтворення і матриці енергій. Ці матриці надаються в кроках 130 і 131, та є легкодоступними на стороні декодеру. Далі, застосовуються специфічні рівняння (15), (16), (17), (18) та (19) для розрахування параметрів перепаду висот каналів CLD0, CLD1, CLD2 і параметрів міжканальної когерентності ІСС1 та ІСС2 таким чином, щоб отримати параметри для блоків 74а, 74b, 74с. Важливо, що просторові параметри розраховуються поєднанням специфічних елементів матриці енергій виходу F. Після кроку 133, доступні всі параметри для просторового розмікшувача, що схематично зображений на Фіг. 7. 35 В попередньому втіленні об'єктні параметри були представлені як параметри енергій. Однак, коли об'єктні параметри надаються як параметри прогнозування, наприклад, як матриця об'єктного прогнозування С, як вказано пунктом 124а на Фіг. 12, розрахування зведеної матриці прогнозування С3 є просто матричним множенням, як проілюстровано в масиві 125а і розглянуто стосовно рівняння (32). Матриця А3, що використовується в масиві 125а являє собою ту ж саму матрицю Аз, що згадується в масиві 122 Фіг. 12. Коли матриця об'єктного прогнозування С генерується кодувальником аудіо об'єктів і передається в декодер, тоді виникає потреба в додаткових розрахуваннях для генерування параметрів для блоків 74а, 74b, 74с. Ці додаткові кроки, позначені на Фіг. 13б. До того ж, матриця об'єктного прогнозування С надається як вказано 124а на Фіг. 13б, і є тією ж самою, яка обговорювалась у зв'язку с масивом 124а Фіг. 12. Тоді, як обговорювалось стосовно рівняння (31), коваріантна матриця об'єктного мікшування Z розраховується з використанням переданого мікшування чи генерується і передається як додаткова стороння інформація. Коли передається інформація на матриці Z, тоді декодер не обов'язково повинний виконувати розрахування енергій, що природно призводить до затримок при обробці та підвищує навантаження на декодері. Проте, коли ці результати не є вирішальними для певного застосування, тоді ширина полоси передачі може бути збереженою, а коваріантна матриця Z об'єктів мікшування може також бути розрахована з використанням зразків мікшування, що, звичайно, наявні на стороні декодеру. Як тільки завершується крок 134 і коваріантна матриця об'єктів мікшування готова, матриця енергій об'єктів Е може бути розрахована, як відображує крок 135, з використанням матриці прогнозування С та коваріантності мікшування чи матриці "енергії мікшування" Z. Як тільки завершується крок 135, тоді можуть бути виконані всі кроки, що обговорювались стосовно Фіг. 13 а, а саме - 132, 133, для генерування всіх параметрів для масивів 74а, 74b, 74с Фіг. 7. Фіг. 16 ілюструє подальше втілення, що має за потребу стерео відтворення. Стерео відтворення являє собою вихід згідно з режимом номер 5, або рядком 115 Фіг.11. Тут, синтезатор вихідних даних 100 Фіг. 10 не зацікавлений в просторових параметрах розмікшування, але здебільшого зацікавлений в специфічній матриці перевтілення G для конвертації об'єктного мікшування в стерео мікшування, яке корисне і легко піддається впливу і керуванню. В кроці 160 Фіг. 16, розраховується часткова матриця мікшування М-в-2. В випадку з шістьма каналами виходу, часткова матриця мікшування була б матрицею мікшування з шести в два канали, але також наявні і інші матриці мікшування. Розрахування цієї часткової матриці мікшування можна здобути, наприклад, з часткової матриці мікшування D36, як у кроці 121 і матриці DTTT; як використовувалось у кроці 127 Фіг. 12. До того ж, матриця стерео відтворення А2 генерується з використанням результату кроку 160, 94117 36 а "велика" матриця відтворення А зображується в кроці 161. Ця матриця відтворення А є тією ж самою матрицею, що розглядалася в співвідношенні до масиву 120 на Фіг. 12. Потім, в кроці 162, матриця стерео відтворення може бути параметризована розміщенням параметрів і . Коли встановлюється 1 і також встановлюється 1, тоді отримують рівняння (33), яке допускає варіацію гучності голосу в прикладі, що описаний у зв'язку з рівнянням (33). Проте, коли використовуються інші параметри, такі як і , то тоді можна також варіювати розташування джерел. Потім, як вказує крок 163, розраховується матриця перетворення G з використанням рівняння (33). Зокрема, може бути розрахована матриця (DED ), потім обернена і ця обернена матриця може бути помножена праворуч на рівняння масиву 163. Безумовно, можна застосовувати інші методи для обчислювання рівняння в масиві 163. Далі, є матриця перевтілення G, а мікшування об'єктів X може бути конвертоване перемноженням цієї матриці перевтілення і мікшування об'єктів, як показано в масиві 164. Далі, конвертоване мікшування X' може бути стерео відтвореним з використанням двох динаміків. В залежності від реалізації, можна встановити певні значення для , і , використовуючи всі ці три параметри як змінні величини, такі, що ці параметри можна встановити після кроку 163 за бажанням користувача. Доцільне втілення вирішує завдання передачі кількості окремих аудіо об'єктів (з використанням багатоканального мікшування і додаткових керуючих даних, що описують ці об'єкти) і відтворення об'єктів в даній системі відтворення (конфігурація динаміків). Представлена техніка, за якою відбувається модифікація керуючих даних, що мають відношення до об'єкту в керуючі дані, що є сумісними з системою відтворення. Далі вона пропонує придатні методи кодування, що базуються на схемі кодування MPEG Surround. В залежності від вимог певного втілення патентноздатних методів, такі патентноздатні методи і сигнали можуть бути впроваджені в апаратному чи програмному забезпеченні. Таке впровадження може бути проведене з використанням цифрового носія, зокрема диску чи CD, на якому зберігаються електронні контрольні сигнали і який може взаємодіяти з програмованими комп'ютерними системами, на яких впроваджуються дані патентноздатні методи. Загалом, отже, даний винахід є програмним забезпеченням з програмним кодом, що зберігається на читаному на комп'ютері носії, до того ж цей програмний код встановлений для виконання, щонайменше, одного з цих патентноздатних методів, коли ці програмні продукти відтворюються на комп'ютері. Іншими словами, ці патентноздатні методи являють собою комп'ютерну програму, що має програмний код для виконання цих патентноздатних методів, коли ця комп'ютерна програма відтворюється на комп'ютері. Іншими словами, відповідно до втілення даного винаходу, кодувальник аудіо об'єктів для генерування кодованого сигналу аудіо об'єктів, що ви 37 користовує множинність аудіо об'єктів, містить в собі генератор інформації мікшування для генерування інформація мікшування, що вказує на розподілення множинності аудіо об'єктів в, щонайменше, два канали мікшування; генератор об'єктних параметрів для генерування об'єктних параметрів для аудіо об'єктів; і інтерфейс виводу даних для генерування кодованого аудіо сигналу з використанням інформації мікшування і об'єктних параметрів. Факультативно, інтерфейс виводу даних може діяти для генерування кодованого аудіо сигналу за додатковим використанням множинності каналів мікшування. Додатково, чи як варіант, генератор параметрів може функціонувати для генерування об'єктних параметрів з початковим частотно-часовим розкладанням, і там де генератор інформації мікшування є функціональним для генерування інформації мікшування з вторинним частотно-часовим розкладанням, при цьому вторинне частотночасове розкладання є меншим від початкового частотно-часового розкладання. Далі, генератор інформації мікшування може використовуватися для генерування інформації мікшування таким чином, щоб інформація мікшування дорівнювала усьому частотному діапазону аудіо об'єктів. Далі, генератор інформації мікшування може використовуватися для генерування інформації мікшування, яка представляє матрицю мікшування, визначену в такий спосіб: X=DS, де S - матриця, що представляє аудіо об'єкти та має кількість рядків, рівних кількості аудіо об'єктів, де D - матриця мікшування, та де X - матриця, що представляє множинність каналів мікшування та має кількість рядків, рівних кількості каналів мікшування. Далі, інформація про частину є фактором, меншим за 1, та більшим за 0. Далі, мікшер може використовуватися для включення стерео відтворення фонової музики в, щонайменше, два канали мікшування, та для введення голосової доріжки в, щонайменше, два канали мікшування у визначеному співвідношенні. Далі, мікшер може використовуватися для виконання додавання сигналів за зразком, які входять в канал мікшування згідно з інформацією мікшування. Далі, інтерфейс виводу даних може використовуватися для стискання даних інформації мікшування та об'єктних параметрів перед генеруванням кодованого сигналу аудіо об'єктів. Далі, множинність аудіо об'єктів може містити в собі стерео об'єкт, представлений двома аудіо об'єктами, що мають певну ненульову кореляцію, та в якому генератор інформації мікшування гене 94117 38 рує інформацію групування, яка відображає які два аудіо об'єкти формують стерео об'єкт. Далі, генератор об'єктних параметрів може використовуватися для генерування об'єктних параметрів прогнозування для аудіо об'єктів, при цьому параметри прогнозування обчислюються як ті, в яких зважене додавання каналів мікшування для первинного об'єкту, що контролюється параметрами прогнозування чи первинним об'єктом, призводить до апроксимації первинного об'єкту. Далі, параметри прогнозування можуть бути генеровані згідно з частотним діапазоном, де аудіо об'єкти охоплюють множинність частотних діапазонів. Далі, кількість аудіо об'єктів може дорівнювати N, кількість каналів мікшування дорівнює K, а кількість об'єктних параметрів прогнозування, підрахована генератором об'єктних параметрів, менша ніж, або дорівнює N·K. Далі, генератор об'єктних параметрів може використовуватися для підрахування щонайбільше об'єктних параметрів прогнозування K·(N-K). Далі, генератор об'єктних параметрів може містити в собі розмікшувач для розмікшування множинності каналів мікшування з використанням набору тестових параметрів об'єктного прогнозування; і в якому, до того ж, кодувальник аудіо об'єктів вміщує контролер ітерацій, для визначення тестових параметрів об'єктного прогнозування, що призводять до найменшого відхилення між первинним сигналом, відновленим за допомогою розмікшувача і відповідним первинним сигналом першоджерела серед різних наборів тестових параметрів об'єктного прогнозування. Далі, синтезатор вихідних даних може використовуватися для визначення матриці перетворення, яка застосовує інформацію мікшування, де матриця перетворення обчислюється таким чином, що міняються принаймні частини каналів мікшування, коли аудіо об'єкт, що знаходиться в першому каналі мікшування та представляє першу половину стерео площини, треба програти у другій половині стерео площини. Далі, аудіо синтезатор може містити в собі рендерер каналів для відтворення каналів аудіо виходу для визначеної конфігурації аудіо виходу, що використовує просторові параметри та, щонайменше, два канали мікшування або перетворені канали мікшування. Далі, синтезатор вихідних даних може використовуватися для виводу вихідних каналів визначеної конфігурації аудіо виходу, що додатково використовує щонайменше два канали мікшування. Далі, синтезатор вихідних даних може використовуватися для обчислення фактичних вагових коефіцієнтів мікшування для матриці часткового мікшування таким чином, що енергія зваженої суми двох каналів дорівнює енергіям каналів у межах граничного коефіцієнту. Далі, вагові коефіцієнти мікшування для матриці часткового мікшування можуть визначатися наступним чином: 39 94117 40 2 wp f2p1,2p1 f2p,2p 2f2p1,2p f2p1,2p1 f2p,2p, p 12,3, , де wp - ваговий коефіцієнт мікшування, р - ціла індексна змінна, fj,i - матричний елемент матриці енергій, що відображає апроксимацію матриці коваріантності каналів виходу визначеної конфігурації виходу. Далі, синтезатор вихідних даних може використовуватися для обчислення окремих коефіцієнтів матриці прогнозування через систему лінійних рівнянь. Далі, синтезатор вихідних даних може використовуватися для рішення системи лінійних рівнянь, що базуються на C3(DED*)=A3ED* де С3 - матриця прогнозування Два-В-Три, D матриця мікшування, виведена з інформації мікшування, Е - матриця енергії, виведена з об'єктів аудіо джерел, і А3 - приведена матриця мікшування, та де "*" вказує на складну спряжену операцію. Далі, параметри прогнозування для розмікшування Два-В-Три можуть бути виведені з параметризації матриці прогнозування таким чином, що матриця прогнозування визначається лише за двома параметрами, та в якому синтезатор вихідних даних може використовується для попередньої обробки, щонайменше, двох каналів мікшування так, що результат попередньої обробки та параметризованої матриці прогнозування відповідає необхідній матриці розмікшування. Далі, параметризація матриці прогнозування може бути наступною: С ТТТ 2 1 1 2 3 1 1 де індекс ТТТ (Два-В-Три) - параметризована матриця прогнозування, а де , і - коефіцієнти. Далі, матриця перетворення мікшування G може бути обчислена наступним чином: G=DTTTС3, де С3 - матриця прогнозування Два-В-Три, де DTTT та СТТТ дорівнюють І, де І - попарна одинична матриця, і де СTTT базується на: С ТТТ 2 1 1 2 3 1 1 де , і - постійні коефіцієнти. Далі, параметри прогнозування для розмікшування Два-В-Три можуть визначатися як та , де встановлено на 1. Далі, синтезатор вихідних даних може використовуватися для обчислення параметрів енергій для розмікшування Три-Два-Шість, використовуючи матрицю енергій F, яка базується на: YY*F=AEA*, де А - матриця відтворення, Е - матриця енергій, виведена з об'єктів аудіо джерел, Y - матриця вихідних каналів, а "*" вказує на складну спряжену операцію. Далі, синтезатор вихідних даних може використовуватися для обчислення параметрів енергій, об'єднуючи елементи матриці енергій. Далі, синтезатор вихідних даних може використовуватися для обчислення параметрів енергій, що базуються на наступних рівняннях: f CLD0 10 log10 55 f 66 f CLD1 10 log10 33 f 44 f CLD2 10 log10 11 f 22 f34 ICC 1 f33 f 44 ICC 2 f12 f11f 22 де - абсолютна величина (z)=|z| чи фактичний оператор значення (z)=Re{z}, де CLD0 - енергетичний параметр перепаду висот першого каналу, де CLD1 -енергетичний параметр перепаду висот другого каналу, де CLD2 енергетичний параметр перепаду висот третього каналу, де ІСС1- перший міжканальний енергетичний параметр когерентності, та ІСС2 - другий міжканальний енергетичний параметр когерентності, і де fij - елементи матриці енергій F у точках і,j у цій матриці. Далі, перша група параметрів може містити параметри енергій, та в якому синтезатор вихідних даних використовується для отримання параметрів енергій, об'єднуючи елементи матриці енергій F. Далі, параметри енергій можуть бути обчислені на основі: l2 r 2 10 log10 2 c f f f f 44 10 log10 11 22 33 f 55 f 66 CLD0 TTT 41 l CLD1 10 log10 TTT r 94117 f11 f 22 10 log10 f f 44 33 2 2 де CLD0 TTT - перший параметр енергій першої групи та де CLD1 TTT - другий параметр енергій першої групи параметрів. Далі, синтезатор вихідних даних може використовуватися для обчислення вагових коефіцієнтів для зважування каналів мікшування, при цьому вагові коефіцієнти використовуються для контролю довільних коефіцієнтів посилення мікшування просторового декодеру. Далі, синтезатор вихідних даних може використовуватися для обчислення вагових коефіцієнтів на основі: Z=DED* W D26ED* 26 w 11 / z11 G 0 / z 22 0 w 22 де D - матриця мікшування, Е - матриця енергій, виведена з об'єктів аудіо джерел, де W - проміжна матриця, де D26 - матриця часткового мікшування для мікшування з 6 до 2 каналів визначеної конфігурації виходу, та де G - матриця перетворення, що містить довільні коефіцієнти посилення мікшування просторового декодеру. Далі, синтезатор вихідних даних може використовуватися для розрахування матриці енергій на основі: E=CZC* де Е - матриця енергій, С - матриця параметрів прогнозування, a Z - матриця коваріантності, щонайменше, двох каналів мікшування. Далі, синтезатор вихідних даних може використовуватися для розрахування матриці перетворення на основі: G=A2·C, 42 де G - матриця перетворення, А2 - матриця часткового відтворення, а С - матриця параметрів прогнозування. Далі, синтезатор вихідних даних може використовуватися для розрахування матриці перетворення на основі: G(DED*)=A2ED*, де G - матриця енергій, отримана з аудіо джерела доріжок, D - матриця мікшування, отримана з інформації мікшування, А2 - приведена матриця відтворення, а "*" вказує на повну спряжену операцію. Далі, параметризована матриця стерео відтворення А2 може бути визначена наступним чином: 1 1 де , , та - речовинні параметри, які задаються залежно від розташування та гучності одного чи більше об'єктів аудіо джерел. Посилання: 1. Л. Віллемоес, Й. Херре, Й. Бреебаарт, Г. Хотхо, С. Дісч, X. Пурнхаген, і К. Кйєрлінг, "MPEG Surround: Майбутній ISO стандарт для просторового аудіо кодування", на 28-й Міжнародній конференції AES, Майбутнє аудіо технологій Surround і за його межами, Пітеа, Швеція, 30 червня - 2 липня, 2006. 2. Й. Бреебаарт, Й. Херре, Л. Віллемоес, Ц. Йін, К. Кйєрлінг, Й. Плогстіес, і Й. Коппенс, "Багатоканальність стає мобільною: бінауральне відтворення MPEG Surround", на 29-й Міжнародній конференції AES, аудіо для мобільних і портативних пристроїв, Сеул, вересень 2-4, 2006. 3. Ц. Фаллер, "Параметричне сукупне кодування для аудіо джерел", конвенційна доповідь 6752 представлена на 120-й AES конвенції, Париж, Франція, травень 20-23, 2006. 4. Ц. Фаллер, " Параметричне сукупне кодування для аудіо джерел", патентна заявка РСТ/ЕР2006/050904, 2006. 43 94117 44 45 94117 46 47 94117 48 49 94117 50 51 94117 52 53 94117 54 55 94117 56 57 94117 58 59 94117 60
ДивитисяДодаткова інформація
Назва патенту англійськоюImproved coding and parameter dysplaying of mixed object multichannel coding
Автори англійськоюEngdehard Jonas, Villemose Lars, Purnhagen Heiko, Resh Barbara
Назва патенту російськоюУсовершенстованное кодирование и отображение параметров многоканального кодирования микшированных объектов
Автори російськоюЭнгдегард Джонас, Виллемоус Рарс, Пурнхаген Хейко, Реш Барбара
МПК / Мітки
МПК: G10L 19/00
Мітки: покращене, відображення, кодування, багатоканального, об'єктів, мікшованих, параметрів
Код посилання
<a href="https://ua.patents.su/31-94117-pokrashhene-koduvannya-i-vidobrazhennya-parametriv-bagatokanalnogo-koduvannya-mikshovanikh-obehktiv.html" target="_blank" rel="follow" title="База патентів України">Покращене кодування і відображення параметрів багатоканального кодування мікшованих об’єктів</a>