Кодування звукових сцен
Номер патенту: 113692
Опубліковано: 27.02.2017
Автори: Хірвонен Тоні, Пурнхаген Хейко, Віллемоес Ларс, Самуельссон Лейф Йонас
Формула / Реферат
1. Спосіб кодування частотно-часового мозаїчного елемента звукової сцени, яка містить щонайменше N звукових об'єктів, причому спосіб включає:
приймання N звукових об'єктів;
генерування Μ сигналів знижувального мікшування на основі щонайменше N звукових об'єктів;
генерування матриці відновлення з матричними елементами для відновлення щонайменше N звукових об'єктів з Μ сигналів знижувального мікшування, причому приблизні представлення щонайменше N звукових об'єктів одержують у вигляді лінійних комбінацій із щонайменше Μ сигналів знижувального мікшування із застосуванням матричних елементів матриці відновлення як коефіцієнтів в лінійних комбінаціях; і
генерування бітового потоку, який містить Μ сигналів знижувального мікшування та щонайменше деякі з матричних елементів матриці відновлення.
2. Спосіб за п. 1, який відрізняється тим, що Μ сигналів знижувального мікшування розташовані в першому полі бітового потоку із застосуванням першого формату, а матричні елементи розташовані в другому полі бітового потоку із застосуванням другого формату, тим самим забезпечуючи можливість декодеру, який підтримує тільки перший формат, декодувати і відтворювати Μ сигналів знижувального мікшування в першому полі та відкидати матричні елементи в другому полі.
3. Спосіб за будь-яким з попередніх пунктів, який відрізняється тим, що додатково включає етап приймання даних про положення, які відповідають кожному з N звукових об'єктів, причому Μ сигналів знижувального мікшування генерують на основі даних про положення.
4. Спосіб за будь-яким з попередніх пунктів, який відрізняється тим, що матричні елементи матриці відновлення є змінними в часі та за частотою.
5. Спосіб за будь-яким з попередніх пунктів, який відрізняється тим, що звукова сцена додатково містить множину основних каналів, причому Μ сигналів знижувального мікшування генерують на основі щонайменше N звукових об'єктів та множини основних каналів.
6. Спосіб за п. 5, який відрізняється тим, що матриця відновлення містить матричні елементи для відновлення основних каналів з Μ сигналів знижувального мікшування, причому приблизні представлення N звукових об'єктів та основних каналів одержують у вигляді лінійних комбінацій із щонайменше Μ сигналів знижувального мікшування із застосуванням матричних елементів матриці відновлення як коефіцієнтів в лінійних комбінаціях.
7. Спосіб за будь-яким з попередніх пунктів, який відрізняється тим, що звукова сцена спочатку містить К звукових об'єктів, де Κ>Ν, причому спосіб додатково включає етапи приймання К звукових об'єктів і зменшення Κ звукових об'єктів до N звукових об'єктів за допомогою кластеризації К об'єктів в N кластерів і представлення кожного кластера одним звуковим об'єктом.
8. Спосіб за п. 7, який відрізняється тим, що додатково включає етап приймання даних про положення, які відповідають кожному з Κ звукових об'єктів, при цьому кластеризація К об'єктів в N кластерів основана на просторовій відстані між Κ об'єктами, яка задана даними про положення Κ звукових об'єктів.
9. Спосіб за будь-яким з попередніх пунктів, який відрізняється тим, що кількість Μ сигналів знижувального мікшування більше двох.
10. Спосіб за будь-яким з попередніх пунктів, який відрізняється тим, що додатково включає:
формування L додаткових сигналів з N звукових об'єктів;
включення матричних елементів у матрицю відновлення для відновлення щонайменше N звукових об'єктів з Μ сигналів знижувального мікшування та L додаткових сигналів, причому приблизні представлення щонайменше N звукових об'єктів одержують у вигляді лінійних комбінацій з Μ сигналів знижувального мікшування та L додаткових сигналів із застосуванням матричних елементів матриці відновлення як коефіцієнтів в лінійних комбінаціях; і
включення L додаткових сигналів у бітовий потік.
11. Спосіб за п. 10, який відрізняється тим, що щонайменше один з L додаткових сигналів дорівнює одному з N звукових об'єктів.
12. Спосіб за будь-яким з пп. 10-11, який відрізняється тим, що щонайменше один з L додаткових сигналів формують у вигляді комбінації із щонайменше двох з N звукових об'єктів.
13. Спосіб за будь-яким з пп. 10-12, який відрізняється тим, що Μ сигналів знижувального мікшування проходять у гіперплощині, і при цьому щонайменше один з множини додаткових сигналів не лежить у гіперплощині, у якій проходять Μ сигналів знижувального мікшування.
14. Спосіб за п. 13, який відрізняється тим, що щонайменше один з множини додаткових сигналів є ортогональним відносно гіперплощини, у якій проходять Μ сигналів знижувального мікшування.
15. Машиночитуваний носій, який містить команди машинного коду, пристосовані для виконання способу за будь-яким з пп. 1-14 при виконанні на пристрої, що має можливість обробки.
16. Кодер для кодування частотно-часового мозаїчного елемента звукової сцени, яка містить щонайменше N звукових об'єктів, який містить:
приймальний компонент, виконаний з можливістю приймання N звукових об'єктів;
компонент генерування знижувального мікшування, виконаний з можливістю приймання N звукових об'єктів із приймального компонента та генерування Μ сигналів знижувального мікшування на основі щонайменше N звукових об'єктів;
аналізувальний компонент, виконаний з можливістю генерування матриці відновлення з матричними елементами для відновлення щонайменше N звукових об'єктів з Μ сигналів знижувального мікшування, причому приблизні представлення щонайменше N звукових об'єктів одержують у вигляді лінійних комбінацій із щонайменше Μ сигналів знижувального мікшування із застосуванням матричних елементів матриці відновлення як коефіцієнтів в лінійних комбінаціях; і
компонент генерування бітового потоку, виконаний з можливістю приймання Μ сигналів знижувального мікшування з компонента генерування знижувального мікшування та матриці відновлення з аналізувального компонента, і генерування бітового потоку, що містить Μ сигналів знижувального мікшування та щонайменше деякі з матричних елементів матриці відновлення.
17. Спосіб декодування частотно-часового мозаїчного елемента звукової сцени, яка містить щонайменше N звукових об'єктів, причому спосіб включає етапи:
приймання бітового потоку, який містить Μ сигналів знижувального мікшування та щонайменше деякі матричні елементи матриці відновлення;
генерування матриці відновлення із застосуванням матричних елементів; і
відновлення N звукових об'єктів з Μ сигналів знижувального мікшування із застосуванням матриці відновлення, причому приблизні представлення щонайменше N звукових об'єктів одержують у вигляді лінійних комбінацій із щонайменше Μ сигналів знижувального мікшування із застосуванням матричних елементів матриці відновлення як коефіцієнтів в лінійних комбінаціях.
18. Спосіб за п. 17, який відрізняється тим, що Μ сигналів знижувального мікшування розташовані в першому полі бітового потоку із застосуванням першого формату, а матричні елементи розташовані в другому полі бітового потоку із застосуванням другого формату, тим самим забезпечуючи можливість декодеру, який підтримує тільки перший формат, декодувати і відтворювати Μ сигналів знижувального мікшування впершому полі та відкидати матричні елементи в другому полі.
19. Спосіб за будь-яким з пп. 17-18, який відрізняється тим, що матричні елементи матриці відновлення є змінними в часі та за частотою.
20. Спосіб за будь-яким з пп. 17-19, який відрізняється тим, що звукова сцена додатково містить множину основних каналів, причому спосіб додатково включає відновлення основних каналів з Μ сигналів знижувального мікшування із застосуванням матриці відновлення, причому приблизні представлення N звукових об'єктів і основних каналів одержують у вигляді лінійних комбінацій із щонайменше Μ сигналів знижувального мікшування із застосуванням матричних елементів матриці відновлення як коефіцієнтів в лінійних комбінаціях.
21. Спосіб за будь-яким з пп. 17-20, який відрізняється тим, що кількість Μ сигналів знижувального мікшування більше двох.
22. Спосіб за будь-яким з пп. 17-21, який відрізняється тим, що додатково включає:
приймання L додаткових сигналів, сформованих з N звукових об'єктів;
відновлення N звукових об'єктів з Μ сигналів знижувального мікшування та L додаткових сигналів із застосуванням матриці відновлення, причому приблизні представлення щонайменше N звукових об'єктів одержують у вигляді лінійних комбінацій із щонайменше Μ сигналів знижувального мікшування та L додаткових сигналів із застосуванням матричних елементів матриці відновлення як коефіцієнтів в лінійних комбінаціях.
23. Спосіб за п. 22, який відрізняється тим, що щонайменше один з L додаткових сигналів дорівнює одному з N звукових об'єктів.
24. Спосіб за будь-яким з пп. 22-23, який відрізняється тим, що щонайменше один з L додаткових сигналів являє собою комбінацію N звукових об'єктів.
25. Спосіб за будь-яким з пп. 22-24, який відрізняється тим, що Μ сигналів знижувального мікшування проходять у гіперплощині, і при цьому щонайменше один з множини додаткових сигналів не лежить у гіперплощині, у якій проходять Μ сигналів знижувального мікшування.
26. Спосіб за п. 25, який відрізняється тим, що щонайменше один з множини додаткових сигналів, які не лежать у гіперплощині, є ортогональним відносно гіперплощини, у якій проходять Μ сигналів знижувального мікшування.
27. Спосіб за будь-яким з пп. 17-26, який відрізняється тим, що Μ сигналів знижувального мікшування представлені відносно першої частотної області, і при цьому матриця відновлення представлена відносно другої частотної області, причому перша та друга частотні області являють собою одну й ту саму частотну область.
28. Спосіб за п. 27, який відрізняється тим, що перша та друга частотні області являють собою область модифікованого дискретного косинусного перетворення MDCT.
29. Спосіб за будь-яким з пп. 17-28, який відрізняється тим, що додатково включає:
приймання даних про положення, які відповідають N звуковим об'єктам, і
представлення N звукових об'єктів із застосуванням даних про положення для створення щонайменше одного вихідного звукового каналу.
30. Спосіб за п. 29, який відрізняється тим, що матриця відновлення представлена відносно другої частотної області, що відповідає другому банку фільтрів, і представлення даних виконують у третій частотній області, що відповідає третьому банку фільтрів, причому другий банк фільтрів та третій банк фільтрів щонайменше частково являють собою один і той самий банк фільтрів.
31. Спосіб за п. 30, який відрізняється тим, що другий та третій банки фільтрів включають банк квадратурних дзеркальних фільтрів QMF.
32. Машиночитуваний носій, який містить команди машинного коду, пристосовані для виконання способу за будь-яким з пп. 17-31 при виконанні на пристрої, що має можливість обробки.
33. Декодер для декодування частотно-часового мозаїчного елемента звукової сцени, яка містить щонайменше N звукових об'єктів, який містить:
приймальний компонент, виконаний з можливістю приймання бітового потоку, який містить Μ сигналів знижувального мікшування та щонайменше деякі матричні елементи матриці відновлення;
компонент генерування матриці відновлення, виконаний з можливістю приймання матричних елементів від приймального компонента та генерування на їхній основі матриці відновлення; і
відновлювальний компонент, виконаний з можливістю приймання матриці відновлення з компонента генерування матриці відновлення та відновлення N звукових об'єктів з Μ сигналів знижувального мікшування із застосуванням матриці відновлення, причому приблизні представлення щонайменше N звукових об'єктів одержують у вигляді лінійних комбінацій із щонайменше Μ сигналів знижувального мікшування із застосуванням матричних елементів матриці відновлення як коефіцієнтів в лінійних комбінаціях.
Текст
Реферат: UA 113692 C2 (21) Номер a 2015 11394 заявки: (22) Дата 23.05.2014 подання заявки: (24) Дата, з якої 27.02.2017 є чинними права на винахід: UA 113692 C2 Наведені як приклади варіанти здійснення пропонують способи кодування та декодування й відповідні кодери та декодери для кодування й декодування звукової сцени, яка містить щонайменше один або кілька звукових об'єктів (106а). Кодер (108, 110) генерує бітовий потік (116), який містить сигнали (112) знижувального мікшування та додаткову інформацію, яка містить окремі матричні елементи (114) матриці відновлення, яка забезпечує можливість відновлення одного або декількох звукових об'єктів (106а) у декодері (120). UA 113692 C2 5 10 15 20 25 30 35 40 45 50 55 Перехресне посилання на споріднені заявки Дана заявка заявляє пріоритет попередньої заявки на патент США № 61/827246, поданої 24 травня 2013 року, опис якої включений в дану заявку в повному обсязі за допомогою посилання. Галузь винаходу Винахід, описаний у даній заявці, у цілому відноситься до галузі кодування та декодування звуку. Зокрема, він відноситься до кодування та декодування звукової сцени, яка містить звукові об'єкти. Передумови створення винаходу Існують системи кодування звуку для параметричного просторового кодування звуку. Наприклад, формат MPEG Surround описує систему для параметричного просторового кодування багатоканального звуку. Формат MPEG SAOC (просторове кодування звукових об'єктів) описує систему для параметричного кодування звукових об'єктів. На кодувальній стороні дані системи, як правило, зводять канали/об'єкти в знижувальне мікшування, яке зазвичай являє собою моно (один канал) або стерео (два канали) знижувальним мікшуванням, і добувають додаткову інформацію, що описує властивості каналів/об'єктів за допомогою параметрів, таких як різниці рівнів та взаємна кореляція. Потім знижувальне мікшування та додаткова інформація кодуються та відправляються на декодувальну сторону. На декодувальній стороні канали/об'єкти відновлюються, тобто апроксимуються, зі знижувального мікшування під керуванням параметрів додаткової інформації. Недоліком даних систем є те, що відновлення, як правило, є математично складним і часто доводиться покладатися на припущення про властивості звукового вмісту, який явно не описаний параметрами, що відправляються в якості додаткової інформації. Такі припущення можуть, наприклад, полягати в тому, що канали/об'єкти вважаються некорельованими, якщо параметр взаємної кореляції не відправлений, або в тому, що знижувальне мікшування каналів/об'єктів генерується певним чином. До того ж математична складність і необхідність додаткових припущень значно збільшують кількість каналів знижувального мікшування. Крім того, необхідні допущення, по суті, відбиваються в алгоритмічних деталях обробки, яка застосовується на декодувальній стороні. Це означає, що на декодувальній стороні повинен міститися досить високий рівень штучного інтелекту. Це являє собою недолік, який полягає в тому, що може бути важко оновити або змінити алгоритми, коли декодери використовуються, наприклад, у побутових пристроях, які важко або навіть неможливо оновити. Стислий опис графічних матеріалів Надалі будуть більш докладно описані наведені в якості прикладу варіанти здійснення з посиланнями на прикладені графічні матеріали, на яких: фіг. 1 являє собою схематичне зображення системи кодування/декодування звуку відповідно до наведених в якості прикладу варіантів здійснення; фіг. 2 являє собою схематичне зображення системи кодування/декодування звуку, яка містить застарілий декодер відповідно до наведених в якості прикладу варіантів здійснення; фіг. 3 являє собою схематичне зображення кодувальної сторони системи кодування/декодування звуку відповідно до наведених в якості прикладу варіантів здійснення; фіг. 4 являє собою блок-схему способу кодування відповідно до наведених в якості прикладу варіантів здійснення; фіг. 5 являє собою схематичне зображення кодера відповідно до наведених в якості прикладу варіантів здійснення; фіг. 6 являє собою схематичне зображення декодувальної сторони системи кодування/декодування звуку відповідно до наведених в якості прикладу варіантів здійснення; фіг. 7 являє собою блок-схему способу декодування відповідно до наведених в якості прикладу варіантів здійснення; фіг. 8 являє собою схематичне зображення декодувальної сторони системи кодування/декодування звуку відповідно до наведених в якості прикладу варіантів здійснення; і фіг. 9 являє собою схематичне зображення частотно-часових перетворень, які виконуються на декодувальній стороні системи кодування/декодування звуку відповідно до наведених в якості прикладу варіантів здійснення. Всі фігури є схематичними й у більшості випадків на них показані тільки ті частини, які необхідні для пояснення винаходу, у той час як інші частини можуть бути опущені або тільки передбачатися. Якщо не зазначене інше, подібні частини на різних фігурах позначені подібними позиціями. Докладний опис 1 UA 113692 C2 5 10 15 20 25 30 35 40 45 50 55 60 У світлі вищесказаного метою даного винаходу є забезпечення кодера та декодера та пов'язаних з ними способів, які забезпечують менш складне й більше гнучке відновлення звукових об'єктів. I. Огляд кодера Відповідно до першого аспекту в наведених в якості прикладу варіантах здійснення запропоновані способи кодування, кодери та комп'ютерні програмні продукти для кодування. Запропоновані способи, кодери та комп'ютерні програмні продукти можуть, як правило, мати ті самі ознаки й переваги. Відповідно до наведених в якості прикладу варіантів здійснення запропонований спосіб кодування частотно-часового мозаїчного елемента звукової сцени, що містить щонайменше N звукових об'єктів. Спосіб включає: приймання N звукових об'єктів; генерування M сигналів знижувального мікшування на основі щонайменше N звукових об'єктів; генерування матриці відновлення з матричними елементами, які забезпечують можливість відновлення щонайменше N звукових об'єктів з M сигналів знижувального мікшування; і генерування бітового потоку, що містить M сигналів знижувального мікшування та щонайменше деякі з матричних елементів матриці відновлення. Кількість N звукових об'єктів може дорівнювати або бути більше одиниці. Кількість M сигналів знижувального мікшування може дорівнювати або бути більше одиниці. Таким чином, за допомогою даного способу генерується бітовий потік, що містить M сигналів знижувального мікшування та щонайменше деякі з матричних елементів матриці відновлення в якості додаткової інформації. Завдяки включенню окремих матричних елементів матриці відновлення в бітовий потік на декодувальній стороні необхідний дуже невеликий рівень штучного інтелекту. Наприклад, на декодувальній стороні не потрібно здійснювати складне обчислення матриці відновлення на основі переданих параметрів об'єкта та додаткових припущень. Таким чином, на декодувальній стороні істотно знижується математична складність. Крім того, збільшується гнучкість відносно кількості сигналів знижувального мікшування в порівнянні зі способами попереднього рівня техніки, оскільки складність способу не залежить від кількості використовуваних сигналів знижувального мікшування. У даному контексті термін "звукова сцена", як правило, відноситься до тривимірного звукового середовища, яка містить звукові елементи, пов'язані з положеннями в тривимірному просторі, які можуть представлятися при відтворенні у звуковій системі. У даному контексті термін "звуковий об'єкт" відноситься до елемента звукової сцени. Звуковий об'єкт зазвичай містить звуковий сигнал і додаткову інформацію, таку як положення об'єкта в тривимірному просторі. Додаткова інформація зазвичай використовується для оптимального представлення звукового об'єкта в даній системі відтворення. У даному контексті термін "сигнал знижувального мікшування" відноситься до сигналу, що являє собою комбінацію щонайменше з N звукових об'єктів. Інші сигнали звукової сцени, такі як основні канали (які будуть описані нижче), також можуть комбінуватися в сигналі знижувального мікшування. Наприклад, M сигналів знижувального мікшування можуть відповідати представленню звукової сцени із заданою конфігурацією гучномовців, наприклад стандартною конфігурацією 5.1. Кількість сигналів знижувального мікшування, позначених у даній заявці як М, зазвичай (але не обов'язково) менше, ніж сума кількості звукових об'єктів і основних каналів, що пояснює, чому M сигналів знижувального мікшування називається знижувальним мікшуванням. Системи кодування/декодування звуку, як правило, ділять частотно-часовий простір на частотно-часові мозаїчні елементи, наприклад, шляхом застосування підходящих банків фільтрів для вхідних звукових сигналів. Під частотно-часовим мозаїчним елементом, як правило, мається на увазі частина частотно-часового простору, що відповідає часовому інтервалу та частотному піддіапазону. Часовий інтервал може зазвичай відповідати тривалості часового кадру, використовуваного в системі кодування/декодуваннязвуку. Частотний піддіапазон може, як правило, відповідати одному або декільком сусіднім частотним піддіапазонам, визначеним банком фільтрів, використовуваним у системі кодування/декодування. У випадку, якщо частотний піддіапазон відповідає декільком сусіднім частотним піддіапазонам, визначеним банком фільтрів, це забезпечує наявність нерівномірних частотних піддіапазонів у процесі декодування звукового сигналу, наприклад, більш широких частотних піддіапазонів для звукового сигналу верхніх частот. У випадку широкого діапазону частот, коли система кодування/декодування звуку працює у всьому діапазоні частот, частотний піддіапазон частотно-часового мозаїчного елемента може відповідати всьому діапазону частот. У вищеописаному способі описані етапи кодування для кодування звукової сцени протягом одного такого частотно-часового мозаїчного елемента. Проте, варто розуміти, що спосіб можна повторювати для кожного частотно-часового мозаїчного елемента системи 2 UA 113692 C2 5 10 15 20 25 30 35 40 45 50 55 кодування/декодування звуку. Також варто розуміти, що кілька частотно-часових мозаїчних елементів можуть кодуватися одночасно. Як правило, сусідні частотно-часові мозаїчні елементи можуть трохи перекриватися за часом і/або частотою. Наприклад, перекриття за часом може бути еквівалентно лінійній інтерполяції елементів матриці відновлення в часі, тобто від одного інтервалу часу до наступного. Проте, це розкриття призначене для інших частин системи кодування/декодування, і будь-яке перекриття за часом і/або частотою між сусідніми частотночасовими мозаїчними елементами залишається для реалізації фахівцям. Відповідно до наведених в якості прикладу варіантів здійснення М сигналів знижувального мікшування розташовуються в першому полі бітового потоку із застосуванням першого формату, а матричні елементи розташовуються в другому полі бітового потоку із застосуванням другого формату, тим самим забезпечуючи можливість декодеру, який підтримує тільки перший формат, декодувати і відтворювати M сигналів знижувального мікшування в першому полі та відкидати матричні елементи в другому полі. Це є переважним у тому, що M сигналів знижувального мікшування в бітовому потоці мають зворотну сумісність із існуючими застарілими декодерами, які не здійснюють відновлення звукових об'єктів. Інакше кажучи, застарілі декодери усе ще можуть декодувати та відтворювати М сигналів знижувального мікшування бітового потоку, наприклад, шляхом відображення кожного сигналу знижувального мікшування на виході каналу декодера. Відповідно до наведених в якості прикладу варіантів здійснення спосіб може додатково включати етап приймання даних про положення, що відповідають кожному з N звукових об'єктів, при цьому M сигналів знижувального мікшування генеруються на основі даних про положення. Дані про положення, як правило, зв'язують кожний звуковий об'єкт із положенням у тривимірному просторі. Положення звукового об'єкта може змінюватися із часом. При застосуванні даних про положення при знижувальному мікшуванні звукових об'єктів, звукові об'єкти будуть включатися в M сигналів знижувального мікшування таким чином, що якщо M сигналів знижувального мікшування, наприклад, прослуховуються на системі з М вихідними каналами, звукові об'єкти будуть звучати так, ніби вони були приблизно розміщені в їхніх відповідних положеннях. Це, наприклад, є переважним, якщо M сигналів знижувального мікшування повинні бути зворотно сумісними із застарілим декодером. Відповідно до наведених в якості прикладу варіантів здійснення матричні елементи матриці відновлення є змінними у часі та за частотою. Інакше кажучи, матричні елементи матриці відновлення можуть відрізнятися для різних частотно-часових мозаїчних елементів. Таким чином, досягається більша гнучкість при відновленні звукових об'єктів. Відповідно до наведених в якості прикладу варіантів здійснення звукова сцена додатково містить множину основних каналів. Це, наприклад, поширено у звукових застосуваннях кінематографії, де звуковий вміст включає основні канали на додаток до звукових об'єктів. У таких випадках M сигналів знижувального мікшування можуть бути згенеровані на основі щонайменше N звукових об'єктів і множини основних каналів. Під основним каналом, як правило, мається на увазі звуковий сигнал, що відповідає фіксованому положенню в тривимірному просторі. Наприклад, основний канал може відповідати одному з вихідних каналів системи кодування/декодування звуку. Таким чином, основний канал варто розуміти як звуковий об'єкт, що має відповідне положення в тривимірному просторі, точно таке ж, як і положення одного з вихідних гучномовців системи кодування/декодування звуку. Тому основний канал може зв'язуватися з міткою, що вказує винятково положення відповідного вихідного гучномовця. Якщо звукова сцена містить основні канали, матриця відновлення може містити матричні елементи, які забезпечують можливість відновлення основних каналів з M сигналів знижувального мікшування. У деяких ситуаціях звукові сцени можуть містити дуже велику кількість об'єктів. З метою зменшення складності та обсягу даних, необхідних для представлення звукової сцени, звукова сцена може бути спрощена шляхом зменшення кількості звукових об'єктів. Таким чином, якщо звукова сцена спочатку містить K звукових об'єктів, де K>N, спосіб може додатково включати етапи приймання K звукових об'єктів і зменшення K звукових об'єктів до N звукових об'єктів за допомогою кластеризації K об'єктів в N кластерів і представлення кожного кластера одним звуковим об'єктом. З метою спрощення сцени спосіб може додатково включати етап приймання даних про положення, що відповідають кожному з K звукових об'єктів, при цьому кластеризація K об'єктів в N кластерів заснована на просторовій відстані між K об'єктами, яка задана даними про положення K звукових об'єктів. Наприклад, звукові об'єкти, які розташовані близько один до одного відносно положення в тривимірному просторі, можуть бути піддані кластеризації разом. 3 UA 113692 C2 5 10 15 20 25 30 35 40 45 50 55 60 Як розглядалося вище, наведені в якості прикладів варіанти здійснення способу є гнучкими відносно кількості застосовуваних сигналів знижувального мікшування. Зокрема, спосіб може переважно застосовуватися при наявності більше двох сигналів знижувального мікшування, тобто, коли М більше, ніж два. Наприклад, можуть застосовуватися п'ять або сім сигналів знижувального мікшування, що відповідають установкам із загальноприйнятою конфігурацією звуку 5.1 або 7.1. Це є переважним, оскільки на відміну від систем попереднього рівня техніки математична складність запропонованих принципів кодування залишається такою ж, незалежно від кількості застосовуваних сигналів знижувального мікшування. З метою подальшого забезпечення поліпшення відновлення N звукових об'єктів спосіб може додатково включати: формування L додаткових сигналів з N звукових об'єктів; включення матричних елементів у матрицю відновлення, які забезпечують можливість відновлення щонайменше N звукових об'єктів з M сигналів знижувального мікшування та L додаткових сигналів; і включення L додаткових сигналів у бітовий потік. Додаткові сигнали, таким чином, служать в якості допоміжних сигналів, які, наприклад, можуть захоплювати аспекти звукових об'єктів, які важко відновити із сигналів знижувального мікшування. Додаткові сигнали також можуть бути засновані на основних каналах. Кількість додаткових сигналів може дорівнювати або бути більше одиниці. Відповідно до одного наведеного в якості прикладу варіанта здійснення додаткові сигнали можуть відповідати особливо важливим звуковим об'єктам, таким як звуковий об'єкт, що представляє діалог. Таким чином, щонайменше один з L додаткових сигналів може дорівнювати одному з N звукових об'єктів. Це забезпечує можливість представлення важливих об'єктів у більш високій якості, ніж якби вони були відновлені тільки з M каналів знижувального мікшування. На практиці деякі зі звукових об'єктів могли бути пріоритетними та/або позначеними творцем звукового вмісту як звукові об'єкти, які в переважному варіанті окремо включаються як допоміжні об'єкти. Крім того, це робить зміну/обробку цих об'єктів перед представленням менш схильною до спотворень. Як компроміс між бітовою швидкістю і якістю, можна також відправляти мікс із двох або більше звукових об'єктів як додатковий сигнал. Інакше кажучи, щонайменше один з L додаткових сигналів може бути сформований у вигляді комбінації із щонайменше двох з N звукових об'єктів. Відповідно до одного наведеного в якості прикладу варіанта здійснення додаткові сигнали представляють розміри сигналу звукових об'єктів, які пропали в процесі генерування M сигналів знижувального мікшування, наприклад, оскільки кількість незалежних об'єктів, як правило, вище, ніж кількість каналів знижувального мікшування, або оскільки два об'єкти пов'язані з такими положеннями, що вони піддаються мікшуванню в тому ж сигналі знижувального мікшування. Прикладом останнього випадку є ситуація, коли два об'єкти розділені тільки вертикально, але мають те саме положення при проекції на горизонтальну площину, а це означає, що вони, як правило, будуть представлені в тому ж каналі (каналах) знижувального мікшування установки навколишніх гучномовців стандартної конфігурації 5.1, де всі гучномовці перебувають в одній горизонтальній площині. Зокрема, M сигналів знижувального мікшування проходять у гіперплощині в просторі сигналу. При формуванні лінійних комбінацій M сигналів знижувального мікшування можуть бути відновлені тільки звукові сигнали, які лежать у гіперплощині. З метою поліпшення відновлення можуть бути включені додаткові сигнали, які не лежать у гіперплощині, тим самим також забезпечуючи можливість відновлення сигналів, які не лежать у гіперплощині. Інакше кажучи, відповідно до наведених в якості прикладу варіантів здійснення щонайменше один з множини додаткових сигналів не лежить у гіперплощині, у якій проходять М сигналів знижувального мікшування. Наприклад, щонайменше один з множини додаткових сигналів може бути ортогональним відносно гіперплощини, у якій проходять М сигналів знижувального мікшування. Відповідно до наведених в якості прикладу варіантів здійснення пропонується машинопрочитуваний носій, що містить команди машинного коду, пристосовані для виконання будь-якого способу відповідно до першого аспекту при виконанні на пристрої, який має можливість обробки. Відповідно до наведених в якості прикладу варіантів здійснення пропонується кодер для кодування частотно-часового мозаїчного елемента звукової сцени, що містить щонайменше N звукових об'єктів, який містить: приймальний компонент, виконаний з можливістю приймання N звукових об'єктів; компонент генерування знижувального мікшування, виконаний з можливістю приймання N звукових об'єктів від приймального компонента та генерування M сигналів знижувального мікшування на основі щонайменше N звукових об'єктів; аналізувальний компонент, виконаний з можливістю генерування матриці відновлення з матричними елементами, які забезпечують відновлення щонайменше N звукових об'єктів з M сигналів 4 UA 113692 C2 5 10 15 20 25 30 35 40 45 50 55 60 знижувального мікшування; і компонент генерування бітового потоку, виконаний з можливістю приймання M сигналів знижувального мікшування з компонента генерування знижувального мікшування та матриці відновлення з аналізувального компонента та генерування бітового потоку, що містить M сигналів знижувального мікшування та щонайменше деякі з матричних елементів матриці відновлення. II. Огляд декодера Відповідно до другого аспекту в наведених в якості прикладу варіантах здійснення запропоновані способи декодування, декодувальні пристрої та комп'ютерні програмні продукти для декодування. Запропоновані способи, пристрої та комп'ютерні програмні продукти можуть, як правило, мати ті самі функції й переваги. Переваги відносно функцій і установок, представлені в огляді кодера вище, можуть у більшості випадків бути застосовними для відповідних функцій і установок для декодера. Відповідно до наведених в якості прикладу варіантів здійснення пропонується спосіб декодування частотно-часового мозаїчного елемента звукової сцени, що містить щонайменше N звукових об'єктів, при цьому спосіб включає етапи: приймання бітового потоку, який містить М сигналів знижувального мікшування та щонайменше деякі матричні елементи матриці відновлення; генерування матриці відновлення із застосуванням матричних елементів; і відновлення N звукових об'єктів з M сигналів знижувального мікшування із застосуванням матриці відновлення. Відповідно до наведених в якості прикладу варіантів здійснення М сигналів знижувального мікшування розташовані в першому полі бітового потоку із застосуванням першого формату, а матричні елементи розташовані в другому полі бітового потоку із застосуванням другого формату, тим самим забезпечуючи можливість декодеру, який підтримує тільки перший формат, декодувати та відтворювати M сигналів знижувального мікшування в першому полі та відкидати матричні елементи в другому полі. Відповідно до наведених в якості прикладу варіантів здійснення матричні елементи матриці відновлення є змінними в часі та за частотою. Відповідно до наведених в якості прикладу варіантів здійснення звукова сцена додатково містить множину основних каналів, причому спосіб додатково включає відновлення основних каналів з M сигналів знижувального мікшування із застосуванням матриці відновлення. Відповідно до наведених в якості прикладу варіантів здійснення кількість М сигналів знижувального мікшування більше двох. Відповідно до наведених в якості прикладу варіантів здійснення спосіб додатково включає: приймання L додаткових сигналів, сформованих з N звукових об'єктів; відновлення N звукових об'єктів з M сигналів знижувального мікшування та L додаткових сигналів із застосуванням матриці відновлення, при цьому матриця відновлення містить матричні елементи, які забезпечують можливість відновлення щонайменше N звукових об'єктів з M сигналів знижувального мікшування та L додаткових сигналів. Відповідно до наведених в якості прикладу варіантів здійснення щонайменше один з L додаткових сигналів дорівнює одному з N звукових об'єктів. Відповідно до наведених в якості прикладу варіантів здійснення щонайменше один з L додаткових сигналів являє собою комбінацію з N звукових об'єктів. Відповідно до наведених в якості прикладу варіантів здійснення M сигналів знижувального мікшування проходять у гіперплощині, і при цьому щонайменше один з множини додаткових сигналів не лежить у гіперплощині, у якій проходять М сигналів знижувального мікшування. Відповідно до наведених в якості прикладу варіантів здійснення щонайменше один з множини додаткових сигналів, які не лежать у гіперплощині, є ортогональним відносно гіперплощини, у якій проходять М сигналів знижувального мікшування. Як було описано вище, системи кодування/декодування звуку зазвичай працюють у частотній області. Таким чином, системи кодування/декодування звуку виконують частотночасове перетворення звукових сигналів із застосуванням банків фільтрів. Можуть застосовуватися різні типи частотно-часового перетворення. Наприклад M сигналів знижувального мікшування можуть бути представлені відносно першої частотної області, а матриця відновлення може бути представлена відносно другої частотної області. З метою зменшення витрат обчислювальних ресурсів у декодері доцільно вибирати першу та другу частотні області детально продуманим чином. Наприклад, перша та друга частотна області можуть бути обрані в якості однієї й тієї ж частотної області, такої як область модифікованого дискретного косинусного перетворення (MDCT). Таким чином, можна уникнути перетворення M сигналів знижувального мікшування з першої частотної області в часову область із наступним перетворенням у другу частотну область у декодері. В альтернативному варіанті можна 5 UA 113692 C2 5 10 15 20 25 30 35 40 45 50 55 60 вибрати першу та другу частотні області таким чином, що перетворення з першої частотної області в другу частотну область може бути реалізоване спільно, так що немає необхідності в проходженні всього шляху через часову область між ними. Спосіб може додатково включати приймання даних про положення, що відповідають N звуковим об'єктам, і представлення N звукових об'єктів із застосуванням даних про положення для створення щонайменше одного вихідного звукового каналу. Таким чином, N відновлених звукових об'єктів відображаються у вихідних каналах системи кодування/декодування звуку на основі їхнього положення в тривимірному просторі. Представлення даних переважно здійснюють у частотній області. З метою зменшення витрат обчислювальних ресурсів у декодері частотна область представлення переважно вибирається детально продуманим чином відносно частотної області, у якій відновлюються звукові об'єкти. Наприклад, якщо матриця відновлення представлена відносно другої частотної області, що відповідає другому банку фільтрів, а представлення виконується в третій частотній області, що відповідає третьому банку фільтрів, то другий і третій банки фільтрів переважно вибирають таким чином, що вони щонайменше частково є одним і тим же банком фільтрів. Наприклад, другий та третій банки фільтрів можуть містити область квадратурного дзеркального фільтра (QMF). В альтернативному варіанті друга та третя частотні області можуть містити банк фільтрів MDCT. Відповідно до наведеного в якості прикладу варіанта здійснення третій банк фільтрів може складатися з послідовності банків фільтрів, таких як банк фільтрів QMF з наступним банком фільтрів Найквіста. У цьому випадку щонайменше один з банків фільтрів послідовності (перший банк фільтрів послідовності) є точно таким же, що й другий банк фільтрів. Таким чином, другий та третій банки фільтрів, можна сказати, щонайменше частково є одним і тим самим банком фільтрів. Відповідно до наведених в якості прикладу варіантів здійснення пропонується машинопрочитуваний носій, який містить команди машинного коду, пристосовані для виконання будь-якого способу відповідно до другого аспекту при виконанні на пристрої, що має можливість обробки. Відповідно до наведених в якості прикладу варіантів здійснення пропонується декодер для декодування частотно-часового мозаїчного елемента звукової сцени, що містить щонайменше N звукових об'єктів, який містить: приймальний компонент, виконаний з можливістю приймання бітового потоку, що містить М сигналів знижувального мікшування та щонайменше деякі матричні елементи матриці відновлення; компонент генерування матриці відновлення, виконаний з можливістю приймання матричних елементів із приймального компонента та генерування на їхній основі матриці відновлення; і відновлювальний компонент, виконаний з можливістю приймання матриці відновлення з компонента генерування матриці відновлення та відновлення N звукових об'єктів з M сигналів знижувального мікшування із застосуванням матриці відновлення. III. Наведені в якості прикладів варіанти здійснення На фіг. 1 представлена система 100 кодування/декодування для кодування/декодування звукової сцени 102. Система 100 кодування/декодування містить кодер 108, компонент 110 генерування бітового потоку, компонент 118 декодування бітового потоку, декодер 120 і пристрій 122 представлення даних. Звукова сцена 102 представлена одним або декількома звуковими об'єктами 106а, тобто звуковими сигналами, такими як N звукових об'єктів. Звукова сцена 102 може додатково містити один або кілька основних каналів 106b, тобто сигналів, які безпосередньо відповідають одному з вихідних каналів пристрою 122 представлення даних. Звукова сцена 102 додатково представлена метаданими, що містять інформацію 104 про положення. Інформація 104 про положення застосовується, наприклад, пристроєм 122 представлення даних при представленні звукової сцени 102. Інформація 104 про положення може зв'язувати звукові об'єкти 106а й, можливо, також основні канали 106b із просторовим положенням у тривимірному просторі залежно від часу. Метадані можуть додатково містити інший тип даних, що підходить для представлення звукової сцени 102. Кодувальна частина системи 100 містить кодер 108 і компонент 110 генерування бітового потоку. Кодер 108 приймає звукові об'єкти 106а, основні канали 106b, якщо вони присутні, і метадані, що містять інформацію 104 про положення. На їхній основі кодер 108 генерує один або кілька сигналів 112 знижувального мікшування, наприклад, M сигналів знижувального мікшування. Як приклад, сигнали 112 знижувального мікшування можуть відповідати каналам [Lf Rf Cf Ls Rs LFE] аудіосистеми конфігурації 5.1. ("L" означає лівий, "R" означає правий, "C" означає центральний, "f" означає передній, "s" означає навколишній і "LFE" означає низькочастотні ефекти). 6 UA 113692 C2 5 10 15 20 25 30 35 40 45 50 55 60 Кодер 108 додатково генерує додаткову інформацію. Додаткова інформація містить матрицю відновлення. Матриця відновлення містить матричні елементи 114, які забезпечують відновлення щонайменше звукових об'єктів 106а із сигналів 112 знижувального мікшування. Матриця відновлення може додатково забезпечувати можливість відновлення основних каналів 106b. Кодер 108 передає M сигналів 112 знижувального мікшування та щонайменше деякі з матричних елементів 114 компоненту 110 генерування бітового потоку. Компонент 110 генерування бітового потоку генерує бітовий потік 116, який містить M сигналів знижувального мікшування 112 та щонайменше деякі з матричних елементів 114 за допомогою виконання квантування та кодування. Компонент 110 генерування бітового потоку додатково приймає метадані, які містять інформацію 104 про положення, для включення в бітовий потік 116. Декодувальна частина системи містить компонент 118 декодування бітового потоку й декодер 120. Компонент 118 декодування бітового потоку приймає бітовий потік 116 і виконує декодування та деквантування з метою добування M сигналів 112 знижувального мікшування та додаткової інформації, що містить щонайменше деякі з матричних елементів 114 матриці відновлення. Потім M сигналів 112 знижувального мікшування та матричні елементи 114 надходять на декодер 120, що на їхній основі генерує відновлення 106' N звукових об'єктів 106а й, можливо, також основних каналів 106b. Відновлення 106' N звукових об'єктів, отже, є приблизним представленням N звукових об'єктів 106а й, можливо, також основних каналів 106b. Як приклад, якщо сигнали 112 знижувального мікшування відповідають каналам [Lf Rf Cf Ls Rs LFE] конфігурації 5.1, декодер 120 може відновлювати об'єкти 106' із застосуванням тільки каналів повного діапазону [Lf Rf Cf Ls Rs], таким чином, ігноруючи LFE. Це також відноситься до інших конфігурацій каналів. Канал LFE знижувального мікшування 112 може бути відправлений (в основному без змін) на пристрій 122 представлення даних. Відновлені звукові об'єкти 106' разом з інформацією 104 про положення потім подаються на пристрій 122 представлення даних. На основі відновлених звукових об'єктів 106' та інформації 104 про положення пристрій 122 представлення даних представляє вихідний сигнал 124, що має формат, який підходить для відтворення, на необхідній конфігурації гучномовців або навушників. Типовими форматами є установка навколишнього звуку конфігурації 5.1 (3 передніх гучномовці, 2 навколишні гучномовці та 1 гучномовець низькочастотних ефектів LFE) або установка конфігурації 7.1+4 (3 передніх гучномовці, 4 навколишні гучномовці, 1 гучномовець LFE і 4 гучномовці верхнього розташування). У деяких варіантах здійснення вихідна звукова сцена може містити велику кількість звукових об'єктів. Обробка великої кількості звукових об'єктів відбувається за рахунок високої обчислювальної складності. Крім того, кількість додаткової інформації (інформації 104 про положення та елементи 114 матриці відновлення) для вбудовування в бітовий потік 116 залежить від кількості звукових об'єктів. Як правило, кількість додаткової інформації зростає лінійно з кількістю звукових об'єктів. Таким чином, з метою зниження обчислювальної складності та/або зменшення швидкості цифрового потоку, необхідного для кодування звукової сцени, може бути переважним зменшення кількості звукових об'єктів перед кодуванням. Із цією метою система 100 кодування/декодування звуку може додатково містити модуль спрощення сцени (не показаний), розташований перед кодером 108. Модуль спрощення сцени приймає вихідні звукові об'єкти та, можливо, також основні канали в якості вхідних даних і виконує обробку з метою виведення звукових об'єктів 106а. Модуль спрощення сцени зменшує кількість, скажімо K, вихідних звукових об'єктів до більш доцільної кількості N звукових об'єктів 106а, за допомогою виконання кластеризації. Точніше, модуль спрощення сцени групує K вихідних звукових об'єктів і, можливо, також основних каналів в N кластерів. Як правило, кластери визначаються на основі просторової близькості у звуковій сцені K вихідних звукових об'єктів/основних каналів. З метою визначення просторової близькості модуль спрощення сцени може приймати інформацію про положення вихідних звукових об'єктів/основних каналів у якості вхідних даних. Коли модуль спрощення сцени сформував N кластерів, він приступає до представлення кожного кластера одним звуковим об'єктом. Наприклад, звуковий об'єкт, що представляє кластер, може бути виконаний у вигляді суми звукових об'єктів/основних каналів, що утворюють частину кластера. Більш конкретно, для генерування звукового вмісту репрезентативного звукового об'єкта може додаватися звуковий вміст звукових об'єктів/основних каналів. Крім того, положення звукових об'єктів/основних каналів у кластері можуть усереднюватися для завдання положення репрезентативного звукового об'єкта. Модуль спрощення сцени включає положення репрезентативних звукових об'єктів у даних 104 про положення. Крім того, модуль спрощення сцени виводить репрезентативні звукові об'єкти, які складають N звукових об'єктів 106а на фіг. 1. 7 UA 113692 C2 5 10 15 20 25 30 35 40 45 50 55 60 M сигналів 112 знижувального мікшування можуть бути розташовані в першому полі бітового потоку 116 із застосуванням першого формату. Матричні елементи 114 можуть бути розташовані в другому полі бітового потоку 116 із застосуванням другого формату. Таким чином, декодер, який підтримує тільки перший формат, здатний декодувати і відтворювати M сигналів 112 знижувального мікшування в першому полі та відкидати матричні елементи 114 у другому полі. Система 100 кодування/декодування звуку на фіг. 1 підтримує перший і другий формат. Точніше, декодер 120 виконаний з можливістю декодування першого та другого форматів, це означає, що він здатний відновлювати об'єкти 106' на основі M сигналів 112 знижувального мікшування та матричних елементів 114. На фіг. 2 представлена система 200 кодування/декодування звуку. Кодувальна частина 108, 110 системи 200 відповідає частині, показаній на фіг. 1. Однак декодувальна частина системи 200 кодування/декодування звуку відрізняється від декодувальної частини системи 100 кодування/декодування звуку на фіг. 1. Система 200 кодування/декодування звуку містить застарілий декодер 230, що підтримує перший формат, але не підтримує другий формат. Таким чином, застарілий декодер 230 системи 200 кодування/декодування звуку не здатний відновлювати звукові об'єкти/основні канали 106a-b. Однак, оскільки застарілий декодер 230 підтримує перший формат, він усе ще може декодувати M сигналів 112 знижувального мікшування для генерування вихідного сигналу 224, що є представленням, заснованим на каналах, таким як представлення конфігурації 5.1, що підходить для безпосереднього відтворення на відповідній багатоканальній установці гучномовців. Це властивість сигналів знижувального мікшування називається зворотною сумісністю, що означає також, що застарілий декодер, який не підтримує другий формат, тобто не може декодувати додаткову інформацію, яка містить матричні елементи 114, все одно може декодувати та відтворювати M сигналів 112 знижувального мікшування. Функціонування на кодувальній стороні системи 100 кодування/декодування звуку далі буде описано більш докладно з посиланням на фіг. 3 і блок-схему на фіг. 4. На фіг. 4 більш докладно представлений кодер 108 і компонент 110 генерування бітового потоку, наведений на фіг. 1. Кодер 108 містить приймальний компонент (не показаний), компонент 318 генерування знижувального мікшування та аналізувальний компонент 328. На етапі E02 приймальний компонент кодера 108 приймає N звукових об'єктів 106а та основні канали 106b, якщо вони присутні. Кодер 108 може додатково приймати дані 104 про положення. Із застосуванням векторного позначення N звукових об'єктів можуть позначатися T вектором S=[S1 S2 …SN] , а основні канали - вектором B. N звукових об'єктів і основні канали T T T разом можуть бути представлені вектором A=[B S ] . На етапі E04 компонент 318 генерування знижувального мікшування генерує M сигналів 112 знижувального мікшування з N звукових об'єктів 106а та основних каналів 106b, якщо вони присутні. Із застосуванням векторного позначення M сигналів знижувального мікшування T можуть бути представлені у вигляді вектора D=[D1 D2 … DM] , що містить M сигналів знижувального мікшування. Як правило, знижувальне мікшування множини сигналів являє собою комбінацію сигналів, таку як лінійна комбінація сигналів. Як приклад, M сигналів знижувального мікшування можуть відповідати конкретній конфігурації гучномовців, наприклад, конфігурації гучномовців [Lf Rf Cf Ls Rs LFE] у конфігурації гучномовців 5.1. Компонент 318 генерування знижувального мікшування може використовувати інформацію 104 про положення при генеруванні M сигналів знижувального мікшування таким чином, що об'єкти будуть комбінуватися в різні сигнали знижувального мікшування на основі їхнього положення в тривимірному просторі. Це особливо важливо, коли М сигналів знижувального мікшування самі відповідають певній конфігурації гучномовців, як у наведеному вище прикладі. Як приклад, компонент 318 генерування знижувального мікшування може одержувати матрицю представлення Pd (відповідно до матриці представлення, застосовуваній в пристрої 122 представлення даних на фіг. 1) на основі інформації про положення та використати її для T T T генерування знижувального мікшування відповідно до D=Pd* [B S ] . N звукових об'єктів 106а та основні канали 106b, якщо вони присутні, також подаються на аналізувальний компонент 328. Аналізувальний компонент 328, як правило, працює на окремих частотно-часових мозаїчних елементах звукового сигналу 106a-b. З цією метою N звукових об'єктів 106а та основні канали 106b можуть подаватися через банк 338 фільтрів, наприклад, банк QMF, що виконує частотно-часове перетворення вхідних звукових сигналів 106a-b. Зокрема, банк 338 фільтрів пов'язаний з множиною частотних піддіапазонів. Роздільна здатність за частотою частотно-часового мозаїчного елемента відповідає одному або декільком із цих частотних піддіапазонів. Роздільна здатність за частотою частотно-часових мозаїчних 8 UA 113692 C2 5 10 15 20 25 30 35 40 45 50 55 60 елементів може бути нерівномірною, тобто вона може змінюватися залежно від частоти. Наприклад, роздільність за нижніми частотами може застосовуватися для високих частот, що означає, що частотно-часовий мозаїчний елемент у високочастотному діапазоні може відповідати декільком частотним піддіапазонам, визначеним банком 338 фільтрів. На етапі Е06 аналізувальний компонент 328 генерує матрицю відновлення, позначену в даній заявці як R1. Згенерована матриця відновлення складається з множини матричних елементів. Матриця відновлення R1 є такою, що забезпечує можливість відновлення (приблизного представлення) N звукових об'єктів 106а й, можливо, також основних каналів 106b з M сигналів 112 знижувального мікшування в декодері. Аналізувальний компонент 328 може приймати різні підходи до генерування матриці відновлення. Наприклад, може застосовуватися підхід прогнозування мінімальної середньоквадратичної помилки (MMSE), у якому приймають одночасно N звукових об'єктів/основні канали 106a-b у якості вхідних даних, а також M сигналів 112 знижувального мікшування в якості вхідних даних. Він може бути описаний як підхід, що спрямований на знаходження матриці відновлення, яка зводить до мінімуму середньоквадратичну помилку відновлених звукових об'єктів/основних каналів. Зокрема, у результаті виконання підходу відновлюють N звукових об'єктів/основних каналів із застосуванням потенційної матриці відновлення та порівнюють їх із вхідними звуковими об'єктами/основними каналами 106a-b відносно середньоквадратичної помилки. Потенційна матриця відновлення, яка зводить до мінімуму середньоквадратичну помилку, вибирається як матриця відновлення, а її матричні елементи 114 являють собою вихідні дані аналізувального компонента 328. Підхід MMSE вимагає оцінки кореляції та коваріації матриць N звукових об'єктів/основних каналів 106a-b і M сигналів 112 знижувального мікшування. Відповідно до вищевказаного підходу, дані кореляції та коваріації визначаються на основі N звукових об'єктів/основних каналів 106a-b і М сигналів 112 знижувального мікшування. В альтернативному варіанті заснованого на моделі підходу аналізувальний компонент 328 приймає дані 104 про положення в якості вхідних даних, замість M сигналів 112 знижувального мікшування. Шляхом виконання певних припущень, наприклад, припускаючи, що N звукових об'єктів є взаємно некорельованими, і використовуючи це припущення разом із правилами знижувального мікшування, застосовуваними в компоненті 318 генерування знижувального мікшування, аналізувальний компонент 328 може обчислювати необхідні кореляції та коваріації, необхідні для виконання способу MMSE, описаного вище. Елементи матриці 114 відновлення та M сигналів 112 знижувального мікшування потім подаються на компонент 110 генерування бітового потоку. На етапі E08 компонент 110 генерування бітового потоку здійснює квантування та кодування M сигналів 112 знижувального мікшування та щонайменше деяких з матричних елементів 114 матриці відновлення й розміщає їх у бітовому потоці 116. Зокрема, компонент 110 генерування бітового потоку може розміщати M сигналів 112 знижувального мікшування в першому полі бітового потоку 116 із застосуванням першого формату. Крім того, компонент 110 генерування бітового потоку може розміщати матричні елементи 114 у другому полі бітового потоку 116 із застосуванням другого формату. Як описано вище з посиланням на фіг. 2, це дозволяє застарілому декодеру, який підтримує тільки перший формат, декодувати і відтворювати М сигналів 112 знижувального мікшування та відкидати матричні елементи 114 у другому полі. На фіг. 5 представлений альтернативний варіант здійснення кодера 108. У порівнянні з кодером, показаним на фіг. 3, кодер 508 на фіг. 5 додатково забезпечує можливість включення одного або декількох додаткових сигналів у бітовий потік 116. Із цією метою кодер 508 містить компонент 548 генерування додаткових сигналів. Компонент 548 генерування додаткових сигналів приймає звукові об'єкти/основні канали 106a-b, і на їхній основі генеруються один або кілька додаткових сигналів 512. Компонент 548 генерування додаткових сигналів, наприклад, може генерувати додаткові сигнали 512 в якості комбінації звукових об'єктів/основних каналів 106a-b. Позначаючи додаткові сигнали вектором T T T T C=[C1 C2 … CL] , додаткові сигнали можуть генеруватися у вигляді C=Q *[B S ] , де Q є матрицею, що може бути зміною в часі та за частотою. Це включає випадок, коли додаткові сигнали дорівнюють одному або декільком звуковим об'єктам, і коли додаткові сигнали являють собою лінійні комбінації звукових об'єктів. Наприклад, додатковий сигнал може представляти особливо важливий об'єкт, такий як діалог. Додаткові сигнали 512 призначені для поліпшення відновлення звукових об'єктів/основних каналів 106a-b декодера. Точніше, на декодувальній стороні звукові об'єкти/основні канали 106a-b можуть бути відновлені на основі M сигналів 112 знижувального мікшування, а також L додаткових сигналів 512. Тому матриця відновлення буде містити матричні елементи 114, які 9 UA 113692 C2 5 10 15 20 25 30 35 40 45 50 55 забезпечують можливість відновлення звукових об'єктів/основних каналів з M сигналів 112 знижувального мікшування, а також L додаткових сигналів. Отже, L додаткових сигналів 512 можуть подаватися на аналізувальний компонент 328 таким чином, що вони враховуються при генеруванні матриці відновлення. Аналізувальний компонент 328 може також відправляти сигнал керування на компонент 548 генерування додаткових сигналів. Наприклад, аналізувальний компонент 328 може контролювати, які звукові об'єкти/основні канали включати в додаткові сигнали, і як вони повинні бути включені. Зокрема, аналізувальний компонент 328 може контролювати вибір Q-матриці. Контроль може, наприклад, ґрунтуватися на підході MMSE, який описаний вище, таким чином, що додаткові сигнали вибираються так, щоб відновлені звукові об'єкти/основні канали були якнайближче до звукових об'єктів/основних каналів 106a-b. Далі буде описана більш докладно робота декодувальної сторони системи 100 кодування/декодування звуку з посиланням на фіг. 6 і блок-схему на фіг. 7. На фіг. 6 більш докладно представлений компонент 118 декодування бітового потоку та декодер 120, наведений на фіг. 1. Декодер 120 містить компонент 622 генерування матриці відновлення та компонент 624 відновлення. На етапі D02 компонент 118 декодування бітового потоку приймає бітовий потік 116. Компонент 118 декодування бітового потоку здійснює декодування та деквантування інформації в бітовому потоці 116 з метою добування M сигналів 112 знижувального мікшування та щонайменше деяких з матричних елементів 114 матриці відновлення. Компонент 622 генерування матриці відновлення приймає матричні елементи 114 і переходить до генерування матриці 614 відновлення на етапі D04. Компонент 622 генерування матриці відновлення генерує матрицю 614 відновлення за допомогою розташування матричних елементів 114 у відповідних позиціях у матриці. Якщо отримані не всі матричні елементи матриці відновлення, компонент 622 генерування матриці відновлення може, наприклад, вставляти нулі замість відсутніх елементів. Потім матриця 614 відновлення та M сигналів знижувального мікшування подаються на відновлювальний компонент 624. Потім, відновлювальний компонент 624 на етапі D06 відновлює N звукових об'єктів і, якщо це необхідно, основні канали. Інакше кажучи, відновлювальний компонент 624 генерує приблизне представлення 106' N звукових об'єктів/основних каналів 106a-b. Як приклад, M сигналів знижувального мікшування можуть відповідати конкретній конфігурації гучномовців, наприклад, конфігурації гучномовців [Lf Rf Cf Ls Rs LFE] у конфігурації гучномовців 5.1. У такому випадку відновлення об'єктів 106' відновлювальним компонентом 624 може бути засноване тільки на сигналах знижувального мікшування, що відповідають каналам повного діапазону конфігурації гучномовців. Як описано вище, сигнал з обмеженим діапазоном (низькочастотний сигнал LFE) може бути відправлений в основному без змін на пристрій представлення даних. Відновлювальний компонент 624 зазвичай працює в частотній області. Точніше, відновлювальний компонент 624 працює на окремих частотно-часових мозаїчних елементах вхідних сигналів. Тому M сигналів 112 знижувального мікшування, як правило, підлягають перетворенню 623 час-частота перед подачею на відновлювальний компонент 624. Перетворення 623 час-частота, як правило, є таким же або подібним до перетворення 338, застосовуваному на кодувальній стороні. Наприклад, перетворення 623 час-частота може бути перетворенням QMF. З метою відновлення звукових об'єктів/основних каналів 106' відновлювальний компонент, 624 застосовує операцію матрицювання. Більш конкретно, використовуючи уведене раніше позначення, відновлювальний компонент 624 може генерувати приблизне представлення A' звукових об'єктів/основних каналів як A'=R1*D. Матриця відновлення R1 може змінюватися залежно від часу та частоти. Таким чином, матриця відновлення може змінюватися серед різних частотно-часових мозаїчних елементів, оброблених відновлювальним компонентом 624. Відновлені звукові об'єкти/основні канали 106', як правило, перетворюються в зворотному напрямку у часову область 625 до виводу з декодера 120. На фіг. 8 представлена ситуація, коли бітовий потік 116 додатково містить додаткові сигнали. У порівнянні з варіантом здійснення на фіг. 7 компонент 118 декодування бітового потоку тепер додатково декодує один або кілька додаткових сигналів 512 з бітового потоку 116. Додаткові сигнали 512 надходять на відновлювальний компонент, 624, де вони включаються у відновлення звукових об'єктів/основних каналів. Більш конкретно, відновлювальний компонент T T T 624 генерує звукові об'єкти/основні канали, застосовуючи матричну операцію A'=R1*[D C ] . 10 UA 113692 C2 5 10 15 20 25 30 35 40 45 50 55 60 На фіг. 9 представлені різні частотно-часові перетворення, використовувані на декодувальній стороні в системі 100 кодування/декодування звуку на фіг. 1. Компонент 118 декодування бітового потоку приймає бітовий потік 116. Компонент 918 декодування та деквантування здійснює декодування та деквантування бітового потоку 116 з метою добування інформації 104 про положення, M сигналів 112 знижувального мікшування та матричних елементів 114 матриці відновлення. На цьому етапі M сигнали 112 знижувального мікшування, як правило, представляються в першій частотній області, що відповідає першій групі банків частотно-часових фільтрів, позначених у даній заявці як T/Fc і F/Tc, для перетворення з першої часової області в першу частотну область і з першої частотної області в часову область відповідно. Як правило, банки фільтрів, що відповідають першій частотній області, можуть реалізувати перекривальне віконне перетворення, таке як MDCT і зворотне MDCT. Компонент 118 декодування бітового потоку може містити перетворювальний компонент 901, який перетворює M сигналів 112 знижувального мікшування в часову область із застосуванням банку фільтрів F/T c. Декодер 120, і, зокрема, відновлювальний компонент 624, як правило, обробляє сигнали відносно другої частотної області. Друга частотна область відповідає другій групі банків частотно-часових фільтрів, позначених у даній заявці як T/Fu і F/Tu, для перетворення з часової області в другу частотну область і із другої частотної області в часову область відповідно. Тому декодер 120 може містити перетворювальний компонент 903, що перетворює M сигналів 112 знижувального мікшування, які представлені в часовій області, у другу частотну область із застосуванням банку фільтрів T/Fu. Після відновлення відновлювальним компонентом 624 об'єктів 106' на основі M сигналів знижувального мікшування за допомогою виконання обробки в другій частотній області, перетворювальний компонент 905 може перетворювати відновлені об'єкти 106' в зворотному напрямку в часову область із застосуванням банку фільтрів F/Tu. Пристрій 122 представлення даних, як правило, обробляє сигнали відносно третьої частотної області. Третя частотна область відповідає третій групі банків частотно-часових фільтрів, позначених у даній заявці як T/FR і F/TR, для перетворення з часової області в третю частотну область і із третьої частотної області в часову область відповідно. Таким чином, пристрій 122 представлення даних може містити перетворювальний компонент 907, що перетворює відновлені звукові об'єкти 106' з часової області в третю частотну область із застосуванням банку фільтрів T/FR. Після того, як пристрій 122 представлення даних за допомогою компонента 922 представлення даних представляє вихідні канали 124, вихідні канали можуть бути перетворені в часову область за допомогою перетворювального компонента 909 із застосуванням банку фільтрів F/T R. Як видно з наведеного вище опису, декодувальна сторона системи кодування/декодування звуку включає ряд етапів частотно-часового перетворення. Однак якщо певним чином обрані перша, друга, і третя частотні області, то деякі етапи частотно-часового перетворення стають зайвими. Наприклад, деякі з першої, другої та третьої частотних областей можуть бути обрані як одна й та сама частотна область, або можуть бути реалізовані спільно для переходу безпосередньо від однієї частотної області до іншої без проходження всього шляху до часової області між ними. Прикладом останнього є випадок, коли єдина різниця між другою та третьою частотними областями є те, що перетворювальний компонент 907 у пристрої 122 представлення даних використовує банк фільтрів Найквіста для збільшеної роздільності за частотою на низьких частотах на додаток до банку QMF фільтрів, що є загальним для обох перетворювальних компонентів 905 і 907. У такому випадку перетворювальні компоненти 905 і 907 можуть бути реалізовані спільно у вигляді банку фільтрів Найквіста, тим самим знижуючи обчислювальну складність. В іншому прикладі друга та третя частотні області є однаковими. Наприклад, і друга, і третя частотні області можуть бути частотною областю QMF. У такому випадку перетворювальні компоненти 905 і 907 є зайвими та можуть бути вилучені, тим самим знижуючи обчислювальну складність. Відповідно до іншого прикладу перша та друга частотні області можуть бути однаковими. Наприклад, і перша, і друга частотні області можуть бути областю MDCT. У такому випадку перший та другий перетворювальні компоненти 901 і 903 можуть бути вилучені, тим самим знижуючи обчислювальну складність. ЕКВІВАЛЕНТИ, ДОПОВНЕННЯ, АЛЬТЕРНАТИВИ ТА ІНШЕ Додаткові варіанти здійснення даного винаходу будуть очевидні для фахівця в даній області техніки після вивчення опису, наведеного вище. Хоча в даному описі та на графічних матеріалах розкриті деякі конкретні варіанти здійснення та приклади, але розкриття цими 11 UA 113692 C2 5 10 15 20 25 30 конкретними прикладами не обмежується. Можливі численні модифікації та зміни в межах обсягу даного винаходу, визначеного прикладеною формулою винаходу. Будь-які посилальні позиції, що зустрічаються у формулі винаходу, не повинні розглядатися як такі, що обмежують її обсяг. Крім того, після вивчення графічних матеріалів, опису та прикладеної формули винаходу фахівцеві можуть бути зрозумілі зміни розкритих варіантів здійснення та можуть використовуватися ним при практичній реалізації винаходу. У формулі винаходу слова "який містить" не виключають інші елементи або етапи, і однина не виключає множину. Сам факт, що деякі ознаки згадуються у взаємно відмінних залежних пунктах формули винаходу, не говорить про те, що не може бути використане з вигодою сполучення цих ознак. Системи та способи, описані вище, можуть бути реалізовані у вигляді програмного забезпечення, програмно-апаратного забезпечення, апаратних засобів або їхнього сполучення. При реалізації у вигляді апаратних засобів поділ завдань між функціональними блоками, про які говорилося у вищенаведеному описі, не обов'язково відповідає поділу на фізичні блоки; навпаки, один фізичний компонент може виконувати кілька функцій, і одне завдання може виконуватися декількома взаємодіючими фізичними компонентами. Деякі компоненти або всі компоненти можуть бути реалізовані у вигляді програмного забезпечення, яке виконується процесором цифрових сигналів або мікропроцесором, або бути реалізовані у вигляді апаратних засобів або у вигляді спеціалізованої інтегральної мікросхеми. Таке програмне забезпечення може поширюватися на машинопрочитуваних носіях, які можуть містити комп'ютерні носії інформації (або постійні носії) і канали передачі інформації (або тимчасові носії). Як добре відомо фахівцеві в області техніки, до якої відноситься винахід, термін "комп'ютерні носії інформації" включає енергозалежні та енергонезалежні, змінні й незмінні носії, реалізовані в будь-якому способі або технології для зберігання інформації, такої як машинопрочитувані команди, структури даних, програмні модулі або інші дані. Комп'ютерні носії інформації включають без обмеження RAM, ROM, EEPROM, флеш-пам'ять або іншу технологію пам'яті, CD-ROM, універсальні цифрові диски (DVD) або інші оптичні дискові запам'ятовувальні пристрої, магнітні касети, магнітну стрічку, магнітний диск для зберігання інформації або інші магнітні пристрої для зберігання інформації, або будь-який інший носій, що може бути використаний для зберігання необхідної інформації, і який може бути доступним із застосуванням комп'ютера. Додатково фахівцеві добре відомо, що в каналах передачі інформації, як правило, здійснені машинопрочитувані команди, структури даних, програмні модулі або інші дані у вигляді модульованого сигналу даних, такого як несуча хвиля або інший механізм переносу, і включені будь-які засоби для доставки інформації. 35 ФОРМУЛА ВИНАХОДУ 40 45 50 55 1. Спосіб кодування частотно-часового мозаїчного елемента звукової сцени, яка містить щонайменше N звукових об'єктів, причому спосіб включає: приймання N звукових об'єктів; генерування Μ сигналів знижувального мікшування на основі щонайменше N звукових об'єктів; генерування матриці відновлення з матричними елементами для відновлення щонайменше N звукових об'єктів з Μ сигналів знижувального мікшування, причому приблизні представлення щонайменше N звукових об'єктів одержують у вигляді лінійних комбінацій із щонайменше Μ сигналів знижувального мікшування із застосуванням матричних елементів матриці відновлення як коефіцієнтів в лінійних комбінаціях; і генерування бітового потоку, який містить Μ сигналів знижувального мікшування та щонайменше деякі з матричних елементів матриці відновлення. 2. Спосіб за п. 1, який відрізняється тим, що Μ сигналів знижувального мікшування розташовані в першому полі бітового потоку із застосуванням першого формату, а матричні елементи розташовані в другому полі бітового потоку із застосуванням другого формату, тим самим забезпечуючи можливість декодеру, який підтримує тільки перший формат, декодувати і відтворювати Μ сигналів знижувального мікшування в першому полі та відкидати матричні елементи в другому полі. 3. Спосіб за будь-яким з попередніх пунктів, який відрізняється тим, що додатково включає етап приймання даних про положення, які відповідають кожному з N звукових об'єктів, причому Μ сигналів знижувального мікшування генерують на основі даних про положення. 4. Спосіб за будь-яким з попередніх пунктів, який відрізняється тим, що матричні елементи матриці відновлення є змінними в часі та за частотою. 12 UA 113692 C2 5 10 15 20 25 30 35 40 45 50 55 60 5. Спосіб за будь-яким з попередніх пунктів, який відрізняється тим, що звукова сцена додатково містить множину основних каналів, причому Μ сигналів знижувального мікшування генерують на основі щонайменше N звукових об'єктів та множини основних каналів. 6. Спосіб за п. 5, який відрізняється тим, що матриця відновлення містить матричні елементи для відновлення основних каналів з Μ сигналів знижувального мікшування, причому приблизні представлення N звукових об'єктів та основних каналів одержують у вигляді лінійних комбінацій із щонайменше Μ сигналів знижувального мікшування із застосуванням матричних елементів матриці відновлення як коефіцієнтів в лінійних комбінаціях. 7. Спосіб за будь-яким з попередніх пунктів, який відрізняється тим, що звукова сцена спочатку містить K звукових об'єктів, де Κ>Ν, причому спосіб додатково включає етапи приймання K звукових об'єктів і зменшення Κ звукових об'єктів до N звукових об'єктів за допомогою кластеризації K об'єктів в N кластерів і представлення кожного кластера одним звуковим об'єктом. 8. Спосіб за п. 7, який відрізняється тим, що додатково включає етап приймання даних про положення, які відповідають кожному з Κ звукових об'єктів, при цьому кластеризація K об'єктів в N кластерів основана на просторовій відстані між Κ об'єктами, яка задана даними про положення Κ звукових об'єктів. 9. Спосіб за будь-яким з попередніх пунктів, який відрізняється тим, що кількість Μ сигналів знижувального мікшування більше двох. 10. Спосіб за будь-яким з попередніх пунктів, який відрізняється тим, що додатково включає: формування L додаткових сигналів з N звукових об'єктів; включення матричних елементів у матрицю відновлення для відновлення щонайменше N звукових об'єктів з Μ сигналів знижувального мікшування та L додаткових сигналів, причому приблизні представлення щонайменше N звукових об'єктів одержують у вигляді лінійних комбінацій з Μ сигналів знижувального мікшування та L додаткових сигналів із застосуванням матричних елементів матриці відновлення як коефіцієнтів в лінійних комбінаціях; і включення L додаткових сигналів у бітовий потік. 11. Спосіб за п. 10, який відрізняється тим, що щонайменше один з L додаткових сигналів дорівнює одному з N звукових об'єктів. 12. Спосіб за будь-яким з пп. 10-11, який відрізняється тим, що щонайменше один з L додаткових сигналів формують у вигляді комбінації із щонайменше двох з N звукових об'єктів. 13. Спосіб за будь-яким з пп. 10-12, який відрізняється тим, що Μ сигналів знижувального мікшування проходять у гіперплощині, і при цьому щонайменше один з множини додаткових сигналів не лежить у гіперплощині, у якій проходять Μ сигналів знижувального мікшування. 14. Спосіб за п. 13, який відрізняється тим, що щонайменше один з множини додаткових сигналів є ортогональним відносно гіперплощини, у якій проходять Μ сигналів знижувального мікшування. 15. Машиночитуваний носій, який містить команди машинного коду, пристосовані для виконання способу за будь-яким з пп. 1-14 при виконанні на пристрої, що має можливість обробки. 16. Кодер для кодування частотно-часового мозаїчного елемента звукової сцени, яка містить щонайменше N звукових об'єктів, який містить: приймальний компонент, виконаний з можливістю приймання N звукових об'єктів; компонент генерування знижувального мікшування, виконаний з можливістю приймання N звукових об'єктів із приймального компонента та генерування Μ сигналів знижувального мікшування на основі щонайменше N звукових об'єктів; аналізувальний компонент, виконаний з можливістю генерування матриці відновлення з матричними елементами для відновлення щонайменше N звукових об'єктів з Μ сигналів знижувального мікшування, причому приблизні представлення щонайменше N звукових об'єктів одержують у вигляді лінійних комбінацій із щонайменше Μ сигналів знижувального мікшування із застосуванням матричних елементів матриці відновлення як коефіцієнтів в лінійних комбінаціях; і компонент генерування бітового потоку, виконаний з можливістю приймання Μ сигналів знижувального мікшування з компонента генерування знижувального мікшування та матриці відновлення з аналізувального компонента, і генерування бітового потоку, що містить Μ сигналів знижувального мікшування та щонайменше деякі з матричних елементів матриці відновлення. 17. Спосіб декодування частотно-часового мозаїчного елемента звукової сцени, яка містить щонайменше N звукових об'єктів, причому спосіб включає етапи: приймання бітового потоку, який містить Μ сигналів знижувального мікшування та щонайменше деякі матричні елементи матриці відновлення; 13 UA 113692 C2 5 10 15 20 25 30 35 40 45 50 55 60 генерування матриці відновлення із застосуванням матричних елементів; і відновлення N звукових об'єктів з Μ сигналів знижувального мікшування із застосуванням матриці відновлення, причому приблизні представлення щонайменше N звукових об'єктів одержують у вигляді лінійних комбінацій із щонайменше Μ сигналів знижувального мікшування із застосуванням матричних елементів матриці відновлення як коефіцієнтів в лінійних комбінаціях. 18. Спосіб за п. 17, який відрізняється тим, що Μ сигналів знижувального мікшування розташовані в першому полі бітового потоку із застосуванням першого формату, а матричні елементи розташовані в другому полі бітового потоку із застосуванням другого формату, тим самим забезпечуючи можливість декодеру, який підтримує тільки перший формат, декодувати і відтворювати Μ сигналів знижувального мікшування в першому полі та відкидати матричні елементи в другому полі. 19. Спосіб за будь-яким з пп. 17-18, який відрізняється тим, що матричні елементи матриці відновлення є змінними в часі та за частотою. 20. Спосіб за будь-яким з пп. 17-19, який відрізняється тим, що звукова сцена додатково містить множину основних каналів, причому спосіб додатково включає відновлення основних каналів з Μ сигналів знижувального мікшування із застосуванням матриці відновлення, причому приблизні представлення N звукових об'єктів і основних каналів одержують у вигляді лінійних комбінацій із щонайменше Μ сигналів знижувального мікшування із застосуванням матричних елементів матриці відновлення як коефіцієнтів в лінійних комбінаціях. 21. Спосіб за будь-яким з пп. 17-20, який відрізняється тим, що кількість Μ сигналів знижувального мікшування більше двох. 22. Спосіб за будь-яким з пп. 17-21, який відрізняється тим, що додатково включає: приймання L додаткових сигналів, сформованих з N звукових об'єктів; відновлення N звукових об'єктів з Μ сигналів знижувального мікшування та L додаткових сигналів із застосуванням матриці відновлення, причому приблизні представлення щонайменше N звукових об'єктів одержують у вигляді лінійних комбінацій із щонайменше Μ сигналів знижувального мікшування та L додаткових сигналів із застосуванням матричних елементів матриці відновлення як коефіцієнтів в лінійних комбінаціях. 23. Спосіб за п. 22, який відрізняється тим, що щонайменше один з L додаткових сигналів дорівнює одному з N звукових об'єктів. 24. Спосіб за будь-яким з пп. 22-23, який відрізняється тим, що щонайменше один з L додаткових сигналів являє собою комбінацію N звукових об'єктів. 25. Спосіб за будь-яким з пп. 22-24, який відрізняється тим, що Μ сигналів знижувального мікшування проходять у гіперплощині, і при цьому щонайменше один з множини додаткових сигналів не лежить у гіперплощині, у якій проходять Μ сигналів знижувального мікшування. 26. Спосіб за п. 25, який відрізняється тим, що щонайменше один з множини додаткових сигналів, які не лежать у гіперплощині, є ортогональним відносно гіперплощини, у якій проходять Μ сигналів знижувального мікшування. 27. Спосіб за будь-яким з пп. 17-26, який відрізняється тим, що Μ сигналів знижувального мікшування представлені відносно першої частотної області, і при цьому матриця відновлення представлена відносно другої частотної області, причому перша та друга частотні області являють собою одну й ту саму частотну область. 28. Спосіб за п. 27, який відрізняється тим, що перша та друга частотні області являють собою область модифікованого дискретного косинусного перетворення MDCT. 29. Спосіб за будь-яким з пп. 17-28, який відрізняється тим, що додатково включає: приймання даних про положення, які відповідають N звуковим об'єктам, і представлення N звукових об'єктів із застосуванням даних про положення для створення щонайменше одного вихідного звукового каналу. 30. Спосіб за п. 29, який відрізняється тим, що матриця відновлення представлена відносно другої частотної області, що відповідає другому банку фільтрів, і представлення даних виконують у третій частотній області, що відповідає третьому банку фільтрів, причому другий банк фільтрів та третій банк фільтрів щонайменше частково являють собою один і той самий банк фільтрів. 31. Спосіб за п. 30, який відрізняється тим, що другий та третій банки фільтрів включають банк квадратурних дзеркальних фільтрів QMF. 32. Машиночитуваний носій, який містить команди машинного коду, пристосовані для виконання способу за будь-яким з пп. 17-31 при виконанні на пристрої, що має можливість обробки. 33. Декодер для декодування частотно-часового мозаїчного елемента звукової сцени, яка містить щонайменше N звукових об'єктів, який містить: 14 UA 113692 C2 5 10 приймальний компонент, виконаний з можливістю приймання бітового потоку, який містить Μ сигналів знижувального мікшування та щонайменше деякі матричні елементи матриці відновлення; компонент генерування матриці відновлення, виконаний з можливістю приймання матричних елементів від приймального компонента та генерування на їхній основі матриці відновлення; і відновлювальний компонент, виконаний з можливістю приймання матриці відновлення з компонента генерування матриці відновлення та відновлення N звукових об'єктів з Μ сигналів знижувального мікшування із застосуванням матриці відновлення, причому приблизні представлення щонайменше N звукових об'єктів одержують у вигляді лінійних комбінацій із щонайменше Μ сигналів знижувального мікшування із застосуванням матричних елементів матриці відновлення як коефіцієнтів в лінійних комбінаціях. 15 UA 113692 C2 16 UA 113692 C2 17 UA 113692 C2 18 UA 113692 C2 19 UA 113692 C2 Комп’ютерна верстка О. Гергіль Державна служба інтелектуальної власності України, вул. Василя Липківського, 45, м. Київ, МСП, 03680, Україна ДП “Український інститут інтелектуальної власності”, вул. Глазунова, 1, м. Київ – 42, 01601 20
ДивитисяДодаткова інформація
Назва патенту англійськоюCoding of audio scenes
Автори англійськоюPurnhagen, Heiko, Villemoes, Lars, Samuelsson, Leif Jonas, Hirvonen, Toni
Автори російськоюПурихаген Хэйко, Виллемоес Ларс, Самуэльссон Лэйф Йонас, Хирвонэн Тони
МПК / Мітки
МПК: G10L 19/008
Мітки: звукових, сцен, кодування
Код посилання
<a href="https://ua.patents.su/22-113692-koduvannya-zvukovikh-scen.html" target="_blank" rel="follow" title="База патентів України">Кодування звукових сцен</a>