Система компандування та спосіб зниження шуму квантування з використанням удосконаленого спектрального розширення

Номер патенту: 110768

Опубліковано: 10.02.2016

Автори: Хеделін Пер, Шуг Міхель, Бісвас Аріджіт, Мелкоте Вінай

Формула / Реферат

1. Спосіб розпакування звукового сигналу, що включає: приймання звукового сигналу; та розпакування звукового сигналу в розширений динамічний діапазон за допомогою процесу розпакування, що включає: розподіл прийнятого звукового сигналу на сукупність тимчасових сегментів з застосуванням певної форми вікна, обчислення коефіцієнта підсилення в широкій смузі частот для кожного тимчасового сегмента в частотній області з застосуванням заснованого не на енергії середнього значення представлення звукового сигналу в частотній області та застосування окремих коефіцієнтів підсилення для кожного тимчасового сегмента з метою одержання розширеного динамічного діапазону звукового сигналу, причому застосування окремих коефіцієнтів підсилення підсилює сегменти з відносно високою інтенсивністю та послабляє сегменти з відносно низькою інтенсивністю.

2. Спосіб за п. 1, який відрізняється тим, що сегменти перекриваються один з одним.

3. Спосіб за п. 2, який відрізняється тим, що перший банк фільтрів застосовують для аналізу звукового сигналу з метою одержання представлення в частотній області, а певна форма вікна відповідає фільтру-прототипу для першого банку фільтрів.

4. Спосіб за п. 3, який відрізняється тим, що перший банк фільтрів являє собою або банк квадратурних модульованих фільтрів (QMF), або віконне перетворення Фур'є.

5. Спосіб за п. 3, який відрізняється тим, що коефіцієнт підсилення в широкій смузі частот для кожного тимчасового сегмента розраховують із застосуванням дискретних значень піддіапазону в підмножині піддіапазонів у відповідному тимчасовому сегменті.

6. Спосіб пакування звукового сигналу, що включає: приймання первинного звукового сигналу; та пакування первинного звукового сигналу для істотного зменшення вихідного динамічного діапазону первинного звукового сигналу за допомогою процесу пакування, що включає розподіл первинного звукового сигналу на сукупність сегментів з застосуванням певної форми вікна, обчислення коефіцієнта підсилення в широкій смузі частот у частотній області з застосуванням заснованого не на енергії середнього значення дискретних значень частотної області первинного звукового сигналу, та застосування окремого коефіцієнта підсилення для кожного сегмента із сукупності сегментів для підсилення сегментів з відносно низькою інтенсивністю та послаблення сегментів з відносно високою інтенсивністю.

7. Спосіб за п. 6, який відрізняється тим, що сегменти перекриваються один з одним, причому перший банк фільтрів застосовують для аналізу звукового сигналу з метою одержання представлення в частотній області, а певна форма вікна відповідає фільтру-прототипу для першого банку фільтрів.

8. Спосіб за п. 7, який відрізняється тим, що перший банк фільтрів являє собою або банк квадратурних модульованих фільтрів (QMF), або віконне перетворення Фур'є.

9. Спосіб за п. 7, який відрізняється тим, що кожний окремий коефіцієнт підсилення обчислюють за допомогою дискретних значень піддіапазону в підмножині піддіапазонів у відповідному тимчасовому сегменті.

10. Спосіб за п. 9, який відрізняється тим, що підмножина піддіапазонів відповідає всьому частотному діапазону, охоплюваному першим банком з фільтрів, причому коефіцієнт підсилення застосовують в області першого банку фільтрів.

11. Пристрій для пакування звукового сигналу, що містить: перший інтерфейс, що приймає первинний звуковий сигнал; та пристрій пакування даних, що упаковує первинний звуковий сигнал, для істотного зменшення вихідногодинамічного діапазону первинного звукового сигналу за допомогою розподілу первинного звукового сигналу на сукупність сегментів з застосуванням певної форми вікна, обчислення коефіцієнта підсилення в широкій смузі частот у частотній області з застосуванням заснованого не на енергії середнього значення дискретних значень частотної області первинного звукового сигналу та застосування окремих коефіцієнтів підсилення для кожного сегмента із сукупності сегментів для підсилення сегментів з відносно низькою інтенсивністю та ослаблення сегментів з відносно високою інтенсивністю.

12. Пристрій за п. 11, який відрізняється тим, що додатково містить перший банк фільтрів, що аналізує звуковий сигнал, для одержання представлення в частотній області, при цьому певна форма вікна відповідає фільтру-прототипу для першого банку фільтрів, причому, крім того, перший банк фільтрів являє собою або банк квадратурних модульованих фільтрів (QMF), або віконне перетворення Фур'є.

13. Пристрій за п. 12, який відрізняється тим, що окремі значення коефіцієнта підсилення обчислені з застосуванням дискретних значень піддіапазону в підмножині піддіапазонів у кожному відповідному тимчасовому сегменті.

14. Пристрій за п. 13, який відрізняється тим, що підмножина піддіапазонів відповідає всьому частотному діапазону, охоплюваному першим банком фільтрів, причому коефіцієнт підсилення застосований в області першого банку фільтрів.

15. Пристрій за п. 12, який відрізняється тим, що додатково містить другий інтерфейс, що передає упакований варіант первинного звукового сигналу в розширювач динамічного діапазону, який приймає упакований варіант звукового сигналу та розпаковує упакований варіант звукового сигналу для відновлення його, по суті, до вихідного динамічного діапазону первинного звукового сигналу за допомогою розподілу первинного звукового сигналу на сукупність сегментів з застосуванням певної форми вікна, обчислення коефіцієнта підсилення в широкій смузі частот у частотній області з застосуванням заснованого не на енергії середнього значення дискретних значень у частотній області первинного звукового сигналу; і застосовування відповідного коефіцієнта підсилення для кожного сегмента із сукупності сегментів для підсилення сегментів з відносно високою інтенсивністю та послаблення сегментів з відносно низькою інтенсивністю.

16. Пристрій для розпакування звукового сигналу, що містить: перший інтерфейс, що приймає упакований звуковий сигнал; та розширювач динамічного діапазону, що розпаковує упакований звуковий сигнал для відновлення, по суті, його вихідного нестиснутого динамічного діапазону за допомогою розподілу первинного звукового сигналу на сукупність сегментів з застосуванням певної форми вікна, обчислення коефіцієнта підсилення в широкій смузі частот у частотній області з застосуванням заснованого не на енергії середнього значення дискретних значень частотної області первинного звукового сигналу, та застосування окремих коефіцієнтів підсилення для кожного сегмента із сукупності сегментів для підсилення сегментів з відносно високою інтенсивністю та послаблення сегментів з відносно низькою інтенсивністю.

17. Пристрій за п. 16, який відрізняється тим, що додатково містить перший банк фільтрів, що аналізує звуковий сигнал, для одержання представлення в частотній області, при цьому певна форма вікна відповідає фільтру-прототипу для першого банку фільтрів, причому, крім того, перший банк фільтрів являє собою або банк квадратурних модульованих фільтрів (QMF), або віконне перетворення Фур'є.

18. Пристрій за п. 17, який відрізняється тим, що широкосмугове підсилення включає окремі коефіцієнти підсилення для кожного тимчасового сегмента, і при цьому кожний окремий коефіцієнт підсилення обчислений із застосуванням дискретних значень піддіапазону в підмножині піддіапазонів у кожному відповідному тимчасовому сегменті.

19. Пристрій за п. 18, який відрізняється тим, що підмножина піддіапазонів відповідає всьому частотному діапазону, охоплюваному першим банком фільтрів, причому підсилення застосовують в області першого банку фільтрів.

20. Пристрій за п. 16, що додатково містить другий інтерфейс, що приймає упакований звуковий сигнал від пристрою пакування даних, який приймає первинний звуковий сигнал і упаковує первісний звуковий сигнал для істотного зменшення вихідного динамічного діапазону первинного звукового сигналу за допомогою розподілу первинного звукового сигналу на сукупність сегментів з застосуванням певної форми вікна, обчислення коефіцієнта підсилення в широкій смузі частот у частотній області з застосуванням заснованого не на енергії середнього значення дискретних значень частотної області первинного звукового сигналу; і застосування відповідних коефіцієнтів підсилення для кожного сегмента із сукупності сегментів для підсилення сегментів з відносно низькою інтенсивністю та послаблення сегментів з відносно високою інтенсивністю.

21. Енергонезалежний носій, що читається машиною, що містить команди, які при їхньому виконанні одним або більш процесорами здійснюють спосіб за п. 1.

Текст

Реферат: Варіанти здійснення винаходу належать до способу та системи компандування для зниження шуму кодування в аудіокодеку. Процес пакування зменшує вихідний динамічний діапазон первинного звукового сигналу за допомогою процесу пакування, який ділить первинний звуковий сигнал на сукупність сегментів з використанням певної форми вікна, обчислює коефіцієнт підсилення в широкій смузі частот у частотній області з використанням заснованого не на енергії середнього значення дискретних значень частотної області первинного звукового сигналу та застосовує окремі коефіцієнти підсилення для підсилення сегментів з відносно низькою інтенсивністю та послаблення сегментів з відносно високою інтенсивністю. Потім упакований звуковий сигнал розпаковується назад, по суті, до вихідного динамічного діапазону, UA 110768 C2 (12) UA 110768 C2 який застосовує зворотні значення коефіцієнтів підсилення для підсилення сегментів з відносно високою інтенсивністю та послаблення сегментів з відносно низькою інтенсивністю. Банк фільтрів QMF застосовується для аналізу первинного звукового сигналу для одержання представлення в частотній області. UA 110768 C2 5 10 15 20 25 30 35 40 45 50 55 60 [0001] Дана заявка заявляє пріоритет згідно з попередньою заявкою на патент США № 61/809028, поданою 5 квітня 2013 року, і попередньою заявкою на патент США № 61/877167, поданою 12 вересня 2013 року, зміст яких у всій повноті включений в дану заявку за допомогою посилання. ГАЛУЗЬ ТЕХНІКИ, ДО ЯКОЇ ВІДНОСИТЬСЯ ВИНАХІД [0002] Один або декілька варіантів здійснення відносяться в цілому до обробки звукових сигналів, а більш конкретно до зниження шуму кодування в аудіокодеках, що використовують способи пакування/розпакування (компандування). ПЕРЕДУМОВИ СТВОРЕННЯ ВИНАХОДУ [0003] Багато популярних цифрових звукових форматів використовують способи пакування з втратами даних, які відкидають деякі дані для зниження технічних вимог до пам'яті або швидкості передачі даних. Застосування пакування з втратами даних не тільки знижує точність вихідного вмісту (наприклад, звукового вмісту), але воно також може внести помітні спотворення у вигляді артефактів пакування. У контексті звукових систем кодування, ці артефакти звуку називаються шумом кодування або шумом квантування. [0004] Цифрові звукові системи використовують кодеки (кодувальні-декодувальні компоненти) для пакування та розпакування аудіоданих відповідно до певного формату файлу звукозапису або аудіоформату потокового мультимедіа. Кодеки реалізують алгоритми, які намагаються представляти звуковий сигнал за допомогою мінімального числа бітів, зберігаючи таку високу точність, наскільки це можливо. Технології пакування з втратами, як правило, використовують в аудіокодеках, що працюють за принципом психоакустичної моделі слухового сприйняття людини. Аудіоформати зазвичай включають використання перетворення в часовій/частотній області (наприклад, модифікованого дискретного косинусного перетворення MDCT), а також використання таких маскувальних ефектів, як частотне маскування або тимчасове маскування, таким чином, щоб певні звуки, включаючи будь-які явні шуми квантування, зникали або маскувалися фактичним вмістом. [0005] Більшість звукових систем кодування засновані на кадровому представленні. Аудіокодеки в нормі формують у межах кадру шум кодування в частотній області таким чином, що він стає менш чутним. Декілька існуючих цифрових аудіоформатів використовують кадри настільки великої тривалості, що кадр може містити звуки декількох різних рівнів або інтенсивностей. Оскільки шум кодування зазвичай є стаціонарним відносно рівня протягом виділення кадру, то шум кодування може бути найбільш чутним протягом частин кадру з низькою інтенсивністю. Такий ефект може проявлятися у вигляді спотворення - попередньої луни, за якої тиша (або сигнал низького рівня) попереднього сегмента з високою інтенсивністю переповнений шумом у декодованому звуковому сигналі. Такий ефект може бути найбільш помітним у короткочасних звуках або імпульсах від ударних інструментів, таких як кастаньєти або інші джерела різких ударних звуків. Таке спотворення, як правило, обумовлене шумом квантування, внесеного в частотній області, який поширюється по всьому вікну перетворення кодека в тимчасовій області. [0006] Існуючі заходи для уникання або зведення до мінімуму артефактів попередньої луни включають використання фільтрів. Такі фільтри, тим не менш, викликають фазові спотворення та тимчасову розмитість. Інше можливе рішення включає використання менших вікон перетворення, однак цей підхід може значно зменшити частотний дозвіл. [0007] Не слід вважати, що предмет винаходу, обговорюваний у розділі передумов створення винаходу, є відомим рівнем техніки тільки в результаті його згадування в розділі передумов створення винаходу. Аналогічно, не слід вважати, що проблема, згадувана в розділі передумов створення винаходу або пов'язана з предметом винаходу в розділі передумов створення винаходу, є раніше визнаною у відомому рівні техніки. Предмет винаходу в розділі передумов створення винаходу лише представляє різні підходи, які самі по собі також можуть являти собою винаходи. КОРОТКИЙ ОПИС ВАРІАНТІВ ЗДІЙСНЕННЯ [0008] Варіанти здійснення спрямовані на спосіб обробки прийнятого звукового сигналу шляхом розпакування звукового сигналу в розширений динамічний діапазон за допомогою процесу, який включає ділення прийнятого звукового сигналу на сукупність тимчасових сегментів з використанням певної форми вікна, обчислення коефіцієнта підсилення в широкій смузі частот для кожного тимчасового сегмента в частотній області з використанням заснованого не на енергії середнього значення представлення звукового сигналу в частотній області та застосування коефіцієнта підсилення до кожного тимчасового сегмента для одержання розпакованого звукового сигналу. Значення коефіцієнта підсилення в широкій смузі частот, застосовувані до кожного тимчасового сегмента, вибирають таким чином, щоб одержати 1 UA 110768 C2 5 10 15 20 25 30 35 40 45 50 55 ефект підсилення сегментів з відносно високою інтенсивністю та ослаблення сегментів з відносно низькою інтенсивністю. Для даного способу прийнятий звуковий сигнал містить вихідний звуковий сигнал, який був упакований з вихідного динамічного діапазону за допомогою процесу пакування, що включає ділення вихідного звукового сигналу на сукупність тимчасових сегментів з використанням певної форми вікна, обчислення коефіцієнта підсилення в широкій смузі частот у частотній області з використанням заснованого не на енергії середнього значення дискретних значень частотної області вихідного звукового сигналу та застосування коефіцієнта підсилення в широкій смузі частот до вихідного звукового сигналу. У процесі пакування значення коефіцієнтів підсилення в широкій смузі частот, застосовувані до кожного тимчасового сегмента, вибирають таким чином, щоб одержати ефект підсилення сегментів з відносно низькою інтенсивністю та ослаблення сегментів з відносно високою інтенсивністю. Процес розпакування виконують із можливістю відновлення, по суті, динамічного діапазону первинного звукового сигналу, а коефіцієнт підсилення в широкій смузі частот у процесі розпакування може бути, по суті, зворотним коефіцієнту підсилення в широкій смузі частот у процесі пакування. [0009] У системі, яка реалізує спосіб обробки прийнятого звукового сигналу за допомогою процесу розпакування, може застосовуватися компонент банку фільтрів для аналізу звукового сигналу з метою одержання його представлення в частотній області, а певна форма вікна для сегментації на сукупність тимчасових сегментів може бути такою ж, як у фільтра-прототипу для банку фільтрів. Крім того, у системі, яка реалізує спосіб обробки прийнятого звукового сигналу за допомогою процесу пакування, може бути застосований компонент банку фільтрів для аналізу вихідного звукового сигналу з метою одержання його представлення в частотній області, а певна форма вікна для сегментації на сукупність тимчасових сегментів може бути такою ж, як у фільтра-прототипу для банку фільтрів. Банк фільтрів у кожному разі може бути або банком QMF, або віконним перетворенням Фур'є. У даній системі прийнятий сигнал для процесу розпакування одержують після модифікації упакованого сигналу за допомогою аудіокодера, який генерує бітовий потік, і декодера, який декодує бітовий потік. Кодер і декодер можуть містити щонайменше частину аудіокодека з перетворенням сигналів. Система може додатково містити компоненти, які обробляють інформацію управління, яка приймається через бітовий потік і визначає стан приведення в дію процесу розпакування. КОРОТКИЙ ОПИС ГРАФІЧНИХ МАТЕРІАЛІВ [0010] На нижченаведених графічних матеріалах подібні посилальні позиції використовуються для позначення подібних елементів. Незважаючи на те, що нижченаведені фігури зображують різні приклади, зазначена одна або декілька реалізацій не обмежуються прикладами, зображеними на фігурах. [0011] На фіг. 1 зображена система для пакування й розпакування звукового сигналу в аудіокодеку з перетворенням сигналів відповідно до одного з варіантів здійснення. [0012] На фіг. 2А зображений звуковий сигнал, розділений на безліч коротких тимчасових сегментів відповідно до одного з варіантів здійснення. [0013] На фіг. 2В зображений звуковий сигнал фіг. 2А після застосування широкосмугового підсилення до кожного з коротких тимчасових сегментів відповідно до одного з варіантів здійснення. [0014] На фіг. 3А представлена блок-схема, що ілюструє спосіб пакування звукового сигналу відповідно до одного з варіантів здійснення. [0015] На фіг. 3В представлена блок-схема, що ілюструє спосіб розпакування звукового сигналу відповідно до одного з варіантів здійснення. [0016] На фіг. 4 представлена структурна схема, що ілюструє систему для пакування звукового сигналу відповідно до одного з варіантів здійснення. [0017] На фіг. 5 представлена структурна схема, що ілюструє систему для розпакування звукового сигналу відповідно до одного з варіантів здійснення. [0018] На фіг. 6 зображене ділення звукового сигналу на сукупність коротких тимчасових сегментів відповідно до одного з варіантів здійснення. ДЕТАЛЬНИЙ ОПИС [0019] Описуються системи та способи для застосування способів компандування з метою здійснення в аудіокодеку тимчасового формування шуму квантування. Такі варіанти здійснення включають використання алгоритму компандування, реалізованого в QMF області для досягнення тимчасового формування шуму квантування. Процеси включають управління за допомогою кодера необхідним рівнем компандування за допомогою декодера та розширення монофонічних додатків до стерео та багатоканального компандування. 2 UA 110768 C2 5 10 15 20 25 30 35 40 45 50 55 60 [0020] Аспекти одного або декількох варіантів здійснення винаходу, описаних у даній заявці, можуть бути реалізовані у звуковій системі, яка обробляє звукові сигнали для передачі по мережі, що включає один або декілька комп'ютерів, або обробних пристроїв виконання програмних команд. Будь-який з описуваних варіантів здійснення винаходу може використовуватися окремо або разом з будь-яким іншим у будь-якій комбінації. Незважаючи на те, що різні варіанти здійснення винаходу можуть бути обумовлені різними недоліками у відомому рівні техніки, які можуть обговорюватися або згадуватися в одному або декількох місцях даного опису, зазначені варіанти здійснення винаходу не обов'язково спрямовані на який-небудь із цих недоліків. Іншими словами, різні варіанти здійснення винаходу можуть бути спрямовані на різні недоліки, які можуть обговорюватися в даному описі. Деякі варіанти здійснення винаходу можуть лише частково бути спрямованими на деякі недоліки або тільки один недолік, який може обговорюватися в даному описі, а деякі варіанти здійснення винаходу можуть не бути спрямованими на жодний із цих недоліків. [0021] На фіг. 1 зображена система компандування для зниження шуму квантування в системі обробки звуку з кодеком відповідно до одного з варіантів здійснення. На фіг. 1 зображена система обробки звукових сигналів, побудована із застосуванням аудіокодека, що містить кодер (або "основний кодер") 106 і декодер (або "основний декодер") 112. Кодер 106 кодує звуковий вміст у потоці даних або в сигналі для передачі по мережі 110, де він декодується за допомогою декодера 112 для відтворення або подальшої обробки. В одному з варіантів здійснення кодер 106 і декодер 112 кодека реалізують спосіб пакування з втратами для зниження вимог до пам'яті та/або швидкості передачі цифрових аудіоданих, і такий кодек може бути реалізований у вигляді МРЗ, Vorbis, Dolby Digital (AC-3), AAC або аналогічного кодека. Спосіб пакування з втратами кодека створює шум кодування, який зазвичай є стаціонарним стосовно рівня протягом виділення кадру, визначеного за допомогою кодека. Такий шум кодування часто є найбільш чутним під час частин кадру з низькою інтенсивністю. Система 100 включає компоненти, які зменшують сприйманий шум кодування в існуючих системах кодування, передбачаючи компонент 104 попереднього етапу пакування перед основним кодером 106 кодека та компонент 114 остаточного етапу розпакування, що працює на виході основного декодера 112. Компонент 104 пакування виконаний з можливістю ділення вихідного вхідного звукового сигналу 102 на сукупність тимчасових сегментів, використовуючи певну форму вікна, обчислювання та застосовування коефіцієнта підсилення в широкій смузі частот у частотній області, використовуючи засноване не на енергії середнє значення дискретних значень частотної області первинного звукового сигналу, причому коефіцієнти підсилення, застосовувані до кожного тимчасового сегмента, підсилюють сегменти з відносно низькою інтенсивністю та послабляють сегменти з відносно високою інтенсивністю. Така модифікація підсилення має ефект пакування або значного зменшення вихідного динамічного діапазону вхідного звукового сигналу 102. Потім упакований звуковий сигнал кодується в кодері 106, передається по мережі 110 і декодується декодером 112. Декодований упакований сигнал подається на вхід компонента 114 розпакування, який виконаний з можливістю здійснення операції, зворотної до операції пакування попереднього етапу 104 пакування за допомогою застосування зворотних значень коефіцієнтів підсилення для кожного тимчасового сегмента для розширення динамічного діапазону упакованого звукового сигналу назад до динамічного діапазону вихідного вхідного звукового сигналу 102. Таким чином, вихідний звуковий сигнал 116 містить звуковий сигнал, що має вихідний динамічний діапазон, з видаленим у попередньому та остаточному етапі процесу компандування шумом кодування. [0022] Як показано на фіг. 1, компонент пакування або попередній етап 104 пакування виконаний з можливістю зменшення динамічного діапазону звукового сигналу 102, що подається на основний кодер 106. Вхідний звуковий сигнал ділиться на ряд коротких сегментів. Розмір або довжина кожного короткого сегмента являє собою частину розміру кадру, використовуваного основним кодером 106. Наприклад, типовий розмір кадру основного кодера може бути порядку від 40 до 80 мілісекунд. У цьому випадку кожний короткий сегмент може бути порядку від 1 до 3 мілісекунд. Компонент 104 пакування обчислює відповідний коефіцієнт підсилення в широкій смузі частот для пакування вхідного звукового сигналу на основі посегментного пакування. Це досягається шляхом модифікації коротких сегментів сигналу за допомогою відповідного коефіцієнта підсилення для кожного сегмента. Відносно більші значення коефіцієнтів підсилення вибирають таким чином, щоб підсилювати сегменти з відносно низькою інтенсивністю, а малі значення коефіцієнтів підсилення вибирають таким чином, щоб послабити сегменти з високою інтенсивністю. [0023] На фіг. 2А зображений звуковий сигнал, розділений на безліч коротких тимчасових сегментів відповідно до одного з варіантів здійснення, а на фіг. 2В зображений той же звуковий 3 UA 110768 C2 5 10 15 20 25 30 35 40 45 50 55 60 сигнал після застосування широкосмугового підсилення компонентом пакування. Як показано на фіг. 2А, звуковий сигнал 202 являє собою короткочасний або такий звуковий імпульс, який може бути отриманий за допомогою ударного інструмента (наприклад, кастаньєт). Сигнал має пік амплітуди, як показано на графіку напруги V залежно від часу t. У цілому, амплітуда сигналу залежить від акустичної енергії або інтенсивності звуку і являє собою міру потужності звуку в будь-який момент часу. Коли звуковий сигнал 202 обробляється за допомогою аудіокодека, заснованого на кадровому представленні, частини сигналу обробляються в межах кадрів 204 перетворення (наприклад, MDCT). Типові існуючі цифрові звукові системи використовують кадри щодо великої тривалості, так що для різких короткочасних або коротких імпульсних звуків один кадр може включати звуки низької інтенсивності, а також високої інтенсивності. Таким чином, як показано на фіг. 1, єдиний кадр 204 MDCT містить імпульсну частину (пік) звукового сигналу, а також відносно велику кількість сигналу низької інтенсивності до та після піка. В одному з варіантів здійснення компонент 104 пакування ділить сигнал на ряд коротких тимчасових сегментів 206 і застосовує широкосмугове підсилення до кожного сегмента для стиснення динамічного діапазону сигналу 202. Кількість і розмір кожного короткого сегмента можуть бути обрані залежно від вимог додатків і системних обмежень. Стосовно розміру окремого кадру MDCT кількість коротких сегментів може становити від 12 до 64 сегментів, і може, як правило, містити 32 сегмента, але варіанти здійснення винаходу цим не обмежуються. [0024] На фіг. 2В зображений звуковий сигнал фіг. 2А після застосування широкосмугового підсилення до кожного з коротких тимчасових сегментів відповідно до одного з варіантів здійснення. Як показано на фіг. 2В, звуковий сигнал 212 має таку ж відносну форму, що й вихідний сигнал 202, однак, амплітуда сегментів з низькою інтенсивністю збільшена шляхом застосування коефіцієнтів підсилення, а амплітуда сегментів з високою інтенсивністю зменшена шляхом застосування послаблювальних коефіцієнтів підсилення. [0025] Вихідним сигналом основного декодера 112 є вхідний звуковий сигнал зі зменшеним динамічним діапазоном (наприклад, сигнал 212), до якого додається шум квантування, внесений основним кодером 106. Цей шум квантування має практично рівномірний рівень у часі в межах кожного кадру. Компонент 114 розпакування діє на декодований сигнал для відновлення динамічного діапазону вихідного сигналу. Він використовує той же короткочасний дозвіл, обумовлений розміром 206 короткого сегмента, і інвертує коефіцієнти підсилення, застосовувані в компоненті 104 пакування. Таким чином, компонент 114 розпакування застосовує малий коефіцієнт підсилення (ослаблення) до сегментів, які у вихідному сигналі мали низьку інтенсивність і були підсилені пристроєм пакування даних, і застосовує великий коефіцієнт підсилення (посилення) до сегментів, які у вихідному сигналі мали високу інтенсивність і були ослаблені пристроєм пакування даних. Шум квантування, що додається основним кодером, має рівномірну тимчасову огинальну лінію і, таким чином, одночасно формується підсиленням при остаточній обробці, щоб приблизно повторювати тимчасову огинальну лінію вихідного сигналу. Така обробка ефективно представляє шум квантування менш чутним під час тихих уривків. Хоча шум може бути підсилений під час уривків з високою інтенсивністю, він залишається менш чутним через маскувальний ефект голосного сигналу самого звукового вмісту. [0026] Як показано на фіг. 2А, процес компандування змінює окремі сегменти звукового сигналу відокремлено з відповідними коефіцієнтами підсилення. У деяких випадках це може привести до неоднорідностей у вихідному сигналі компонента пакування, що може викликати проблеми в основному кодері 106. Крім того, неоднорідності при підсиленні в компоненті 114 розпакування можуть привести до розривів в огинальній лінії формованого шуму, що може привести до чутних клацань у вихідному звуковому сигналі 116. Інша проблема, пов'язана із застосуванням окремих коефіцієнтів підсилення до коротких сегментів звукового сигналу, обумовлена тим фактом, що типові звукові сигнали являють собою суміш безлічі окремих джерел. Деякі із цих джерел можуть бути такими, що встановилися в часі, а деякі можуть бути несталими. Сигнал, що встановився, зазвичай постійний у своїх статистичних параметрах у часі, тоді як несталі сигнали зазвичай не є постійними. Враховуючи широкосмуговий характер несталих сигналів, їх характерні ознаки в такій суміші зазвичай помітніші на більш високих частотах. Обчислення коефіцієнта підсилення, обумовленого короткочасною енергією (RMS) сигналу, прагне зміщатися убік більш сильних низьких частот і, отже, переважають джерела, що встановилися, і демонструє невелику зміну в часі. Таким чином, цей підхід на основі енергетичного принципу у формуванні шуму, внесеного основним кодером, зазвичай неефективний. [0027] У варіанті здійснення винаходу система 100 обчислює й застосовує коефіцієнт підсилення в компонентах пакування та розпакування в банку фільтрів за допомогою короткого 4 UA 110768 C2 5 10 15 20 25 30 35 40 45 50 55 60 фільтра-прототипу для того, щоб вирішити можливі проблеми, пов'язані із застосуванням окремих коефіцієнтів підсилення. Для модифікації сигнал (вихідний сигнал у компоненті 104 пакування й вихідний сигнал основного декодера 112 у компоненті 114 розпакування) спочатку аналізується за допомогою банку фільтрів, а широкосмугове підсилення застосовується безпосередньо в частотній області. Відповідний ефект у тимчасовій області полягає в тому, щоб природно згладити застосування підсилення відповідно до форми фільтра-прототипу. Це усуває проблеми неоднорідностей, описані вище. Потім модифікований у частотній області сигнал перетворюється назад у тимчасову область за допомогою відповідного синтезуючого банку фільтрів. Аналіз сигналу за допомогою банку фільтрів забезпечує доступ до його спектрального складу та дозволяє виконувати обчислення коефіцієнта підсилення, який переважно підвищує внесок, що приходиться на високі частоти (або підвищує внесок, що приходиться на будь-який спектральний склад зі слабким сигналом), забезпечуючи коефіцієнти підсилення, у яких не переважають найсильніші складові в сигналі. Це вирішує проблему, пов'язану із джерелами звуку, які містять суміш різних джерел, як описано вище. В одному варіанті здійснення система обчислює коефіцієнт підсилення з використанням р-норми спектральних амплітуд, де р, як правило, менше, ніж 2 (р < 2). Це дозволяє виділити спектральний склад слабких сигналів у порівнянні із заснованим на енергетичному принципі (р = 2). [0028] Як зазначено вище, система включає фільтр-прототип для згладжування застосування підсилення. У цілому фільтр-прототип є основною формою вікна в банку фільтрів, який модулюється сигналами синусоїдальної форми для одержання імпульсних характеристик для різних субсмугових фільтрів у банку фільтрів. Наприклад, віконне перетворення Фур'є (STFT) являє собою банк фільтрів, а кожна частота лінії цього перетворення є піддіапазоном банку фільтрів. Віконне перетворення Фур'є здійснюється шляхом перемножування сигналу з формою вікна (вікна N-дискретних значень), яке може бути прямокутним, вікном Ханна, похідним вікном Кайзера-Бесселя (KBD) або якої-небудь іншої форми. Потім поміщений у вікно сигнал піддають дискретному перетворенню Фур'є (DFT) для одержання STFT. Форма вікна в цьому випадку є фільтром-прототипом. DFT складається із синусоїдальних базисних функцій різних частот. Форма вікна, помножена на синусоїдальну функцію, потім забезпечує фільтр для піддіапазону, який відповідає цій частоті. Оскільки форма вікна однакова на всіх частотах, її називають "прототипом". [0029] У варіанті здійснення система використовує банк QMF (квадратурних модульованих фільтрів) для банку фільтрів. У конкретній реалізації банк QMF може мати 64-розрядне вікно, яке утворює прототип. Це вікно, що модулюється косинусною і синусною функціями (відповідними 64 рівномірно розташованим частотам), утворює субсмугові фільтри для банку QMF. Після кожного застосування функції QMF, вікно переміщається на 64 дискретних значення, тобто перекриття між тимчасовими сегментами в цьому випадку становить 64064=576 дискретних значень. Однак, незважаючи на те, що форма вікна в цьому випадку охоплює десять тимчасових сегментів (640=10 * 64), головна пелюстка вікна (де величини дискретних значень дуже значні) становить приблизно 128 дискретних значень у довжину. Таким чином, ефективна довжина вікна як і раніше є відносно короткою. [0030] В одному з варіантів здійснення компонент 114 розпакування в ідеальному випадку обертає коефіцієнти підсилення, які використовує компонент 104 пакування. Хоча можливо передавати коефіцієнти підсилення, які використовує компонент пакування, через бітовий потік у декодер, такий підхід, як правило, витрачає значну швидкість передачі даних. В одному з варіантів здійснення система 100, між іншим, оцінює коефіцієнти підсилення за вимогою компоненту 114 розпакування безпосередньо з доступного йому сигналу, тобто вихідного сигналу декодера 112, який по суті не вимагає додаткових бітів. Банк фільтрів у компонентах пакування та розпакування вибирають таким чином, щоб вони були ідентичними для обчислення коефіцієнтів підсилення, які зворотні один одному. Крім того, ці банки фільтрів синхронізовані за часом, так що будь-які ефективні запізнювання між вихідним сигналом компонента 104 пакування та вхідним сигналом компонента 114 розпакування складають крок банку фільтрів. Якщо основний кодер-декодер працює без втрат, а банк фільтрів забезпечує ідеальне відновлення, то коефіцієнти підсилення в компонентах пакування та розпакування будуть строго зворотні один одному, що дозволяє забезпечити точне відновлення вихідного сигналу. На практиці, однак, коефіцієнт підсилення, застосовуваний компонентом 114 розпакування є тільки наближенням зворотного значення коефіцієнта підсилення, застосовуваного компонентом 104 пакування. [0031] В одному з варіантів здійснення банк фільтрів, застосовуваний у компонентах пакування та розпакування, являє собою банк QMF. У типовому використанні додатка основний звуковий кадр може мати довжину 4096 дискретних значень із перекриттям в 2048 дискретних 5 UA 110768 C2 5 10 15 20 значень із сусіднім кадром. При частоті 48 кГц такий кадр буде мати тривалість 85,3 мілісекунди. На відміну від цього, застосовуваний банк QMF може мати крок 64 дискретних значення (тривалість яких становить 1,3 мс у довжину), що забезпечує нормальний тимчасовий дозвіл для коефіцієнтів підсилення. Крім того, QMF має фільтр-прототип, що згладжує, довжина якого становить 640 дискретних значень у довжині, що забезпечує те, що застосування підсилення плавно змінюється в часі. Аналіз за допомогою банку QMF забезпечує частотнотимчасове мозаїчне представлення сигналу. Кожний часовий інтервал QMF дорівнює кроку й у кожному тимчасовому інтервалі QMF міститься 64 рівномірно розподілених піддіапазони. В альтернативному варіанті можна використовувати інші банки фільтрів, такі як віконне перетворення Фур'є (STFT), і таке частотно-тимчасове мозаїчне представлення як і раніше може бути отримане. [0032] В одному варіанті здійснення компонент 104 пакування виконує етап попередньої обробки, який масштабує вхідний сигнал кодека. Для даного варіанта здійснення St(k) є комплексним дискретним значенням банку фільтрів у тимчасовому інтервалі t і з елементом дозволу за частотою к. На фіг. 6 зображений розподіл звукового сигналу на ряд тимчасових інтервалів для діапазону частот відповідно до одного з варіантів здійснення. Для варіанта здійснення на діаграмі 600 присутні 64 елемента дозволу за частотою k і 32 тимчасових інтервали t, які представляють сукупність частотно-тимчасової мозаїки, як показано на діаграмі (хоча й не обов'язково накреслено в масштабі). Попередній етап пакування масштабує вхідний сигнал кодека, який ухвалює вид У цьому рівнянні значенням інтервалу. [0033] У наведеному вище рівнянні 25 30 35 40 є нормалізованим середнім вираження є середнім абсолютним рівнем/першою нормою, й So є придатною константою. Узагальнена р-норма визначається в даному контексті в такий спосіб: [0034] Було показано, що перша норма може дати значно кращі результати, ніж використання енергії (rms/друга норма). Значення члена показника ступені γ зазвичай перебуває в діапазоні від 0 до 1, і може вибиратися рівним 1/3. Константа So забезпечує прийнятні значення коефіцієнтів підсилення незалежно від платформи реалізації. Наприклад, вона може бути рівна 1, якщо реалізується на платформі, де всі значення St(k) можуть обмежуватися 1 за абсолютним значенням. Вона потенційно може бути іншою у платформі, де St(k) може мати одмінне максимальне абсолютне значення. Вона також може бути використана, щоб переконатися в тому, що середнє значення коефіцієнта великої безлічі сигналів близько до 1. Тобто вона може бути проміжним значенням сигналу між максимальним значенням сигналу та мінімальним значенням сигналу, визначеним з великого зведення вмісту. [0035] У процесі заключного етапу, виконуваного компонентом 114 розпакування, вихідний сигнал кодека розпаковується за допомогою зворотного значення коефіцієнту підсилення, застосованого компонентом 104 пакування. Це вимагає точної або майже точної копії банку фільтрів компонента пакування. У цьому випадку являє собою комплексне дискретне значення цього другого банку фільтрів. Компонент 114 розпакування масштабує вихідний 45 сигнал кодека, який приймає вид [0036] У наведеному вище рівнянні 9t є середнім значенням нормованого інтервалу, заданим як: 6 UA 110768 C2 і [0037] У загальному випадку компонент 114 розпакування буде використовувати таку ж рнорму, яка використовується в компоненті 104 пакування. Таким чином, якщо середній 5 10 15 20 25 30 35 40 45 50 55 абсолютний рівень використовується для визначення S t у компоненті 104 пакування, також визначається з використанням першої норми (р=1) у наведеному вище рівнянні. [0038] Коли комплексний банк фільтрів (що містить як косинусну, так і синусну базисні функції), такий як STFT або комплексний QMF, застосовується в компонентах пакування та розпакування, обчислення амплітуди або комплексного дискретного значення піддіапазону вимагає обчислювально-трудомісткої операції вилучення квадратного кореня. Цього можна уникнути шляхом апроксимації амплітуди комплексного дискретного значення піддіапазону різними способами, наприклад, шляхом підсумовування амплітуди його дійсної й уявної частин. [0039] У наведених вище рівняннях значення К менше або дорівнює кількості піддіапазонів у банку фільтрів. У загальному випадку р-норма може бути обчислена за допомогою будь-якої підмножини піддіапазонів у банку фільтрів. Однак, таку ж підмножину слід використовувати як у кодері 106, так і в декодері 112. В одному з варіантів здійснення високочастотні складові (наприклад, звукові компоненти вище 6 кГц) звукового сигналу можуть кодуватися за допомогою інструментального засобу вдосконаленого спектрального розширення (A-SPX). Крім того, бажано використовувати тільки сигнал вище 1 кГц (або аналогічної частоти) для супроводження формування шуму. У такому випадку тільки такі піддіапазони в діапазоні від 1 кГц до 6 кГц можуть використовуватися для обчислення р-норми, і, отже, коефіцієнта підсилення. Крім того, хоча коефіцієнт підсилення обчислюється з однієї підмножини піддіапазонів, він, проте, може застосовуватися до іншої й, можливо, більшої підмножини піддіапазонів. [0040] Як показано на фіг. 1, функція компандування для формування шуму квантування, внесеного основним кодером 106 аудіокодека, виконується двома окремими компонентами 104 і 114, що виконують певні функції пакування попереднім кодером і функції розпакування остаточним декодером. На фіг. 3А представлена блок-схема, що ілюструє спосіб пакування звукового сигналу в компоненті пакування попереднім кодером відповідно до одного з варіантів здійснення, а на фіг. ЗВ представлена блок-схема, що ілюструє спосіб розпакування звукового сигналу в компоненті розпакування остаточним декодером відповідно до одного з варіантів здійснення. [0041] Як показано на фіг. 3А, процес 300 починається із приймання компонентом пакування вхідного звукового сигналу (302). Потім цей компонент ділить звуковий сигнал на короткі тимчасові сегменти (304) і упаковує звуковий сигнал для зменшення динамічного діапазону за допомогою застосування коефіцієнта підсилення в широкій смузі частот для кожного з коротких сегментів (306). Компонент пакування також виконує певну прототипну фільтрацію та компоненти банку QMF для зменшення або виключення будь-яких неоднорідностей, викликаних застосуванням різних значень коефіцієнта підсилення для суміжних сегментів, як описано вище (308). У деяких випадках, обумовлених типом звукового вмісту або певними характеристиками звукового вмісту, пакування й розпакування звукового сигналу до й після етапів кодування/декодування аудіокодека може погіршити, а не поліпшити якість вихідного звуку. У таких випадках, процес компандування може бути відключений або модифікований для повторного компандування (пакування/розпакування) з різними рівнями. Таким чином, компонент пакування поряд з іншими змінними (310) визначає доцільність функції компандування та/або оптимальний рівень компандування, необхідний для конкретного вхідного сигналу та середовища звуковідтворення. Даний етап 310 визначення може відбутися в будьякій практичній точці процесу 300, наприклад, до розподілу звукового сигналу 304 або пакування звукового сигналу 306. Якщо компандування буде вважатися доцільним, то застосовуються коефіцієнти підсилення (306), а потім кодер кодує сигнал для передачі в декодер відповідно до формату даних кодека (312). Певні дані управління компандуванням, такі як дані приведення до дії, дані синхронізації, дані рівня компандування та інші подібні дані управління, можуть бути передані як частина бітового потоку для обробки компонентом розпакування. [0042] На фіг. 3В представлена блок-схема, що ілюструє спосіб розпакування звукового сигналу в компоненті розпакування остаточним декодером відповідно до одного з варіантів здійснення. Як показано в процесі 350, ланка декодера кодека одержує бітовий потік кодованого 7 UA 110768 C2 5 10 15 20 25 30 35 40 45 50 55 60 звукового сигналу від ланки кодера (352). Потім декодер декодує кодований сигнал відповідно до формату (353) даних кодека. Потім компонент розпакування обробляє бітовий потік і застосовує будь-які кодовані дані управління для відключення розпакування або зміни параметрів розпакування на підставі даних (354) управління. Компонент розпакування з використанням придатної форми (356) вікна ділить звуковий сигнал на тимчасові сегменти. В одному з варіантів здійснення винаходу тимчасові сегменти відповідають таким же тимчасовим сегментам, використовуваним у компоненті пакування. Потім компонент розпакування обчислює відповідні коефіцієнти підсилення для кожного сегмента в частотній області (358) і застосовує коефіцієнти підсилення для кожного тимчасового сегмента для розширення динамічного діапазону звукового сигналу назад до вихідного динамічного діапазону або будь-якого іншого відповідного до динамічного діапазону (360). Управління компандуванням [0043] Компоненти пакування та розпакування, що містять компандер системи 100, можуть бути виконані з можливістю застосування попередніх і остаточних етапів обробки тільки в певний час протягом обробки звукового сигналу або тільки для певних типів звукового вмісту. Наприклад, компандування може демонструвати переваги для мови й музичних несталих сигналів. Однак для інших сигналів, таких як сигнали, що встановилися, компандування може погіршити якість сигналу. Таким чином, як показано на фіг. 3А, механізм управління компандуванням передбачено в блоці 310, і дані управління передаються від компонента 104 пакування до компонента 114 розпакування для узгодження операції компандування. Найпростішою формою такого механізму управління є відключення функції компандування для блоків звукових дискретних значень, у яких застосування компандування погіршує якість звуку. В одному з варіантів здійснення рішення про включення/виключення компандування виявляється в кодері та передається у вигляді елемента бітового потоку в декодер таким чином, що пристрій пакування даних і розширювач динамічного діапазону можуть бути включені/виключені в тому ж тимчасовому інтервалі QMF. [0044] Перемикання між двома станами зазвичай приводить до неоднорідності в застосовуваному підсиленні, що приводить до чутних спотворень перемикання або клацань. Варіанти здійснення винаходу включають механізми зі скорочення або усунення таких спотворень. У першому варіанті здійснення система дозволяє включати й виключати функцію компандування тільки в кадрух, де коефіцієнт підсилення близький до 1. У цьому випадку присутня тільки невелика неоднорідність між включенням і виключенням функції компандування. У другому варіанті здійснення третій режим ослабленого компандування, який є проміжним між включеним і виключеним режимом, застосовується у звуковому кадрові в проміжку між кадруми із включеним і виключеним режимом і сигналізується в потоці бітів. Режим ослабленого компандування повільно переводить член показника ступені γ від значення за замовчуванням під час компандування до 0, що еквівалентно відсутності компандування. У якості альтернативи до проміжного режиму ослабленого компандування система може впроваджувати початкові кадри й кінцеві кадри, які протягом блоку звукових дискретних значень плавно переходять у режим без компандування замість раптового виключення функції компандування. В іншому варіанті здійснення система виконана з можливістю не просто виключати компандування, а застосовувати середній коефіцієнт підсилення. У певних випадках якість звуку тональних-стаціонарних сигналів може бути збільшена, якщо застосовується постійний коефіцієнт підсилення до звукового кадру, який більш подібний коефіцієнтам підсилення суміжних кадрів із включеним компандуванням, ніж постійний коефіцієнт підсилення 1,0 у випадку виключеного компандування. Такий коефіцієнт підсилення може обчислюватися шляхом усереднення всіх коефіцієнтів підсилення компандування протягом одного кадру. Кадр, що містить постійний середній коефіцієнт підсилення компандування, є, таким чином, сигнальним у бітовому потоці. [0045] Хоча варіанти здійснення описуються в контексті монофонічного звукового каналу, слід зазначити, що в ефективному програмному розширенні можуть бути оброблені декілька каналів шляхом повторення даного підходу окремо для кожного каналу. Однак, звукові сигнали, які містять два або декілька каналів, створюють певні додаткові складності, яким приділяється увага у варіантах здійснення системи компандування на фіг. 1. Стратегія компандування повинна залежати від подібності між каналами. [0046] Наприклад, у випадку стерео-панорамованих несталих сигналів було виявлено, що незалежність компандування окремих каналів може привести до чутних спотворень. В одному з варіантів здійснення система визначає єдине значення коефіцієнта підсилення для кожного тимчасового сегмента з дискретних значень піддіапазонів обох каналів і використовує такий же коефіцієнт підсилення для пакування/розпакування двох сигналів. Цей підхід зазвичай є 8 UA 110768 C2 5 10 15 20 25 30 35 40 45 50 55 60 придатним завжди, коли ці два канали мають дуже схожі сигнали, при цьому подібність визначається, наприклад, за допомогою взаємної кореляції. Детектор обчислює подібність між каналами та переключає між використанням окремого компандування каналів або спільного компандування каналів. Програмні розширення для більшої кількості каналів будуть ділити канали на групи каналів з використанням критеріїв подібності й застосовувати спільне компандування по групах. Ця згрупована інформація може передаватися через бітовий потік. Реалізація системи [0047] На фіг. 4 представлена структурна схема, що ілюструє систему для пакування звукового сигналу в комбінації з кодувальною ланкою кодека відповідно до одного з варіантів здійснення винаходу. На фіг. 4 зображена апаратна схема або система, яка реалізує щонайменше частину способу пакування для використання в системі на основі кодека, показаного на фіг. 3А. Як показано в системі 400, вхідний звуковий сигнал 401 у тимчасовій області є вхідним сигналом банку 402 фільтрів QMF. Даний банк фільтрів виконує операцію аналізу, яка ділить вхідний сигнал на декілька компонентів, у яких кожний смуговий фільтр пропускає частотний піддіапазон вихідного сигналу. Відновлення сигналу виконується в операції синтезу,виконуваної банком 410 фільтрів QMF. У зразковому варіанті здійснення на фіг. 4, банки фільтрів, що як аналізують, так і синтезують, обробляють 64 діапазони. Основний кодер 412 приймає звуковий сигнал від синтезуючого банку 410 фільтрів і генерує бітовий потік 414 шляхом кодування звукового сигналу у відповідний цифровий формат (наприклад, МРЗ, ААС тощо). [0048] Система 400 включає пристрій 406 пакування даних, який застосовує коефіцієнти підсилення для кожного з коротких сегментів, на які був розділений звуковий сигнал. Це викликає стиснення динамічного діапазону звукового сигналу, наприклад, як показано на фіг. 2В. Блок 404 управління компандуванням аналізує звуковий сигнал для визначення, наскільки слід застосовувати пакування залежно від типу сигналу (наприклад, мовний сигнал), або характеристик сигналу (наприклад, того, що встановився, порівняно з несталим), або інших відповідних параметрів. Блок 404 управління може включати механізм виявлення для виявлення тимчасової характеристики нерівномірності звукового сигналу. На підставі виявленої характеристики звукового сигналу та певних попередньо визначених критеріїв блок 404 управління передає відповідні сигнали управління на пристрій 406 пакування даних, щоб або виключити функцію пакування, або змінити коефіцієнт підсилення, застосовуваний до коротких сегментів. [0049] На додаток до компандування в області QMF також може працювати багато інших інструментальних засобів кодування. Одним з таких інструментальних засобів є A-SPX (удосконалене спектральне розширення), яке показано в блоці 408 на фіг. 4. A-SPX є технічним засобом, який використовується для забезпечення того, щоб менш важливі для сприйняття частоти кодувалися за допомогою алгоритму кодування з меншою точністю, ніж більш важливі частоти. Наприклад, в A-SPX на стороні декодера дискретні значення піддіапазонів QMF більш низької частоти можуть бути відтворені на більш високих частотах, а спектральну огинальну лінію в діапазоні високих частот потім формують за допомогою допоміжної інформації, переданої від кодера до декодера. [0050] У системі, де виконуються і компандування, і A-SPX в області QMF у кодері, дані огинальної лінії A-SPX для більш високих частот можуть бути витягнуті із ще неупакованих дискретних значень піддіапазонів, як показано на фіг. 4, а пакування може бути застосоване тільки до дискретних значень QMF з більш низькими частотами, які відповідають діапазону частот сигналу, закодованого основним кодером 412. У декодері 502 на фіг. 5, після аналізу 504 QMF декодованого сигналу спочатку застосовується процес 506 розпакування, а операція 508 A-SPX потім відтворює дискретні значення вищих піддіапазонів з розпакованого сигналу на більш низьких частотах. [0051] У даному прикладі реалізації синтезувальний банк 410 фільтрів QMF у кодері та аналізувальний банк QMF у декодері 504 разом вносять 640-64+1 дискретних значень затримки (~9 інтервалів QMF). Затримка основного кодека в цьому прикладі становить 3200 дискретних значень (50 інтервалів QMF), так що загальна затримка становить 59 інтервалів. Дана затримка пояснюється вбудовуванням у бітовий потік даних управління й застосуванням їх у декодері таким чином, що операції і кодувального пристрою пакування даних, і декодувального розширювача динамічного діапазону синхронізовані. [0052] У якості альтернативи у кодері пакування може бути застосована у всій смузі пропускання вихідного сигналу. Дані огинальної лінії A-SPX згодом можуть бути витягнуті з упакованих дискретних значень піддіапазонів. У такому випадку після аналізу QMF декодер спочатку запускає інструментальний засіб A-SPX для відновлення спочатку повної смуги 9 UA 110768 C2 5 10 15 20 25 30 35 40 45 50 пропускання упакованого сигналу. Потім для відновлення сигналу з його вихідним динамічним діапазоном застосовують ланку розпакування. [0053] Ще один інструментальний засіб, який може працювати в області QMF, може бути вдосконаленим інструментальним засобом з'єднань (АС) (не показаним) на фіг. 4. В удосконаленій системі з'єднань два канали кодуються як монофонічні з понижувальним мікшуванням і додатковою параметричною просторовою інформацією, яка може бути застосована в області QMF у декодері для відновлення стереофонічного вихідного сигналу. Коли використовуються АС і компандування в комбінації один з одним, інструментальний засіб АС може бути розміщений після ланки 406 пакування в кодері, і в цьому випадку його застосовують до ланки 506 розпакування в декодері. У якості альтернативи додаткова інформація АС може бути витягнута з неупакованого стереофонічного сигналу, у цьому випадку інструментальний засіб АС буде функціонувати після ланки 506 розпакування в декодері. Також може підтримуватися гібридний режим АС, у якому АС застосовується вище певної частоти, а дискретна стереофонія використовується нижче цієї частоти; або в альтернативному варіанті дискретна стереофонія використовується вище певної частоти, а АС використовується нижче цієї частоти. [0054] Як показано на фіг. 3А і 3В, бітовий потік, переданий між ланкою кодера й ланкою декодера кодека, включає певні дані управління. Такі дані управління становлять додаткову інформацію, яка дозволяє системі переключатися між різними режимами компандування. Дані управління переключенням (для включення/виключення компандування), до яких додаються можливі деякі проміжні стани, можуть додати порядку 1 або 2 біт на канал. Інші дані управління можуть включати сигнал, щоб визначати, чи будуть усі канали дискретної стереофонії або багатоканальної конфігурації використовувати загальні коефіцієнти підсилення компандування, або чи слід їх розраховувати окремо для кожного каналу. Такі дані можуть потребувати тільки один додатковий біт на канал. Інші аналогічні елементи даних управління і їх відповідні бітові вагові коефіцієнти можуть використовуватися залежно від системних вимог і обмежень. Механізм виявлення [0055] В одному з варіантів здійснення механізм управління компандуванням включений у вигляді частини компонента 104 пакування для забезпечення управління компандуванням в області QMF. Управління компандуванням може виконуватися на основі ряду факторів, таких як тип звукового сигналу. Наприклад, у більшості додатків компандування повинне бути включене для мовних сигналів і несталих сигналів або інших сигналів у межах класу тимчасових сигналів з піками. Система включає механізм виявлення для виявлення нерівномірності сигналу з метою сприяння генеруванню відповідного сигналу управління для роботи компандера. [0056] В одному з варіантів здійснення захід для тимчасової нерівномірності обчислюється за елементом дозволу за частотою к для заданого основного кодека й розраховується за наступною формулою: [0057] У наведеному вище рівнянні є сигналом піддіапазону, і Τ є кількістю інтервалів QMF, що відповідають одному кадрові основного кодера. У зразковій реалізації значення Τ може становити 32. Тимчасова нерівномірність, обчислена на кожному діапазоні, може застосовуватися для класифікації звукового вмісту на дві головні категорії: музичні сигнали, що встановилися, і музичні несталі сигнали або мовні сигнали. Якщо значення менше, ніж задане значення (наприклад, 1,2), сигнал у цьому піддіапазоні кадру, ймовірно, є музичним сигналом, що встановився. Якщо значеннябільше, ніж це значення, то сигнал, імовірно, є музичним несталим сигналом або мовним сигналом. Якщо значення більше, ніж найбільш високе порогове значення (наприклад, 1,6), сигнал швидше за все буде чисто музичним несталим сигналом, наприклад, кастаньєтами. Крім того, помічено, що для сигналів природнього походження значення тимчасової нерівномірності, отримані в різних діапазонах були більш-менш подібні, і ця характеристика може бути використана для зменшення кількості піддіапазонів, для яких повинно розраховуватися 10 UA 110768 C2 5 10 15 20 25 30 35 значення тимчасової нерівномірності. На основі цього спостереження, система може реалізувати одне з наступного. [0058] У першому варіанті здійснення детектор виконує наступний процес. У якості першого етапу він обчислює кількість діапазонів, які мають тимчасову нерівномірність більше, ніж 1,6. У якості другого етапу він потім обчислює середнє значення тимчасової нерівномірності діапазонів, де вона менше 1,6. Якщо кількість діапазонів, виявлених на першому етапі більше 51, або, якщо середнє значення, визначене на другому етапі, більше, ніж 1,45, сигнал визначається як музичний несталий сигнал і, отже, компандування повинне бути включеним. У протилежному випадку сигнал визначається як такий, для якого компандування не повинно бути включене. Такий детектор буде виключати більшу частину часу для мовних сигналів. У деяких варіантах здійснення, як правило, мовні сигнали будуть кодовані за допомогою окремого мовного кодера, і тому це зазвичай не є проблемою. Проте, у деяких випадках бажано включати функцію компандування також і для мови. У цьому випадку може бути кращим другий тип детектора. [0059] В одному з варіантів здійснення даний другий тип детектора виконує наступний процес. У якості першого етапу він обчислює кількість діапазонів, які мають тимчасову нерівномірність більше, ніж 1,2. На другому етапі він обчислює середнє значення тимчасових нерівномірностей діапазонів, де вони менше, ніж 1,2. Потім застосовують наступне правило: якщо результат першого етапу більше, ніж 55 - компандування включається, якщо результат першого етапу менше, ніж 15 - компандування вимикається; якщо результат першого етапу перебуває між 15 і 55, а результат другого етапу більше, ніж 1,16 -компандування включається; і якщо результат першого етапу перебуває між 15 і 55, а результат другого етапу менше, ніж 1,16 - компандування виключається. Слід зазначити, що ці два типи детекторів описали лише два приклади з багатьох можливих рішень для алгоритму детектора, і інші подібні алгоритми можуть використовуватися в такий же спосіб або в якості альтернативи. [0060] Функція управління компандуванням, передбачена елементом 404 фіг. 4, може реалізовуватися будь-яким придатним способом для забезпечення використання або невикористання компандування, виходячи з певних режимів роботи. Наприклад, компандування зазвичай не використовують у каналі LFE (низькочастотних ефектів) системи навколишнього звуку, а також не використовують, якщо не реалізована функціональна можливість A-SPX (тобто QMF). В одному варіанті здійснення функція управління компандуванням може забезпечуватися за допомогою програми, виконуваної за допомогою схеми або елементів на основі процесора, таких як елемент 404 управління компандуванням. Нижче наведено декілька прикладів синтаксису частини програми, яка може реалізувати управління компандуванням відповідно до одного з варіантів здійснення винаходу: 11 UA 110768 C2 5 10 15 20 25 30 35 Прапори або програмні елементи syncflag, b_compand_on[ch], і bcompand_avg можуть мати довжину приблизно 1 біт або будь-яку іншу довжину залежно від обмежень і вимог системи. Слід зазначити, що програмний код, показаний вище, являє собою приклад одного зі способів реалізації функції управління компандуванням, а інші програми або компоненти апаратного забезпечення можуть використовуватися для реалізації управління компандуванням відповідно до деяких варіантів здійснення. [0061] Хоча варіанти здійснення, описані дотепер, включають процес компандування для зниження шуму квантування, внесеного кодером в кодек, слід зазначити, що аспекти такого процесу компандування також можуть застосовуватися в системах обробки сигналів, які не включають ланки кодера та декодера (кодека). Крім того, у тому випадку, якщо процес компандування застосовується в комбінації з кодеком, то кодек може бути виконаний з перетворенням або без перетворення сигналів. [0062] Аспекти систем, описані в даній заявці, можуть бути реалізовані у відповідному мережному середовищі обробки звуку на основі використання комп'ютерів для обробки файлів цифрових або оцифрованих звукозаписів. Частини системи адаптивного звуку можуть включати одну або декілька мереж, які містять будь-яку необхідну кількість окремих машин, у тому числі один або декілька маршрутизаторів (не показані), які служать для буферизації й маршрутизації даних, переданих між комп'ютерами. Така мережа може будуватися на різноманітних мережних протоколах і може являти собою мережу Інтернет, глобальну обчислювальну мережу (WAN), локальну обчислювальну мережу (LAN) і будь-яку їхню комбінацію. [0063] Один або декілька компонентів, блоків, процесів або інших функціональних компонентів можуть реалізовуватися за допомогою комп'ютерної програми, яка управляється дією обчислювального пристрою на основі процесора системи. Слід також зазначити, що різні функції, розкриті в даному документі, можуть описуватися з використанням будь-якої кількості комбінацій апаратного забезпечення, програмно-апаратного забезпечення та/або даних, і/або команд, втілених у різних носіях даних, що читаються комп'ютером або машиною, виходячи з характеристик їх поведінки, міжреєстрового пересилання, логічних компонентів та/або інших характеристик. Носії даних, що читаються машиною, у яких можуть бути втілені такі форматовані дані та/або команди, включають енергонезалежні носії даних у різних формах, таких як оптичні, магнітні або напівпровідникові носії даних, але не обмежуються ними. [0064] Якщо з контексту явно не випливає інше, в описі й формулі винаходу слова "містять", "що містить" тощо необхідно пояснювати в сенсі, що включає, на відміну від вичерпного сенсу або того, що виключає; тобто у сенсі "включаючи, але не обмежуючись ними." Слова, використані у формі однини або множини, також включають форму множини або однини відповідно. На додаток, слова "у даному документі", " відповідно до даного документу", "вищезгаданий", "нижчевикладений" і слова аналогічного змісту відносяться до даної заявки в цілому, а не до якої-небудь конкретної частини даної заявки. Коли слово "або" використовується 12 UA 110768 C2 5 відносно списку із двох або більше елементів, це слово охоплює все з наступних пояснень слова: будь-який з елементів у списку, всі елементи в списку та будь-яка комбінація елементів у списку. [0065] Незважаючи на те, що одна або декілька реалізацій описані як приклад і з погляду конкретних варіантів здійснення слід розуміти, що одна або декілька реалізацій не обмежені розкритими варіантами здійснення. Навпаки, вони призначені для охоплення різних модифікацій і подібних схем, що повинно бути очевидно фахівцям у даній галузі техніки. Таким чином, обсяг доданої формули винаходу повинен відповідати самому широкому тлумаченню для того, щоб він охоплював усі такі модифікації та подібні схеми. 10 ФОРМУЛА ВИНАХОДУ 15 20 25 30 35 40 45 50 55 60 1. Спосіб розпакування звукового сигналу, що включає: приймання звукового сигналу; та розпакування звукового сигналу в розширений динамічний діапазон за допомогою процесу розпакування, що включає: розподіл прийнятого звукового сигналу на сукупність тимчасових сегментів з застосуванням певної форми вікна, обчислення коефіцієнта підсилення в широкій смузі частот для кожного тимчасового сегмента в частотній області з застосуванням заснованого не на енергії середнього значення представлення звукового сигналу в частотній області та застосування окремих коефіцієнтів підсилення для кожного тимчасового сегмента з метою одержання розширеного динамічного діапазону звукового сигналу, причому застосування окремих коефіцієнтів підсилення підсилює сегменти з відносно високою інтенсивністю та послабляє сегменти з відносно низькою інтенсивністю. 2. Спосіб за п. 1, який відрізняється тим, що сегменти перекриваються один з одним. 3. Спосіб за п. 2, який відрізняється тим, що перший банк фільтрів застосовують для аналізу звукового сигналу з метою одержання представлення в частотній області, а певна форма вікна відповідає фільтру-прототипу для першого банку фільтрів. 4. Спосіб за п. 3, який відрізняється тим, що перший банк фільтрів являє собою або банк квадратурних модульованих фільтрів (QMF), або віконне перетворення Фур'є. 5. Спосіб за п. 3, який відрізняється тим, що коефіцієнт підсилення в широкій смузі частот для кожного тимчасового сегмента розраховують із застосуванням дискретних значень піддіапазону в підмножині піддіапазонів у відповідному тимчасовому сегменті. 6. Спосіб пакування звукового сигналу, що включає: приймання первинного звукового сигналу; та пакування первинного звукового сигналу для істотного зменшення вихідного динамічного діапазону первинного звукового сигналу за допомогою процесу пакування, що включає розподіл первинного звукового сигналу на сукупність сегментів з застосуванням певної форми вікна, обчислення коефіцієнта підсилення в широкій смузі частот у частотній області з застосуванням заснованого не на енергії середнього значення дискретних значень частотної області первинного звукового сигналу, та застосування окремого коефіцієнта підсилення для кожного сегмента із сукупності сегментів для підсилення сегментів з відносно низькою інтенсивністю та послаблення сегментів з відносно високою інтенсивністю. 7. Спосіб за п. 6, який відрізняється тим, що сегменти перекриваються один з одним, причому перший банк фільтрів застосовують для аналізу звукового сигналу з метою одержання представлення в частотній області, а певна форма вікна відповідає фільтру-прототипу для першого банку фільтрів. 8. Спосіб за п. 7, який відрізняється тим, що перший банк фільтрів являє собою або банк квадратурних модульованих фільтрів (QMF), або віконне перетворення Фур'є. 9. Спосіб за п. 7, який відрізняється тим, що кожний окремий коефіцієнт підсилення обчислюють за допомогою дискретних значень піддіапазону в підмножині піддіапазонів у відповідному тимчасовому сегменті. 10. Спосіб за п. 9, який відрізняється тим, що підмножина піддіапазонів відповідає всьому частотному діапазону, охоплюваному першим банком з фільтрів, причому коефіцієнт підсилення застосовують в області першого банку фільтрів. 11. Пристрій для пакування звукового сигналу, що містить: перший інтерфейс, що приймає первинний звуковий сигнал; та пристрій пакування даних, що упаковує первинний звуковий сигнал, для істотного зменшення вихідного динамічного діапазону первинного звукового сигналу за допомогою розподілу первинного звукового сигналу на сукупність сегментів з застосуванням певної форми вікна, обчислення коефіцієнта підсилення в широкій смузі частот у частотній області з застосуванням заснованого не на енергії середнього значення дискретних значень 13 UA 110768 C2 5 10 15 20 25 30 35 40 45 50 55 частотної області первинного звукового сигналу та застосування окремих коефіцієнтів підсилення для кожного сегмента із сукупності сегментів для підсилення сегментів з відносно низькою інтенсивністю та ослаблення сегментів з відносно високою інтенсивністю. 12. Пристрій за п. 11, який відрізняється тим, що додатково містить перший банк фільтрів, що аналізує звуковий сигнал, для одержання представлення в частотній області, при цьому певна форма вікна відповідає фільтру-прототипу для першого банку фільтрів, причому, крім того, перший банк фільтрів являє собою або банк квадратурних модульованих фільтрів (QMF), або віконне перетворення Фур'є. 13. Пристрій за п. 12, який відрізняється тим, що окремі значення коефіцієнта підсилення обчислені з застосуванням дискретних значень піддіапазону в підмножині піддіапазонів у кожному відповідному тимчасовому сегменті. 14. Пристрій за п. 13, який відрізняється тим, що підмножина піддіапазонів відповідає всьому частотному діапазону, охоплюваному першим банком фільтрів, причому коефіцієнт підсилення застосований в області першого банку фільтрів. 15. Пристрій за п. 12, який відрізняється тим, що додатково містить другий інтерфейс, що передає упакований варіант первинного звукового сигналу в розширювач динамічного діапазону, який приймає упакований варіант звукового сигналу та розпаковує упакований варіант звукового сигналу для відновлення його, по суті, до вихідного динамічного діапазону первинного звукового сигналу за допомогою розподілу первинного звукового сигналу на сукупність сегментів з застосуванням певної форми вікна, обчислення коефіцієнта підсилення в широкій смузі частот у частотній області з застосуванням заснованого не на енергії середнього значення дискретних значень у частотній області первинного звукового сигналу; і застосовування відповідного коефіцієнта підсилення для кожного сегмента із сукупності сегментів для підсилення сегментів з відносно високою інтенсивністю та послаблення сегментів з відносно низькою інтенсивністю. 16. Пристрій для розпакування звукового сигналу, що містить: перший інтерфейс, що приймає упакований звуковий сигнал; та розширювач динамічного діапазону, що розпаковує упакований звуковий сигнал для відновлення, по суті, його вихідного нестиснутого динамічного діапазону за допомогою розподілу первинного звукового сигналу на сукупність сегментів з застосуванням певної форми вікна, обчислення коефіцієнта підсилення в широкій смузі частот у частотній області з застосуванням заснованого не на енергії середнього значення дискретних значень частотної області первинного звукового сигналу, та застосування окремих коефіцієнтів підсилення для кожного сегмента із сукупності сегментів для підсилення сегментів з відносно високою інтенсивністю та послаблення сегментів з відносно низькою інтенсивністю. 17. Пристрій за п. 16, який відрізняється тим, що додатково містить перший банк фільтрів, що аналізує звуковий сигнал, для одержання представлення в частотній області, при цьому певна форма вікна відповідає фільтру-прототипу для першого банку фільтрів, причому, крім того, перший банк фільтрів являє собою або банк квадратурних модульованих фільтрів (QMF), або віконне перетворення Фур'є. 18. Пристрій за п. 17, який відрізняється тим, що широкосмугове підсилення включає окремі коефіцієнти підсилення для кожного тимчасового сегмента, і при цьому кожний окремий коефіцієнт підсилення обчислений із застосуванням дискретних значень піддіапазону в підмножині піддіапазонів у кожному відповідному тимчасовому сегменті. 19. Пристрій за п. 18, який відрізняється тим, що підмножина піддіапазонів відповідає всьому частотному діапазону, охоплюваному першим банком фільтрів, причому підсилення застосовують в області першого банку фільтрів. 20. Пристрій за п. 16, що додатково містить другий інтерфейс, що приймає упакований звуковий сигнал від пристрою пакування даних, який приймає первинний звуковий сигнал і упаковує первісний звуковий сигнал для істотного зменшення вихідного динамічного діапазону первинного звукового сигналу за допомогою розподілу первинного звукового сигналу на сукупність сегментів з застосуванням певної форми вікна, обчислення коефіцієнта підсилення в широкій смузі частот у частотній області з застосуванням заснованого не на енергії середнього значення дискретних значень частотної області первинного звукового сигналу; і застосування відповідних коефіцієнтів підсилення для кожного сегмента із сукупності сегментів для підсилення сегментів з відносно низькою інтенсивністю та послаблення сегментів з відносно високою інтенсивністю. 21. Енергонезалежний носій, що читається машиною, що містить команди, які при їхньому виконанні одним або більше процесорами здійснюють спосіб за п. 1. 14 UA 110768 C2 15 UA 110768 C2 16 UA 110768 C2 17 UA 110768 C2 18 UA 110768 C2 19 UA 110768 C2 20 UA 110768 C2 Комп’ютерна верстка І. Скворцова Державна служба інтелектуальної власності України, вул. Василя Липківського, 45, м. Київ, МСП, 03680, Україна ДП “Український інститут інтелектуальної власності”, вул. Глазунова, 1, м. Київ – 42, 01601 21

Дивитися

Додаткова інформація

Назва патенту англійською

Companding apparatus and method to reduce quantization noise using advanced spectral extension

Автори англійською

Hedelin, Per, Biswas, Arijit, Schug, Michael, Melkote, Vinay

Автори російською

Хеделин Пэр, Бисвас Ариджит, Шуг Михель, Мелкотэ Винай

МПК / Мітки

МПК: H03G 3/24, H04B 1/64, G03G 7/00, G10L 21/034

Мітки: компандування, квантування, зниження, розширення, удосконаленого, шуму, спосіб, використанням, система, спектрального

Код посилання

<a href="https://ua.patents.su/23-110768-sistema-kompanduvannya-ta-sposib-znizhennya-shumu-kvantuvannya-z-vikoristannyam-udoskonalenogo-spektralnogo-rozshirennya.html" target="_blank" rel="follow" title="База патентів України">Система компандування та спосіб зниження шуму квантування з використанням удосконаленого спектрального розширення</a>

Подібні патенти