Вимірювання гучності зі спектральними модифікаціями

Номер патенту: 95341

Опубліковано: 25.07.2011

Автор: Сіфельдт Алан Джеффрі

Завантажити PDF файл.

Формула / Реферат

1. Спосіб для вимірювання сприйманої гучності аудіосигналу, що включає етапи, на яких:

одержують спектральне зображення X аудіосигналу,

узгоджують рівень еталонного спектра Y з рівнем спектрального зображення Х так, щоб формувати заданий за рівнем еталонний спектр YM, причому YM - це масштабування рівня Y так, щоб рівень узгодженого еталонного спектра поєднувався з рівнем спектрального зображення X, при цьому масштабування рівня є функцією різниці рівнів між Х і Y за частотою, і

обробляють, коли спектральне зображення X і заданий за рівнем еталонний спектр YM знаходяться в межах допустимого зміщення ∆То1 один від одного, спектральне зображення X, щоб формувати показник сприйманої гучності аудіосигналу, при цьому

модифікують, коли спектральне зображення X і заданий за рівнем еталонний спектр YM не знаходяться в межах згаданого допустимого зміщення ∆То1 один від одного, спектральне зображення X, щоб формувати модифіковане спектральне зображення Хс, яке відповідає заданому за рівнем еталонному спектру YM ближче, ніж спектральне зображення.

2. Спосіб за п. 1, в якому масштабування рівня еталонного спектра Y обчислюється як функція від зваженого або незваженого середнього різниць між X і Y за частотою.

3. Спосіб за п. 2, в якому масштабування рівня еталонного спектра Y обчислюється як функція від середнього зваженого різниць між X і Y за частотою, і в якому частинам спектра X, які в найбільшій мірі відхиляються від еталонного спектра Y, присвоюються більші ваги, ніж іншим частинам.

4. Спосіб за будь-яким з пп. 1-3, в якому етап модифікування згаданого спектрального зображення X так, щоб формувати модифіковане спектральне зображення Хс, коли спектральне зображення X і заданий за рівнем еталонний спектр YM не знаходяться в межах згаданого допустимого зміщення ∆То1 один від одного, додатково включає в себе етап, на якому беруть більше із рівня спектрального зображення аудіосигналу і заданої за рівнем еталонної спектральної форми.

5. Спосіб за будь-яким з пп. 1-4, в якому спектральне зображення аудіосигналу - це сигнал збудження, який апроксимує розподіл енергії вздовж базилярної мембрани внутрішнього вуха.

6. Спосіб за будь-яким з пп. 1-5, в якому згаданий еталонний спектр Y представляє гіпотетичну середню очікувану спектральну форму.

7. Спосіб за п. 6, в якому згаданий еталонний спектр Y попередньо обчислюється за допомогою усереднення спектрів репрезентативної бази даних звичайних звуків.

8. Спосіб за будь-яким з пп. 1-7, в якому згаданий еталонний спектр Y є фіксованим.

9. Пристрій, що містить засіб, виконаний з можливістю здійснення етапів способу за будь-яким з пп. 1-8.

10. Машиночитаний носій, що зберігає комп'ютерну програму, яка, при виконанні за допомогою комп'ютера, здійснює спосіб за пп. 1-8.

Текст

1. Спосіб для вимірювання сприйманої гучності аудіосигналу, що включає етапи, на яких: одержують спектральне зображення X аудіосигналу, узгоджують рівень еталонного спектра Y з рівнем спектрального зображення Х так, щоб формувати заданий за рівнем еталонний спектр YM, причому YM - це масштабування рівня Y так, щоб рівень узгодженого еталонного спектра поєднувався з рівнем спектрального зображення X, при цьому масштабування рівня є функцією різниці рівнів між Х і Y за частотою, і обробляють, коли спектральне зображення X і заданий за рівнем еталонний спектр YM знаходяться в межах допустимого зміщення ∆То1 один від одного, спектральне зображення X, щоб формувати показник сприйманої гучності аудіосигналу, при цьому модифікують, коли спектральне зображення X і заданий за рівнем еталонний спектр YM не знаходяться в межах згаданого допустимого зміщення ∆То1 один від одного, спектральне зображення X, щоб формувати модифіковане спектральне зображення Хс, яке відповідає заданому за рівнем еталонному спектру YM ближче, ніж спектральне зображення. C2 2 (19) 1 3 обчислення сприйманої гучності модифікованого спектрального зображення аудіосигналу. Посилання і включення за посиланням Певні способи для об'єктивного вимірювання сприйманої (психоакустичної) гучності, що використовуються для кращого розуміння аспектів даного винаходу, описуються в опублікованій міжнародній заявці на патент WO2004/111994 А2 авторів Alan Jeffrey Seefeldt і інші, опублікованої 23 грудня 2004 року, що має заголовок "Method, Apparatus and Computer Program for Calculating and Adjusting the Perceived Loudness of the Audio Signal", в результуючій заявці на патент США, опублікованій як US2007/0092089, опублікованої 26 квітня 2007 року, і в статті "А New Objective Measure of Perceived Loudness" авторів Alan Seefeldt і інші, Audio Engineering Society Convention Paper 6236, San Francisco, 28 жовтня 2004 року. Згадані заявки WO2004/111994 А2 і US2007/0092089 і згадана стаття тим самим повністю включаються в даний документ за допомогою посилання. Існує множина способів для об'єктивного вимірювання сприйманої гучності аудіосигналів. Приклади способів включають в себе, А-, В- і С-зважені показники потужності, а також психоакустичні моделі гучності, такі як описані в документі "Acoustics Method for calculating loudness level", ISO 532 (1975), і згаданих заявках WO2004/111994A2 і US2007/0092089. Зважені показники потужності оперують за допомогою взяття вхідного аудіосигналу, застосування відомого фільтра, який виділяє частоти, що більше сприймаються при одночасному ослабленні частот, що менше сприймаються, і подальшого усереднення потужності відфільтрованого сигналу за заздалегідь певну тривалість часу. Психоакустичні способи типово є складнішими і орієнтовані на те, щоб оптимізувати моделювання роботи людського вуха. Такі психоакустичні способи ділять сигнал на смуги частот, які імітують частотну характеристику і чутливість вуха, а потім обробляють і інтегрують такі смуги частот з урахуванням психоакустичних явищ, таких як частотне і часове маскування, а також нелінійне сприймання гучності з інтенсивністю сигналу, що варіюється. Мета всіх таких способів полягає в тому, щоб витягувати чисельне вимірювання, яке близько збігається із суб'єктивним враженням від аудіосигналу. Автор винаходу виявив, що описані об'єктивні вимірювання гучності не збігаються точно з суб'єктивними враженнями для певних типів аудіосигналів. У згаданих заявках WO2004/111994 А2 і US2007/0092089 такі проблемні сигнали проблеми описуються як "вузькосмугові", що означає, що велика частина енергії сигналу концентрується в одній або декількох невеликих частинах спектра чутних звукових частот. У згаданих заявках розкритий спосіб для того, щоб обробляти такі сигнали, що містить в собі модифікацію традиційної психоакустичної моделі сприймання гучності, щоб містити два види зростання функцій гучності: один для "широкосмугових" сигналів і другий для "вузькосмугових" сигналів. Заявки WO2004/111994 А2 і US2007/0092089 описують інтерполяцію між двома функціями на основі показника "вузькосмугастості" сигналу. 95341 4 Хоча такий спосіб інтерполяції дійсно підвищує ефективність об'єктивного вимірювання гучності стосовно суб'єктивних вражень, автор винаходу відтоді розробив альтернативну психоакустичну модель сприймання гучності, яка, як він вважає, оптимальніше пояснює і вирішує відмінності між об'єктивними і суб'єктивними вимірюваннями гучності для "вузькосмугових" проблемних сигналів. Застосування цієї альтернативної моделі до об'єктивного вимірювання гучності становить аспект даного винаходу. Короткий опис креслень Фіг.1 показує спрощену принципову блоксхему аспектів даного винаходу. Фіг.2А, В і С показують концептуальним способом приклад застосування спектральних модифікацій, відповідно до аспектів винаходу, до ідеалізованого аудіоспектру, який містить переважно нижні звукові частоти. Фіг.3А, В і С показують концептуальним способом приклад застосування спектральних модифікацій, відповідно до аспектів даного винаходу, до ідеалізованого аудіоспектру хвиль, який аналогічний еталонному спектру. Фіг.4 показує набір критичних характеристик смугового фільтра, що використовуються для обчислення сигналу збудження в психоакустичній моделі гучності. Фіг.5 показує криві рівної гучності ISO 226. Горизонтальна шкала - це частота в герцах (логарифмічна шкала по основі 10), а вертикальна шкала - це рівень звукового тиску в децибелах. Фіг.6 є графіком, який порівнює об'єктивні показники гучності з немодифікованої психоакустичної моделі з суб'єктивними показниками гучності для бази даних аудіозаписів. Фіг.7 є графіком, який порівнює об'єктивні показники гучності з психоакустичної моделі, що використовує аспекти даного винаходу, з суб'єктивними показниками гучності для однієї бази даних аудіозаписів. Згідно з аспектами винаходу, спосіб для вимірювання сприйманої гучності аудіосигналу містить одержання спектрального зображення аудіосигналу, модифікацію спектрального зображення як функції від еталонної спектральної форми так, щоб спектральне зображення аудіосигналу більше відповідало еталонній спектральній формі, і обчислення сприйманої гучності модифікованого спектрального зображення аудіосигналу. Модифікація спектрального зображення як функції від еталонної спектральної форми може включати в себе мінімізацію функції різниць між спектральним зображенням і еталонною спектральною формою і завдання рівня для еталонної спектральної форми у відповідь на мінімізацію. Мінімізація функції різниць може мінімізувати середнє зважене різниць між спектральним зображенням і еталонною спектральною формою. Мінімізація функції різниць додатково може включати в себе застосування зміщення для того, щоб змінювати різниці між спектральним зображенням і еталонною спектральною формою. Зміщення може бути фіксованим зміщенням. Модифікація спектрального зображення як функції від еталонної спектральної форми 5 додатково може включати в себе взяття максимального рівня спектрального зображення аудіосигналу і заданої за рівнем еталонної спектральної форми. Спектральне уявлення аудіосигналу може бути сигналом збудження, який апроксимує розподіл енергії вздовж базилярної мембрани внутрішнього вуха. Згідно з додатковими аспектами винаходу, спосіб вимірювання сприйманої гучності аудіосигналу містить одержання зображення аудіосигналу, порівняння зображення аудіосигналу з еталонним зображенням, щоб визначати те, як близько зображення аудіосигналу збігається з еталонним зображенням, модифікацію щонайменше частини зображення аудіосигналу так, щоб результуюче модифіковане зображення аудіосигналу ближче збігалося з еталонним зображенням, і визначення сприйманої гучності аудіосигналу з модифікованого зображення аудіосигналу. Модифікація щонайменше частини зображення аудіосигналу може включати в себе регулювання рівня еталонного зображення стосовно рівня зображення аудіосигналу. Рівень еталонного зображення може регулюватися так, щоб мінімізувати функцію різниць між рівнем еталонного зображення і рівнем зображення аудіосигналу. Модифікація щонайменше частини зображення аудіосигналу може включати в себе збільшення рівня частин аудіосигналу. Згідно з ще додатковими аспектами винаходу, спосіб визначення сприйманої гучності аудіосигналу містить одержання зображення аудіосигналу, порівняння спектральної форми зображення аудіосигналу з еталонною спектральною формою, регулювання рівня еталонної спектральної форми, щоб збігатися зі спектральною формою зображення аудіосигналу так, щоб різниці між спектральною формою зображення аудіосигналу і еталонною спектральною формою зменшувались, формування модифікованої спектральної форми зображення аудіосигналу за допомогою збільшення частин спектральної форми зображення аудіосигналу так, щоб додатково поліпшувати відповідність між спектральною формою зображення аудіосигналу і еталонною спектральною формою, і визначення сприйманої гучності аудіосигналу на основі модифікованої спектральної форми зображення аудіосигналу. Регулювання може включати в себе мінімізацію функції різниць між спектральною формою зображення аудіосигналу і еталонною спектральною формою і завдання рівня для еталонної спектральної форми у відповідь на мінімізацію. Мінімізація функції різниць може мінімізувати середнє зважене різниць між спектральною формою зображення аудіосигналу і еталонною спектральною формою. Мінімізація функції різниць додатково може включати в себе застосування зміщення, щоб змінювати різниці між спектральною формою зображення аудіосигналу і еталонною спектральною формою. Зміщення може бути фіксованим зміщенням. Модифікація спектрального зображення як функції від еталонної спектральної форми додатково може включати в себе взяття максимального рівня спектрального зображення аудіосигналу і заданої за рівнем еталонної спектральної форми. 95341 6 Згідно з додатковими аспектами і ще додатковими аспектами даного винаходу, зображення аудіосигналу може бути сигналом збудження, який апроксимує розподіл енергії вздовж базилярної мембрани внутрішнього вуха. Інші аспекти винаходу включають в себе пристрій, що виконує будь-який з вищевикладених способів, і комп'ютерну програму, збережену на машиночитаному носії, для інструктування комп'ютера виконувати будь-який з вищевикладених способів. Переважний варіант здійснення винаходу У загальному значенні, всі об'єктивні вимірювання гучності, що згадуються раніше (як вимірювання зваженої потужності, так і психоакустичні моделі), можуть розглядатися як інтегрування за частотою деякого зображення спектра аудіосигналу. У випадку вимірювань зваженої потужності, цей спектр є спектром потужності сигналу, помноженим на спектр потужності вибраного зважуваного фільтра. У випадку психоакустичної моделі, цей спектр може бути нелінійною функцією потужності в рамках послідовності йдучих один за одним критичних смуг частот. Як згадано вище, з'ясувалося, що такі об'єктивні показники гучності надають зменшену ефективність для аудіосигналів, що мають спектр, раніше описаних як "вузькосмугові". Замість інтерпретації таких сигналів як вузькосмугові, автор винаходу створив простіше і більше інтуїтивне пояснення на основі передумови, що такі сигнали є несхожими із середньою спектральною формою звичайних звуків. Можна стверджувати, що більшість звуків, що зустрічаються в повсякденному житті, зокрема, мова, мають спектральну форму, яка не розходиться дуже суттєво із середньою "очікуваною" спектральною формою. Ця середня спектральна форма показує загальне зменшення енергії із збільшенням частоти, яка пропускається в смузі частот між найменшими і найбільшими звуковими частотами. Коли оцінюється гучність звуку, що має спектр, який значно відхиляється від такої середньої спектральної форми, гіпотеза автора даного винаходу полягає в тому, що потрібно когнітивно "заповнювати" до певної міри ті зони спектра, в яких відсутня очікувана енергія. Загальне враження гучності потім виходить за допомогою інтегрування за частотою модифікованого спектра, який включає в себе когнітивно "заповнену" спектральну частину, а не фактичного спектра сигналу. Наприклад, якщо прослуховується музичний твір тільки з грою на бас-гітарі, загалом, можна чекати, що інші інструменти в результаті приєднаються до баса і заповнять спектр. Замість того щоб визначати повну гучність виконуючого соло басу тільки з його спектра, автор даного винаходу вважає, що частина повного сприймання гучності приписується відсутнім частотам, які, як очікуються, акомпанують басу. Аналогія може бути проведена з відомим ефектом "відсутньої основної частоти" в психоакустиці. Якщо чується послідовність гармонійно пов'язаних тонів, але основна частота послідовності відсутня, послідовність як і раніше сприймається як така, що має основний тон, відповідний відсутній основній частоті. 7 Відповідно до аспектів даного винаходу, передбачене вище суб'єктивне явище інтегрується в об'єктивний показник сприйманої гучності. Фіг.1 ілюструє загальне уявлення аспектів винаходу, оскільки воно застосовується до будь-якого із зазначених об'єктивних показників (тобто як моделі зваженої потужності, так і психоакустичні моделі). Як перший етап, аудіосигнал х може бути перетворений в спектральне уявлення X, пропорційне конкретному об'єктивному використовуваному показнику гучності. Фіксований еталонний спектр Y представляє гіпотетичну середню очікувану спектральну форму, пояснену вище. Цей еталонний спектр може бути попередньо обчислений, наприклад, за допомогою усереднення спектрів репрезентативної бази даних звичайних звуків. Якнаступний етап, еталонний спектр Y може "зіставлятися" зі спектром сигналу X, щоб формувати заданий за рівнем еталонний спектр YM. Узгодження означає, що YM формується як масштабування рівня Y так, щоб рівень збіжного еталонного спектра YM суміщався з X, при цьому суміщення є функцією різниці рівня між X і УМ за частотою. Суміщення рівнів може включати в себе мінімізацію зваженої або незваженої різниці між X і YM за частотою. Таке зважування може бути задане будь-яким числом способів, але може бути вибране так, щоб частинам спектра X, які найбільшою мірою відхиляються від еталонного спектра Y, привласнювалися найбільші ваги. Таким чином, самі "незвичайні" частини спектра сигналу X поєднуються найближче з YM. Потім модифікований спектр сигналу Хс формується за допомогою модифікації X таким чином, щоб бути ближче до збіжного еталонного спектра YM, згідно з критерієм модифікації. Як детально пояснюється нижче, ця модифікація може приймати форму простого вибору максимуму з X і YM за частотою, який моделює когнітивне "заповнення", пояснене вище. Нарешті, модифікований спектр сигналу Хс може бути оброблений згідно з вибраним об'єктивним показником гучності (тобто деякому типу інтегрування за частотою), щоб формувати об'єктивне значення L гучності. Фіг.2А-С і 3А-С ілюструють, відповідно, приклади обчислення модифікованих спектрів сигналу Хс для двох різних первинних спектрів сигналу X. На Фіг.2А, первинний спектр сигналу X, представлений за допомогою суцільної лінії, містить велику частину своєї енергії в нижніх звукових частотах. У порівнянні з проілюстрованим еталонним спектром Y, представленим за допомогою пунктирних ліній, форма спектра сигналу Xвважається "незвичайною". На Фіг.2А, еталонний спектр спочатку показаний з довільним початковим рівнем (верхня пунктирна лінія), при якому він вище за спектр сигналу X. Еталонний спектр Y може потім бути зменшений в масштабі до такого рівня, щоб збігатися із спектром сигналу X, створюючи збіжний еталонний спектр YM (нижня пунктирна лінія). Можна зазначити, що YM найближче збігається з нижніми звуковими частотами X, які можуть розглядатися "незвичайною" частиною спектра сигналу при порівнянні з еталонним спектром. На Фіг.2В, частини спектра сигналу X, що знаходяться нижче збіжного 95341 8 еталонного спектра YM, задаються рівними YM, тим самим моделюючи процес когнітивного "заповнення". На Фіг.2С, можна бачити результат, коли модифікований спектр сигналу Хс, представлений за допомогою пунктиру, рівний максимуму з Х і YM за частотою. У цьому випадку, застосування спектральної модифікації додало значну величину енергії до первинного спектра сигналу у верхніх частотах. Як результат, гучність, що обчислюється з модифікованого спектра сигналу Хс, перевищує гучність, яка була б обчислена з первинного спектра сигналу X, що є необхідним ефектом. На Фіг.3А-С, спектр сигналу X аналогічний за формою еталонному спектру Y. Як результат, збіжний еталонний спектр YM може падати до рівня нижче за спектр сигналу X при всіх частотах, і модифікований спектр сигналу Хс може бути рівним первинному спектру сигналу Y. В цьому прикладі, модифікація не стосується ніяким чином подальшого вимірювання гучності. Для більшої частини сигналів, їх спектри є достатньо близькими до модифікованого спектра, як на Фіг.3А-С, так що модифікація не застосовується, і тому зміна в обчисленні гучності не проводиться. Переважно, тільки "незвичайні" спектри, як на Фіг.2А-С, модифікуються. У згаданих заявках WO2004/111994 А2 і US2007/0092089, авторів Seefeldt і інші, розкривається, серед іншого, об'єктивний показник сприйманої гучності на основі психоакустичної моделі. Переважний варіант здійснення даного винаходу може застосовувати описану спектральну модифікацію до такої психоакустичної моделі. Модель, без модифікації, спочатку аналізується, а потім надаються відомості щодо застосування модифікації. Із аудіосигналу, х[n], психоакустична модель спочатку обчислює сигнал збудження Е[b,t], апроксимуючий розподіл енергії вздовж базилярної мембрани внутрішнього вуха в критичній смузі частот b протягом часового блоку t. Це збудження може бути обчислено з короткочасного дискретного перетворення Фурьє (STDFT) аудіосигналу таким чином: 2 2 2 Eb, t   bEb, t  1  1 b  Tk  Cb k  Xk, t k (1) де Х[k,t] представляє STDFT х[n] у часовому блоці t і елементі розрізнення k, де k - це індекс елемента розрізнення за частотою в перетворенні, Т[k] представляє частотну характеристику фільтра, що моделює передачу аудіо через зовнішнє і середнє вухо, a Cb[k] представляє частотну характеристику базилярної мембрани в місцеположенні, відповідному критичній смузі частот b. Фіг.4 ілюструє відповідний набір критичних характеристик смугового фільтра, в якому сорок смуг частот рознесені рівномірно вздовж шкали еквівалентної прямокутної смуги пропущення (ERB), як задано авторами Moore і Glasberg (В.С.J.Moore, В.Glasberg, T.Baer, "A Model for the Prediction of Thresholds, Loudness and Partial Loudness, "Journal of the Audio Engineering Society, Vol.45, No.4, квітень 1997 року, стор. 224-240). Кожна форма фільтра описується за допомогою округленої експонентної функції, і смуги частот розподіляються з 9 використанням рознесення в 1 ERB. Нарешті, згладжуюча постійна часу  b в (1) може бути переважно вибрана пропорційно до часу інтегрування людського сприймання гучності в рамках смуги частот b. Використовуючи криві рівної гучності, такі як проілюстровані на Фіг.5, збудження в кожній смузі частот перетворюється в рівень збудження, який повинен формувати таку ж гучність при 1 кГц. Конкретна гучність, показник перцепційної гучності, розподіленої за частотою і часом, потім обчислюється з перетвореного збудження, E1KHz[b,t], через стискаючу нелінійність. Одна така придатна функція для того, щоб обчислювати конкретну гучність N[b,t], задається таким чином:  b, t    1  E   Nb, t     1kHz (2)      TQ1kHz     де TQ1KHz - це поріг тиші при 1 кГц, а постійні  і  вибираються так, щоб збігатися із суб'єктивним враженням зростання гучності для тону в 1 кГц. Хоча з'ясувалося, що значення 0,24 для  і значення 0,045 для  є відповідними, ці значення не є критичними. Нарешті, повна гучність, L[t], представлена в одиницях сона, обчислюється за допомогою підсумовування конкретної гучності за смугами частот: Lt    Nb, t  (3) b У цієї психоакустичної моделі, існує два проміжних спектральних зображення аудіо до обчислення повної гучності: збудження E[b,t] і конкретна гучність N[b,t]. Для даного винаходу, спектральна модифікація може бути застосована до них обох, але застосування модифікації до збудження, а не до конкретної гучності, спрощує обчислення. Це зумовлене тим, що форма збудження за частотою є інваріантною до загального рівня аудіосигналу. Це відбивається на способі, яким спектри зберігають незмінну форму при різних рівнях, як показано на Фіг.2А-С і 3А-С. Це не має місце для конкретної гучності, внаслідок нелінійності в рівнянні 2. Таким чином, приклади, представлені в даному документі, застосовують спектральні модифікації до спектрального зображення збудження. Продовжуючи із застосуванням спектральної модифікації до збудження, передбачається, що фіксоване еталонне збудження Y[b] існує. На практиці, Y[b] може бути створене за допомогою усереднення збуджень, обчислених з бази даних звуків, що містить велику кількість мовних сигналів. Джерело спектра еталонного збудження Y[b] не є критичним для винаходу. При застосуванні модифікації, корисно здійснювати операції із зображеннями в децибелах збудження сигналу E[b,t] і еталонного збудження Y[b]: EdB[b,t]=10log10(E[b,t]) (4а) YdB[b]=10log10(Y[b]) (4b) Як перший етап, еталонне збудження в децибелах YdB[b] може збігатися із збудженням сигналу в децибелах EdB[b,t], щоб формувати збіжне еталонне збудження в децибелах YdBM[b], де YdBM[b] представляється як масштабування (або 95341 10 адитивне зміщення при використанні дБ) еталонного збудження: (5) YdBМ[b]=YdB[b]+M Узгоджуюче зміщення м обчислюється як функція різниці [b], між EdB[b,t] і YdB[b]: (6) [b]=EdB[b,t]-YdB[b] Із цього різницевого збудження, [b], зважування, W[b], обчислюється як різницеве збудження, нормалізоване так, щоб мати мінімум в нулі, і потім піднесений до степеня :    (7) W [b]   [b]  min[b]   b   На практиці, завдання =2 є оптимальним, хоча це значення не є критичним, і інші зважування або взагалі відмова від зважування (тобто =1) може використовуватися. Узгоджуючи зміщення м потім обчислюється як середнє зважене різницевого збудження, [b], плюс допустиме зміщення,  Tol :  W [b][b] м  b  W [b]   Tol (8) b Зважування в рівнянні 7, коли більше одиниці, приводить до того, що частини збудження сигналу EdB[b,t], найбільш відмінні від еталонного збудження YdB[b], вносять найбільшу частку в узгоджуюче зміщення м. Допустиме зміщення  Tol впливає на величину "заповнення", яке відбувається, коли застосовується модифікація. На практиці, завдання  Tol =-12 дБ є оптимальним, приводячи до того, що велика частина аудіоспектрів залишається немодифікованою при застосуванні модифікації. (На Фіг.3А-С, саме це негативне значення  Tol приводить до того, що збіжний еталонний спектр повністю падає до рівня нижче, а не пропорційного, відносно спектра сигналу, і тому має результатом відсутність регулювання спектра сигналу). Після того як збіжне еталонне збудження обчислено, модифікація застосовується так, щоб формувати модифіковане збудження сигналу, за допомогою взяття максимуму EdB[b,t] і YdBM[b] за смугами частот: (9) EdBC [b, t]  max EdB[b, t], YdBм[b] Зображення в децибелах модифікованого збудження потім перетворюється назад в лінійне зображення: (10) E C [b, t ]10EdB C [b, t ] / 10 Це модифіковане збудження сигналу Ес[b,t] потім замінює первинне збудження сигналу E[b,t] на етапах обчислення гучності, що залишилися згідно з психоакустичною моделлю (тобто обчислення конкретної гучності і підсумовування конкретної гучності за смугами частот, як задано в рівняннях 2 і 3). Щоб продемонструвати практичну корисність розкритого винаходу, Фіг.6 і 7 ілюструють дані, що показують те, як немодифіковані і модифіковані 11 психоакустичні моделі, відповідно, прогнозують суб'єктивно оцінену гучність бази даних аудіозаписів. Для кожного тестового запису в базі даних суб'єктів попрохали регулювати гучність аудіо так, щоби був збіг з гучністю деякого фіксованого контрольного запису. Для кожного тестового запису суб'єкти можуть вмить перемикатися в обидва боки між тестовим записом і контрольним записом, щоб визначати різницю в гучності. Для кожного суб'єкта, кінцеве відрегульоване збільшення гучності в дБ збережене для кожного тестового запису, і ці посилення потім усереднені за багатьма суб'єктами, щоб сформувати суб'єктивні показники гучності для кожного тестового запису. Як немодифіковані, так і модифіковані психоакустичні моделі потім використовуються для того, щоб сформувати об'єктивний показник гучності для кожного запису в базі даних, і ці об'єктивні показники порівнюються з суб'єктивними показниками на Фіг.6 і 7. На обох кресленнях, горизонтальна вісь представляє суб'єктивний показник в дБ, а вертикальна вісь представляє об'єктивний показник в дБ. Кожна точка на кресленні представляє запис в базі даних, і якщо об'єктивний показник ідеально збігається з суб'єктивним показником, то кожна точка попадає точно на діагональну лінію. Для немодифікованої психоакустичної моделі на Фіг.6, потрібно зазначити, що переважна частина точок даних попадає поруч з діагональною лінією, але значна кількість випадаючих значень існує вище лінії. Такі випадаючі значення представляють проблемні сигнали, пояснені раніше, і немодифікована психоакустична модель оцінює їх як дуже тихі в порівнянні зі середньою суб'єктивною оцінкою. Для всієї бази даних, середня абсолютна помилка (ААЕ) між об'єктивними і суб'єктивними показниками становить 2,12 дБ, що є достатньо низьким значенням, але максимальна абсолютна помилка досягає дуже високого значення 10,2 дБ. Фіг.7 ілюструє ті самі дані для модифікованої психоакустичної моделі. Тут, велика частина точок даних на графіку залишається незміненою від показаних на Фіг.6, за винятком випадаючих значень, які були приведені у відповідність з іншими точками, кластеризованими навколо діагоналі. У порівнянні з немодифікованою психоакустичною моделлю, ААЕ в деякій мірі знижується до 1,43 дБ, а МАЕ значно знижується до 4 дБ. Перевага розкритої спектральної модифікації раніше випадаючих сигналів стає легко очевидною. Реалізація Хоча, в принципі, винахід може бути здійснений на практиці в аналоговій або в цифровій зоні (або в певній їх комбінації), в практичних варіантах здійснення винаходу, аудіосигнали представляються за допомогою вибірок в блоках даних, і обробка виконується в цифровій зоні. Винахід може бути реалізований в апаратних засобах або в програмному забезпеченні, або в 95341 12 комбінації зазначеного (наприклад, в логічних матрицях, що програмуються). Якщо не вказане інше, алгоритми і процеси, включені як частина винаходу, по суті, не пов'язані з жодним конкретним комп'ютером або іншим пристроєм. Зокрема, різні машини загального призначення можуть використовуватися з програмами, написаними відповідно до ідей в даному документі, або може бути зручнішим конструювати більш спеціалізований пристрій (наприклад, інтегральні схеми) для того, щоб здійснювати необхідні етапи способу. Таким чином, винахід може бути реалізований в одній або більше комп'ютерних програм, що виконуються на одній або більше комп'ютерних систем, що програмуються, кожна з яких містить щонайменше один процесор щонайменше одну систему збереження даних (що включає в себе енергозалежний і енергонезалежний запам'ятовуючий пристрій і/або запам'ятовуючі елементи) щонайменше один пристрій або порт введення і щонайменше один пристрій або порт виведення. Програмний код застосовується до вхідних даних для того, щоб виконувати функції, описані в даному документі, і формувати вихідну інформацію. Вихідна інформація застосовується до одного або більше пристроїв виведення відомим способом. Кожна така програма може бути реалізована на будь-якій необхідній машинній мові (включаючи машинну мову, асемблер або високо рівневі процедурні, логічні або об'єктно-орієнтовані мови програмування), щоб обмінюватися даними з комп'ютерною системою. У будь-якому випадку, мова може бути компілюючою або інтерпретуючою мовою. Кожна така комп'ютерна програма переважно зберігається або завантажується на носії або пристрої зберігання даних (наприклад, напівпровідникові запам'ятовуючі пристрої або носії або магнітні або оптичні носії), що читаються за допомогою комп'ютера загального або спеціального призначення, що програмується, для конфігурування і роботи з комп'ютером, коли носії або пристрої зберігання даних прочитуються за допомогою комп'ютерної системи, щоб виконувати процедури, описані в даному документі. Відповідна винаходу система також може розглядатися як реалізована як машиночитаний носій зберігання даних, сконфігурований за допомогою комп'ютерної програми, при цьому носій зберігання даних, сконфігурований таким чином, наказує комп'ютерній системі працювати конкретним і попередньо заданим способом, щоб виконувати функції, описані в даному документі. Описаний ряд варіантів здійснення винаходу. Проте, потрібно розуміти, що різні модифікації можуть бути виконані без відступу від суті і об'єму винаходу. Наприклад, деякі з етапів, описаних в даному документі, можуть бути незалежними від порядку і таким чином можуть виконуватися в порядку, що відрізняється від описаного. 13 95341 14 15 95341 16 17 Комп’ютерна верстка М. Ломалова 95341 Підписне 18 Тираж 23 прим. Міністерство освіти і науки України Державний департамент інтелектуальної власності, вул. Урицького, 45, м. Київ, МСП, 03680, Україна ДП “Український інститут промислової власності”, вул. Глазунова, 1, м. Київ – 42, 01601

Дивитися

Додаткова інформація

Назва патенту англійською

Loudness measurement by spectral modifications

Автори англійською

Seefeldt, Alan, Jeffrey

Назва патенту російською

Измерение громкости со спектральными модификациями

Автори російською

Сифельдт Алан Джеффри

МПК / Мітки

МПК: G10L 11/00

Мітки: модифікаціями, вимірювання, гучності, спектральними

Код посилання

<a href="https://ua.patents.su/9-95341-vimiryuvannya-guchnosti-zi-spektralnimi-modifikaciyami.html" target="_blank" rel="follow" title="База патентів України">Вимірювання гучності зі спектральними модифікаціями</a>

Подібні патенти