Спосіб визначення основної частоти голосового сигналу людини

Завантажити PDF файл.

Формула / Реферат

Спосіб визначення основної частоти голосового сигналу людини, що включає виділення та фреймування вокалізованої ділянки голосового сигналу людини, який відрізняється тим, що процедуру виділення вокалізованої ділянки проводять на основі спектральних перетворень, а процедуру фреймування уточнюють з використанням кепстральних перетворень та пошуку точки переходу сигналу через нуль у часовому просторі.

Текст

Реферат: UA 122225 U UA 122225 U 5 10 15 20 25 30 35 40 45 50 55 Корисна модель належить до аналізу або синтезу мовлення та розпізнавання мовлення, зокрема до визначання або виявлення характеристик мовлення. Визначення основної частоти голосу використовується з метою аналізу чи синтезування голосового сигналу, ідентифікації особистості тощо. Найбільш близьким до пропонованого способу є спосіб визначення основної частоти голосового сигналу людини, поданий у [Мешков О.Ю., Новіков О.О. Двоступенева система аналізу голосового сигналу для задачі контролю стану водія під час керування автомобілем // Биомедицинская инженерия и электроника. - 2016. - № 2; URL: biofbe.esrae. ru/208-1053 прототип]. Відповідно до опису, у способі визначення основної частоти голосового сигналу людини, який включає виділення та фреймування вокалізованої ділянки голосового сигналу людини, основна частота голосу визначалась на основі значення середньої тривалості фрейму та уточнення шляхом пошуку точки переходу сигналу з від'ємної у додатну область. Недолік прототипу полягає у тому, що за його допомогою неможливо точно розділити фрейми голосового сигналу, якщо їх тривалість істотно змінюється у динаміці вимови, що спостерігається на практиці. Задачею корисної моделі є розробка способу визначення основної частоти голосового сигналу людини, в якому на основі комплексного використання часового, спектрального та кепстрального аналізу голосового сигналу можливо би було врахувати динамічні зміни основної частоти голосового сигналу під час вимови. Поставлена задача вирішується тим, що в способі визначення основної частоти голосового сигналу людини, який включає виділення та фреймування вокалізованої ділянки голосового сигналу людини, процедуру виділення вокалізованої ділянки проводять на основі спектральних перетворень, а процедуру фреймування уточнюють з використанням кепстральних перетворень та пошуку точки переходу сигналу через нуль у часовому просторі. На відміну від прототипу, у пропонованому способі основна частота голосового сигналу визначається на основі кепстрального перетворення вокалізованої ділянки, знаходження локального максимуму даного перетворення у межах діапазону голосового сигналу людини з подальшими уточненнями першого та другого порядку, що дозволяє враховувати динамічні зміни основної частоти голосового сигналу під час вимови. Приклад конкретного виконання. Проводять акустичний запис голосового сигналу людини. Отримані дані про розподіл амплітуди сигналу у часовому просторі нормуються до одиниці (1). Визначаються межі вокалізованих ділянок шляхом розділення сигналу на вікна тривалістю 1000 відліків, що за частоти дискретизації 22050 Гц відповідає 45 мсек. Для кожного з вікон визначається спектр сигналу. За умови, що максимальне значення спектру перевищує критичне значення, встановлене на рівні 70. вважається, що дане вікно містить вокалізовану ділянку. Далі вікно зміщується по сигналу на половину своєї ширини (500 відліків) і проводиться повторне визначення спектра. У результаті з усього сигналу виділяються вокалізовані ділянки, тобто ділянки, що містять частоту основного тону. Після цього виконується кепстральне перетворення вокалізованої ділянки. Локальний максимум отриманого кепстру в межах діапазону голосових сигналів людини відповідає середній тривалості фрейму. На основі отриманої тривалості вокалізована ділянка розбивається на первинні фрейми. Для уточнення тривалості отриманих фреймів проводиться уточнення першого порядку повторне кепстральне перетворення кожного отриманого фрейму. Отриманий кепстр окремого фрейму має два локальних максимуми - на початку та в кінці. Саме локалізація цих максимумів уточнює тривалість первинного фрейму. Якщо сума локалізацій менша, ніж тривалість первинного фрейму, то тривалість вторинного фрейму відповідатиме тривалості первинного. Якщо ж сума локалізацій перевищує тривалість первинного фрейму, у якості тривалості вторинного фрейму обирається прикінцева локалізація максимуму кепстру первинного фрейму. Уточнення другого порядку передбачає пошук точки переходу сигналу з від'ємної області до додатної. Воно полягає у розгляді трьох можливих варіантів: - тривалість реального фрейму співпадає з тривалістю первинного. У такому випадку не потрібно робити жодних уточнень; тривалість реального фрейму менша, ніж тривалість первинного. Приймаючи відхилення тривалості фреймів незначними, можна стверджувати, що у такому випадку ми потрапляємо у зону падіння сигналу у від'ємну область. Для уточнення тривалості фрейму необхідно почати рух уперед по сигналу до моменту переходу сигналу з від'ємної у додатну область. При досягненні цього моменту вважається, що було досягнуто кінця фрейму; 1 UA 122225 U 5 10 15 - тривалість реального фрейму більша, ніж тривалість первинного. Приймаючи відхилення тривалості фреймів незначними, можна стверджувати, що у такому випадку ми потрапляємо у зону сплеску, з якої починається наступний фрейм. Для уточнення тривалості фрейму необхідно почати рух назад по сигналу до моменту переходу сигналу з додатної області у від'ємну. При досягненні цього моменту вважається, що було досягнуто кінця фрейму. За рахунок поєднання усіх описаних процедур у часовому та частотному просторі з використанням кепстральних перетворень в єдиний спосіб обробки голосового сигналу людини отримується правильний поділ сигналу на фрейми. Результати обробки голосових сигналів людини за допомогою розробленого способу визначення основної частоти голосу людини мають більшу точність, ніж прототип, і можуть використовуватись для аналізу голосових сигналів та їх характеристик. Запропонована корисна модель буде становити інтерес для фахівців з аналізу сигналів та електроакустики, які працюють над аналізом голосових сигналів та виділенням їх значущих характеристик. Вона може бути використана як складова комплексної системи аналізу голосового сигналу людини, або як самостійний алгоритм. Також вона може використовуватись для задачі ідентифікації/верифікації людини та аналізу її фізичного стану на основі аналізу її голосового сигналу. ФОРМУЛА КОРИСНОЇ МОДЕЛІ 20 25 Спосіб визначення основної частоти голосового сигналу людини, що включає виділення та фреймування вокалізованої ділянки голосового сигналу людини, який відрізняється тим, що процедуру виділення вокалізованої ділянки проводять на основі спектральних перетворень, а процедуру фреймування уточнюють з використанням кепстральних перетворень та пошуку точки переходу сигналу через нуль у часовому просторі. Комп’ютерна верстка Л. Ціхановська Міністерство економічного розвитку і торгівлі України, вул. М. Грушевського, 12/2, м. Київ, 01008, Україна ДП “Український інститут інтелектуальної власності”, вул. Глазунова, 1, м. Київ – 42, 01601 2

Дивитися

Додаткова інформація

Автори англійською

Novikov Oleksandr Oleksandrovych, Meshkov Oleksandr Yuriiovych

Автори російською

Новиков Александр Александрович, Мешков Александр Юрьевич

МПК / Мітки

МПК: G10L 15/00

Мітки: основної, частоти, сигналу, спосіб, голосового, людини, визначення

Код посилання

<a href="https://ua.patents.su/4-122225-sposib-viznachennya-osnovno-chastoti-golosovogo-signalu-lyudini.html" target="_blank" rel="follow" title="База патентів України">Спосіб визначення основної частоти голосового сигналу людини</a>

Подібні патенти