Спосіб визначення тонових, шумових та паузних ділянок мовного сигналу
Номер патенту: 107139
Опубліковано: 25.05.2016
Автори: Продеус Аркадій Миколайович, Дідковський Віталій Семенович, Ладошко Ольга Миколаївна
Формула / Реферат
Спосіб визначення тонових, шумових та паузних ділянок мовного сигналу, який включає прийняття рішення "голосний/приголосний/пауза", на основі нейронної мережі прямого розповсюдження, який включає порівняння вилученого з мовного сигналу вектора параметрів вибраної системи ознак, який відрізняється тим, що як вектор параметрів використані енергія сигналу, кількість перетинів сигналу з нульовим рівнем та значення траєкторії частоти основного тону, яка врахувала присутність шумів у мовленнєвому сигналі з мінімальним відношенням сигнал-шум від 0 дБ і вище.
Текст
Реферат: Спосіб визначення тонових, шумових та паузних ділянок мовного сигналу включає прийняття рішення "голосний/приголосний/пауза", на основі нейронної мережі прямого розповсюдження, який включає порівняння вилученого з мовного сигналу вектору параметрів вибраної системи ознак, причому як вектор параметрів використані енергія сигналу, кількість перетинів сигналу з нульовим рівнем та значення траєкторії частоти основного тону, яка врахувала присутність шумів у мовленнєвому сигналі з мінімальним відношенням сигнал-шум від 0 дБ і вище. UA 107139 U (12) UA 107139 U UA 107139 U 5 10 15 20 25 30 35 40 45 50 55 60 Корисна модель належить до галузі автоматичного розпізнавання мовлення та направлена на вирішення технічної задачі виявлення мовленнєвої активності, із одночасним виявленням голосних та приголосних звуків на ділянках із мовленнєвим сигналом, з метою передачі ознак голосний/приголосний/пауза на один із входів системи автоматичного розпізнавання мовлення з метою підвищення її стійкості до дії шумової та ревербераційної завад. Відомі способи визначення мовленнєвих (голосний/приголосний) та паузних сегментів мовного сигналу, які базуються на прийнятті рішення мова/пауза на основі взаємно розглянутої системи ознак (вектору параметрів), вилучених з мовного сигналу, таких як енергія сигналу, кількість перетинів сигналу з нульовим рівнем, автокореляційний коефіцієнт, перший коефіцієнт прогнозування, енергія похибки прогнозування (Atal В., Rabiner L. A pattern recognition approach to voiced-unvoiced-silence classification with applications to speech recognition /B. Atal //Acoustics, Speech and Signal Processing. - 1976. - Vol. 24, № 3. - P. 201-212) та більш складної системи ознак такої як кепстральні коефіцієнті (Qi Y., Hunt В.R. Voiced-Unvoiced-Silence Classifications of speech Using Hybrid features and a network /Y. Qi //Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP). - 1993. - Vol. 1, № 2. - P. 250-255.). Мовний сигнал піддається ковзаючому віконному аналізу з довжиною вікна 20-30 мсек і кроком 10-20 мсек. У результаті такого аналізу мовний сигнал розбивається на фрейми. Для кожного фрейму обчислюється вектор параметрів вибраної системи ознак. Вхідним сигналом алгоритму класифікації образів є вектор параметрів, обчислених на кожному фреймі. За допомогою алгоритму класифікації образів визначається приналежність кожного вектора параметрів до одного з класів мовленнєвої активності (голосний/приголосний) або паузи. Найближчим до запропонованого є вибраний за прототип спосіб прийняття рішення "голосний/приголосний/пауза", на основі нейронної мережі прямого розповсюдження, який включає порівняння вилученого з мовного сигналу вектора параметрів вибраної системи ознак заснований на знаходженні системи ознак з 23 мел-кепстральних коефіцієнтів, що викладено в патенті США US20030061036A1 від 14 грудня 2001 року, який полягає у наступному: мовний сигнал розділяється на фрейми, для кожного фрейму обчислюється спектр, який фільтрується гребінкою 23 мел-фільтрів, вихід модуля мел-фільтрації є зваженою сумою значень спектру в кожній смузі, яку логарифмують для стискання спектра і обчислюють дискретне косинусне перетворення, щоб отримати вектор 23 мел-кепстральних коефіцієнтів. Модуль прийняття рішення, на основі тришарової нейронної мережі прямого розповсюдження, отримує як вхідний вектор з 23 мел-кепстральних коефіцієнтів і формує сигнал щодо прийняття рішення присутності мовленнєвої активності (голосний/приголосний/) чи її відсутності (пауза) в поточному фреймі. Вказаному прототипу притаманний суттєвий недолік, який полягає у тому що використана система ознак на основі знаходження мел-кепстральних коефіцієнтів потребує великої кількості обчислень за рахунок використання перетворення Фур'є для отримання спектру мовного сигналу в кожній частотній смузі, що призводить до суттєвого зростання часу аналізу. Крім того мел-кепстральні коефіцієнти (Kim С., Stern R. Power-normalized cepstral coefficients (PNCC) for robust speech recognitions /C. Kim //Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP). - 2012. - P. 4101-4104.) є недостатньо стійкими до шумових завад у діапазоні відношень сигнал-шум від 0 дБ до 25 дБ. В основу заявленої корисної моделі поставлено задачу підвищення ефективності визначення тонових, шумових та паузних ділянок мовного сигналу, шляхом того що в якості вектору параметрів використана енергія сигналу, кількість перетинів сигналу з нульовим рівнем та значення траєкторії частоти основного тону, яка врахувала присутність шумів у мовленнєвому сигналі з мінімальним співвідношенням сигнал-шум від 0 дБ і вище, що забезпечує досягнення технічного результату зменшення обчислювальних витрат і досягнення точності визначення тонових, шумових та паузних ділянок мовного сигналу в умовах шумових завад. Поставлена задача вирішується тим, що в запропонованому способі вилучений з мовного сигналу вектор параметрів містить додаткову ознаку, а саме стійку до шумових завад траєкторію частоти основного тону мовного сигналу. Визначення тонових, шумових та паузних ділянок мовного сигналу здійснюється за рахунок обчислення на кожному фреймі сигналу вектора вхідних параметрів енергії сигналу, кількості перетинів сигналу з нульовим рівнем та траєкторії частоти основного тону. Цей вектор параметрів є вхідним сигналом модуля прийняття рішення, на основі нейронної мережі прямого розповсюдження, на виході якої формується сигнал щодо присутності мовленнєвої активності (тон та шум) чи її відсутності (пауза). Траєкторія частоти основного тону (ЧОТ) обчислюється на основі обробки мовного сигналу в часовій області у фреймі довжиною 30-50 мсек з кроком 1 UA 107139 U аналізу 10-20 мсек. Попередня обробка полягає у фільтрації мовного сигналу смуговим фільтром з смугою пропускання 70-1200 Гц для зменшення впливу формантної структури мовного сигналу. Побудова траєкторії ЧОТ зводиться до оцінки позитивних локальних максимумів функції нормованої автокореляції окремого фрейму: n p 5 Rp snsn p n 1 n p , s2 ns2 n p n 1 де sn - сигнал, n - індекс часу, N - довжина вікна для індексів p pmin , pmax кордонів пошуку ЧОТ 50-500 Гц, з подальшим сукупним аналізом отриманого набору максимумів, можливих кандидатів m , з урахуванням ймовірності можливих кандидатів на оцінку ЧОТ, p k 10 пропорційну величині локального максимуму Rk pmk , для кожного з фреймів k шляхом пошуку оптимального шляху, що максимізує появу оцінок m для групи фреймів з умовою незначної p k 15 зміни траєкторії ЧОТ для голосних звуків. Так як знаходження енергії, кількості перетинів сигналу з нульовим рівнем та траєкторії частоти основного тону, обчисленої на основі обробки мовного сигналу в часовій області, є значно простішим, ніж знаходження 23 мел-кепстральних коефіцієнтів, а також відсутності процедури отримання спектра мовного сигналу на основі обчислення перетворення Фур'є, дозволяє суттєво спростити необхідні обчислення, як наслідок, зменшити час аналізу. Сукупний аналіз групи кадрів ЧОТ, пошук оптимального шляху серед можливих кандидатів у ЧОТ з умовою незначної зміни траєкторії ЧОТ для голосних звуків, дозволяє підвищити стійкість отримання траєкторії ЧОТ в умовах шумової завади. 20 ФОРМУЛА КОРИСНОЇ МОДЕЛІ 25 Спосіб визначення тонових, шумових та паузних ділянок мовного сигналу, який включає прийняття рішення "голосний/приголосний/пауза", на основі нейронної мережі прямого розповсюдження, який включає порівняння вилученого з мовного сигналу вектора параметрів вибраної системи ознак, який відрізняється тим, що як вектор параметрів використані енергія сигналу, кількість перетинів сигналу з нульовим рівнем та значення траєкторії частоти основного тону, яка врахувала присутність шумів у мовленнєвому сигналі з мінімальним відношенням сигнал-шум від 0 дБ і вище. 30 Комп’ютерна верстка О. Гергіль Державна служба інтелектуальної власності України, вул. Василя Липківського, 45, м. Київ, МСП, 03680, Україна ДП “Український інститут інтелектуальної власності”, вул. Глазунова, 1, м. Київ – 42, 01601 2
ДивитисяДодаткова інформація
МПК / Мітки
МПК: G10L 17/00, G10L 17/20
Мітки: сигналу, спосіб, шумових, паузних, мовного, ділянок, визначення, тонових
Код посилання
<a href="https://ua.patents.su/4-107139-sposib-viznachennya-tonovikh-shumovikh-ta-pauznikh-dilyanok-movnogo-signalu.html" target="_blank" rel="follow" title="База патентів України">Спосіб визначення тонових, шумових та паузних ділянок мовного сигналу</a>
Попередній патент: Спосіб формування
Наступний патент: Гартувальна олива
Випадковий патент: Т-подібне з'єднання між профільною поперечкою і профільним стояком фасаду або прозорого даху