Спосіб описування та розпізнавання мовленнєвих сигналів
Номер патенту: 50036
Опубліковано: 25.05.2010
Формула / Реферат
Спосіб описування та розпізнавання мовленнєвих сигналів, що представлені послідовностями елементів-векторів із значень поточних параметрів його аналізу, який включає знаходження значень елементарних мір схожості кожного спостережуваного елемента на всі елементи еталонних образів, визначення схожості мовленнєвих образів шляхом рекурентного накопичення методом динамічного програмування інтегральних мір схожості послідовності спостережуваних елементів на послідовності еталонних образів, що розпізнаються, який відрізняється тим, що кожен елемент-вектор як еталонних образів, так і мовленнєвого сигналу, що розпізнається, описують бінарним кодом, який в цілому характеризує форму поточного амплітудного спектра мовленнєвого сигналу, а кожен окремий біт цього коду визначають як знак різниці значень амплітудного спектра для двох різних частот, як елементарну міру схожості використовують хемінгову міру, значення якої для пари порівнюваних елементів обчислюють таблично, еталонний мовленнєвий образ формують шляхом потроєння кожного еталонного елемента початкового еталонного образу з мінімально можливою тривалістю вимовляння, утворюючи послідовності трійок, інтегральну міру схожості для першого еталонного елемента кожної із трійок знаходять як суму елементарної міри схожості цього еталонного елемента на поточний спостережуваний елемент з найбільшою із трьох інтегральних мір схожості, накопичених для попередньої трійки еталонних елементів та попереднього спостережуваного елемента мовленнєвого сигналу, що розпізнається, а інтегральні міри схожості для другого та третього еталонних елементів цієї ж трійки знаходять як суми згадуваної елементарної міри схожості та інтегральних мір схожості, накопичених для першого та другого еталонних елементів цієї ж трійки відповідно для попереднього спостережуваного елемента, при цьому інтегральні міри схожості для першого, другого та третього еталонних елементів всіх трійок, крім першої, всіх еталонних мовленнєвих образів початково, до появи першого спостережуваного елемента, набувають мінімально можливих значень, а для першого, другого та третього еталонних елементів першої трійки всіх еталонних мовленнєвих образів - максимально можливих значень, а як кінцевий результат розпізнавання вибирають той мовленнєвий еталонний образ, одна з трьох інтегральних мір схожості якого, що накопичена для останньої трійки еталонних елементів та останнього розпізнаваного елемента, є абсолютно найбільшою.
Текст
Спосіб описування та розпізнавання мовленнєвих сигналів, що представлені послідовностями елементів-векторів із значень поточних параметрів його аналізу, який включає знаходження значень елементарних мір схожості кожного спостережуваного елемента на всі елементи еталонних образів, визначення схожості мовленнєвих образів шляхом рекурентного накопичення методом динамічного програмування інтегральних мір схожості послідовності спостережуваних елементів на послідовності еталонних образів, що розпізнаються, який відрізняється тим, що кожен елемент-вектор як еталонних образів, так і мовленнєвого сигналу, що розпізнається, описують бінарним кодом, який в цілому характеризує форму поточного амплітудного спектра мовленнєвого сигналу, а кожен окремий біт цього коду визначають як знак різниці значень амплітудного спектра для двох різних частот, як елементарну міру схожості використовують хемінгову міру, значення якої для пари порівнюваних елементів обчислюють таблично, еталонний мовленнєвий образ формують шляхом потроєння ко U 2 50036 1 3 Але він має недоліки, які полягають в тому, що він має недостатню швидкодію та низьку робастність процесів автоматичного розпізнавання мовленнєвих сигналів. В основу моделі покладена задача пришвидшення та підвищення робастності процесів автоматичного розпізнавання мовленнєвих сигналів за рахунок введення нових операцій розпізнавання мовленнєвих сигналів. Поставлена задача вирішується способом опису та розпізнавання мовленнєвих сигналів, що представляються послідовностями елементіввекторів із значень поточних параметрів його аналізу, який включає знаходження значень елементарних мір схожості кожного спостережуваного елемента на всі елементи еталонних образів, визначення схожості мовленнєвих образів шляхом рекурентного накопичення методом динамічного програмування інтегральних мір схожості послідовності спостережуваних елементів на послідовності еталонних образів, що розпізнаються, при цьому кожен елемент-вектор як еталонних образів, так і мовленнєвого сигналу, що розпізнається, описується бінарним кодом, який в цілому характеризує форму поточного амплітудного спектру мовленнєвого сигналу, а кожен окремий біт цього коду визначається як знак різниці значень амплітудного спектру для двох різних частот; як елементарна міра схожості використовується хемінгова міра, значення якої для пари порівнюваних елементів обчислюється таблично; еталонний мовленнєвий образ формують шляхом потроєння кожного еталонного елемента початкового еталонного образу з мінімально можливою тривалістю вимовляння, утворюючи послідовності трійок, інтегральну міру схожості для першого еталонного елемента кожної із трійок знаходять як суму елементарної міри схожості цього еталонного елемента на поточний спостережуваний елемент з найбільшою із трьох інтегральних мір схожості, накопичених для попередньої трійки еталонних елементів та попереднього спостережуваного елемента мовленнєвого сигналу, що розпізнається, а інтегральні міри схожості для другого та третього еталонних елементів цієї ж трійки знаходять як суми згадуваної елементарної міри схожості та інтегральних мір схожості, накопичених для першого та другого еталонних елементів цієї ж трійки відповідно для попереднього спостережуваного елемента, при цьому інтегральні міри схожості для першого, другого та третього еталонних елементів всіх трійок, окрім першої, всіх еталонних мовленнєвих образів початково, до появи першого спостережуваного елемента, набувають мінімально можливих значень, а для першого, другого та третього еталонних елементів першої трійки всіх еталонних мовленнєвих образів, - максимально можливих значень, а як кінцевий результат розпізнавання вибирають той мовленнєвий еталонний образ, одна з трьох інтегральних мір схожості якого, що накопичена для останньої трійки еталонних елементів та останнього розпізнаваного елемента, є абсолютно найбільшою. На Фіг.1 представлена структурна схема пристрою, що реалізує спосіб; на Фіг.2-4 - схеми окре 50036 4 мих блоків; Фіг.5 пояснює принцип роботи пристрою. Пристрій містить блок 1 пам'яті мовленнєвого образу, що поданий для аналізу та розпізнавання, блок 2 нам'яті еталонного образа, обчислювач 3 елементарної міри схожості, регістр 4, обчислювач 5 інтегральної міри схожості, блоки 6,6а та 7 пам'яті, контролер 8, аналізатор 9-10 мовленнєвого сигналу, В аналізаторі 9 мовленнєвий сигнал, що подається з мікрофона, піддається поточному спектральному аналізові в n спектральних каналах. Отже, кожний поточний спектральний елемент yi, що спостерігається в дискретному рівномірному часі i T з кроком T , наприклад T 10 мс, є елементом-вектором: yi ( yi1, yi2 ,..., yim,..., yin ). В аналізаторі 10 форми спектру кожен спостережуваний елемент yi описується векторомматрицею xi з двійковими компонентами 1 якщо ((yiu yiv ) 0 & ( yiu , u) xiuv 0 в інших випадках , v u; u, v 1 : n. x Двійковий опис-елемент містить 1 m n(n 1) компонент та несе інформацію про 2 форму спектру, визначає відносні амплітуди спектральних компонентів та не залежить від гучності промовляння. Як правило, пороги u, u 1 : n вибираються так, щоб в стаціонарних умовах, коли на вхід мікрофона надходять лише акустичні завади приміщення, формувались тільки нульові елементикоди. У випадку, коли v u 1 , двійковий код x має n 1 компонент, він стає дискретним аналогом знаку похідної спектру за частотою. В блоці пам'яті 1 розпізнаваного мовленнєвого образу зберігається послідовність поточних бінарних елементів-векторів: X0l ( x1, x2,..., xi,..., xl ) , де l - довжина мовленнєвого образу. В блоці 2 пам'яті еталонного образу зберігається еталонний образ слова, представлений аналогічною послідовністю бінарних еталонних елементів-кодів: E0q (e1, e2,..., es,..., eq ) , причому вона відповідає самому швидкому та все ще чіткому промовлянню слова; q - довжина початкового еталона слова. При автоматичному порівнянні та розпізнаванні початковий еталон E 0 q слова піддається нелінійним перетворенням в часі шляхом повторення кожного еталонного елемента початкового еталона нуль (нема повторення), один або два рази, причому так, щоб зберігався порядок слідування еталонних елементів, визначений початковим еталоном, й так, щоб в результаті у перетвореному еталоні слова було всього l еталонних елементів. Перетворені еталонні послідовності довжини l порівнюються з мовленнєвим сигналом X0l , що розпізнається, та обчислюються інтегральні міри 5 G схожості сигналу X0l на перетворені еталонні образи слова як суми відповідних значень елементарних мір схожості g( x, e ) : l G( X0i, E0l ) g( xi, es(i) ), i 1 де функція s(i) : s(1) 1, s(l) q , - встановлює відповідність номерів еталонних та спостережуваних елементів. Найбільше значення інтегральної міри схожості, що досягається на множині s(i) : s(1) 1 s(l) q , допустимих відповідностей визначає схожість мовленнєвого образу X0l , що розпізнається, на еталонний мовленнєвий образ E 0 q . Елементи Xl зберігаються в блоці пам'яті 1 за адресами 0...( l 1) , що задаються сигналом з першого виходу контролера 8. Адресі 0 відповідає елемент x1 , адресі (l 1) - елемент x l . За адресою l зберігається ознака (l 1) - "Кінець образу, що розпізнається", формально відповідний елементові x l 1 . Ця ознака зчитується з першого виходу блоку 1 та подається на перший вхід контролера 8. Елементи es зберігаються в блоці пам'яті 2 за адресами 0...( q 1) , що задаються сигналом з другого виходу контролера 8. Адресі 0 відповідає елемент e1 , адресі ( q 1) - елемент eq . За адресою q зберігається ознака ( q 1) - "Кінець еталонного образу". Ця ознака організована аналогічно ознаці (l 1) , вона зчитується з першого виходу блоку 2 й подається на другий та третій входи контролера 8 та через другий та третій входи обчислювача 5 інтегральної міри схожості - на входи установок регістрів 12, 12а і 13. За адресами 0 ...q зберігаються також проміжні значення інтегральної міри схожості в блоках пам'яті 6, 6а та 7. За адресою 0 в блоках пам'яті 6, 6а та 7 записуються відповідно початкові значення G(0,1) 0, G(0,2) 0 та G(0,3 ) 0 , а за адресами 1,2,..., s,...( q 1) цих же блоків запишемо відповідно M , де початкові значення G( s,1) G( s,2) G( s,3 ) M - велике ціле додатне число. Перед початком порівняння та розпізнавання всі регістри, а також лічильник 21 обнуляються. В регістр 11 записується число M . Імпульсом "Старт" запускається генератор 20 контролера 8. Лічильник 21 контролера 8 формує адреси блоку пам'яті 1 та блоку пам'яті 2. Ці адреси надалі будуть позначатись як i та s відповідно. Окрім того, адреса s використовується в трьох блоках пам'яті 6, 6а та 7. В регістр 11 записується число M . За адресою i 0 на виході блоку пам'яті 1 з'являється елемент x1 у вигляді m розрядного двійкового коду, який подається на перший вхід обчислювача елементарної міри схожості 3. Одночасно за адресою s 0 на виході блоку пам'яті 2 з'являється еталонний елемент e1 , також у вигля 50036 6 ді m -розрядного двійкового коду, який подається на другий вхід обчислювача елементарної міри схожості 3. Останній обчислює значення елементарної міри схожості g( x1, e1) - хемінгову відстань між кодами x1 та e1 . За адресою s 0 одночасно з блоків пам'яті 6, 6а та 7 зчитуються значення інтегральної міри схожості G(0,1), G(0,2) і G(0,3) та записуються у регістри 12, 12а та 13, відповідно. Затим зміст регістра 11 переписується в блок пам'яті 7 як G(0,1) . Змісти регістрів 12, 12а та 13 порівнюються в компараторі 15, і менше з-посеред них через мультиплексор 16 подається на перший вхід суматора 17, на другий вхід якого надходить g( x1, e1) з обчислювача 3. Значення G(0,1) з виходу регістра 12 надходить також на перший вхід суматора 18, на другий вхід якого передається зміст регістра 4. Рівно ж значення G(0,2) з виходу регістра 12а надходить також на перший вхід суматора 18а, на другий вхід якого передається зміст регістра 4а. Обчислені значення G(1,1) з виходу суматора 17, G(0,2) з виходу суматора 18 та G(0,3) з виходу суматора 18а записуються відповідно в регістр 11 та блоки пам'яті 6 і 6а. Далі для тієї ж самої адреси i 0 описаний процес повторюється для j 1 . При цьому на виході блоку пам'яті 1 зберігається елемент x1 , а на виході блоку пам'яті 2 - з'являється еталонний елемент e2 . Обчислювач 3 елементарної міри схожості визначає значення g( x1, e2 ) та зберігає його у регістрах 4 та 4а. З блоків пам'яті 6, 6а та 7 зчитуються значення інтегральної міри схожості G(11), G(1,2) і G(1,3 ) та записуються у регістри 12, , 12а та 13 обчислювача 5, відповідно. Затим зміст регістра 11 переписується в блок пам'яті 7 як G(1,1) . Найменше із значень з виходів регістрів 12, 12а та 13, що визначається компаратором 15, через мультиплексор 16 подається на перший вхід суматора 17, на другий вхід якого надходить g( x1, e2 ) з виходу обчислювача 3. Значення G(1,1) з виходу регістра 12 надходить також на перший вхід суматора 18, на другий вхід якого передається зміст регістра 4. Рівно ж значення G(1,2) з виходу регістра 12а надходить також на перший вхід суматора 18а, на другий вхід якого передається зміст регістра 4а. Обчислені значення G( 2,1) з виходу суматора 17, G(1,2) з виходу суматора 18 та G(1,3 ) з виходу суматора 18а записуються відповідно в регістр 11 та блоки пам'яті 6 і 6а. Процес повторюється для s 2,3,..., ( q 1). При s q виробляється ознака s ( q 1) , яка блокує встановлювальні входи старших розрядів регістра 12. Далі обчислення повторюються для i 1 та всіх s 0,1,2,3,..., (q 1) . Знову починаємо з того, що в регістр 11 записується число M . Далі процеси повторюються для всіх i 2,3,4,..., (l 1) та всіх s 0,1 2,3,..., (q 1) . , 7 50036 При досягненні i 1 та s q виробляється ознака (l 1) , яка зупиняє генератор 20. Комп’ютерна верстка А. Крижанівський 8 Результат порівняння знаходиться в регістрі 11 та блоці пам'яті 6 як G(q,1). Підписне Тираж 26 прим. Міністерство освіти і науки України Державний департамент інтелектуальної власності, вул. Урицького, 45, м. Київ, МСП, 03680, Україна ДП “Український інститут промислової власності”, вул. Глазунова, 1, м. Київ – 42, 01601
ДивитисяДодаткова інформація
Назва патенту англійськоюDescription method for speech signal identification
Автори англійськоюVintsiuk Taras Klymovych, Hrytsenko Volodymyr Illich
Назва патенту російськоюСпособ описания и распознавания речевых сигналов
Автори російськоюВинцюк Тарас Климович, Гриценко Владимир Ильич
МПК / Мітки
МПК: G10L 15/00
Мітки: спосіб, розпізнавання, описування, сигналів, мовленнєвих
Код посилання
<a href="https://ua.patents.su/4-50036-sposib-opisuvannya-ta-rozpiznavannya-movlennehvikh-signaliv.html" target="_blank" rel="follow" title="База патентів України">Спосіб описування та розпізнавання мовленнєвих сигналів</a>
Попередній патент: Протитуберкульозний засіб
Наступний патент: Пристрій для описування та розпізнавання мовленнєвих сигналів
Випадковий патент: Лічильник перешкодостійкий