Спосіб розпізнавання суцільно вимовлених фраз

Номер патенту: 65767

Опубліковано: 15.04.2004

Автор: Саввіна Галина Володимирівна

Завантажити PDF файл.

Формула / Реферат

1. Спосіб розпізнавання суцільно вимовлених фраз, що включає виділення поточних параметрів, рекурентне зіставлення ділянки мовлення з усіма словами словника й обчислення інтегральних ступенів близькості, прийняття рішення щодо вимовленої послідовності слів, який відрізняється тим, що після виділення поточних параметрів суцільно вимовлену фразу, що розпізнається, розбивають на ділянки, які є однорідними за значенням поточних параметрів, кодують кожну з однорідних ділянок, слова словника представляють послідовністю фонем, рекурентне зіставлення ділянки мовлення суцільно вимовленої фрази з усіма словами словника й обчислення інтегральних ступенів близькості та меж слова виконують пофонемно для кожного слова й паралельно за всіма словами словника, формують списки послідовностей слів, для кожної сформованої послідовності слів підсумовують інтегральні ступені близькості слів, що її складають, прийняття рішення щодо вимовленої послідовності слів суцільно вимовленої фрази виконують за мінімальним значенням суми ступенів близькості.

2. Спосіб за п. 1, який відрізняється тим, що пофонемне для кожного слова й паралельне по всіх словах словника зіставлення ділянки мовлення суцільно вимовленої фрази з усіма словами словника, обчислення інтегральних ступенів близькості та меж слова виконують шляхом рекурентного зіставлення поточних параметрів однорідних ділянок з еталонами поточної та наступної фонеми від першої до передостанньої фонеми всіх слів, що розглядаються, знаходять момент закінчення поточної фонеми та обчислюють ступінь близькості від поточної фонеми до ділянки мовлення, що їй відповідає, моментом початку наступної фонеми вважають момент, що є наступним за моментом закінчення поточної фонеми, для останньої фонеми слова наступними вважають перші фонеми всіх слів словника, підсумовують ступені близькості між фонемами слова та відповідними ділянками мовлення, запам'ятовують ступені близькості та межі слова, при цьому лівою межею слова вважають порядковий номер першого поточного параметра, який віднесено до першої фонеми слова, правою межею слова вважають порядковий номер поточного параметра, що відповідає моменту закінчення останньої фонеми слова.

Текст

Винахід стосується техніки обробки мовленнєвої інформації при розпізнаванні великих словників і може бути використаний у системах диктування тексту, голосового керування промисловими об'єктами. Відомий спосіб розпізнавання ізольованих слів [Патент ЄПВ №0420825, МПК G10L5/06, 1991p.]. Цей спосіб використовується при розпізнаванні слів дуже великих словників. Він заснований на визначенні та зберіганні для кожного слова в словнику фонетичної моделі, що складена з послідовності фонетичних символів, які відповідають фонемам слова, визначенні й зберіганні характеристичних параметрів, що показують енергію та спектральний склад фонеми, порівнянні значень характеристичних параметрів для всіх моделей словника і виборі за допомогою алгоритму динамічного програмування невеликої кількості моделей кандидатів. Недоліком цього способу є значні затрати часу та обладнання при обробці моделей слів. Найбільш близьким до способу, що заявляється, є спосіб розпізнавання суцільно вимовлених слів [а.с. СРСР 1159059, МПК G10L1/00, 1985p.]. Цей спосіб включає виділення поточних параметрів, формування масивів номерів і моментів початку слів, що потенційно закінчуються, рекурентне накопичення інтегрального ступеня подібності та прийняття рішення про послідовність вимовлених слів при формуванні масивів рекурентне накопичують інтегральні ступені подібності між послідовністю відліків поточних параметрів від першого відліку до поточного відліку та еталонними сигналами суцільного мовлення й закінчуються усіма можливими еталонними елементами всіх слів словника, при цьому зчитують інтегральні ступені подібності, що накопичені для декількох попередніх відліків поточних параметрів, а до масивів записують код номера слова, що потенційно закінчується в даний поточний момент, та код моменту його початку, що відповідає максимальній з отриманих інтегральних ступенів подібності. Даний спосіб оперує еталонними елементами, які відповідають словам. Це є причиною його недостатньої швидкодії при роботі з великими словниками. Основу винаходу складає задача створення способу розпізнавання фраз, що вимовляються суцільно й складаються із слів великого словника, який має високу швидкодію таі дозволяє здійснювати розпізнавання в режимі реального часу. Указаний технічний результат досягається тим, що згідно зі способом розпізнавання, який містить виділення поточних параметрів, рекурентне зіставлення участку мовлення з усіма словами словника й обчислення інтегральних ступенів близькості, прийняття рішення щодо вимовленої послідовності слів, додатково після виділення поточних параметрів суцільно вимовлену фразу, що розпізнається, розбивають на ділянки, які є однорідними за значенням поточних параметрів, кодують кожен з однорідних ділянок, слова словника представляють як послідовність фонем, рекурентне зіставлення ділянки і мовлення суцільно вимовленої фрази з усіма словами словника й обчислення інтегральних ступенів близькості та меж слова виконують пофонемно для кожного слова й паралельно за всіма словами словника, формують списки послідовностей слів, для кожної сформованої послідовності слів підсумовують інтегральні ступені близькості слів, що її складають, прийняття рішення щодо вимовленої послідовності слів суцільно вимовленої фрази виконують за мінімальним значенням суми ступенів близькості. При цьому пофонемне для кожного слова й паралельне за всіма словами словника зіставлення участка мовлення суцільно вимовленої фрази з усіма словами словника, обчислення інтегральних ступенів близькості та меж слова виконують шляхом рекурентного зіставлення поточних параметрів однорідних участків з еталонами поточної та наступної фонеми від першої до передостанньої фонеми всіх слів, що розглядаються, знаходять момент закінчення поточної фонеми та обчислюють ступінь близькості від поточної фонеми до участку мовлення, що їй відповідає, моментом початку наступної фонеми вважають момент, що є наступним за моментом закінчення поточної фонеми, для останньої фонеми слова наступними вважають перші фонеми всіх слів словника, підсумовують ступені близькості між фонемами слова та відповідними участками мовлення, запам'ятовують ступень близькості та межі слова, при цьому лівою межею слова вважають порядковий номер першого поточного параметра, який віднесено до першої фонеми слова, правою межею слова вважають порядковий номер поточного параметра, що відповідає моменту закінчення останньої фонеми слова. Отже, сукупність наведених відмітних ознак підвищує швидкодію розпізнавання фраз, що вимовляються суцільно й складаються зі слів великого словника, і дозволяє здійснювати розпізнавання у режимі реального часу. Особливості способу, що заявляється, полягають у наступному. Для виділення поточних параметрів мовний сигнал, що є оцифрованим як 8-бітний із частотою дискретезації 22050Гц, підлягає перетворенню Хартлі з вікном 20мс та кроком 10мс. Поточні параметри мовленнєвого сигналу отримують логарифмуванням відношень енергій спектральних полос до загальної спектральної енергії вікна та є послідовністю векторів поточних параметрів R (або реалізацією R). R=r1, r2, ..., ri, ... rN (1) де R - послідовність векторів поточних параметрів, ri -i-й поточний параметр. Для кожного вікна обчислюється значення енергії мовленого сигналу. Для розбиття на ділянки суцільно вимовленої фрази на ділянки, що є однорідними за значенням поточних параметрів, знаходять середнє значення відстані між сусідніми векторами поточних параметрів. Величину, що дорівнює середньому значенню, вважають пороговою. Послідовності поточних параметрів, таких, де відстань між сусідніми поточними параметрами не перевищує порогового значення, виділяють як однорідні за значенням поточних параметрів. Множина таких послідовностей поточних параметрів є множиною S однорідних за значенням поточних параметрів ділянок. Для сегментів S обчислюють середні значення поточних параметрів X. S=s 1, s 2, …, s i, …, s y, (2) X=x1 , x2, …, xi, …, xy де S - множина однорідних ділянок, s i - і-й однорідна ділянка, Х - множина середніх значень поточних параметрів однорідних ділянок хі - середнє значення поточних параметрів і-ої однорідної ділянки, у - кількість однорідних ділянок. Кожну з однорідних ділянок кодують залежно до відносного значення середньої енергії однорідної ділянки в межах мовленого сигналу, розкиду енергії в межах однорідної ділянки, характеру зміни енергії всередині однорідної ділянки й значення цих же величин сусідніх однорідних ділянок. Перелік кодів та їх значення: (1 зростання, 2 - зростання з малим розкидом, 3 - зростання з максимальним значенням, 4 - зменшення, 5 зменшення з малим розкидом, 6 - зменшення з мінімальним значенням, 7 - сталість, 8 - сталість із максимальним значенням, 9 - сталість з мінімальним значенням). Слова словника представляють послідовністю фонем. Словник заданий користувачем у вигляді тексту. Він зберігає графічне представлення (написання) слів. За написанням слів будують їх фонетичну транскрипцію. Перелік транскрипційних символів, які позначають фонеми, називають алфавітом фонем Р. Кожній фонемі відповідає не порожня множина поточних параметрів, що зберігаються в кодовій книзі В та є еталонами цієї фонеми. Р=(С1,С2, ...,Сi, ..., Ск ) В={b1,b2,..., bi, ...,bк }, (3) bi Ì V, c i ~ b i . де Р - алфавіт фонем; с, - і-а фонема алфавіту фонем (або транскрипційний символ); В - кодова книга; bi множина поточних параметрів, що відповідають і-ой фонемі; V- множина поточних параметрів; знаком "~" позначають відповідність символу алфавіту фонем множині елементів кодової книги; K - розмір алфавіту фонем. Будь-яке слово задається своєю транскрипцією (послідовністю транскрипційних символів, що обозначають фонеми) Т. Т=(c1, c 2, ..., c k, ..., cL), (4) c k Î P, де k - номер фонеми в слові; сk - k-a фонема слова; L – довжина слова. При пофонемному для кожного слова Т і паралельному по всіх слова х сло вника зіставленні ділянки мовлення суцільно вимовленої фрази R з усіма словами словника, обчислюють інтегральні ступені близькості D (Т, R) та межі слова wb,we. Однією зі складових цієї процедури є виділення участків, що відповідають окремим фонемам (сегментація на ділянки, що відповідають фонемам). Сегментація невідомого мовного повідомлення на ділянки, що відповідають фонемам, являє собою досить складну задачу, яка на сьогоднішній день не вирішена та активно розробляється вченими всього світу. У даному випадку пропонується перейти від задачі сегментації "у загальному вигляді" до її окремих рішень. Тобто, пропонується сегментувати мовлене повідомлення, виходячи з припущення про його фонетичний склад. Ступень близькості між словом Т і ділянкою реалізації R дорівнює сумі ступенів близькості між фонемами слова й ділянками реалізації, що їм відповідають. L D(T, R ) = å D(ci ,R [mbi, mei ]) (5) i=1 де L - довжина слова Т; сi - і-а фонема слова; mbi , mei - порядкові номери векторів реалізації, що відповідають початку та закінченню i-ої фонеми; R[ mbi , mei ] - участок реалізації, що відповідає межам i-ої фонеми. Таким чином, задачі визначення меж слова та знаходження ступеня близькості між словом й ділянкою реалізації, що відповідає його межам, переростає в задачі визначення меж фонем та знаходження ступеня близькості між фонемами слова й ділянками реалізації, що їм відповідають. Для знаходження меж фонеми виконують зіставлення середніх значень поточних параметрів Хі однорідних участків 5 з еталонами поточної (сk) та наступної (c k+1) фонеми. Ступенем близькості D (с, xі) між фонемою с та середнім значенням поточних параметрів .х; вважають мінімум Евклідової відстані між значенням xі та всіма еталонами фонеми. D(c, xi ) = minD(b j, xi ) (6) j c, b j Î V, x i Î V. де bj - j-ий еталон фонеми Кожній фонемі має відповідати не менше одної однорідної ділянки з множини 5'. Однорідна ділянка або послідовність однорідних ділянок, що відповідає голосній фонемі, повинні включати ділянку зростання енергії, максимум енергії та ділянку зменшення енергії. Однорідна ділянка або послідовність однорідних ділянок, що відповідає сонорній приголосній та є сусіднім до голосної, має у порівнянні з голосною меншу середню енергію й менший розкид енергії. Доки значення D (сk xі) ступеня близькості середнього значення поточних параметрів хi однорідних ділянок, що розглядаються послідовно, і поточної фонеми ck не перевищує D(c k+1, xi) ступенів близькості середнього значення поточних параметрів xi однорідних ділянок, що розглядаються послідовно, і наступної фонеми ck+1, сегменти відносять до поточної фонеми. При досягненні однорідної ділянки, для якої виконується умова D(ck+1, xi)

Дивитися

Додаткова інформація

Назва патенту англійською

Method of identifying uninterruptedly pronounced sentences

Назва патенту російською

Способ распознавания непрерывно произнесенных фраз

МПК / Мітки

МПК: G10L 17/00

Мітки: суцільної, фраз, спосіб, вимовлених, розпізнавання

Код посилання

<a href="https://ua.patents.su/3-65767-sposib-rozpiznavannya-sucilno-vimovlenikh-fraz.html" target="_blank" rel="follow" title="База патентів України">Спосіб розпізнавання суцільно вимовлених фраз</a>

Подібні патенти