Спосіб розпізнавання суцільно вимовлених фраз

Формула / Реферат | Подібні патенти | МПК / Мітки | Додаткова інформація | Код посилання

Номер патенту: 65767

Опубліковано: 15.04.2004

Автор: Саввіна Галина Володимирівна

Завантажити PDF файл.

Формула / Реферат

1. Спосіб розпізнавання суцільно вимовлених фраз, що включає виділення поточних параметрів, рекурентне зіставлення ділянки мовлення з усіма словами словника й обчислення інтегральних ступенів близькості, прийняття рішення щодо вимовленої послідовності слів, який відрізняється тим, що після виділення поточних параметрів суцільно вимовлену фразу, що розпізнається, розбивають на ділянки, які є однорідними за значенням поточних параметрів, кодують кожну з однорідних ділянок, слова словника представляють послідовністю фонем, рекурентне зіставлення ділянки мовлення суцільно вимовленої фрази з усіма словами словника й обчислення інтегральних ступенів близькості та меж слова виконують пофонемно для кожного слова й паралельно за всіма словами словника, формують списки послідовностей слів, для кожної сформованої послідовності слів підсумовують інтегральні ступені близькості слів, що її складають, прийняття рішення щодо вимовленої послідовності слів суцільно вимовленої фрази виконують за мінімальним значенням суми ступенів близькості.

2. Спосіб за п. 1, який відрізняється тим, що пофонемне для кожного слова й паралельне по всіх словах словника зіставлення ділянки мовлення суцільно вимовленої фрази з усіма словами словника, обчислення інтегральних ступенів близькості та меж слова виконують шляхом рекурентного зіставлення поточних параметрів однорідних ділянок з еталонами поточної та наступної фонеми від першої до передостанньої фонеми всіх слів, що розглядаються, знаходять момент закінчення поточної фонеми та обчислюють ступінь близькості від поточної фонеми до ділянки мовлення, що їй відповідає, моментом початку наступної фонеми вважають момент, що є наступним за моментом закінчення поточної фонеми, для останньої фонеми слова наступними вважають перші фонеми всіх слів словника, підсумовують ступені близькості між фонемами слова та відповідними ділянками мовлення, запам'ятовують ступені близькості та межі слова, при цьому лівою межею слова вважають порядковий номер першого поточного параметра, який віднесено до першої фонеми слова, правою межею слова вважають порядковий номер поточного параметра, що відповідає моменту закінчення останньої фонеми слова.

Текст

Винахід стосується техніки обробки мовленнєвої інформації при розпізнаванні великих словників і може бути використаний у системах диктування тексту, голосового керування промисловими об'єктами. Відомий спосіб розпізнавання ізольованих слів [Патент ЄПВ №0420825, МПК G10L5/06, 1991p.]. Цей спосіб використовується при розпізнаванні слів дуже великих словників. Він заснований на визначенні та зберіганні для кожного слова в словнику фонетичної моделі, що складена з послідовності фонетичних символів, які відповідають фонемам слова, визначенні й зберіганні характеристичних параметрів, що показують енергію та спектральний склад фонеми, порівнянні значень характеристичних параметрів для всіх моделей словника і виборі за допомогою алгоритму динамічного програмування невеликої кількості моделей кандидатів. Недоліком цього способу є значні затрати часу та обладнання при обробці моделей слів. Найбільш близьким до способу, що заявляється, є спосіб розпізнавання суцільно вимовлених слів [а.с. СРСР 1159059, МПК G10L1/00, 1985p.]. Цей спосіб включає виділення поточних параметрів, формування масивів номерів і моментів початку слів, що потенційно закінчуються, рекурентне накопичення інтегрального ступеня подібності та прийняття рішення про послідовність вимовлених слів при формуванні масивів рекурентне накопичують інтегральні ступені подібності між послідовністю відліків поточних параметрів від першого відліку до поточного відліку та еталонними сигналами суцільного мовлення й закінчуються усіма можливими еталонними елементами всіх слів словника, при цьому зчитують інтегральні ступені подібності, що накопичені для декількох попередніх відліків поточних параметрів, а до масивів записують код номера слова, що потенційно закінчується в даний поточний момент, та код моменту його початку, що відповідає максимальній з отриманих інтегральних ступенів подібності. Даний спосіб оперує еталонними елементами, які відповідають словам. Це є причиною його недостатньої швидкодії при роботі з великими словниками. Основу винаходу складає задача створення способу розпізнавання фраз, що вимовляються суцільно й складаються із слів великого словника, який має високу швидкодію таі дозволяє здійснювати розпізнавання в режимі реального часу. Указаний технічний результат досягається тим, що згідно зі способом розпізнавання, який містить виділення поточних параметрів, рекурентне зіставлення участку мовлення з усіма словами словника й обчислення інтегральних ступенів близькості, прийняття рішення щодо вимовленої послідовності слів, додатково після виділення поточних параметрів суцільно вимовлену фразу, що розпізнається, розбивають на ділянки, які є однорідними за значенням поточних параметрів, кодують кожен з однорідних ділянок, слова словника представляють як послідовність фонем, рекурентне зіставлення ділянки і мовлення суцільно вимовленої фрази з усіма словами словника й обчислення інтегральних ступенів близькості та меж слова виконують пофонемно для кожного слова й паралельно за всіма словами словника, формують списки послідовностей слів, для кожної сформованої послідовності слів підсумовують інтегральні ступені близькості слів, що її складають, прийняття рішення щодо вимовленої послідовності слів суцільно вимовленої фрази виконують за мінімальним значенням суми ступенів близькості. При цьому пофонемне для кожного слова й паралельне за всіма словами словника зіставлення участка мовлення суцільно вимовленої фрази з усіма словами словника, обчислення інтегральних ступенів близькості та меж слова виконують шляхом рекурентного зіставлення поточних параметрів однорідних участків з еталонами поточної та наступної фонеми від першої до передостанньої фонеми всіх слів, що розглядаються, знаходять момент закінчення поточної фонеми та обчислюють ступінь близькості від поточної фонеми до участку мовлення, що їй відповідає, моментом початку наступної фонеми вважають момент, що є наступним за моментом закінчення поточної фонеми, для останньої фонеми слова наступними вважають перші фонеми всіх слів словника, підсумовують ступені близькості між фонемами слова та відповідними участками мовлення, запам'ятовують ступень близькості та межі слова, при цьому лівою межею слова вважають порядковий номер першого поточного параметра, який віднесено до першої фонеми слова, правою межею слова вважають порядковий номер поточного параметра, що відповідає моменту закінчення останньої фонеми слова. Отже, сукупність наведених відмітних ознак підвищує швидкодію розпізнавання фраз, що вимовляються суцільно й складаються зі слів великого словника, і дозволяє здійснювати розпізнавання у режимі реального часу. Особливості способу, що заявляється, полягають у наступному. Для виділення поточних параметрів мовний сигнал, що є оцифрованим як 8-бітний із частотою дискретезації 22050Гц, підлягає перетворенню Хартлі з вікном 20мс та кроком 10мс. Поточні параметри мовленнєвого сигналу отримують логарифмуванням відношень енергій спектральних полос до загальної спектральної енергії вікна та є послідовністю векторів поточних параметрів R (або реалізацією R). R=r1, r2, ..., ri, ... rN (1) де R - послідовність векторів поточних параметрів, ri -i-й поточний параметр. Для кожного вікна обчислюється значення енергії мовленого сигналу. Для розбиття на ділянки суцільно вимовленої фрази на ділянки, що є однорідними за значенням поточних параметрів, знаходять середнє значення відстані між сусідніми векторами поточних параметрів. Величину, що дорівнює середньому значенню, вважають пороговою. Послідовності поточних параметрів, таких, де відстань між сусідніми поточними параметрами не перевищує порогового значення, виділяють як однорідні за значенням поточних параметрів. Множина таких послідовностей поточних параметрів є множиною S однорідних за значенням поточних параметрів ділянок. Для сегментів S обчислюють середні значення поточних параметрів X. S=s 1, s 2, …, s i, …, s y, (2) X=x1 , x2, …, xi, …, xy де S - множина однорідних ділянок, s i - і-й однорідна ділянка, Х - множина середніх значень поточних параметрів однорідних ділянок хі - середнє значення поточних параметрів і-ої однорідної ділянки, у - кількість однорідних ділянок. Кожну з однорідних ділянок кодують залежно до відносного значення середньої енергії однорідної ділянки в межах мовленого сигналу, розкиду енергії в межах однорідної ділянки, характеру зміни енергії всередині однорідної ділянки й значення цих же величин сусідніх однорідних ділянок. Перелік кодів та їх значення: (1 зростання, 2 - зростання з малим розкидом, 3 - зростання з максимальним значенням, 4 - зменшення, 5 зменшення з малим розкидом, 6 - зменшення з мінімальним значенням, 7 - сталість, 8 - сталість із максимальним значенням, 9 - сталість з мінімальним значенням). Слова словника представляють послідовністю фонем. Словник заданий користувачем у вигляді тексту. Він зберігає графічне представлення (написання) слів. За написанням слів будують їх фонетичну транскрипцію. Перелік транскрипційних символів, які позначають фонеми, називають алфавітом фонем Р. Кожній фонемі відповідає не порожня множина поточних параметрів, що зберігаються в кодовій книзі В та є еталонами цієї фонеми. Р=(С1,С2, ...,Сi, ..., Ск ) В={b1,b2,..., bi, ...,bк }, (3) bi Ì V, c i ~ b i . де Р - алфавіт фонем; с, - і-а фонема алфавіту фонем (або транскрипційний символ); В - кодова книга; bi множина поточних параметрів, що відповідають і-ой фонемі; V- множина поточних параметрів; знаком "~" позначають відповідність символу алфавіту фонем множині елементів кодової книги; K - розмір алфавіту фонем. Будь-яке слово задається своєю транскрипцією (послідовністю транскрипційних символів, що обозначають фонеми) Т. Т=(c1, c 2, ..., c k, ..., cL), (4) c k Î P, де k - номер фонеми в слові; сk - k-a фонема слова; L – довжина слова. При пофонемному для кожного слова Т і паралельному по всіх слова х сло вника зіставленні ділянки мовлення суцільно вимовленої фрази R з усіма словами словника, обчислюють інтегральні ступені близькості D (Т, R) та межі слова wb,we. Однією зі складових цієї процедури є виділення участків, що відповідають окремим фонемам (сегментація на ділянки, що відповідають фонемам). Сегментація невідомого мовного повідомлення на ділянки, що відповідають фонемам, являє собою досить складну задачу, яка на сьогоднішній день не вирішена та активно розробляється вченими всього світу. У даному випадку пропонується перейти від задачі сегментації "у загальному вигляді" до її окремих рішень. Тобто, пропонується сегментувати мовлене повідомлення, виходячи з припущення про його фонетичний склад. Ступень близькості між словом Т і ділянкою реалізації R дорівнює сумі ступенів близькості між фонемами слова й ділянками реалізації, що їм відповідають. L D(T, R ) = å D(ci ,R [mbi, mei ]) (5) i=1 де L - довжина слова Т; сi - і-а фонема слова; mbi , mei - порядкові номери векторів реалізації, що відповідають початку та закінченню i-ої фонеми; R[ mbi , mei ] - участок реалізації, що відповідає межам i-ої фонеми. Таким чином, задачі визначення меж слова та знаходження ступеня близькості між словом й ділянкою реалізації, що відповідає його межам, переростає в задачі визначення меж фонем та знаходження ступеня близькості між фонемами слова й ділянками реалізації, що їм відповідають. Для знаходження меж фонеми виконують зіставлення середніх значень поточних параметрів Хі однорідних участків 5 з еталонами поточної (сk) та наступної (c k+1) фонеми. Ступенем близькості D (с, xі) між фонемою с та середнім значенням поточних параметрів .х; вважають мінімум Евклідової відстані між значенням xі та всіма еталонами фонеми. D(c, xi ) = minD(b j, xi ) (6) j c, b j Î V, x i Î V. де bj - j-ий еталон фонеми Кожній фонемі має відповідати не менше одної однорідної ділянки з множини 5'. Однорідна ділянка або послідовність однорідних ділянок, що відповідає голосній фонемі, повинні включати ділянку зростання енергії, максимум енергії та ділянку зменшення енергії. Однорідна ділянка або послідовність однорідних ділянок, що відповідає сонорній приголосній та є сусіднім до голосної, має у порівнянні з голосною меншу середню енергію й менший розкид енергії. Доки значення D (сk xі) ступеня близькості середнього значення поточних параметрів хi однорідних ділянок, що розглядаються послідовно, і поточної фонеми ck не перевищує D(c k+1, xi) ступенів близькості середнього значення поточних параметрів xi однорідних ділянок, що розглядаються послідовно, і наступної фонеми ck+1, сегменти відносять до поточної фонеми. При досягненні однорідної ділянки, для якої виконується умова D(ck+1, xi)

Дивитися

Додаткова інформація

Назва патенту англійською

Method of identifying uninterruptedly pronounced sentences

Назва патенту російською

Способ распознавания непрерывно произнесенных фраз

МПК / Мітки

МПК: G10L 17/00

Мітки: суцільної, фраз, спосіб, вимовлених, розпізнавання

Код посилання

<a href="https://ua.patents.su/3-65767-sposib-rozpiznavannya-sucilno-vimovlenikh-fraz.html" target="_blank" rel="follow" title="База патентів України">Спосіб розпізнавання суцільно вимовлених фраз</a>

Подібні патенти

Спосіб розпізнавання злито вимовлених слів та пристрій для його здійснення

Номер патенту: 48102

Опубліковано: 15.08.2002

Автори: Лисенко Олександр Борисович, Вінцюк Тарас Климович

МПК: G10L 11/00

Мітки: вимовлених, розпізнавання, спосіб, слів, злито, здійснення, пристрій

Формула / Реферат:

1. Способ распознавания слитно произнесенных слов, включающий выделение текущих параметров, формирование массивов номеров и моментов начала потенциально оканчивающихся слов и принятие решения о произнесенной последовательности слов, отличающийся тем, что, с целью повышения быстродействия, при формировании массивов рекуррентно накапливают интегральные меры сходства между последовательностью отсчетов текущих параметров от первого отсчета до...

Спосіб змістової інтерпретації злито вимовлених слів

Номер патенту: 48098

Опубліковано: 15.08.2002

Автори: Біатов Костянтин Михайлович, Вінцюк Тарас Климович

МПК: G10L 13/00

Мітки: слів, інтерпретації, змістової, вимовлених, злито, спосіб

Формула / Реферат:

Способ смысловой интерпретации слитно произносимых слов, включающий выделение текущих параметров речевого сигнала, сравнение речевого сигнала с эталонными сигналами слитной речи и формирование для каждого текущего отсчета параметров речевого сигнала массива из заданного количества последовательностей номеров слов, расположенных по убыванию величины сходства эталонного сигнала с отрезком речевого сигнала от первого отсчета до текущего,...

Спосіб розпізнавання мовленнєвих одиниць

Номер патенту: 61248

Опубліковано: 17.11.2003

Автори: Шевченко Анатолій Іванович, Шелєпов Владислав Юрійович, Старушко Дмитро Георгійович

МПК: G10L 15/00, G10L 13/00

Мітки: спосіб, розпізнавання, одиниць, мовленнєвих

Формула / Реферат:

1. Спосіб розпізнавання мовленнєвих одиниць, що полягає в перетворенні мовленнєвого сигналу на електричний сигнал, дискретизації й оцифровці, виділенні фрагмента цифрового сигналу, визначенні енергії цифрового сигналу виділеного фрагмента, формуванні еталонів, обчисленні відстані й ухваленні рішення про розпізнавання, який відрізняється тим, що виконують високочастотну фільтрацію цифрового сигналу виділеного фрагмента, визначають енергію...

Спосіб побудови словника для перекладу з іноземної мови

Номер патенту: 60217

Опубліковано: 15.09.2003

Автор: Карпусь Ігор Васильович

МПК: G09B 19/06

Мітки: іноземної, перекладу, побудови, словника, мови, спосіб

Формула / Реферат:

Спосіб побудови словника для перекладу з іноземної мови, який полягає в тому, що слова іноземної мови, які відібрані зі словникового запасу, розташовують на носії інформації послідовно, починаючи з початку слова, який відрізняється тим, що перед кожним написом слова розташовують його семантичний код та після кожного напису групують семантичні коди слів, близьких за змістом, при цьому при слові, яке є перекладом, також розташовують його...

Спосіб побудови словника для перекладу з іноземної мови

Номер патенту: 23847

Опубліковано: 30.08.1999

Автори: Бродський Анатолій Леонідович, Бродська Олена Анатоліївна

МПК: G09B 19/06

Мітки: іноземної, перекладу, словника, спосіб, побудови, мови

Формула / Реферат:

1. Спосіб побудови словника для перекладу з іноземної мови, який полягає у тому, що слова іноземної мови, які відібрані з словникового запасу, розташовують на носії інформації послідовно, починаючи з початку слова, який відрізняється тим, що слова іноземної мови записують у їх фонетичній транскрипції та розташовують згідно з транскрипційним рядом.2. Спосіб побудови словника для перекладу з іноземної мови за п. 1, який відрізняється...

Попередній патент: Спосіб опалення транспортного засобу та система для опалення транспортного засобу

Наступний патент: Спосіб оцінки розузгодження силових параметрів рухів пальців руки людини та пристрій для його здійснення

Випадковий патент: Спосіб з'єднання біологічних тканин

В верх сторінки

Спосіб розпізнавання суцільно вимовлених фраз

Формула / Реферат

Текст

Додаткова інформація

МПК / Мітки

Код посилання

Про сайт

Архіви

Контакти