Спосіб та пристрій пофонемного розпізнавання злитого мовлення
Номер патенту: 67697
Опубліковано: 15.06.2004
Автори: Федорин Ярослав Володимирович, Родіонов Олександр Олександрович, Вінцюк Тарас Климович, Гриценко Володимир Ільїч
Формула / Реферат
1. Спосіб пофонемного розпізнавання злитого мовлення, що грунтується на поданні мовленнєвого сигналу послідовностями елементів-векторів із значень поточних параметрів аналізу мовленнєвого сигналу, який включає знаходження значень елементарних мір схожості кожного спостережуваного елемента на всі еталонні елементи еталонних мовленнєвих образів, що визначаються фонетичними транcкрипціями допустимих в мові діалогу послідовностей слів, визначення схожості мовленнєвих образів шляхом рекурентного накопичення методом динамічного програмування інтегральних мір схожості послідовності спостережуваних елементів на послідовності еталонних образів, що розпізнаються, формування для кожного поточного спостережуваного елемента послідовності слів, що передаються відрізком мовленнєвого сигналу від першого спостережуваного елемента до поточного, який відрізняється тим, що для кожної особи укладають індивідуальний усномовний паспорт шляхом разового зачитування вголос цією особою стандартизованого тексту - навчальної вибірки; індивідуальний усномовний паспорт людини складають: задана кількість еталонних елементів, які найкращим чином апроксимують всі спостережувані елементи навчальної вибірки та визначають розбиття мультимножини спостережуваних елементів навчальної вибірки на задану кількість кластерів, й параметри моделей всіх фонем у різному фонемному контексті - попередньої та наступної фонем; цими моделями фонем є ланцюги породжувальних граматик з п'яти прихованих станів, що моделюють три стадії розвитку процесу породження реалізації фонеми, а параметрами моделей є: ймовірність переходу з нульового стану в перший стан, що дорівнює одиниці, ймовірність переходу з першого стану в перший же стан та ймовірність переходу з першого стану в другий стан, що доповнює до одиниці попередню ймовірність, ймовірність переходу з другого стану в другий же стан та ймовірність переходу з другого стану в третій стан, що доповнює до одиниці попередню ймовірність, ймовірність переходу з третього стану в третій же стан та ймовірність переходу з третього стану в четвертий стан, що доповнює до одиниці попередню ймовірність, та ймовірності попадань спостережуваних елементів в кожен із всіх кластерів за умови перебування в першому, другому та третьому станах кожної фонеми; при розпізнаванні для кожного поточного спостережуваного елемента визначають номер кластера, в який цей елемент попадає, а як елементарну міру належності спостережуваного елемента-вектора до першої, другої чи третьої фази фонеми використовують суму логарифмів ймовірності спостережуваного кластера за умови першого, другого чи третього станів фонеми та ймовірності наступного переходу з першого в перший або другий, з другого в другий або третій, з третього в третій або четвертий стани фонеми відповідно до фази фонеми; еталонні мовленнєві образи усних команд та усталених словосполучень формують шляхом об'єднання у послідовності ланцюгів породжувальних граматик фонем з п'яти прихованих станів відповідно до фонетичних транскрипцій слів, словосполучень та злитих фраз, причому так, щоб вихідний, четвертий, стан попередньої фонеми збігався з нульовим та першим станами наступної; інтегральні міри схожості послідовності спостережуваних елементів від першого до поточного на початкові еталонні образи всіх різних, допустимих в мові усного діалогу, початкових фраз, що закінчуються допустимим поточним словом та визначаються для кожного із двох виходів із першого, другого чи третього станів поточної фонеми цього допустимого поточного слова, знаходять як суми значень відповідної елементарної міри схожості, обчисленої для поточного спостережуваного елемента для кожного із двох виходів із першого, другого чи третього станів поточної фонеми, з більшою із двох інтегральних мір схожості, накопичених для попереднього спостережуваного вектора-елемента на другому виході з третього стану попередньої фонеми цього слова та на першому виході з першого стану поточної фонеми цього ж слова, на другому виході з першого стану поточної фонеми цього ж слова та на першому виході з другого стану поточної фонеми цього ж слова й на другому виході з другого стану поточної фонеми цього ж слова та на першому виході з третього стану поточної фонеми цього ж слова, відповідно; при цьому, для кожного із двох виходів із кожного із трьох станів запам'ятовують всі різні допустимі початкові послідовності слів, що передують цьому поточному слову, та відповідні їм найкращі накопичені інтегральні міри схожості, а для другого виходу із третього стану останньої фонеми в допустимому слові до всіх різних допустимих початкових послідовностей слів дописують поточне допустиме слово та для кожної за таким способом отриманих початкових фраз визначають підсловники, слова з яких можуть ці фрази продовжувати; значення інтегральної міри схожості, що є найбільшим з посеред усіх її значень, накопичених після оброблення останнього спостережуваного елемента на другому виході із третього стану останньої фонеми слова, визначає схожість пред'явленого мовленнєвого сигналу на відповідну, найкращу, допустиму усну фразу, що закінчується цим словом; пред'явленому мовленнєвому сигналу ставлять у відповідність ту усну допустиму фразу, яка закінчується словом з абсолютно найбільшою накопиченою інтегральною мірою схожості.
2. Пристрій для пофонемного розпізнавання елітного мовлення для здійснення способу, що містить аналізатор, блок пам'яті табличних значень елементарних мір схожостей та блок пам'яті мовленнєвого сигналу, що розпізнається, обчислювач інтегральних мір схожостей та контролер, який відрізняється тим, що в нього введені блок пам'яті навчальної вибірки, процесор кластерного аналізу, блок пам'яті параметрів фонем, блок пам'яті орфографічного тексту та фонемної транскрипції, векторний квантувач, при цьому вихід аналізатора підключений через блок пам'яті мовленнєвих сигналів до входу векторного квантувача, а через блок пам'яті навчальної вибірки – до входу процесора кластерного аналізу, виходи якого відповідно підключені до входу векторного квантувача та входу блока пам'яті параметрів фонем, на відповідні входи якого підключені виходи блока пам'яті орфографічного тексту та фонемної транскрипції та вихід векторного квантувача, що також підключений до входу блока пам'яті табличних значень елементарних мір схожостей, виходи якого підключені до входів обчислювача інтегральних мір схожості, відповідні виходи блока пам'яті орфографічного тексту та фонемної транскрипції підключені до відповідного входу блока пам'яті табличних значень елементарних мір схожостей та відповідного входу обчислювача інтегральних мір схожості, а виходи контролера підключені до відповідних входів блоків пристрою.
Текст
Винахід відноситься до техніки оброблення мовленнєвої інформації з метою її автоматичного розпізнавання. Може найти використання для голосового управління пристроями. Відомий спосіб та пристрій пофонемного розпізнавання элитного мовлення (дивись патент України № 48082) Сутність відомого способу полягає в тому, що пофонемне розпізнавання злитого мовлення ґрунтується на поданні мовленнєвого сигналу послідовностями елементів-векторів із значень поточних параметрів аналізу мовленнєвого сигналу, який включає знаходження значень елементарних мір схожості кожного спостережуваного елемента на всі еталонні елементи еталонних мовленнєвих образів, що визначаються фонетичними транскрипціями допустимих в мові діалогу послідовностей слів, визначення схожості мовленнєвих образів шляхом рекурентного накопичення методом динамічного програмування інтегральних мір схожості послідовності спостережуваних елементів на послідовності еталонних образів, що розпізнаються, формування для кожного поточного спостереженого елемента послідовності слів, що передаються відрізком мовленнєвого сигналу від першого спостереженого елемента до поточного. Але він має недоліки, які полягають в тому, що в нього мала швидкодія та низька надійність розпізнавання. Відомий пристрій для пофонемного розпізнавання (дивись патент України № 48082) містить аналізатор, блок пам'яті табличних значень елементарних мір схожостей та блок пам'яті мовленнєвого сигналу, що розпізнається, обчислювач інтегральних мір схожостей та блок пам'яті проміжних результатів та контролер. Але він також має ті ж недоліки, а саме, малу швидкодію та низьку надійність розпізнавання. В основу винаходу покладена задача за рахунок введення нових операцій обробки сигналів та внесення конструктивних елементів у пристрій створити спосіб та пристрій пофонемного розпізнавання, що мають високу швидкодію та надійність розпізнавання, забезпечує розпізнавання злитого мовлення без необхідності перенастроювання системи розпізнавання на нові набори. Поставлена задача вирішується способом пофонемного розпізнавання злитого мовлення, що ґрунтується на поданні мовленнєвого сигналу послідовностями елементів-векторів із значень поточних параметрів аналізу мовленнєвого сигналу, який включає знаходження значень елементарних мір схожості кожного спостережуваного елемента на всі еталонні елементи еталонних мовленнєвих образів, що визначаються фонетичними транскрипціями допустимих в мові діалогу послідовностей слів, визначення схожості мовленнєвих образів шляхом рекурентного накопичення методом динамічного програмування інтегральних мір схожості послідовності спостережуваних елементів на послідовності еталонних образів, що розпізнаються, формування для кожного поточного спостереженого елемента послідовності слів, що передаються відрізком мовленнєвого сигналу від першого спостереженого елемента до поточного, при цьому кожна особа характеризується своїм індивідуальним усномовним паспортом, що укладається при разовому зачитуванні вголос цією особою стандартизованого тексту - навчальної вибірки; індивідуальний усномовний паспорт людини складають: задана кількість еталонних елементів, які найкращим чином апроксимують всі спостережувані елементи навчальної вибірки та визначають розбиття мультимножини спостережуваних елементів навчальної вибірки на задану кількість кластерів, й параметри моделей всіх фонем у різному фонемному контексті - попередньої та наступної фонем; цими моделями фонем є ланцюги породжувальних граматик з п'яти прихованих станів, що моделюють три стадії розвитку процесу породження реалізації фонеми, а параметрами моделей є: ймовірність переходу з нульового стану в перший стан, що дорівнює одиниці, ймовірність переходу з першого стану в перший же стан та ймовірність переходу з першого стану в другий стан, що доповнює до одиниці попередню ймовірність, ймовірність переходу з другого стану в другий же стан та ймовірність переходу з другого стану в третій стан, що доповнює до одиниці попередню ймовірність, ймовірність переходу з третього стану в третій же стан та ймовірність переходу з третього стану в четвертий стан, що доповнює до одиниці попередню ймовірність, та ймовірності попадань спостережуваних елементів в кожен із всіх кластерів за умови перебування в першому, другому та третьому станах кожної фонеми; при розпізнаванні для кожного поточного спостережуваного елемента визначається номер кластера, в який цей елемент попадає, а в якості елементарної міри належності спостережуваного елемента-вектора до першої, другої чи третьої фази фонеми використовується сума логарифмів ймовірності спостереженого кластера за умови першого, другого чи третього станів фонеми та ймовірності наступного переходу з першого в перший або другий, з другого в другий або третій, з третього в третій або четвертий стани фонеми відповідно до фази фонеми; еталонні мовленнєві образи усних команд та усталених словосполучень формують шляхом об'єднання у послідовності ланцюгів породжувальних граматик фонем з п'яти прихованих станів відповідно до фонетичних транскрипцій слів, словосполучень та злитих фраз, причому так, щоб вихідний, четвертий, стан попередньої фонеми збігався з нульовим та першим станами наступної; інтегральні міри схожості послідовності спостережених елементів від першого до поточного на початкові еталонні образи всіх різних, допустимих в мові усного діалогу, початкових фраз, що закінчуються допустимим поточним словом та визначаються для кожного із двох виходів із першого, другого чи третього станів поточної фонеми цього допустимого поточного слова, знаходять як суми значень відповідної елементарної міри схожості, обчисленої для поточного спостереженого елемента для кожного із двох виходів із першого, другого чи третього станів поточної фонеми, з більшою із двох інтегральних мір схожості, накопичених для попереднього спостереженого вектора-елемента на другому виході з третього стану попередньої фонеми цього слова та на першому виході з першого стану поточної фонеми цього ж слова, на другому виході з першого стану поточної фонеми цього ж слова та на першому виході з другого стану поточної фонеми цього ж слова й на другому виході з другого стану поточної фонеми цього ж слова та на першому виході з третього стану поточної фонеми цього ж слова, відповідно; при цьому, для кожного із двох виходів із кожного із трьох станів запам'ятовуються всі різні допустимі початкові послідовності слів, що передують цьому поточному слову, та відповідні їм найкращі накопичені інтегральні міри схожості, а для другого виходу із третього стану останньої фонеми в допустимому слові до всіх різних допустимих початкових послідовностей слів дописується поточне допустиме слово та для кожної з таким способом отриманих початкових фраз визначаються підсловники, слова з яких можуть ці фрази породовжувати; значення інтегральної міри схожості, що є найбільшим з-посеред усіх її значень, накопичених після оброблення останнього спостереженого елемента на другому виході із третього стану останньої фонеми слова, визначає схожість пред'явленого мовленнєвого сигналу на відповідну, найкращу, допустиму усну фразу, що закінчується цим словом; пред'явленому мовленнєвому сигналу ставиться у відповідність та усна допустима фраза, яка закінчується словом з абсолютно найбільшою накопиченою інтегральною мірою схожості. Задача також вирішується пристроєм для розпізнавання, що містить аналізатор, блок пам'яті табличних значень елементарних мір схожостей та блок пам'яті мовленнєвого сигналу, що розпізнається, обчислювач інтегральних мір схожостей та блок пам'яті проміжних результатів та контролер, при цьому в нього введені блок пам'яті для накопичення навчальної вибірки через аналізатор, процесор кластерного аналізу, вибору представників кластерів та оцінювання параметрів фонем, блок пам'яті для зберігання параметрів фонем, блок пам'яті для зберігання орфографічного тексту та фонемної транскрипції, якими супроводжується навчальна вибірка, та орфографічних текстів і фонемних транскрипцій, що входять до робочого словника; векторний квантувач, за вихідним сигналом якого, що вказує номер кластера, в який попадає поточний спостережуваний елемент, в блоці таблично визначаються значення елементарних мір належності цього спостереженого елемента до кожного із двох виходів із всіх трьох фаз фонеми; обчислювач інтегральних мір схожості містить сім вхідних регістрів, три компаратори та дев'ять суматорів і для кожного із двох виходів із всіх трьох фаз кожної фонеми фонетичної транскрипції всіх усних команд та усталених словосполучень накопичує інтегральні міри схожості. На рис. 1 представлена структурна схема пристрою, що реалізує спосіб; рис. 2-7 пояснюють принцип роботи пристрою. Пристрій містить аналізатор 1 мовленнєвого сигналу; блок 3 запам'ятовування мовленнєвого образу у вигляді послідовності елементів-векторів, що утворюються в результаті аналізу вхідного мовленнєвого сигналу; векторний квантувач 10, який кожному поточному спостереженому елементу-вектору ставить у відповідність номер кластеру, в який він попадає, або, що те саме, номер еталонного елемента, що представляє кластер та є найближчим, в певному розумінні, до спостереженого елемента; лінгвістичний блок 9 введення та зберігання орфографічних текстів та фонетичних транскрипцій всіх слів та допустимих у мові діалогу фраз; блок 8 пам'яті значень параметрів моделей всіх фонем; блок 2 вибору значень елементарних мір приналежності спостережуваного елемента, за номером його кластеру, до фонем та їх фаз; обчислювач 4 інтегральних мір схожості, який накопичує, сумує, поточні значення елементарних мір схожості для послідовності спостережуваних елементів-векторів для кожної із допустимих фраз відповідно до їх фонетичних транскрипцій; блок пам'яті 4 , який тимчасово зберігає накопичені інтегральні міри схожості; контролер 5, який синхронізує роботу всіх блоків, зокрема блоків 2, 4, 8, 9, 10; накопичувач 6 стандартизованої навчальної вибірки; блок 7 кластерного аналізу та обчислення параметрів фонем за навчальною вибіркою. Вихід пристрою з блоку 4 визначає послідовність слів, для фонетичної транскрипції якої накопичена найбільша інтегральна міра схожості. Якщо пристрій не налаштований на голос користувача, тобто пам'ять 8 про значення параметрів моделей фонем є порожньою, він пропонує користувачеві наговорити навчальну вибірку - треба промовляти окремі слова або фрази, які голосом називає пристрій. В аналізаторі 1 мовленнєвий сигнал, що подається з мікрофона під час накопичення стандартизованої навчальної вибірки, піддається поточному автокореляційному та предиктивному аналізові в дискретному рівномірному часі iDT з кроком DT , наприклад DT = 10 мc. Для поточного інтервалу аналізу i із М відліків fn , n = 0 : (M - 1) мовленнєвого сигналу, які зважуються вікном Хемінга, обчислюються перші m+1, m
ДивитисяДодаткова інформація
Назва патенту англійськоюMethod and device for identifying continuous voice signals by phonemes
Автори англійськоюVintsiuk Taras Klymovych, Fedoryn Yaroslav Volodymyrovych
Назва патенту російськоюСпособ и устройство для распознавания слитных речевых сигналов по фонемам
Автори російськоюВинцюк Тарас Климович, Федорин Ярослав Владимирович
МПК / Мітки
МПК: G10L 15/00
Мітки: пофонемного, пристрій, мовлення, злитого, спосіб, розпізнавання
Код посилання
<a href="https://ua.patents.su/11-67697-sposib-ta-pristrijj-pofonemnogo-rozpiznavannya-zlitogo-movlennya.html" target="_blank" rel="follow" title="База патентів України">Спосіб та пристрій пофонемного розпізнавання злитого мовлення</a>
Попередній патент: Спосіб та пристрій пофонемного розпізнавання усних команд та усталених словосполучень
Наступний патент: Віконний блок залізничного вагона
Випадковий патент: Зубний імплантат