Спосіб пофонемного розпізнавання злитого мовлення

Номер патенту: 50040

Опубліковано: 25.05.2010

Автори: Гриценко Володимир Ілліч, Вінцюк Тарас Климович

Є ще 6 сторінок.

Дивитися все сторінки або завантажити PDF файл.

Формула / Реферат

Спосіб пофонемного розпізнавання злитого мовлення, що ґрунтується на поданні мовленнєвого сигналу послідовностями елементів-векторів із значень поточних параметрів аналізу мовленнєвого сигналу, який включає знаходження значень елементарних мір схожості кожного спостережуваного елемента на всі еталонні елементи еталонних мовленнєвих образів, що визначаються фонетичними транскрипціями допустимих в мові діалогу послідовностей слів, визначення схожості мовленнєвих образів шляхом рекурентного накопичення методом динамічного програмування інтегральних мір схожості послідовності спостережуваних елементів на послідовності еталонних образів, що розпізнаються, формування для кожного поточного спостереженого елемента послідовності слів, що передаються відрізком мовленнєвого сигналу від першого спостереженого елемента до поточного, який відрізняється тим, що для кожної особи укладають індивідуальний усномовний паспорт шляхом разового зачитування вголос цією особою стандартизованого тексту - навчальної вибірки; індивідуальний усномовний паспорт людини складають:задана кількість еталонних елементів, які найкращим чином апроксимують всі спостережувані елементи навчальної вибірки та визначають розбиття мультимножини спостережуваних елементів навчальної вибірки на задану кількість кластерів, й параметри моделей всіх фонем у різному фонемному контексті - попередньої та наступної фонем; цими моделями фонем є ланцюги породжувальних граматик з п'яти прихованих станів, що моделюють три стадії розвитку процесу породження реалізації фонеми, а параметрами моделей є: ймовірність переходу з нульового стану в перший стан, що дорівнює одиниці, ймовірність переходу з першого стану в перший же стан та ймовірність переходу з першого стану в другий стан, що доповнює до одиниці попередню ймовірність, ймовірність переходу з другого стану в другий же стан та ймовірність переходу з другого стану в третій стан, що доповнює до одиниці попередню ймовірність, ймовірність переходу з третього стану в третій же стан та ймовірність переходу з третього стану в четвертий стан, що доповнює до одиниці попередню ймовірність, та ймовірності попадань спостережуваних елементів в кожен із всіх кластерів за умови перебування в першому, другому та третьому станах кожної фонеми; при розпізнаванні для кожного поточного спостережуваного елемента визначають номер кластера, в який цей елемент попадає, а як елементарну міру належності спостережуваного елемента-вектора до першої, другої чи третьої фази фонеми використовують суму логарифмів ймовірності спостереженого кластера за умови першого, другого чи третього станів фонеми та ймовірності наступного переходу з першого в перший або другий, з другого в другий або третій, з третього в третій або четвертий стани фонеми відповідно до фази фонеми; еталонні мовленнєві образи усних команд та усталених словосполучень формують шляхом об'єднання у послідовності ланцюгів породжувальних граматик фонем з п'яти прихованих станів відповідно до фонетичних транскрипцій слів, словосполучень та злитих фраз, причому так, щоб вихідний, четвертий, стан попередньої фонеми збігався з нульовим та першим станами наступної; інтегральні міри схожості послідовності спостережених елементів від першого до поточного на початкові еталонні образи всіх різних, допустимих в мові усного діалогу, початкових фраз, що закінчуються допустимим поточним словом та визначаються для кожного із двох виходів із першого, другого чи третього станів поточної фонеми цього допустимого поточного слова, знаходять як суми значень відповідної елементарної міри схожості, обчисленої для поточного спостереженого елемента для кожного із двох виходів із першого, другого чи третього станів поточної фонеми, з більшою із двох інтегральних мір схожості, накопичених для попереднього спостереженого вектора-елемента на другому виході з третього стану попередньої фонеми цього слова та на першому виході з першого стану поточної фонеми цього ж слова, на другому виході з першого стану поточної фонеми цього ж слова та на першому виході з другого стану поточної фонеми цього ж слова й на другому виході з другого стану поточної фонеми цього ж слова та на першому виході з третього стану поточної фонеми цього ж слова, відповідно; при цьому, для кожного із двох виходів із кожного із трьох станів запам'ятовують всі різні допустимі початкові послідовності слів, бо передують цьому поточному слову, та відповідні їм найкращі накопичені інтегральні міри схожості, а для другого виходу із третього стану останньої фонеми в допустимому слові до всіх різних допустимих початкових послідовностей слів дописують поточне допустиме слово та для кожної з таким способом отриманих початкових фраз визначають підсловники, слова з яких можуть ці фрази породовжувати; значення інтегральної міри схожості, що є найбільшим з-посеред усіх її значень, накопичених після оброблення останнього спостереженого елемента на другому виході із третього стану останньої фонеми слова, визначає схожість пред'явленого мовленнєвого сигналу на відповідну, найкращу, допустиму усну фразу, що закінчується цим словом; пред'явленому мовленнєвому сигналу ставлять у відповідність ту усну допустиму фразу, яка закінчується словом з абсолютно найбільшою накопиченою інтегральною мірою схожості.

Текст

Спосіб пофонемного розпізнавання злитого мовлення, що ґрунтується на поданні мовленнєвого сигналу послідовностями елементів-векторів із значень поточних параметрів аналізу мовленнєвого сигналу, який включає знаходження значень елементарних мір схожості кожного спостережуваного елемента на всі еталонні елементи еталонних мовленнєвих образів, що визначаються фонетичними транскрипціями допустимих в мові діалогу послідовностей слів, визначення схожості мовленнєвих образів шляхом рекурентного накопичення методом динамічного програмування інтегральних мір схожості послідовності спостережуваних елементів на послідовності еталонних образів, що розпізнаються, формування для кожного поточного спостереженого елемента послідовності слів, що передаються відрізком мовленнєвого сигналу від першого спостереженого елемента до поточного, який відрізняється тим, що для кожної особи укладають індивідуальний усномовний паспорт шляхом разового зачитування вголос цією особою стандартизованого тексту навчальної вибірки; індивідуальний усномовний паспорт людини складають: задана кількість еталонних елементів, які найкращим чином апроксимують всі спостережувані елементи навчальної вибірки та визначають розбиття мультимножини спостережуваних елементів навчальної вибірки на задану кількість кластерів, й параметри моделей всіх фонем у різному фонемному контексті - попередньої та наступної фонем; цими моделями фонем є ланцюги породжувальних граматик з п'яти прихованих станів, що моделюють три стадії розвитку процесу породження реалізації фонеми, а параметрами моделей є: ймовірність переходу з нульового стану в перший стан, що дорівнює одиниці, ймовірність переходу з першого стану в перший же стан та ймовірність переходу з першого стану в другий стан, що доповнює до одиниці по 2 (19) 1 3 50040 4 другого стану поточної фонеми цього ж слова й на другому виході з другого стану поточної фонеми цього ж слова та на першому виході з третього стану поточної фонеми цього ж слова, відповідно; при цьому, для кожного із двох виходів із кожного із трьох станів запам'ятовують всі різні допустимі початкові послідовності слів, бо передують цьому поточному слову, та відповідні їм найкращі накопичені інтегральні міри схожості, а для другого виходу із третього стану останньої фонеми в допустимому слові до всіх різних допустимих початкових послідовностей слів дописують поточне допустиме слово та для кожної з таким способом отриманих початкових фраз визначають підслов ники, слова з яких можуть ці фрази породовжувати; значення інтегральної міри схожості, що є найбільшим з-посеред усіх її значень, накопичених після оброблення останнього спостереженого елемента на другому виході із третього стану останньої фонеми слова, визначає схожість пред'явленого мовленнєвого сигналу на відповідну, найкращу, допустиму усну фразу, що закінчується цим словом; пред'явленому мовленнєвому сигналу ставлять у відповідність ту усну допустиму фразу, яка закінчується словом з абсолютно найбільшою накопиченою інтегральною мірою схожості. Модель відноситься до техніки оброблення мовленнєвої інформації з метою її автоматичного розпізнавання. Може найти використання для голосового управління пристроями. Відомий спосіб та пристрій пофонемного розпізнавання злитного мовлення (дивись патент України №48082). Сутність відомого способу полягає в тому, що пофонемне розпізнавання злитого мовлення ґрунтується на поданні мовленнєвого сигналу послідовностями елементів-векторів із значень поточних параметрів аналізу мовленнєвого сигналу, який включає знаходження значень елементарних мір схожості кожного спостережуваного елемента на всі еталонні елементи еталонних мовленнєвих образів, що визначаються фонетичними транскрипціями допустимих в мові діалогу послідовностей слів, визначення схожості мовленнєвих образів шляхом рекурентного накопичення методом динамічного програмування інтегральних мір схожості послідовності спостережуваних елементів на послідовності еталонних образів, що розпізнаються, формування для кожного поточного спостереженого елемента послідовності слів, що передаються відрізком мовленнєвого сигналу від першого спостереженого елемента до поточного. Але він має недоліки, які полягають в тому, що в нього мала швидкодія та низька надійність розпізнавання. В основу моделі покладена задача за рахунок введення нових операцій обробки сигналів створити спосіб пофонемного розпізнавання усних команд та усталених словосполучень, що мають високу швидкодію та надійність розпізнавання, забезпечує розпізнавання довільних наборів усних команд, словосполучень та злитого мовлення без необхідності перенастроювання системи розпізнавання на нові набори. Поставлена задача вирішується способом пофонемного розпізнавання злитого мовлення, що ґрунтується на поданні мовленнєвого сигналу послідовностями елементів-векторів із значень поточних параметрів аналізу мовленнєвого сигналу, який включає знаходження значень елементарних мір схожості кожного спостережуваного елемента на всі еталонні елементи еталонних мовленнєвих образів, що визначаються фонетичними транскрипціями допустимих в мові діалогу послідовностей слів, визначення схожості мовленнєвих образів шляхом рекурентного накопичення методом динамічного програмування інтегральних мір схожості послідовності спостережуваних елементів на послідовності еталонних образів, що розпізнаються, формування для кожного поточного спостереженого елемента послідовності слів, що передаються відрізком мовленнєвого сигналу від першого спостереженого елемента до поточного, при цьому кожна особа характеризується своїм індивідуальним усномовним паспортом, що укладається при разовому зачитуванні вголос цією особою стандартизованого тексту - навчальної вибірки; індивідуальний усномовний паспорт людини складають: задана кількість еталонних елементів, які найкращим чином апроксимують всі спостережувані елементи навчальної вибірки та визначають розбиття мультимножини спостережуваних елементів навчальної вибірки на задану кількість кластерів, й параметри моделей всіх фонем у різному фонемному контексті - попередньої та наступної фонем; цими моделями фонем є ланцюги породжувальних граматик з п'яти прихованих станів, що моделюють три стадії розвитку процесу породження реалізації фонеми, а параметрами моделей є: ймовірність переходу з нульового стану в перший стан, що дорівнює одиниці, ймовірність переходу з першого стану в перший же стан та ймовірність переходу з першого стану в другий стан, що доповнює до одиниці попередню ймовірність, ймовірність переходу з другого стану в другий же стан та ймовірність переходу з другого стану в третій стан, що доповнює до одиниці попередню ймовірність, ймовірність переходу з третього стану в третій же стан та ймовірність переходу з третього стану в четвертий стан, що доповнює до одиниці попередню ймовірність, та ймовірності попадань спостережуваних елементів в кожен із всіх кластерів за умови перебування в першому, другому та третьому станах кожної фонеми; при розпізнаванні для кожного поточного спостережуваного елемента визначається номер кластера в який цей елемент попадає, а в якості елементарної міри належності спостережуваного елемента-вектора до першої, 5 другої чи третьої фази фонеми використовується сума логарифмів ймовірності спостереженого кластера за умови першого, другого чи третього станів фонеми та ймовірності наступного переходу з першого в перший або другий, з другого в другий або третій, з третього в третій або четвертий стани фонеми відповідно до фази фонеми; еталонні мовленнєві образи усних команд та усталених словосполучень формують шляхом об'єднання у послідовності ланцюгів породжувальних граматик фонем з п'яти прихованих станів відповідно до фонетичних транскрипцій слів, словосполучень та зі и тих фраз, причому так, щоб вихідний, четвертий, стан попередньої фонеми збігався з нульовим та першим станами наступної; інтегральні міри схожості послідовності спостережених елементів від першого до поточного на початкові еталонні образи всіх різних, допустимих в мові усного діалогу, початкових фраз, що закінчуються допустимим поточним словом та визначаються для кожного із двох виходів із першого, другого чи третього станів поточної фонеми цього допустимого поточного слова, знаходять як суми значень відповідної елементарної міри схожості, обчисленої для поточного спостереженого елемента для кожного із двох виходів із першого, другого чи третього станів поточної фонеми, з більшою із двох інтегральних мір схожості, накопичених для попереднього спостереженого вектора-елемента на другому виході з третього стану попередньої фонеми цього слова та на першому виході з першого стану поточної фонеми цього ж слова, на другому виході з першого стану поточної фонеми цього ж слова та на першому виході з другого стану поточної фонеми цього ж слова й на другому виході з другого стану поточної фонеми цього ж слова та на першому виході з третього стану поточної фонеми цього ж слова, відповідно; при цьому, для кожного із двох виходів із кожного із трьох станів запам'ятовуються всі різні допустимі початкові послідовності слів, що передують цьому поточному слову, та відповідні їм найкращі накопичені інтегральні міри схожості, а для другого виходу із третього стану останньої фонеми в допустимому слові до всіх різних допустимих початкових послідовностей слів дописується поточне допустиме слово та для кожної з таким способом отриманих початкових фраз визначаються підсловники, слова з яких можуть ці фрази породовжувати; значення інтегральної міри схожості, що є найбільшим з-посеред усіх її значень, накопичених після оброблення останнього спостереженого елемента на другому виході із третього стану останньої фонеми слова, визначає схожість пред'явленого мовленнєвого сигналу на відповідну, найкращу, допустиму усну фразу, що закінчується цим словом; пред'явленому мовленнєвому сигналу ставиться у відповідність та усна допустима фраза, яка закінчується словом з абсолютно найбільшою накопиченою інтегральною мірою схожості. На Фіг.1 представлена структурна схема пристрою, що реалізує спосіб; Фіг.2-7 пояснюють принцип роботи пристрою. Пристрій містить аналізатор 1 мовленнєвого сигналу; блок 3 запам'ятовування мовленнєвого 50040 6 образу у вигляді послідовності елементів-векторів, що утворюються в результаті аналізу вхідного мовленнєвого сигналу; векторний квантувач 10, який кожному поточному спостереженому елементувектору ставить у відповідність номер кластеру, в який він попадає, або, що те саме, номер еталонного елемента, що представляє кластер та є найближчим, в певному розумінні, до спостереженого елемента; лінгвістичний блок 9 введення та зберігання орфографічних текстів та фонетичних транскрипцій всіх слів та допустимих у мові діалогу фраз; блок 8 пам'яті значень параметрів моделей всіх фонем; блок 2 вибору значень елементарних мір приналежності спостережуваного елемента, за номером його кластеру, до фонем та їх фаз; обчислювач 4 інтегральних мір схожості, який накопичує, сумує, поточні значення елементарних мір схожості для послідовності спостережуваних елементів-векторів для кожної із допустимих фраз відповідно до їх фонетичних траскрипцій; блок пам'яті 4а, який тимчасово зберігає накопичені інтегральні міри схожості; контролер 5, який синхронізує роботу всіх блоків, зокрема блоків 2, 4, 4а, 8, 9, 10; накопичувач 6 стандартизованої навчальної вибірки; блок 7 кластерного аналізу та обчислення параметрів фонем за навчальною вибіркою. Вихід пристрою з блоку 4 визначає послідовність слів, для фонетичної транскрипції якої накопичена найбільша інтегральна міра схожості. Якщо пристрій не налаштований на голос користувача, тобто пам'ять 8 про значення параметрів моделей фонем є порожньою, він пропонує користувачеві наговорити навчальну вибірку - треба промовляти окремі слова або фрази, які голосом називає пристрій. В аналізаторі 1 мовленнєвий сигнал, що подається і мікрофона під час накопичення стандартизованої навчальної вибірки, піддається поточному автокореляційному та предикативному аналізові в дискретному рівномірному часі i∆T з кроком ∆T, наприклад ∆T=10мс. Для поточного інтервалу аналізу i із M відліків fn, n=0:(M-1) мовленнєвого сигналу, які зважуються вікном Хемінга, обчислюються перші m+1, m

Дивитися

Додаткова інформація

Назва патенту англійською

Phonemic recognition method for continuous speech

Автори англійською

Vintsiuk Taras Klymovych, Hrytsenko Volodymyr Illich

Назва патенту російською

Способ пофонемного распознавания слитной речи

Автори російською

Винцюк Тарас Климович, Гриценко Владимир Ильич

МПК / Мітки

МПК: G10L 15/00

Мітки: пофонемного, розпізнавання, мовлення, злитого, спосіб

Код посилання

<a href="https://ua.patents.su/14-50040-sposib-pofonemnogo-rozpiznavannya-zlitogo-movlennya.html" target="_blank" rel="follow" title="База патентів України">Спосіб пофонемного розпізнавання злитого мовлення</a>

Подібні патенти