Спосіб пофонемного розпізнавання усних команд та усталених словосполучень

Номер патенту: 50038

Опубліковано: 25.05.2010

Автори: Вінцюк Тарас Климович, Гриценко Володимир Ілліч

Є ще 3 сторінки.

Дивитися все сторінки або завантажити PDF файл.

Формула / Реферат

Спосіб пофонемного розпізнавання усних команд та усталених словосполучень, що ґрунтується на поданні мовленнєвого сигналу послідовностями елементів-векторів із значень поточних параметрів аналізу мовленнєвого сигналу, який включає знаходження значень елементарних мір схожості кожного спостережуваного елемента на всі еталонні елементи еталонних мовленнєвих образів, визначення схожості мовленнєвих образів шляхом рекурентного накопичення методом динамічного програмування інтегральних мір схожості послідовності спостережуваних елементів на послідовності еталонних образів, що розпізнаються, який відрізняється тим, що кожна особа характеризується своїм індивідуальним усномовним паспортом, що укладається при разовому зачитуванні вголос цією особою стандартизованого тексту - навчальної вибірки; індивідуальний усномовний паспорт людини складають: задана кількість еталонних елементів, які найкращим чином апроксимують всі спостережувані елементи навчальної вибірки та визначають розбиття мультимножини спостережуваних елементів навчальної вибірки на задану кількість кластерів й параметри моделей всіх фонем у різному фонемному контексті - попередньої та наступної фонем; цими моделями фонем є ланцюги породжувальних граматик з п'яти прихованих станів, що моделюють три стадії розвитку процесу породження реалізації фонеми, а параметрами моделей є: ймовірність переходу з нульового стану в перший стан, що дорівнює одиниці, ймовірність переходу з першого стану в перший же стан та ймовірність переходу з першого стану в другий стан, що доповнює до одиниці попередню ймовірність, ймовірність переходу з другого стану в другий же стан та ймовірність переходу з другого стану в третій стан, що доповнює до одиниці попередню ймовірність, ймовірність переходу з третього стану в третій же стан та ймовірність переходу з третього стану в четвертий стан, що доповнює до одиниці попередню ймовірність, та ймовірності попадань спостережуваних елементів в кожен із всіх кластерів за умови перебування в першому, другому та третьому станах кожної фонеми; при розпізнаванні для кожного поточного спостережуваного елемента визначають номер кластера, в який цей елемент попадає, а як елементарну міру належності спостережуваного елемента-вектора до першої, другої чи третьої фази фонеми використовують суму логарифмів ймовірності спостереженого кластера за умови першого, другого чи третього станів фонеми та ймовірності наступного переходу з першого в перший або другий, з другого в другий або третій, з третього в третій або четвертий стани фонеми відповідно до фази фонеми; еталонні мовленнєві образи усних команд та усталених словосполучень формують шляхом об'єднання у послідовності ланцюгів породжувальних граматик фонем з п'яти прихованих станів відповідно до фонетичних транскрипцій усних команд або словосполучень, причому так, щоб вихідний, четвертий, стан попередньої фонеми збігався з нульовим та першим станами наступної; інтегральні міри схожості початкових еталонних образів усних команд та усталених словосполучень, що визначаються для кожного із двох виходів із першого, другого чи третього станів поточної фонеми їх транскрипцій, знаходять як суми значень відповідної елементарної міри схожості, обчисленої для поточного спостереженого елемента для кожного із двох виходів із першого, другого чи третього станів поточної фонеми, з більшою із двох інтегральних мір схожості, накопичених для попереднього спостереженого вектора-елемента на другому виході з третього стану попередньої фонеми та на першому виході з першого стану поточної фонеми, на другому виході з першого стану поточної фонеми та на першому виході з другого стану поточної фонеми й на другому виході з другого стану поточної фонеми та на першому виході з третього стану поточної фонеми, відповідно; значення інтегральної міри схожості, накопичене після оброблення останнього спостереженого елемента на другому виході із третього стану останньої фонеми, яка визначається фонетичною транскрипцією усної команди або словосполучення, визначають схожість пред'явленого мовленнєвого сигналу на цю усну команду або словосполучення; пред'явлений мовленнєвий сигнал відносять до тієї усної команди або усталеного словосполучення, для котрого накопичена схожість є абсолютно найбільшою.

Текст

Спосіб пофонемного розпізнавання усних команд та усталених словосполучень, що ґрунтується на поданні мовленнєвого сигналу послідовностями елементів-векторів із значень поточних параметрів аналізу мовленнєвого сигналу, який включає знаходження значень елементарних мір схожості кожного спостережуваного елемента на всі еталонні елементи еталонних мовленнєвих образів, визначення схожості мовленнєвих образів шляхом рекурентного накопичення методом динамічного програмування інтегральних мір схожості послідовності спостережуваних елементів на послідовності еталонних образів, що розпізнаються, який відрізняється тим, що кожна особа характеризується своїм індивідуальним усномовним паспортом, що укладається при разовому зачитуванні вголос цією особою стандартизованого тексту навчальної вибірки; індивідуальний усномовний паспорт людини складають: задана кількість еталонних елементів, які найкращим чином апроксимують всі спостережувані елементи навчальної вибірки та визначають розбиття мультимножини спостережуваних елементів навчальної вибірки на задану кількість кластерів й параметри моделей всіх фонем у різному фонемному контексті - попередньої та наступної фонем; цими моделями фонем є ланцюги породжувальних граматик з п'яти прихованих станів, що моделюють три стадії розвитку процесу породження реалізації фонеми, а параметрами моделей є: ймовірність переходу з нульового стану в перший стан, що дорівнює одиниці, ймовірність переходу з першого стану в перший же стан та ймовірність переходу з першого стану в другий стан, що доповнює до одиниці попередню ймовірність, ймовірність переходу з другого стану в другий же стан та ймовірність переходу з другого стану в третій стан, що доповнює до одиниці попередню ймовірність, ймовірність переходу з третього стану в третій же стан та ймовір 2 (19) 1 3 50038 4 мовленнєвого сигналу на цю усну команду або словосполучення; пред'явлений мовленнєвий сигнал відносять до тієї усної команди або усталеного словосполучення, для котрого накопичена схожість є абсолютно найбільшою. Модель відноситься до техніки оброблення мовленнєвої інформації з метою її стискання, кодування та автоматичного розпізнавання. Може найти використання для голосового управління пристроями. Відомий спосіб та пристрій пофонемного розпізнавання усних команд та усталених словосполучень (дивись патент України №48082) Сутність відомого способу полягає в тому, що розпізнавання окремо вимовлюваних усних команд та усталених словосполучень грунтується на поданні мовленнєвого сигналу послідовностями елементів-векторів із значень поточних параметрів аналізу мовленнєвого сигналу, який включає знаходження значень елементарних мір схожості кожного спостережуваного елемента на всі еталонні елементи еталонних мовленнєвих образів, визначення схожості мовленнєвих образів шляхом рекурентного накопичення методом динамічного програмування інтегральних мір схожості послідовності спостережуваних елементів на послідовності еталонних образів, що розпізнаються. Але він має недоліки, які полягають в тому, що в нього мала швидкодія та низька надійність розпізнавання. В основу моделі покладена задача за рахунок введення нових операцій обробки сигналів створити спосіб для пофонемного розпізнавання усних команд та усталених словосполучень, що мають високу швидкодію та надійність розпізнавання без необхідності перенастроювання системи. Поставлена задача вирішується способом розпізнавання окремо вимовлюваних усних команд та усталених словосполучень, що ґрунтується на поданні мовленнєвого сигналу послідовностями елементів-векторів із значень поточних параметрів аналізу мовленнєвого сигналу, який включає знаходження значень елементарних мір схожості кожного спостережуваного елемента на всі еталонні елементи еталонних мовленнєвих образів, визначення схожості мовленнєвих образів шляхом рекурентного накопичення методом динамічного програмування інтегральних мір схожості послідовності спостережуваних елементів на послідовності еталонних образів, що розпізнаються, при цьому кожна особа характеризується своїм індивідуальним усномовним паспортом, що укладається при разовому зачитуванні вголос цією особою стандартизованого тексту - навчальної вибірки; індивідуальний усномовний паспорт людини складають: задана кількість еталонних елементів, які найкращим чином апроксимують всі спостережувані елементи навчальної вибірки та визначають розбиття мультимножини спостережуваних елементів навчальної вибірки на задану кількість кластерів й параметри моделей всіх фонем у різному фонемному контексті - попередньої та наступної фонем; цими моделями фонем є ланцюги породжувальних граматик з п'яти прихова них станів, що моделюють три стадії розвитку процесу породження реалізації фонеми, а параметрами моделей є: ймовірність переходу з нульового стану в перший стан, що дорівнює одиниці, ймовірність переходу з першого стану в перший же стан та ймовірність переходу з першого стану в другий стан, що доповнює до одиниці попередню ймовірність, ймовірність переходу з другого стану в другий же стан та ймовірність переходу з другого стану в третій стан, що доповнює до одиниці попередню ймовірність, ймовірність переходу з третього стану в третій же стан та ймовірність переходу з третього стану в четвертий стан, що доповнює до одиниці попередню ймовірність, та ймовірності попадань спостережуваних елементів в кожен із всіх кластерів за умови перебування в першому, другому та третьому станах кожної фонеми; при розпізнаванні для кожного поточного спостережуваного елемента визначається номер кластера, в який цей елемент попадає, а в якості елементарної міри належності спостережуваного елемента-вектора до першої, другої чи третьої фази фонеми використовується сума логарифмів ймовірності спостереженого кластера за умови першого, другого чи третього станів фонеми та ймовірності наступного переходу з першого в перший або другий, з другого в другий або третій, з третього в третій або четвертий стани фонеми відповідно до фази фонеми; еталонні мовленнєві образи усних команд та усталених словосполучень формують шляхом об'єднання у послідовності ланцюгів породжувальних граматик фонем з п'яти прихованих станів відповідно до фонетичних транскрипцій усних команд або словосполучень, причому так, щоб вихідний, четвертий, стан попередньої фонеми збігався з нульовим та першим станами наступної; інтегральні міри схожості початкових еталонних образів усних команд та усталених словосполучень, що визначаються для кожного із двох виходів із першого, другого чи третього станів поточної фонеми їх транскрипцій, знаходять як суми значень відповідної елементарної міри схожості, обчисленої для поточного спостереженого елемента для кожного із двох виходів із першого, другого чи третього станів поточної фонеми, з більшою із двох інтегральних мір схожості, накопичених для попереднього спостереженого вектора-елемента на другому виході з третього стану попередньої фонеми та на першому виході з першого стану поточної фонеми, на другому виході з першого стану поточної фонеми та на першому виході з другого стану поточної фонеми й на другому виході з другого стану поточної фонеми та на першому виході з третього стану поточної фонеми, відповідно; значення інтегральної міри схожості, накопичене після оброблення останнього спостереженого елемента на другому виході із третього стану останньої фонеми, яка визначається фонетичною транскрипцією усної команди або словос 5 50038 получення, визначає схожість пред'явленого мовленнєвого сигналу на цю усну команду або словосполучення; пред'явлений мовленнєвий сигнал відноситься до тієї усної команди або усталеного словосполучення, для котрого накопичена схожість є абсолютно найбільшою. На фіг. 1 представлена структурна схема пристрою, що реалізує спосіб; на фіг. 2 - схема одного з блоків; фіг. 3-8 пояснюють принцип роботи пристрою. Пристрій містить аналізатор 1 мовленнєвого сигналу; блок 3 запам'ятовування мовленнєвого образу у вигляді послідовності елементів-векторів, що утворюються в результаті аналізу вхідного мовленнєвого сигналу; векторний квантувач 10, який кожному поточному спостереженому елементувектору ставить у відповідність номер кластеру, в який він попадає, або, що те саме, номер еталонного елемента, що представляє кластер та є найближчим, в певному розумінні, до спостереженого елемента; блок 9 введення та зберігання орфографічних текстів та фонетичних транскрипцій всіх усних команд та усталених словосполучень, що складають робочий набір та повинні розпізнаватись; блок 8 пам'яті значень параметрів моделей всіх фонем; блок 2 вибору значень елементарних мір приналежності спостережуваного елемента, за номером його кластеру, до фонем та їх фаз; обчислювач 4 інтегральних мір схожості, який накопичує, сумує, значення елементарних мір схожості для послідовності спостережуваних елементіввекторів для кожної із усних команд або кожного усталеного словосполучення відповідно до їх фонетичних транскрипцій; блок пам'яті 4а, який тимчасово зберігає накопичені інтегральні міри схожості; контролер 5, який синхронізує роботу всіх блоків, зокрема блоків 2, 4, 4а, 8, 9, 10; накопичувач 6 стандартизованої навчальної вибірки; блок 7 кластерного аналізу та обчислення параметрів фонем га навчальною вибіркою. Вихід пристрою з блоку 4 визначає номер усної команди або усталеного словосполучення, для фонетичної транскрипції якого накопичена найбільша інтегральна міра схожості. Якщо пристрій не налаштований на голос користувача, тобто пам'ять 8 про значення параметрів моделей фонем є порожньою, він пропонує користувачеві наговорити навчальну вибірку - треба промовляти окремі слова або фрази, які голосом називає пристрій. В аналізаторі 1 мовленнєвий сигнал, що подається з мікрофона під час накопичення стандартизованої навчальної вибірки, піддається поточному автокореляційному та предиктивному аналізові в дискретному рівномірному часі і T з кроком T, наприклад T = 10мс. Для поточного інтервалу аналізу і із М відліків fn,n =0:(M-1) мовленнєвого сигналу, які зважуються вікном Хемінга, обчислюються перші m +1, m

Дивитися

Додаткова інформація

Назва патенту англійською

Phonemic recognition method for oral commands and collocations

Автори англійською

Vintsiuk Taras Klymovych, Hrytsenko Volodymyr Illich

Назва патенту російською

Способ пофонемного распознавания устных команд и устойчивых словосочетаний

Автори російською

Винцюк Тарас Климович, Гриценко Владимир Ильич

МПК / Мітки

МПК: G10L 15/00

Мітки: команд, розпізнавання, усталених, словосполучень, пофонемного, спосіб, усних

Код посилання

<a href="https://ua.patents.su/11-50038-sposib-pofonemnogo-rozpiznavannya-usnikh-komand-ta-ustalenikh-slovospoluchen.html" target="_blank" rel="follow" title="База патентів України">Спосіб пофонемного розпізнавання усних команд та усталених словосполучень</a>

Подібні патенти