Спосіб ідентифікації людини за параметрами мови

Номер патенту: 63624

Опубліковано: 15.01.2004

Автор: Дрюченко Олексій Якович

Завантажити PDF файл.

Формула / Реферат

Спосіб ідентифікації людини за параметрами мовних сигналів, заснований на порівнянні виділених з мовного сигналу на ділянках голосних звуків комплексу параметрів, обчисленні їх кількісних значень, подальшому їх упорядкуванні і пороговому співставленні, який відрізняється тим, що процедуру обробки зразків мови, які підлягають ідентифікації, виконують у середовищі банку мовного матеріалу, розподіляючи водночас його вміст на класи за критерієм тотожності джерела мови, при цьому ідентифікаційні ознаки формують у два етапи, визначаючи на першому етапі ознаки, які характеризують елементарні сегменти у геометричному відображенні коливного процесу, а на другому етапі перетворюють ці ознаки, застосовуючи передбачені статистичні дії, в ознаки, що характеризують голосні звуки, які далі порогово співставляють з ознаками, одержаними аналогічним чином на інших зразках мови, причому початкове значення константи, що задає поріг співставлення, обчислюють за значеннями комплексу ознак першого з двох зразків мови, які співставляються, і далі оптимізують за критерієм максимальної якості обробки зразків мови усього банку мовного матеріалу, результат співставлення запам'ятовують як проміжний, після чого таку процедуру обробки повторюють для кожного наступного голосного звука і для усіх їх можливих комбінацій з двох та трьох звуків кожен раз за різними передбаченими правилами, а підсумковий результат визначають статистично на сукупності отриманих проміжних результатів ідентифікації.

Текст

Винахід має відношення до технологій аналізу мовних сигналів з метою їх автоматичного функціонального розпізнавання, зокрема верифікації або ідентифікації людини в судови х експертизах матеріалів звукозапису. Відомий спосіб верифікації людини за параметрами мовних сигналів за AC CPCP №1675936, м.кл. G10L9/06, опублікований 7.09.91 в Бюл. №33. Цей спосіб, як і спосіб, що заявляється, здійснюється над фонетично аутентичними фрагментами висловів, які підлягають ідентифікації, шляхом визначення на них акустичних ознак, обчислення їх кількісних значень, подальшого їх спрощеного упорядкування і порогового співставлення. Цей спосіб не є достатньо ефективним, по-перше, через те, що в ньому співставляються безпосередньо значення акустичних ознак двох мовних сигналів і в разі, коли такі сигнали будуть отримані в різних умовах і/або різними записуючими пристроями, то це може спричинити виникнення похибки верифікації. По-друге, з огляду на те, що на практиці будь-яке стисле відображення мовних сигналів системою певних ознак є достатнім лише для обмеженого класу об'єктів, але не є необхідним для цілого класу, результатом співставлення між собою ознак тільки двох об'єктів може бути гр упова, а не індивідуальна верифікація чи ідентифікація. Відомий спосіб ідентифікації людини за параметрами усного мовлення за патентом України №26107 С1, м.кл. G10L5/06,7/06,9/18, опублікований 30.04.99 в Бюл. №2. Цей спосіб є, окрім того, найбільш близьким до способу, що заявляється. Він заснований на порівнянні вилученого з мовного сигналу комплексу параметрів за критерієм близькості, який обчислюється як евклідова відстань із зваженням параметрів з допомогою F-відношень. Вилучені з мовного сигналу параметри/ознаки являють собою усереднені у часі значення функції артикуляції, усереднені у часі значення частоти основного тону, усереднені у часі значення нахилу огинаючої спектру мови до верхніх частот. Даний спосіб має такі вади: Надійність ідентифікації за цим способом недостатньо висока, що з умовлено тим, що такі ознаки як усереднені у часі значення функції артикуляції і усереднені у часі значення нахилу огинаючої спектру мови до верхні х часто т є чутливими до стр уктурних спотворень мовного сигналу, які стрімко зростають, наприклад, в ситуації, коли відстань між джерелом мови і акустичним приймачем перевищує певну межу, і приводять до виникнення похибок ідентифікації. Усереднені у часі значення частоти основного тону є надто чутливими до емоційного та фізичного стану мовця і також можуть спричиняти похибки ідентифікації. З урахуванням же того, що, по-перше, у даному способі результат досягається внаслідок співставлення ознак тільки двох об'єктів, і що, по-друге, на практиці будь-яке стисле відображення мовних сигналів системою певних ознак є достатнім лише для обмеженого класу об‘єктів, але не є необхідним для цілого класу, то результатом такого співставлення може бути гр упова, а не індивідуальна ідентифікація. Окрім того, і способу за AC CPCP №1675936, м.кл. G10L9/06, і способу за патентом України №26107 С1, м.кл. G10L5/06,7/06,9/18 притаманні ще деякі вади, що приводять до обмеження галузі їх застосування. Перша з них полягає у непридатності способів до обробки вкрай обмеженого за обсягом, наприклад до 2-3 голосних звуків, мовного матеріалу. Др уга вада є процесуальне важливою особливо у разі виконання судової ідентифікаційної експертизи і полягає в тому, що зазначені способи безпосередньо у процесі роботи не постачають інформацію, яка свідчить про належний метрологічний стан апаратних та програмних засобів, застосованих для виконання експертизи, а отже результати такої експертизи можуть бути піддані сумніву, призвести до зайвих судови х колізій, та відмови від їх визнання як джерел доказу. В основу винаходу, що заявляється, поставлена задача розробити такий спосіб ідентифікації людини за параметрами мовних сигналів, в якому здійснення ідентифікації в середовищі банку мовного матеріалу, формування ідентифікаційних ознак в два етапи із співставленням ознак, які характеризують особливості голосних звуків в їх комбінаціях, з ознаками інших зразків мови, визначення підсумкового результату статистичне з використанням проміжних результатів, дозволило б позбавитись від залежності результату ідентифікації від відстані між джерелом мови і акустичним приймачем, від фізичного та емоційного стану мовця і, як наслідок, підвищити надійність ідентифікації; здійснювати ідентифікацію на обмеженому за обсягом мовному матеріалі, а також поставляти інформацію про метрологічний стан апаратних та програмних засобів, застосованих для ідентифікації і, таким чином, розширити межі галузі впровадження способу. Поставлена задача вирішується тим, що в спосіб ідентифікації людини, заснований на виділенні з мовного сигналу на ділянках голосних звуків комплексу параметрів, обчислені їх кількісних значень, подальшому їх упорядкуванні і пороговому співставленні, згідно винаходу, введені наступні основні ознаки, відмінні від прототипу. У способі, що заявляється, процедуру обробки мовних сигналів здійснюють в середовищі банка мовного матеріалу (БММ), розподіляючи одночасно його вміст на класи за критерієм тотожності джерела мови. При цьому ідентифікаційні ознаки формують у два етапи. На першому етапі визначають ознаки, що характеризують елементарні сегменти (ЕС) в геометричному відображенні коливного процесу, на другому етапі перетворюють ці ознаки, застосовуючи передбачені статистичні дії, в ознаки, що характеризують голосні звуки (ГЗ). Далі ознаки, що характеризують ГЗ, порогово співставляють з ознаками, отриманими аналогічним чином на інших зразках мови (ЗМ). Початкове значення константи, яка задає поріг співставлення, обчислюють за значеннями комплексу ознак першого з двох ЗМ, що співставляють, і потім оптимують за критерієм максимальної якості обробки ЗМ усього БММ. Результат співставлення запам'ятовують як проміжний, після чого таку процедуру обробки повторюють для кожного наступного ГЗ і для всіх їх можливих комбінацій з двох та трьох звуків кожного разу за іншими передбаченими правилами. Підсумковий результат визначають статистичне за сукупністю отриманих проміжних результатів ідентифікації. Здійснення процедури ідентифікації в середовищі спеціально сформованого БММ дозволило підвищити надійність способу внаслідок зменшення вірогідності групової ідентифікації. Окрім того, обробка в БММ багатьох ЗМ відомих класів нарівні з двома спірними зразками мови, тобто такими, що належать невідомим класам, дозволила безпосередньо в процесі обробки отримувати інформацію про метрологічний стан апаратних і програмних засобів, які застосовуються для ідентифікації. Використання в якості об'єктів безпосереднього аналізу елементарних сегментів голосних звуків дозволило підвищити ефективність мовних ознак, оскільки на ділянці одного ГЗ в залежності від особливостей процеса мовотворення можуть міститися в середньому, наприклад, 12-15 EC, які закономірно еволюціонують у часі і на кожному з них можуть бути сформовані від 9 до 18 і більше ознак, що утворюють разом репрезентативну статистику, яка найбільш повно відображує ГЗ. Здійснення обробки ЗМ окремими циклами, в кожному з яких поодинокі ГЗ і їх можливі комбінації з двох та трьох звуків піддаються аналізу за різними правилами, підвищує надійність ідентифікації і дозволяє виконувати її на вкрай обмеженому обсязі мовного матеріалу завдяки тому, що в кожному такому циклі відбувається зміна взаємоположення (дрейф) точок координат реалізацій фрагментів мовних сигналів, підданих аналізу, в просторі відображення, в результаті чого знижуються вимоги до критерію e -непересічності класів і поліпшується їх селекція. Попереднє обчислення значення порогової константи e за кількісними значеннями комплексу ознак першого з двох ЗМ, що порівнюються, і наступна його оптимізація за критерієм максимальної якості обробки ЗМ усі х відомих класів у БММ підвищує селективну спроможність і надійність ідентифікації внаслідок того, що дозволяє отримувати оптимальні значення критерію e -непересічності класів. Визначення підсумкового результату ідентифікації за результатами проміжних ідентифікацій, отриманих сумарно в усі х циклах обробки, дозволяє у рівній мірі підвищити надійність способу внаслідок його нечутливості до окремих випадкових похибок проміжної ідентифікації. Успішна ідентифікація з застосуванням способу, що заявляється, можлива вже при наявності в мовному повідомленні бодай 2-3 голосних звуків. Спосіб може бути реалізований, наприклад, за допомогою пристрою, блок-схему якого наведено на кресленні. До складу пристрою входять: банк мовного матеріалу (БММ) 1, який, окрім багатьох зразків мови багатьох відомих класів, містить і 2 спірні зразки мови, тобто такі, у відношенні яких саме й виконується ідентифікація; блок читання звукових файлів (БЧФ) 2; блок запуску пристрою (БЗП) 3; блок формування ознак описання елементарних сегментів (БФООЕС) 4; блок правил аналізу (БПА) 5; блок керування роботою пристрою (БКП) 6; блок формування ознак описання голосних звуків (БФООГЗ) 7; перший буфер ознак (БО1) 8; другий буфер ознак (БО2) 9; блок порогового співставлення ознак (БПСО) 10; блок обчислення значення порогової константи (БОПК) 11; блок аналізу проміжного результату ідентифікації (БАРІ) 12; вихідний буфер даних (ВБД) 13 та блок видачі результату ідентифікації (БВРІ) 14. Пристрій працює наступним чином. Сигнал пуску надходить ззовні на перший вхід (тут і далі нумерація входів та виходів ведеться зверху вниз або зліва направо) блоку 3 (БЗП), який забезпечує початкову ініціалізацію службових регістрів (на блок-схемі не показані) і генерує вихідний сигнал, що запускає блок керування роботою пристрою 6 (БКП). Сигнал з першого виходу блока 6 надходить на вхід блока 2 (БЧФ), вказуючи йому номер звукового файла, який треба прочитати та код типу мовного фрагменту, що підлягає аналізу. Блок 2 читає у свій буфер відповідний звуковий файл з банку мовного матеріалу 1. Кожен звуковий файл містить тільки один оцифрований короткий вислів певного мовця. Блок 2 сигналізує блок 4 (БФООЕС) про те, що його буфер завантажений і передає йому адреси тіла мовного сигналу. Окрім того, блок 6 надсилає у блок 5 (БПА) номер правила, яке належить застосувати для аналізу завантаженого звукового файла. Блок 4 знаходить у тілі мовного сигналу потрібний фрагмент, обчислює на ньому за вказаним правилом комплекс геометричних ознак опису усіх по одинці елементарних сегментів і передає їх у блок 7 (БФООГЗ). Блок 7, аналізуючи отримані дані за правилом, яке також надходить на його інший вхід з блоку 5, формує комплекс ознак описання голосного звуку (або декількох звуків, якщо такі є) заданого мовного фрагмента і передає його у блок 8 (БО1) через перший його вхід. Через другий вхід у блок 8 надходить з блоку 6 (БКП) сигнал, який указує на те, перевантажити отримані ознаки в буфер 9 (БО2), чи залишити їх на місці в блоці 8. Якщо у блоці 8 містяться ознаки самого першого файла загального списку файлів БММ (1), то вони перевантажуються безумовно у блок 9 і залишаються там доти, доки з ними не будуть співставлені у блоці 10 (БПСО) ознаки усіх інших файлів БММ, які по черзі завантажуються тепер у блок 8. Ця процедура зветься ітерацією. Як тільки ознаки з блоку 8 перевантажаться у блок 9, останній сповіщає про це блок 11 (БОПК) і той, аналізуючи кількісні значення комплексу ознак у блоці 9, обчислює початкове значення порогової константи e , в порівнянні з якою повинно виконуватись в подальшому співставлення ознак у блоці 10. Результат спвіставлення кожної окремої пари комплексів ознак, тобто результат ідентифікації кожної такої пари, передається у блок 12 (БАРІ). Блок 12 читає у заголовках комплексів ознак коди мовців (окрім ознак спірних файлів, які їх не мають) і в разі виникнення похибки ідентифікації 1-го роду (коли "чужий" розпізнаний як "свій") видає через свій третій вихід на входи блоків 6 та 11 сигнал "Похибка". Отримавши цей сигнал, блок 11 зменшує поточне значення порогової константи e , а блок 6 видає на своїх трьох ви ходах сигнали, які відновлюють ітерацію з самого початку. Так триває доти, доки не буде знайдене таке уточнене значення e , при якому не виникає похибка ідентифікації. Процедура пошуку оптимального значення константи e виконується за алгоритмом, який дозволяє максимально заощаджувати час. У разі успішного завершення ітерації блок 12 передає в блок 13 (ВБ) для зберігання порядкові номери усіх виявлених тотожних за джерелом мови звукових файлів, певний мовний фрагмент з яких співставлявся, показники їх близькості h , а також оптимізоване значення порогової константи є для цього випадку. Після цього на місце ознак першого файлу в блок 9 завантажуються описаним вище чином ознаки наступного в порядку слідування файлу і залишаються там доти, доки не буде успішно виконана чергова ітерація. В подальшому цей процес продовжується доти, доки по певному мовному фрагменту і за одним певним правилом аналізу не відбудеться повний перебір усіх можливих комбінацій співставлення звукових файлів БММ. Коли це відбудеться, блок 12 (БАРІ) сигналом з свого другого ви ходу сповіщає блок 3 (БЗП) про завершення обробки поточного мовного фрагмента. Блок 3 пересилає відповідні коди у блок 6 (БКП), а той, утримуючи в блоці 5 (БПА) код того ж самого правила аналізу, передає в блок 2 (БЧФ) код наступного мовного фрагменту, що підлягає аналізу, і вся ви ще описана процедура обробки повторюється. Після завершення обробки останнього мовного фрагмента відповідні сигнали з блоку 12 на блок 3 і з блоку 3 на блок 6 призводять тепер до зміни правила аналізу у блоці 5 і вся процедура повторюється багаторазово для усіх мовних фрагментів усіх звукових файлів за новим правилом. Після завершення усієї процедури знову буде змінено правило аналізу і так доти, поки не будуть використані усі правила аналізу для усіх можливих мовних фрагментів усіх звукових файлів БММ (1). Коли це станеться, дані про результати ідентифікації, накопичені в блоці 13 (В Б) передаються в блок 14 (БВРІ), опрацьовуються там засобами матстатистики і видаються користувачеві у вигляді протоколу з додатками необхідних таблиць усіх проміжних результатів ідентифікації.

Дивитися

Додаткова інформація

Назва патенту англійською

Method for identifying a human being by voice parameters

Назва патенту російською

Способ идентификации человека с помощью параметров речевых сигналов

МПК / Мітки

МПК: G10L 17/00, G10L 15/00, G10L 11/00

Мітки: мови, ідентифікації, спосіб, людини, параметрами

Код посилання

<a href="https://ua.patents.su/3-63624-sposib-identifikaci-lyudini-za-parametrami-movi.html" target="_blank" rel="follow" title="База патентів України">Спосіб ідентифікації людини за параметрами мови</a>

Подібні патенти