Спосіб ідентифікації людини на основі аналізу звуків мови
Формула / Реферат
Спосіб ідентифікації людини на основі аналізу звуків мови, що включає перетворення мовного сигналу у цифрову форму, який відрізняється тим, що
- попередньо створюють банк еталонних мовних об'єктів, причому кожний еталонний мовний об'єкт містить в собі запис одного звуку мови, який утворюється множиною елементарних сегментів (ЕС) мови людини,
- формують початковий набір геометричних елементів аналітичної геометрії ЕС звуків мови і значень мір близькості, які визначають пороги зіставлення,
а після перетворення мовного сигналу у цифрову форму
- виконують класифікацію еталонних мовних об'єктів для визначення оптимальних наборів геометричних елементів аналітичної геометрії ЕС звуків мови і значень мір близькості,
- здійснюють ідентифікацію перетвореного мовного сигналу у цифрову форму та еталонних мовних об'єктів на основі наборів геометричних елементів аналітичної геометрії ЕС звуків мови і значень мір близькості за критерієм максимальної якості розпізнавання.
Текст
Спосіб ідентифікації людини на основі аналізу звуків мови, що включає перетворення мовного сигналу у цифрову форму, який відрізняється тим, що: C2 2 (19) 1 3 76770 4 ня і низької надійності ідентифікації (верифікації). ними мовними об'єктами на основі оптимальних Перший недолік полягає в тому, що акустичні ознак звуків мови і значень мір близькостей за (спектральні) ознаки, які виділюються, чуттєві до критерієм максимальної якості розпізнавання. змін емоційного стану людини. На фіг.1 зображено елементарні сегменти Другий недолік - мовний ідентифікаційний ма(EC) голосного звуку о. Голосний звук о представтеріал має бути зіставленим, у противному разі, лено 12-тьма EC. Ось абсцис (Т) - шкала часу тобто коли мовні сигнали будуть отримані в різних (розмірність одиниць виміру –м/сек.). Ось ординат умовах і/чи різними пристроями запису, це може (А) - шкала амплітуд цифрового мовного сигналу. обумовити появу помилки ідентифікації. Тривалість звуку (L) дорівнює 84 м/сек. (а) Третій недолік - акустичні ознаки можуть бути «нульова» лінія. отримані лише на досить великому обсязі На фіг.2 зображено первинний опис елемен(тривалості) мовного матеріалу. Тому ці способи тарного сегменту голосного звуку мови. Тривалість не придатні для проведення ідентифікації на вкрай елементарного сегменту голосного звуку мови (L) обмеженому за обсягом мовному матеріалі, надорівнює 6 м/сек. приклад, на матеріалі від 3-х до 1-го звука мови. На фіг.3 наведено блок-схему пристрою для Четвертий недолік - у способах фоноскопічне реалізації способу. Новизну способу ідентифікації ідентифікаційне дослідження проводиться безповизначають тим, що: середньо тільки лише з двома мовними об'єктами: 1) для формального перетворення мовних відомим і невідомим. Ця обставина, по-перше, сигналів не використовують спектральний матемасуперечить положенню теорії розпізнавання тичний апарат; образів про необхідність виконання розпізнавання 2) для проведення ідентифікації в цифровому тільки на множені об'єктів, класів; по-друге, привомовному сигналі виділяють особливі релевантні дить до групової, а не до індивідуальної ділянки, елементарні сегменти (ЕС) звуків мови, ідентифікації. що є вкрай мінімальними структурноП'ятий недолік полягає в тому, що в процесі функціональними складовими одиницями звуків проведення ідентифікаційного дослідження за домови. ЕС - це акустична мікроподія, що є відгуком помогою зазначених способів користувачу не нарезонатора мовоутворення на один імпульс збудається інформація, по-перше, про спроможність дження від голосових зв'язок (рисі). Слід підкреснабору ідентифікаційних ознак, перевірка яких лити, що ЕС як об'єкт дослідження є об'єктивним і повинна здійснюватися тільки на множені об'єктів, закономірним акустичним явищем звуків мови; класів, що підлягають розпізнаванню; по-друге, 3) до ідентифікаційних звуків мови, складовою про належний метрологічний стан використовуваодиницею яких є ЕС, відносять голосні звуки і соних апаратних і програмних засобів. норні приголосні звуки; Слід підкреслити, що зазначені недоліки (осо4) безпосередньо аналізують лише один звук бливо четвертий і п'ятий) дуже істотні в процесуамови спотвореного мовного матеріалу; льному аспекті, особливо у випадку виконання 5) як первинні інформативні диференційні судової криміналістичної експертизи як процесуаознаки, які відображують індивідуальні особливосльного засобу одержання доказів, оскільки результі мови людини, є структурні {геометричні) ознаки тати такої експертизи можуть викликати сумнів, ЕС, формальний аналіз і вимір яких стали можлипривести до зайвих судових колізій і, як наслідок, вими завдяки уявленню об'єкта дослідження - ЕС до відмовлення від їх визнання як фактичні дані, у виді геометричного об'єкта зі складною простощо мають значення для справи. рово-часовою організацією (Фіг.2), як структурні Технічною задачею винаходу, що заявляється, (геометричні) ознаки ЕС використовують геометє розробка нового способу фоноскопічної ідентиричні елементи аналітичної геометрії: пряму (хорфікації людини, практичне застосування якого доду) і складну плоску фігуру. Значення довжини зволило б усунути відзначені вище характерні нехорди і площі складної плоскої фігури формують доліки. Це, у свою чергу, привело б не тільки до первинний образ об'єкта у виді вектора значень розширення галузі застосування способу, але і до первинних структурних ознак. підвищення надійності і якості ідентифікації. Теоретичним базисом, що забезпечує опис Ця задача вирішена таким чином. У способі всіх елементів способу ідентифікації і їхня побудоідентифікації людини на основі аналізу звуків мова в єдине системне ціле, є теорія розпізнавання ви, що включає перетворення сигналу у цифрову образів і положення евристичного методу досліформу, згідно винаходу, попередньо створюють дження. При цьому формальний математичний банк еталонних мовних об'єктів, причому кожний апарат опису як самого об'єкта аналізу, ЕС, так і еталонний мовний об'єкт містить в собі запис одетапів способу ідентифікації складають прості маного звуку мови людини, який утворюється множитематичні рівняння і логічні функції (предикати) ною ЕС, та формують початковий опис одного математичної логіки. звуку мови у вигляді геометричних елементів У способі, що заявляється, механізм ідентифіаналітичної геометрії і значень мір близькостей, кації складається з двох етапів: 1) етапу пошуку які визначають пороги зіставлення, а після перенабору оптимальних структурних ознак EC звуків творення мовного сигналу у цифрову форму мови і 2) етапу ідентифікації невідомого об'єкта і виділяють в мовному сигналі один звук мови, вивідомих, еталонних мовних об'єктів. конують класифікацію еталонних мовних об'єктів Об'єкт називають еталонним унаслідок того, для визначення оптимальних ознак звуків мови і що досліднику і, відповідно, технічному пристрою значень мір близькостей та здійснюють заздалегідь відома приналежність об'єкта до класу ідентифікацію одного невідомого об'єкта з еталонеталонних об'єктів. Кожний еталонний об'єкт являє 5 76770 6 собою звуковий файл спеціального формату, у утворено ланцюжком EC, то опис у цілому еталонякому міститься один голосний звук мови людини. ного об'єкта зводять до опису усіх EC ланцюжка. У Специфіка формату звукового файлу полягає в результаті первинного опису формується квадраттому, що ділянки мовного сигналу, які відносять до на матриця, у відповідних рядках якої розташовані EC, розмічають спеціальними маркерами, що завектори ЕС, у стовпцях - координати векторів. писують безпосередньо в "тіло" мовного сигналу 2. Виконують математико-логічні перетворенна границях початку і кінця EC. Сегментація звуків ня первинного образа звуку. Перетворення, що мови на EC виконують вручну заздалегідь. передбачені для векторних просторів, полягають у Метою першого етапу, етапу пошуку набору такому: оптимальних структурних ознак EC звуків мови, є - "фільтрація" ознак вектора V за рахунок випошук таких структурних ознак, при яких досягарахування з кожної ознаки мінімальної по величині ють максимальної класифікації еталонних об'єктів. ознаки: m На першому етапі формують: m v n min( v ) - множину еталонних об'єктів, які утворюють 100 vn min( v ) банк еталонних об'єктів і підлягають класифікації; де n - номер стовпця матриці, m - номер рядка - початковий набір первинних структурних озматриці; min(v) - мінімальне значення координати нак для опису EC і звуку мови в цілому; вектора V; - початкові значення перемінних, мір близько- нормування ознак вектора V: стей (ε), які визначають пороги зіставлення. m m Набір первинних структурних ознак і значення vn k vn , k=k(lm) k(hm), мір близькостей призначають емпірично, оскільки max(l ) min( l ) первісно a priori точно не відомо які саме ознаки і k( l m k( l ) , max(l ) міри близькості необхідні для опису і класифікації об'єктів. max( h ) min( h ) k( h m ) k( h ) , Автоматичну обробку кожного еталонного max( h ) об'єкта підрозділяють на такі етапи: де n - номер стовпця матриці, m - номер рядка 1. Виділяють первинні структурні ознаки на матриці; k(l) і k(h) - коефіцієнти нормування, знакожнім з EC, які утворюють звук мови (Фіг.2). Для чення яких призначають емпірично з ряду чисел цього структуру кожного EC складають з 6-ти кон{4, 6, 8, 10}; mах(l) - тривалість EC, min(l) - min із структивних частин: А, В, С, D, Ε і F. Кожну з часзначень довжин конструктивних частин EC; тин "розбивають" на декілька структурних вікон. Як max(h)/min(h), - max/min із значень висот конструк"розділюючий" елемент використовують тивних частин EC; горизонтальні g і вертикальні ν лінії розбивки. У - ранжирування ознак вектора V. кожному вікні виділяють два геометричних струкУ результаті перетворень формують множину турних елементи: складну фігуру і пряму горизонвекторів Vi ідентифікаційних ознак. Число векторів тальну лінію (хорду), які утворені габаритами вікна відповідає числу EC, які утворюють звук мови. і формою EC. Вимірюють значення структурних Множина векторів Vi відображає індивідуальні ознак - значення довжини хорди і площі складної особливості мови людини. плоскої фігури, які утворюють первинний образ Класифікацію еталонних об'єктів банку звуку мови і, відповідно, еталонного об'єкта. Наздійснюють попарним порівнянням усіх еталонних приклад, у конструктивній частині А виділяють чооб'єктів за правилом "кожний з кожним" на основі тири вікна: w1, w2, w3 і w4; у вікні w1 визначають обчисленого в нормованому метричному просторі значення площі S1 складної фігури і довжини l1 R1 відстані z3 і значень мір близькостей. Відстань хорди. Обчислення довжин і площ проводять за z3 між двома еталонними об'єктами, які такими формулами: довжину l хорди визначають порівнюють, обчислюють за таким алгоритмом: як число семплів n(sp), що утворюють хорду; пло1) кожний окремо узятий вектор еталонного щу S складної фігури визначають як добуток суми об'єкта більшої потужності (ν) по черзі порівнюють значень семплів [spi], що, утворюють складну з усіма векторами еталонного об'єкта меншої пофігуру, і періоду дискретизації Td: тужності (w). У процесі попарного порівняння ета1 лонних об'єктів порогово співставляють кожну паl=n(sp), S T d sp i ру координат: якщо відстань між координатами 1 i 1 Для всіх конструктивних частин EC: положення менше значення міри близькості 1 то результату hg горизонтальних ліній розбивки g визначають за порівняння присвоюють логічне значення "1", якщо такою формулою: hg = hi / (ng+1), де ht - висота i-тої більше - "0". У результаті одного порівняння форконструктивної частини EC, ng — кількість горизонмують вектор z1, значення координат якого налетальних ліній ng; положення lv вертикальних ліній жать бінарній множині {0, 1}.У результаті порівнянрозбивки ν визначають положенням точки завдання одного вектора еталонного об'єкта більшої ня висоти і-тої конструктивної частини EC (Фіг.2). потужності з усіма векторами еталонного об'єкта Первинний опис EC формують у виді вектора меншої потужності знаходять вектор z1max (вектор V в n-мірному просторі ознак: z1 c max числом "1"); у результаті порівняння всіх векторів формують множину векторів z1max V ( , ,..., ) ( , , , ,...) v1 v 2 vn S 1 l1 S 2 l 2 Для кожної з конструктивних частин EC складають типовий опис. Оскільки кожний еталонній об'єкт представлено одним звуком мови, який 7 2) На основі числа координат векторів max{n(1)}, рівних "1", розмірності n(v) і числа векторів m(Z1) формують один вектор z2, значення координат якого належать бінарній множині {0, 1}. Значення координат вектора z2 визначають в результаті порогового співставлення числа координат векторів max{n(1)}, що дорівнюють "1", і розмірності n(v) вектора V: якщо відстань 2 між 2 ними менше значення міри близькості ε , то результату порівняння (координаті вектора z2) присвоюють логічне значення "1", якщо більше - "0". Розмірність вектора z2 дорівнює числу векторів m(Z1). 3) Відстань z3 між двома еталонними об'єктами, які порівнюють, обчислюють в результаті порогового співставлення суми координат вектора п(1), рівних "1", і розмірності вектора m(v) більшої потужності: якщо відстань 3 між ними менше значення міри близькості ε3, то результату порівняння (відстані z3) присвоюють логічне значення "1", якщо більше - "0". 4) Два еталонних об'єкта, які порівнюють, вважають тотожними, тобто приналежними до одного класу еталонних об'єктів, якщо відстань я3 між ними дорівнює "1", якщо "0" – нетотожними: Значення мір близькостей призначають емпірично з ряду чисел {10, 15, 20, 25, ЗО, 35, 40}. Значення мір близькостей 1, 2, 3 оптимізують за критерієм максимальної якості розпізнавання (класифікації) всіх еталонних об'єктів банку для одного визначеного набору первинних структурних ознак. У тому випадку, якщо з'являється помилка 2-го роду, тобто така помилка розпізнавання, коли об'єкти, що належать у дійсності різним класам, приймають як об'єкти, що належать одному класу ("захоплення помилкової цілі"), то набір первинних 76770 8 структурних ознак, що призначений для аналізу, відкидають. При відсутності помилок розпізнавання набір первинних структурних ознак, який призначають для аналізу, значення мір близькостей та коефіцієнти нормування запам'ятовують як проміжні, після чого зазначену вище процедуру обробки еталонних об'єктів банку повторюють для іншого набору первинних структурних ознак, значеннь мір близькостей та коефіцієнтів нормування. Новий набор первинних структурних ознак формують покроковим (із кроком 1) збільшенням числа горизонтальних g і вертикальних ν ліній розбивки (Фіг.2). Таким чином формують від 12 до 100 ознак. Усі можливі набори первинних структурних ознак оптимізують за критерієм максимальної якості розпізнавання всіх еталонних об'єктів банку. Підсумковим результатом першого етапу є встановлення набору оптимальних структурних ознак EC звуків мови, значеннь мір близькостей та коефіцієнтів нормування, при яких досягають максимальної класифікації еталонних об'єктів банку. На другому етапі, етапі ідентифікації, проводять безпосередньо ідентифікацію невідомого об'єкта (об'єкта, що належить невідомому класу об'єктів) з усіма еталонними об'єктами за правилом "один з усіма". Метою ідентифікації є встановлення тотожності (нетотожності) між невідомим і еталонним об'єктами і, отже, встановлення приналежності (неприналежності) невідомого об'єкта до визначеного класу еталонних об'єктів на підставі набору оптимальних структурних ознак, значеннь мір близькостей та коефіцієнтів нормування, які визначені на першому етапі. Опис невідомого та еталонного об'єктів є аналогічним зазначеним вище процедурам. Невідомий об'єкт вважають тотожним еталонному об'єкту, тобто приналежним до якогонебудь одного визначеного класу еталонних об'єктів банку, якщо відстань z3 між ними дорівнює "1", якщо "0" - нетотожними. Розширенню області застосування способу ідентифікації, що заявляють, та підвищенню в цілому якості ідентифікації сприяють наступні фактори: 1) проведення ідентифікації на множені еталонних об'єктів спеціально сформованого банку еталонних об'єктів зменшує імовірність групової ідентифікації; 2) використання як об'єктів безпосереднього аналізу множини EC звуку мови дозволяє підвищити інформативну ефективність структурних 9 76770 10 ознак, оскільки в залежності від особливостей об'єктів, банк невідомих мовних об'єктів і блок попроцесу мовоутворення один звук мови можуть чаткових умов генерують керуючі сигнали, які поутворювати від 5 до 35 EC, які змінюються у часі, відомляють блок керування про готовність до пона кожному з яких можуть бути сформовані від 12 дальшої роботи. до 100 структурних ознак. Множина структурних Блок керування активує роботу блоку струкознак утворює у цілому показну статистику, що турних ознак, у якому формують всі можливі набонайповніше характеризує закономірні особливості ри структурних ознак. Один визначений набір акустичних властивостей вкрай коротких ділянок структурних ознак надходить до блоку опису звуку об'єктів, де виконують опис всіх еталонних 3) мови і стає не чуттєвою до окремих випадоб'єктів'. У відповідності зі значеннями 3-х мір кових помилок проміжної ідентифікації і до зміни близькостей (V, ε\ ε3), які задають і пошагово емоційного стану людини. змінюють в блоці мір близькостей, у блоці 4) Оптимізація всіх можливих наборів первинкласифікації еталонних об'єктів виконують них структурних ознак, значень мір близькостей та класифікацію еталонних об'єктів за рахунок покоефіцієнтів нормування за критерієм максимальпарного порівняння всіх еталонних об'єктів за праної якості розпізнавання (класифікації) всіх етавилом "кожний з кожним". Процедуру порівняння лонних об'єктів дозволяє одержувати їх оптимальдвох еталонних об'єктів здійснюють в блоці ні значення, що розширюють можливості критерію класифікації еталонних об'єктів на основі порогонепересічності класів; вого співставлення обчисленої відстані ζ3 і зада5) поетапна автоматична обробка множини них мір близькостей 1, 2, 3. еталонних об'єктів відомих класів і невідомого У залежності від результату оптимального об'єкта дозволяє безпосередньо в процесі ідентианалізу якості розпізнавання (класифікації) етафікації одержувати інформацію про значущість лонних об'єктів блок аналізу якості розпізнавання набору ідентифікаційних ознак і метрологічний генерує керуючий сигнал, який або дозволяє, або стан апаратних і програмних засобів, що викорисзабороняє буферу оптимальних даних запис протовують для ідентифікації, і яка відображає, таким міжних і оптимальних значень набору структурних чином, об'єктивну сторону процесу ідентифікації. ознак, мір близькостей та коефіцієнтів нормуванМінімальний обсяг мовного матеріалу для ня. За рахунок зворотних зв'язків між блоком анапроведення ідентифікації складає 1 (один) звук лізу якості розпізнавання і блоком мір близькостей мови. (блок також формує значення коефіцієнтів нормуСпосіб, який заявляють, може бути вання), між блоком аналізу якості розпізнавання і реалізований, наприклад, за допомогою технічного блоком структурних ознак, які забезпечують багапристрою, блок-схему якого наведено на Фіг3З. До торазове (ітераційне) виконання функцій блоку складу пристрою входять 13 функціональних структурних ознак, блоку опису об'єктів, блоку мір елементів: 1 - блок керування; 2 - банк еталонних близькостей, блоку класифікації еталонних об'єктів мовних об'єктів; 3 - банк невідомих мовних і блоку аналізу якості розпізнавання, усі можливі об'єктів; 4 - блок початкових умов; 5 - блок струкнабори первинних структурних ознак, значення мір турних ознак; 6 - блок опису об'єктів; 7 - блок мір близькостей та коефіцієнтів нормування оптимізублизькостей; 8 -блок класифікації еталонних ють за критерієм максимальної якості розпізнаоб'єктів; 9 - блок аналізу якості розпізнавання; 10 вання (класифікації) всіх еталонних об'єктів, що буфер оптимальних даних; 11 - блок оптимального дозволяє одержати їх оптимальні значення. опису об'єктів; 12 - блок класифікації невідомого Після того, як виконано оптимальний аналіз об'єкта; 13 - блок результату ідентифікації. усіх можливих наборів структурних ознак, мір блиТехнічний пристрій працює наступним чином. зькостей та коефіцієнтів нормування, оптимальні Зовнішній сигнал "Запуск" ініціалізує роботу призначення яких зберігають в буфері оптимальних строю. З його приходом блок керування генерує даних, блок структурних ознак генерує керуючий спеціальні сигнали, які керують роботою всього сигнал, який інформує блок керування про заверпристрою. Зв'язок між функціональними елеменшення оптимізації і готовності до проведення ідентами пристрою здійснюють за допомогою тифікації. двонаправленої шини даних і керування. Блок керування активує роботу блоку оптиНа початковому етапі блок керування активує мального опису об'єктів, у якому проводять опис банк еталонних мовних об'єктів, банк невідомих усіх еталонних об'єктів і невідомого об'єкта мовних об'єктів і блок початкових умов. Банк етавідповідно до оптимального набору структурних лонних мовних об'єктів формує таблицю всіх мовознак. У блоці класифікації невідомого об'єкта них еталонних об'єктів, у відношенні яких виконупроводять безпосередньо ідентифікацію ють оптимізацію. Банк невідомих мовних об'єктів невідомого об'єкта. Встановлення тотожності формує таблицю всіх невідомих мовних об'єктів, у (нетотожності) між невідомим і еталонним відношенні яких виконують ідентифікацію. Усі мовоб'єктами і, отже, встановлення приналежності ні об'єкти зберігають в електронній пам'яті банку (неприналежності) невідомого об'єкта до одного еталонних мовних об'єктів і банку невідомих моввизначеного класу еталонних об'єктів здійснюють них об'єктів у виді цифрового файлу спеціального за рахунок попарного порівняння невідомого формату. Блок початкових умов забезпечує початоб'єкта зі всіма еталонними об'єктами за правилом кову ініціалізацію службових регістрів, початкове "один з усіма". Процедуру попарного порівняння завдання набору структурних ознак для опису моневідомого та еталонного об'єктів виконують в вних об'єктів І значень мір близькостей. Після виблоці класифікації невідомого об'єкта на основі конання цих процедур банк еталонних мовних порогового співставлення обчисленої відстані z3 11 76770 12 у виді спеціального протоколу з додатком таблиць, та оптимальних значень мір близькостей , , . що містять дані проміжних результатів ідентифікаПо завершенні ідентифікації блок класифікації ції. невідомого об'єкта генерує інформаційноДля відображення об'єктивної сторони процекеруючий сигнал "Ідентифікацію завершено", який су ідентифікації в пристрої передбачено перегляд повідомляє блок керування про завершення інформації, яка сформована на проміжних етапах ідентифікації. його роботи. Для перегляду цієї інформації Коли блоком керування прийнято сигнал про ініціалізують блок результату ідентифікації завершення ідентифікації, блок керування активує зовнішнім сигналом "Інформація". блок результату ідентифікації, який видає користувачу звіт про підсумкові результати ідентифікації 1 2 3 13 Комп’ютерна верстка М. Клюкін 76770 Підписне 14 Тираж 26 прим. Міністерство освіти і науки України Державний департамент інтелектуальної власності, вул. Урицького, 45, м. Київ, МСП, 03680, Україна ДП ―Український інститут промислової власності‖, вул. Глазунова, 1, м. Київ – 42, 01601
ДивитисяДодаткова інформація
Назва патенту англійськоюMethod for identifying a person by the results of the voice sound analysis
Назва патенту російськоюСпособ идентификации человека по результатам анализа звуков речи
МПК / Мітки
МПК: G10L 15/00, G10L 17/00
Мітки: людини, основі, звуків, мови, ідентифікації, аналізу, спосіб
Код посилання
<a href="https://ua.patents.su/7-76770-sposib-identifikaci-lyudini-na-osnovi-analizu-zvukiv-movi.html" target="_blank" rel="follow" title="База патентів України">Спосіб ідентифікації людини на основі аналізу звуків мови</a>
Попередній патент: Знаряддя для обробки грунту
Наступний патент: Напівпровідникове кисневе піноскло
Випадковий патент: Лінійний індукційний апарат