Відбитковий спосіб обробки даних для ідентифікації класів даних

Номер патенту: 64956

Опубліковано: 15.03.2004

Автори: Шелест Михайло Євгенович, Манухін Олександр Васильович

Завантажити PDF файл.

Формула / Реферат

Відбитковий спосіб обробки даних для ідентифікації класів даних, згідно з яким, кожному класу інформаційного потоку (протоколу транспортування файлів, формату файлів, текстів мовних груп, текстів предметних галузей) будується шаблон відбитку потоку, який відрізняється тим, що він формується з урахуванням повторюваності його елементарних одиниць у зваженому Евклідовому просторі полярної системи координат, для чого визначають вибірку окремого класу інформаційного потоку, будують відбитки реалізацій класу, кліпують їх, отримані результати сумують із граничними значеннями для кожного класу, внаслідок чого ідентифікують клас інформаційного потоку; сукупність шаблонів складає ідентифікаційний простір, у межах якого працює пошуковий алгоритм.

Текст

Винахід відноситься до області моделювання та розпізнавання образів, а точніше до систем інформаційної обробки. Відомий спосіб кореляційного порівняння інформаційних потоків [а.с. №1667117 А2, G06K9/00, 10.05.89], який полягає в наступному: проводиться Q реалізацій сигналу, їх клипують та попарно комутують (кожна з кожною) усі реалізації. Після чого, помножують коефіцієнт кореляції кожної пари на ваговий коефіцієнт даної пари, який зберігається у базі даних та відповідає визначеному класу сигналів, отримані результати сумують та порівнюють із граничним значенням, в наслідок чого ідентифікують клас інформаційного потоку. Однак даний спосіб має недоліки. Вузька область його застосування пов'язана з тим, що він призначений, як правило, для розпізнавання сигналів, що широко відомі та мають гарні кореляційні властивості. Даний спосіб не пристосований до розпізнавання інформаційних потоків різних форм (протоколів транспортування файлів, форматів файлів, текстів мовних груп, текстів предметних галузей та ін.). Найбільш близьким по своїй технічній суті стосовно заявленого способу є нейроний спосіб, реалізований у системі інформаційної обробки зображень [а.с. №JP 2715626 В2, G06F15/18, 16.04.90], відповідно до якого вхідний інформаційний потік вводиться через зовнішній вхідний інтерфейс 13 у нейрону мережу 12. Якщо мережа 12 не може пізнати даний потік, то він передається в систему кодової обробки 11 через кодер 17. Система 11 розподіляє коди по вхідному потоку, кодер 17 установлює навчальний потік для мережі 12. Після прийому вхідного і навчального потоків мережа 12 виконує їхнє порівняння на основі самонавчальної процедури. Якщо вхідний потік розпізнається мережею 12, то відповідне повідомлення посилається з мережі 12 у кодер 17, що передає в систему 11 код відповідного вихідного потоку зображень. Однак даний спосіб-прототип має недоліки. Наприклад, його реалізація приводить до зайвої громіздкості реалізуючого його пристрою. Вузька область застосування не дозволяє обробляти і розпізнавати потоки різних форм, і як наслідок, приводить до тісного взаємозв'язку між семантикою інформаційного потоку та реалізацією пристрою. В основу винаходу поставлена задачу створення способу для розпізнавання класів даних, у якому семантичне різні дані утворюють простір окремих класів (відповідно до їхньої внутрішньої стр уктури й алфавітного складу, тобто різнорідністю даних), що забезпечує можливість класифікації різнорідних даних. Поставлена задача вирішується тим, що у відбитковому способі обробки даних для ідентифікації класів даних, згідно з винаходом, для кожного класу інформаційного потоку файлових даних формується шаблон відбитку, для чого визначають вибірку класу, які формуються з рахуванням повторюваності елементарних одиниць потоку у зауваженому Евклідовому просторі полярної системи координат, клипують їх, отримані результаті сумують та порівняють із граничними значеннями для ,в наслідок чого ідентифікують клас інформаційного потоку. Для цього визначають вибірку окремого класу інформаційного потоку та будують відбитки реалізацій класу. Формування відбитків уявляє собою важення частотної повторюваності структурних одиниць потоку у полярній системі координат по методу "золотого перетину". Побудова відбитків передбачає розділ усього обсягу потоку на структурні одиниці, які мають свої коефіцієнти ваги в залежності від місцезнаходження структурної одиниці у загальній структурі потоку. Коефіцієнти методу "золотого перетину" є мірами взаємозв'язку між вагами структурних одиниць. Побудовані відбитки клипують, в наслідок чого отримують шаблони класу потоку. Шаблон класу потоку описується обгинаючою у формульному вираженні, що забезпечує, на відміну від відомих методів, значно менших ресурсів для його зберігання. Обираючи граничні значення відбитків для кожного класу, індетифікують клас інформаційного потоку. Простір шаблонів класів формується на основі процедури "навчання з вчителем" шляхом кореляційного порівняння відбитків потоків різних класів. Ідентифікація потоку даних до певного класу даних здійснюється на основі аналізу різниці відбитка потоку з шаблоном певного класу. При перевищенні даного порога формується шаблон нового класу, що визначає процедуру самонавчання. Таким чином, заявлений спосіб для ідентифікації класів не залежить від семантики інформаційного потоку, чим забезпечується уніфікація представлення будь-яких форм даних, що, у свою чергу, проводити класифікацію інформаційних потоків різних форм, а також робить константою величину індексного пошуку в просторі класів. Експериментальні дослідження, що проведені у ході дисертаційних досліджень [Манухин А.В. Разработка методов анализа и диагностики символьных информационных потоков: Дис... канд. техн. наук: 01.05.02.-К., 2000. с.130], показали, що середня повнота розрізнення способу за обраними критеріями класифікації склала 32% при точності порядку 87,2%. Компактність представлення відбитка потоку, рухли вість його характеристик в умовах різних потокових моделей, а також стійкість їх по відношенню обраного мовного еквівалента дає можливість застосування винаходу в інформаційно-пошукових системах загального та спеціалізованого призначення .

Дивитися

Додаткова інформація

Назва патенту англійською

Method of identifying data type by signature analysis

Назва патенту російською

Способ идентификации типа данных с помощью сигнатурного анализа

МПК / Мітки

МПК: G06F 15/18, G06K 9/64

Мітки: ідентифікації, даних, класів, спосіб, відбитковий, обробки

Код посилання

<a href="https://ua.patents.su/1-64956-vidbitkovijj-sposib-obrobki-danikh-dlya-identifikaci-klasiv-danikh.html" target="_blank" rel="follow" title="База патентів України">Відбитковий спосіб обробки даних для ідентифікації класів даних</a>

Подібні патенти