Пристрій для морфологічного аналізу природномовних текстів

Номер патенту: 121916

Опубліковано: 26.12.2017

Автори: Петренко Микола Григорович, Палагін Олександр Васильович

Є ще 6 сторінок.

Дивитися все сторінки або завантажити PDF файл.

Формула / Реферат

Пристрій для морфологічного аналізу природномовних текстів, який містить блок регістрів символів, лічильники символів й адрес результату, першу та другу схеми порівняння, блок пам'яті основ, блок пам'яті закінчень, блок дешифраторів символів, блок ключів, блок комутаторів, блок дешифраторів сполучень символів і блок мікропрограмного керування, при цьому перший інформаційний вихід блока дешифраторів символів підключений до першого інформаційного входу блока пам'яті основ, а групи з першої по q-ту інформаційних виходів підключені відповідно до групи перших інформаційних входів блока ключів й інформаційних входів блока комутаторів, групи з першої по q-ту інформаційних виходів якого підключені відповідно до інформаційних входів блока пам'яті закінчень, керуючий вхід якого підключений до першого керуючого виходу блока мікропрограмного керування, а його перша група інформаційних виходів і другий інформаційний вихід підключені відповідно до другої групи інформаційних входів блока ключів та інформаційного виходу блока пам'яті основ, першого інформаційного входу другої схеми порівняння і є першим інформаційним виходом пристрою, керуючі входи з першого по третій блока мікропрограмного керування є відповідно керуючими входами "Пуск", "Скидання" і "Синхросигнал", його другий керуючий вихід підключений до керуючого входу блока пам'яті основ і другого керуючого входу лічильника адрес результату, а третій керуючий вихід підключений до перших керуючих входів лічильників символів і адрес результату і другого керуючого входу блока регістрів символів, інформаційний вхід якого підключений до першого інформаційного входу першої схеми порівняння і є інформаційним входом пристрою, на другий інформаційний вхід першої схеми порівняння підключено код символу закінчення передачі вхідного слова, постійний на весь час роботи пристрою, на другий інформаційний вхід другої схеми порівняння підключено код символу закінчення передачі результату роботи пристрою, постійний на весь час роботи пристрою, а виходи першої та другої схем порівняння підключені відповідно до шостого та сьомого керуючих входів блока мікропрограмного керування, п'ятий керуючий вхід якого підключений до другого керуючого входу лічильника символів і є керуючим входом "Запис" пристрою, а четвертий керуючий вихід підключений до першого керуючого входу блока регістрів символів, п інформаційних виходів якого підключені відповідно до n інформаційних входів блока дешифраторів символів, а треті керуючі входи підключені до керуючих входів блока комутаторів та інформаційного виходу лічильника символів, інформаційний вихід лічильника адрес результату підключений до другого інформаційного входу блока пам'яті основ, третя група інформаційних входів якого підключена до інформаційних виходів блока дешифраторів сполучень символів, групи інформаційних входів якого підключені до відповідних груп інформаційних виходів блока ключів, четвертий керуючий вхід блока мікропрограмного керування є керуючим входом "Читання" пристрою, який відрізняється тим, що в нього додатково введено блок пам'яті частин мови, причому його перший інформаційний вхід підключений до першого інформаційного входу пам'яті основ і першого інформаційного виходу блока дешифраторів символів, другий інформаційний вхід підключений до другого інформаційного входу блока пам'яті основ й інформаційного виходу лічильника адрес результату, третя група інформаційних входів підключена до третьої групи інформаційних входів блока пам'яті основ і до інформаційних виходів блока дешифраторів сполучень символів, керуючий вхід підключений до другого керуючого входу лічильника адрес результату, керуючого входу блока пам'яті основ і другого керуючого виходу блока мікропрограмного керування, а його інформаційний вихід є другим інформаційним виходом пристрою.

Текст

Реферат: UA 121916 U UA 121916 U 5 10 15 20 25 30 35 40 45 50 55 60 Корисна модель належить до області обчислювальної техніки та комп'ютерної лінгвістики і може бути використана при побудові систем автоматичного опрацювання надвеликих об'ємів природно-мовних текстів, або лінгвістичних корпусів текстів для довільних предметних галузей. Відомо, що дослідження того, як людина інтерпретує та розуміє мовні висловлювання, має як теоретичний, так і прикладний інтерес. Роботи в галузі автоматичного аналізу тексту та автоматичного вирішення задач, сформульованих на природній мові (або мові, близькій до неї), показали актуальність таких досліджень. В загальному випадку лінгвістичний аналіз складається з чотирьох етапів - графемного, морфологічного, синтаксичного та семантичного. В 60-70 роки минулого століття всі експериментальні дослідження в галузі машинної морфології починалися зі створення машинного словника. Не існувало єдиного, загальновизнаного формату і структури такого словника. Ці обставини мали два наслідки: по-перше, всі алгоритми автоматично ставали словниково-залежними, по-друге, кожен алгоритм розроблявся під конкретний формат словника. А основною проблемою в розробці машинно-орієнтованого алгоритму для лінгвістичних процесорів був великий об'єм вихідних даних, що використовує програма, тобто в об'ємі словників, які складалися вручну. Дослідження в цій області були орієнтовані на мінімізацію вихідних даних. Алгоритми програм, що працюють без словника, використовують ймовірносно-статистичні методи та лексикони основ чи квазіоснов, суфіксів чи квазісуфіксів, побудованих емпіричним шляхом. Наприклад, в [Шереметьева C.O., Ниренбург С. Эмпирическое моделирование в вычислительной морфологии // НТИ, №7, 1996.] описана працююча модель морфологічного аналізу, яка не потребує об'ємних словників основ відкритих класів слів. Вона використовує наступні лексикони: закінчень і рефлексивів, суфіксів, квазікоренів, префіксів, баз та основ. Кожній одиниці такого лексикону приписані всі можливі (але не вичерпні) граматичні характеристики словоформ, частиною якої може бути вказана одиниця. Моделі, які використовують словники, здатні дати більш повний аналіз словоформи (тобто оперувати більшим числом граматичних ознак). Ступінь точності такого аналізу вище у порівнянні з моделями, які не використовують словники. Отже, задача автоматизованого аналізу природно-мовних текстів зводиться до двох параметрів: якості, що визначається парою - точність (рівень помилок у побудованих лінгвістичних структурах речень) і повнота (ступінь покриття тексту синтаксичними зв'язками, або зв'язність графа речення), та швидкодії, поки що недостатній для ряду прикладних задач. Описані два підходи до побудови моделей лінгвістичного аналізу (в [Гладун В.П. Процессы формирования новых знаний. - София: СД "Педагог 6", 1994. - 192 с.] названі відповідно: зі словником - граматичним підходом; без словника - підходом безпосереднього розпізнавання), як вказувалося вище, мають свої недоліки та переваги. А тому оптимізація параметрів "Якість  Швидкодія" для кожного конкретного проекту повинна виконуватись індивідуально. Відомі й інші програми морфологічного аналізу слів природної мови. Один з базових підходів до розробки алгоритмів морфологічного аналізу для флективних мов розглядає будь-якого виду регулярне й нерегулярне чергування букв у слові як частину розширеної псевдофлексії, а як основа словоформи розглядається незмінна частина слова. У подібній моделі опису кількість парадигматичних класів для російської (української) мови зростає до З 000, але зростання числа класів при проектуванні компенсується однорідністю лексикона й відсутністю, як винятків, так і правил альтернатив. Для пошуку в подібному словнику основи словоформи нерідко застосовується метод пошуку по бінарному дереву. Алгоритм заснований на знанні того, що масив основ упорядкований. При кожному порівнянні зона пошуку зменшується в 2 рази. Виконуючи не більш ніж Log2 N (N кількість основ у словнику) порівнянь можна або знайти необхідну основу в словнику або переконатися в її відсутності. Найбільш близьким до запропонованого є пристрій для морфологічного аналізу природномовних текстів [Патент на винахід № 104225, Бюл. №1, 10.01.2014, МПК (2013.01) Kn. G06F 15/00, G06F 17/00 2014р.]. Прототип містить блок регістрів символів, лічильники символів й адрес результату, першу та другу схеми порівняння, блок пам'яті основ, блок пам'яті закінчень, блок дешифраторів символів, блок ключів, блок комутаторів, блок дешифраторів сполучень символів і блок мікропрограмного керування. Недоліками такого пристрою є наступне. Пристрій не дозволяє визначати для словоформ, які обробляються, до яких частин мови вони належать. Сучасні мікроелектронні технології, зокрема програмовні логікові інтегральні схеми, на яких реалізується пристрій, за своєю потужністю дозволяють значно розширити функціональні можливості пристроїв для 1 UA 121916 U 5 10 15 20 25 30 35 40 45 50 55 60 морфологічного аналізу. Вони мають здатність додатково виконувати частковий синтаксичний аналіз, зокрема визначати для словоформ, які обробляються, їх приналежність до відповідної частини мови. Спільними ознаками прототипу і запропонованого пристрою для морфологічного аналізу природно-мовних текстів є блок регістрів символів, лічильники символів й адрес результату, першу та другу схеми порівняння, блок пам'яті основ, блок пам'яті закінчень, блок дешифраторів символів, блок ключів, блок комутаторів, блок дешифраторів сполучень символів і блок мікропрограмного керування, при цьому перший інформаційний вихід блока дешифраторів символів підключений до першого інформаційного входу блока пам'яті основ, а групи з першої по q-ту інформаційних виходів підключені відповідно до групи перших інформаційних входів блока ключів й інформаційних входів блока комутаторів, групи з першої по q-ту інформаційних виходів якого підключені відповідно до інформаційних входів блока пам'яті закінчень, керуючий вхід якого підключений до першого керуючого виходу блока мікропрограмного керування, а його перша група інформаційних виходів і другий інформаційний вихід підключені відповідно до другої групи інформаційних входів блока ключів та інформаційного виходу блока пам'яті основ, першого інформаційного входу другої схеми порівняння і є першим інформаційним виходом пристрою, керуючі входи з першого по третій блока мікропрограмного керування є відповідно керуючими входами "Пуск", "Скидання" і "Синхросигнал", його другий керуючий вихід підключений до керуючого входу блока пам'яті основ і другого керуючого входу лічильника адрес результату, а третій керуючий вихід підключений до перших керуючих входів лічильників символів і адрес результату і другого керуючого входу блока регістрів символів, інформаційний вхід якого підключений до першого інформаційного входу першої схеми порівняння і є інформаційним входом пристрою, на другий інформаційний вхід першої схеми порівняння підключено код символу закінчення передачі вхідного слова, постійний на весь час роботи пристрою, на другий інформаційний вхід другої схеми порівняння підключено код символу закінчення передачі результату роботи пристрою, постійний на весь час роботи пристрою, а виходи першої та другої схем порівняння підключені відповідно до шостого та сьомого керуючих входів блока мікропрограмного керування, п'ятий керуючий вхід якого підключений до другого керуючого входу лічильника символів і є керуючим входом "Запис" пристрою, а четвертий керуючий вихід підключений до першого керуючого входу блока регістрів символів, п інформаційних виходів якого підключені відповідно до п інформаційних входів блока дешифраторів символів, а треті керуючі входи підключені до керуючих входів блока комутаторів та інформаційного виходу лічильника символів, інформаційний вихід лічильника адрес результату підключений до другого інформаційного входу блока пам'яті основ, третя група інформаційних входів якого підключена до інформаційних виходів блока дешифраторів сполучень символів, групи інформаційних входів якого підключені до відповідних груп інформаційних виходів блока ключів, четвертий керуючий вхід блока мікропрограмного керування є керуючим входом "Читання" пристрою. В основу корисної моделі поставлена задача створити такий пристрій для морфологічного аналізу природномовних текстів, в якому завдяки введенню блока пам'яті частин мови реалізувати граматичну функцію визначення частини мови, до якої належить словоформа, яка аналізується. З точки зору реалізації онтологічного підходу до розбудови методу автоматизованої обробки природномовних текстів великих об'ємів з послідуючою побудовою онтологічних баз знань та мовно-онтологічної картини світу для україномовних текстів [Палагин А.В. Онтологические методы и средства обработки предметных знаний / А.В. Палагин, С. Л. Крывый, Н.Г. Петренко. - [Монография]. -Луганск: изд. ВНУ им. В. Даля, 2012. 324 с. http://www.aduis.com.ua/Monography.pdf, Палагин А.В. Методологические основы разработки лингвистического процессора для обработки лингвистических корпусов текстов сверхбольших объемов / А.В.Палагин, Н.Г.Петренко. - УСиМ, 2013. - № 2. - С. 44-57, № 3. - С. 18-27] важливими частинами мови є іменник, дієслово, прикметник та прислівник. Коди цих та інших частин мови при зчитуванні результату можливо приєднати до відповідних словоформ, символи яких закодовані в комірках пам'яті основ. Досягнення поставленої мети забезпечується тим, що пристрій для морфологічного аналізу природномовних текстів (фіг. 1) містить блок регістрів символів 1, лічильник символів 2, першу схему порівняння 3, блок пам'яті основ 4, блок пам'яті частин мови 5, блок пам'яті закінчень 6, блок дешифраторів символів 7, блок ключів 8, блок комутаторів 9, блок дешифраторів сполучень символів 10, лічильник адрес результату 11, другу схему порівняння 12 і блок мікропрограмного керування 13, при цьому перший інформаційний вихід блока дешифраторів символів підключений до першого інформаційного входу блока пам'яті основ і першого інформаційного входу блока пам'яті частин мови, а групи з першої по q-ту інформаційних 2 UA 121916 U 5 10 15 20 25 30 35 40 45 50 55 60 виходів підключені відповідно до групи перших інформаційних входів блока ключів й інформаційних входів блока комутаторів, групи з першої по q-ту інформаційних виходів якого підключені відповідно до інформаційних входів блока пам'яті закінчень, керуючий вхід якого підключений до першого керуючого виходу блока мікропрограмного керування, а його перша група інформаційних виходів і другий інформаційний вихід підключені відповідно до другої групи інформаційних входів блока ключів та інформаційного виходу блока пам'яті основ, першого інформаційного входу другої схеми порівняння і є першим інформаційним виходом пристрою, керуючі входи з першого по третій блока мікропрограмного керування є відповідно керуючими входами "Пуск", "Скидання" і "Синхросигнал", його другий керуючий вихід підключений до керуючого входу блока пам'яті основ, другого керуючого входу лічильника адрес результату і керуючого входу блока пам'яті частин мови, а третій керуючий вихід підключений до перших керуючих входів лічильників символів і адрес результату і другого керуючого входу блока регістрів символів, інформаційний вхід якого підключений до першого інформаційного входу першої схеми порівняння і є інформаційним входом пристрою, на другий інформаційний вхід першої схеми порівняння підключено код символу закінчення передачі вхідного слова, постійний на весь час роботи пристрою, на другий інформаційний вхід другої схеми порівняння підключено код символу закінчення передачі результату роботи пристрою, постійний на весь час роботи пристрою, а виходи першої та другої схем порівняння підключені відповідно до шостого та сьомого керуючих входів блока мікропрограмного керування, п'ятий керуючий вхід якого підключений до другого керуючого входу лічильника символів і є керуючим входом "Запис" пристрою, а четвертий керуючий вихід підключений до першого керуючого входу блока регістрів символів, n інформаційних виходів якого підключені відповідно до n інформаційних входів блока дешифраторів символів, а треті керуючі входи підключені до керуючих входів блока комутаторів та інформаційного виходу лічильника символів, інформаційний вихід лічильника адрес результату підключений до других інформаційних входів блоків пам'яті основ і частин мови, група інформаційних виходів блока дешифраторів сполучень символів підключена до третіх груп інформаційних входів блоків пам'яті основ і частин мови, а групи інформаційних входів якого підключені до відповідних груп інформаційних виходів блока ключів, четвертий керуючий вхід блока мікропрограмного керування є керуючим входом "Читання" пристрою, а інформаційний вихід блока пам'яті частин мови є другим інформаційним виходом пристрою. Відмінними ознаками пристрою для морфологічного аналізу природномовних текстів є додатково введений блок пам'яті частин мови, причому його інформаційний вихід є другим інформаційним виходом пристрою. На фіг. 1 наведена блок-схема пристрою для морфологічного аналізу природномовних текстів. На фіг. 2 наведена блок-схема блока регістрів символів. На фіг. 3 наведена блок-схема блока дешифраторів символів. На фіг. 4 наведена блок-схема блока комутаторів. На фіг. 5 наведена блок-схема блока ключів. На фіг. 6 наведена блок-схема блока дешифраторів сполучень символів. На фіг. 7 наведена блок-схема блока мікропрограмного керування. На фіг. 8 наведена блок-схема алгоритму роботи пристрою. Пристрій для морфологічного аналізу природномовних текстів (фіг. 1) містить блок регістрів символів 1, лічильники символів 2 й адрес результату 11, першу схема порівняння 3, блок пам'яті основ 4, блок пам'яті частин мови 5, блок пам'яті закінчень 6, блок дешифраторів символів 7, блок ключів 8, блок комутаторів 9, блок дешифраторів сполучень символів 10, лічильник адрес результату 11, другу схема порівняння 12 і блок мікропрограмного керування 13. Інформаційний вхід блока регістрів символів 1 з'єднаний з першим інформаційним входом першої схеми порівняння 3 і є інформаційним входом 14 пристрою. Другий інформаційний вихід пам'яті закінчень 6 з'єднаний з інформаційним виходом пам'яті основ 4, з першим інформаційним входом другої схеми порівняння 12 і є першим інформаційним виходом 15 пристрою. Інформаційний вихід пам'яті частин мови 5 є другим інформаційним виходом 16 пристрою. Керуючі входи з першого по п'ятий блока мікропрограмного керування 13 є відповідно керуючими входами 17-21 пристрою. Крім того, керуючий вхід 21 пристрою з'єднаний з другим керуючим входом лічильника символів 2. Шостий 27 і сьомий 22 керуючі входи блока мікропрограмного керування 13 з'єднані відповідно з виходами першої 3 та другої 12 схем порівняння. Перший 24 та другий 23 керуючі виходи блока мікропрограмного керування 13 з'єднані відповідно з керуючими входами пам'яті закінчень 6 і пам'яті основ 4, пам'яті частин мови 5. Крім того, другий 23 керуючий вихід блока мікропрограмного керування 13 з'єднаний з 3 UA 121916 U 5 10 15 20 25 30 35 40 45 50 55 другим керуючим входом лічильника адрес результату 11. Третій 26 керуючий вихід блока мікропрограмного керування 13 з'єднаний з першими керуючими входами лічильників символів 2 і адрес результату 11 й другим керуючим входом блока регістрів символів 1, а до його першого керуючого входу підключений четвертий 25 керуючий вихід блока мікропрограмного керування 13. Блок регістрів символів 1 (фіг.2) містить n 8-бітових регістрів 28-1-28-n і дешифратор 29 на n виходів. Інформаційний вхід 30 з'єднаний з n інформаційними входами регістрів 28-1-28-n. Керуючий вхід 31 з'єднаний з першим керуючим входом дешифратора 29 і є четвертим керуючим виходом блока мікропрограмного керування 13. Керуючий вхід 32 з'єднаний з другим керуючим входом дешифратора 29, розрядність якого становить корінь квадратний із n. Керуючий вхід 33 з'єднаний з керуючими входами "Скидання" регістрів 28-1-28-n. Інформаційні виходи з першого по п дешифратора 29 підключені відповідно до входів синхросигналів регістрів 28-1-28-n, інформаційні виходи 34-1-34-n є інформаційними виходами блока регістрів символів 1. Блок дешифраторів символів 7 (фіг. 3) містить n блоків RAM 35-1-35-n, адресні входи яких з'єднані відповідно з інформаційними входами 36-1-36-n, а інформаційні виходи з'єднані відповідно з виходами 37 і 38-1-38-q. Вихід RAM 35-1 є 5-розрядним, так як перших букв у слові може бути не більше 32. Починаючи з другої букви (символу) у слові таких різних символів, може бути більше, ніж 32 (зокрема, для української мови добавляються символи "Апостроф" і "Дефіс"). Тому інші пам'яті RAM мають шестирозрядні виходи, які згруповані у q груп по q st кожна. Таке групування виконується на попередньому етапі розробки пристрою. Блок комутаторів 9 (фіг. 4) містить (n-1) мультиплексор 39, інформаційні входи яких з'єднані відповідно з інформаційними входами 41-1-41-(n-1), причому тут неважливе групування символів у групи. На кожен інформаційний вхід підключений 6-розрядний код відповідного символу, починаючи з кінця слова, згідно з його порядком у слові. Наприклад, для української мови кількість символів у закінченні не перевищує 11, а отже мультиплексорів 39 необхідно 11 і символи, що підключаються, є С(n-11) - Сn. Керуючі входи мультиплексорів 39 з'єднані відповідно з керуючим входом 40, а їх інформаційні виходи - з 42-1-42-(n-1). Блок ключів 8 (фіг.5) містить q груп по qst в кожній схем І 43, перші входи яких з'єднані відповідно з входами 44-1-44-(n-1), а другі - з 45-1-45-(n-1). Причому, перші з них є 6розрядними, а другі - однорозрядні. Входи 45-1-45-(n-1) є блокуючими для вхідних слів з закінченнями, причому блокуються відповідні позиції символів, що належать закінченням, і на вихід ключів передаються тільки коди символів, що належать основам вхідних слів. Виходи схем І 43 з'єднані відповідно з виходами 46-1-46-q1,…, 46-qst-46-(n-1). Блок дешифраторів сполучень символів 10 (фіг. 6) містить q блоків RAM 47-1-47-q по одному блоку на одну групу сполучень символів. Адресні входи блоків RAM з'єднані відповідно з входами 48-1-48-q1,…, 48-qst-48-(n-1), а інформаційні виходи - з виходами 49-1-49-q. Останні є середньою групою адрес пам'яті основ 4 і пам'яті частин мови 5, причому виходи 49-1 підключені до старших розрядів, а виходи 49-q - до молодших. Повна адреса пам'яті основ 4 і пам'яті частин мови 5 складається з п'яти старших розрядів, які з'єднані з виходом 37 блока дешифраторів символів 7, q груп середніх адрес, які з'єднані з виходами 49-1-49-q блока дешифраторів сполучень символів 10 і r молодших розрядів, які з'єднані з виходом лічильника адрес результату 11. Розрядність r обчислюється попередньо і залежить від найбільшої довжини послідовності слів результату обчислень, що передаються на вихід пристрою 15. Блок мікропрограмного керування 13 (фіг. 7) містить пам'ять мікрокоманд 50, регістр мікрокоманд 51 і мультиплексор умов 52. Адресні входи пам'яті мікрокоманд 50 підключені до молодших розрядів інформаційного виходу регістра мікрокоманд 51. їх розрядність залежить від довжини мікропрограм, які реалізують алгоритм роботи пристрою. Виходи з другого по дев'ятий пам'яті мікрокоманд 50 підключені до молодших розрядів (починаючи з другого) інформаційного входу регістра мікрокоманд 51. Виходи з десятого по дванадцятий підключені до керуючих входів мультиплексора умов 52 і є керуючим сигналом "Джерело умови". Вихід мультиплексора умов 52 підключений до входу молодшого розряду регістра мікрокоманд 51. Виходи з тринадцятого по шістнадцятий підключені до відповідних входів регістра мікрокоманд 51, виходи якого є керуючими виходами 60-63 відповідно. Інформаційні входи мультиплексора умов 52 підключені відповідно (починаючи з молодших розрядів) до першого виходу пам'яті мікрокоманд 50, керуючих входів 57, 56 "Запис", 55 "Читання", 54 і 53 виходів другої і першої схем порівнянь 12 і 3. Керуючі входи регістра мікрокоманд 51 "Синхроімпульси" і "Скидання" підключені відповідно до керуючих входів 58 і 59. 4 UA 121916 U Пам'ять частин мови має адреси і керуючий вхід "Читання" однакові з пам'яттю основ. При цьому за кожною основою закріплено відповідний код частини мови, до якої належить основа. Наприклад, розглянемо трьох розрядне кодування. Код 000 001 010 011 100 101 110 111 Частина мови не застосовується іменник дієслово прикметник прислівник дієприкметник дієприслівник інші частини мови. 5 10 При цьому деякі основи будуть однакові для різних частин мови. У такому випадку перевага надається кодам іменника і дієслова і враховується семантика предметної галузі, тексти з якої піддаються морфологічному аналізу (для такої відомої омонімії слова "мати", яка може означати і дієслово і іменник - при аналізі текстів з технічних дисциплін - перевага надається дієслову, при аналізі художнього твору - іменнику). Наведемо фрагмент з пам'яті основ. Основа винах винахідлив винахідливо винахідник винахідництв винахідницьк винаход 15 20 25 30 35 40 Код частини мови 001 011 100 001 001 011 010. Отже, результатом роботи пристрою буде множина основ, закінчень і відповідних частин мови. Як вказувалось вище, визначення частини мови для словоформи, яка аналізується, важливе при системно-онтологічному аналізі предметної галузі, для якої інженер зі знань проектує базу знань і відповідну онтологію. Згідно з методологією такого проектування [Палагин А.В. Онтологические методы и средства обработки предметных знаний / А.В. Палагин, С. Л. Крывый, Н.Г. Петренко. - [Монография]. - Луганск: изд. ВНУ им. В. Даля, 2012. - 324 с. http://www.aduis.com.ua/Monography.pdf,] інженер зі знань повинен переглянути й уточнити списки виокремлених з текстів іменників, дієслів, прикметників і прислівників. Тобто остаточно зняти невизначеності проаналізованих словоформ. Робота пристрою для морфологічного аналізу природномовних текстів починається з надходження на керуючий вхід 18 блока мікропрограмного керування 13 (фіг. 7) сигналу "Скидання=1", який ініціює в ньому внутрішній керуючий сигнал 26 "Скидання=1". Цей сигнал встановлює в "нульове" положення блок регістрів символів 1, регістр мікрокоманд 51 (фіг.7) і лічильники символів 2 і адрес результату 11. Потім пристрій переходить в режим очікування сигналу "Пуск=1". При його надходженні далі пристрій очікує надходження першого символу вхідного слова ("Запис=1"). При його надходженні на інформаційні входи блока регістрів символів 1 і першої схеми порівняння З подано 8-бітовий код першого символу (розглядається байтове кодування символів, наприклад Win 1251) і блок мікропрограмного керування 13 (фіг. 7) видає на керуючий вихід 24 сигнал "ЗпС=1". Номер символу запису формується лічильником символів 2, виходи якого керують дешифратором 29 (фіг. 2), виходи якого є сигналами запису у відповідний регістр символу 28-1,…, 28-n. 8-бітовий код першого символу з виходу РгС1 28-1 дешифрується у дешифраторі 35-1 (фіг. 3), з виходу якого 5-розрядний код утворює старші адреси пам'яті основ 4 і пам'яті частин мови. 5 При цьому об'єм останніх розбивається на 32 блоки (2 ), один з яких є блоком збереження результатів аналізу основ вхідних слів (такий "вільний" блок утворюється завдяки тому, що, наприклад для української мови немає жодного слова, яке починається з символу "м'який знак"). Аналогічним чином у блок регістрів символів 1 записуються всі символи вхідного слова. При цьому, при надходженні чергового символу в схемі порівняння 3 виконується порівняння "код вхідного символу тотожний коду символу закінчення передачі символів вхідного слова" (це може бути, наприклад код "09Н", що означає "Пробіл", який постійно присутній на другому 5 UA 121916 U 5 10 15 20 25 30 35 40 45 50 55 60 інформаційному вході схеми порівняння 3. При надходженні коду символу закінчення передачі символів вхідного слова на виході схеми порівняння 3 встановлюється сигнал "1", який поступає на шостий керуючий вхід 27 блока мікропрограмного керування 13. Після цього блок мікропрограмного керування 13 (фіг. 7) переходить до інтерпретації фрагменту алгоритму аналізу символів вхідного слова (фіг. 8). Спочатку аналізуються символи, що, можливо, належать до закінчення вхідного слова. При цьому групування символів у групи важливе для перших інформаційних входів блока ключів 8 (фіг. 5) і неважливе для інформаційних входів блока комутаторів 9 (фіг. 4). Розглянемо алгоритм аналізу закінчення. При цьому у лічильнику символів 2 буде записано код "01Н", який поступає на вхід 40 мультиплексорів 39-1,…, 39-(n-1) (фіг. 4), на виходи яких будуть передані коди "0, 0,…, Сn", які передаються на адресні входи пам'яті закінчень 6. В комірці пам'яті закінчень 6 з адресою "0, 0,…, Сn" записано: - якщо символ Сn не являється закінченням і словом без основи, то на других інформаційних виходах пам'яті закінчень 6 буде код "NOP" (немає операції), а на перших - код "0, 0,…, 0", тобто на виходах блока ключів 8 (фіг. 5) всі символи "С2,…, Сn" (символи всіх q груп) будуть заблоковані. Блокування символу означає, що у відповідних розрядах виходів блока ключів 8, виходах блока дешифраторів сполучень символів 10 (фіг. 6) і середніх адрес пам'яті основ 4 і пам'яті частин мови 5 будуть коди "0, 0,…, 0"; - якщо символ Сn є закінченням і словом без основи, то будуть вибрані адреси відповідних комірок пам'яті закінчень 6 і пам'яті основ 4 і пам'яті частин мови 5, в яких зберігаються результати для закінчення, слова Сn і коду частини мови для слова Сn відповідно. Якщо вхідне слово складається з двох букв (символів) С1 і С2 (вони ж при аналізі закінчень інтерпретуються як Сn-1 і Сn), то блоком ключів 8 символ С2 не буде заблокований і його дешифрований код через блок дешифраторів сполучень символів 10 поступить на середні адреси пам'яті основ 4 і пам'яті частин мови 5. На виходах блока комутаторів 9 будуть присутні коди "0,…, Сn-1, Сn" і в пам'яті закінчень 6 буде вибрана адреса результату аналізу можливого закінчення "Сn-1, Сn". На відповідному виході других інформаційних виходів пам'яті закінчень 6 буде зчитано код. При цьому керуючий вихід 24 блока мікропрограмного керування 13 "Читання пам'яті закінчень". Аналогічно виконується аналіз для будь якого ланцюжка символів "С1,…, Сn-1,Сn". Після аналізу закінчення і основи вхідного слова блок мікропрограмного керування 13 переходить до інтерпретації мікропрограми видачі результату аналізу. Спочатку на інформаційні виходи пристрою 15 і 16 передаються відповідно результати аналізу основи вхідного слова і його код частини мови. При цьому другий керуючий вихід блока мікропрограмного керування 13 встановлюється в "1", що дозволяє читання пам'яті основ 4 і пам'яті частини мови 5 і лічити в лічильнику адрес результату 11, або вибирати послідовні (по "+1") комірки результатів. Кількість комірок, в яких зберігається результат, є змінною величиною і залежить від конкретної основи. При цьому в кожній комірці пам'яті частин мови буде записано один і той же код відповідної частини для основи, яка вибирається з пам'яті основ. Кінцеві комірки кожного такого результату містять коди, наприклад "0D0AH", що означає кінець передачі результату проаналізованої основи. При цьому інформаційні виходи пам'яті основ 4 підключені до першого інформаційного входу другої схеми порівняння 11, вихід якої, встановлений в "1", поступає на сьомий керуючий вхід блока мікропрограмного керування 13 і сигналізує про закінчення передачі результату основи і коду відповідної частини з пам'яті частин мови 5 для основи, яка вибирається з пам'яті основ 4. Потім на інформаційний вихід 15 пристрою передається код комірки, що містить результат аналізу закінчення (при цьому керуючий сигнал 24 блока мікропрограмного керування 13 "Читання пам'яті закінчень =1"). При кожній передачі слова результату на перший інформаційний вихід 15 і коду відповідної частини мови на другий інформаційний вихід 16 пристрою в блоці мікропрограмного керування 13 аналізується четвертий керуючий вхід 20 "Читання = 1", який сигналізує про завершення передачі чергового слова і коду частини мови результату. При завершенні передачі на інформаційний вихід 15 пристрою кодів всіх комірок результату і коду відповідної частини мови на другий інформаційний вихід 16 блок мікропрограмного керування 13 на своєму третьому керуючому виході 26 встановлює сигнал "Скидання = 1", яким "скидає" відповідні регістри і лічильники, а алгоритм роботи пристрою переходить до очікування прийому чергового слова для аналізу. Практична реалізація пропонованого пристрою для морфологічного аналізу природномовних текстів виконана для опрацювання текстів загальновживаної лексики української мови (для російської мови розробка пристрою аналогічна). Були виконані 6 UA 121916 U 5 10 15 20 25 статистичні обчислення вказаної лексики на основі відомої лексикографічної системи "Словники України", доступної на веб-порталі http://lcorp.ulif.org.ua/dictua/. В якості прикладної програми був використаний додаток Microsoft Office-Microsoft Excel. Основні статистичні дані, необхідні для розробки пристрою, визначені з вказаної лексикографічної системи "Словники України". В ній кількість основ, що зберігаються в пам'яті основ 4 (фіг. 1), становить біля 260 тисяч, кількість строк закінчень, що зберігаються в пам'яті закінчень 6 - понад 2,5 тисячі. Середня довжина основи становить 9,27 символів. Практично досліджено, що від середньої довжини основи залежить кількість і розрядність q груп дешифраторів сполучень символів 10, розрядність середніх адрес пам'яті основ 4 і пам'яті частин мови 5 та кількість і групування схем І 43-1,…, 43-(n-1) (фіг. 5) блока ключів 8, тому що кількість сполучень символів, номера яких більші за номер середньої довжини (для української абетки - починаючи з символу 10), швидко зменшується і їх адресація в q-ій (останній) групі середніх адрес пам'яті основ 4 і пам'яті частин мови 5 вирішується природним шляхом (або не викликає труднощів). Моделювання пристрою для морфологічного аналізу природномовних текстів виконувалось в системі САПР ПЛІС Xilinx ISE 8.2і. Відома плата HTG-V6HXT - Х16РСІЕ - 565 фірми Hitech Global (www.hitechglobal.com/boards/ allboards.htm) на якій встановлені наступні апаратні засоби, доступні для користувача і необхідні, зокрема, для практичної реалізації пропонованого пристрою: 1) кристал ПЛІС Virtex-б НХ 565Т, який містить 912 блоків RAM ємністю 36Кbxl, з можливість організації від 36Кbxl до 512 × 36 (www. xilinx. com/products/boards_kits/virtex6.htm). Вказані блоки RAM використані для реалізації дешифраторів символів 7, дешифраторів сполучень символів 10 і пам'яті мікропрограм 50 (фіг. 7). На логікових комірках кристалу ПЛІС реалізовані блок регістрів 1, лічильники сполучень 2 і адрес результату 11, схеми порівняння 3 і 12, блок ключів 8, блок комутаторів 9, регістр мікрокоманд 51 і мультиплексор умов 52 (фіг. 7) блока мікропрограмного керування 13; 2) зовнішня (відносно кристалу ПЛІС) пам'ять RAM: I) DDR3 SO DIMM - до 16GB (на цій пам'яті реалізовано пам'ять основ 4 і пам'ять частин мови 5) і QDR-II - до 4М18 (на ній реалізовано пам'ять закінчень 6). ФОРМУЛА КОРИСНОЇ МОДЕЛІ 30 35 40 45 50 55 60 Пристрій для морфологічного аналізу природномовних текстів, який містить блок регістрів символів, лічильники символів й адрес результату, першу та другу схеми порівняння, блок пам'яті основ, блок пам'яті закінчень, блок дешифраторів символів, блок ключів, блок комутаторів, блок дешифраторів сполучень символів і блок мікропрограмного керування, при цьому перший інформаційний вихід блока дешифраторів символів підключений до першого інформаційного входу блока пам'яті основ, а групи з першої по q-ту інформаційних виходів підключені відповідно до групи перших інформаційних входів блока ключів й інформаційних входів блока комутаторів, групи з першої по q-ту інформаційних виходів якого підключені відповідно до інформаційних входів блока пам'яті закінчень, керуючий вхід якого підключений до першого керуючого виходу блока мікропрограмного керування, а його перша група інформаційних виходів і другий інформаційний вихід підключені відповідно до другої групи інформаційних входів блока ключів та інформаційного виходу блока пам'яті основ, першого інформаційного входу другої схеми порівняння і є першим інформаційним виходом пристрою, керуючі входи з першого по третій блока мікропрограмного керування є відповідно керуючими входами "Пуск", "Скидання" і "Синхросигнал", його другий керуючий вихід підключений до керуючого входу блока пам'яті основ і другого керуючого входу лічильника адрес результату, а третій керуючий вихід підключений до перших керуючих входів лічильників символів і адрес результату і другого керуючого входу блока регістрів символів, інформаційний вхід якого підключений до першого інформаційного входу першої схеми порівняння і є інформаційним входом пристрою, на другий інформаційний вхід першої схеми порівняння підключено код символу закінчення передачі вхідного слова, постійний на весь час роботи пристрою, на другий інформаційний вхід другої схеми порівняння підключено код символу закінчення передачі результату роботи пристрою, постійний на весь час роботи пристрою, а виходи першої та другої схем порівняння підключені відповідно до шостого та сьомого керуючих входів блока мікропрограмного керування, п'ятий керуючий вхід якого підключений до другого керуючого входу лічильника символів і є керуючим входом "Запис" пристрою, а четвертий керуючий вихід підключений до першого керуючого входу блока регістрів символів, п інформаційних виходів якого підключені відповідно до n інформаційних входів блока дешифраторів символів, а треті керуючі входи підключені до керуючих входів блока комутаторів та інформаційного виходу лічильника символів, інформаційний вихід лічильника адрес результату підключений до другого 7 UA 121916 U 5 10 інформаційного входу блока пам'яті основ, третя група інформаційних входів якого підключена до інформаційних виходів блока дешифраторів сполучень символів, групи інформаційних входів якого підключені до відповідних груп інформаційних виходів блока ключів, четвертий керуючий вхід блока мікропрограмного керування є керуючим входом "Читання" пристрою, який відрізняється тим, що в нього додатково введено блок пам'яті частин мови, причому його перший інформаційний вхід підключений до першого інформаційного входу пам'яті основ і першого інформаційного виходу блока дешифраторів символів, другий інформаційний вхід підключений до другого інформаційного входу блока пам'яті основ й інформаційного виходу лічильника адрес результату, третя група інформаційних входів підключена до третьої групи інформаційних входів блока пам'яті основ і до інформаційних виходів блока дешифраторів сполучень символів, керуючий вхід підключений до другого керуючого входу лічильника адрес результату, керуючого входу блока пам'яті основ і другого керуючого виходу блока мікропрограмного керування, а його інформаційний вихід є другим інформаційним виходом пристрою. 8 UA 121916 U 9 UA 121916 U 10 UA 121916 U 11 UA 121916 U Комп’ютерна верстка Г. Паяльніков Міністерство економічного розвитку і торгівлі України, вул. М. Грушевського, 12/2, м. Київ, 01008, Україна ДП “Український інститут промислової власності”, вул. Глазунова, 1, м. Київ – 42, 01601 12

Дивитися

Додаткова інформація

МПК / Мітки

МПК: G06F 17/27

Мітки: морфологічного, текстів, аналізу, природномовних, пристрій

Код посилання

<a href="https://ua.patents.su/14-121916-pristrijj-dlya-morfologichnogo-analizu-prirodnomovnikh-tekstiv.html" target="_blank" rel="follow" title="База патентів України">Пристрій для морфологічного аналізу природномовних текстів</a>

Подібні патенти