Портативний перекладач
Номер патенту: 107669
Опубліковано: 24.06.2016
Автори: Лісовський Володимир Миколайович, Балабін Віктор Володимирович, Пампуха Ігор Володимирович, Литвиненко Леонід Олександрович, Замаруєва Ірина Вікторівна, Ніколаєвський Олександр Юрійович
Формула / Реферат
Портативний перекладач, який відрізняється тим, що містить мікрофон, приєднаний до аналого-цифрового перетворювача, який з'єднаний з процесором цифрової обробки сигналу, до якого підключені мікроконтролер, аналого-цифровий перетворювач, цифро-аналоговий перетворювач, енергонезалежна пам'ять, до якої приєднаний мікроконтролер, кнопку включення живлення, кнопку керування введенням усномовного сигналу для перекладу, засоби індикації, динамік, вихід для з'єднання диктофона з комп'ютером та акумулятор та додатково містить автоматизоване робоче місце (АРМ) "Парадигма".
Текст
Реферат: Портативний перекладач містить мікрофон, приєднаний до аналого-цифрового перетворювача, який з'єднаний з процесором цифрової обробки сигналу, до якого підключені мікроконтролер, аналого-цифровий перетворювач, цифро-аналоговий перетворювач, енергонезалежна пам'ять, до якої приєднаний мікроконтролер, кнопку включення живлення, кнопку керування введенням усномовного сигналу для перекладу, засоби індикації, динамік, вихід для з'єднання диктофона з комп'ютером та акумулятор та додатково містить автоматизоване робоче місце (АРМ) "Парадигма". UA 107669 U (12) UA 107669 U UA 107669 U 5 10 Корисна модель належить до портативних перекладачів. Відомі способи кодування лексико-граматичної інформації до словоформ базуються на інтегральному представленні граматичної інформації до словоформи. Методика інтегрального цифрового кодування граматичної інформації Бєлоногова [Белоногов Г.Г., Богатырев В.И. Автоматизированные информационные системы. - М., 1973.] призначена для побудови словника квазіфлексій в автоматизованих системах класифікування й індексування російськомовних рефератів. За даною методикою основні словозмінні класи (іменник, прикметник, особові форми дієслова) розбито на підкласи за ознаками відмінка, роду, числа. Так, клас іменника розбито на 36 класів, кожний з яких однозначно визначає рід, число, відмінок і має відповідно свій номер (приклад: див. табл. 1), клас прикметників розбитий 24 підкласи. Клас дієслів складається з 5 підкласів, які визначаються числом, родом та інфінітивом. Таблиця 1 Список морфологічних кодів для іменників в однині Число Рід Відмінок Код класу 15 20 Н 1 Середній Р Д З О 2 3 4 5 М 6 Н 7 Однина Жіночий Чоловічий Д З О М Н Р Д З О 9 10 11 12 13 14 15 16 17 Р 8 М 18 На підставі таблиць морфологічних кодів і вибірки текстів будується вручну словник квазіфлексій (КФЛ). Для укладання списку квазіфлексій створюється дерево, яке репрезентує КФЛ з певною кінцевою графемою. Довжина вибраного ланцюга для квазіфлексії є змінною і має однозначно визначати лексико-граматичний клас. Фрагмент словника квазіфлексій, який будується за способом кодування Г. Бєлоногова, представлений в таблиці 2. Таблиця 2 Список квазіфлексій для автоматичного морфологічного аналізу Квазіфлексія А Ства Има На Ана Ена Мена Та Ута 25 30 35 Морфологічний код 2,7,14,19,22, 2,19,22 7,62 7Д4 62 62 7,14,19,22 7,14 62,14 Приклади яма (7), гриба (14), озера (2, 19, 22) посольства(2, 19, 22) зима (7), сопоставима (62) страна (7), крана (14) убрана(62) застелена (62) смена (7), спортсмена (14),имена (19,22) лопата (7), брата (14) выдвинута (62), кнута (14) Недоліком наведеного способу кодування є його апріорна неповнота вибраних граматичних категорій. Так, не враховуються іменники, які вживаються тільки у множині (часы, недра тощо) і не мають відповідно граматичної категорії роду, не розрізняються граматичні ознаки прикметника і дієприкметника, не враховується, яким чином повнота і достовірність автоматичного морфологічного аналізу впливає на наступні етапи автоматичного опрацювання тексту, зокрема синтаксичний і семантичний аналіз. Фактично списки кінцевих буквосполучень застосовуються лише для визначення частини мови та при автоматичному виділенні умовної пошукової основи, що значно звужує їхнє застосування в інших автоматизованих системах, де використовується автоматичний морфологічний аналіз. Іншій спосіб інтегрального буквеного кодування лексико-граматичної інформації для української і російської мов є сумісною розробкою Інституту мовознавства ім… О.О. Потебні і Київського національного університету імені Тараса Шевченка [Перебейнос В.И., Грязнухина Т.А., Дарчук Н.П. и др. Морфологический анализ научного текста на ЭВМ. - К., 1989.]. Розробники використовували комбінований метод, у якому поєднувалися дві таблиці: таблиця квазіоснов (див. табл. 3) і додаткова таблиця флексій із характеристикою частиномовною і категоріальною (рід, число, відмінок, особа, час). 1 UA 107669 U Таблиця 3 Фрагмент словника квазіоснов Незмінна слова частина Ст. Став Змінна слова частина іл ок Код лексико-граматичного класу Й Й Кожній лексемі у початковій формі, яка має словозміну, приписувався код лексикограматичного класу, для якого у додатковій таблиці наводилися форми словозміни див. табл. 4). 5 Таблиця 4 Фрагмент словника змінної частини слова із флексіями Код парадигм, класу 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 10 15 20 Код граматичн. знач. ЙИ ЙР ЙД ЙВ ЙТ ЙП ЙИ ЙР ЙД ЙВ ЙТ ЙП ЙИ ЙР ЙД ЙВ ЙТ ЙП ЙИ ЙР ЙД ЙВ ЙТ ЙП Клас словоформи їм. ч. р. їм. ч. р. їм. ч. р. їм. ч. р. їм. ч. р. їм. ч. р. їм. ч. р. їм. ч. р. їм. ч. р. їм. ч. р. їм. ч. р. їм. ч. р. їм. ч. р. їм. ч. р. їм. ч. р. їм. ч. р. їм. ч. р. їм. ч. р. їм. ч. р. їм. ч. р. їм. ч. р. їм. ч. р. їм. ч. р. їм. ч. р. Словозмінний підклас Наз. одн. Род. одн. Дав. одн. Знах. одн. Орудн. одн. Місц. одн. Наз. мн. Род. мн. Дав. мн. Знах. мн. Орудн. мн. Місц. мн. Наз. одн Род. одн. Дав. одн. Знах. одн. Орудн. одн. Місц. одн. Наз. мн. Род. мн. Дав. мн. Знах. мн. Орудн. мн. Місц. мн. Змінна частина слова іл ола олу іл олом олі оли олі олам оли олами олах ок ка ку ок ком ку ки ків кам ки ками ках Обсяг лінгвістичної бази даних для даного способу включає словник квазіоснов (приблизно 100 тис. словникових одиниць) і словник квазіфлексій (300 словникових одиниць). Недоліком даного способу можна назвати обмеженість його використання, так він ефективний для побудови парадигматики словозмінних класів слів, наприклад в автоматизованих системах укладання граматичних словників. Крім цього, комбіноване використання словників квазіоснов і квазіфлексій унеможливлює автоматичний морфологічний аналіз нових слів. За найближчий аналог вибрано ЕСТАСО Partner UT-203 [www.ectaco.com]. Partner UT-203 є портативним пристроєм, що містить процесор цифрової обробки сигналів й має апаратну систему розпізнавання усномовних фраз. Пристрій призначений для перекладу усномовних фраз з російської та англійської мови на одну з трьох мов: англійську, російську або німецьку. Результат перекладу фрази виводиться на екран й може бути озвучений російською, німецькою, або англійською мовами. Partner UT-203 заявлений як багатодикторна система, тобто така, що не потребує попереднього настроювання на голос диктора. Розпізнавання на пристрої обмежується 3000 фразами, які розбито на 16 підкатегорій. 2 UA 107669 U 5 10 15 20 25 Загальним недоліком розглянутих способів інтегрального кодування лексико-граматичної інформації і портативного пристрою ЕСТАСО Partner UT-203, в якому застосовуються відповідні словники є вузько спеціалізована сфера їх використання, не адаптованість для різноманітних задач автоматичної обробки природно-мовних текстів. Задачею корисної моделі є створення портативного перекладача з меншими габаритами та з автоматичним формуванням словника квазіфлексій, як елемента лінгвістичного забезпечення, обсяг якого в 10-30 разів менший у порівнянні з відомими аналогами, при цьому достовірність автоматичного морфологічного аналізу така ж сама, що й на основі словника словоформ, крім того дозволяє аналізувати нові слова. Поставлена задача вирішується тим, що портативний перекладач, згідно з корисною моделлю, містить мікрофон 1 приєднаний до аналого-цифрового перетворювача 2, який з'єднаний з процесором цифрової обробки сигналу 4, до якого підключені мікроконтролер 3, аналого-цифровий перетворювач 2, цифро-аналоговий перетворювач 6, енергонезалежну пам'ять 5, до якої приєднаний мікроконтролер 3, кнопки включення живлення 7, кнопки керування введенням усномовного сигналу для перекладу 8, засоби індикації 9, динамік 10, виходу для з'єднання диктофона з комп'ютером 11 та акумулятор 12 та додатково містить автоматизоване робоче місце (АРМ) "Парадигма". Використання у портативному перекладачеві нового словника, сформованого на основі кодування лексико-граматичної, інформації, яка базується на розподіленому формуванні значень граматичних категорій до словоформ, що дає можливим незалежно входити до будьякої позиції в залежності від розв'язуваної прикладної задачі автоматичної обробки тексту. Оскільки цифровий позиційний код не залежить від мови, тому що лексико-граматичні класи винесено окремо та їх кількість не обмежена. З'являється можливість використати менший об'єм пам'яті (зрозуміло, що пам'ять можна виконати з меншими розмірами), отже і створити менші розміри перекладача. В таблиці 5 наведено коди лексико-граматичних класів (лівий стовпчик) з відповідними граматичними категоріями, які є універсальними як для групи слов'янських мов, так і для романно-германської групи. Таблиця 5 Список граматичних кодів для різних лексико-граматичних класів Код лг кл. 1* 2* 3* 4* 5* 6* 7* 8* 9* 10* 11* 12* 13* 14* 15* 16* 17* 18* 19* 20* 21* 22* 23* 24* Назва лексикограматичного класу Іменник Прикметник Числівник-іменник Числівник-прикметник Займенник-особовий Займенник-іменник Займенник-прикметник Дієслово мин. часу Дієслово не мин. часу Інфінітив Дієслово наказ, епос. Дієприкметник Дієприслівник Прислівник Порівняльн. прикмети. Присвійн. прикметник Короткий прикметник Короткий дієприкметн. Порівняльн. прислівник Частка Модальне слово Артикль Прийменник Сполучник Рід + + + + + 0 + + 0 0 0 + 0 0 0 + + + 0 0 0 + 0 0 Число + + + + + + + + + 0 + + 0 0 0 + + + 0 0 + + 0 0 Відмін Особа Вид . + 0 0 + 0 0 + 0 0 + 0 0 + + 0 + 0 0 + 0 0 + 0 + + + + + 0 + + 0 0 + 0 0 0 0 0 0 0 0 0 0 0 + 0 0 0 0 0 + 0 0 0 0 0 0 0 0 0 + 0 0 0 0 + 0 0 0 0 0 3 Стан 0 0 0 0 0 0 0 0 + + 0 + 0 0 0 0 0 0 0 0 0 0 0 0 Ступін Час Істота ь 0 0 + 0 0 0 0 0 0 0 0 0 0 0 + 0 0 0 0 0 0 0 0 0 0 + 0 0 0 0 0 0 + 0 + 0 0 0 0 0 0 0 t 0 0 0 0 0 0 0 0 0 0 0 + 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 UA 107669 U Таблиця 5 Список граматичних кодів для різних лексико-граматичних класів Код лг кл. 25* 26* 27* 28* 29* 30* 31* 32* 5 Назва лексикограматичного класу Герундій Сполучник-іменник Сполучник-прикметник Допоміжне дієслово Дієслово на -ся, -сь Безособове дієслово Іншомовне слово Дієсприслівник на ся/сь Рід 0 + + 0 + 0 + 0 Відмін Особа Вид . + 0 0 + 0 0 + 0 0 0 + 0 0 + 0 0 0 0 + 0 0 0 0 0 Число 0 + + 0 + 0 + 0 Ступін Час Істота ь 0 0 0 0 0 + 0 0 0 0 + 0 0 + 0 0 + 0 0 0 0 0 + 0 Стан 0 0 0 0 0 0 0 0 В таблиці 5 знаком «+» позначено граматичні категорії, які для відповідних лексикограматичних класів можуть приймати значення від 1 до 9, 0 означає, що дана категорія лексикограматичного класу не визначається. В таблиці 6 представлені значення граматичних категорій для кожної позиції з таблиці 5. Таблиця 6 Значення граматичних категорій Гр. категорія 1 Рід Чол. Число Одн. Відмінок Наз. 20 25 30 Перша Друга Третя Вид Стан Ступінь Час Істотність 15 3 Сер. т/одн Дав. Особа 10 2 Жін. Множ. Род. Док. Акт. Пор. Тепер. Іст. Недок. Пас. Найв. Майб. Неіст. Двовид. 4 з/ж т/мн Знах. 5 з/ч 6 Минул. Клич. 8 9 Невизн. Невизн. Невизн. 0 відс відс відс Невизн. відс Невизн. Невизн. Невизн. Невизн. Невизн. Ор. Місц. Не 3Не 1-а я 7 відс відс відс відс відс На основі таблиць 5-6 формується код до кожної словоформи, .який має враховувати всі можливі контексти даної словоформи, наприклад: Українська мова; мати 1*211000001/1*214000001/1*121000002/1*124000002/10*004021000/ Російська мова: стекло 1*311000002/1*314000002/8*314011000/ Англійська мова: acting 1 *919000002/2 *999000000/25 *009000000/ В наведених прикладах знаком «/» відокремлюється альтернативна інформація. Так, українське слово мати в тексті може виступати в ролі іменника жіночого роду однини істоти у називному і знахідному відмінках (1-2 запис цифрового коду), іменника чоловічого роду множини неістоти у називному і знахідному відмінку (3-4 запис) та інфінітиву (5 запис). Як видно з наведених прикладів застосування у портативному перекладачеві нового словника, сформованого на основі кодування лексико-граматичної інформації є універсальним відносно мови і дозволяє в єдиній системі кодування представляти словоформи, що відносяться до різних мов. Запропонований код надає можливості практично необмеженого застосування в системах автоматичної обробки природно-мовних письмових текстів. На Фіг. 1 зображено структурну схему портативного перекладача, в якому реалізований спосіб усномовного перекладу; Фіг. 2 автоматизоване робоче місце (АРМ) "Парадигма". Приклад реалізації Портативний перекладач складається з наступних частин: 1 - мікрофона; 4 UA 107669 U 5 10 15 20 25 30 35 40 45 50 55 2- аналого-цифрового перетворювача; 3 - мікроконтролера; 4 - процесора цифрової обробки сигналів; 5 - енергонезалежної пам'яті; 6 - цифро-аналогового перетворювача; 7 - кнопки включення живлення; 8 - кнопки керування введенням усномовного сигналу для перекладу; 9 - двох світлових індикаторів; 10 - динаміка; 11 - виходу для з'єднання диктофона з комп'ютером; 12 - акумулятора. Мікрофон 1 приєднаний до аналого-цифрового перетворювача 2, який з'єднаний з процесором 4 цифрової обробки сигналу. До процесора 4 підключені мікроконтролер 3, аналого-цифровий 2 та цифро-аналоговий 6 перетворювачі. Мікроконтролер 3 приєднаний до енергонезалежноі пам'яті 5, клавіатури 7, 8, та засобів індикації 9. Живлення пристрою виконується за допомогою акумулятора 12. Для зв'язку з комп'ютером призначений USB-порт 11. Введення усномовних слів та словосполучень активується натисненням кнопки керування введенням усномовного сигналу. Введення усномовного сигналу полягає в тому, що звуковий сигнал, який з мікрофона 1 надходить в аналого-цифровий перетворювач 2, оцифровується і подається в процесор 4 цифрової обробки сигналу, починає сприйматися ним як послідовність звукових відліків, які починають поділятися на блоки даних, оброблятися, перетворюватися на вектори параметрів та розпізнаватися. Результатом розпізнавання можуть бути переклад або відмова від розпізнавання (наприклад, якщо слово або словосполучення відсутнє в словнику транскрипцій). В залежності від результату розпізнавання, процесор 4 генерує сигнал мікроконтролера 3, який вибирає за заданим алгоритмом слово або словосполучення для озвучення та викликає його із енергонезалежної пам'яті 5. Слово або словосполучення для озвучення подається в процесор 4, декодується в прийнятну для озвучення форму, надходить в цифро-аналоговий перетворювач 6 та озвучується в динаміку 10. Світлові індикатори 9 індексують режими, в яких працює пристрій: очікування, перекладу, озвучення, з'єднання з персональним комп'ютером тощо. Для розширення або зміни набору фраз для розпізнавання користувач мас змінити файл словника транскрипцій, який зберігається в пам'яті словника-перекладача. В нашому випадку словник формується: 1 Укладання лінгвістичної бази даних Лінгвістична база даних (ЛБД) є невід'ємним етапом побудови лінгвістичного забезпечення і самим трудомістким. Для автоматизованого формування наборів кодів розроблено автоматизоване робоче місце (АРМ) "Парадигма" (див. Фіг. 2). АРМ дозволяє формувати набір кодів безпосереднім вводом словоформ, завантаженням із текстового файлу, обирати мову, автоматично формувати словники за лексико-граматичними класами (визначеними в табл. 5), автоматично будувати словник квазіфлексій, який власне і є компонентом лінгвістичного забезпечення для автоматичного морфологічного аналізу. Функція фільтрації словників дозволяє із загальної кількості словникових статей (їх кількість висвітлюється у лівому верхньому куті) для заданої мови формувати словники як за окремим кодом лексико-граматичного класу, так і за декількома. Так наприклад, із загальної ЛБД виокремлюється словник службових частин мови, оскільки він невеликий за розміром (близько 1 тис. сл. од.) і є сталим, тобто не поповнюється в мові новою лексикою. Фільтрація словників за окремими частинами мови дозволяє будувати парадигматичні класи. Функція побудови словника квазіфлексій (див. Фіг. 2) дозволяє безпосередньо автоматично сформувати лінгвістичне забезпечення для модуля автоматичного морфологічного аналізу (АМА). Словник квазіфлексій представляє собою кінцеву послідовність букв, що відсортовані з кінця слова і відповідають певній множині лексем (словоформ), з відповідним ним лексикограматичним кодом. Фрагмент словника словоформ для української мови представлений в таблиці 7. 5 UA 107669 U Таблиця 7 Фрагмент українського словника словоформ Словоформа справа трава протрава октава контроктава застава підстава вистава постава білінгва лева 5 10 15 20 25 30 35 40 Набір ЛГ кодів 1*211000002/ 1*211000002/ 1*211000002/ 1*211000002/ 1*211000002/ 1*211000002/ 1*211000002/ 1*211000002/ 1*211000002/ 1*112000001/1*114000001/ 1*112000001/1*114000001/ Алгоритм побудови словника квазіфлексій працює таким чином. Починаючи з кінця слова, добирається мінімальна послідовність букв, яка має однакові набори лексико-граматичних кодів. Так, для фрагменту, наведеного в таблиці 7, словник квазіфлексій буде містити 3 словникових статті: а 1*211000002/ гва 1*112000001/1*114000001/ ева 1*112000001/1*114000001/ Словник квазіфлексій може використовуватися безпосередньо як компонент лінгвістичного забезпечення модуля автоматичного морфологічного аналізу. Перевагами такого словника на відміну від словника квазіоснов + таблиці квазіфлексій є незначний обсяг, який коливається від 3 до 10 тис. словникових статей, який здатний покрити словозмінення в певній мові та аналізувати нові слова. Обсяг словника квазіфлексій залежить від детальності заповнення позиційно-цифрового коду, який в свою чергу залежить від певної прикладної задачі обробки природно-мовного тексту. 1.1. Оптимізація лексико-граматичного коду під задачу В залежності від прикладної задачі на інтервалі [0,9] визначаються лише ті значення граматичних категорій, які потрібні для розв'язання задачі. Для задачі вибору автоматизованого укладання списку ключових слів (понять) в інформаційно-пошукових системах достатньо вибрати на базовій множині (в АРМ "Парадигма") лише лексико-граматичні класи, які визначають предметну галузь, а це іменники й прикметники. Для заданої прикладної задачі значення граматичної категорії "істотність" не важлива (остання позиція коду), тому замість конкретного значення можна ставити 0. Обсяг словника квазіфлексій з урахуванням службових частин мови й незмінюваних слів буде складати не більше 3 тис. сл. статей. Для задачі машинного перекладу категорія "істотність" не тільки має важливе значення, але й для перекладу на англійську мову потрібно доповнити ще більш детальніше. Так, при перекладі на англійську мову важливо не тільки істота (значення "1" з табл. 6), але людина чи не людина, оскільки від цього залежить, який займенник можна використовувати в контексті (she, he, it), тобто доцільно ввести ще значення "З" - істота людина, для цього на інтервалі значень [0,9] є зарезервовані позиції (див. табл. 6). Крім того, задача машинного перекладу передбачає всі етапи аналізу тексту, включаючи морфологічний, синтаксичний і семантичний аналіз тексту. Тому доцільно включити до коду значення граматичної категорії відмінок для дієслів, що дозволить на етапі синтаксичного аналізу автоматично визначати групу присудка і знизити синтаксичну омонімію. Перераховані особливості суттєво впливають на обсяг словника квазіфлексій, оскільки чим більше варіативність коду, тим більше обсяг словника квазіфлексій. ФОРМУЛА КОРИСНОЇ МОДЕЛІ Портативний перекладач, який відрізняється тим, що містить мікрофон, приєднаний до аналого-цифрового перетворювача, який з'єднаний з процесором цифрової обробки сигналу, до якого підключені мікроконтролер, аналого-цифровий перетворювач, цифро-аналоговий 6 UA 107669 U перетворювач, енергонезалежна пам'ять, до якої приєднаний мікроконтролер, кнопку включення живлення, кнопку керування введенням усномовного сигналу для перекладу, засоби індикації, динамік, вихід для з'єднання диктофона з комп'ютером та акумулятор та додатково містить автоматизоване робоче місце (АРМ) "Парадигма". Комп’ютерна верстка О. Рябко Державна служба інтелектуальної власності України, вул. Василя Липківського, 45, м. Київ, МСП, 03680, Україна ДП “Український інститут інтелектуальної власності”, вул. Глазунова, 1, м. Київ – 42, 01601 7
ДивитисяДодаткова інформація
МПК / Мітки
МПК: G06F 17/28
Мітки: портативний, перекладач
Код посилання
<a href="https://ua.patents.su/9-107669-portativnijj-perekladach.html" target="_blank" rel="follow" title="База патентів України">Портативний перекладач</a>
Попередній патент: Стенд для випробувань на надійність ріжучих елементів машин
Наступний патент: Портативний перекладач
Випадковий патент: Музичний монетний автомат-приставка