Перейти до основного вмісту
AI-R Info

Основна навіґація

  • Головна
  • Проєкти
    • ІНТЕЛЕКТУАЛЬНИЙ АГЕНТ НА ОСНОВІ ЗНАНЬ
    • БАЗА ЗНАНЬ ЯК СХОВИЩЕ ДАНИХ ІНТЕЛЕКТУАЛЬНОГО АГЕНТА
Меню облікового запису користувача
  • Вхід

Рядок навіґації

  1. Головна

3.4 Обробка текстів природної мови

Як правило нормативні документи та ресурси навчального процесу: робочі програми, методичні матеріали, завдання, тести, результати оцінювання представлені у вигляді неструктурованих та слабоструктурованих текстів природною мовою. Перетворення текстових матеріалів в граф знань може бути непростим та трудомістким завданням, яке потребує залучення висококваліфікованих експертів. Застосування сучасних методів та інструментів NLP може значно  спростити та прискорити цей процес, забезпечити його більшу стійкість та цілісність. Для автоматизації завдання трансформації текстових документів з визначеним контекстом предметної області в граф знань можуть використані підходи та інструменти запропоновані в [19].

Процес трансформації складається з таких основних елементів: токенізація (tokenization) - поділ тексту на значущі сегменти, які називаються токенами; позначення частин мови (part-of-speech tagging) - визначення для кожного токена частини мови та позначення її; морфологічний аналіз (morphology) - аналіз структури слів, виділення кореня; лематизація (lemmatization) - групування відмінюваних форм слова так, щоб їх можна було проаналізувати як єдиний елемент; розпізнавання іменованих сутностей (named entity recognition) - ідентифікація та позначення іменованих та числових сутностей; розбір залежностей (dependency parsing) - розпізнавання меж речень і перебирання базових фраз іменників; зв'язування сутностей (entity linking) - зв’язування сутностей з вузлом графа KB.

В результаті трансформації створюється прототип підграфа, який має бути розглянутий експертами та в разі прийняття інтегрований в граф  KB. Процес трансформації та розгляду є ітеративним, поки зміни не будуть прийняті. В разі відхилення варіанту наступна ітерація виконується з новими значеннями параметрів, які мають наблизити результат наступної ітерації до цілі. В разі прийняття KB набуває нових знань про предметну область, отриманих з обробленого джерела. 

Далі

Language switcher

  • English
  • Ukrainian
RSS-потік

© Юрій Харченко. 2024

email: info@ai-r.info

Побудовано на Drupal