ВСТУП | AI-R Info

Історично в підходах до проєктування та побудови DW простежуються два головних напрямки започатковані основоположниками галузі Ральфом Кімболом (Ralph Kimball) [1] та Біллом Інмоном (Bill Inmon) [2].

Підхід Кімбола слідує висхідному підходу до проектування архітектури DW, у якому спочатку формуються вітрини даних. Потім використовується інструмент ETL, щоб отримати дані з кількох джерел і завантажити їх у проміжну область реляційної бази даних. Наступний етап включає завантаження даних у DDW, денормалізоване за своєю природою. Процес розбиває дані на таблицю фактів, які є числовими транзакційними даними, та таблицю вимірів, які є довідковою інформацією, що визначає факти. Щоб інтегрувати дані, цей підхід передбачає узгодження вимірів даних. Це гарантує, що окремий елемент даних визначається однаково для всіх фактів [3].

Інмон пропонує концепцію розробки DW, яке визначення предметної області та об’єктів, з якими працює підприємство, наприклад клієнтів, продуктів, постачальників тощо. Він визначає DW як «предметно-орієнтований, інтегрований, незмінний набір даних, що підтримує хронологію та організований для цілей підтримки управління». Створюється логічна модель для кожної первинної сутності з усіма атрибутами, пов’язаними з цією сутністю. Ця логічна модель може включати всі деталі, аспекти, відносини, залежності та зв’язки. Перевага цього низхідного підходу полягає в тому, що DW діє як єдине джерело істинності для всієї предметної області, всі дані інтегровані [3].

Білл Інмон та його компанія розробили технологію, відому як «текстове усунення неоднозначності». Ця технологія застосовує контекст до необробленого тексту та переформатує його у стандартний формат бази даних. Текстове усунення неоднозначності здійснюється за допомогою виконання спеціального текстового ETL/ELT. Воно може бути застосовано скрізь, де є необроблений текст, наприклад, у документах, Hadoop, електронній пошті тощо. Вводиться поняття семантичного шару, представлення корпоративних даних через загальні терміни. Семантичний шар відображає складні дані у визначені терміни та робить уніфіковане консолідоване уявлення про дані всієї організації [4] [5].

Методологію розробки DW, яка інтегрує дані з різних джерел шляхом поєднання технологій DW та онтології розглядають в [6], де кожне джерело може мати свою локальну онтологію, яка посилається на глобальну, з можливістю її спеціалізації чи розширення.

Поєднання технологій DW, OLAP та SW розглядається в [7]. Технології SW застосовуються для моделювання та представлення даних, включаючи семантичну анотацію і процеси ETL з урахуванням семантики.

В [8] пропонується оригінальна методологія побудови сховища текстових даних і виконання операцій OLAP над текстовими даними після категоризації текстових документів в ієрархії понять шляхом фіксації контекстуальної подібності між текстовими документами.

Проєкт KB для IA слідує шляхом запропонованим Біллом Інмоном, що дозволяє уникнути надмірності даних завдяки нормалізованій формі структури сутностей та спростити процедури оновлення і формування запитів використовуючи єдину логічну модель.

Метою проєкту є дослідження підходів та методів створення KB IA на основі SM, яка відображається в реляційній моделі даних.

Об’єктом дослідження є IA заснований на знаннях в сенсі визначення даного в [9].

Предметом дослідження є KR в IA в формі SM, як математичної моделі концептуальної структури, що складається з набору понять і когнітивних зв’язків між ними. SM представляється узагальненим графом, де поняття та сутності відповідають вузлам графа, а зв’язки між поняттями – дугам [10].

Досягнення мети проєкту складається з виконання таких завдань:

формулювання математичної моделі структури SM;
створення на основі математичної моделі реляційної моделі даних;
імплементація реляційної моделі для конкретної бази даних;
розробка системи запитів до побудованої SM засобами логічного програмування;
виконання тестового прикладу на побудованій системі.

Далі