Noi modele de date si aplicatiile lor

Acest articol prezintă câteva noi direcţii de cercetare în domeniul bazelor de date. Iată noi modele de date (modelul semistructurat şi cubul de date) şi a unui nou limbaj de specificare a tranzacţiilor - Transaction Datalog - limbajul logicii tranzacţionale.

Interogarea World-Wide-Web-ului

Există surse de date, ca de pildă World-Wide-Web-ul, pe care am dori să le interogăm ca baze de date, dar care nu pot fi constrânse de o schemă. Majoritatea interogărilor web-ului folosesc tehnici de regăsire a informaţiei pentru a găsi pagini după conţinut. Există însă puţine posibilităţi de formulare a interogărilor în vederea exploatării structurii web-ului şi, deoarece aceasta nu este conformă cu nici un model de date standard, este necesară o metodă de descriere a acestei structuri.

Modelul de date semistructurat a fost propus în vederea satisfacerii acestei necesităţi. Ideea centrală în modelul semistructurat este de a reprezenta datele sub forma unui graf etichetat. Structura documentelor hipertext este capturată interpretând arcele grafului drept legături. O reprezentare posibilă este cea introdusă în proiectul UnQL[1]. Etichetele arcurilor pot fi atât valori (de tip întreg, şir de caractere şi alte tipuri de bază, precum şi de tip de date abstract, ca video, audio, etc.) cât şi nume de atribute (Film, Titlu, Regizor, Actor), etc. modelând de exemplu cunoscuta bază de date cinematografică [2].

Există numeroase limbaje de interogare pentru modelul semistructurat. Toate aceste limbaje sunt construite pe baza ideii de expresii asociate căilor (path expressions). Acestea sunt expresii regulate ce exprimă căi generice în graful etichetat, permiţând astfel traversarea grafului şi colecţionarea tuturor etichetelor ce satisfac o anumită condiţie de selecţie. Dacă, de exemplu, condiţia de selecţie este „eticheta este un şir de caractere, şi arcul său este adiacent unui arc etichetat actor”, atunci rezultatul acestei interogări va conţine numele tuturor actorilor din baza de date (printre altele).

Limbajele semistructurate pot fi clasificate în două categorii, după strategia de calcul adoptată. Prima categorie, dezvoltată oarecum ad-hoc, se bazează pe modelarea grafurilor în modelul relaţional şi apoi pe interogarea lor într-un limbaj relaţional de tip SQL.

Câteva exemple prezentate în literatură sunt [3], [4], [5], [6], [7]

A doua categorie porneşte de la un limbaj bazat pe o noţiune formală de calcul cu date semistructurate: limbajul UnQL este reprezentantul acestei categorii [1]. Acest limbaj porneşte de la „recursivitatea structurală”, forma naturală de recursivitate asociată cu tipul de date grafuri etichetate. Datorită bazei sale teoretice, UnQL este capabil de restructurări complexe, „în adâncime”, spre deosebire de limbajele din prima categorie, care se limitează la scoaterea la suprafaţă a datelor din graf, fără însă a crea noi structuri.

Această capacitate de restructurare stă la baza proiectului STRUDEL[8] care propune limbajul StruQL de gestiune a sit-urilor de web. Un alt avantaj al bazei teoretice a limbajelor UnQL şi StruQL este posibilitatea efectuării optimizărilor specifice acestui nou model de date. Limbajele din prima categorie pot beneficia doar de optimizările specifice modelului relaţional, deci dezvoltate pentru alt model de date şi în consecinţă nu atât de folositoare.

Integrarea surselor de date eterogene

Integrarea datelor provenind din surse eterogene (cu scheme disparate sau, mai grav, modelate diferit), este un domeniu de cercetare care, deşi consacrat de mai bine de un deceniu, continuă să rămână în centrul atenţiei multor cercetători. Cercetarea în acest domeniu este motivată de absenţa unui model de date atotcuprinzător, fapt ce îngreuiază dezvoltarea de software care converteşte date între două modele diferite.

O complicaţie adiţională este reprezentată de faptul că majoritatea datelor stocate electronic nu se află în baze de date convenţionale, ci în sisteme de fişiere, programe de bibliotecă, de poştă electronică, foi de calcul etc., care prezintă capacităţi de interogare limitate.

Ultima observaţie a reprezentat punctul de plecare al proiectului Tsimmis [9][10] de la Stanford. Proiectul Tsimmis îşi propune integrarea atât a surselor de date care sunt conforme cu modelele de date standard (relaţional, orientat pe obiecte), cât şi a surselor de date cu capacităţi de interogare limitate. Aceste surse neconvenţionale sunt împachetate în aşa-numiţi „wrappers” (ambalaje). Un astfel de ambalaj asigură interfaţa între sursa de date cu capacităţi de interogare limitate şi aplicaţia care o interoghează. Aplicaţia trimite către sursa interogări într-un limbaj expresiv cum ar fi SQL sau OQL şi aşteaptă rezultatul într-un format numit OEM (Object Exchange Model).

OEM foloseşte grafuri etichetate, ca structură de date, care capturează majoritatea datelor folosite în aplicaţii de baze de date. În acelaşi timp, toate celelalte structuri de date pot fi codificate ca grafuri OEM.

Rolul ambalajului constă în:
• interceptarea interogării şi identificarea acelor părţi ale acesteia care pot fi efectuate de către sursă,
• translatarea acestor părţi în limbajul specific sursei,
• recepţionarea şi prelucrarea rezultatelor intermediare în vederea reconstituirii rezultatului interogării originale,
• codificarea rezultatului final în formatul OEM şi transmiterea acestuia către aplicaţie.

Evident, dacă interogarea originală este prea complexă, este posibil să nu poată fi efectuată pornind de la capabilităţile limitate ale sursei. Ambalajul detectează această situaţie şi anunţă sursa că nu îi poate satisface cererea. Cu cât creşte capacitatea de evaluare a interogărilor în cadrul ambalajului (de exemplu, capacitatea de a efectua operaţii de tip join, proiecţii, selecţii, etc.), cu atât se extinde clasa de interogări pe care le poate satisface combinaţia sursă-ambalaj.

Un proiect similar, cu scopul interogării surselor de date structurate din web este [13].

Cititorul a remarcat desigur similaritatea dintre modelul OEM şi cel semistructurat. Într-adevăr, Lore [11],[12] este un sistem de interogare a datelor semistructurate, foarte similar cu UnQL, utilizând un model de date inspirat de OEM.

Navigare în Internet

În anumite situaţii este avantajos să privim bazele de date convenţionale ca fiind semistructurate. Un exemplu este activitatea de navigare în Internet.

În general, utilizatorul nu poate interoga o bază de date fără a-i cunoaşte schema. Din nefericire însă, aceasta este adeseori greu de înţeles, datorită mărimii exagerate (zeci de tabele, de exemplu) şi a terminologiei opace, nestandard, folosite de către proiectanţii bazei de date.

Descifrarea schemei ar fi considerabil uşurată de facilitatea de a interoga datele având doar o înţelegere parţială a structurii lor. De exemplu, în cazul bazei de date cinematografice din World-Wide Web[2], următoarele interogări ar fi de folos:

În care atribut găsim şirul de caractere „Casablanca”?
Există în baza de date întregi mai mari decât 216?
Ce obiecte din baza de date au un atribut al cărui nume începe cu „act”?

Şi în acest domeniu, modelul semistructurat se dovedeşte a fi folositor. Spre deosebire de modelele de date convenţionale, care diferenţiază între schema (tipul, structura) şi instanţa (valoarea) datelor, modelul de date semistructurat reprezintă cele două tipuri de informaţie în mod uniform, permiţând interogarea lor simultană. Din acest motiv, datele semi-structurate se numesc şi autodescriptive.

[1] prezintă un elegant limbaj de interogare care permite exprimarea concisă a acestor interogări.

Cubul de date şi OLAP

Sistemele de suport pentru decizii (Decision support systems) sunt utilizate de către companiile moderne pentru integrarea într-o bază de date centrală numită „data warehouse” (magazia centrală de date), a datelor provenind din baze de date mici operaţionale folosite în diferite domenii de activitate/filiale ale companiei.

Datele astfel acumulate sunt analizate în timp real (OLAP: On-Line Analitical Processing) pentru a asista conducerea companiei în luarea deciziilor strategice de dezvoltare [14] (de exemplu, analizând vânzările unui anumit produs pe trimestru şi zonă geografică, se poate stabili o nouă strategie de marketing pentru acest produs). Datele din magazia centrală de date sunt modelate sub forma unui (hiper)cub de date multidimensional [15]) care poate fi analizat la nivelul subcuburilor de granularitate arbitrară. Subcuburile se obţin prin agregarea cuburilor din care provin.

De exemplu, prin însumarea vânzărilor trimestriale pentru fiecare zonă, cubul de date tridimensional reprezentând vânzările pe trimestru şi zona geografică poate fi redus la un subcub bidimensional (plan) reprezentând vânzările pe zona geografică. Agregarea este o operaţie costisitoare, efectuarea ei eficientă pe un volum mare de date reprezentând ţelul principal al cercetării în acest domeniu ([16],[17],[18],[19]).

Noi modele tranzacţionale

În mod tradiţional, tranzacţiile modelează unităţi de lucru atomice şi izolate, efectuate asupra datelor sistemului de gestiune a bazelor de date.

Izolarea tranzacţiilor nu permite crearea tranzacţiilor complexe, mari, din tranzacţii simple. Acest model a avut succes atâta vreme cât tranzacţiile efectuau un număr mic de operaţii simple asupra datelor cu structură simplă.

Din păcate, modelul tranzacţiilor simple nu satisface cerinţele aplicaţiilor complexe, în care tranzacţiile trebuiesc combinate şi coordonate pentru a colabora la realizarea unui scop complex. Aplicaţii ca proiectarea asistată de calculator, automatizarea activităţii de birou, controlul producţiei, gestiunea activităţilor necesită noi modele tranzacţionale, noi metode de gestiune a tranzacţiilor, şi noi limbaje de specificare a tranzacţiilor. Limbajele tranzacţionale sunt limbaje de nivel înalt, de obicei inspirate din logica cu predicate de ordinul întâi.

Dacă limbajele tradiţionale specificau interogări şi actualizări, noile limbaje tranzacţionale se concentrează asupra relaţiei dintre tranzacţii, exprimând dependenţe de tipul „tranzacţia T2 nu poate porni înainte ca T1 să se termine”, sau „T2 poate începe dacă T1 întoarce o valoare mai mare ca 25”. [20] prezintă o clasificare şi analiza detailată a noilor limbaje tranzacţionale.

Un excelent exponent al noii generaţii de limbaje tranzacţionale este Transaction Datalog [21], un limbaj deductiv care menţine în acelaşi timp toate proprietăţile tranzacţiilor clasice, cum ar fi: persistenţă, atomicitate, izolare, terminare şi rollback (revenire).

Limbajul este însoţit de un model teoretic natural şi de o teorie sigură pentru demonstraţii, permiţând astfel demonstrarea echivalenţei între diverse expresii din acest limbaj. Acest fapt este crucial pentru optimizare - care constă din înlocuirea unei planificări cu o alta echivalentă din punct de vedere al efectului său asupra datelor, dar mai eficientă din punct de vedere al costului execuţiei. Mai mult, faptul că putem demonstra că efectul unei tranzacţii complexe asupra setului de date este sau nu cel scontat, asigură consistenţa datelor.

Optimizări

Optimizarea limbajelor de interogare a bazelor de date nu este un domeniu nou, ci dimpotrivă, există încă de la apariţia acestora. Datorită importanţei sale, acest domeniu va fi întotdeauna „la modă” în cercetarea bazelor de date.

Apariţia unui nou model de date atrage după sine o efervescenţă în activitatea de cercetare a posibilităţilor de optimizare a limbajului de interogare asociat noului model. Referinţele bibliografice introduse în secţiunea anterioară prezintă şi primele încercări de optimizare a noilor limbaje de interogare.

Bibliografie

[1] Peter Buneman, Susan Davidson, Gerd Hillebrand, Dan Suciu, „A Query Language and Optimization Techniques for Unstructured Data”, „Proceedings of ACM-SIGMOD International Conference on Management of Data”, Montreal, Canada,June, 1996, pages 505-516
[2]„The internet movie database”
[3] S. Abiteboul, D. Quass, J. McHugh, J. Widom, J. Weiner, The lorel query language for semistructured data, Journal of Digital Libraries,Vol 1 number 1, 1997
[4] L. V. S. Lakshmanan, F. Sadri, I. N. Subramanian,„A declarative language for querying and restructuring the world-wide-web”,Post-ICDE IEEE Workshop on Research Issues in Data Engineering (RIDE-NDS'96),New Orleans, February,1996
[5] A. O. Mendelzon, G. A. Mihaila, T. Milo, „Querying the world Wide Web”, Proc. PIDS '96, December, 1996
[6] M. P. Consens, A. O. Mendelzon, „Expressing Structural Hypertext Queries in Graphlog”, Proc. 2nd ACM Conference on Hypertext, Pittsburgh, November, 1989
[7] S. Cluet, G. Moerkotte,„Query processing in the schemaless and semistructured context”, INRIA, 1997
[8] Mary Fernandez, Daniela Florescu, Jaewoo Kang, Alon Levy, Dan Suciu, „STRUDEL: A Web Site Management System”,Proc. of the 16th ACM SIGMOD Symposium on Principles of Database Systems,Tucson, Arizona, May, 1997
[9] Sudarshan Chawathe, Hector Garcia-Molina, Joachim Hammer, Kelly Ireland, Yannis Papakonstantinou, Jeffrey Ullman, Jennifer Widom, „The {TSIMMIS} Project:{Integration} of Heterogenous Information Sources”, October, 1994, Tokyo, Japan,„Proceedings of the Information Processing Society of Japan Conference”
[10] Yannis Papakonstantinou, Hector Garcia-Molina, Jennifer Widom, „Object Exchange Across Heterogenous Information Sources”,„Proceedings of IEEE International Conference on Data Engineering”, March, 1995, 251—260
[11]J. McHugh, S. Abiteboul, R. Goldman, D. Quass and J. Widom,„Lore: A database management system for semistructured data”,Stanford University Database Group, February,1997
[12] S. Abiteboul, D. Quass, J. McHugh, J. Widom, J. Weiner,The lorel query language for semistructured data,Journal of Digital Libraries,Vol 1 number 1, 1997
[13] A. Levy, A. Rajaraman, J. J. Ordille, „Querying Heterogeneous Information Sources Using Source Descriptions”,Proc. 22nd International Conference on VLDB, Mumbai, India, 1996,
[14] Arbor Software, „Multidimensional Analysis: Converting Corporate Data into Strategic Information”,White Paper
[15] J. Xenakis, editor,„Mutlidimensional Databases”,Application Development Strategies, April, 1994
[16] J. Gray, A. Bosworth, A. Layman, H. Pirahesh,„Data Cube: A Relational aggregation Operator Generalizing Group-By, Cross-Tab and Sub-Totals”, Microsoft, MSR-TR-95-22
[17] A. Gupta, V. Harinarayan, D. Quass, Aggregate Query Processing in Data Warehousing Environments, Proc. of the 21st International VLDB Conference,P 358-369,1995
[18] V. Harinarayan, A. Rajaraman, J. Ullman, „Implementing Data Cubes Efficiently”,Proc. ACM SIGMOD, Montreal, Canada, June, 1996
[19] J. R. Smith, „Dynamic Assembly of Views in Data Cubes”, Proc. of the International VLDB Conference (to appear), New York, USA, 1998
[20] A. J. Bonner, M. Kifer, „An overview of transaction logic”, Theoretical Computer Science, vol 133, pp 205-265,October, 1994
[21] A. J. Bonner, „Transaction Datalog: a Compositional Language for Transaction Programming”, Proc. 6th International Workshop on Database Programming Languages, Estes Park, Colorado, August, 1997

Noi modele de date
şi aplicaţiile lor

Interogarea World-Wide-Web-ului

Integrarea surselor de date eterogene

Navigare în Internet

Cubul de date şi OLAP

Noi modele tranzacţionale

Optimizări

Bibliografie

BYTE România - mai 1998

(C) Copyright Computer Press Agora

Noi modele de date şi aplicaţiile lor

Interogarea World-Wide-Web-ului

Integrarea surselor de date eterogene

Navigare în Internet

Cubul de date şi OLAP

Noi modele tranzacţionale

Optimizări

Bibliografie

BYTE România - mai 1998

(C) Copyright Computer Press Agora

Noi modele de date
şi aplicaţiile lor