Dinamica stabilitătii

Nu e suficient ca depozitul de date să existe. El trebuie să poarte informatiile potrivite către oamenii potriviti, în forma potrivită

Mircea Sârbu

Definitia depozitului de date, accentuînd contrastul între sistemul operational si cel informational, ne-ar putea sugera niste imagini de genul următor: Sistemul operational seamănă cu ringul unei burse, cu o multime de brokeri agitîndu-se în jurul calculatoarelor, a panourilor de afisare, făcîndu-si semne neinteligibile între ei, răcnind la telefoane, smulgînd nerăbdători hîrtiile din faxuri, etc. Dimpotrivă, depozitul de date este un spatiu linistit, respirînd atmosfera serenă a unei biblioteci.

De fapt, lucrurile nu stau chiar asa. Depozitul de date are si el dinamica lui, chiar dacă nu atît de agitată ca cea a sistemului operational. Pentru a exprima această dinamică se foloseste adesea termenul data warehousing, iar pentru a o descrie se recurge la cele cinci fluxuri informationale identificate de Richard Hackathorn.

Întelegerea modului în care aceste fluxuri actionează este cheia succesului constructiei si utilizării unui depozit de date.

In-flow

Acesta este fluxul de intrare a datelor în depozit. Datele provin din sistemul informational precum si din surse externe. Actualizarea depozitului de date nu trebuie să afecteze datele existente. Nimic nu se sterge, nimic nu se suprascrie. Este vorba doar despre adăugarea unui nou "strat" de date. Actualizarea se face de regulă în loturi (batch), la intervale regulate, dar anumite cerinte pot impune o actualizare în flux continuu, reflectînd actualizări în sistemul operational. De exemplu, o bancă ar putea să dorească să păstreze un istoric al tuturor operatiunilor efectuate asupra unui cont sau ar putea să se multumească cu balante periodice (de pildă la sfîrsitul fiecărei zile).

Pentru datele provenind din aplicatiile tranzactionale se pune în primul rînd problema selectării si extragerii. Instrumentele folosite în acest scop trebuie să fie capabile să exploateze la maximum middleware-ul disponibil pentru a accede la toate datele si să poată să realizeze conversiile implicite la "transbordarea" între diverse platforme.

Dar acesta este abia începutul povestii, deoarece datele trebuie să treacă printr-un proces complex de consolidare. Acest proces implică:

În afară de datele provenite din sistemul operational, o cerintă tot mai actuală o reprezintă consolidarea si integrarea în depozitul de date a datelor provenind din alte surse. Printre acestea se remarcă datele nonrelationale cum ar fi texte, e-mail, foi de calcul, imagini, obiecte multimedia, baze de date geografice, chiar si reguli comerciale (business rules). De asemenea, alte surse de date externe pot fi sistemele operationale ale partenerilor de afaceri, bazele de date publice sau informatiile furnizate pe bază de abonament (cotatii bursiere, buletine meteorologice, etc).

Up-flow

Prin procesul de intrare în depozitul informational, datele capătă un plus de claritate si de semnificatie. Dar odată ajunse în Data Warehouse ele nu rămîn în acest stadiu, ci se îmbogătesc în continuare printr-o serie de alte transformări. Aceste procese sînt numite în mod generic up-flow si au rolul de a adăuga valoare informatională datelor colectate.

Principalele procedee utilizate în acest scop sînt:

Down-flow

Acest flux se referă la administrarea datelor si este destinat să mentină "vitalitatea" depozitului de date, Datorită faptului că se lucrează cu volume imense de date (de regulă peste 500 GB), se impune o ierarhizare a prioritătii datelor în functie de gradul lor de utilizare. În general, datele vechi nu se mai consultă la nivel de detaliu: foarte rare sînt cazurile în care cineva este interesat de numărul de bucăti dintr-un anumit produs vîndute într-o anumită zi a anului 1991 la un anumit magazin. Aceste date vor fi transferate pe un suport mai lent (discuri optice, bandă magnetică, etc), păstrînd la nivelele de prioritate înaltă doar anumite nivele de sumarizare.

În esentă, acest flux trebuie să asigure că nici o informatie importantă nu se pierde si totodată că informatiile mai putin actuale sau mai putin importante nu blochează în mod inutil canalele de comunicatie si mediile de stocare cu acces rapid.

Out-flow

Iesirea datelor spre utilizatori reprezintă asa-numitul out-flow. Prin această deschidere, valoarea informatională creată prin data warehousing devine disponibilă pentru întreaga organizatie, oferind un substantial suport pentru conducerea optimă a activitătii. Ca si în cazul fluxul de intrare, fluxul de iesire este posibil doar cu suportul unui middleware functional. Spre deosebire de in-flow, unde legătura se făcea mai ales către bazele de date ale sistemului tranzactional, în acest caz middleware-ul trebuie să vizeze statiile de lucru ale clientilor. Out-flow reprezintă "tejgheaua" depozitului de date.

Există două activităti principale care formează acest flux:

Deciziile luate pe baza analizei economice facilitate de informatia din depozitul de date se vor concretiza în operatii economice, consemnate prin tranzactii în sistemul operativ, care la rîndul lui va crea viitoarele date de intrare în depozitul de date. Uneori influenta deciziilor poate fi estimată sau măsurată tot prin instrumente de analiză. La modul teoretic măcar, putem considera că acest flux este conectat la fluxul de intrare, procesul decizional formînd un cerc închis.

Meta-flow

Metadatele, fiind date despre date, descriu structura si continutul depozitului de date. Dar cum structura si continutul au la rîndul lor o dinamică, exprimată prin cele patru fluxuri descrise pînă acum, rezultă că există si o dinamică a metadatelor. În principiu, acest meta-flow descrie si conectează cele patru fluxuri, fiind un meta-model al dinamicii depozitului de date.

Depozitul de date nu este o aplicatie care să poată fi cumpărată "de gata". Mai mult, ea nu este proiectată odată pentru totdeauna. Adaptabilitatea sistemului operational la conditiile mereu noi ale activitătii impune o adaptabilitate corespunzătoare a sistemului informational. Dacă apar schimbări în aplicatiile organizatiei, ele trebuie să se reflecte în definitiile procedurilor de intrare asfel încît să nu afecteze iesirile. De asemenea, schimbările în cerintele utilizatorilor trebuie să poată fi rezolvate prin adaptarea corespunzătoare a fluxurilor interne.

Există două aspecte importante legate de meta-flow. Primul este faptul că, asa cum usor se poate deduce, este instrumentul principal de administrare a depozitului de date. Cum acest depozit este de fapt puntea dintre datele brute si instrumentele de analiză, o bună proiectare a acestui flux trebuie să asigure imunitatea fiecărui subsistem în parte la schimbări intervenite în celelalte.

Al doilea aspect este faptul că meta-flow înseamnă de fapt modelare, atît a sistemului informatic, cît si a activitătii de ansamblu. Ispita perfectiunii ne-ar putea îndemna să începem proiectarea unui Information Warehouse cu modelarea activitătii întregii organizatii si a sistemului informatic. Probabil că dintre toate abordările posibile, aceasta este cea mai păguboasă: practic, nu există sanse de a termina vreodată (cu atît mai putin în timp util...) o astfel de analiză. Adevărata provocare a proiectării si administrării unui depozit de date este de a obtine rezultate imediate si de a permite o evolutie continuă a sistemului, prin îmbunătătiri succesive. Iar cheia succesului în această directie o reprezintă dinamica metadatelor.

Găuri negre?

Concluzia ar putea fi că nu ajunge ca depozitul de date să existe, el trebuie să si functioneze. Să functioneze corect, adică să poarte informatia portivită către omul potrivit, în forma potrivită. Altfel el nu va reprezenta decît încă o gaură neagră în care datele dispar si nimeni nu le va mai vedea niciodată.


(C) Copyright Computer Press Agora