Bazy_danych_w12

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

OLTP ( Online Transaction Processing ) - natychmiastowe przetwarzanie transakcji (w

odróŜnieniu od systemów wsadowego przetwarzania transakcji). Często
terminem tym określa się takŜe relacyjne bazy danych.

OLAP (Online Analytical Processing) - termin stosowany (w odróŜnieniu od OLTP) na

określenie systemów umoŜliwiających wielowymiarową analizę danych
wspomagającą podejmowanie decyzji biznesowych.

SELECT * FROM Locations, States, Countries WHERE

Locations.State_Id = States.State_Id AND

Locations.Country_id=Countries.Country_Id AND

Country_Name='USA'

Przykładowa baza danych

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Mexico

Distrito Federal

Mexico City

MX01

1005

Canada

Ontario

Toronto

TO01

1004

USA

New York

Brooklyn

NY01

1003

USA

Illinois

Arlington Hts

IL02

1002

USA

Illinois

Chicago Loop

IL01

1001

Country_Name

State_Name

Loc_Name

Loc_Code

Dim_Id

Field Name

Type

Dim_Id

INTEGER (4)

Loc_Code

VARCHAR (4)

Name

VARCHAR (50)

State_Name

VARCHAR (20)

Country_Name

VARCHAR (20)

W tabeli "WH_Locations" umieszczamy dane dotyczące interesujących nas

miejsc. W czasie pracy RDBMS (OLTP) tworzona jest tabela będąca
połączeniem trzech tabel - Locations, State i Countries.

W celu przetwarzania danych dotyczących lokalizacji tworzona jest tabela

WH_Locations. Tabela zawiera dane nadmiarowe. Klucz główny Dim_Id.

WYMIAR LOKALIZACJI

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Field Name

Type

Dim_Id

INTEGER (4)

Month

SMALL INTEGER (2)

Month_Name

VARCHAR (3)

Quarter

SMALL INTEGER (4)

Quarter_Name

VARCHAR (2)

Year

SMALL INTEGER (2)

_Quarter_Name

2003

May

1005

2003

Apr

1004

2003

Mar

1003

2003

Feb

1002

2003

Jan

1001

_Year

_Quarter

_Month_Name

_Month

_Dim_Id

WYMIAR CZASOWY

W celu analizy czasowej tworzymy tabelę WH_Time zawierającą informacje o

interesujących nas okresach czasowych. Klucz główny to TM_Dim_Id.

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Meat

Smoked Salmon 6oz

SMKSAL55

1003

Dairy

Skim Milk 1 Gal

MLK66F

1002

Sanitary

Dove Soap 6PK

DOVE6K

1001

Category

Name

SKU

PR_Dim_Id

Field Name

Type

PR_Dim_Id

INTEGER (4)

SKU

VARCHAR (10)

Name

VARCHAR (30)

Category

VARCHAR (30)

WYMIAR PRODUKTU

W celu analizy produktów tworzona jest tabela WH_Product zawierającą

informacje o interesującym nas asortymencie produktów. Klucz główny
tabeli to PR_Dim_Id.

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

65432

1001

1004

1001

98765

1003

1001

1003

451121

1001

1002

435677

1003

1001

Sales

LOC_Dim_Id

PR_Dim_Id

TM_Dim_Id

Field Name

Type

TM_Dim_Id

INTEGER (4)

PR_ Dim_Id

INTEGER (4)

LOC_ Dim_Id

INTEGER (4)

Sales

INTEGER (4)

Zestawienie miesięcznej sprzedaŜy zaleŜne od wymiaru czasowego, wymiaru

produktu i wymiaru lokalizacji dla poszczególnych produktów zbieramy w
tabeli MonthlySales. Klucz główny tak utworzonej tabeli składa się z
następujących atrybutów (TM_Dim_Id, PR_Dim_Id, LOC_Dim_Id).

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

--- Selekcja produktu z wykorzystaniem funkcji agregującej SUM

SELECT P.Name, SUM(F.Sales)

--- Łączenie tabel poszczególnych wymiarów w tabeli FACT

FROM Sales F, Time T, Product P, Location L

WHERE

F.TM_Dim_Id = T.Dim_Id

AND F.PR_Dim_Id = P.Dim_Id

AND F.LOC_Dim_Id = L.Dim_Id

--- Budowanie poszczególnych atrybutów

AND

T.Month='Jan' AND T.Year='2003' AND L.Country_Name='USA'

--- Na koniec agregowanie przy pomocy funkcji
--- agregującej w celu zebrania danych dla danej
--- kategorii.

GROUP BY P.Category

Schemat gwiazdy

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Hierarchia systemów komputerowych w przedsiębiorstwie

DSS
EIS

Data Warehouse

Systemy informacyjne (MIS)

Systemy transakcyjne

Operacyjne bazy danych

Wykonawcy

Analitycy i specjaliści

Kierownicy średniego

szczebla

Kierownicy wyŜszego

szczebla

•

Systemy transakcyjne wspierają bieŜącą aktywność przedsiębiorstwa - raporty i
zestawienia wykorzystywane przez bezpośrednich wykonawców operacji.

•

Systemy informacyjne (Management Information Systems) - aplikacje wspierające
zarządzanie - wykorzystywane przez analityków i kierowników średnich szczebli.

•

Systemy Wspomagające Podejmowanie Decyzji (Decision Support Systems) - aplikacje
dostarczające wiedzy, wykorzystywane przez kierownictwo.

•

Systemy Informowania Kierownictwa (Executive Information Systems) - aplikacje
dostarczające kierownictwu wybrane zestawienia i raporty z systemu DSS.

Hurtownie danych

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Modele przetwarzania danych :

•

przetwarzanie operacyjne OLTP (On Line Transaction Processing)

•

przetwarzanie analityczne OLAP (On Line Analytical Processing)

OLTP (On Line Transaction Processing) - kaŜdy biznesowy system

informatyczny pracujący w sposób transakcyjny, z natychmiastowym
przetwarzaniem transakcji (w odróŜnieniu od systemów wsadowego
przetwarzania transakcji). Często terminem tym określa się takŜe relacyjne
bazy danych.

OLAP (On Line Analytical Processing) - termin stosowany (w odróŜnieniu od

OLTP) na określenie systemów umoŜliwiających wielowymiarową analizę
danych wspomagającą podejmowanie decyzji biznesowych.

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Przetwarzanie operacyjne OLTP

przetwarzanie transakcji w trybie on-line;

wspomaganie bieŜącej obsługi działalności firmy, dla dobrze
zdefiniowanych procesów;

oparty na transakcjach, które operują na niewielkiej części danych;

dostarcza rozwiązań dla problemów: efektywne i bezpieczne
przechowywanie danych, optymalizacja dostępu do danych,
zarządzanie współbieŜnością;

podstawowym kryterium oceny efektywności systemu OLTP jest ilość
transakcji na sekundę.

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Przetwarzanie analityczne OLAP

przetwarzanie analityczne w trybie on-line,

celem jest przeprowadzenie analizy danych i wspomaganie decyzji.

Posiadanie danych opisujących działanie przedsiębiorstwa w dłuŜszym
okresie czasu pozwala na analizę trendów, anomalii, poszukiwanie
wzorców zachowań klientów.

Zalety przeprowadzania analizy danych

właściwe zarządzanie zapasami, produkcją;

zrozumienie zachowań klientów, efektywne kierowanie kampaniami
reklamowymi;

analiza rentowności firmy.

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Klasyczna definicja hurtowni danych autorstwa W. H. Inmona
mówi, Ŝe jest to:

uporządkowany tematycznie,

zintegrowany,

zawierający wymiar czasowy,

nieulotny,

zbiór danych wspomagających podejmowanie decyzji.

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

"Uporządkowanie tematyczne"

Oznacza, Ŝe dane w hurtowni przechowywane są w oderwaniu od aplikacji,
która je wygenerowała.

"Hurtownia ma być zintegrowana"

Wymaganie pozostaje w związku z poprzednim. Dane w hurtowni muszą mieć
ujednolicone sposoby pomiaru wartości, ujednolicone sposoby kodowania.

"Dane mają zawierać wymiar czasowy"

W systemach operacyjnych dane są aktualne w momencie dostępu. Od
hurtowni natomiast oczekujemy, iŜ dane będą dokładne w dowolnie wybranym
momencie, to znaczy, Ŝe sprzedaŜ za styczeń będzie taka sama niezaleŜnie od
tego czy zaŜądamy danych w lutym czy w czerwcu. Kolejnym aspektem
wymiaru czasowego jest fakt, Ŝe dane w hurtowni po poprawnym pobraniu z
systemu produkcyjnego nie są aktualizowane. Są więc ogromną liczbą
migawkowych zapisów.

"Nieulotność danych"

Tym pojęciem określa się róŜnicę między przetwarzaniem danych w
ś

rodowisku operacyjnym i w hurtowni. W pierwszym przypadku dane są

usuwane, aktualizowane i wprowadzane przez cały czas, w hurtowni natomiast
mamy dwie podstawowe operacje: ładowanie danych i dostęp do nich.

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Czym powinna być hurtownia danych?

Hurtownia danych jest całkowicie odrębną (ale działającą w ramach
istniejącego systemu) zorientowaną tematycznie bazą danych wraz z
towarzyszącymi jej aplikacjami. Powinna być regularnie zasilana
danymi pochodzącymi z przeróŜnych źródeł (baz transakcyjnych,
systemów billingowych, zbiorów tekstowych i binarnych).

KaŜdą porcję danych, którą zasilamy hurtownię moŜna porównać do
fotografii wybranych informacji będących podstawą do wyciągania
istotnych informacji dotyczących działalności firmy w określonym
przedziale czasu. Tak teŜ hurtownia danych powinna być przede
wszystkim systemem słuŜącym do dostarczania informacji zarządczej.

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Narzędzia do budowy hurtowni danych.

Narzędzia wykorzystane do budowy hurtowni danych powinny
zapewnić:

szybkie i sprawne ładowanie danych,

czyszczenie i agregowanie danych,

administrowanie hurtownią,

bezpieczeństwo danych.

Powinny równieŜ sprostać wymaganiom związanym z szybką i
efektywną budową aplikacji analitycznych. Narzędzie musi
współpracować z róŜnymi systemami, mieć moŜliwość pracy w trybie
klient-serwer oraz technologii intranetowej.

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Systemy transakcyjne

Systemy Informacji Zarządczej

Wprowadzanie, modyfikowanie,
raportowanie bieŜących
informacji

Dostarczanie informacji
przekrojowych

DuŜa ilość prostych operacji

Mała ilość skomplikowanych
zapytań

Aplikacje statyczne

Aplikacje dynamiczne

Automatyzacja czynności
rutynowych

Wspomaganie kreatywności
analityków

Porównanie systemów transakcyjnych z systemami typu SIZ

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Charakterystyka hurtowni danych

Charakterystyka

Opis

Orientacja tematyczna

Dane są zorganizowane w taki sposób w jaki uŜytkownik się do
nich odwołuje.

Integralność

System dba o spójność i zgodność danych z przyjętymi
standardami (nazywamy to "czyszczeniem danych", czyli
poddawaniem ich odpowiedniej konwersji, ujednolicaniu
formatów, jednostek miar itp.).

Trwałość (nie ulotność)

Dane są tylko do odczytu. Dane pozostają niezmienione.

Szeregi czasowe

Danymi są szeregi czasowe, a nie bieŜące stany.

Agregacja danych

Operacyjne dane są przedstawione w postaci uŜytecznej dla
podejmowania decyzji.

Rozległość

Utrzymywanie szeregów czasowych powoduje, Ŝe duŜo więcej
danych jest zachowywanych.

Brak normalizacji

Dane dla systemów SIZ mogą być redundantne (występować
wiele razy).

Metadane

Metadanymi nazywamy opisy konkretnych danych
przechowywanych w hurtowni (np. w bazie przechowujemy
opisy "PF", które wg słownika klientów identyfikujemy jako
podmioty finansowe).

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Hurtownia

danych

Składnica

danych

ODS

Metadane

Zasilanie
hurtowni

Warstwa danych
właściwych

Dystrybucja
danych

Dane operacyjne
Dane zewnętrzne

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Składnica danych (DM) ma za zadanie przyspieszyć dostęp do najczęściej
wykorzystywanych informacji. Składnica danych następujące cechy:

w odróŜnieniu od hurtowni zaprojektowana jest pod kątem szybkości a nie
elastyczności,

jest oddzielona od systemów operacyjnych przedsiębiorstwa,

obsługuje standardowe zapytania,

gromadzi informacje strategiczne lub taktyczne, których struktura jest
wysoce wyspecjalizowana,

zawiera niewielka liczbę danych, często są to agregaty.

Operacyjny magazyn danych (ODS):

jest źródłem informacji operacyjnych, integrującym dane pochodzące z
róŜnych aplikacji;

zawiera małą liczbę danych, głównie bieŜących; jego zadaniem jest
odpowiadać na palące pytania dotyczące aktualnych danych;

moŜe być obszarem czyszczenia, integrowania i przygotowywania danych
dla hurtowni (tzn. funkcję ODS pełnić moŜe nieco przystosowany TSA).

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Metadane, czyli dane o danych. Metadane umoŜliwiają uŜytkownikom
poruszanie się po hurtowni, tłumacząc nieprzyjazne dla nich pojęcia
informatyczne na słownik biznesu oraz informując ich, jakie dane są aktualnie
dostępne. Metadane są katalogiem dostępnych informacji. Metadane powinny
zawierać przede wszystkim następujące informacje:

opis danych zawartych w hurtowni;

opis dostępności danych, np. "dane o fakturach aktualnie dostępne są za
okres 98-01-01 do 98-07-30";

nazwę systemu źródłowego, z którego pochodzą dane,

opis operacji poczynionych na danych podczas zasilania hurtowni, np. czy
kwoty zostały zsumowane i w jaki sposób, czy odfiltrowano wszystkie
anulowane faktury itd.

wersję metadanych, np.: kiedy zmieniło się źródło danych o klientach; dane
za pewien okres mogą róŜnić się od późniejszych danych, aby więc
właściwie je odczytać, niezbędna jest moŜliwość określenia, jakie
metadane obowiązywały w danym momencie;

metryki dotyczące danych (np. liczby wierszy w tablicach), pozwalające
uŜytkownikowi ocenić, czy odpowiedź na jego pytanie pojawi się szybko
czy po dłuŜszym czasie.

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Na modelowe środowisko Wspomagania Decyzji składają się następujące warstwy:

1. Warstwa danych źródłowych - dane przetwarzania transakcyjnego (OLTP), dane

historyczne i archiwalne. Dane ze źródeł zewnętrznych. Odpowiedzialna za działanie
operacyjne i administracyjne systemu. Współczesne systemy OLTP przechowują
bieŜące dane operacyjne w znormalizowanej relacyjnej bazie danych.

2. Warstwa hurtowni danych (Data Warehouse Layer) - dane przechowywane są często

w postaci nie znormalizowanej, co powoduje nadmiarowość danych, jednak ułatwia
operacje analityczne i tworzenie raportów. Przenoszenie danych z warstwy OLTP do
warstwy DW (ekstrakcja danych) jest najtrudniejszym i najbardziej czasochłonnym
zadaniem.

3. Warstwa hurtowni tematycznych (Data Mart Layer) - w tej warstwie przechowywane

są dane sumaryczne utworzone w oparciu o dane warstwy DW. Dane przechowywane
są w formacie, który umoŜliwia szybki, intuicyjny i efektywny dostęp do danych.
Zwykle kaŜda baza DM jest bazą tematyczną i dotyczy wybranego zagadnienia.

4. Warstwa aplikacji analitycznych - naleŜą do niej narzędzia modelowania

matematycznego, narzędzia analitycznego przetwarzania i „data mining tools”.

5. Warstwa prezentacji - warstwa środowiska graficznego adresowana do końcowych

uŜytkowników Data Mart lub Data Warehouse. WyróŜniamy tutaj:

- OLAP GUI - dla końcowych uŜytkowników data Mart
- Managed Query Environment (MQE) - dla końcowych uŜytkowników DW
- Geographic Information Systems (GIS) - dla wizualizacji danych topograficznych

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Dane

archiwalne

Dane

transakcyjne

(z baz OLTP)

Dane

zewnętrzne

Dane

ródłowe

(OLAP)

Klient

Data
Warehouse

Data Mart

Prezentacja
danych

Zapytania,
analizy,
raporty

Ekstrakcja
i konwersja
danych

DM(OLAP)

Przetwarzanie analityczne

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Dane

archiwalne

Dane

transakcyjne

(z baz OLTP)

Dane

zewnętrzne

Dane

ródłowe

Klient

Data
Warehouse

Data Mart

Prezentacja
danych

Zapytania,
analizy,
raporty

Ekstrakcja
i konwersja
danych

Przetwarzanie analityczne

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Dane

archiwalne

Dane

transakcyjne

(z baz OLTP)

Dane

zewnętrzne

Dane

ródłowe

Klient

Data
Warehouse

Prezentacja
danych

Zapytania,
analizy, raporty

Konwersja
danych

Przetwarzanie analityczne

Zbiory
danych:
RDBMS,
pliki tekstowe,
itp.

Aplikacje:
Ekstrakcja,
Konwersja,
Czyszczenie,
Standaryzacja,
Eksport do DM

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Ekstrakcja danych

odbywa się poprzez bramki (gateways),
standardowe interfejsy (ODBC, JDBC, Oracle Open
Connect, Informix Enterprise Gateway), własne
procedury

identyfikacja pól w tabelach źródłowych, z których
czerpane będą dane

Mechanizmy ETL (Extraction, Transformation and Load)

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Czyszczenie danych

zapewnienie jakości i poprawności danych

detekcja i korekcja błędów: niekompletne dane,
błędne dane, informacje niezrozumiałe,
niekonsekwencje w danych, konflikty strukturalne

czyszczenie specjalne

czyszczenie oparte na regułach

Mechanizmy ETL (Extraction, Transformation and Load)

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Transformacja danych

analiza tematyczna danych

ustalenie wspólnego formatu danych

rozdzielenie i łączenie kolumn, konwersja typów, agregaty

określenie zbioru reguł sterujących tą transformacją

Mechanizmy ETL (Extraction, Transformation and Load)

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Ładowanie danych

integracja i umieszczenie nowych danych w hurtowni

sprawdzanie ograniczeń integralnościowych,
sortowanie, podsumowanie, budowanie indeksów

ładowanie wsadowe, sekwencyjne, równoległe

Mechanizmy ETL (Extraction, Transformation and Load)

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Monitorowanie zmian

mechanizmy wyzwalaczy

analiza pliku logu

procedury własne

zapytania do źródeł

Mechanizmy ETL (Extraction, Transformation and Load)

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Obszary zastosowań przetwarzania analitycznego:

Raportowanie - nie wymaga przetwarzania analitycznego, a jedynie dostęp
do danych. MoŜe być realizowane wsadowo i prezentowane w postaci
wydruku.

Interaktywne przetwarzanie analityczne (On-Line Analitycal Procesing -
OLAP), które dostarcza pogłębionych analiz finansowych i
marketingowych.

Przetwarzanie predykcyjne - ma umoŜliwić przewidywanie zachowań
naszego przedsiębiorstwa, rynku, biznesu w oparciu o posiadane dane i
załoŜone wskaźniki - do tego celu stosuje się technologię drąŜenia danych
(Data Mining)

MoŜliwość modelowania biznesu, przewidywania przyszłości, kreowania
planów.

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Bazy danych wspierające technologię hurtowni danych - OLAP moŜna podzielić
na dwa rodzaje, ze względu na wykorzystywane przez nie modele danych:

bazy relacyjne, nazywane równieŜ ROLAP (Relational OLAP),

bazy wielowymiarowe (multidimensional), nazywane równieŜ MD-OLAP
(MultiDimensional OLAP).

ROLAP

Hurtownia danych tego typu jest zbudowana na podstawie systemu
zarządzania relacyjną bazą danych posiadającego mechanizmy efektywnego
przetwarzania zapytań typu OLAP. Zwykle schemat takiej hurtowni posiada
strukturę gwiazdy (star schema) lub strukturę bardziej złoŜoną,
przypominającą płatek śniegu (snowflake schema). W celu skrócenia czasu
potrzebnego na wyznaczenie wyników zapytania relacje bazy danych są
często denormalizowane, na przykład zawierają wartości zagregowane, są
wynikiem połączenia wielu innych relacji.

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Bazy danych wspierające technologię hurtowni danych - OLAP moŜna podzielić
na dwa rodzaje, ze względu na wykorzystywane przez nie modele danych:

bazy relacyjne, nazywane równieŜ ROLAP (Relational OLAP),

bazy wielowymiarowe (multidimensional), nazywane równieŜ MD-
OLAP (MultiDimensional OLAP).

MD-OLAP

Hurtownia danych zaprojektowana w technologii MD-OLAP do
przechowywania danych wykorzystuje wielowymiarowe tablice
(multidimensional arrays, datacubes). Tablice te zawierają wstępnie
przetworzone (np. zagregowane) dane pochodzące z wielu źródeł.

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Budowa hurtowni danych

Analiza

grupa analityków przychodzi do firmy;

przeprowadzają rozmowy, najlepiej z kaŜdym przyszłym
uŜytkownikiem hurtowni;

sporządzają wymagania techniczne i biznesowe.

Wymagania obecnie najczęściej opisuje się w narzędziu CASE, co ułatwia
analizę zaleŜności.

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

wykonanie inwentaryzacji dostępnych źródeł danych;

dla kaŜdego ze źródeł naleŜy określić formaty przechowywania
danych, ich jakość, potrzeby aktualizacji;

konstrukcja wstępnego modelu danych;

wybór narzędzi;

określenie wymagań sprzętowych;

oszacowanie objętości danych.

Budowa hurtowni danych

Projektowanie

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

najczęściej realizuje się najpierw projekt pilotowy, obejmujący
wszystkie warstwy lecz jego zakres tematyczne jest niewielki;

stworzenie modelu danych dla uŜytkownika końcowego;

pisanie aplikacji i tworzenie dokumentacji;

przeszkolenie uŜytkowników i administratorów;

rozszerzenie frontu robót.

Budowa hurtowni danych

Budowa i wdroŜenie

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

często trwa przez cały czas Ŝycia systemu i pochłania wielkie
koszty;

trzeba dostosowywać hurtownię do nowych potrzeb
uŜytkowników.

Często budowa hurtowni ma charakter przyrostowy

Budowa hurtowni danych

Konserwacja

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Wirtualna Hurtownia Danych

Rozwiązanie to polega na udostępnianiu uŜytkownikom danych z wielu,
róŜnorodnych systemów źródłowych poprzez warstwę pośredniczącą. Dostęp
ten umoŜliwia oprogramowanie warstwy średniej (middleware). UŜytkownicy
końcowi uzyskują dostęp do danych przykładowo poprzez zainstalowanie
fragmentu programowania middleware na swoich stacjach roboczych.

Architektury

hurtowni

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Wirtualna Hurtownia Danych

Zalety rozwiązania:

• Niski koszt rozwiązania związany z brakiem infrastruktury Hurtowni

Danych, a w szczególności z brakiem sprzętu, oprogramowania
bazadanowego, narzędzi transformacji;

• Dostęp do wielu, róŜnych systemów transakcyjnych.

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Wirtualna Hurtownia Danych

Wady rozwiązania:

• Rozwiązanie to nie odciąŜa systemów źródłowych od przeprowadzanych

analiz;

• Rozwiązanie powoduje dodatkowe obciąŜenie systemów produkcyjnych

związane z dynamiczną realizacją zapytań uŜytkowników do systemów
ź

ródłowych;

• Rozwiązanie to stanowi jedynie interfejs do róŜnych systemów

informatycznych i nie dostarcza Ŝadnej dodatkowej funkcjonalności;

• Brak warstwy ETL powoduje:

• brak moŜliwości przeprowadzenia procesu czyszczenia danych (istotne

przy niskiej jakości danych źródłowych);

• brak moŜliwości integracji danych z róŜnych źródeł, np. danych o

kliencie z systemu transakcyjnego i systemu CRM w postaci stworzenia
jednej bazy danych zawierającej spójne dane o kliencie;

• MoŜliwość analizy danych historycznych tylko pod warunkiem

przechowywania niezbędnych danych w systemach produkcyjnych, co wiąŜe
się z ich dodatkowym obciąŜeniem;

• Brak moŜliwości przeprowadzania analiz wielowymiarowych.

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Wiele Składnic Danych

Rozwiązanie to polega na pobraniu niezbędnych danych z systemów
ź

ródłowych, umieszczeniu ich w jednej lub wielu Składnicach Danych i

udostępnianiu danych ze Składnic Danych uŜytkownikom końcowym. KaŜda
Składnica Danych moŜe być zasilana z jednego lub wielu źródeł danych za

pośrednictwem warstwy ETL.

Architektury

hurtowni

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Wiele sk

adnic danych

Zalety rozwiązania:

• Niski koszt architektury w porównaniu z kolejnymi wariantami,

wynikający z mniejszych wymagań związanych ze sprzętem (pamięć
dyskowa, jednostki obliczeniowe); Koszt projektowania i implementacji
procesu transformacji pomniejszony o etap zasilania repozytorium danych
Hurtowni Danych;

• Stosunkowo krótki czas wdroŜenia względem kolejnych wariantów, w

których musi powstać dodatkowo repozytorium Hurtowni Danych;

• MoŜliwości równoległego wdraŜania wielu Składnic Danych przez

niezaleŜne zespoły, które mogą wykonywać pracę w tym samym czasie;

• OdciąŜenie systemów transakcyjnych od funkcji analitycznych;
• Krótszy czas odpowiedzi na zapytania skierowane do bazy danych, dzięki

przechowywaniu danych zagregowanych;

• MoŜliwość przeprowadzania analiz wielowymiarowych, np. po

zastosowaniu serwera do analiz wielowymiarowych zasilanego danymi z
jednej lub wielu Składnic Danych.

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Wiele sk

adnic danych

Wady rozwiązania:

• Problemy z zarządzaniem projektem budowy wielu odrębnych Składnic

Danych polegających na koordynacji prac związanych z odrębnymi
projektami, np. procesu zbierania wymagań biznesowych, analizy
systemów źródłowych, harmonogramowanie dostępu do systemów
ź

ródłowych w celu uniknięcia ich przeciąŜenia;

• Niespełnienie podstawowego załoŜenia Hurtowni Danych w postaci

budowy spójnego, zintegrowanego źródła danych do analiz biznesowych,
co grozi powstaniem baz danych odrębnie zarządzanych i
administrowanych, co powoduje utratę integracji systemów;

• Potencjalne problemy z interpretacją wyników analiz wykonywanych na

podstawie róŜnych Składnic Danych; Dane liczbowe dotyczące tych
samych zagadnień będą pochodziły z róŜnych Składnic, a ze względu na
odrębne procesy ETL mogą one być róŜne;

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Wiele sk

adnic danych

Wady rozwiązania:

• Zasilanie róŜnych Składnic z tych samych systemów transakcyjnych

powoduje wielokrotne obciąŜenie systemów produkcyjnych procesem
zasilania danymi;

• Wielokrotne ponoszenie kosztów budowy kolejnych Składnic Danych

wynikających z powtarzającego się etapu analizy wymagań, ponownego
rozpatrywania dostępnych platform sprzętowych i oprogramowania,
wielokrotnej analizy jakości danych w tych samych systemach;

• MoŜliwość zasilania róŜnych Składnic Danych tymi samymi danymi z

róŜnych źródeł, co wpływa na pogorszenie spójności tych systemów.

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Architektury

hurtowni

Hurtownia Danych z dostępem tylko do Składnic Danych

Rozwiązanie to polega na pobraniu niezbędnych danych z systemów źródłowych
i umieszczeniu ich w jednej, centralnej bazie danych Hurtowni Danych
(Repozytorium Danych). Zasilanie Hurtowni danymi następuje za pośrednictwem
warstwy ETL, która umoŜliwia przeprowadzenie procesu czyszczenia i integracji
danych. Następnie dane z Hurtowni - w razie potrzeby równieŜ za pośrednictwem
warstwy ETL - zasilają Składnice Danych, do których mają dostęp uŜytkownicy
końcowi. W tym wariancie architektury nie mogą oni korzystać bezpośrednio z
centralnej bazy danych Hurtowni.

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Hurtownia Danych z dost

pem tylko do Sk

adnic Danych

Zalety rozwiązania:

• Istnienie jednego, zintegrowanego repozytorium danych, które moŜe być

następnie wykorzystane jako źródło danych do zasilania Składnic Danych,
czyli baz tematycznych;

• Zminimalizowanie obciąŜenia systemów źródłowych dzięki przeniesieniu

procesów związanych z analizami biznesowymi na płaszczyznę Hurtowni
Danych;

• OdciąŜenie systemów źródłowych od wielokrotnego procesu zasilania wielu

Składnic Danych na rzecz jednokrotnego zasilania głównego repozytorium
danych Hurtowni;

• Integracja wielu źródeł danych z róŜnych działów i departamentów firmy na

poziomie danej Składnicy Danych. Dane mogą pochodzić z róŜnej liczby
systemów transakcyjnych jak równieŜ ze źródeł zewnętrznych;

• Ułatwienie procesu administracji Hurtownią Danych dzięki ograniczeniu

bezpośredniego dostępu uŜytkowników do głównego repozytorium danych.
Powoduje to polepszenie bezpieczeństwa danych (uŜytkownicy mają dostęp
tylko do danej Składnicy Danych);

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Hurtownia Danych z dost

pem tylko do Sk

adnic Danych

Zalety rozwiązania:

• Zwiększenie efektywności działania repozytorium Hurtowni Danych,

dzięki nie obciąŜaniu go dodatkowymi procesami związanymi z obsługą
zapytań uŜytkowników, którzy korzystają bezpośrednio ze Składnic
Danych;

• MoŜliwość dowolnej prezentacji danych uŜytkownikom końcowym,

ograniczona jedynie moŜliwościami obecnej technologii (np. w postaci
witryny internetowej, aplikacji klient-serwer itp.);

• MoŜliwość przeprowadzania analiz wielowymiarowych, np. po

zastosowaniu serwera do analiz wielowymiarowych zasilanego danymi z
Hurtowni Danych.

Wady rozwiązania:

• Znaczący koszt rozwiązania wynikający z kosztu rozbudowanej

infrastruktury Hurtowni Danych,

• MoŜliwe ograniczenie moŜliwości wykonywania raportów typu "ad hoc"

(zawęŜenie dostępu uŜytkownika do danych przechowywanych w
Składnicy/ach Danych);

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Dostęp mieszany

Rozwiązanie to polega na pobraniu niezbędnych danych z systemów źródłowych
i umieszczeniu ich w jednej, centralnej bazie danych Hurtowni Danych.
Zasilanie Hurtowni danymi następuje za pośrednictwem warstwy ETL, która
umoŜliwia przeprowadzenie procesu czyszczenia i integracji danych. Następnie
dane z Hurtowni - w razie potrzeby równieŜ za pośrednictwem warstwy ETL -
zasilają Składnice Danych, do których mają dostęp uŜytkownicy końcowi. W
tym wariancie architektury mogą oni korzystać bezpośrednio z centralnej bazy
danych Hurtowni. Ponadto niektóre Składnice Danych mogą być zasilane
danymi bezpośrednio z systemów źródłowych, a nie tylko z Hurtowni Danych.

Architektury

hurtowni

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Dost

p mieszany

Zalety rozwiązania:

• Zminimalizowanie obciąŜenia systemów źródłowych dzięki przeniesieniu

procesów związanych z analizami biznesowymi na płaszczyznę Hurtowni
Danych;

• OdciąŜenie systemów źródłowych od wielokrotnego procesu zasilania wielu

Składnic Danych na rzecz jednokrotnego zasilania głównego repozytorium
danych Hurtowni;

• Integracja wielu źródeł danych z róŜnych działów i departamentów firmy.

Dane mogą pochodzić z róŜnej liczby systemów transakcyjnych jak równieŜ ze
ź

ródeł zewnętrznych;

• Istnienie jednego, zintegrowanego repozytorium danych, które moŜe być

następnie wykorzystane jako źródło danych do zasilania Składnic Danych,
czyli baz tematycznych;

• MoŜliwość zwiększenia efektywności wykonywanych analiz przez grupę

uŜytkowników poprzez stworzenie Składnicy Danych zasilanej z repozytorium
Hurtowni;

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Dost

p mieszany

Zalety rozwiązania:

• Ułatwienie procesu administracji Hurtownią Danych dzięki ograniczeniu

bezpośredniego dostępu uŜytkowników do głównego repozytorium danych.
Powoduje to polepszenie bezpieczeństwa danych (uŜytkownicy mają dostęp
tylko do danej Składnicy Danych);

• Zwiększenie efektywności działania Hurtowni Danych, dzięki nie obciąŜaniu

jej dodatkowymi procesami związanymi z obsługą zapytań uŜytkowników;

• MoŜliwość dowolnej prezentacji danych uŜytkownikom końcowym,

ograniczona jedynie moŜliwościami obecnej technologii (np. w postaci
witryny internetowej, aplikacji klient-serwer itp.);

• MoŜliwość zastosowania jednolitego narzędzia ETL do wszystkich danych,

jakimi zasilana jest Hurtownia Danych;

• MoŜliwość wykonywania analiz ad-hoc przez upowaŜnionych uŜytkowników

mających dostęp do całości danych znajdujących się w Hurtowni Danych;

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Zalety rozwiązania:

• Stworzenie nowych moŜliwości raportowych, dzięki dostępowi

uŜytkowników końcowych do wszystkich danych znajdujących się w
Hurtowni Danych; brak ograniczenia do pojedynczych Składnic Danych co
czyni to rozwiązanie bardziej elastycznym;

• MoŜliwość przechowywania danych zagregowanych co ułatwia i

przyspiesza wykonywanie analiz;

• MoŜliwość przeprowadzania analiz wielowymiarowych, np. po

zastosowaniu serwera do analiz wielowymiarowych zasilanego danymi z
Hurtowni Danych.

Wady rozwiązania:

• Znaczący koszt rozwiązania wynikający z kosztu rozbudowanej

infrastruktury Hurtowni Danych.

Dost

p mieszany

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Oracle

Opracowała oprogramowanie Oracle Warehouse Builder przeznaczone do

projektowania, generowania i zasilania korporacyjnych hurtowni danych. W
ofercie znajduje się teŜ serwer bazy danych Oracle8i i Oracle9i, który moŜe słuŜyć
jako platforma dla hurtowni danych oraz szereg aplikacji analitycznych.

Oprogramowanie do projektowania hurtowni pozwala modelować ją

wizualnie, dostępne są kreatory wspomagające standardowe działania projektowe
oraz biblioteki transformacji danych. Zapewnia to szybkie tworzenie hurtowni, a
cały potrzebny kod generowany jest automatycznie.

W ofercie są teŜ pakiety Oracle Data Mart Suite oraz Oracle Data Mart Suite -

Sales & Marketing Edition, słuŜące do tworzenia składnic danych (data mart).
Zawierają one oprogramowanie bazodanowe, narzędzia do projektowania,
ekstrakcji i transformacji danych oraz zasilania nimi składnic danych, instrumenty
do analiz i raportów oraz narzędzia dające dostęp do składnicy poprzez Intranet.

Firma wytwarza równieŜ oprogramowanie analityczne ogólnego

przeznaczenia (Oracle Discoverer, oparte na technologii OLAP Oracle Express i
Data Mining Oracle Darwin) i aplikacje specjalizowane.

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

IBM

Przygotował zintegrowany pakiet oprogramowania biznesowego pod nazwą

Visual Warehouse. Pakiet ten zawiera szereg narzędzi przeznaczonych do
realizacji poszczególnych kroków projektu hurtowni danych. NaleŜą do nich:
oprogramowanie do definiowania schematu, oprogramowanie do ekstrakcji
danych z róŜnych źródeł, ich oczyszczania i przekształcania, oprogramowanie do
zasilania hurtowni danymi (ładowania za pomocą SQL-a, przyrostowego oraz
równoległego), narzędzia do automatyzacji procesu zasilania (scheduler),
podstawowe oprogramowanie do zarządzania, narzędzie analityczne typu OLAP
oraz oprogramowanie pozwalające na dostęp do hurtowni za pomocą technologii
internetowych. W pakiecie zawarty jest równieŜ serwer bazy danych DB2 -
platforma, na której moŜe działać hurtownia korporacyjna.

W ofercie znajduje się jeszcze dodatkowy pakiet DB2 Warehouse Manager

rozszerzający moŜliwości serwera bazy. Udostępnia on nowe funkcje zarządzania,
poprawia skalowalność, zwiększa moŜliwość kontroli nad zapytaniami oraz
metadanymi.
IBM oferuje równieŜ aplikacje analityczne w technologii OLAP (DB2 OLAP
Server) i Data Mining IntelligentMiner.

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Sybase

Oferuje Warehouse Studio, który jest zintegrowanym zestawem narzędzi

do tworzenia hurtowni danych. W jego skład wchodzi ponad dziesięć
narzędzi i aplikacji przeznaczonych do obsługi projektu (modelowania,
oczyszczania i przenoszenia danych), składowania i zarządzania danymi,
tworzenia zapytań i raportów. Ponadto dostępne są równieŜ branŜowe
pakiety aplikacji Sybase Industry Warehouse Studios, które zostały
przygotowane do tworzenia specjalizowanych hurtowni danych.

Dodatkowo, Sybase udostępnia pakiet PowerStage przeznaczony do

automatyzacji procesów ekstrakcji, transformacji i oczyszczania danych
pochodzących z róŜnych źródeł. Jako platformę do działania hurtowni
danych Sybase oferuje własny serwer bazy danych - Adaptive Enterprise
Server.

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

SAS

Ma w ofercie SAS System, który składa się z bazy SAS Base oraz

dodatkowych modułów rozszerzających jego podstawowe funkcje.
SAS/Warehouse Administrator jest przeznaczony do tworzenia skryptów
ładujących hurtownie danych. Pakiet SAS/ACCESS pozwala operować na
danych zewnętrznych pochodzących z innych serwerów baz danych. W
systemie znajdują się moduły pozwalające na zorganizowanie dostępu do
hurtowni danych z poziomu Internetu. W ofercie znajduje się równieŜ
SAS/Enterprise Miner, narzędzie klasy data mining przeznaczone do
odkrywania zaleŜności w danych oraz cała gama analiz statystycznych.

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

NCR

Opracował Teradata Warehouse Suite, rodzinę zintegrowanych produktów

wspomagających realizację trzech faz środowiska hurtowni danych (zasilanie
hurtowni danych, zarządzanie danymi i metadanymi oraz analiza danych z
wykorzystaniem technologii OLAP i data mining). Jako platforma do działania
systemu przeznaczony jest NCR Teradata Active Warehouse (oparty na serwerze
NCR Teradata Warehouse).

Computer Associates

Proponuje zintegrowany pakiet DecisionBase. W jego skład wchodzą:

narzędzie do projektowania modelu hurtowni danych ERwin, narzędzie zasilania
danymi pochodzącymi z róŜnych źródeł DecisionBase Transformer, narzędzie do
zarządzania metadanymi PLATINUM Repository, narzędzia analityczne:
bazujące na technologii OLAP DecisionBase OLAP Server oraz bazujące na
sieciach neuronowych Neugents, środowisko do szybkiego tworzenia aplikacji
analitycznych bazujące na Forest & Trees, narzędzie do tworzenia raportów
DecisionBase Reporter, narzędzie do ekstrakcji i oczyszczania danych InfoRefiner
oraz InfoPump, przeznaczone do replikacji danych

Antoni Dydejczyk, Bazy danych, wykład 12

WFiIS, Katedra Informatyki Stosowanej, 2007

Tematyczna hurtownia danych, minihurtownia DM

(Data Mart) Składnica danych

tematycznych, ułatwiająca uzyskiwanie odpowiedzi na specyficzne zapytania do
wspomagania podejmowania decyzji w jednej dziedzinie (marketing, finanse).

Hurtownia danych DW

(Data Warehouse) Zintegrowana struktura wielotematyczna,

umoŜliwiająca uzyskiwanie odpowiedzi na złoŜone zapytania, dostępna wielu
uŜytkownikom. Zawiera szczegółowe dane archiwalne o działalności przedsiębiorstwa.
Przykładowo - w banku hurtownia moŜe zawierać dane o stanie konta klienta na kaŜdy
dzień w ciągu ostatnich 12 miesięcy.

Hurtownia danych dla całego przedsi

biorstwa EDW (

Enterprise Data Warehouse)

Główna składnica danych archiwalnych w przedsiębiorstwie przeznaczona jedynie do
zapełniania oddziałowych hurtowni i minihurtowni oraz innych specjalizowanych składnic
danych. Jej zawartość jest uzupełniana okresowo (raz na tydzień lub raz na miesiąc) z
systemów transakcyjnych przedsiębiorstwa.

Operacyjna składnica danych ODS

(Operational Data Store) Zawiera aktualne dane

tematyczne o przedsiębiorstwie; nie zawiera danych archiwalnych. Zawartość ODS jest
uzupełniana na bieŜąco z systemów transakcyjnych przedsiębiorstwa. SłuŜy do udzielania
odpowiedzi na pytania o stan określonej zmiennej; nie polecana do wykonywania zapytań
typu analitycznego.