Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
Hurtownie danych
Hurtownie danych
Wykład 12
8.01.2008
Antoni Dydejczyk
http://www.ftj.agh.edu.pl/~antek
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
OLTP ( Online Transaction Processing ) - natychmiastowe przetwarzanie transakcji (w
odróŜnieniu od systemów wsadowego przetwarzania transakcji). Często
terminem tym określa się takŜe relacyjne bazy danych.
OLAP (Online Analytical Processing) - termin stosowany (w odróŜnieniu od OLTP) na
określenie systemów umoŜliwiających wielowymiarową analizę danych
wspomagającą podejmowanie decyzji biznesowych.
SELECT * FROM Locations, States, Countries WHERE
Locations.State_Id = States.State_Id AND
Locations.Country_id=Countries.Country_Id AND
Country_Name='USA'
Przykładowa baza danych
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
Mexico
Distrito Federal
Mexico City
MX01
1005
Canada
Ontario
Toronto
TO01
1004
USA
New York
Brooklyn
NY01
1003
USA
Illinois
Arlington Hts
IL02
1002
USA
Illinois
Chicago Loop
IL01
1001
Country_Name
State_Name
Loc_Name
Loc_Code
Dim_Id
Field Name
Type
Dim_Id
INTEGER (4)
Loc_Code
VARCHAR (4)
Name
VARCHAR (50)
State_Name
VARCHAR (20)
Country_Name
VARCHAR (20)
W tabeli "WH_Locations" umieszczamy dane dotyczące interesujących nas
miejsc. W czasie pracy RDBMS (OLTP) tworzona jest tabela będąca
połączeniem trzech tabel - Locations, State i Countries.
W celu przetwarzania danych dotyczących lokalizacji tworzona jest tabela
WH_Locations. Tabela zawiera dane nadmiarowe. Klucz główny Dim_Id.
WYMIAR LOKALIZACJI
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
Field Name
Type
Dim_Id
INTEGER (4)
Month
SMALL INTEGER (2)
Month_Name
VARCHAR (3)
Quarter
SMALL INTEGER (4)
Quarter_Name
VARCHAR (2)
Year
SMALL INTEGER (2)
Q2
Q2
Q1
Q1
Q1
TM
_Quarter_Name
2003
2
May
5
1005
2003
2
Apr
4
1004
2003
1
Mar
3
1003
2003
1
Feb
2
1002
2003
1
Jan
1
1001
TM
_Year
TM
_Quarter
TM
_Month_Name
TM
_Month
TM
_Dim_Id
WYMIAR CZASOWY
W celu analizy czasowej tworzymy tabelę WH_Time zawierającą informacje o
interesujących nas okresach czasowych. Klucz główny to TM_Dim_Id.
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
Meat
Smoked Salmon 6oz
SMKSAL55
1003
Dairy
Skim Milk 1 Gal
MLK66F
1002
Sanitary
Dove Soap 6PK
DOVE6K
1001
Category
Name
SKU
PR_Dim_Id
Field Name
Type
PR_Dim_Id
INTEGER (4)
SKU
VARCHAR (10)
Name
VARCHAR (30)
Category
VARCHAR (30)
WYMIAR PRODUKTU
W celu analizy produktów tworzona jest tabela WH_Product zawierającą
informacje o interesującym nas asortymencie produktów. Klucz główny
tabeli to PR_Dim_Id.
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
65432
1001
1004
1001
98765
1003
1001
1003
451121
1001
1002
1002
435677
1003
1001
1001
Sales
LOC_Dim_Id
PR_Dim_Id
TM_Dim_Id
Field Name
Type
TM_Dim_Id
INTEGER (4)
PR_ Dim_Id
INTEGER (4)
LOC_ Dim_Id
INTEGER (4)
Sales
INTEGER (4)
Zestawienie miesięcznej sprzedaŜy zaleŜne od wymiaru czasowego, wymiaru
produktu i wymiaru lokalizacji dla poszczególnych produktów zbieramy w
tabeli MonthlySales. Klucz główny tak utworzonej tabeli składa się z
następujących atrybutów (TM_Dim_Id, PR_Dim_Id, LOC_Dim_Id).
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
--- Selekcja produktu z wykorzystaniem funkcji agregującej SUM
SELECT P.Name, SUM(F.Sales)
--- Łączenie tabel poszczególnych wymiarów w tabeli FACT
FROM Sales F, Time T, Product P, Location L
WHERE
F.TM_Dim_Id = T.Dim_Id
AND F.PR_Dim_Id = P.Dim_Id
AND F.LOC_Dim_Id = L.Dim_Id
--- Budowanie poszczególnych atrybutów
AND
T.Month='Jan' AND T.Year='2003' AND L.Country_Name='USA'
--- Na koniec agregowanie przy pomocy funkcji
--- agregującej w celu zebrania danych dla danej
--- kategorii.
GROUP BY P.Category
Schemat gwiazdy
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
Przykładowy raport dla zebranych danych.
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
Schemat płatka śniegu
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
Hierarchia systemów komputerowych w przedsiębiorstwie
DSS
EIS
Data Warehouse
Systemy informacyjne (MIS)
Systemy transakcyjne
Operacyjne bazy danych
Wykonawcy
Analitycy i specjaliści
Kierownicy średniego
szczebla
Kierownicy wyŜszego
szczebla
•
Systemy transakcyjne wspierają bieŜącą aktywność przedsiębiorstwa - raporty i
zestawienia wykorzystywane przez bezpośrednich wykonawców operacji.
•
Systemy informacyjne (Management Information Systems) - aplikacje wspierające
zarządzanie - wykorzystywane przez analityków i kierowników średnich szczebli.
•
Systemy Wspomagające Podejmowanie Decyzji (Decision Support Systems) - aplikacje
dostarczające wiedzy, wykorzystywane przez kierownictwo.
•
Systemy Informowania Kierownictwa (Executive Information Systems) - aplikacje
dostarczające kierownictwu wybrane zestawienia i raporty z systemu DSS.
Hurtownie danych
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
Modele przetwarzania danych :
•
przetwarzanie operacyjne OLTP (On Line Transaction Processing)
•
przetwarzanie analityczne OLAP (On Line Analytical Processing)
OLTP (On Line Transaction Processing) - kaŜdy biznesowy system
informatyczny pracujący w sposób transakcyjny, z natychmiastowym
przetwarzaniem transakcji (w odróŜnieniu od systemów wsadowego
przetwarzania transakcji). Często terminem tym określa się takŜe relacyjne
bazy danych.
OLAP (On Line Analytical Processing) - termin stosowany (w odróŜnieniu od
OLTP) na określenie systemów umoŜliwiających wielowymiarową analizę
danych wspomagającą podejmowanie decyzji biznesowych.
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
Przetwarzanie operacyjne OLTP
przetwarzanie transakcji w trybie on-line;
wspomaganie bieŜącej obsługi działalności firmy, dla dobrze
zdefiniowanych procesów;
oparty na transakcjach, które operują na niewielkiej części danych;
dostarcza rozwiązań dla problemów: efektywne i bezpieczne
przechowywanie danych, optymalizacja dostępu do danych,
zarządzanie współbieŜnością;
podstawowym kryterium oceny efektywności systemu OLTP jest ilość
transakcji na sekundę.
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
Przetwarzanie analityczne OLAP
przetwarzanie analityczne w trybie on-line,
celem jest przeprowadzenie analizy danych i wspomaganie decyzji.
Posiadanie danych opisujących działanie przedsiębiorstwa w dłuŜszym
okresie czasu pozwala na analizę trendów, anomalii, poszukiwanie
wzorców zachowań klientów.
Zalety przeprowadzania analizy danych
właściwe zarządzanie zapasami, produkcją;
zrozumienie zachowań klientów, efektywne kierowanie kampaniami
reklamowymi;
analiza rentowności firmy.
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
Klasyczna definicja hurtowni danych autorstwa W. H. Inmona
mówi, Ŝe jest to:
uporządkowany tematycznie,
zintegrowany,
zawierający wymiar czasowy,
nieulotny,
zbiór danych wspomagających podejmowanie decyzji.
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
"Uporządkowanie tematyczne"
Oznacza, Ŝe dane w hurtowni przechowywane są w oderwaniu od aplikacji,
która je wygenerowała.
"Hurtownia ma być zintegrowana"
Wymaganie pozostaje w związku z poprzednim. Dane w hurtowni muszą mieć
ujednolicone sposoby pomiaru wartości, ujednolicone sposoby kodowania.
"Dane mają zawierać wymiar czasowy"
W systemach operacyjnych dane są aktualne w momencie dostępu. Od
hurtowni natomiast oczekujemy, iŜ dane będą dokładne w dowolnie wybranym
momencie, to znaczy, Ŝe sprzedaŜ za styczeń będzie taka sama niezaleŜnie od
tego czy zaŜądamy danych w lutym czy w czerwcu. Kolejnym aspektem
wymiaru czasowego jest fakt, Ŝe dane w hurtowni po poprawnym pobraniu z
systemu produkcyjnego nie są aktualizowane. Są więc ogromną liczbą
migawkowych zapisów.
"Nieulotność danych"
Tym pojęciem określa się róŜnicę między przetwarzaniem danych w
ś
rodowisku operacyjnym i w hurtowni. W pierwszym przypadku dane są
usuwane, aktualizowane i wprowadzane przez cały czas, w hurtowni natomiast
mamy dwie podstawowe operacje: ładowanie danych i dostęp do nich.
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
Hurtownia danych ma wspomagać przetwarzanie informacji
dla celów strategicznych i analitycznych
(w odróŜnieniu od systemów transakcyjnych
– realizujących przetwarzanie dla celów operacyjnych)
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
Czym powinna być hurtownia danych?
Hurtownia danych jest całkowicie odrębną (ale działającą w ramach
istniejącego systemu) zorientowaną tematycznie bazą danych wraz z
towarzyszącymi jej aplikacjami. Powinna być regularnie zasilana
danymi pochodzącymi z przeróŜnych źródeł (baz transakcyjnych,
systemów billingowych, zbiorów tekstowych i binarnych).
KaŜdą porcję danych, którą zasilamy hurtownię moŜna porównać do
fotografii wybranych informacji będących podstawą do wyciągania
istotnych informacji dotyczących działalności firmy w określonym
przedziale czasu. Tak teŜ hurtownia danych powinna być przede
wszystkim systemem słuŜącym do dostarczania informacji zarządczej.
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
Narzędzia do budowy hurtowni danych.
Narzędzia wykorzystane do budowy hurtowni danych powinny
zapewnić:
szybkie i sprawne ładowanie danych,
czyszczenie i agregowanie danych,
administrowanie hurtownią,
bezpieczeństwo danych.
Powinny równieŜ sprostać wymaganiom związanym z szybką i
efektywną budową aplikacji analitycznych. Narzędzie musi
współpracować z róŜnymi systemami, mieć moŜliwość pracy w trybie
klient-serwer oraz technologii intranetowej.
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
Systemy transakcyjne
Systemy Informacji Zarządczej
Wprowadzanie, modyfikowanie,
raportowanie bieŜących
informacji
Dostarczanie informacji
przekrojowych
DuŜa ilość prostych operacji
Mała ilość skomplikowanych
zapytań
Aplikacje statyczne
Aplikacje dynamiczne
Automatyzacja czynności
rutynowych
Wspomaganie kreatywności
analityków
Porównanie systemów transakcyjnych z systemami typu SIZ
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
Charakterystyka hurtowni danych
Charakterystyka
Opis
Orientacja tematyczna
Dane są zorganizowane w taki sposób w jaki uŜytkownik się do
nich odwołuje.
Integralność
System dba o spójność i zgodność danych z przyjętymi
standardami (nazywamy to "czyszczeniem danych", czyli
poddawaniem ich odpowiedniej konwersji, ujednolicaniu
formatów, jednostek miar itp.).
Trwałość (nie ulotność)
Dane są tylko do odczytu. Dane pozostają niezmienione.
Szeregi czasowe
Danymi są szeregi czasowe, a nie bieŜące stany.
Agregacja danych
Operacyjne dane są przedstawione w postaci uŜytecznej dla
podejmowania decyzji.
Rozległość
Utrzymywanie szeregów czasowych powoduje, Ŝe duŜo więcej
danych jest zachowywanych.
Brak normalizacji
Dane dla systemów SIZ mogą być redundantne (występować
wiele razy).
Metadane
Metadanymi nazywamy opisy konkretnych danych
przechowywanych w hurtowni (np. w bazie przechowujemy
opisy "PF", które wg słownika klientów identyfikujemy jako
podmioty finansowe).
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
Hurtownia
danych
Składnica
danych
ODS
Metadane
Zasilanie
hurtowni
Warstwa danych
właściwych
Dystrybucja
danych
Dane operacyjne
Dane zewnętrzne
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
Składnica danych (DM) ma za zadanie przyspieszyć dostęp do najczęściej
wykorzystywanych informacji. Składnica danych następujące cechy:
w odróŜnieniu od hurtowni zaprojektowana jest pod kątem szybkości a nie
elastyczności,
jest oddzielona od systemów operacyjnych przedsiębiorstwa,
obsługuje standardowe zapytania,
gromadzi informacje strategiczne lub taktyczne, których struktura jest
wysoce wyspecjalizowana,
zawiera niewielka liczbę danych, często są to agregaty.
Operacyjny magazyn danych (ODS):
jest źródłem informacji operacyjnych, integrującym dane pochodzące z
róŜnych aplikacji;
zawiera małą liczbę danych, głównie bieŜących; jego zadaniem jest
odpowiadać na palące pytania dotyczące aktualnych danych;
moŜe być obszarem czyszczenia, integrowania i przygotowywania danych
dla hurtowni (tzn. funkcję ODS pełnić moŜe nieco przystosowany TSA).
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
Metadane, czyli dane o danych. Metadane umoŜliwiają uŜytkownikom
poruszanie się po hurtowni, tłumacząc nieprzyjazne dla nich pojęcia
informatyczne na słownik biznesu oraz informując ich, jakie dane są aktualnie
dostępne. Metadane są katalogiem dostępnych informacji. Metadane powinny
zawierać przede wszystkim następujące informacje:
opis danych zawartych w hurtowni;
opis dostępności danych, np. "dane o fakturach aktualnie dostępne są za
okres 98-01-01 do 98-07-30";
nazwę systemu źródłowego, z którego pochodzą dane,
opis operacji poczynionych na danych podczas zasilania hurtowni, np. czy
kwoty zostały zsumowane i w jaki sposób, czy odfiltrowano wszystkie
anulowane faktury itd.
wersję metadanych, np.: kiedy zmieniło się źródło danych o klientach; dane
za pewien okres mogą róŜnić się od późniejszych danych, aby więc
właściwie je odczytać, niezbędna jest moŜliwość określenia, jakie
metadane obowiązywały w danym momencie;
metryki dotyczące danych (np. liczby wierszy w tablicach), pozwalające
uŜytkownikowi ocenić, czy odpowiedź na jego pytanie pojawi się szybko
czy po dłuŜszym czasie.
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
Na modelowe środowisko Wspomagania Decyzji składają się następujące warstwy:
1. Warstwa danych źródłowych - dane przetwarzania transakcyjnego (OLTP), dane
historyczne i archiwalne. Dane ze źródeł zewnętrznych. Odpowiedzialna za działanie
operacyjne i administracyjne systemu. Współczesne systemy OLTP przechowują
bieŜące dane operacyjne w znormalizowanej relacyjnej bazie danych.
2. Warstwa hurtowni danych (Data Warehouse Layer) - dane przechowywane są często
w postaci nie znormalizowanej, co powoduje nadmiarowość danych, jednak ułatwia
operacje analityczne i tworzenie raportów. Przenoszenie danych z warstwy OLTP do
warstwy DW (ekstrakcja danych) jest najtrudniejszym i najbardziej czasochłonnym
zadaniem.
3. Warstwa hurtowni tematycznych (Data Mart Layer) - w tej warstwie przechowywane
są dane sumaryczne utworzone w oparciu o dane warstwy DW. Dane przechowywane
są w formacie, który umoŜliwia szybki, intuicyjny i efektywny dostęp do danych.
Zwykle kaŜda baza DM jest bazą tematyczną i dotyczy wybranego zagadnienia.
4. Warstwa aplikacji analitycznych - naleŜą do niej narzędzia modelowania
matematycznego, narzędzia analitycznego przetwarzania i „data mining tools”.
5. Warstwa prezentacji - warstwa środowiska graficznego adresowana do końcowych
uŜytkowników Data Mart lub Data Warehouse. WyróŜniamy tutaj:
- OLAP GUI - dla końcowych uŜytkowników data Mart
- Managed Query Environment (MQE) - dla końcowych uŜytkowników DW
- Geographic Information Systems (GIS) - dla wizualizacji danych topograficznych
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
Dane
archiwalne
Dane
transakcyjne
(z baz OLTP)
Dane
zewnętrzne
Dane
ź
ródłowe
DW
(OLAP)
DW
Klient
Klient
Klient
DM
DM
Data
Warehouse
Data Mart
Prezentacja
danych
Zapytania,
analizy,
raporty
Ekstrakcja
i konwersja
danych
DM(OLAP)
Przetwarzanie analityczne
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
Dane
archiwalne
Dane
transakcyjne
(z baz OLTP)
Dane
zewnętrzne
Dane
ź
ródłowe
DW
Klient
Klient
Klient
DM
Data
Warehouse
Data Mart
Prezentacja
danych
Zapytania,
analizy,
raporty
Ekstrakcja
i konwersja
danych
Przetwarzanie analityczne
DM
DM
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
Dane
archiwalne
Dane
transakcyjne
(z baz OLTP)
Dane
zewnętrzne
Dane
ź
ródłowe
Klient
Klient
Klient
DM
DM
Data
Warehouse
Prezentacja
danych
Zapytania,
analizy, raporty
Konwersja
danych
Przetwarzanie analityczne
Zbiory
danych:
RDBMS,
pliki tekstowe,
itp.
Aplikacje:
Ekstrakcja,
Konwersja,
Czyszczenie,
Standaryzacja,
Eksport do DM
DM
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
Mechanizm ETL (Extraction, Transformation and Load)
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
Ekstrakcja danych
odbywa się poprzez bramki (gateways),
standardowe interfejsy (ODBC, JDBC, Oracle Open
Connect, Informix Enterprise Gateway), własne
procedury
identyfikacja pól w tabelach źródłowych, z których
czerpane będą dane
Mechanizmy ETL (Extraction, Transformation and Load)
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
Czyszczenie danych
zapewnienie jakości i poprawności danych
detekcja i korekcja błędów: niekompletne dane,
błędne dane, informacje niezrozumiałe,
niekonsekwencje w danych, konflikty strukturalne
czyszczenie specjalne
czyszczenie oparte na regułach
Mechanizmy ETL (Extraction, Transformation and Load)
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
Transformacja danych
analiza tematyczna danych
ustalenie wspólnego formatu danych
rozdzielenie i łączenie kolumn, konwersja typów, agregaty
określenie zbioru reguł sterujących tą transformacją
Mechanizmy ETL (Extraction, Transformation and Load)
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
Ładowanie danych
integracja i umieszczenie nowych danych w hurtowni
sprawdzanie ograniczeń integralnościowych,
sortowanie, podsumowanie, budowanie indeksów
ładowanie wsadowe, sekwencyjne, równoległe
Mechanizmy ETL (Extraction, Transformation and Load)
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
Monitorowanie zmian
mechanizmy wyzwalaczy
analiza pliku logu
procedury własne
zapytania do źródeł
Mechanizmy ETL (Extraction, Transformation and Load)
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
Cechy charakterystyczne przepływu i zarządzania danymi:
Heterogeniczne dane źródłowe,
Ekstrakcja i konwersja danych,
Przetwarzanie analityczne danych zgromadzonych w środowisku DW,
Prezentacja danych na stacjach klientów.
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
Obszary zastosowań przetwarzania analitycznego:
1.
Raportowanie - nie wymaga przetwarzania analitycznego, a jedynie dostęp
do danych. MoŜe być realizowane wsadowo i prezentowane w postaci
wydruku.
2.
Interaktywne przetwarzanie analityczne (On-Line Analitycal Procesing -
OLAP), które dostarcza pogłębionych analiz finansowych i
marketingowych.
3.
Przetwarzanie predykcyjne - ma umoŜliwić przewidywanie zachowań
naszego przedsiębiorstwa, rynku, biznesu w oparciu o posiadane dane i
załoŜone wskaźniki - do tego celu stosuje się technologię drąŜenia danych
(Data Mining)
4.
MoŜliwość modelowania biznesu, przewidywania przyszłości, kreowania
planów.
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
Bazy danych wspierające technologię hurtowni danych - OLAP moŜna podzielić
na dwa rodzaje, ze względu na wykorzystywane przez nie modele danych:
bazy relacyjne, nazywane równieŜ ROLAP (Relational OLAP),
bazy wielowymiarowe (multidimensional), nazywane równieŜ MD-OLAP
(MultiDimensional OLAP).
ROLAP
Hurtownia danych tego typu jest zbudowana na podstawie systemu
zarządzania relacyjną bazą danych posiadającego mechanizmy efektywnego
przetwarzania zapytań typu OLAP. Zwykle schemat takiej hurtowni posiada
strukturę gwiazdy (star schema) lub strukturę bardziej złoŜoną,
przypominającą płatek śniegu (snowflake schema). W celu skrócenia czasu
potrzebnego na wyznaczenie wyników zapytania relacje bazy danych są
często denormalizowane, na przykład zawierają wartości zagregowane, są
wynikiem połączenia wielu innych relacji.
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
Technologia ROLAP
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
Technologia ROLAP
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
Bazy danych wspierające technologię hurtowni danych - OLAP moŜna podzielić
na dwa rodzaje, ze względu na wykorzystywane przez nie modele danych:
bazy relacyjne, nazywane równieŜ ROLAP (Relational OLAP),
bazy wielowymiarowe (multidimensional), nazywane równieŜ MD-
OLAP (MultiDimensional OLAP).
MD-OLAP
Hurtownia danych zaprojektowana w technologii MD-OLAP do
przechowywania danych wykorzystuje wielowymiarowe tablice
(multidimensional arrays, datacubes). Tablice te zawierają wstępnie
przetworzone (np. zagregowane) dane pochodzące z wielu źródeł.
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
Technologia MOLAP
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
Technologia MOLAP
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
Budowa hurtowni danych
Analiza
grupa analityków przychodzi do firmy;
przeprowadzają rozmowy, najlepiej z kaŜdym przyszłym
uŜytkownikiem hurtowni;
sporządzają wymagania techniczne i biznesowe.
Wymagania obecnie najczęściej opisuje się w narzędziu CASE, co ułatwia
analizę zaleŜności.
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
wykonanie inwentaryzacji dostępnych źródeł danych;
dla kaŜdego ze źródeł naleŜy określić formaty przechowywania
danych, ich jakość, potrzeby aktualizacji;
konstrukcja wstępnego modelu danych;
wybór narzędzi;
określenie wymagań sprzętowych;
oszacowanie objętości danych.
Budowa hurtowni danych
Projektowanie
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
najczęściej realizuje się najpierw projekt pilotowy, obejmujący
wszystkie warstwy lecz jego zakres tematyczne jest niewielki;
stworzenie modelu danych dla uŜytkownika końcowego;
pisanie aplikacji i tworzenie dokumentacji;
przeszkolenie uŜytkowników i administratorów;
rozszerzenie frontu robót.
Budowa hurtowni danych
Budowa i wdroŜenie
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
często trwa przez cały czas Ŝycia systemu i pochłania wielkie
koszty;
trzeba dostosowywać hurtownię do nowych potrzeb
uŜytkowników.
Często budowa hurtowni ma charakter przyrostowy
.
Budowa hurtowni danych
Konserwacja
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
Wirtualna Hurtownia Danych
Rozwiązanie to polega na udostępnianiu uŜytkownikom danych z wielu,
róŜnorodnych systemów źródłowych poprzez warstwę pośredniczącą. Dostęp
ten umoŜliwia oprogramowanie warstwy średniej (middleware). UŜytkownicy
końcowi uzyskują dostęp do danych przykładowo poprzez zainstalowanie
fragmentu programowania middleware na swoich stacjach roboczych.
Architektury
Architektury
hurtowni
hurtowni
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
Wirtualna Hurtownia Danych
Wirtualna Hurtownia Danych
Zalety rozwiązania:
• Niski koszt rozwiązania związany z brakiem infrastruktury Hurtowni
Danych, a w szczególności z brakiem sprzętu, oprogramowania
bazadanowego, narzędzi transformacji;
• Dostęp do wielu, róŜnych systemów transakcyjnych.
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
Wirtualna Hurtownia Danych
Wirtualna Hurtownia Danych
Wady rozwiązania:
• Rozwiązanie to nie odciąŜa systemów źródłowych od przeprowadzanych
analiz;
• Rozwiązanie powoduje dodatkowe obciąŜenie systemów produkcyjnych
związane z dynamiczną realizacją zapytań uŜytkowników do systemów
ź
ródłowych;
• Rozwiązanie to stanowi jedynie interfejs do róŜnych systemów
informatycznych i nie dostarcza Ŝadnej dodatkowej funkcjonalności;
• Brak warstwy ETL powoduje:
• brak moŜliwości przeprowadzenia procesu czyszczenia danych (istotne
przy niskiej jakości danych źródłowych);
• brak moŜliwości integracji danych z róŜnych źródeł, np. danych o
kliencie z systemu transakcyjnego i systemu CRM w postaci stworzenia
jednej bazy danych zawierającej spójne dane o kliencie;
• MoŜliwość analizy danych historycznych tylko pod warunkiem
przechowywania niezbędnych danych w systemach produkcyjnych, co wiąŜe
się z ich dodatkowym obciąŜeniem;
• Brak moŜliwości przeprowadzania analiz wielowymiarowych.
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
Wiele Składnic Danych
Rozwiązanie to polega na pobraniu niezbędnych danych z systemów
ź
ródłowych, umieszczeniu ich w jednej lub wielu Składnicach Danych i
udostępnianiu danych ze Składnic Danych uŜytkownikom końcowym. KaŜda
Składnica Danych moŜe być zasilana z jednego lub wielu źródeł danych za
pośrednictwem warstwy ETL.
Architektury
Architektury
hurtowni
hurtowni
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
Wiele sk
Wiele sk
ł
ł
adnic danych
adnic danych
Zalety rozwiązania:
• Niski koszt architektury w porównaniu z kolejnymi wariantami,
wynikający z mniejszych wymagań związanych ze sprzętem (pamięć
dyskowa, jednostki obliczeniowe); Koszt projektowania i implementacji
procesu transformacji pomniejszony o etap zasilania repozytorium danych
Hurtowni Danych;
• Stosunkowo krótki czas wdroŜenia względem kolejnych wariantów, w
których musi powstać dodatkowo repozytorium Hurtowni Danych;
• MoŜliwości równoległego wdraŜania wielu Składnic Danych przez
niezaleŜne zespoły, które mogą wykonywać pracę w tym samym czasie;
• OdciąŜenie systemów transakcyjnych od funkcji analitycznych;
• Krótszy czas odpowiedzi na zapytania skierowane do bazy danych, dzięki
przechowywaniu danych zagregowanych;
• MoŜliwość przeprowadzania analiz wielowymiarowych, np. po
zastosowaniu serwera do analiz wielowymiarowych zasilanego danymi z
jednej lub wielu Składnic Danych.
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
Wiele sk
Wiele sk
ł
ł
adnic danych
adnic danych
Wady rozwiązania:
• Problemy z zarządzaniem projektem budowy wielu odrębnych Składnic
Danych polegających na koordynacji prac związanych z odrębnymi
projektami, np. procesu zbierania wymagań biznesowych, analizy
systemów źródłowych, harmonogramowanie dostępu do systemów
ź
ródłowych w celu uniknięcia ich przeciąŜenia;
• Niespełnienie podstawowego załoŜenia Hurtowni Danych w postaci
budowy spójnego, zintegrowanego źródła danych do analiz biznesowych,
co grozi powstaniem baz danych odrębnie zarządzanych i
administrowanych, co powoduje utratę integracji systemów;
• Potencjalne problemy z interpretacją wyników analiz wykonywanych na
podstawie róŜnych Składnic Danych; Dane liczbowe dotyczące tych
samych zagadnień będą pochodziły z róŜnych Składnic, a ze względu na
odrębne procesy ETL mogą one być róŜne;
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
Wiele sk
Wiele sk
ł
ł
adnic danych
adnic danych
Wady rozwiązania:
• Zasilanie róŜnych Składnic z tych samych systemów transakcyjnych
powoduje wielokrotne obciąŜenie systemów produkcyjnych procesem
zasilania danymi;
• Wielokrotne ponoszenie kosztów budowy kolejnych Składnic Danych
wynikających z powtarzającego się etapu analizy wymagań, ponownego
rozpatrywania dostępnych platform sprzętowych i oprogramowania,
wielokrotnej analizy jakości danych w tych samych systemach;
• MoŜliwość zasilania róŜnych Składnic Danych tymi samymi danymi z
róŜnych źródeł, co wpływa na pogorszenie spójności tych systemów.
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
Architektury
Architektury
hurtowni
hurtowni
Hurtownia Danych z dostępem tylko do Składnic Danych
Rozwiązanie to polega na pobraniu niezbędnych danych z systemów źródłowych
i umieszczeniu ich w jednej, centralnej bazie danych Hurtowni Danych
(Repozytorium Danych). Zasilanie Hurtowni danymi następuje za pośrednictwem
warstwy ETL, która umoŜliwia przeprowadzenie procesu czyszczenia i integracji
danych. Następnie dane z Hurtowni - w razie potrzeby równieŜ za pośrednictwem
warstwy ETL - zasilają Składnice Danych, do których mają dostęp uŜytkownicy
końcowi. W tym wariancie architektury nie mogą oni korzystać bezpośrednio z
centralnej bazy danych Hurtowni.
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
Hurtownia Danych z dost
Hurtownia Danych z dost
ę
ę
pem tylko do Sk
pem tylko do Sk
ł
ł
adnic Danych
adnic Danych
Zalety rozwiązania:
• Istnienie jednego, zintegrowanego repozytorium danych, które moŜe być
następnie wykorzystane jako źródło danych do zasilania Składnic Danych,
czyli baz tematycznych;
• Zminimalizowanie obciąŜenia systemów źródłowych dzięki przeniesieniu
procesów związanych z analizami biznesowymi na płaszczyznę Hurtowni
Danych;
• OdciąŜenie systemów źródłowych od wielokrotnego procesu zasilania wielu
Składnic Danych na rzecz jednokrotnego zasilania głównego repozytorium
danych Hurtowni;
• Integracja wielu źródeł danych z róŜnych działów i departamentów firmy na
poziomie danej Składnicy Danych. Dane mogą pochodzić z róŜnej liczby
systemów transakcyjnych jak równieŜ ze źródeł zewnętrznych;
• Ułatwienie procesu administracji Hurtownią Danych dzięki ograniczeniu
bezpośredniego dostępu uŜytkowników do głównego repozytorium danych.
Powoduje to polepszenie bezpieczeństwa danych (uŜytkownicy mają dostęp
tylko do danej Składnicy Danych);
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
Hurtownia Danych z dost
Hurtownia Danych z dost
ę
ę
pem tylko do Sk
pem tylko do Sk
ł
ł
adnic Danych
adnic Danych
Zalety rozwiązania:
• Zwiększenie efektywności działania repozytorium Hurtowni Danych,
dzięki nie obciąŜaniu go dodatkowymi procesami związanymi z obsługą
zapytań uŜytkowników, którzy korzystają bezpośrednio ze Składnic
Danych;
• MoŜliwość dowolnej prezentacji danych uŜytkownikom końcowym,
ograniczona jedynie moŜliwościami obecnej technologii (np. w postaci
witryny internetowej, aplikacji klient-serwer itp.);
• MoŜliwość przeprowadzania analiz wielowymiarowych, np. po
zastosowaniu serwera do analiz wielowymiarowych zasilanego danymi z
Hurtowni Danych.
Wady rozwiązania:
• Znaczący koszt rozwiązania wynikający z kosztu rozbudowanej
infrastruktury Hurtowni Danych,
• MoŜliwe ograniczenie moŜliwości wykonywania raportów typu "ad hoc"
(zawęŜenie dostępu uŜytkownika do danych przechowywanych w
Składnicy/ach Danych);
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
Dostęp mieszany
Rozwiązanie to polega na pobraniu niezbędnych danych z systemów źródłowych
i umieszczeniu ich w jednej, centralnej bazie danych Hurtowni Danych.
Zasilanie Hurtowni danymi następuje za pośrednictwem warstwy ETL, która
umoŜliwia przeprowadzenie procesu czyszczenia i integracji danych. Następnie
dane z Hurtowni - w razie potrzeby równieŜ za pośrednictwem warstwy ETL -
zasilają Składnice Danych, do których mają dostęp uŜytkownicy końcowi. W
tym wariancie architektury mogą oni korzystać bezpośrednio z centralnej bazy
danych Hurtowni. Ponadto niektóre Składnice Danych mogą być zasilane
danymi bezpośrednio z systemów źródłowych, a nie tylko z Hurtowni Danych.
Architektury
Architektury
hurtowni
hurtowni
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
Dost
Dost
ę
ę
p mieszany
p mieszany
Zalety rozwiązania:
• Zminimalizowanie obciąŜenia systemów źródłowych dzięki przeniesieniu
procesów związanych z analizami biznesowymi na płaszczyznę Hurtowni
Danych;
• OdciąŜenie systemów źródłowych od wielokrotnego procesu zasilania wielu
Składnic Danych na rzecz jednokrotnego zasilania głównego repozytorium
danych Hurtowni;
• Integracja wielu źródeł danych z róŜnych działów i departamentów firmy.
Dane mogą pochodzić z róŜnej liczby systemów transakcyjnych jak równieŜ ze
ź
ródeł zewnętrznych;
• Istnienie jednego, zintegrowanego repozytorium danych, które moŜe być
następnie wykorzystane jako źródło danych do zasilania Składnic Danych,
czyli baz tematycznych;
• MoŜliwość zwiększenia efektywności wykonywanych analiz przez grupę
uŜytkowników poprzez stworzenie Składnicy Danych zasilanej z repozytorium
Hurtowni;
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
Dost
Dost
ę
ę
p mieszany
p mieszany
Zalety rozwiązania:
• Ułatwienie procesu administracji Hurtownią Danych dzięki ograniczeniu
bezpośredniego dostępu uŜytkowników do głównego repozytorium danych.
Powoduje to polepszenie bezpieczeństwa danych (uŜytkownicy mają dostęp
tylko do danej Składnicy Danych);
• Zwiększenie efektywności działania Hurtowni Danych, dzięki nie obciąŜaniu
jej dodatkowymi procesami związanymi z obsługą zapytań uŜytkowników;
• MoŜliwość dowolnej prezentacji danych uŜytkownikom końcowym,
ograniczona jedynie moŜliwościami obecnej technologii (np. w postaci
witryny internetowej, aplikacji klient-serwer itp.);
• MoŜliwość zastosowania jednolitego narzędzia ETL do wszystkich danych,
jakimi zasilana jest Hurtownia Danych;
• MoŜliwość wykonywania analiz ad-hoc przez upowaŜnionych uŜytkowników
mających dostęp do całości danych znajdujących się w Hurtowni Danych;
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
Zalety rozwiązania:
• Stworzenie nowych moŜliwości raportowych, dzięki dostępowi
uŜytkowników końcowych do wszystkich danych znajdujących się w
Hurtowni Danych; brak ograniczenia do pojedynczych Składnic Danych co
czyni to rozwiązanie bardziej elastycznym;
• MoŜliwość przechowywania danych zagregowanych co ułatwia i
przyspiesza wykonywanie analiz;
• MoŜliwość przeprowadzania analiz wielowymiarowych, np. po
zastosowaniu serwera do analiz wielowymiarowych zasilanego danymi z
Hurtowni Danych.
Wady rozwiązania:
• Znaczący koszt rozwiązania wynikający z kosztu rozbudowanej
infrastruktury Hurtowni Danych.
Dost
Dost
ę
ę
p mieszany
p mieszany
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
Oracle
Oracle
Opracowała oprogramowanie Oracle Warehouse Builder przeznaczone do
projektowania, generowania i zasilania korporacyjnych hurtowni danych. W
ofercie znajduje się teŜ serwer bazy danych Oracle8i i Oracle9i, który moŜe słuŜyć
jako platforma dla hurtowni danych oraz szereg aplikacji analitycznych.
Oprogramowanie do projektowania hurtowni pozwala modelować ją
wizualnie, dostępne są kreatory wspomagające standardowe działania projektowe
oraz biblioteki transformacji danych. Zapewnia to szybkie tworzenie hurtowni, a
cały potrzebny kod generowany jest automatycznie.
W ofercie są teŜ pakiety Oracle Data Mart Suite oraz Oracle Data Mart Suite -
Sales & Marketing Edition, słuŜące do tworzenia składnic danych (data mart).
Zawierają one oprogramowanie bazodanowe, narzędzia do projektowania,
ekstrakcji i transformacji danych oraz zasilania nimi składnic danych, instrumenty
do analiz i raportów oraz narzędzia dające dostęp do składnicy poprzez Intranet.
Firma wytwarza równieŜ oprogramowanie analityczne ogólnego
przeznaczenia (Oracle Discoverer, oparte na technologii OLAP Oracle Express i
Data Mining Oracle Darwin) i aplikacje specjalizowane.
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
IBM
Przygotował zintegrowany pakiet oprogramowania biznesowego pod nazwą
Visual Warehouse. Pakiet ten zawiera szereg narzędzi przeznaczonych do
realizacji poszczególnych kroków projektu hurtowni danych. NaleŜą do nich:
oprogramowanie do definiowania schematu, oprogramowanie do ekstrakcji
danych z róŜnych źródeł, ich oczyszczania i przekształcania, oprogramowanie do
zasilania hurtowni danymi (ładowania za pomocą SQL-a, przyrostowego oraz
równoległego), narzędzia do automatyzacji procesu zasilania (scheduler),
podstawowe oprogramowanie do zarządzania, narzędzie analityczne typu OLAP
oraz oprogramowanie pozwalające na dostęp do hurtowni za pomocą technologii
internetowych. W pakiecie zawarty jest równieŜ serwer bazy danych DB2 -
platforma, na której moŜe działać hurtownia korporacyjna.
W ofercie znajduje się jeszcze dodatkowy pakiet DB2 Warehouse Manager
rozszerzający moŜliwości serwera bazy. Udostępnia on nowe funkcje zarządzania,
poprawia skalowalność, zwiększa moŜliwość kontroli nad zapytaniami oraz
metadanymi.
IBM oferuje równieŜ aplikacje analityczne w technologii OLAP (DB2 OLAP
Server) i Data Mining IntelligentMiner.
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
Sybase
Oferuje Warehouse Studio, który jest zintegrowanym zestawem narzędzi
do tworzenia hurtowni danych. W jego skład wchodzi ponad dziesięć
narzędzi i aplikacji przeznaczonych do obsługi projektu (modelowania,
oczyszczania i przenoszenia danych), składowania i zarządzania danymi,
tworzenia zapytań i raportów. Ponadto dostępne są równieŜ branŜowe
pakiety aplikacji Sybase Industry Warehouse Studios, które zostały
przygotowane do tworzenia specjalizowanych hurtowni danych.
Dodatkowo, Sybase udostępnia pakiet PowerStage przeznaczony do
automatyzacji procesów ekstrakcji, transformacji i oczyszczania danych
pochodzących z róŜnych źródeł. Jako platformę do działania hurtowni
danych Sybase oferuje własny serwer bazy danych - Adaptive Enterprise
Server.
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
SAS
Ma w ofercie SAS System, który składa się z bazy SAS Base oraz
dodatkowych modułów rozszerzających jego podstawowe funkcje.
SAS/Warehouse Administrator jest przeznaczony do tworzenia skryptów
ładujących hurtownie danych. Pakiet SAS/ACCESS pozwala operować na
danych zewnętrznych pochodzących z innych serwerów baz danych. W
systemie znajdują się moduły pozwalające na zorganizowanie dostępu do
hurtowni danych z poziomu Internetu. W ofercie znajduje się równieŜ
SAS/Enterprise Miner, narzędzie klasy data mining przeznaczone do
odkrywania zaleŜności w danych oraz cała gama analiz statystycznych.
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
NCR
Opracował Teradata Warehouse Suite, rodzinę zintegrowanych produktów
wspomagających realizację trzech faz środowiska hurtowni danych (zasilanie
hurtowni danych, zarządzanie danymi i metadanymi oraz analiza danych z
wykorzystaniem technologii OLAP i data mining). Jako platforma do działania
systemu przeznaczony jest NCR Teradata Active Warehouse (oparty na serwerze
NCR Teradata Warehouse).
Computer Associates
Proponuje zintegrowany pakiet DecisionBase. W jego skład wchodzą:
narzędzie do projektowania modelu hurtowni danych ERwin, narzędzie zasilania
danymi pochodzącymi z róŜnych źródeł DecisionBase Transformer, narzędzie do
zarządzania metadanymi PLATINUM Repository, narzędzia analityczne:
bazujące na technologii OLAP DecisionBase OLAP Server oraz bazujące na
sieciach neuronowych Neugents, środowisko do szybkiego tworzenia aplikacji
analitycznych bazujące na Forest & Trees, narzędzie do tworzenia raportów
DecisionBase Reporter, narzędzie do ekstrakcji i oczyszczania danych InfoRefiner
oraz InfoPump, przeznaczone do replikacji danych
.
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
Tematyczna hurtownia danych, minihurtownia DM
(Data Mart) Składnica danych
tematycznych, ułatwiająca uzyskiwanie odpowiedzi na specyficzne zapytania do
wspomagania podejmowania decyzji w jednej dziedzinie (marketing, finanse).
Hurtownia danych DW
(Data Warehouse) Zintegrowana struktura wielotematyczna,
umoŜliwiająca uzyskiwanie odpowiedzi na złoŜone zapytania, dostępna wielu
uŜytkownikom. Zawiera szczegółowe dane archiwalne o działalności przedsiębiorstwa.
Przykładowo - w banku hurtownia moŜe zawierać dane o stanie konta klienta na kaŜdy
dzień w ciągu ostatnich 12 miesięcy.
Hurtownia danych dla całego przedsi
ę
biorstwa EDW (
Enterprise Data Warehouse)
Główna składnica danych archiwalnych w przedsiębiorstwie przeznaczona jedynie do
zapełniania oddziałowych hurtowni i minihurtowni oraz innych specjalizowanych składnic
danych. Jej zawartość jest uzupełniana okresowo (raz na tydzień lub raz na miesiąc) z
systemów transakcyjnych przedsiębiorstwa.
Operacyjna składnica danych ODS
(Operational Data Store) Zawiera aktualne dane
tematyczne o przedsiębiorstwie; nie zawiera danych archiwalnych. Zawartość ODS jest
uzupełniana na bieŜąco z systemów transakcyjnych przedsiębiorstwa. SłuŜy do udzielania
odpowiedzi na pytania o stan określonej zmiennej; nie polecana do wykonywania zapytań
typu analitycznego.
Antoni Dydejczyk, Bazy danych, wykład 12
WFiIS, Katedra Informatyki Stosowanej, 2007
Model hurtowni danych