background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 

Hurtownie danych

Hurtownie danych

Wykład 12

8.01.2008

Antoni Dydejczyk

http://www.ftj.agh.edu.pl/~antek

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 

OLTP ( Online Transaction Processing )  - natychmiastowe przetwarzanie transakcji (w 

odróŜnieniu od systemów wsadowego przetwarzania transakcji). Często 
terminem tym okre
śla się takŜe relacyjne bazy danych.

OLAP (Online Analytical Processing) - termin stosowany (w odróŜnieniu od OLTP) na 

określenie systemów umoŜliwiających wielowymiarową analizę danych 
wspomagaj
ącą podejmowanie decyzji biznesowych.

SELECT * FROM Locations, States, Countries WHERE

Locations.State_Id = States.State_Id AND 

Locations.Country_id=Countries.Country_Id AND

Country_Name='USA'

Przykładowa baza danych

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 

Mexico

Distrito Federal

Mexico City

MX01

1005

Canada

Ontario

Toronto

TO01

1004

USA

New York

Brooklyn

NY01

1003

USA

Illinois

Arlington Hts

IL02

1002

USA

Illinois

Chicago Loop

IL01

1001

Country_Name

State_Name

Loc_Name

Loc_Code

Dim_Id

Field Name

Type

Dim_Id

INTEGER (4)

Loc_Code

VARCHAR (4)

Name 

VARCHAR (50)

State_Name

VARCHAR (20)

Country_Name

VARCHAR (20)

W tabeli "WH_Locations" umieszczamy dane dotyczące interesujących nas 

miejsc. W czasie pracy RDBMS (OLTP) tworzona jest tabela będąca 
połączeniem trzech tabel - Locations, State i Countries.

W celu przetwarzania danych dotyczących lokalizacji tworzona jest tabela 

WH_Locations.  Tabela zawiera dane nadmiarowe. Klucz główny Dim_Id.

WYMIAR LOKALIZACJI

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 

Field Name

Type

Dim_Id 

INTEGER (4)

Month

SMALL INTEGER (2)

Month_Name

VARCHAR (3)

Quarter

SMALL INTEGER (4)

Quarter_Name

VARCHAR (2)

Year

SMALL INTEGER (2)

Q2

Q2

Q1

Q1

Q1

TM

_Quarter_Name

2003

2

May

5

1005

2003

2

Apr

4

1004

2003

1

Mar

3

1003

2003

1

Feb

2

1002

2003

1

Jan

1

1001

TM

_Year

TM

_Quarter

TM

_Month_Name

TM

_Month

TM

_Dim_Id

WYMIAR CZASOWY

W celu analizy czasowej tworzymy tabelę WH_Time zawierającą informacje o 

interesujących nas okresach czasowych. Klucz główny to TM_Dim_Id.

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 

Meat

Smoked Salmon 6oz

SMKSAL55

1003

Dairy

Skim Milk 1 Gal

MLK66F

1002

Sanitary

Dove Soap 6PK

DOVE6K

1001

Category

Name

SKU

PR_Dim_Id

Field Name

Type

PR_Dim_Id

INTEGER (4)

SKU 

VARCHAR (10)

Name 

VARCHAR (30)

Category

VARCHAR (30)

WYMIAR PRODUKTU

W celu analizy produktów tworzona jest tabela WH_Product zawierającą

informacje o interesującym nas asortymencie produktów. Klucz główny 
tabeli to PR_Dim_Id.

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 

65432

1001

1004

1001

98765

1003

1001

1003

451121

1001

1002

1002

435677

1003

1001

1001

Sales

LOC_Dim_Id

PR_Dim_Id

TM_Dim_Id

Field Name 

Type

TM_Dim_Id

INTEGER (4)

PR_ Dim_Id 

INTEGER (4)

LOC_ Dim_Id 

INTEGER (4)

Sales 

INTEGER (4)

Zestawienie miesięcznej sprzedaŜy zaleŜne od wymiaru czasowego, wymiaru 

produktu  i wymiaru lokalizacji dla poszczególnych produktów zbieramy w 
tabeli MonthlySales. Klucz główny tak utworzonej tabeli składa się z 
następujących atrybutów (TM_Dim_Id, PR_Dim_Id, LOC_Dim_Id).

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 

--- Selekcja produktu z wykorzystaniem funkcji agregującej SUM

SELECT P.Name, SUM(F.Sales) 

--- Łączenie tabel poszczególnych wymiarów w tabeli FACT

FROM Sales F, Time T, Product P, Location L 

WHERE 

F.TM_Dim_Id = T.Dim_Id 

AND F.PR_Dim_Id = P.Dim_Id 

AND F.LOC_Dim_Id = L.Dim_Id 

--- Budowanie poszczególnych atrybutów 

AND

T.Month='Jan' AND T.Year='2003' AND L.Country_Name='USA'

--- Na koniec agregowanie przy pomocy funkcji 
--- agregującej w celu zebrania danych dla danej
--- kategorii.

GROUP BY P.Category

Schemat gwiazdy

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 

Przykładowy raport dla zebranych danych.

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 

Schemat płatka śniegu

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 

Hierarchia systemów komputerowych w przedsiębiorstwie

DSS
EIS

Data Warehouse

Systemy informacyjne (MIS)

Systemy transakcyjne

Operacyjne bazy danych

Wykonawcy

Analitycy i specjaliści

Kierownicy średniego

szczebla

Kierownicy wyŜszego

szczebla

Systemy transakcyjne wspierają bieŜącą aktywność przedsiębiorstwa - raporty i    
zestawienia wykorzystywane przez bezpośrednich wykonawców operacji.

Systemy informacyjne (Management Information Systems) - aplikacje wspierające 
zarządzanie - wykorzystywane przez analityków i kierowników średnich szczebli.

Systemy Wspomagające Podejmowanie Decyzji (Decision Support Systems) - aplikacje 
dostarczające wiedzy, wykorzystywane przez kierownictwo.

Systemy Informowania Kierownictwa (Executive Information Systems) - aplikacje 
dostarczające kierownictwu wybrane zestawienia i raporty z systemu DSS.

Hurtownie danych

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 

Modele przetwarzania danych :

przetwarzanie operacyjne OLTP (On Line Transaction Processing)

przetwarzanie analityczne OLAP (On Line Analytical Processing)

OLTP (On Line Transaction Processing) - kaŜdy biznesowy system 

informatyczny pracujący w sposób transakcyjny, z natychmiastowym 
przetwarzaniem transakcji (w odró
Ŝnieniu od systemów wsadowego 
przetwarzania transakcji). Cz
ęsto terminem tym określa się takŜe relacyjne 
bazy danych.

OLAP (On Line Analytical Processing) - termin stosowany (w odróŜnieniu od 

OLTP) na określenie systemów umoŜliwiających wielowymiarową analizę
danych wspomagającą podejmowanie decyzji biznesowych.

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 

Przetwarzanie operacyjne OLTP



przetwarzanie transakcji w trybie on-line;



wspomaganie bieŜącej obsługi działalności firmy, dla dobrze 
zdefiniowanych procesów;



oparty na transakcjach, które operują na niewielkiej części danych;



dostarcza rozwiązań dla problemów: efektywne i bezpieczne 
przechowywanie danych, optymalizacja dostępu do danych, 
zarządzanie współbieŜnością;



podstawowym kryterium oceny efektywności systemu OLTP jest ilość
transakcji na sekundę.

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 

Przetwarzanie analityczne OLAP



przetwarzanie analityczne w trybie on-line,



celem jest przeprowadzenie analizy danych i wspomaganie decyzji.

Posiadanie danych opisujących działanie przedsiębiorstwa w dłuŜszym 
okresie czasu pozwala na analizę trendów, anomalii, poszukiwanie 
wzorców zachowań klientów.

Zalety przeprowadzania analizy danych



właściwe zarządzanie zapasami, produkcją;



zrozumienie zachowań klientów, efektywne kierowanie kampaniami 
reklamowymi;



analiza rentowności firmy.

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 

Klasyczna definicja hurtowni danych autorstwa W. H. Inmona
mówi, Ŝe jest to: 



uporządkowany tematycznie, 



zintegrowany, 



zawierający wymiar czasowy, 



nieulotny, 

zbiór danych wspomagających podejmowanie decyzji.

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 

"Uporządkowanie tematyczne

Oznacza, Ŝe dane w hurtowni przechowywane są w oderwaniu od aplikacji, 
która je wygenerowała. 

"Hurtownia ma być zintegrowana"  

Wymaganie pozostaje w związku z poprzednim. Dane w hurtowni muszą mieć
ujednolicone sposoby pomiaru wartości, ujednolicone sposoby kodowania.

"Dane mają zawierać wymiar czasowy

W systemach operacyjnych dane są aktualne w momencie dostępu. Od 
hurtowni natomiast oczekujemy, iŜ dane będą dokładne w dowolnie wybranym 
momencie, to znaczy, Ŝe sprzedaŜ za styczeń będzie taka sama niezaleŜnie od 
tego czy zaŜądamy danych w lutym czy w czerwcu. Kolejnym aspektem 
wymiaru czasowego jest fakt, Ŝe dane w hurtowni po poprawnym pobraniu z 
systemu produkcyjnego nie są aktualizowane. Są więc ogromną liczbą
migawkowych zapisów. 

"Nieulotność danych

Tym pojęciem określa się róŜnicę między przetwarzaniem danych w 
ś

rodowisku operacyjnym i w hurtowni. W pierwszym przypadku dane są

usuwane, aktualizowane i wprowadzane przez cały czas, w hurtowni natomiast 
mamy dwie podstawowe operacje: ładowanie danych i dostęp do nich. 

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 

Hurtownia danych ma wspomagać przetwarzanie informacji 

dla celów strategicznych i analitycznych 

(w odróŜnieniu od systemów transakcyjnych 

– realizujących przetwarzanie dla celów operacyjnych)

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 

Czym powinna być hurtownia danych?

Hurtownia danych jest całkowicie odrębną (ale działającą w ramach 
istniejącego systemu) zorientowaną tematycznie bazą danych wraz z 
towarzyszącymi jej aplikacjami. Powinna być regularnie zasilana 
danymi pochodzącymi z przeróŜnych źródeł (baz transakcyjnych, 
systemów billingowych, zbiorów tekstowych i binarnych).

KaŜdą porcję danych, którą zasilamy hurtownię moŜna porównać do 
fotografii wybranych informacji będących podstawą do wyciągania 
istotnych informacji dotyczących działalności firmy w określonym 
przedziale czasu. Tak teŜ hurtownia danych powinna być przede 
wszystkim systemem słuŜącym do dostarczania informacji zarządczej. 

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 

Narzędzia do budowy hurtowni danych.

Narzędzia wykorzystane do budowy hurtowni danych powinny 
zapewnić:



szybkie i sprawne ładowanie danych, 



czyszczenie i agregowanie danych, 



administrowanie hurtownią, 



bezpieczeństwo danych. 

Powinny równieŜ sprostać wymaganiom związanym z szybką i 
efektywną budową aplikacji analitycznych. Narzędzie musi 
współpracować z róŜnymi systemami, mieć moŜliwość pracy w trybie 
klient-serwer oraz technologii intranetowej.

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 

Systemy transakcyjne

Systemy Informacji Zarządczej

Wprowadzanie, modyfikowanie,
raportowanie bieŜących
informacji

Dostarczanie informacji
przekrojowych

DuŜa ilość prostych operacji

Mała ilość skomplikowanych
zapytań

Aplikacje statyczne

Aplikacje dynamiczne

Automatyzacja czynności
rutynowych

Wspomaganie kreatywności
analityków

Porównanie systemów transakcyjnych z systemami typu SIZ

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 

Charakterystyka hurtowni danych

Charakterystyka 

Opis 

Orientacja tematyczna 
 

Dane są zorganizowane w taki sposób w jaki uŜytkownik się do 
nich odwołuje. 

Integralność 
 

System dba o spójność i zgodność danych z przyjętymi 
standardami (nazywamy to "czyszczeniem danych", czyli 
poddawaniem ich odpowiedniej konwersji, ujednolicaniu 
formatów, jednostek miar itp.). 

Trwałość (nie ulotność) 

Dane są tylko do odczytu. Dane pozostają niezmienione. 

Szeregi czasowe 

Danymi są szeregi czasowe, a nie bieŜące stany. 

Agregacja danych 
 

Operacyjne dane są przedstawione w postaci uŜytecznej dla 
podejmowania decyzji. 

Rozległość 
 

Utrzymywanie szeregów czasowych powoduje, Ŝe duŜo więcej 
danych jest zachowywanych. 

Brak normalizacji 
 

Dane dla systemów SIZ mogą być redundantne (występować 
wiele razy). 

Metadane 
 

Metadanymi nazywamy opisy konkretnych danych 
przechowywanych w hurtowni (np. w bazie przechowujemy 
opisy "PF", które wg słownika klientów identyfikujemy jako 
podmioty finansowe). 

 
 

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 

Hurtownia

danych

Składnica

danych

ODS

Metadane

Zasilanie
hurtowni

Warstwa danych
wła
ściwych

Dystrybucja
danych

Dane operacyjne
Dane zewnętrzne

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 

Składnica danych (DM) ma za zadanie przyspieszyć dostęp do najczęściej 
wykorzystywanych informacji. Składnica danych następujące cechy: 



w odróŜnieniu od hurtowni zaprojektowana jest pod kątem szybkości a nie 
elastyczności, 



jest oddzielona od systemów operacyjnych przedsiębiorstwa, 



obsługuje standardowe zapytania, 



gromadzi informacje strategiczne lub taktyczne, których struktura jest 
wysoce wyspecjalizowana, 



zawiera niewielka liczbę danych, często są to agregaty. 

Operacyjny magazyn danych (ODS):



jest źródłem informacji operacyjnych, integrującym dane pochodzące z 
róŜnych aplikacji; 



zawiera małą liczbę danych, głównie bieŜących; jego zadaniem jest 
odpowiadać na palące pytania dotyczące aktualnych danych; 



moŜe być obszarem czyszczenia, integrowania i przygotowywania danych 
dla hurtowni (tzn. funkcję ODS pełnić moŜe nieco przystosowany TSA). 

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 

Metadane, czyli dane o danych. Metadane umoŜliwiają uŜytkownikom 
poruszanie się po hurtowni, tłumacząc nieprzyjazne dla nich pojęcia 
informatyczne na słownik biznesu oraz informując ich, jakie dane są aktualnie 
dostępne. Metadane są katalogiem dostępnych informacji. Metadane powinny 
zawierać przede wszystkim następujące informacje: 



opis danych zawartych w hurtowni; 



opis dostępności danych, np. "dane o fakturach aktualnie dostępne są za 
okres 98-01-01 do 98-07-30"; 



nazwę systemu źródłowego, z którego pochodzą dane, 



opis operacji poczynionych na danych podczas zasilania hurtowni, np. czy 
kwoty zostały zsumowane i w jaki sposób, czy odfiltrowano wszystkie 
anulowane faktury itd. 



wersję metadanych, np.: kiedy zmieniło się źródło danych o klientach; dane 
za pewien okres mogą róŜnić się od późniejszych danych, aby więc 
właściwie je odczytać, niezbędna jest moŜliwość określenia, jakie 
metadane obowiązywały w danym momencie; 



metryki dotyczące danych (np. liczby wierszy w tablicach), pozwalające 
uŜytkownikowi ocenić, czy odpowiedź na jego pytanie pojawi się szybko 
czy po dłuŜszym czasie. 

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 

Na modelowe środowisko Wspomagania Decyzji składają się następujące warstwy:

1.  Warstwa danych źródłowych - dane przetwarzania transakcyjnego (OLTP), dane 

historyczne i archiwalne. Dane ze źródeł zewnętrznych. Odpowiedzialna za działanie 
operacyjne i administracyjne systemu. Współczesne systemy OLTP przechowują
bieŜące dane operacyjne w znormalizowanej relacyjnej bazie danych.

2.  Warstwa hurtowni danych (Data Warehouse Layer) - dane przechowywane są często 

w postaci nie znormalizowanej, co powoduje nadmiarowość danych, jednak ułatwia 
operacje analityczne i tworzenie raportów. Przenoszenie danych z warstwy OLTP do 
warstwy DW (ekstrakcja danych) jest najtrudniejszym i najbardziej czasochłonnym 
zadaniem.

3.  Warstwa hurtowni tematycznych (Data Mart Layer) - w tej warstwie przechowywane 

są dane sumaryczne utworzone w oparciu o dane warstwy DW. Dane przechowywane 
są w formacie, który umoŜliwia szybki, intuicyjny i efektywny dostęp do danych. 
Zwykle kaŜda baza DM jest bazą tematyczną i dotyczy wybranego zagadnienia.

4.  Warstwa aplikacji analitycznych - naleŜą do niej narzędzia modelowania 

matematycznego, narzędzia analitycznego przetwarzania i „data mining tools”. 

5.  Warstwa prezentacji - warstwa środowiska graficznego adresowana do końcowych 

uŜytkowników Data Mart lub Data Warehouse. WyróŜniamy tutaj:

- OLAP GUI - dla końcowych uŜytkowników data Mart
- Managed Query Environment (MQE) - dla końcowych uŜytkowników DW
- Geographic Information Systems (GIS) - dla wizualizacji danych topograficznych

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 

Dane

archiwalne

Dane

transakcyjne

(z baz OLTP)

Dane

zewnętrzne

Dane

ź

ródłowe

DW

(OLAP)

DW

Klient

Klient

Klient

DM

DM

Data
Warehouse

Data Mart

Prezentacja
danych

Zapytania,
analizy,
raporty

Ekstrakcja
i konwersja
danych

DM(OLAP)

Przetwarzanie analityczne

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 

Dane

archiwalne

Dane

transakcyjne

(z baz OLTP)

Dane

zewnętrzne

Dane

ź

ródłowe

DW

Klient

Klient

Klient

DM

Data
Warehouse

Data Mart

Prezentacja
danych

Zapytania,
analizy,
raporty

Ekstrakcja
i konwersja
danych

Przetwarzanie analityczne

DM

DM

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 

Dane

archiwalne

Dane

transakcyjne

(z baz OLTP)

Dane

zewnętrzne

Dane

ź

ródłowe

Klient

Klient

Klient

DM

DM

Data
Warehouse

Prezentacja
danych

Zapytania,
analizy, raporty

Konwersja
danych

Przetwarzanie analityczne

Zbiory 
danych:
RDBMS,
pliki tekstowe,
itp.

Aplikacje:
Ekstrakcja,
Konwersja,
Czyszczenie,
Standaryzacja,
Eksport do DM

DM

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 

Mechanizm ETL (Extraction, Transformation and Load)

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 

Ekstrakcja danych



odbywa się poprzez bramki (gateways), 
standardowe interfejsy (ODBC, JDBC, Oracle Open
Connect, Informix Enterprise Gateway), własne 
procedury



identyfikacja pól w tabelach źródłowych, z których 
czerpane będą dane

Mechanizmy ETL (Extraction, Transformation and Load)

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 

Czyszczenie danych



zapewnienie jakości i poprawności danych



detekcja i korekcja błędów: niekompletne dane, 
błędne dane, informacje niezrozumiałe, 
niekonsekwencje w danych, konflikty strukturalne



czyszczenie specjalne



czyszczenie oparte na regułach

Mechanizmy ETL (Extraction, Transformation and Load)

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 

Transformacja danych



analiza tematyczna danych



ustalenie wspólnego formatu danych



rozdzielenie i łączenie kolumn, konwersja typów, agregaty



określenie zbioru reguł sterujących tą transformacją

Mechanizmy ETL (Extraction, Transformation and Load)

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 

Ładowanie danych



integracja i umieszczenie nowych danych w hurtowni



sprawdzanie ograniczeń integralnościowych, 
sortowanie, podsumowanie, budowanie indeksów



ładowanie wsadowe, sekwencyjne, równoległe

Mechanizmy ETL (Extraction, Transformation and Load)

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 

Monitorowanie zmian



mechanizmy wyzwalaczy



analiza pliku logu



procedury własne



zapytania do źródeł

Mechanizmy ETL (Extraction, Transformation and Load)

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 

Cechy charakterystyczne przepływu i zarządzania danymi:



Heterogeniczne dane źródłowe,

 Ekstrakcja i konwersja danych,

 Przetwarzanie analityczne danych zgromadzonych w środowisku DW,

 Prezentacja danych na stacjach klientów.

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 

Obszary zastosowań przetwarzania analitycznego:

1.

Raportowanie - nie wymaga przetwarzania analitycznego, a jedynie dostęp 
do danych. MoŜe być realizowane wsadowo i prezentowane w postaci 
wydruku.

2.

Interaktywne przetwarzanie analityczne (On-Line Analitycal Procesing -
OLAP), które dostarcza pogłębionych analiz finansowych i 
marketingowych.

3.

Przetwarzanie predykcyjne - ma umoŜliwić przewidywanie zachowań
naszego przedsiębiorstwa, rynku, biznesu w oparciu o posiadane dane i 
załoŜone wskaźniki - do tego celu stosuje się technologię drąŜenia danych 
(Data Mining)

4.

MoŜliwość modelowania biznesu, przewidywania przyszłości, kreowania 
planów.

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 

Bazy danych wspierające technologię hurtowni danych - OLAP moŜna podzielić
na dwa rodzaje, ze względu na wykorzystywane przez nie modele danych:



bazy relacyjne, nazywane równieŜ ROLAP (Relational OLAP),



bazy wielowymiarowe (multidimensional), nazywane równieŜ MD-OLAP 
(MultiDimensional OLAP).

ROLAP

Hurtownia danych tego typu jest zbudowana na podstawie systemu 
zarządzania relacyjną bazą danych posiadającego mechanizmy efektywnego 
przetwarzania zapytań typu OLAP. Zwykle schemat takiej hurtowni posiada 
strukturę gwiazdy (star schema) lub strukturę bardziej złoŜoną, 
przypominającą płatek śniegu (snowflake schema). W celu skrócenia czasu 
potrzebnego na wyznaczenie wyników zapytania relacje bazy danych są
często denormalizowane, na przykład zawierają wartości zagregowane, są
wynikiem połączenia wielu innych relacji. 

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 

Technologia ROLAP

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 

Technologia ROLAP

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 

Bazy danych wspierające technologię hurtowni danych - OLAP moŜna podzielić
na dwa rodzaje, ze względu na wykorzystywane przez nie modele danych:



bazy relacyjne, nazywane równieŜ ROLAP (Relational OLAP),



bazy wielowymiarowe (multidimensional), nazywane równieŜ MD-
OLAP (MultiDimensional OLAP).

MD-OLAP

Hurtownia danych zaprojektowana w technologii MD-OLAP do 
przechowywania danych wykorzystuje wielowymiarowe tablice 
(multidimensional arrays, datacubes). Tablice te zawierają wstępnie 
przetworzone (np. zagregowane) dane pochodzące z wielu źródeł. 

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 

Technologia MOLAP

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 

Technologia MOLAP

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 

Budowa hurtowni danych

Analiza



grupa analityków przychodzi do firmy;



przeprowadzają rozmowy, najlepiej z kaŜdym przyszłym 
u
Ŝytkownikiem hurtowni;



sporządzają wymagania techniczne i biznesowe.

Wymagania obecnie najczęściej opisuje się w narzędziu CASE, co ułatwia 
analiz
ę zaleŜności.

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 



wykonanie inwentaryzacji dostępnych źródeł danych;



dla kaŜdego ze źródeł naleŜy określić formaty przechowywania 
danych, ich jako
ść, potrzeby aktualizacji;



konstrukcja wstępnego modelu danych;



wybór narzędzi;



określenie wymagań sprzętowych;



oszacowanie objętości danych.

Budowa hurtowni danych

Projektowanie

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 



najczęściej realizuje się najpierw projekt pilotowy, obejmujący 
wszystkie warstwy lecz jego zakres tematyczne jest niewielki;



stworzenie modelu danych dla uŜytkownika końcowego;



pisanie aplikacji i tworzenie dokumentacji;



przeszkolenie uŜytkowników i administratorów;



rozszerzenie frontu robót.

Budowa hurtowni danych

Budowa i wdroŜenie

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 



często trwa przez cały czas Ŝycia systemu i pochłania wielkie 
koszty;



trzeba dostosowywać hurtownię do nowych potrzeb 
u
Ŝytkowników.

Często budowa hurtowni ma charakter przyrostowy

.

Budowa hurtowni danych

Konserwacja

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 

Wirtualna Hurtownia Danych

Rozwiązanie to polega na udostępnianiu uŜytkownikom danych z wielu, 
róŜnorodnych systemów źródłowych poprzez warstwę pośredniczącą. Dostęp 
ten umoŜliwia oprogramowanie warstwy średniej (middleware). UŜytkownicy 
końcowi uzyskują dostęp do danych przykładowo poprzez zainstalowanie 
fragmentu programowania middleware na swoich stacjach roboczych. 

Architektury

Architektury

hurtowni

hurtowni

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 

Wirtualna Hurtownia Danych

Wirtualna Hurtownia Danych

Zalety rozwiązania:

• Niski koszt rozwiązania związany z brakiem infrastruktury Hurtowni 

Danych, a w szczególności z brakiem sprzętu, oprogramowania 
bazadanowego, narzędzi transformacji; 

• Dostęp do wielu, róŜnych systemów transakcyjnych. 

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 

Wirtualna Hurtownia Danych

Wirtualna Hurtownia Danych

Wady rozwiązania:

• Rozwiązanie to nie odciąŜa systemów źródłowych od przeprowadzanych 

analiz; 

• Rozwiązanie powoduje dodatkowe obciąŜenie systemów produkcyjnych 

związane z dynamiczną realizacją zapytań uŜytkowników do systemów 
ź

ródłowych; 

• Rozwiązanie to stanowi jedynie interfejs do róŜnych systemów 

informatycznych i nie dostarcza Ŝadnej dodatkowej funkcjonalności; 

• Brak warstwy ETL powoduje: 

• brak moŜliwości przeprowadzenia procesu czyszczenia danych (istotne 

przy niskiej jakości danych źródłowych); 

• brak moŜliwości integracji danych z róŜnych źródeł, np. danych o 

kliencie z systemu transakcyjnego i systemu CRM w postaci stworzenia 
jednej bazy danych zawierającej spójne dane o kliencie; 

• MoŜliwość analizy danych historycznych tylko pod warunkiem 

przechowywania niezbędnych danych w systemach produkcyjnych, co wiąŜe 
się z ich dodatkowym obciąŜeniem; 

• Brak moŜliwości przeprowadzania analiz wielowymiarowych. 

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 

Wiele Składnic Danych

Rozwiązanie to polega na pobraniu niezbędnych danych z systemów 
ź

ródłowych, umieszczeniu ich w jednej lub wielu Składnicach Danych i 

udostępnianiu danych ze Składnic Danych uŜytkownikom końcowym. KaŜda 
Składnica Danych moŜe być zasilana z jednego lub wielu źródeł danych za 

pośrednictwem warstwy ETL.

Architektury

Architektury

hurtowni

hurtowni

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 

Wiele sk

Wiele sk

ł

ł

adnic danych

adnic danych

Zalety rozwiązania:

• Niski koszt architektury w porównaniu z kolejnymi wariantami, 

wynikający z mniejszych wymagań związanych ze sprzętem (pamięć
dyskowa, jednostki obliczeniowe); Koszt projektowania i implementacji 
procesu transformacji pomniejszony o etap zasilania repozytorium danych 
Hurtowni Danych; 

• Stosunkowo krótki czas wdroŜenia względem kolejnych wariantów, w 

których musi powstać dodatkowo repozytorium Hurtowni Danych; 

• MoŜliwości równoległego wdraŜania wielu Składnic Danych przez 

niezaleŜne zespoły, które mogą wykonywać pracę w tym samym czasie; 

• OdciąŜenie systemów transakcyjnych od funkcji analitycznych; 
• Krótszy czas odpowiedzi na zapytania skierowane do bazy danych, dzięki 

przechowywaniu danych zagregowanych; 

• MoŜliwość przeprowadzania analiz wielowymiarowych, np. po 

zastosowaniu serwera do analiz wielowymiarowych zasilanego danymi z 
jednej lub wielu Składnic Danych. 

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 

Wiele sk

Wiele sk

ł

ł

adnic danych

adnic danych

Wady rozwiązania:

• Problemy z zarządzaniem projektem budowy wielu odrębnych Składnic 

Danych polegających na koordynacji prac związanych z odrębnymi 
projektami, np. procesu zbierania wymagań biznesowych, analizy 
systemów źródłowych, harmonogramowanie dostępu do systemów 
ź

ródłowych w celu uniknięcia ich przeciąŜenia; 

• Niespełnienie podstawowego załoŜenia Hurtowni Danych w postaci 

budowy spójnego, zintegrowanego źródła danych do analiz biznesowych, 
co grozi powstaniem baz danych odrębnie zarządzanych i 
administrowanych, co powoduje utratę integracji systemów; 

• Potencjalne problemy z interpretacją wyników analiz wykonywanych na 

podstawie róŜnych Składnic Danych; Dane liczbowe dotyczące tych 
samych zagadnień będą pochodziły z róŜnych Składnic, a ze względu na 
odrębne procesy ETL mogą one być róŜne; 

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 

Wiele sk

Wiele sk

ł

ł

adnic danych

adnic danych

Wady rozwiązania:

• Zasilanie róŜnych Składnic z tych samych systemów transakcyjnych 

powoduje wielokrotne obciąŜenie systemów produkcyjnych procesem 
zasilania danymi; 

• Wielokrotne ponoszenie kosztów budowy kolejnych Składnic Danych 

wynikających z powtarzającego się etapu analizy wymagań, ponownego 
rozpatrywania dostępnych platform sprzętowych i oprogramowania, 
wielokrotnej analizy jakości danych w tych samych systemach; 

• MoŜliwość zasilania róŜnych Składnic Danych tymi samymi danymi z 

róŜnych źródeł, co wpływa na pogorszenie spójności tych systemów. 

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 

Architektury

Architektury

hurtowni

hurtowni

Hurtownia Danych z dostępem tylko do Składnic Danych

Rozwiązanie to polega na pobraniu niezbędnych danych z systemów źródłowych 
i umieszczeniu ich w jednej, centralnej bazie danych Hurtowni Danych 
(Repozytorium Danych). Zasilanie Hurtowni danymi następuje za pośrednictwem 
warstwy ETL, która umoŜliwia przeprowadzenie procesu czyszczenia i integracji 
danych. Następnie dane z Hurtowni - w razie potrzeby równieŜ za pośrednictwem 
warstwy ETL - zasilają Składnice Danych, do których mają dostęp uŜytkownicy 
końcowi. W tym wariancie architektury nie mogą oni korzystać bezpośrednio z 
centralnej bazy danych Hurtowni.

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 

Hurtownia Danych z dost

Hurtownia Danych z dost

ę

ę

pem tylko do Sk

pem tylko do Sk

ł

ł

adnic Danych

adnic Danych

Zalety rozwiązania:

• Istnienie jednego, zintegrowanego repozytorium danych, które moŜe być

następnie wykorzystane jako źródło danych do zasilania Składnic Danych, 
czyli baz tematycznych; 

• Zminimalizowanie obciąŜenia systemów źródłowych dzięki przeniesieniu 

procesów związanych z analizami biznesowymi na płaszczyznę Hurtowni 
Danych; 

• OdciąŜenie systemów źródłowych od wielokrotnego procesu zasilania wielu 

Składnic Danych na rzecz jednokrotnego zasilania głównego repozytorium 
danych Hurtowni; 

• Integracja wielu źródeł danych z róŜnych działów i departamentów firmy na 

poziomie danej Składnicy Danych. Dane mogą pochodzić z róŜnej liczby 
systemów transakcyjnych jak równieŜ ze źródeł zewnętrznych; 

• Ułatwienie procesu administracji Hurtownią Danych dzięki ograniczeniu 

bezpośredniego dostępu uŜytkowników do głównego repozytorium danych. 
Powoduje to polepszenie bezpieczeństwa danych (uŜytkownicy mają dostęp 
tylko do danej Składnicy Danych); 

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 

Hurtownia Danych z dost

Hurtownia Danych z dost

ę

ę

pem tylko do Sk

pem tylko do Sk

ł

ł

adnic Danych

adnic Danych

Zalety rozwiązania:

• Zwiększenie efektywności działania repozytorium Hurtowni Danych, 

dzięki nie obciąŜaniu go dodatkowymi procesami związanymi z obsługą
zapytań uŜytkowników, którzy korzystają bezpośrednio ze Składnic 
Danych; 

• MoŜliwość dowolnej prezentacji danych uŜytkownikom końcowym, 

ograniczona jedynie moŜliwościami obecnej technologii (np. w postaci 
witryny internetowej, aplikacji klient-serwer itp.); 

• MoŜliwość przeprowadzania analiz wielowymiarowych, np. po 

zastosowaniu serwera do analiz wielowymiarowych zasilanego danymi z 
Hurtowni Danych. 

Wady rozwiązania:

• Znaczący koszt rozwiązania wynikający z kosztu rozbudowanej 

infrastruktury Hurtowni Danych, 

• MoŜliwe ograniczenie moŜliwości wykonywania raportów typu "ad hoc" 

(zawęŜenie dostępu uŜytkownika do danych przechowywanych w 
Składnicy/ach Danych);

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 

Dostęp mieszany

Rozwiązanie to polega na pobraniu niezbędnych danych z systemów źródłowych 
i umieszczeniu ich w jednej, centralnej bazie danych Hurtowni Danych. 
Zasilanie Hurtowni danymi następuje za pośrednictwem warstwy ETL, która 
umoŜliwia przeprowadzenie procesu czyszczenia i integracji danych. Następnie 
dane z Hurtowni - w razie potrzeby równieŜ za pośrednictwem warstwy ETL -
zasilają Składnice Danych, do których mają dostęp uŜytkownicy końcowi. W 
tym wariancie architektury mogą oni korzystać bezpośrednio z centralnej bazy 
danych Hurtowni. Ponadto niektóre Składnice Danych mogą być zasilane 
danymi bezpośrednio z systemów źródłowych, a nie tylko z Hurtowni Danych. 

Architektury

Architektury

hurtowni

hurtowni

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 

Dost

Dost

ę

ę

p mieszany

p mieszany

Zalety rozwiązania:

• Zminimalizowanie obciąŜenia systemów źródłowych dzięki przeniesieniu 

procesów związanych z analizami biznesowymi na płaszczyznę Hurtowni 
Danych; 

• OdciąŜenie systemów źródłowych od wielokrotnego procesu zasilania wielu 

Składnic Danych na rzecz jednokrotnego zasilania głównego repozytorium 
danych Hurtowni; 

• Integracja wielu źródeł danych z róŜnych działów i departamentów firmy. 

Dane mogą pochodzić z róŜnej liczby systemów transakcyjnych jak równieŜ ze 
ź

ródeł zewnętrznych; 

• Istnienie jednego, zintegrowanego repozytorium danych, które moŜe być

następnie wykorzystane jako źródło danych do zasilania Składnic Danych, 
czyli baz tematycznych; 

• MoŜliwość zwiększenia efektywności wykonywanych analiz przez grupę

uŜytkowników poprzez stworzenie Składnicy Danych zasilanej z repozytorium 
Hurtowni; 

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 

Dost

Dost

ę

ę

p mieszany

p mieszany

Zalety rozwiązania:

• Ułatwienie procesu administracji Hurtownią Danych dzięki ograniczeniu 

bezpośredniego dostępu uŜytkowników do głównego repozytorium danych. 
Powoduje to polepszenie bezpieczeństwa danych (uŜytkownicy mają dostęp 
tylko do danej Składnicy Danych); 

• Zwiększenie efektywności działania Hurtowni Danych, dzięki nie obciąŜaniu 

jej dodatkowymi procesami związanymi z obsługą zapytań uŜytkowników; 

• MoŜliwość dowolnej prezentacji danych uŜytkownikom końcowym, 

ograniczona jedynie moŜliwościami obecnej technologii (np. w postaci 
witryny internetowej, aplikacji klient-serwer itp.); 

• MoŜliwość zastosowania jednolitego narzędzia ETL do wszystkich danych, 

jakimi zasilana jest Hurtownia Danych; 

• MoŜliwość wykonywania analiz ad-hoc przez upowaŜnionych uŜytkowników 

mających dostęp do całości danych znajdujących się w Hurtowni Danych;

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 

Zalety rozwiązania:

• Stworzenie nowych moŜliwości raportowych, dzięki dostępowi 

uŜytkowników końcowych do wszystkich danych znajdujących się w 
Hurtowni Danych; brak ograniczenia do pojedynczych Składnic Danych co 
czyni to rozwiązanie bardziej elastycznym; 

• MoŜliwość przechowywania danych zagregowanych co ułatwia i 

przyspiesza wykonywanie analiz; 

• MoŜliwość przeprowadzania analiz wielowymiarowych, np. po 

zastosowaniu serwera do analiz wielowymiarowych zasilanego danymi z 
Hurtowni Danych. 

Wady rozwiązania:

• Znaczący koszt rozwiązania wynikający z kosztu rozbudowanej 

infrastruktury Hurtowni Danych.

Dost

Dost

ę

ę

p mieszany

p mieszany

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 

Oracle

Oracle

Opracowała oprogramowanie Oracle Warehouse Builder przeznaczone do 

projektowania, generowania i zasilania korporacyjnych hurtowni danych. W 
ofercie znajduje si
ę teŜ serwer bazy danych Oracle8i i Oracle9i, który moŜe słuŜyć
jako platforma dla hurtowni danych oraz szereg aplikacji analitycznych. 

Oprogramowanie do projektowania hurtowni pozwala modelować ją

wizualnie, dostępne są kreatory wspomagające standardowe działania projektowe 
oraz biblioteki transformacji danych. Zapewnia to szybkie tworzenie hurtowni, a 
cały potrzebny kod generowany jest automatycznie.

W ofercie są teŜ pakiety Oracle Data Mart Suite oraz Oracle Data Mart Suite -

Sales & Marketing Edition, słuŜące do tworzenia składnic danych (data mart). 
Zawieraj
ą one oprogramowanie bazodanowe, narzędzia do projektowania, 
ekstrakcji i transformacji danych oraz zasilania nimi składnic danych, instrumenty 
do analiz i raportów oraz narz
ędzia dające dostęp do składnicy poprzez Intranet.

Firma wytwarza równieŜ oprogramowanie analityczne ogólnego 

przeznaczenia (Oracle Discoverer, oparte na technologii OLAP Oracle Express i 
Data Mining Oracle Darwin) i aplikacje specjalizowane.

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 

IBM

Przygotował zintegrowany pakiet oprogramowania biznesowego pod nazwą

Visual Warehouse. Pakiet ten zawiera szereg narzędzi przeznaczonych do 
realizacji poszczególnych kroków projektu hurtowni danych. Nale
Ŝą do nich: 
oprogramowanie do definiowania schematu, oprogramowanie do ekstrakcji 
danych z ró
Ŝnych źródeł, ich oczyszczania i przekształcania, oprogramowanie do 
zasilania hurtowni danymi (ładowania za pomoc
ą SQL-a, przyrostowego oraz 
równoległego), narz
ędzia do automatyzacji procesu zasilania (scheduler), 
podstawowe oprogramowanie do zarz
ądzania, narzędzie analityczne typu OLAP 
oraz oprogramowanie pozwalaj
ące na dostęp do hurtowni za pomocą technologii 
internetowych. W pakiecie zawarty jest równie
Ŝ serwer bazy danych DB2 -
platforma, na której mo
Ŝe działać hurtownia korporacyjna.

W ofercie znajduje się jeszcze dodatkowy pakiet DB2 Warehouse Manager 

rozszerzający moŜliwości serwera bazy. Udostępnia on nowe funkcje zarządzania, 
poprawia skalowalno
ść, zwiększa moŜliwość kontroli nad zapytaniami oraz 
metadanymi.
IBM oferuje równie
Ŝ aplikacje analityczne w technologii OLAP (DB2 OLAP 
Server) i Data Mining IntelligentMiner.

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 

Sybase

Oferuje Warehouse Studio, który jest zintegrowanym zestawem narzędzi 

do tworzenia hurtowni danych. W jego skład wchodzi ponad dziesięć
narzędzi i aplikacji przeznaczonych do obsługi projektu (modelowania, 
oczyszczania i przenoszenia danych), składowania i zarz
ądzania danymi, 
tworzenia zapyta
ń i raportów. Ponadto dostępne są równieŜ branŜowe 
pakiety aplikacji Sybase Industry Warehouse Studios, które zostały 
przygotowane do tworzenia specjalizowanych hurtowni danych.

Dodatkowo, Sybase udostępnia pakiet PowerStage przeznaczony do 

automatyzacji procesów ekstrakcji, transformacji i oczyszczania danych 
pochodz
ących z róŜnych źródeł. Jako platformę do działania hurtowni 
danych Sybase oferuje własny serwer bazy danych - Adaptive Enterprise
Server.

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 

SAS

Ma w ofercie SAS System, który składa się z bazy SAS Base oraz 

dodatkowych modułów rozszerzających jego podstawowe funkcje. 
SAS/Warehouse Administrator jest przeznaczony do tworzenia skryptów 
ładuj
ących hurtownie danych. Pakiet SAS/ACCESS pozwala operować na 
danych zewn
ętrznych pochodzących z innych serwerów baz danych. W 
systemie znajduj
ą się moduły pozwalające na zorganizowanie dostępu do 
hurtowni danych z poziomu Internetu. W ofercie znajduje si
ę równieŜ
SAS/Enterprise Miner, narzędzie klasy data mining przeznaczone do 
odkrywania zale
Ŝności w danych oraz cała gama analiz statystycznych.

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 

NCR

Opracował Teradata Warehouse Suite, rodzinę zintegrowanych produktów 

wspomagających realizację trzech faz środowiska hurtowni danych (zasilanie 
hurtowni danych, zarz
ądzanie danymi i metadanymi oraz analiza danych z 
wykorzystaniem technologii OLAP i data mining). Jako platforma do działania 
systemu przeznaczony jest NCR Teradata Active Warehouse (oparty na serwerze 
NCR Teradata Warehouse).

Computer Associates

Proponuje zintegrowany pakiet DecisionBase. W jego skład wchodzą

narzędzie do projektowania modelu hurtowni danych ERwin, narzędzie zasilania 
danymi pochodz
ącymi z róŜnych źródeł DecisionBase Transformer, narzędzie do 
zarz
ądzania metadanymi PLATINUM Repository, narzędzia analityczne: 
bazuj
ące na technologii OLAP DecisionBase OLAP Server oraz bazujące na 
sieciach neuronowych Neugents, 
środowisko do szybkiego tworzenia aplikacji 
analitycznych bazuj
ące na Forest & Trees, narzędzie do tworzenia raportów 
DecisionBase Reporter, narz
ędzie do ekstrakcji i oczyszczania danych InfoRefiner
oraz InfoPump, przeznaczone do replikacji danych

.

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 

Tematyczna hurtownia danych, minihurtownia DM

(Data Mart) Składnica danych 

tematycznych, ułatwiająca uzyskiwanie odpowiedzi na specyficzne zapytania do 
wspomagania podejmowania decyzji w jednej dziedzinie (marketing, finanse). 

Hurtownia danych DW

(Data Warehouse) Zintegrowana struktura wielotematyczna, 

umoŜliwiająca uzyskiwanie odpowiedzi na złoŜone zapytania, dostępna wielu 
uŜytkownikom. Zawiera szczegółowe dane archiwalne o działalności przedsiębiorstwa. 
Przykładowo - w banku hurtownia moŜe zawierać dane o stanie konta klienta na kaŜdy 
dzień w ciągu ostatnich 12 miesięcy. 

Hurtownia danych dla całego przedsi

ę

biorstwa EDW (

Enterprise Data Warehouse

Główna składnica danych archiwalnych w przedsiębiorstwie przeznaczona jedynie do 
zapełniania oddziałowych hurtowni i minihurtowni oraz innych specjalizowanych składnic 
danych. Jej zawartość jest uzupełniana okresowo (raz na tydzień lub raz na miesiąc) z 
systemów transakcyjnych przedsiębiorstwa. 

Operacyjna składnica danych ODS

(Operational Data Store) Zawiera aktualne dane 

tematyczne o przedsiębiorstwie; nie zawiera danych archiwalnych. Zawartość ODS jest 
uzupełniana na bieŜąco z systemów transakcyjnych przedsiębiorstwa. SłuŜy do udzielania 
odpowiedzi na pytania o stan określonej zmiennej; nie polecana do wykonywania zapytań
typu analitycznego. 

background image

Antoni Dydejczyk, Bazy danych, wykład 12 

WFiIS, Katedra Informatyki Stosowanej, 2007 

Model hurtowni danych