background image

 

1

Wróżenie z fusów – czyli hurtownie danych 

 

Zasoby 

informacyjne 

przedsiębiorstwa 

najczęściej 

są 

gromadzone w różnych bazach operacyjnych.  

 

Dostęp  do  najbardziej  aktualnych  danych  jest  kluczowym 

czynnikiem w codziennej pracy każdej firmy.  

 

Ceny  produktów,  adresy  dostawców,  stany  magazynowe  czy 

stany  finansów  muszą  się  zmieniać  na  bieżąco  –  wynika  to  z 

faktu, że tego typu dane szybko ulegają przedawnieniu i stają się 

nie  aktualne  i  tylko  obciążają  system  stają  się  „fusami”  dla 

systemu informacyjnego. 

 

Takie  dane  historyczne  „fusy”  mogą  stanowić  kopalnie  wiedzy 

dla  analityków  firmy.  Problem  polega  jednak  na  umiejętnym 

wydobyciu z nich informacji o strategicznym znaczeniu dla firmy. 

Takie  wydobycie  polega  na  ich  odpowiednim  połączeniu  i 

przedstawieniu w czytelnej formie kierownictwu. 

 

Czas  i  trudności  wynikające  z  takiego  scalania  i  wydobywania 

danych jest często przyczyną budowy scentralizowanego systemu 

analizy  i  raportowania  zwanego  hurtownią  danych  –  data 

warehouse.  

 

Wszystko  zaczęło  się  jednak  od  systemów  o  przetwarzaniu 

operacyjnym  –  baz  danych.  Najczęściej  obsługują  one  operacje 

on-line,  czyli  można  stwierdzić,  że  są  to  operacje  czasu 

rzeczywistego. 

 Przykład 1. 

background image

 

2

  

Przykładowo  do  zakładu  wpływa  zamówienie  na  zakup  1000  okien 

system  operacyjny  sprawdza  czy  ma  potrzebne  ilości  surowca  do 

wyprodukowania 1000 okien i odejmuje je od bieżącego stanu magazynowego 

(oczywiście  przykład  jest  maksymalnie  uproszczony  –  nowoczesne  systemy 

uciekają  się  do  analizy  zasobów  produkcyjnych,  kapitałowych,  struktury 

wyrobów itd.). Wynika z tego, że systemy operacyjne pomagają w codziennym 

funkcjonowaniu  przedsiębiorstwa  (alarmują  gdy  brakuje  jakiejś  pozycji  w 

magazynie, powiadamiają ile czasu zostało do realizacji płatności, monitorują 

ogólny stan dostępnego kapitału).  

 

Jak 

zmienia 

się 

sytuacja, 

gdy 

użytkownik 

systemu 

operacyjnego  zada  pytanie,  jaki  rodzaj  okien  jest  sprzedawany  w 

różnych  obszarach  kraju?  W  tym  momencie  jest  to  już    „obszar” 

analizy.  Najczęściej  analiza  dokonywana  jest  na  podstawie 

trendów  historycznych,  czyli  ma  duże  odniesienie  do  danych 

historycznych i jest uzależniona od skali czasu.  

 

System  operacyjny  (oparty  o  klasyczną  bazę  danych)  nie 

posiada  możliwości  dokonywania  analiz  porównawczych,  lub 

posiada  je  w  bardzo  ograniczonym  zakresie.  Często  bywa  tak,  że 

próba  analizy  przeprowadzona  z  użyciem  systemu  operacyjnego 

kończy  się  zaabsorbowaniem  wszystkich  jego  zasobów,  co  może 

doprowadzić  do  czasowego  (np.  kilkugodzinnego  paraliżu 

informatycznego  firmy).  Bywa  też  tak,  że  struktura  danych 

uniemożliwia realizację odpowiedzi na dane zapytania. 

 

 

 

Systemy  analityczne  (analityczne  bazy  danych  -  hurtownie 

danych)  są  bardzo  silnie  powiązane  z  czasem.  Przechowują 

background image

 

3

najczęściej  dane  historyczne,  które  są  umocowane  w  do 

odpowiednich punktów czasowych. 

 

Przeprowadzanie  analiz  trendów,  tendencji  np.  rynkowych 

wymaga  od  systemu  posiadania  zgromadzonej  ogromnej  ilości 

danych.  Może  to  pozwolić  na  przewidzenie  zmian,  które  wpłyną 

na  kształt  rynku  w  przyszłości,  co  następnie  przełoży  się  na 

strategiczne decyzje dotyczące np. rozwoju pewnego produktu

 

Na 

podstawie 

powyższych 

rozważań 

można 

wysnuć 

następujące wnioski:  

 

 

Dane  w  systemach  operacyjnych  są  nietrwałe  (bazy 

danych) 

 

Dane  w  systemach  analitycznych  są  trwałe  (swoistego 

rodzaju archiwum) –(hurtownie danych).  

 

 

Od  systemu  operacyjnego  (opartego  na  bazie  danych) 

wymaga się: 

 

 

Przyjmowania  danych  i  bieżącego  wprowadzanie  zmian  w 

danych zawartych w bazie danych. 

 

Śledzenia operacji.  

 

Przedstawiania raportów. 

 

Utrzymania integralności danych.  

 

Szybkiego wykonywania operacji. 

 

 

background image

 

4

Analityczna  baza  danych  (hurtownia  danych)  ma  za 

zadanie: 

 

 

Przyjmować i archiwizować duże ilości danych  

 

Dokonywać wstępnych analiz poprzez mechanizm migawek 

 

Być  bazą  danych  tylko  do  odczytu  uniemożliwiając 

manipulację danymi 

 

Zapewniać  stały  dostęp  do  informacji  w  procesie 

podejmowania decyzji. 

 

 

Systemy  analityczne  zazwyczaj  nie  wspierają  żadnej  z  usług 

operacyjnych baz danych.  

 
 
 

 

Hurtownia danych 

 

Hurtownia  danych  to  trwała  analityczna  baza  danych,  która 

staje  się  podstawą  „fundamentem”  systemu  wspomagani 

podejmowania  decyzji.  Jest  ona  projektowana  dla  dużej  liczby 

danych  stałych.  Zapewnia  ona  stały  dostęp  do  informacji  w 

trakcie  podejmowania  decyzji.  Jest  to  przedsięwzięcie  rozwijające 

się,  które  zapewnia  dostęp  do  właściwych  danych  właściwym 

użytkownikom, we właściwym czasie. 

 

Często tworzone są hurtownie danych, które są zorientowane 

na  konkretny  temat  np.  analiza  sprzedaży,  czy  finanse, 

background image

 

5

marketing.  Nazywane  są  wtedy  hurtowniami  tematycznymi 

(targowiskiem 

danych). 

Dostosowane 

są 

do 

potrzeb 

użytkowników,  co  wiąże  się  z  odpowiednią  detalizacją  danych 

(ziarnistością 

hurtowni), 

która 

określona 

jest 

sferze 

zainteresowań  grupy  docelowej,  dla  której  jest  tworzona 

hurtownia.  

 

 

Dobrym  sposobem  jest  stworzenie  hurtowni  danych  dla 

poszczególnych  oddziałów,  a  później  wykorzystanie  kolejnej 

hurtowni  danych,  która  będzie  analizowała  dane  dla  całego 

przedsiębiorstwa

.  

 

 

Architektura  jest  zbiorem  zasad  i  struktur  będących 

szkieletem  ogólnego  projektu  systemu  lub  produktu.  Do 

najpopularniejszych architektur należą: 

 

Architektura sieciowa 

 

Architektura klient serwer  

 

Architektury dla konkretnych produktów 

 

background image

 

6

Rys. 1 Przykładowa architektura hurtowni danych. 

 

DANE  ŹRÓDŁOWE  –  są  to  dane  z  różnych  operacyjnych  baz  danych, 

plików,  segmentów  w  zależności  od  platform,  jakie  są  używane  przez 

przedsiębiorstwo.  Dane  takie  są  wydzielane  z  systemów  źródłowych  i  po 

konwersji umieszczane w hurtowni danych. 

INTEGRACJA  DANYCH  –  w  środowisku  hurtowni  danych  integracja  to 

proces,  w  którym  charakter  danych  źródłowych  jest  zmieniany  przed 

wprowadzeniem  ich  do  hurtowni  danych.  Integracja  danych  występuje 

najczęściej,  gdy  dane  są  wydzielane  z  systemów  operacyjnych,  podlegają 

konwersji typów, zmianie kodów i uzgadnianiu definicji danych. 

TRANSFORMACJA  DANYCH  –  proces  zmiany  danych  pobranych  z 

hurtowni  w  informacje,  do  których  ma  dostęp  końcowy  użytkownik.             

W procesie transformacji są wykorzystywane struktury i zawartość hurtowni 

danych, które zostają zamienione na użytkowe, wartościowe informacje przez 

ich formatowanie, podsumowywanie i/lub obrazowanie w konkretny sposób. 

Transformacja  danych  jest  najczęściej  wykorzystywana  za  pomocą  narzędzi 

dostępu do aplikacji.  

background image

 

7

Układ gwiaździsty a hurtownia danych. 

 

Układ  gwiaździsty  jest  specyficznym  rodzajem  struktury 

bazy  danych  wykorzystywanej  w  przetwarzaniu  analitycznym, 

charakteryzuje  się  on  tym,  że  zawiera  dwa  typy  tabel  –  tabele 

faktów  oraz  tabele  wymiarów.  Tabele  faktów  zawierają  dane 

ilościowe lub fakty dotyczące działalności firmy, natomiast tabele 

wymiarów  są  mniejsze  i  przechowują  opisowe  dane,  które 

przedstawiają wymiary prowadzonego biznesu.  

  

 

 

 

 

 

 

Rys.1 Prosta baza danych o schemacie gwieździstym, tabele faktów i wymiarów 

 

 

Spotyka  się  także  różne  odmiany  schematu  gwieździstego,  w 

których występuje więcej niż jedna tabela faktów rys 2. (mogą one 

występować  wielokrotnie).  Dodanie  nowej  tabeli  faktów  może  się 

wiązać z dodaniem tabeli dla nowego roku. Czyli pojawia się nowa 

tabela  o  niemal  identycznej  strukturze,  co  dotychczasowa  tabela 

faktów z tą różnicą, że dotyczy następnego roku rozliczeniowego. 

background image

 

8

Rys. 2. Odmiana schematu gwieździstego zawierająca więcej niż jedną tabelę faktów 

 

W  schemacie  analitycznej  bazy  danych  mogą  wystąpić  także 

tabele  zewnętrzne.  Wystąpią  one  wtedy,  gdy  tabela  wymiaru 

zawiera  klucz  obcy,  który  jest  kluczem  głównym  innej  tabeli 

wymiaru.  Tabele,  z  której  pochodzi  ten  klucz  nazywana  jest 

zewnętrzną  tabelą  wymiaru.  Możliwa  jest  również  sytuacja,  w 

której tabele zewnętrzne są ze sobą powiązane i tworzą hierarchię 

tabel  wymiarów  zorganizowanych  w  znormalizowaną  bazę 

danych. 

sprzeda

ż

 miesi

ę

czna 

PK

sp_m_id

 

ilo

ść

FK1

id_okresu

FK2

id_towaru

sprzeda

ż

 dzienna

PK

sprz_id

 

sprzeda

ż

 dzienna

FK1

id_okresu

FK2

id_towaru

 

ilo

ść

sprzeda

ż

 roczna

PK

sp_r_id

 

ilo

ść

FK1

id_okresu

FK2

id_towaru

towar

PK

id_towaru

 

opis towaru

FK1

id_opak

FK2

id_mag

okres

PK

id_okresu

 

dzie

ń

 

miesi

ą

c

 

kwartał

opakowanie

PK

id_opak

 

pojemno

ść

magazyn

PK

id_mag

 

ulica

 

kod

background image

 

9

Inna  odmiana  schematu  gwieździstego  zakłada  przechowywanie 

wszystkich  informacji  dotyczących  wymiarów  w  trzeciej  postaci 

normalnej,   a pozostawia bez zmian strukturę tabel faktów. Taki 

rodzaj  schematu  gwieździstego  nazywany  jest  „płatkiem  śniegu”. 

Kolejne  odmiany  są  już  kombinacjami  schematu  gwieździstego 

tworząc schematy wielogwieździsty. 

Rys.3 Schemat bazy danych „płatek śniegu”. 

Korzyści wynikają ze stosowania schematu gwieździstego: 

 

Szybki czas odpowiedzi na zapytania. 

 

Prosta  i  przejrzysta  struktura  bazy  danych,  umożliwiająca  lepsze  jej 

wykorzystanie. 

 

Paralele  pomiędzy  projektem  bazy  danych,  a  tym,  w  jaki  sposób 

użytkownicy są przyzwyczajeni do myślenia o danych i ich używaniu.  

 

Struktura  bazy  pozwala  na  łatwe  i  przejrzyste  poznanie  metadanych 

zarówno  przez  projektanta  jak  i  późniejszego  użytkownika,  czy 

administratora. 

 

Biorąc  pod  uwagę,  że  są  produkty  dostępu  do  danych,  które  wymagają 

schematu  gwieździstego  powiększa  się  ilość  narzędzi,  które  mogą 

wspomóc tworzenie i korzystanie z bazy danych. 

 

OKRES

PK

ID_OKRES

FK1

ID_KWARTL

FK2

ID_ROK

PRODUKT

PK

ID_PROD

FK1

ID_MARKA

FK2

ID_ROZM

KWARTAŁ

PK

ID_KWARTL

ROK

PK

ID_ROK

MARKA

PK

ID_MARKA

ROZMIAR

PK

ID_ROZM

SPRZEDAZ

PK

ID_SPRZEDAZ

FK1

ID_OKRES

FK2

ID_PROD

FK3

RYNEK_ID

RYNEK

PK

RYNEK_ID

FK1

REGION_ID

FK2

DYSTRYKT_ID

REGION

PK

REGION_ID

DYSTRYKT

PK

DYSTRYKT_ID