background image

BAZY DANYCH

Wyk 6

background image

Potrzeba  analizy  danych  dotyczących  bieżącej  i  przyszłej 
działalności  organizacji  była  impulsem  do  powstania  nowych 
systemów informatycznych.

Analiza  taka  stanowi  podstawę  do  podejmowania  decyzji 
dotyczących zarządzania przedsiębiorstwem.

Istniejące  dotychczas  systemy  informatyczne  nie  mogą 
dostarczyć  potrzebnych  danych,  gdyż  są  oparte  na  bazach 
danych (operacyjnych), mogą być rozproszone, niejednorodne a 
często nie są zintegrowane.

background image

Układ  danych  jest  dostosowany  do  działań  operacyjnych,  dane 
są  więc  przechowywane  w  sposób  umożliwiający  ich 
modyfikacje. W operacyjnych bazach danych przechowuje się na 
ogół dane odzwierciedlające jedynie aktualny stan lub najnowszą 
historię,  tymczasem  do  analiz  i  porównań  potrzebne  są 
długookresowe dane historyczne.

Rozwiązaniem zaistniałego problemu okazała się

 

Hurtownia Danych (Data Warehouse).

background image

„Hurtownia danych to zbiór 
zintegrowanych, nieulotnych, 
ukierunkowanych baz danych,
wykorzystywanych w systemach
wspomagania decyzji.”

W.H.Inmon

background image

OLTP – On-Line Transaction Processing   

 

(przetwarzanie transakcyjne)

OLAP – On-Line Analytical Processing   
 

(przetwarzanie analityczne)

background image

OLTP – On-Line Transaction Processing

    

Zadaniem  systemów  OLTP  jest  wydajne  obsługiwanie  zmian 
danych, wprowadzanych przez wielu użytkowników

Najczęściej  systemy  OLTP  sprawnie  obsługują  wielką  liczbę 
niewielkich transakcji wykonywanych równocześnie.

background image

OLAP – On-Line Analytical Processing   

W  przetwarzaniu  analitycznym  wielodostęp  i  efektywna 
modyfikacja danych są problemami drugorzędnymi.

Istotna jest natomiast efektywność operacji:

Wyszukiwania

Odczytu

Agregowania bardzo dużych objętości danych

background image

OLAP – On-Line Analytical Processing

 

Najbardziej  typowym  zadaniem  systemu  OLAP  jest  analiza 
wielowymiarowa.  Dane  gromadzone  w  hurtowniach  danych 
najczęściej  bowiem  mają  charakter  wielowymiarowy  – 
umożliwiają  prowadzenie  analiz  wpływu  wielu  czynników  na 
zjawiska zachodzące w organizacji.

Struktura wielowymiarowa przedstawia elementarne komórki 
danych,  tzw. 

fakty

,  w funkcji wielu  niezależnych czynników, 

zwanych 

wymiarami

.

background image

Wymiary  są  opisywane  wartościami  dyskretnymi, 
które mogą tworzyć hierarchię

Przykład typowych wymiarów:

Czas (np. w dniach, miesiącach, kwartałach latach)

Produkt (np. typ, rodzaj)

Jednostka organizacyjna (np. wydział, oddział)

Terytorium (np. gmina, powiat, województwo)

Fakty opisane są atrybutami liczbowymi – 

miarami.

background image

OLAP

OLTP

Dane zorientowane 
tematycznie

Dane zorientowane 
procesowo

Duża wielkość (od 
kilkudziesięciu GB do 
kilku TB) 

Mała wielkość 
(kilkadziesiąt MB – kilka 
GB)

Przechowywane są dane 
historyczne

 

Przechowywane są dane 
teraźniejsze

Zdenormalizowana 
struktura danych (kilka 
tabel – wiele kolumn w 
tabeli)

Znormalizowana 
struktura danych (wiele 
tabel – kilka kolumn w 
tabeli)

Złożone zapytania

 

Proste zapytania

Dane zagregowane

Dane jednostkowe

OLAP/OLTP - porównanie

background image
background image
background image
background image
background image
background image

Systemy OLAP które są spotykane na świecie można 
podzielić na dwa główne typy :

 

ROLAP (Relational OLAP) czyli systemy relacyjne.

MOLAP (Multidimensional OLAP)  - systemy 
wielowymiarowe. 

HOLAP (Hybrid OLAP) które są połączeniem ROLAP i 
MOLAP.

 

background image

Hurtownie danych

ROLAP

Pierwszym z nich motor ROLAP kieruje zapytania do 

Pierwszym z nich motor ROLAP kieruje zapytania do 

danych źródłowych w relacyjnej bazie danych i 

danych źródłowych w relacyjnej bazie danych i 

dokonuje niezbędnych agregacji danych  oraz 

dokonuje niezbędnych agregacji danych  oraz 

wykonuje obliczenia na bieżąco dla przedstawienia 

wykonuje obliczenia na bieżąco dla przedstawienia 

podsumowań i wyników w wielowymiarowym 

podsumowań i wyników w wielowymiarowym 

formacie.

formacie.

background image

Hurtownie danych

ROLAP

Drugim, częściej wykorzystywanym sposobem 

Drugim, częściej wykorzystywanym sposobem 

działania, podczas procesu ETL czyli procesu 

działania, podczas procesu ETL czyli procesu 

zasilania hurtowni danych z systemów 

zasilania hurtowni danych z systemów 

źródłowych, który wiąże się z oczyszczeniem, 

źródłowych, który wiąże się z oczyszczeniem, 

konsolidacją oraz przekształceniem danych do 

konsolidacją oraz przekształceniem danych do 

wspólnego formatu, wykonywane są 

wspólnego formatu, wykonywane są 

niezbędne agregacje  - motor ROLAP kieruje 

niezbędne agregacje  - motor ROLAP kieruje 

zapytania SQL do danych źródłowych i 

zapytania SQL do danych źródłowych i 

częściowo zagregowanych w relacyjnej bazie 

częściowo zagregowanych w relacyjnej bazie 

danych.

danych.

 

background image

Hurtownie danych

MOLAP

Drugim rodzajem są systemy MOLAP. Architektura 

Drugim rodzajem są systemy MOLAP. Architektura 

MOLAP opiera się na predefiniowanych 

MOLAP opiera się na predefiniowanych 

wielowymiarowych tablicach zawierających 

wielowymiarowych tablicach zawierających 

zagregowane dane załadowane z różnych zasobów 

zagregowane dane załadowane z różnych zasobów 

danych. W porównaniu do relacyjnych systemów, 

danych. W porównaniu do relacyjnych systemów, 

systemy MOLAP cechuje duża wydajność. Są 

systemy MOLAP cechuje duża wydajność. Są 

optymalne dla operacji selekcji oraz projekcji 

optymalne dla operacji selekcji oraz projekcji 

wymiarów. Mogą przetwarzać złożone zapytania i 

wymiarów. Mogą przetwarzać złożone zapytania i 

szybko zwracają wyniki. Niestety posiadają też 

szybko zwracają wyniki. Niestety posiadają też 

istotne wady. Najbardziej istotną z nich jest 

istotne wady. Najbardziej istotną z nich jest 

możliwość przetrzymywania znacznie mniejszej 

możliwość przetrzymywania znacznie mniejszej 

ilości danych od systemów ROLAP.

ilości danych od systemów ROLAP. 

background image

Przygotowanie danych

Agregacja – wstępne wyliczenie pewnych miar 
przydatnych w późniejszych analizach

Podział na partycje – podział tabel na części tak, 
aby zmniejszyć rozmiar danych, które trzeba będzie 
przeczytać w trakcie analizy

background image

Rodzaje danych

Wielkości analizowane (fakty) – dane ilościowe 
opisujące pewne fakty: np.. Sprzedaż, zyski, obroty

Wielkości klasyfikujące (wymiary) – dane 
klasyfikujące opisywane fakty wg okoliczności ich 
zaistnienia: np.. Czas, miejsce, osoba

background image

Model wielowymiarowy

Baza zawiera fakty opisane przez wymiary i określające wartość miar.

Fakt – pojedyncze zdarzenie będące podstawą analiz ( np. sprzedaż)

Fakty opisane są przez wymiary i miary

Wymiar – cecha opisująca dany fakt, pozwalający powiązać go z innymi 
pojęciami modelu przedsiębiorstwa: (np.. Klient, data, miejsce produkt)

Wymiary są opisane atrybutami

Atrybut –cecha wymiaru, przechowująca dodatkowe informacje na temat 
faktu (np. wymiar data może mieć atrybuty: miesiąc, kwartał, rok; wymiar 
klient może mieć atrybuty: nazwisko, region).

Miara – wartość liczbowa przyporządkowana do danego faktu (np.. Wartość 
sprzedaży, liczba sztuk).

background image

Shematy funkcjonowania 

hurtowni

1. Schemat gwiazdy

2. Schemat płatka  śniegu

3. Schemat płatkowo śniegowy

background image

Schemat gwiazdy i płatka śniegu

background image

Schemat gwiazdy

Schemat gwiazdy – rodzaj organizacji danych, projektowany pod 

kątem szybkości dostępu do danych.

Struktura ułatwia przeprowadzanie analiz danych i składa się z:

1. Tabel opisujących wymiary
2. Tabeli faktów (zawiera również klucze obce z tabel wymiarów 

background image

Schemat gwiazda - przykład

background image

Schemat płatka śniegu

background image

Kostki Danych

background image

czas

   kw1    kw2  kw3   kw4

Klient 

kl1

kl2

kl3

kl5

kl4

•region

R1

R3

R2

R4

background image
background image
background image
background image

Document Outline