background image

1

Metody Analizy Danych 

(MAD)

Wiesław Szczesny

KATEDRA INFORMATYKI  SGGW

tel.  601 810 996

Wieslaw_Szczesny@SGGW.pl

background image

2

Warunki „zaliczenia” 

przedmiotu:

• Zaliczenie ćwiczeń (

według wymagań prowadzącego 

ćwiczenia

 - czyli ogólnie rzecz biorąc weryfikacja hipotezy 

H0(student nie opanował materiału)

 

na poziomie istotności 0.05- metodę weryfikacji ustala 

prowadzący

)

Pozytywna ocena przez prowadzącego ćwiczenia pracy 
okresowej (

dwa projekty: 

(i) 

indywidualny

 

wykonana analiza 

na własnym zbiorze danych rzeczywistych, (ii) zespołowy 
dopuszcza się prace indywidualne lub w grupach 1-3 osobowych

)  

Test sprawdzający wiedzę z przedmiotu obejmującą 
zagadnienia omawiane na wykładzie i ćwiczeniach.

Zaliczenie finalne przedmiotu średnia z projektów i 
testu z wagami 0.3, 0.4, 0.3

background image

3

Diagram ilustrujący graficznie zmiany w kierunkach badania 

danych wielowymiarowych

background image

4

Harmonogram wykładu

 

Metody analizy danych

• 1.  Zagadnienia  wstępne.  Schemat  analizy  danych 

wielowymiarowych 

(punkt ciężkości badań dawniej – dzisiaj)

.

• 2-9.  Klasyczne  metody  analizy  danych:  wielowymiarowa 

analiza  porównawcza  (WAP),  analiza  regresji,  analiza 

klasyfikacyjna (z nauczycielem i bez) 

• 10-11 Wybrane informacje dotyczące metod: składowych 

głównych, analizy odpowiedniości i  analizy czynnikowej, 

• 12-13.  Wybrane  informacje  dotyczące  niestandardowych 

metod 

analizy 

danych: 

GCCA 

(

gradacyjna 

analiza 

odpowiedniości  i  skupień

),  GAP  (

Generalized  Association  Plots

), 

wizualizacja 

wyników

uzupełnianie 

braków 

danych 

wyszukiwanie elementów odstających.

• 14. Studium przypadku: 

porównanie  wyników  uzyskanych  przy 

wykorzystaniu  klasycznych  i  nowo-proponowanych  technik  analizy 

i  wizualizacji  danych  wielowymiarowych  oraz  przegląd  pakietów 

komputerowych  (komercyjnych  i  bezpłatnych  dostępnych  przez 

Internet) pod tym kątem.

• 15.  Wykorzystanie  technik  symulacji  komputerowej  do 

badania użyteczności omówionych metod.

background image

5

schemat złożony z trzech bloków:

A B C,

gdzie

A: 

ustalenia  dotyczące  badań  wstępnych  (określenie 

tematyki  badawczej  i    typu  badań,  dokonanie 

wyboru obiektów i cech, które je opisują;

B:

  utworzenie  macierzy  danych  i  jej  analiza, 

połączona  z  oczyszczeniem  danych  z  grubych 

błędów  i  elementów  odstających  od  „głównego 

trendu”  oraz  uzupełnieniem  brakujących  danych; 

wyznaczenie struktury danych;

C:

  synteza,  wizualizacja,  weryfikacja  i  interpretacja 

praktyczna      uzyskanych informacji. 

Wspólny rdzeń statystyki matematycznej 

i analizy danych w przypadku danych 

wielowymiarowych:

background image

6

Przykład z pracy: Chun Houh Chen,  Generalized Assoctiation Plots: Information 
Visualization
                              Via Iteratively Generated   Correlation Matrices,  Statistica 
Sinica 12 (2002) 7-29

Przykład 0. 

danych do 

analizy:

 

Wybrane 

symptomy 

chorobowe.

background image

7

Porządkowanie obiektów wielo-

cechowych (na razie tylko skala 

przedziałowa)

• Wybór wskaźników (jak z danych powstają cechy)
• Podział na stymulanty, destymulanty i nominanty
• Zamiana na stymulanty (zmiana zwrotu)
• Normalizacja cech (wskaźników)
• Budowa wskaźnika syntetycznego (m. in. wagi,)
• Podział na grupy według wartości wskaźnika 

syntetycznego

• Informacja nt innych sposobów podziału wartości 

wskaźnika na jednorodne grupy

• Porządkowanie obiektów w oparciu o odległość 

(niepodobieństwo) od wzorca (lub dwu wzorców)

background image

8

Klasyczny schemat 

analizy danych 

prowadzącej do 

porządkowania 

obiektów na 

podstawie 

utworzonego miernika 

syntetycznego i 

podziału badanego 

zbioru na podzbiory -  

ten schemat często 

oznacza się symbolem 

WAP

Schemat ten nie 

obejmuje elementów 

wstępnej danych – w 

szczególności 

elementów 

odstających.

 

Ani 

schematu sprawdzania 

skuteczności uzytej 

metody (metod)

background image

9

Wykres pudełkowy jako narzędzie wstępnego wyszukiwania elementów 

odstających

background image

10

      Przyjęliśmy, że cechy te odnoszą się do oddziałów pewnego banku, gdzie D1 – 

D3  są  to  dochody  poszczególnych  dziedzin  działalności  z  uwzględnieniem 
kosztów transferu funduszy,  K1 – K3 to kategorie kosztów działalności a W – 
wynik ekonomiczny (finansowy) oddziału. 

Przykład 1. 

danych do 

analizy:

 

Wyniki 

oddziałów 

pewnego 

Banku

background image

11

Przykład 2. 

danych do 

analizy:

 

Spożycie  

produktów 

żywnościowy

ch w kg w 

ciągu roku w 

Europie.

Problem:

DOKONAĆ 

PODZIAŁU 

KRAJÓW NA 

PODOBNE 

GRUPY pod 

względem 

profilu spożycia

background image

12

background image

13

Przykład 3.

  Wyniki 10 Banków.

Problem: 

uporządkować pod względem atrakcyjności dla 

inwestora i podzielić na 4 grupy

Na ćwiczeniach: 

ustalimy które cechy są Stymulantami 

destymulantami. oraz nominantami oraz przeprowadzimy 

normowania tego zbioru danych oraz konstrukcję miernika 

syntetycznego. Podział dopiero na kolejnych zajęciach.

background image

14

Uwagi na temat modeli regresji II-go 

rodzaju

(

czyli rozszerzenie wiadomości z rachunku prawdopodobieństwa i 

statystyki 

)

Wykorzystanie cech o wartościach na różnych skalach
• Skala porządkowa - rangowanie
• Skala nominalna – zamiana na zestaw cech dychotomicznych
Uwagi dot. szacowania parametrów w regresyjnych 

modelach nieliniowych

• Przybliżone rozwiązywanie – przykłady (model potęgowy itp.)
• Rozwiązania techniką iteracyjną (EXCEL i dedykowane pakiety 

programowe) 

Techniki wyboru najlepszego modelu regresji w przypadku 

dużej liczby cech oraz interpretacja wyników

• Regresja krokowa
• Interpretacje:  współczynników regresji, współczynnika 

determinacji  przyrost marginalny itp 

• O czym mówią reszty itp
Inne uwagi dotyczące problematyki regresji

background image

15

Globalne modele 

parametryczne

modelach parametrycznych ogólna postać modelu jest założona z góry, 

a celem procedury regresji jest dobranie takich jej parametrów, które 
definiowałyby funkcję możliwie dobrze odpowiadającą próbie uczącej.

Zwykle stosuje się tzw. globalne modele parametryczne, gdzie wartości 

współczynników są takie same dla dowolnych wartości zmiennych 
objaśniających.

Ogólna postać modelu
W zapisie formalnym model przybiera zwykle postać:
Y = f(X,β) + ε    
gdzie:
X – wektor zmiennych objaśniających, Y – zmienna objaśniana,
β - wektor współczynników regresji (zwykle będących 

liczbami rzeczywistymi

)

f(X,β) – funkcja regresji o wartościach w liczbach rzeczywistych,
ε – błąd losowy, o rozkładzie być może zależnym od X, przy czym

                     

oraz

Dzięki temu

 

background image

16

Dysponujemy więc zmiennymi losowymi, o określonej liczbie przypadków lub danymi 

empirycznymi pochodzących z szeregów czasowych. Zmienne objaśniane tworzą macierz 

natomiast wartości zmiennej objaśnianej tworzą wektor Y. Dysponując macierzą X, w 

której znajdują się wartości zmiennych objaśniających oraz wektorem Y zmiennej 

objaśnianej. Przy czym warto zaznaczyć, że wektor jedynkowy w macierzy X jest 

pomyślany jako wyraz wolny.

Aby dokonać estymacji metodą najmniejszych kwadratów należy pamiętać, iż ilość 

wyznaczanych parametrów musi być równa lub mniejsza ilości okresów, z jakich 

pochodzą dane.

Zmienne ze zbioru X={X1, ..., Xm} traktujemy jako ustalone na podstawie analizy 

merytorycznej. Zależność zmiennej Y od zmiennych X1, ..., Xm  przedstawia się za 

pomocą (równania regresji II - ego rodzaju) równania: 

gdzie: X1, ..., Xm to zmienne regresyjne, objaśniające, natomiast e - element losowy modelu.

Zatem ogólny model regresji liniowej, funkcja teoretyczna - ma postać równania:

gdzie:                                - to parametry strukturalne populacji oraz element losowy modelu.

Rozwiązanie:

e

m

,

,...,

,

1

0

background image

17

Trudniejsze przykłady  WAD.

• Wybór dostawcy oprogramowania wspomagającego 

kompleksowo zarządzanie w firmie finansowej (banku, 

towarzystwie ubezpieczeniowym)

• Wybór dostawcy konkretnego oprogramowania 

realizującego postawione zadania przed pewnym 

obszarem dużej firmy (np. Data Mining, Integracja 

Danych, Bussines Intelligence, ERP itp.) 

• Wybór kredytu konsumpcyjnego lub hipotecznego z 

punktu widzenia interesu klienta 

• Wybór Banku z którym wiążemy się na dłużej….
• Wybór portfela inwestycyjnego na GPW lub w innym 

kraju 

• Ranking Uczelni ….

   

background image

18

Typowe dylematy analityka danych i 

współpracujących z nim przedstawicieli 

IT:

(

występujące w centrali dużej instytucji

)

• jakie  dane  są  potrzebne  aby  odpowiedzieć  na 

postawione pytanie i jak „mocne”  należy przygotować 

uzasadnienie do przygotowanej odpowiedzi;

• jak zdobyć i jak przygotować do analizy zdobyte dane;
• jakich  narzędzi  analitycznych  użyć  do  zebranych 

danych;

• przy 

pomocy 

jakich 

narzędzi 

(programów) 

obliczeniowych zrealizować zadanie analityczne;

• jak szybko dokonać syntezy podstawowych informacji 

zawartych w danych;

 

• jak  w  prosty  sposób  przekonać  odbiorcę,  że  wnioski 

przedstawione 

przez 

niego 

wynikają 

ze 

zgromadzonego materiału liczbowego;

background image

19

Literatura

Borkowski B, Dudek H., Szczesny W. : Ekonometria. Wybrane zagadnienia, PWN, Warszawa 2003.
Cun Houh Chen: Generalized Assoctiation Plots: Information Visualization Via Iteratively Generated 

Correlation Matrices. Statistica Sinica 12 (2002), 7-29. (Dostępny w Internecie: 

http://gap.stat.sinica.edu.tw/index.html

)

Charemza W., Deadman D. :  Nowa  Ekonometria,  PWE  1997.
Frączak E.  (red): Wielowymiarowa Analiza Statystyczna,Teorai – przykłady z zastosowań z 

systemem SAS , Szkoła Główna Handlowa, Warszawa 2009

Kowalczyk T., Pleszczyńska E., Ruland F. (Eds),  Grade Models and Methods for Data Analysis, Studies in 

Fuzziness and Soft Computing No 151, Springer, Berlin-Heidelberg-New York 2004, 1-477.

Kukuła K.:  Metoda unitaryzacji zerowej, PWN 2000. 
Koronacki J., Ćwik J.: Statystyczne systemy uczące sięWNT  Warszawa 2005.
Koronacki J., Mielniczuk J.: Statystyka dla kierunków technicznych i przyrodniczych WNT Warszawa 2001.
Malina A. : Wielowymiarowa analiza przestrzennego zróżnicowania struktury gospodarki Polski 

według województw, AE, Seria Monografie nr 162, Kraków 2004.

Młodak A.: Analiza taksonomiczna w statystyce regionalnej, Warszawa 2006.
Mardia  K.  V.  ,  Kent  J.  T.,  Bibby  J.,M.:  Mutlivariate  Analysis,  Academic  Press,  London,  New  York,  Toronto 

1979

Morison D. F.: Wielowymiarowa Analiza Statystyczna, PWN  Warszawa 1990.

Ostasiewicz W (red): Statystyczne metody analizy danych. Wydawnictwo Akademii Ekonomicznej 

im. Oskara Lanego we Wrocławiu, Wrocław 1999.

Panek T.  :Statystyczne Metody Analizy Wielowymiarowej, Szkoła Główna Handlowa, Warszawa 2009

Szczesny W.: Grade correspondence analysis applied to contingency tables and questionnaire data.  

Intelligent Data Analysis 6 (2002), No 1, 17-51.

Tadeusz Marek: Analiza skupień w badaniach empirycznych, M. Metody SAHN,  PWN Warszawa 1989.
Zeliaś  A.  (red):  Taksonomiczna  analiza  przestrzennego  zróżnicowania  poziomu  życia  w  Polsce  w  ujęciu 

dynamicznym, Wydawnictwo Akademii Ekonomicznej w Krakowie, Kraków 2000. 


Document Outline