background image

 

 

1

Metody analizy 

danych

Wiesław Szczesny

KATEDRA INFORMATYKI  SGGW

tel.  0601 810 996

Wieslaw_Szczesny@SGGW.pl

background image

 

 

2

Warunki „zaliczenia” 

przedmiotu:

• Zaliczenie ćwiczeń (

według wymagań prowadzącego 

ćwiczenia

 - czyli ogólnie rzecz biorąc weryfikacja 

hipotezy  H0(student nie opanował materiału)
 

na poziomie istotności 0.05- metodę weryfikacji ustala 

prowadzący

)

• Pozytywna ocena przez prowadzącego ćwiczenia 

pracy okresowej (

wykonana analiza na własnym zbiorze 

danych rzeczywistych, dopuszcza się prace indywidualne lub 
w grupach 1-3 osobowych

)  

• Test sprawdzający wiedzę z przedmiotu obejmującą 

zagadnienia omawiane na wykładzie i ćwiczeniach. 

background image

 

 

3

Diagram ilustrujący graficznie zmiany w kierunkach badania 

danych wielowymiarowych

background image

 

 

4

Program wykładu

 

Metody analizy danych

• 1.  Zagadnienia  wstępne.  Schemat  analizy  danych 

wielowymiarowych 

(punkt ciężkości badań dawniej – dzisiaj)

.

• 2-9.  Klasyczne  metody  analizy  danych:  wielowymiarowa 

analiza  porównawcza  (WAP),  analiza  regresji,  analiza 

klasyfikacyjna (z nauczycielem i bez) 

• 10-11 Wybrane informacje dotyczące metod: składowych 

głównych, analizy odpowiedniości i  analizy czynnikowej, 

• 12-13.  Wybrane  informacje  dotyczące  niestandardowych 

metod 

analizy 

danych: 

GCCA 

(

gradacyjna 

analiza 

odpowiedniości  i  skupień

),  GAP  (

Generalized  Association  Plots

), 

wizualizacja 

wyników

uzupełnianie 

braków 

danych 

wyszukiwanie elementów odstających.

• 14. Studium przypadku: 

porównanie  wyników  uzyskanych  przy 

wykorzystaniu  klasycznych  i  nowo-proponowanych  technik  analizy 

i  wizualizacji  danych  wielowymiarowych  oraz  przegląd  pakietów 

komputerowych  (komercyjnych  i  bezpłatnych  dostępnych  przez 

Internet) pod tym kątem.

• 15.  Wykorzystanie  technik  symulacji  komputerowej  do 

badania użyteczności omówionych metod.

background image

 

 

5

schemat złożony z trzech bloków:

A B C,

gdzie

A: 

ustalenia  dotyczące  badań  wstępnych  (określenie 

tematyki  badawczej  i    typu  badań,  dokonanie 

wyboru obiektów i cech, które je opisują;

B:

  utworzenie  macierzy  danych  i  jej  analiza, 

połączona  z  oczyszczeniem  danych  z  grubych 

błędów  i  elementów  odstających  od  „głównego 

trendu”  oraz  uzupełnieniem  brakujących  danych; 

wyznaczenie struktury danych;

C:

  synteza,  wizualizacja,  weryfikacja  i  interpretacja 

praktyczna      uzyskanych informacji. 

Wspólny rdzeń statystyki matematycznej 

i analizy danych w przypadku danych 

wielowymiarowych:

background image

 

 

6

Przykład z pracy: Chun Houh Chen,  Generalized Assoctiation Plots: Information 
Visualization
                              Via Iteratively Generated   Correlation Matrices,  Statistica 
Sinica 12 (2002) 7-29

Przykład 0. 

danych do 

analizy:

 

Wybrane 

symptomy 

chorobowe  

(

kilkaset cech 

oraz ok. 1 tys. 

pacj.

).

background image

 

 

7

Klasyczny schemat 

analizy danych 

prowadzącej do 

porządkowania 

obiektów na 

podstawie 

utworzonego miernika 

syntetycznego i 

podziału badanego 

zbioru na podzbiory -  

ten schemat często 

oznacza się symbolem 

WAP

Schemat ten nie 

obejmuje elementów 

wstępnej danych – w 

szczególności 

elementów 

odstających.

 

background image

 

 

8

      Przyjęliśmy, że cechy te odnoszą się do oddziałów pewnego banku, gdzie D1 – 

D3  są  to  dochody  poszczególnych  dziedzin  działalności  z  uwzględnieniem 
kosztów transferu funduszy,  K1 – K3 to kategorie kosztów działalności a W – 
wynik ekonomiczny (finansowy) oddziału. 

Przykład 1. 

danych do 

analizy:

 

Wyniki 

oddziałów 

pewnego 

Banku

background image

 

 

9

Przykład 2. 

danych do 

analizy:

 

Spożycie  

produktów 

żywnościowy

ch w kg w 

ciągu roku w 

Europie.

Problem:

DOKONAĆ 

PODZIAŁU 

KRAJÓW NA 

PODOBNE 

GRUPY

background image

 

 

10

background image

 

 

11

Przykład 3.

  Wyniki 10 Banków.

Problem: 

uporządkować pod względem atrakcyjności dla 

inwestora i podzielić na 4 grupy

Na ćwiczeniach: 

ustalimy które cechy są Stymulantami 

destymulantami. oraz nominantami oraz przeprowadzimy 

normowania tego zbioru danych oraz konstrukcję miernika 

syntetycznego. Podział dopiero na kolejnych zajęciach.

background image

 

 

12

Trudniejsze przykłady  WAD.

• Wybór dostawcy oprogramowania wspomagającego 

kompleksowo zarządzanie w firmie finansowej (banku, 

towarzystwie ubezpieczeniowym)

• Wybór dostawcy konkretnego oprogramowania 

realizującego postawione zadania przed pewnym 

obszarem dużej firmy (np. Data Mining, Integracja 

Danych, Bussines Intelligence, ERP itp.) 

• Wybór kredytu konsumpcyjnego lub hipotecznego z 

punktu widzenia interesu klienta 

• Wybór Banku z którym wiążemy się na dłużej….
• Wybór portfela inwestycyjnego na GPW lub w innym 

kraju 

• Ranking Uczelni ….

   

background image

 

 

13

Literatura

Borkowski B, Dudek H., Szczesny W. 2003: Ekonometria. Wybrane zagadnienia, PWN, 

Warszawa.

Cun Houh Chen: Generalized Assoctiation Plots: Information Visualization Via Iteratively Generated 

Correlation Matrices. Statistica Sinica 12 (2002), 7-29. (Dostępny w Internecie: 

http://gap.stat.sinica.edu.tw/index.html

)

Charemza W., Deadman D. :  Nowa  Ekonometria,  PWE  1997.
Kowalczyk T., Pleszczyńska E., Ruland F. (Eds),  Grade Models and Methods for Data Analysis, Studies 

in Fuzziness and Soft Computing No 151, Springer, Berlin-Heidelberg-New York 2004, 1-477.

Kukuła K.:  Metoda unitaryzacji zerowej, PWN 2000. 
Koronacki J., Ćwik J.: Statystyczne systemy uczące sięWNT  Warszawa 2005.
Koronacki  J.,  Mielniczuk  J.:  Statystyka  dla  kierunków  technicznych  i  przyrodniczych  WNT  Warszawa 

2001.

Malina A. [2004]; Wielowymiarowa analiza przestrzennego zróżnicowania struktury 

gospodarki Polski według województw, AE, Seria Monografie nr 162, Kraków.

Młodak A.[2006]; Analiza taksonomiczna w statystyce regionalnej, Warszawa.
Mardia K. V. , Kent J. T., Bibby J.,M.: Mutlivariate Analysis, Academic Press, London, New York, Toronto 

1979

Morison D. F.: Wielowymiarowa Analiza Statystyczna, PWN  Warszawa 1990.

Ostasiewicz W (red): Statystyczne metody analizy danych. Wydawnictwo Akademii 

Ekonomicznej im. Oskara Lanego we Wrocławiu, Wrocław 1999.

Szczesny W.: Grade correspondence analysis applied to contingency tables and questionnaire data.  

Intelligent Data Analysis 6 (2002), No 1, 17-51.

Tadeusz Marek: Analiza skupień w badaniach empirycznych, M. Metody SAHN,  PWN Warszawa 1989.
Zeliaś A. (red): Taksonomiczna analiza przestrzennego zróżnicowania poziomu życia w Polsce w ujęciu 

dynamicznym, Wydawnictwo Akademii Ekonomicznej w Krakowie, Kraków 2000. 

background image

 

 

14

Typowe dylematy analityka danych i 

współpracujących z nim przedstawicieli 

IT:

(

występujące w centrali dużej instytucji

)

• jakie  dane  są  potrzebne  aby  odpowiedzieć  na 

postawione pytanie i jak „mocne”  należy przygotować 

uzasadnienie do przygotowanej odpowiedzi;

• jak zdobyć i jak przygotować do analizy zdobyte dane;
• jakich  narzędzi  analitycznych  użyć  do  zebranych 

danych;

• przy 

pomocy 

jakich 

narzędzi 

(programów) 

obliczeniowych zrealizować zadanie analityczne;

• jak szybko dokonać syntezy podstawowych informacji 

zawartych w danych;

 

• jak  w  prosty  sposób  przekonać  odbiorcę,  że  wnioski 

przedstawione 

przez 

niego 

wynikają 

ze 

zgromadzonego materiału liczbowego;


Document Outline