background image

Teoria badania 

statystycznego oraz 

pakiety statystyczne

Marcin Nestorowicz

background image

STATYSTYKA

W  erze  globalnej,  w  której  żyjemy 

jesteśmy  bez  ustanie  „bombardowani” 
informacjami. Dzięki Internetowi mamy 
do nich nieograniczony   dostęp. 

Trafną  ocenę  informacji  umożliwia 

właśnie statystyka. Statystyka to nauka 
,  której  przedmiotem  zainteresowania 
są  metody  pozyskiwania  i  prezentacji, 
a w szczególności analizy danych. 

background image

Historia statystyki

Początki  statystyki  wywodzą  się  z  tradycji 
dokonywania spisów powszechnych, a więc 
ze  zbierania  informacji  na  temat  ludności. 
W  Księdze  Liczb  znajdują  się  ślady 
pierwszego takiego spisu.
Termin 

„statystyka” 

pochodzi 

od 

łacińskiego słowa status, czyli państwo. Po 
raz pierwszy został użyty w piśmiennictwie 
przez  Gottfreida  Achenwalla  (1719-1772), 
jako oznaczenie wiadomości o państwie. 

background image

 

Według  arytmetyków  politycznych  m.  in.  John 

Graunt  (1620-1674)  statystyka  była  metodą 
wnioskowania  na  podstawie  liczb,  umożliwiającą 
wykrycie 

określonych 

prawidłowości 

spośród 

pozornie  chaotycznych  zjawisk  masowych.  Do 
połowy XIX wieku termin ten, oznaczał zbiór danych 
o państwie przedstawionych w formie tabeli. 
Rozwój  statystyki  zawdzięczany  jest            teorii 
rachunku 

prawdopodobieństwa

zapoczątkowanej przez  francuskich matematyków:  
Blaise  Pascal  (1623-1662)  i  Pierre  Fermat  (1601-
1665) którzy zajmowali się analizą  gier losowych.

Historia statystyki c.d.

background image

STATYSTYKA OGOLNA

Statystyka  opisowa  jest  ogólną  charakterystyką  istotnych  właściwości 

badanej  zbiorowości  (całej  bądź  częściej  zbiorowości  próbnej).    Dzielona  jest  na 
trzy działy:

•   struktura  zjawisk  masowych,  czyli  badanie  konkretnej  zbiorowości,  ze 

względu na jedną cechę (np. płaca pracowników danego przedsiębiorstwa) ;

•     zależności  zjawisk  masowych,  czyli  badanie  konkretnej  zbiorowości,  ze   

względu  na  dwie  lub  więcej  cech  (np.  wydatki  na  reklamę  produktu  a  wielkość 
sprzedaży);

•     dynamika  zjawisk  masowych,  czyli  badanie  kształtowanie  się  określonego 

zjawiska w czasie . Wykorzystywane są tutaj dane w postaci szeregów czasowych, 
t. j. dane dotyczące jednego obiektu (np. przedsiębiorstwa) po czasie. 

Metody  statystyki  opisowej  dotyczą  zbiorowości  próbnej  (  czyli  tylko  części 

populacji  generalnej).    Wyniki  otrzymane  w  próbie  można  przenieść  na  całą 
populacje wówczas, gdy próba została pobrana  z populacji generalnej w sposób 
losowy.  Uogólnienie  takie  z  próby  losowej  na  całą  populacje  nazywa  się 
wnioskowaniem  statystycznym.    Metodami  statystycznymi  niezbędnymi  do 
wnioskowania  zajmuje  się  statystyka  matematyczna.    Powiązana  jest    z 
rachunkiem  prawdopodobieństwa,  który  umożliwia  określenie  z  jakim 
prawdopodobieństwem  uzyskane  wyniki  z  próby  losowej  można  przenieść  na 
generalną populacje. 

Rachunek prawdopodobieństwa łączy więc, statystykę opisową ze statystyką 

matematyczną w spoistą całość, nazywaną statystyką ogólną.

background image

Etapy badania 

statystycznego

Badanie  statystyczne  złożone  jest  z  określonych 
czynności 

zmierzających 

do 

ogólnej 

charakterystyki  istotnych  właściwości  badanej 
zbiorowości.  Wyróżniamy  cztery  etapy  takiego 
badania:

I. PRZYGOTOWANIE BADANIA.
II. OBSERWACJA STATYSTYCZNA.
III. OPRACOWANIE MATERIAŁU 
STATYSTYCZNEGO.
IV. OPIS LUB WNIOSKOWANIE STATYSTYCZNE.

background image

Etapy badania statystycznego

W  pierwszym  etapie  badania  określa  się  cel 

badania,  definiuje  się  zbiorowość  i  jednostki 
statystyczne,  dokonuje  się  wyboru  cech 
statystycznych oraz wyboru metod badawczych.

I. PRZYGOTOWANIE 
BADANIA.

Zbiorowość  statystyczna  (populacja,  masa  statystyczna) 

jest  to  zbiór  dowolnych  elementów  objętym  badaniem 
statystycznym.  Zbiorowość  składająca  się  ze  wszystkich 
elementów  danego  rodzaju  nazywa  się  populacją  generalną
cześć  tej  zbiorowości  wydzieloną  w  sposób  losowy  bądź 
nielosowy – próbą.

Jednostka  statystyczna  jest  to  poszczególny  element 

badanej zbiorowości.

Cechy  statystyczne  –  właściwości  jednostki  badanej 

zbiorowości :

 

  cechy  stałe  –  określają  jednostki  pod  względem 

rzeczowym, 

czasowym  i  przestrzennym,  są  więc  wspólne 

wszystkim 

jednostkom  badanej  zbiorowości  i  nie 

podlegają badaniu;

background image

Etapy badania statystycznego

I. PRZYGOTOWANIE BADANIA 
c.d..

 cechy zmienne – właściwości , którymi różnią się poszczególne 
jednostki statystyczne, podlegają one badaniu:

 cechy jakościowe (niemierzalne) – nie można ich zmierzyć, 

lecz   jedynie 

określić  słownie ( np. płeć) ;

 cechy ilościowe (mierzalne) – dadzą się wyrazić za pomocą 

liczb o 

różnych  miarach (np. wiek – w latach): 

    cechy  quasi-ilościowe  (porządkowe)  -    określają 

natężenie 

badanej 

właściwości  w  opisowy  sposób, 

porządkując  zbiorowość 

(  np.  oceny  studentów  z 

egzaminu);

  cechy  skokowe    -  cechy  ,  których  wartość  da  się 

wyrazić 

określonymi 

liczbami 

zmieniającymi 

się 

skokami,  bez  wartości 

pośrednich  z  przedziału  liczb 

całkowitych  nieujemnych(np.   

liczba  studentów  na 

wykładzie);

 cechy ciągłe – cechy, które mogą przyjmować w danym 

przedziale  wszystkie  wartości  rzeczywiste,  liczba 

miejsc  po 

przecinku  zależy  od  dokładności  pomiaru  (np. 

wzrost).

background image

Etapy badania statystycznego

I. PRZYGOTOWANIE BADANIA 
c.d..

Badanie  pełne    obejmuje  wszystkie  jednostki  populacji 

generalnej. Do tej grupy zalicza się spisy i rejestracje bieżące 
(systematyczne notowanie określonych faktów).

Badania  częściowe  stosowane  jest,  wówczas  gdy 

zbiorowość jest zbyt liczna lub badanie ma charakter niszczący 
( np. badanie jakości produktu):

¨  badanie  ankietowe  –  gromadzenie  informacji  o  zbiorowości 
za pomocą ankiety;

¨  badanie  monograficzne  –  badanie  jednej  jednostki 
statystycznej  lub  niewielkiej  ich  liczby  z  różnych  punktów 
widzenia (np. jednej, lub kilku gmin);

¨  metoda  reprezentacyjna  –  badanie  częściowe  oparte  na 
wynikach próby losowej z populacji generalnej.

Szacunki  polegają  na  ustaleniu  właściwości  lub  wielkości 

zbiorowości  nieznanej  na  podstawie  populacji  znanej  i 
pozostającej z nią w określonych związkach:

¨ rachunek interpolacyjny – szacowanie nieznanych wartości 
cech  na  podstawie  znanych  wartości  wcześniejszych  i 
późniejszych;

¨  rachunek  ekstrapolacyjny  –  szacowanie  wartości 
wykraczających poza przedział wartości znanych.

background image

Etapy badania statystycznego

II. OBSERWACJA 
STATYSTYCZNA.

Etap drugi badania statystycznego sprowadza się do ustalenia 

wartości  cech  ilościowych  lub  jakościowych,  dla  wszystkich 
jednostek populacji generalnej, lub jej próby. Uzyskany w wyniku 
obserwacji zbiór danych nazywamy materiałem statystycznym.

Materiał  pierwotny  jest  to  zbiór  danych  gromadzonych  do 

celów  badawczych.  Materiał  wtórny  to  zbiór  danych 
gromadzony 

innych 

powodów, 

który 

jest 

wtórnie 

wykorzystywany do celów badania.

Dane  zebrane  w  wyniku  obserwacji  tworzą  surowy  materiał 

statystyczny, który poddawany jest kontroli.

III. OPRACOWANIE MATERIAŁU 
STATYSTYCZNEGO.

Etap  trzeci  polega  na  uporządkowaniu  surowego  materiału 

statystycznego. Grupowanie  wyodrębnienie jednorodnych  grup 
z większej niejednorodnej zbiorowości. Grupowanie typologiczne 
przeprowadzane  jest  na  podstawie  wariantów  cech  jakościowych. 
Grupowanie wariancyjne oparte jest na cechach ilościowych.

background image

Etapy badania statystycznego

III. OPRACOWANIE MATERIAŁU 
STATYSTYCZNEGO c.d.

Z  grupowaniem  związane  jest  zliczanie  danych,  a  więc 

określanie  liczb  jednostek  w  grupach  i  w  całej  populacji.  Tak 
opracowany  materiał  statystyczny  może  być  zaprezentowany  w 
formie szeregów statystycznych, tablic i wykresów.

Zbiór  wyników  obserwacji  sklasyfikowanych  według  pewnej 

cechy 

to 

szereg 

statystyczny

Szereg 

szczegółowy 

nieuporządkowany  tworzą  wartości  badanej  cechy  rejestrowane 
zgodnie  z  kolejnością  obserwowania.  Porządkując  wartości 
rosnąco  lub  malejąco,  uzyskuje  się  szereg  szczegółowy 
uporządkowany
.

Szereg    rozdzielczy  to  uporządkowany  i  pogrupowany 

materiał  statystyczny.  Poszczególnym  wariantom  cech  ilościowym 
lub  jakościowym  przyporządkowane  są  odpowiadające  im 
liczebności.  Szereg  rozdzielczy  punktowy  buduje    się 
przeważnie 

dla 

cechy 

skokowej. 

Szereg 

rozdzielczy 

przedziałowy złożony jest przedziałów klasowych, ich granice 
mogą  być  one  domknięte  lub  otwarte.  Rozpiętość  przedziału 
(interwał), jest różnicą między górną i dolną granicą klasy. 

Szeregi szczegółowe i rozdzielcze charakteryzują stan badanej 

zbiorowości  w  określonym  momencie  (np.  w  danym  miesiącu). 
Przedstawiają  więc  populacje  w  układzie  statycznym  i  służą  do 
analizy jej struktury.

background image

Etapy badania statystycznego

III. OPRACOWANIE MATERIAŁU 
STATYSTYCZNEGO c.d.

Szeregi  przestrzenne  –  przedstawiają  rozmieszczenie 

wielkości  statystycznych  według  podziału  administracyjnego 
(gmina, powiat, województwo), krajów, regionów geograficznych.

Szeregi 

dynamiczne 

(czasowe, 

chronologiczne) 

 

przedstawiają  rozwój  zjawiska  w  czasie.  Szeregi  czasowe 
momentów  prezentują zjawisko w ściśle określonym momencie, 
zaś  szeregi  czasowe  okresów  w  ściśle  określonym  przedziale 
czasowym. 

  Tablica  statystyczna  –  prezentowane  są  w  niej  dane 

statystyczne,  uporządkowane  według  określonych  kryteriów. 
Zawiera  jeden  szereg,  lub  łączy  w  jedną  całość  dwa  lub  więcej 
szeregów statystycznych.

Wykres  statystyczny  –  graficzna  forma  danych    i  narzędzie 

prezentacji  oraz  analizy  ogólnych  informacji  statystycznych. 
Histogram  to  wykres  przedstawiający  zbiór  prostokątów  , 
których  podstawy  wyznaczone  są  na  osi  odciętych  ,  poprzez 
rozpiętości  poszczególnych  przedziałów,  a  wysokości  określone 
na 

osi 

rzędnych 

poprzez 

liczebności 

odpowiadające 

poszczególnym przedziałom. Diagram to wykres otrzymywany w 
wyniku połączenia punktów o współrzędnych będących środkami 
przedziałów i odpowiadających im liczebnościom.

background image

SZEREGI STATYSTYCZNE

szczegółowe (wyliczające)

RODZAJE SZEREGÓW 

CZASOWYCH

background image

Etapy badania statystycznego

IV.OPIS LUB WNIOSKOWANIE STATYSTYCZNY.

Opis 

statystyczny 

dotyczy 

tylko 

danej 

zbiorowości  generalnej  lub  próbnej,  wnioskowanie 
statystyczne  
zachodzi  wówczas  kiedy  badanie  jest 
reprezentacyjne  i  jego  wyniki  są  uogólniane  na  całą 
populacje generalną, której pobrana została próbka. 

Opis  statystyczny  ma  sumaryczny  charakter  , 

odnosi  się  więc  do  całej  zbiorowości.  Dokonywany 
jest  za  pomocą  odpowiednich  miar  (  np.  średnia 
arytmetyczna

odchylenie 

standardowe

współczynnik  korelacji).  Metody  wykorzystywane 
w  opisie  statystycznym  wchodzą  w  skład  statystyki 
opisowej. 

Metody  wnioskowania  statystycznego  wchodzą  w 

zakres  statystyki  matematycznej,  która  jest  nauką  o 
metodach  wnioskowania  na  podstawie  wyników 
pobranych  w  próbie  o  właściwościach  populacji 
generalnej, z której została wylosowana. 

background image

Do przeprowadzenia 

badania 

statystycznego 

można skutecznie 

użyć pakietów 

statystycznych

background image

OPROGRAMOWANIE 

STATYSTYCZNE

NSCC 2007

NSCC  Statiscal  And  Power  Analysis  Software  jest 

amerykańskim przedsiębiorstwem, założonym w 1981 
roku.  Dostarcza  oprogramowanie  statystyczne  dla 
przemysłu komputerowego.

NSCC  2007  to  komercyjny  pakiet  statystyczny, 

zawiera  również  oprogramowanie  graficzne.  Posiada 
zbiór  ponad  200  procedur  do  analizy  i  wizualizacji 
danych m. in.: analiza szeregów, ocena masy, kontrola 
jakości.  Pakiet  pozwala  na  dokładną  i  wszechstronną 
analizę danych.

Cena wersji komercyjnej i edukacyjnej programu NSCC 

2007  Deluxe  Suite  wynosi  1  449.95  $.  Dostępna  jest  na 

www.ncss.com

  7-dniowa wersja testowa tego programu.

background image

NCSS 

2007 

posiada 

duży 

zbiór 

narzędzi 

do 

analizy 

wizualizacji 
danych. 

background image

OPROGRAMOWANIE 

STATYSTYCZNE

System SPSS

System  SPSS      jest  komercyjnym  pakietem 

statystycznym, 

rozwijanym 

od 

1968 

roku. 

Przeznaczony  jest  do  analizy  i  wizualizacji  danych 
oraz  wyników  .  Program  wykorzystuje  architekturę 
klient – serwer. Posiada budowę modułową, bazowym 
modułem  jest  SPSS  Base  (zawiera  podstawowe 
procedury 

statystyczne). 

zależności 

od 

wymaganego 

stopnia 

zaawansowania 

narzędzi 

analitycznych  dołączane  są  odpowiednie  moduły  do 
bazowego.  Praca  z  SPSS  może  być  prowadzona  z 
oknami  dialogowymi  i  kreatorami  graficznymi  lub  za 
pomocą języka poleceń.

W  roku  2008  wydany  został  SPSS  Statistics  17.0, 

dostępny  jest  na  systemy  operacyjne:  Windows, 
Linux/ UNIX i Mac.

background image

OPROGRAMOWANIE 

STATYSTYCZNE

System SAS (Statistical Analysis System)

SAS  to  system  przetwarzania  informacji, 

rozwijany  przez  SAS  Institute  od  1974  roku. 
Zbudowany  jest  z  modułów,  przeznaczonych  do 
analizy  dużych  zbirów  danych.  Modułem 
podstawowym  jest  Base  SAS.  Moduły  SAS/STAT 
odpowiada 

za 

zaawansowaną 

analizę 

statystyczną,  zaś  SAS/INSIGHT  za  interakcyjną 
analizę statystyczną.

W  Akademickim  Centrum  Komputerowym 

Cyfronet AGH w Krakowie zainstalowana jest na 
klastrze  IBM  Blade  Center  HS21  (  komputer 
dużej  mocy  obliczeniowej)  wersja  9.1.3  systemu 
SAS.

W  marcu  2008  roku  została  wydana  wersja 

9.2 systemu SAS.

background image

OPROGRAMOWANIE 

STATYSTYCZNE

STATA (Data Analysis and Statistical Softwer)

Program STATA rozwijany jest przez Statacorp od 

1985  roku.  Zakres  możliwości  programu  obejmuje: 
zarządzanie danymi, analizę statystyczną, symulacje 
oraz  programowanie  statystyczne  i  macierzowe. 
Praca  na  nim  wykonywana  jest  za  pomocą  wiersza 
poleceń.  11  sierpnia  2008  roku  wydana  została 
wersja 10.1. 
 

MATLAB

MATLAB 

to 

uniwersalne 

środowisko 

programowe do obliczeń naukowo – technicznych i 
wizualizacji.  MATLAB  łączy  analizę  numeryczną, 
obliczenia  macierzowe,  przetwarzanie  sygnałów  i 
grafikę w łatwe do użycia środowisko.

background image

OPROGRAMOWANIE 

STATYSTYCZNE

MATLAB c.d.

MATLAB może poszerzyć swoje 

możliwości 

poprzez 

dodanie 

bibliotek.  Biblioteka  Statistics 
Toolbox  –zawiera  rozszerzenia 
statystyczne.

W  ACK  Cyfronet  AGH  na 

komputerze  dużej  mocy  Sun  Fire 
6800  saturn  oraz  klastrze  IBM 
Blade 

Center 

mars 

jest 

zainstalowane 

oprogramowanie 

MATLAB.

Sun Fire 6800 „saturn”

Dane:
system operacyjny – Solaris 10;
-12 procesorów Ultra Sparc III z zegarem 90Mhz;
-pamięć operacyjną 12 GB;
-pamięć dyskowa 1TB + 120GB.
  

background image

DZIĘKUJE 

ZA 

UWAGE


Document Outline