background image

 

 

STATYSTYKA OPISOWA

WYKŁADY

background image

 

 

WPROWADZENIE

Wyraz  statystyka  pochodzi  od  łacińskiego  słowa  status,

co oznacza stan, położenie, stosunki (w języku włoskim 

stato  oznacza    państwo)    i    użyty  został  przez

G. Achenwalla dla oznaczenia nauki o „osobliwościach 

państwowych”,  zwanej  państwoznastwem.  Statystyka

to  zbiór  metod  służących  pozyskiwaniu,  prezentacji

i  analizie  danych.  Inna  definicja:  statystyka  to  nauka 

traktująca  o  metodach  ilościowych  badania  zjawisk 

masowych.  Zjawisko  masowe  to  takie  zjawisko,

które  badane  w  dużej  masie  zdarzeń  wskazuje 

właściwą  sobie  prawidłowość,  jakiej  nie  można 

zaobserwować

pojedynczym 

przypadku. 

Przykłady 

zjawisk 

masowych:  spożycie  pewnych  artykułów  na  1 

mieszkańca, urodzenia itp.

background image

 

 

Statystyka: 

a) umożliwia dokładniejszy sposób opisu interesującej 

nas rzeczywistości,

b) zmusza nas do dokładności i śmiałości w działaniu

i rozumowaniu,

c)  umożliwia  formułowanie  uogólnień  na  podstawie 

uzyskanych wyników analizy,

d)  pozwala  na  przewidywanie  rozwoju  zjawisk

w przyszłości, czyli pobudzanie do prognoz,

e)  dostarcza  narzędzi  do  porządkowania  informacji

o  zjawiskach  –  a  przez  to  pozwala  na  budowę  ich 

ogólnego obrazu,

f)  dostarcza  narzędzi  do  prowadzenia  analizy 

przyczyn kształtujących badane zjawiska i procesy, 

a  więc  umożliwia  dokonanie  ich  klasyfikacji  na 

czynniki systematyczne i przypadkowe.

background image

 

 

Powstaje  pytanie:  dlaczego  w  zbiorze  wielu  zdarzeń 

zachodzą  prawidłowości  statystyczne  podczas,  gdy 

poszczególne  zdarzenia  są  zróżnicowane?  Otóż 

każde 

zjawisko 

(ekonomicznej, 

przyrodnicze, 

socjologiczne  itp.)  kształtuje  się  pod  wpływem 

dwojakiego rodzaju przyczyn:

1.

głównych 

(podstawowych, 

typowych, 

systematycznych).

2.

ubocznych (przypadkowych, indywidualne).

Ad  1)  Przyczyny  główne  oddziałują  na  każde  zjawisko

w  sposób  jednakowy,  mają  charakter  wewnętrzny, 

ich istota wypływa z charakteru zjawiska – działają w 

ściśle określonym kierunku. Przyczyny te są wspólne 

dla  wszystkich  jednostek  badanej  zbiorowości 

zdarzeń (wpływ czynników głównych).

Ad 2)   Przyczyny   uboczne   działają    na    każde    

zjawisko w  sposób  odmienny.  Wyrażają 

zróżnicowanie osobnicze (wpływ czynnika losowego). 

background image

 

 

Ostatecznym  celem  stosowania  tych 

metod  jest  otrzymanie  użytecznych 
informacji  na  temat  zjawiska,  którego 
dotyczą.  Istotne  jest,  aby  badania 
statystyczne 

były 

zaplanowane

w  sposób  nie  budzący  zastrzeżeń.  Ich 
cel powinien być określony zrozumiale
i  szczegółowo.  Materiał  statystyczne 
powinien  zaś  być  wiarygodny  i 
przejrzysty.

background image

 

 

Cel badania jest możliwy do osiągnięcia 

wówczas, gdy jednostki statystyczne 
są precyzyjnie określone pod 
względem:

- rzeczowym (przedmiot badań),
- przestrzennym (miejsce badań),
- czasowym (okres badań).

background image

 

 

ZBIOROWOŚĆ I CECHY 

STATYSTYCZNE

Zbiorowość   statystyczna    (populacja)   

 to    zbiór dowolnych     elementów     
objętych    badaniem statystycznym.  
Wyodrębniona część zbiorowości nosi   
  nazwę     próby   statystycznej.    
Elementy badanej   zbiorowości    
określane    są    mianem jednostek    
statystycznych.    Właściwości     tych 
jednostek  nazywane  są  cechami 
statystycznymi. 

background image

 

 

CECHY STATYSTYCZNE:

I.

STAŁE (wspólne wszystkim 
jednostkom badanej zbiorowości). 
Nie podlegają badaniu a jedynie 
decydują o zaliczeniu jednostek do 
określonej zbiorowości.

II. ZMIENNE (podlegają badaniom).

background image

 

 

Cechy statystycznie zmienne:

                 ilościowe               jakościowe

        skokowe         ciągłe

background image

 

 

Badania statystyczne:

                     pełne               częściowe

spisy    rejestracja bieżąca    

sprawozdawczość

background image

 

 

Badania statystyczne:

               ciągłe       okresowe       

doraźne

background image

 

 

Metody prezentacji danych 

statystycznych:

1. Szeregi statystyczne.
2. Tablice statystyczne.
3. Wykresy statystyczne.

background image

 

 

Szeregi statystyczne

(ze względu na budowę):

     
     szczegółowe       rozdzielcze       

kumulacyjne

background image

 

 

Szeregi statystyczne

(ze względu na cechy):

      
             czasowe                          

przestrzenne

background image

 

 

WYKRESY STATYSTYCZNE:

LINIOWY

Ceny akcji spółki Kęty

0,00

20,00

40,00

60,00

80,00

100,00

120,00

140,00

160,00

1k

w

2k

w

3k

w

4k

w

1k

w

2k

w

3k

w

4k

w

1k

w

2k

w

3k

w

4k

w

1k

w

2k

w

3k

w

4k

w

1k

w

2k

w

3k

w

4k

w

2000

2001

2002

2003

2004

kwartały

ce

n

a

background image

 

 

WYKRESY STATYSTYCZNE:

BRYŁOWY

434

481

576

768

1130

0

200

400

600

800

1000

1200

wartość

(mln PLN)

2000

2001

2002

2003

2004

lata

Przychody ze sprzedaży

background image

 

 

WYKRESY STATYSTYCZNE:

SŁUPKOWY

Przychody ze sprzedaży

434

481

576

768

1130

0

200

400

600

800

1000

1200

2000

2001

2002

2003

2004

lata

wartość

(mln PLN)

background image

 

 

WYKRESY STATYSTYCZNE:

KOŁOWY

Udziały w rynku

27%

33%

15%

25%

Spółka A
Spólka B
Spółka C
Spółka D

background image

 

 

WYKRESY STATYSTYCZNE:

PUNKTOWY

Przychody ze sprzedaży

434

481

576

768

1130

0

200

400

600

800

1000

1200

1999

2000

2001

2002

2003

2004

2005

lata

wartość

(mln PLN)

background image

 

 

WYKRESY STATYSTYCZNE:

WARTSTWOWY

Przychody ze sprzedaży

434

481

576

768

1130

0

200

400

600

800

1000

1200

2000

2001

2002

2003

2004

lata

wartość

(mln PLN)

background image

 

 

WYKRESY STATYSTYCZNE:

PIERŚCIENIOWY

Przychody ze sprzedaży

434

481

576

768

1130

background image

 

 

ANALIZA STRUKTURY ZJAWISK 

MASOWYCH

Rozkładem empirycznym  określa  się  

przyporządkowanie poszczególnym          
wartościom          zmiennej          x

i

 

odpowiadających   im   liczebności    n

i

.   W   

określaniu rozkładu  empirycznego  zamiast  
liczebności  n

i

  stosuje się częstości 

względne określone wzorem:

przy czym:

 

n

n

w

i

i

n

n

k

i

i

1

background image

 

 

TYPY ROZKŁADÓW 

EMPIRYCZNYCH

                         n

 

 

 

 

 

 

 

 

 

 

                                                                                                  x

i

                                                                                        

                                       Rozkład jednomodalny 

background image

 

 

                         n

 

 

 

 

 

 

 

 

 

 

                                                                                                  x

i

                                                                                        

                                       Rozkład bimodalny 

background image

 

 

                         n

 

 

 

 

 

 

 

 

 

 

                                                                                                  x

i

                                                                                        

                                       Rozkład wielomodalny 

background image

 

 

                         n

 

 

 

 

 

 

 

 

 

 

                                                                                                  x

i

                                                                                        

                                     Rozkład skrajnie asymetryczny 

background image

 

 

                         n

 

 

 

 

 

 

 

 

 

 

                                                                                                  x

i

                                                                                        

                                             Rozkład siodłowy 

background image

 

 

                         n

 

 

 

 

 

 

 

 

 

 

                                                                                                  x

i

                                                                                        

                                Rozkład umiarkowanie asymetryczny 

background image

 

 

                         n

 

 

 

 

 

 

 

 

 

 

                                                                                                  x

i

                                                                                        

                                    Rozkład symetryczny 

background image

 

 

                         n

 

 

 

 

 

 

 

 

 

 

                                                                                                  x

i

                                                                                        

                                        Rozkład spłaszczony 

background image

 

 

                         n

 

 

 

 

 

 

 

 

 

 

                                                                                                  x

i

                                                                                        

                                      Rozkład wysmukły 

background image

 

 

OPISOWE CHARAKTERYSTYKI 

ROZKŁADÓW

      Przeprowadzając    analizę     struktury     

zjawisk masowych należy zbadać:

1. tendencję centralną, czyli tzw. przeciętny 

poziom

2. Zróżnicowanie   wartości,   czyli    tzw. 

dyspersję (zmienność, rozproszenie)

3. asymetrię rozkładu (skośność)
4. koncentrację.
      Do  przeprowadzenia  tych  badań   

wykorzystuje  się charakterystyki     

nazywane       parametrami. Charakterystyki  

opisowe  to  liczby  (wielkości), które  

pozwalają  w  sposób  syntetyczny określić 

właściwości badanych rozkładów. 

background image

 

 

MIARY ŚREDNIE (PRZECIĘTNE)

      Miary    średnie    pozwalają    określić    

tendencję centralną.   Służą   do    

określania    tej    wartości zmiennej,  

wokół  której   kupiają   się   wszystkie 

pozostałe zmienne.

Podział średnich:
1. Średnie klasyczne.
2. Średnie pozycyjne.
Do średnich klasycznych zalicza się średnie:
1. arytmetyczną
2. geometryczną
3. harmoniczną.

background image

 

 

Średnia  arytmetyczna  to suma 

wartości zmiennej wszystkich    
jednostek    badanej    zbiorowości 
podzielona  przez  liczbę  tych  
jednostek:

gdzie: 
x

i

 – wartość cechy,

n – liczebność próby

n

i

i

n

x

n

n

x

x

x

x

1

2

1

1

...

background image

 

 

   Jeżeli   wartości   zmiennej   

występują   z  różną częstotliwością,  
wówczas  wylicza  się   średnią 
arytmetyczną  ważoną  (wagami  są  
liczebności odpowiadające 
poszczególnym wartościom):

gdzie: 

k

i

i

i

k

k

n

x

n

n

n

x

n

x

n

x

x

1

2

2

1

1

1

...

k

i

i

n

n

1

background image

 

 

   W przypadku  danych  zgrupowanych  w  

szereg rozdzielczy    przedziałowy   wzór   
na    średnią arytmetyczną jest 
następujący:

gdzie: 
                  - środek i-tego przedziału 

klasowego.

   
   Jeżeli  zamiast  liczebności 

wykorzystywane   są częstości   w

i  , 

wzór   

na   średnią   arytmetyczną przyjmuje 
postać:

k

i

i

i

k

k

n

x

n

n

n

x

n

x

n

x

x

1

0

0

2

0

2

1

0

1

1

...

0

i

x

k

i

i

i

w

x

x

1

background image

 

 

   
   Średnia  arytmetyczna  jest miarą prawidłową 

jedynie w    odniesieniu     do    zbiorowości     
jednorodnych,     o   niewielkim   zróżnicowaniu  
 wartości    zmiennej. Średniej   tej   nie   należy 
  stosować   w    przypadku rozkładów  skrajnie   
asymetrycznych,   bimodalnych i  
wielomodalnych.  Nie    oblicza    się   jej   
również w   przypadkach,   gdy   w    
zbiorowości    występują wartości  skrajne.  
Ponadto,   średniej   arytmetycznej nie   należy   
stosować   dla    szeregu    o    otwartych 
przedziałach,   jeżeli   przedziały    te   
charakteryzują się  dużą  liczebnością.   

background image

 

 

   Średnia  harmoniczna  jest   

odwrotnością   średniej arytmetycznej z 
odwrotności   wartości zmiennych. W      
 przypadku        szeregów       
szczegółowych (wyliczających)   średnią 
  harmoniczną   liczy   się ze  wzoru:

 

n

i

i

h

x

n

x

1

1

background image

 

 

   Dla     szeregów      rozdzielczych     

punktowych średnią harmoniczną liczy 
się  z  uwzględnieniem   wag, tzn:

 

   

n

i

i

i

h

n

x

n

x

1

1

background image

 

 

   Dla   szeregów    rozdzielczych     

przedziałowych  średnią harmoniczną 
liczy się następująco:

 

   
   Średnią    harmoniczną    stosuje    się    

wówczas, gdy  wartości  zmiennej  
podane są w jednostkach względnych.  

n

i

i

i

h

n

x

n

x

1

0

1

background image

 

 

Średnia geometryczna jest 

pierwiastkiem n-tego stopnia z 
iloczynu n zmiennych:

 

   gdzie:
            - znak iloczynu.
   

n

n

i

i

n

n

g

x

x

x

x

x

1

2

1

...

background image

 

 

   W  przypadku,  gdy  wartości zmiennej 

występują z  różną  częstotliwością,   

średnią   geometryczną wylicza   się    z   

 wykorzystaniem    następującej formuły:

 

   gdzie:
          
   

n

k

i

n

i

n

n

k

n

n

g

i

k

x

x

x

x

x

1

2

1

...

2

1

n

n

n

n

k

...

2

1

background image

 

 

          
          Średnią   geometryczną  stosuje  się  w  

przypadkach, gdy  wartości  zmiennej   tworzą   postęp   

geometryczny lub  w  przypadku   rozkładu   skrajnie   

asymetrycznego.  

          Średnia  ta  ma zastosowanie  przy badaniu 

średniego tempa zmian.                      

          Średniej    geometrycznej     nie    należy    stosować, 

jeżeli  którakolwiek  z  wartości  zmiennej   jest   ujemna 

lub  równa  zeru!!!

 

             
   

background image

 

 

ŚREDNIE POZYCYJNE

        Najczęściej   wykorzystywanymi  

średnimi pozycyjnymi        są:       
dominanta      (moda,  wartość       
najczęstsza)         oraz      mediana 
(wartość   środkowa).

         Dominantą    nazywa    się   taką    

wartość zmiennej,     nie    będącą     ani 
    najmniejsza ani   największą,  która   
w  danym  rozkładzie empirycznym   
występuje   najczęściej. 

background image

 

 

          
        W   szeregach   rozdzielczych   punktowych 

jest   tą   wartością   cechy,   której  odpowiada 

największa  liczebność. 

        W szeregach rozdzielczych przedziałowych 

bezpośrednio   można   wyznaczyć   wyłącznie 

przedział     zwany    przedziałem    dominanty 

(jest  to  przedział  o  największej liczebności).  

 

             
   

background image

 

 

          
     Wartość dominanty wyznacza się ze wzoru:

 gdzie:
       - dominanta
       - dolna granica przedziału dominanty 
       - liczebność przedziału dominanty
       - liczebność przedziału poprzedzającego przedział      
         dominanty
       - liczebność przedziału następującego po przedziale      
         dominanty
       - interwał (rozpiętość) przedziału dominanty.

             
   

 

D

D

D

D

D

D

D

D

i

n

n

n

n

n

n

x

D

1

1

1

D

D

x

D

n

1

D

n

1

D

n

D

i

background image

 

 

          
          Dla     szeregów      rozdzielczych      przedziałowych 

dominantę  można również wyznaczyć metodą graficzną, 

która   polega   na   wykreśleniu  histogramu  liczebności z  

trzech  przedziałów  klasowych: przedziału dominanty oraz  

dwóch  przedziałów  sąsiednich.

          Wyznaczanie  dominanty  jest uzasadnione wówczas, 

gdy szereg spełnia następujące warunki:

 rozkład empiryczny jest rozkładem jednomodalnym,
 asymetria rozkładu jest umiarkowana,
 przedział dominanty i przedziały sąsiednie mają jednakowe 

rozpiętości.   

 

             
   

background image

 

 

          
         

Medianą  określa   się  taką  

wartość cechy,  że  co najmniej połowa 
jednostek  ma  wartość  cechy    nie    
większą    niż                               i co 
najmniej połowa ma wartość nie 
mniejszą niż                         .

         
        Medianą  jest  wartość cechy, którą 

posiada środkowa     jednostka    w    
uporządkowanym rosnąco  ciągu  
elementów  zbiorowości. 

Me

x

Me

i

Me

x

Me

i

background image

 

 

          
     Zatem:

 
             
   




parzystego

n

dla

x

x

ego

nieparzyst

n

dla

x

Me

n

n

n

2

1

2

2

2

1

background image

 

 

          
         W      przypadku       szeregu      

rozdzielczego przedziałowego  medianę   
wyznacza  się  metodą graficzną lub 
rachunkową. W metodzie graficznej 
wykorzystuje   się   wykres   krzywej  
liczebności skumulowanej. 

         Jeżeli   dane   są   przedstawione   za   

pomocą szeregu     rozdzielczego     
punktowego     (cecha skokowa)  –  
medianą    jest    pierwsza   wartość, 
której     odpowiada       co      najmniej     
połowa skumulowanej   liczebności. 

 

background image

 

 

         Jeżeli  mamy  do czynienia z szeregiem rozdzielczym 

klasowym (dla cechy ciągłej) medianę można wyznaczyć 

wykorzystując wzór:

 

gdzie:
       - liczebność i-tej klasy
       - liczebność zbiorowości (próby)
       - numer klasy zawierającej medianę      
       - dolna granica przedziału, w którym znajduje się   
         mediana
       - interwał (rozpiętość) przedziału mediany
       - liczebność przedziału mediany.

             
   

1

1

2

m

i

i

m

m

om

n

n

n

i

x

Me

i

n

n
m

om

x

m

i

m

n

background image

 

 

          
         Jeżeli mamy do czynienia z 

szeregiem rozdzielczym klasowym (dla 
cechy ciągłej) medianę można 
wyznaczyć wykorzystując wzór:

Me

x

Me

i

background image

 

 

MIARY ZMIENNOŚCI

        

Na     zjawiska      masowe      oddziałują     

dwa   rodzaje   przyczyn:

1.

Główne  (wywołujące  zmienność 
systematyczną)

2.

Uboczne (wywołujące  zmienność  
przypadkową)

        Przybliżonym          miernikiem           

składnika systematycznego      zbiorowości      
 są       miary przeciętne     (średnie).     
Odchylenia      wartości   poszczególnych    
jednostek      zbiorowości     od    wartości     
średniej    powstają     pod   wpływem 
przyczyn   przypadkowych   (ubocznych).

background image

 

 

        Do  pomiaru   tych   odchyleń   

wykorzystuje   się   miary   zmienności   

(zróżnicowania,   dyspersji, 

rozproszenia)

        Dyspersja  to  zróżnicowanie   jednostek   

badanej zbiorowości  ze względu na 

wartość badanej cechy statystycznej.  Siłę   

 dyspersji     można     oceniać

za  pomocą  miar:

1. Klasycznych
2. Pozycyjnych.
        Punktem   odniesienia   w   miarach   

klasycznych jest  średnia  arytmetyczna,  

zaś   miary  pozycyjne wyznaczane  są  

przede  wszystkim  na   podstawie kwartyli.

background image

 

 

        Miary klasyczne:
1. Wariancja
2. Odchylenie standardowe
3. Odchylenie przeciętne (dewiata)
4. Współczynnik zmienności*.

* -   jeśli    do    jego    wyliczenia    

wykorzystywana    jest   średnia  
arytmetyczna  oraz  odchylenie  
standardowe)

         

background image

 

 

        Miary pozycyjne:
1. Empiryczny   obszar   zmienności    

(rozstęp, amplituda  wahań,  pole  
rozsiania)

2. Odchylenie   ćwiartkowe
3. Współczynnik zmienności**.

** -   jeśli     do     jego      wyliczenia       

wykorzystywana    jest   mediana   oraz   
odchylenie   ćwiartkowe)

         

background image

 

 

        Najczęściej stosowane miary 

rozproszenia:

1. Obszar   zmienności
2. Odchylenie   przeciętne
3. Wariancja
4. Odchylenie standardowe
5. Współczynnik zmienności.

background image

 

 

        Obszarem   zmienności  określa   się  

różnicę pomiędzy  największą a najmniejszą 

wartością zmiennej,  tzn.:

        Miara  ta  ma  niewielką wartość 

poznawczą, gdyż   obszar   zmienności   

uzależniony    jest

od  wartości  skrajnych, które często różnią 

się istotnie  od  wszystkich  pozostałych  

wartości zmiennej.  Na  obszar   zmienności 

  wpływają tylko      wartości    skrajne,     

pozostałe     zaś nie    mają    żadnego    

wpływu     na    wynik. Obszar   zmienności  

   wykorzystywany    jest jedynie   przy   

wstępnej  ocenie  rozproszenia. 

min

max

x

x

R

background image

 

 

        Odchyleniem   przeciętnym   d   nazywa   

się średnią     arytmetyczną     z     

bezwzględnych odchyleń  wartości  zmiennej   

x   od   średniej arytmetycznej.        

Odchylenie        przeciętne wyznaczamy   z   

następujących   wzorów:

- dla szeregu szczegółowego: 

gdzie:
n - liczebność badanej zbiorowości
   - wartości przyjmowane przez cechę mierzalną
   - średnia arytmetyczna badanej zbiorowości      

  

n

i

i

x

x

n

d

1

1

i

x
x

background image

 

 

-

dla szeregu rozdzielczego punktowego: 

-

dla szeregu rozdzielczego 
przedziałowego:

gdzie:
      - środek i-tego przedziału klasowego    

   

i

k

i

i

n

x

x

n

d

1

1

i

k

i

i

n

x

x

n

d

1

0

1

i

x

0

background image

 

 

        Wariancją    określa się średnią 

arytmetyczną z  sumy  kwadratów 
odchyleń poszczególnych wartości   
cechy   statystycznej    od    średniej 
arytmetycznej całej zbiorowości 
statystycznej. Wariancję   wyznacza   
się    z    następujących wzorów:  

- dla szeregu szczegółowego: 

        

n

i

i

x

x

n

s

1

2

2

1

2

s

background image

 

 

- dla szeregu rozdzielczego 

punktowego:

- dla szeregu rozdzielczego 

przedziałowego: 

        

i

n

i

i

n

x

x

n

s

1

2

2

1

i

n

i

i

n

x

x

n

s

 

1

2

0

2

1

background image

 

 

        Podstawowe właściwości wariancji:
1. Jest  zawsze  liczbą  nieujemną
2. Jest    zawsze    wielkością    

mianowaną,   tzn. wyrażoną   w    
jednostkach    badanej    cechy 
statystycznej.  Miano   wariancji   
zawsze   jest kwadratem    jednostki    
fizycznej,   w    jakiej mierzona  jest  
badana  cecha

3. Im   zbiorowość   statystyczna    jest    

bardziej zróżnicowana,   tym   wartość 
  wariancji   jest wyższa

background image

 

 

4.  

Wariancja,  jako miara dyspersji 

wykorzystywana dla    szeregów    
rozdzielczych   przedziałowych, daje    
zawsze    wartości   zawyżone.   Przyczyna 
zawyżenia       wartości       wynika      z     
 faktu, iż    w    przypadku      szeregów     
rozdzielczych przedziałowych    korzysta   
  się     ze     środków przedziałów.  W  
celu zmniejszenia popełnionego błędu,  
przy  obliczaniu  wariancji  w   przypadku 
przedziałów o  zbyt  dużej  rozpiętości (i), 
stosuje się tzw. poprawkę Shepparda. 
Wzór na wariancję przyjmuje  wówczas  
postać:

  

2

2

2

12

1

i

s

s

pop

background image

 

 

        Odchylenie standardowe  jest  

pierwiastkiem    kwadratowym z 
wariancji:

gdzie:
     - odchylenie standardowe
     - wariancja.
        Odchylenie    standardowe    określa,   

o    ile wszystkie      jednostki     
statystyczne     danej zbiorowości  różnią 
 się  średnio  od   wartości średniej    
arytmetycznej    badanej   zmiennej. 

2

s

s

2

s

background image

 

 

        W    statystyce     odchylenie      

standardowe wykorzystywane  jest  do 

tworzenia typowego obszaru zmienności  

statystycznej. W obszarze takim    mieści    

się    około    2/3   wszystkich jednostek  

badanej  zbiorowości  statystycznej.

        Typowy obszar zmienności określa wzór:

        Użyteczność   kategorii   typowego   

obszaru zmienności  sprowadza  się  przede 

wszystkim do     rozdziału      jednostek      

statystycznych

na    typowe   (tzn.   występujące   

stosunkowo często)    i     nietypowe     (tzn.  

   występujące stosunkowo     rzadko). 

s

x

x

s

x

typ

background image

 

 

       
        Z   odchyleniem   standardowym    

łączy   się pojęcie           zmiennej      
     standaryzowanej (unormowanej)   
dla   rozkładu  empirycznego cechy  
mierzalnej      :

 
 

is

x

s

x

x

x

i

is

background image

 

 

       
        Miary       dyspersji      (rozproszenia),      

jak i   wartości średnie są liczbami 
mianowanymi. Fakt        ten         
umożliwia        bezpośrednie 
porównywania   miar   dyspersji    
obliczonych dla   różnych   szeregów. 

        Jeżeli    badane    zjawisko    mierzone     

jest w różnych jednostkach miary lub 
kształtuje się na     niejednakowym     
poziomie,     wówczas   do    oceny    
rozproszenia    należy    stosować 
współczynnik   zmienności.

 

background image

 

 

       
        Współczynnik  zmienności jest ilorazem 

odchylenia przeciętnego lub odchylenia 
standardowego oraz średniej:

 

lub 

(zamiast      może być inna średnia, np. 

mediana) 

        Współczynnik     zmienności      może      

być wyrażony  w  procentach.  
Współczynnik   ten zastępuje   
bezwzględne   miary   dyspersji.

x

s

x

d

x

background image

 

 

       
        Współczynnik         zmienności       

  pozwala porównywać    różne    
szeregi    lub     szeregi tego   
samego  typu,  ale  o  różnej   
strukturze. Umożliwia  on  
dokonanie  analiz  zmienności w     
czasie     i     przestrzeni.    
Współczynnik zmienności  (obok 
odchylenia standardowego) 
wykorzystywany   jest    jako    miara 
   ryzyka finansowego. 

background image

 

 

MIARY ASYMETRII (SKOŚNOŚCI)

        Szczegółowa analiza statystyczna 

powinna zawierać    nie     tylko    

poziom    przeciętny i   wewnętrzne   

zróżnicowanie  zbiorowości. Istotne     

jest      również     określenie,    czy 

przeważająca  liczba  jednostek  

znajduje  się powyżej  czy  poniżej  

przeciętnego poziomu badanej cechy.  

        Należy   dokonać   zatem   oceny  

asymetrii rozkładu.   W  związku   z   

tym   określa  się charakter (kierunek) 

oraz natężenie (rozmiar) skośności.        

background image

 

 

        W zjawiskach  społeczno-

gospodarczych zwykle   spotyka   się   
skośność   dodatnią (prawostronną).

        Skośność ta często występuje w 

badaniach:

- dochodów,

- wykonania norm pracy, planów pracy,
- absencji w pracy,
- wkładów oszczędnościowych,
- odległości przewozów osób, czy 

towarów.

background image

 

 

        
        Skośność   dodatnia    

(prawostronna)    ma miejsce 
wówczas, gdy dłuższe ramię krzywej 
charakteryzującej       rozkład       
liczebności szeregu    znajduje    się   
po   prawej   stronie średniej.

        Jeżeli  dłuższe  ramię  krzywej 

znajduje się po  lewej  stronie  
średniej,  wówczas  można mówić  o  
skośności  ujemnej (lewostronnej).

background image

 

 

        Inaczej:   jeśli spełniona   jest   

nierówność: 

                           to   rozkład  

charakteryzuje  się asymetrią    
prawostronną.  Jeżeli  natomiast:     
 

                           to    można    

wówczas   mówić o  asymetrii  
lewostronnej. 

        

D

Me

x

D

Me

x

 

 

 

 

          n

 

 

 

 

 

 

 

 

 

                                                                                         

                                      x         Me        D                 x

i

    

 

 

 

 

          n

 

 

 

 

 

 

 

 

 

                                                                                         

                                              D      Me     x              x

i

    

background image

 

 

        Charakter     asymetrii     można     

również określać         na        podstawie  
      punktów wyznaczonych   przez   
dominantę,   medianę i   średnią   
arytmetyczną. 

        W  szeregu symetrycznym wszystkie 

miary pozycyjne są sobie równe.

        W    szeregu    asymetrycznym    

miary    te kształtują     się     na     
różnym      poziomie:   im   większa   
skośność,    tym    większe    są różnice    
 pomiędzy     dominantą,    medianą i   
średnią   arytmetyczną.   

background image

 

 

       
        Jednym z mierników skośności jest 

wskaźnik skośności (inaczej: 
bezwzględna miara skośności):

        
        Wskaźnik    ten    jest    bezwzględną    

miarą asymetrii  posiadającą  miano  
badanej  cechy. Z    tego    względu     
ma     on     ograniczone zastosowanie     
w     analizie    porównawczej. Poza  tym, 
wskaźnik skośności określa jedynie 
kierunek  asymetrii  (prawo-, czy 
lewostronna) nie  wskazując  jej  siły.  

D

x

Ws

background image

 

 

        
        Miarą   określającą   zarówno   

kierunek   jak i  siłę  asymetrii  jest  
współczynnik skośności:

        
        Współczynnik    ten    przyjmuje   

zazwyczaj    wartości  z  przedziału:  
<-1;1>.  Jedynie  przy  bardzo silnej 
asymetrii wartość współczynnika     
może  wykroczyć  poza  w/w  
przedział. 

s

D

x

As

background image

 

 

        
        Jeżeli dany rozkład jest symetryczny, 

wówczas             .

        W przypadku asymetrii 

prawostronnej:

                                 .
        Dla rozkładu o asymetrii 

lewostronnej:

                                 . 
        Im     silniejsza    jest    asymetria    

rozkładu, tym   wartość    bezwzględna  
  współczynnika skośności  jest  wyższa.

0

As

0

As

0

As

background image

 

 

ANALIZA WSPÓŁZALEŻNOŚCI

        

Analiza  struktury  zjawisk  dotyczyła 

jednej cechy. W praktyce jednak bywa 
tak, że badane      jednostki  statystyczne  
 charakteryzowane   są przez  kilka  cech. 
 Cechy  te  nie  są  od siebie odizolowane, 
  mają   na   siebie   wpływ   oraz 
posiadają  wzajemne uwarunkowania. 
Dlatego często        zachodzi        
potrzeba        badania współzależności   
między   tymi   cechami.

        

        

background image

 

 

        
        Przeprowadzając   analizę   można   spotkać  

 dwa rodzaje współzależności zmiennych:

1. Współzależność  funkcyjną,   polegającą   na   

tym, że   zmiana    wartości    jednej   zmiennej 
  pociąga określoną  zmianę  wartości  drugiej  
zmiennej. 

2. Współzależność  stochastyczną  

(probabilistyczną), polegającą  na  tym,  że   
wraz   ze   zmianą   jednej zmiennej zmienia 
się rozkład prawdopodobieństwa drugiej    
zmiennej.     Szczególnym    przypadkiem 
zależności       stochastycznej       jest       
zależność korelacyjna.   

background image

 

 

        
        Zależności korelacyjne zachodzą 

wówczas, gdy określonym 
wartościom jednej  zmiennej 
odpowiadają      ściśle      określone    
średnie wartości   drugiej   zmiennej. 

        Zdarzają   się  jednak  sytuacje,  w  

których nie    istnieje     
współzależność     (korelacja) ale   ma 
  miejsce   zbieżność   występowania 
zjawisk.  Taką  zbieżność określa się 
mianem korelacji pozornej. 

background image

 

 

       Najczęściej     spotykanymi     

metodami wykrywania  związków  
korelacyjnych są:

1. Metoda        porównywania        

przebiegu szeregów     
statystycznych.

2. Metoda     graficzna.

 

 

 

 

          y

 

 

 

 

 

 

 

 

 

                                                                                         

             0                                                                   x

i

    

 

 

 

 

          y

 

 

 

 

 

 

 

 

 

                                                                                         

             0                                                                   x

i

    

background image

 

 

       

 

 

 

 

          y

 

 

 

 

 

 

 

 

 

                                                                                         

             0                                                                   x

i

    

 

 

 

 

          y

 

 

 

 

 

 

 

 

 

                                                                                         

             0                                                                   x

i

    

background image

 

 

        

Cechę    dwuwymiarową    oznacza     

się    jako uporządkowaną       parę     
(X,Y).      Składowymi mogą       być       
zarówno      cechy      ilościowe     jak  i  
jakościowe.  To  od  tego, z jakimi 
cechami mamy    do   czynienia   zależy   
wybór    sposobu opisu   współzależności. 

        Podstawą    analizy   jest  zbiorowość  

jednostek        scharakteryzowanych      
parą   własności,   gdzie i=1,2,...,n. 

        Badając  zbiorowość  jednostek  pod  

względem  

wyróżnionych cech otrzymuje 

się ciąg par  wartości:

 

 

 

.

,

,...,

,

,

,

2

2

1

1

n

n

y

x

y

x

y

x

i

i

y

,

background image

 

 

MIARY WSPÓŁZALEŻNOŚCI        

        Do badania zależności między 

zmiennymi  X i Y wykorzystuje     się     
najczęściej    współczynnik korelacji  
liniowej  Pearsona,  będący  miarą   siły 
związku      prostoliniowego     między     
dwiema cechami mierzalnymi. 
Współczynnik ten wylicza się ze wzoru:

 

     gdzie:
     cov(x,y) - kowariancja zmiennych X i Y
     s             
- odchylenie standardowe.

 

   

y

s

x

s

y

x

r

xy

,

cov

background image

 

 

        Kowariancja  jest średnią arytmetyczną 

iloczynu odchyleń  zmiennych   X  i  Y   od 
  ich   średnich arytmetycznych: 

     
        
        Rozpatrując      kowariancję      uzyskać    

  można następujące   informacje   o   
istniejącym   związku pomiędzy  
zmiennymi  X  i  Y:

1.

Jeżeli cov(x,y)>0 – dodatnia korelacja

2.

Jeżeli cov(x,y)<0 – ujmena korelacja

3.

Jeżeli cov(x,y)=0 – brak korelacji

 

 

n

i

i

i

y

y

x

x

n

y

x

1

1

,

cov

background image

 

 

        Kowariancji        nie         można          

stosować     do   bezpośrednich   
porównań.   Dlatego jest ona 
standaryzowana  przez  odchylenia  
standardowe, dzięki    czemu    otrzymuje 
   się    współczynnik korelacji  liniowej  
Pearsona.

        Właściwości współczynnika korelacji:
1. Przyjmuje wartości z przedziału <-1;1>
2. Dodatni znak świadczy o  dodatnim,  zaś  

ujemny o ujemnym związku korelacyjnym

3. Im                      tym        związek       

korelacyjny   jest     silniejszy.

0

xy

r

background image

 

 

        Sposoby komentowania współczynnika korelacji:
a)                       -    współzależność    nie   występuje,
b)                       -    słaby   stopień    współzależności,
c)                       -    umiarkowany     (średni)    stopień 

 

                                 współzależności,
d)                       -    znaczny  stopień współzależności,
e)                       -    wysoki  stopień  współzależności,
f)                       -    bardzo           wysoki          stopień
                                 współzależności,
g)                       -    całkowita (ścisła) współzależność 
                                 (zależność    funkcyjna   

pomiędzy

                                 badanymi  cechami).

0

XY

r

3

,

0

0

XY

r

5

,

0

3

,

0

XY

r

7

,

0

5

,

0

XY

r

9

,

0

7

,

0

XY

r

1

9

,

0

XY

r

1

XY

r

background image

 

 

        
        

Analizę  współzależności   należy   

uzupełnić o      współczynnik      
determinacji,      będący kwadratem  
współczynnika  korelacji  liniowej 
Pearsona (      ).

        Współczynnik  determinacji  informuje, 

 jaka część  zmiennej  objaśnianej  jest   
wyjaśniona przez zmienną objaśniającą. 
Przy pomocy tego współczynnika   można 
  wnioskować,  czy  na zmienną  
objaśniającą  wpływają również inne 
czynniki, nie podlegające badaniu. 

2

xy

r

background image

 

 

        

        W   sytuacji,   gdy   obserwacje   

statystyczne dotyczące   badanych   
zmiennych   są   liczne, bazowanie   na   
wartościach    szczegółowych może  być  
uciążliwe.   W   celu   zapewnienia 
przejrzystości zebranych danych sporządza 
się wówczas tablicę korelacyjną.

         Na   skrzyżowaniu   kolumn    z    

wierszami wpisuje się liczebności 
jednostek  zbiorowości statystycznej,     u    
których    zaobserwowano jednoczesne      
występowanie       określonych wartości      
 i      .

i

x

i

y

background image

 

 

Schemat tablicy korelacyjnej:

 x

i

             y

y

1

 

y

2

 

... 

y

t

 

i

t

i

ij

n

1

 

x

1

 

x



x

n

11

 

n

21

 



n

k1

 

n

12

 

n

22

 



n

k2

 






n

1t

 

n

2t

 



n

kt

 

n

n

2

 



n

k

 

j

k

i

ij

n

1

 

n

.1 

n

.2

 

… 

n

.t

 

background image

 

 

        

        W  tablicy  korelacyjnej  zawarte są 

rozkłady brzegowe  i  warunkowe.   

Rozkład  brzegowy (por.     ostatnia    

kolumna    określa    rozkład brzegowy  

cechy  X,  ostatni   wiersz – rozkład 

brzegowy   cechy   Y)    prezentuje    

strukturę wartości   jednej   zmiennej   (X  

 lub   Y)    bez względu  na kształtowanie 

się wartości drugiej zmiennej. 

        Rozkłady  brzegowe  i warunkowe 

mogą być scharakteryzowane   pewnymi   

sumarycznymi wielkościami    (najczęściej 

   są    to    średnie arytmetyczne)

background image

 

 

        

            Średnie     arytmetyczne     z      

rozkładów brzegowych     wyznacza   
  się    ze   wzorów:

            Średnie     arytmetyczne     z      

rozkładów warunkowych     oblicza    
  się     następująco:    

i

k

i

i

n

x

n

x

1

1

j

t

i

j

n

y

n

y

1

1

ij

k

i

i

j

j

n

x

n

x

1

.

1

ij

t

i

j

i

i

n

y

n

y

1

.

1

background image

 

 

        

        
        W    sytuacji,     gdy    wraz    ze     

wzrostem (spadkiem) wartości 
jednej zmiennej następuje wzrost     
(spadek)     warunkowych    średnich 
drugiej zmiennej,  wówczas można  
stwierdzić istnienie       korelacji       
dodatniej      między zmiennymi.    W 
  sytuacji,   kiedy   występuje 
przeciwny   kierunek   zmian,   
można   mówić o  korelacji  ujemnej. 

background image

 

 

        

        Jeżeli  różnice  pomiędzy  średnimi 

 są   takie same, tzn.:

     wówczas   związek   między   

zmiennymi   jest liniowy. 

        

1

2

3

1

2

...

t

t

x

x

x

x

x

x

1

2

3

1

2

...

k

k

y

y

y

y

y

y

background image

 

 

         

Innym  miernikiem korelacyjnego związku 

cech jest   współczynnik   korelacji   rang   
Spearmana. Współczynnik    ten    stosowany  
  jest    głównie     do badania 
współzależności cech niemierzalnych, bądź 
cechy mierzalnej i niemierzalnej.  Może być 
on   również   stosowany   w    badaniu    
związku korelacyjnego  pomiędzy  cechami   
mierzalnymi (szczególnie w przypadku małej 
próby). 

         Konstrukcja    współczynnika    korelacji    

rang opiera  się  na  zgodności  pozycji,  którą 
zajmuje każda    z    odpowiadających    sobie  
   wielkości     we    wzrastającym    lub     
malejącym     szeregu wartości   cechy.

background image

 

 

        Współczynnik   korelacji   rang  

Spearmana  (Q)      wylicza się w 
oparciu o wyznaczone różnice rang 
(    ) oraz liczby par obserwacji (n):

przy czym:

gdzie:
             - rangi zmiennej X oraz Y 

(i=1,2,...n)

i

d

n

n

d

Q

n

i

i

3

1

2

6

1

i

i

y

x

i

v

v

d

i

i

y

x

v

,

background image

 

 

        

gdy

        Współczynnik    korelacji    rang    

przyjmuje wartości    z    przedziału   
                 ,  a   jego interpretacja      
     jest        analogiczna       do 
współczynnika    korelacji    
Pearsona.

1

Q

0

1

2

n

i

i

d

1

1

Q


Document Outline