background image

Statystyka w badaniach. Opis statystyczny struktury danych. część 2

Urszula Augustyńska

Opis statystyczny struktury zbiorowości cz.2

Asymetria mówi do nas,
czy jest równo po obu stronach.

Asymetria 
charakteryzuje równomierność (a raczej brak równomierności) rozproszenia danych wokół 
przeciętnej. 

Określenie   tendencji   centralnej   i   zmienności   rozkładu   analizowanej   zmiennej   nie 

wyczerpuje opisu tegoż rozkładu. Czasem interesuje nas nie tylko wielkość rozproszenia lecz 
również   na   ile   rozproszenie   danych   wokół   przeciętnej   jest   równomierne.   Jedną   z   miar 
asymetrii rozkładu jest współczynnik asymetrii A.

Gdy rozkład jest symetryczny współczynnik asymetrii A przyjmuje wartość zero (A=0). 

Wartość   dodatnia   (A>0),   wskazuje   na   asymetrię   prawostronną.   Wartość   ujemna 
współczynnika   (A<0),   na   asymetrię   lewostronną.   Większa   wartość   bezwzględna 
współczynnika odpowiada silniejszej asymetrii.

M=Me=Mo 

Mo<Me<M

M<Me<Mo

Rozkład symetryczny

Rozkład prawostronnie

Rozkład lewostronnie

asymetryczny

asymetryczny

 

Rys.25. Rozkład symetryczny, prawostronnie asymetryczny i lewostronnie asymetryczny

W przypadku rozkładów umiarkowanie asymetrycznych jako przybliżoną miarę asymetrii można 

przyjąć różnicę między średnią arytmetyczną a modą Mo, nazywaną wskaźnikiem skośnościM – 
Mo
.

Rozkład jest symetryczny, gdy M – Mo = 0.
Rozkład jest prawostronnie asymetryczny, gdy M – Mo > 0.
Rozkład jest lewostronnie asymetryczny, gdy M – Mo < 0.
Bezwzględny współczynnik skośności określa kierunek asymetrii, ale nic nie mówi o jej sile. 

Zarówno kierunek jak i siłę asymetrii wskazuje względny współczynnik skośności A

S

:

S

Mo

M

A

S

=

,

gdzie  M  – średnia arytmetyczna,  Mo  – moda,  S  – odchylenie standardowe.   Im większa, co do 

modułu, wartość współczynnika A

S

, tym bardziej asymetryczny jest rozkład.

 

A = 0

A>0

A<0

background image

Statystyka w badaniach. Opis statystyczny struktury danych. część 2

Urszula Augustyńska

Kwantyle rozkładu

Do opisu rozkładu wykorzystywane są też miary pozycyjne zwane kwantylami.

Kwantyle rozkładu to wartości zmiennej, które dzielą uporządkowaną według wartości zmiennej 

zbiorowość w określonym stosunku liczbowym. Kwantylem rzędu q rozkładu zmiennej  X  w 
N-elementowej   zbiorowości   jest   taka   wartość   x

k

  ,   że   w   uporządkowanej   rosnąco   ze   względu   na 

zmienną X zbiorowości q*100% jednostek zajmuje pozycję nie dalszą niż x

k

  , a pozostały procent 

zbiorowości pozycję nie bliższą. 

Najczęściej stosowane w opisie rozkładu kwantyle to: 

kwantyl   rzędu   q=0,5   nazwany  medianą;   jest   wartością   zmiennej   dzielącej   uporządkowaną 

zbiorowość na dwie równoliczne części;

kwantyle rzędu q=0,25; 0,50; 0,75, kwartyle;

 

    trzy kwartyle dzielą uporządkowaną zbiorowość na 

cztery równoliczne części; 

kwantyle rzędu q=0,1; 0,2; ... 0,9, czyli decyle;

 

    dziewięć decyli dzieli uporządkowaną zbiorowość 

na dziesięć równolicznych części; 

kwantyle   rzędu   q=0,01;   0,02;       0,50;   ...   0,99,   czyli  centyle

 

    lub   percentyle;   99   centyli   dzieli 

uporządkowaną zbiorowość na 100 równolicznych części (stosowane są w przypadku opisu dużych 
zbiorowości, N>100). 

Za pomocą kwartyli konstruowane są  miary kwantylowe opisu rozkładu zmiennej, zatem 
przyjrzyjmy się im bliżej. 

Kwartyl pierwszy
 to jest miara, 
co zbiorowość dzieli zaraz: 
niższych jest wartości 
ćwiartka,
wyższych będzie ze trzy 
czwarte.

 (Emilia Kozierkiewicz)

Kwartyl drugi 
jak mediana dzieli szereg na 
połówki i choć nazwa nie ta 
sama wbij ją do swej ślicznej 
główki.

 (

Tomasz

 

Osyra

)

Kwartyl trzeci 
dla twardzieli na te części 
szereg dzieli: wyższych jest 
wartości ćwiartka, niższych 
będzie ze trzy czwarte.

 (

Justyna

 

Kozierkiewicz

)

Q

1

 - kwartyl pierwszy (dolny): dzieli uporządkowany zbiór danych w stosunku 1 : 4 tak, 

że 25% danych zajmuje pozycję nie dalszą niż Q

1

  a 75% danych pozycję nie bliższą; kwartyl 

pierwszy jest kwantylem rzędu 0,25. 

Q

2  

-  kwartyl drugi (mediana) dzieli uporządkowany zbiór danych w stosunku 1 : 2 tak, że 

50%  danych zajmuje pozycję nie dalszą niż   Q

  a 50% danych  pozycję nie bliższą; mediana 

jest kwantylem rzędu 0,5.

Q

3

 - kwartyl trzeci (górny): dzieli uporządkowany zbiór danych w stosunku 3 : 4 tak, że 

75% danych zajmuje pozycję nie dalszą niż Q

3

  a 25% danych pozycję nie bliższą; kwartyl 

trzeci jest kwantylem rzędu 0,75.

Miarą tendencji centralnej rozkładu określoną przy użyciu miar kwantylowych jest 

mediana, czyli drugi kwartyl. 

background image

Statystyka w badaniach. Opis statystyczny struktury danych. część 2

Urszula Augustyńska

Miarą   rozproszenia   rozkładu   określoną   przy   użyciu   miar   kwantylowych   jest   różnica 

1

3

Q

Q

 nazywana rozstępem kwartylowym, gdzie: Q

3

 - kwartyl trzeci (górny), Q

1

 - kwartyl 

pierwszy

Rozstęp kwartylowy określa zakres zmienności „środkowych” 50% danych zajmujących 

w uporządkowanym ich zbiorze pozycje między pierwszym a trzecim kwartylem. 

W praktyce stosowane jest też jako miara zmienności rozkładu  odchylenie ćwiartkowe 

(połówkowy rozstęp kwartylowy) Q:

2

1

3

Q

Q

Q

=

,

Względną miarę rozproszenia w opisie pozycyjnym określa współczynnik zmienności V

Q, 

zdefiniowany  jako stosunek odchylenia ćwiartkowego do mediany:

Me

Q

V

Q

=

gdzie Q - odchylenie ćwiartkowe, a Me - mediana.

Aby   wyznaczyć   pozycyjną   miarę   zmienności   należy   znaleźć   wartość   pierwszego   i   trzeciego 

kwartyla. 

 

118cm, 118cm, 119cm, 121cm, 123cm, 125cm, 126cm, 126cm, 126cm, 127cm, 130cm
   x

1

          x

2

            x

3

       x

4

        x

5

         x

6

          x

7

          x

8

          x

9

         x

10

        x

11

 

Pierwszym kwartylem jest wartość  

4

1

+

N

x

, czyli w naszym przykładzie  x

3

, stąd Q

1

  = 119cm. Trzeci 

kwartyl to wartość 

(

)

4

1

3

+

N

x

, czyli x

9

, stąd Q

3

 = 126cm. Rozstęp kwartylowy wynosi  Q

- Q

1

 = 7cm, co 

oznacza, że gdy pominiemy grupę 25% dzieci niższych i 25% dzieci wyższych to w pozostałej grupie 
50% dzieci różnią się wzrostem nie więcej niż o 7cm.
Odchylenie ćwiartkowe równe jest:

cm

cm

cm

Q

Q

Q

5

,

3

2

119

126

2

1

3

=

=

=

,

a względne rozproszenie mierzone współczynnikiem 

Me

Q

V

Q

=

 

028

,

0

125

5

,

3

=

=

Q

V

, co świadczy o dużej jednorodności zbioru danych.

Współczynnik  asymetrii  A

Q

  zbudowany na miarach kwantylowych  zdefiniowany jest 

następująco:

(

) (

)

1

3

1

3

Q

Q

Q

Me

Me

Q

A

Q

=

,

lub w postaci równoważnej powyższej równości:
                                                                                                                        

background image

Statystyka w badaniach. Opis statystyczny struktury danych. część 2

Urszula Augustyńska

Q

Me

Q

Q

A

Q

2

2

1

3

+

=

,

gdzie Q

1

 i Q

3

 to odpowiednio pierwszy i trzeci kwartyl,  Me – mediana, Q – odchylenie 

ćwiartkowe.

Większa,   co   do   modułu,   wartość   współczynnika  A

Q

  wskazuje   na   silniejszą   asymetrię 

rozkładu. Współczynniki asymetrii są liczbami niemianowanymi.

 
  Liczbowy   opis   rozkładu   można   uzupełnić   wykresem   pudełkowym   (ramkowym).   W 

opisie z wykorzystaniem kwartyli wykres ten składa się z prostokąta o dowolnej szerokości, 
którego   wysokość   wyznaczają   pierwszy  Q

1

  i   trzeci  Q

3

  kwartyl.   Wewnątrz   prostokąta 

zaznaczana   jest   mediana.   Prostokąt   uzupełniają   dwa   odcinki   (wąsy):   jeden   łączy   bok 
prostokąta   na   poziomie  Q

1

  z   wartością   minimalną   zbioru   danych,   drugi   zaś   łączy  Q

3

  z 

wartością   maksymalną.   Położenie   mediany   względem   kwartyli   pozwala   ocenić   symetrię 
rozkładu; gdy odległość miedzy medianą a Q

1

 jest większa niż między medianą a Q

3

, rozkład 

jest   lewostronnie   asymetryczny,  gdy jest   odwrotnie  otrzymany  rozkład  charakteryzuje   się 
asymetrią prawostronną.

Wykres   ramkowy   charakterystyk   pozycyjnych   rozkładu   zmiennej   wzrost   (tabela   3). 

przedstawiony jest na rysunku 26.

 

Maks = 170 cm
Min  = 136 cm
75% = 157 cm
25% = 150 cm

Mediana:
Med = 153 cm

Wykres ramkowy

130

135

140

145

150

155

160

165

170

175

Wzrost

Rys. 26. Wykres ramkowy (pudełkowy) obrazujący graficznie położenie mediany, kwartyli 

oraz wartości minimalnej i maksymalnej zbioru danych

W  legendzie   obok   wykresu   podane   są:   wartość   maksymalna   x

max

  =   170   cm,   wartość 

minimalna x

min

  = 136 cm, kwartyl dolny  Q

1

  = 150 cm, kwartyl górny  Q

3

  = 157 cm, oraz 

mediana  Me  =   153   cm.   Położenie   mediany   (kwadracik   wewnątrz   prostokąta)   względem 
boków prostokąta na poziomie kwartyli wskazuje na słabą asymetrię prawostronną rozkładu.

Współczynnik asymetrii A

Q

 jest równy w tym przypadku:

14

,

0

7

1

150

157

153

2

150

157

=

+

=

Q

A

background image

Statystyka w badaniach. Opis statystyczny struktury danych. część 2

Urszula Augustyńska

Dwa zastosowania odchylenia standardowego

W   zastosowaniach   praktycznych   odchylenie   standardowe   wykorzystywane   jest   do   określania 

obszaru wartości typowych  dla danego rozkładu symetrycznego (w praktyce również rozkładu o 
niewielkiej asymetrii) według zależności:

M – S < x

typ

 < M + S

Obserwacje (dane) należące do tego obszaru, to wartości zmiennej typowe w badanej zbiorowości. 

Jeżeli   rozkład   można   uznać   za   rozkład   normalny   (w   sensie   zgodności   badanego   rozkładu 
empirycznego   z   teoretycznym   rozkładem   normalnym   wykazanej   w   procedurze   weryfikacji 
odpowiedniej   hipotezy   zgodności),   poza   obszarem   typowym   znajdzie   się   tylko   około   32% 
zbiorowości.  Zatem typowe wartości analizowanej zmiennej to te, które zaobserwowano u ok. 68% 
badanej zbiorowości.

Równie   ważną   rolę   w   praktyce   statystycznej   odgrywa   mająca   swe   podstawy   w   nierówności 

Czebyszewa   tzw.  reguła   trzech   sigm,   w   której   odchylenie   standardowe   wykorzystuje   się   do 
określenia   obszaru   wartości   bardzo   mało   prawdopodobnych.   Mówi   ona   o   tym,   że 
prawdopodobieństwo zaobserwowania wartości zmiennej różniącej się o więcej niż trzy odchylenia 
standardowe od średniej rozkładu tej zmiennej w populacji, wynosi mniej niż 0,001.   Stosując tę 
regułę   możemy   „wyłapać”   takie   dane,   które   pojawiły   się   w   analizowanym   zbiorze   danych 
przypadkowo. 

background image

Statystyka w badaniach. Opis statystyczny struktury danych. część 2

Urszula Augustyńska

Ćwiczenia i zadania

Zadanie 1.(T. Zimny, Metody statystyczne w badaniach i diagnostyce pedagogicznej. Wyd. Nauk. 
Uniwersytetu SzczecińskiegoSzczecin 2007)
W oddziałach „a” i „b” IV klasy pewnej szkoły podstawowej przeprowadzono test zdolności 
manualnych. Otrzymane rozkłady wyników testowych charakteryzują następujące miary:

Dolny

kwartyl

Mediana

Średnia 

arytmetyczna

Odchylenie 

standardowe

Oddział „a”

47 p

52 p

55 p

10 p

Oddział  „b”

48 p

54 p

54 p

8 p

Na podstawie podanych charakterystyk rozkładów wyników testowych w oddziale „a” i oddziale „b” 
określ prawdziwość stwierdzeń:

a) Połowa uczniów klasy IV oddziału „a” uzyskała nie więcej niż 52 punkty 

Tak

Nie 

b) Przeciętnie zdolności uczniów oddziału „a” są wyższe  niż zdolności 
     uczniów oddziału „b”

Tak

Nie 

c) W oddziale „a” jest kilku wyjątkowo zdolnych uczniów

Tak

Nie 

d) W oddziale „b” 25% uczniów uzyskało nie więcej niż 48 punktów

Tak

Nie 

e) Rozkład wyników testu zdolności w oddziale „a” jest symetryczny

Tak

Nie 

f) Rozproszenie wyników testu jest większe w oddziale „a”

Tak

Nie 

g) 75% uczniów oddziału „b” uzyskało wynik nie niższy niż 48 punktów

Tak

Nie 

Wyniki typowe testu w oddziele „b” to wyniki  od 46 punktów do . ........

Zadanie 2.
a) Jeżeli wzrost dziecka odpowiada 70 centylowi, to jaki procent dzieci jest od niego niewyższych?

b) Jeżeli masa ciała Jasia odpowiada 8 decylowi, to jaki procent dzieci ma masę ciała większą niż Jaś?

c) Jeżeli wzrost Jasia odpowiada 9 decylowi a masa ciała 30 centylowi to możemy się spodziewać, że 
Jaś jest stosunkowo:

- niski i masywny
- wysoki i masywny
- niski i szczupły
- wysoki i szczupły

Zadanie 3
a) Ustal relację między miarami opisującymi ten sam rozkład (wstaw w miejsce kropek znak „<”, „>” 
lub „=”):

     Me ...... Q

1

             Q

1

 ......... D

1

               C

30

 ........ D

3

                 Q

1

 .......  C

30

             

b) Uzupełnij tak aby równość była prawdziwa w analizowanym rozkładzie (w miejsce kropek wpisz 
odpowiedni numer centyla lub decyla):

Me = Q..... = D..... = C ......
Q

1  

 =  C.....

C

30

  = C.....