background image

 

 

Etapy realizacji badania 

naukowego

• Planowanie badania 

(zakres, populacja)

• Konstrukcja badania 

(aparat losowania, 

próba)

• Wykonanie badania 

(baza danych)

• Analiza danych 

(pakiet statystyczny)

• Prezentacja otrzymanych wyników
• Interpretacja 

background image

 

 

Konstrukcja badania

• Określenie badanej próby
• Reprezentatywność próby, aparat 

losowania

• Określenie liczebności próby

background image

 

 

Jaka ma być liczebność 

próby?

• Zbyt duża – niepotrzebne koszty 

badania

• Zbyt mała – uniemożliwia wykrycie 

ważnych zjawisk medycznych

• Metoda obliczenia liczebności 

próby zależy od stopnia złożoności 
konstrukcji badania

• Przykłady obliczeń w STATISTICA

background image

 

 

Analiza danych

• Dobór odpowiednich testów 

statystycznych

• Przykłady obliczeń w STATISTICA:

test t Studenta i analiza wariancji
test chi-kwadrat     
testy nieparametryczne
korelacja i regresja

background image

 

 

Przedstawienie wyników i 

interpretacja

• Wykresy
• Tabele

background image

 

 

Cechy jakościowe
płeć, zawód, diagnoza.szeregi 
wielodzielcze.
-wyliczone wskaźniki struktury, natężenia i 
poglądowości
-wykres słupkowy, kołowy.i inny
Cechy ilościowe: wzrost, masa ciała,wiek.

-wyliczone miary średnie i rozproszenia 
bądź zestawienie wyników obserwacji w 
szeregach szczegółowych, czy 
rozdzielczych i wyliczanie wskaźników 
struktury, natężenia i poglądowości
oraz wyliczanie miar średnich i 
rozproszenia

 

Opis zebranego materiału

background image

 

 

Cechy jakościowe

 Częstość występowania, odsetki w 

tablicach

Grupa

Kobiety

Mężczyźni

Razem

n

%

n

%

n

%

Cukrzyca

25

55,6

20

44,4

45

100,0

Bez 

cukrzycy

45

60,0

30

40,0

75

100,0

background image

 

 

Graficzna prezentacja

60

40

55,6

44,4

0

20

40

60

%

Kobiety Mężczyźni 

Cukrzyca

Bez cukrzycy

55,6

44,4

background image

 

 

Cechy ilościowe

• Średnia, odchylenie standardowe, mediana, rozstęp, 

tablice, wykres ramka-wąsy, szereg rozdzielczy, 
histogram.

• Rozstęp:R= wartość maks. – wartość minim
• Długość przedziału d =

• Liczba przedziałów  l jest tak dobrana, by długość 

przedziału  d  była  łatwa  do  dodawania,  czyli  w 
miarę  całkowita,  lub  z  niedużą  liczbą  miejsc 
dziesiętnych, przy czym 6<  
<12 w zależności od 
liczby pomiarów. 

1j.m.  to  jest  1  jednostka  miary,  np.  jeżeli  wysokość  jest 
mierzona w centymetrach z jednym miejscem dziesiętnym 
23,4 cm; 24,0 cm itd., to 1 j.m.
 wynosi 0,1 cm.

background image

 

 

Przykład –masa ciała dzieci

min=3,5;  max=45,4; R=45,4-

13,5=31,9; d = 

jeżeli l=8 to d=4

 

P

r

z

e

d

z

i

a

ł

y

 

k

l

a

s

o

w

e

 

L

i

c

z

b

a

 

o

b

s

e

r

w

a

c

ji

 

i

n

 

P

r

a

w

d

o

p

o

d

o

b

i

e

ń

s

t

w

o

 

i

p

 

[

1

3

,5

 –

 1

7

,5

)

 

1

9

 

0

,1

8

 

[

1

7

,5

 –

 2

1

,5

)

 

2

2

 

0

,2

1

 

[

2

1

,5

 –

 2

5

,5

)

 

3

3

 

0

,3

1

 

[

2

5

,5

 –

 2

9

,5

)

 

1

6

 

0

,1

5

 

[

2

9

,5

 –

 3

3

,5

)

 

1

2

 

0

,1

1

 

[

3

3

,5

 –

 3

7

,5

)

 

2

 

0

,0

2

 

[

3

7

,5

 –

 4

1

,5

)

 

2

 

0

,0

2

 

[

4

1

,5

 –

 4

5

,5

)

 

1

 

0

,0

1

 

R

a

z

e

m

 

1

0

7

 

1

,0

0

 

 

background image

 

 

Graficzna prezentacja

0

0,2

0,4

pr

aw

do

po

do

bi

st

w

o

[1

3,

– 

17

,5

)

[1

7,

– 

21

,5

)

[2

1,

– 

25

,5

)

[2

5,

– 

29

,5

)

[2

9,

– 

33

,5

)

[3

3,

– 

37

,5

)

[3

7,

– 

41

,5

)

[4

1,

– 

45

,5

)

background image

 

 

Próba – populacja

Miary położenia i rozproszenia

Średnia arytmetyczna i odchylenie standardowe w populacji: .  

Średnia arytmetyczna i odchylenie standardowe z próby: 

n

x

x

n

i

i

1

  

1

)

(

1

2

n

x

x

s

n

i

i

 

 

gdzie:  

n- liczba elementów w próbie, 

x

i

 – wartość i-tego elementu z próby 

background image

 

 

Graficzna prezentacja

Wykres ramka-wąsy:

 Średnia 
 Średnia±Błąd std 
 Średnia±1,96*Błąd std 

76

77

78

79

80

81

82

83

84

85

W

A

G

A

 (

k

g

)

background image

 

 

Błąd standardowy SE=

n

S

Rozstęp = wartość największa-wartość 
najmniejsza
Mediana Me=wartość środkowa w 
posortowanych danych
Modalna – wartość najczęściej 
występująca
Są to miary położenia i rozproszenia 
(zmienności)
Zadanie: s=4; SE=?
125,134,146,134,130
Me=?            Modalna=?

background image

 

 

Przedział ufności dla średniej 

w populacji

 - nieznana średnia w populacji, 

•  , s średnia i odchylenie standardowe 

obliczone z próby dla cechy X, mającej 
rozkład normalny, to 

• P(     -1,96s

 <     +1,96s)=0,95  

• Przykład        =175; s=10, to 
• P(155,4< 

 < 194,6)=0,95

background image

 

 

ANALIZA 

WSPÓŁZALEŻNOŚCI

Analiza  struktury  zjawisk  dotyczyła jednej 

cechy. W praktyce jednak bywa tak, że 
badane      jednostki  statystyczne   
charakteryzowane   są przez  kilka  cech.  
Cechy  te  nie  są  od siebie odizolowane,   
mają   na   siebie   wpływ   oraz posiadają  
wzajemne uwarunkowania. Dlatego często   
     zachodzi        potrzeba        badania 
współzależności   między   tymi   cechami.

   

     

        

background image

 

 

Kowariancja  jest średnią arytmetyczną 

iloczynu odchyleń  zmiennych   X  i  Y   

od   ich   średnich arytmetycznych: 

        

        Rozpatrując      kowariancję      uzyskać    

  można następujące   informacje   o   

istniejącym   związku pomiędzy  

zmiennymi  X  i  Y:

1. Jeżeli cov(x,y)>0 – dodatnia korelacja
2. Jeżeli cov(x,y)<0 – ujmena korelacja
3. Jeżeli cov(x,y)=0 – brak korelacji

 

n

i

i

i

y

y

x

x

n

y

x

1

1

,

cov

background image

 

 

Przeprowadzając   analizę   można   spotkać   

dwa rodzaje współzależności zmiennych:

1. Współzależność  funkcyjną,   polegającą   

na   tym, że   zmiana    wartości    jednej   

zmiennej   pociąga określoną  zmianę  

wartości  drugiej  zmiennej. 

2. Współzależność  stochastyczną  

(probabilistyczną), polegającą  na  tym,  

że   wraz   ze   zmianą   jednej zmiennej 

zmienia się rozkład prawdopodobieństwa 

drugiej    zmiennej.     Szczególnym    

przypadkiem zależności       

stochastycznej       jest       zależność 

korelacyjna.   

background image

 

 

Zależności korelacyjne zachodzą 

wówczas, gdy określonym wartościom 
jednej  zmiennej odpowiadają      ściśle 
     określone    średnie wartości   
drugiej   zmiennej. 

        Zdarzają   się  jednak  sytuacje,  w  

których nie    istnieje     
współzależność     (korelacja) ale   ma   
miejsce   zbieżność   występowania 
zjawisk.  Taką  zbieżność określa się 
mianem korelacji pozornej. 

background image

 

 

Najczęściej     spotykanymi     metodami 

wykrywania  związków  korelacyjnych są:

Metoda        porównywania        

przebiegu szeregów     statystycznych.

Metoda     graficzna.

 

 

 

 

          y

 

 

 

 

 

 

 

 

 

                                                                                         

             0                                                                   x

i

    

 

 

 

 

          y

 

 

 

 

 

 

 

 

 

                                                                                         

             0                                                                   x

i

    

background image

 

 

Związek ujemny (wzrost wartościchy X indukuje obniżanie 

wartości cechy Y)

X

Y

X

Y

X

Y

X

Y

Związek dodatni

Brak związku

background image

 

 

Cechę    dwuwymiarową    oznacza     się    jako 

uporządkowaną       parę     (X,Y).      Składowymi 
mogą       być       zarówno      cechy      ilościowe    
 jak  i  jakościowe.  To  od  tego, z jakimi cechami 
mamy    do   czynienia   zależy   wybór    sposobu 
opisu   współzależności. 

        Podstawą    analizy   jest  zbiorowość  

jednostek        scharakteryzowanych      parą   
własności                 ,

   gdzie i=1,2,...,n. 
        Badając  zbiorowość  jednostek  pod  względem 

 

wyróżnionych cech otrzymuje się ciąg par  wartości:

 

 

.

,

,...,

,

,

,

2

2

1

1

n

n

y

x

y

x

y

x

i

i

y

,

background image

 

 

Tabele wielodzielcze (kontyngencji). 

• Pierwszym krokiem jest przedstawienie zebranych danych 

indywidualnych w postaci tabeli wielodzielczej (kontyngencji). 

Wymaga to zliczenia jednostek w odpowiednich komórkach 

tabeli z danymi. Zliczanie to bez użycia komputera jest 

żmudne, zwłaszcza dla dużej liczby przypadków. 

• Tabele wielodzielcze stanowią podstawę do obliczania 

pozostałych statystyk określających siłę związku. Tabela 

wielodzielcza przedstawia rozkład obserwacji ze względu na 

kilka cech jednocześnie. 

Załóżmy, że dysponujemy n obserwacjami dla jakościowej cechy 

X (posiadającej kategorie X1, X2, ... Xk) i jakościowej cechy Y 

(o kategoriach Y1, Y2, ...Yp) (tab. 1). 

Liczebności nij określają liczbę elementów próby, dla których 

cecha X ma wariant Xi i jednocześnie cecha Y - wariant Yj. 

Tablica wielodzielcza pokazuje więc określony łączny rozkład 

obu cech. Liczebności w ostatnim wierszu i w ostatniej 

kolumnie nazywamy empirycznymi brzegowymi rozkładami, 

odpowiednio cechy Y i cechy X. 

Na przykład, chcąc ocenić wpływ używek (papieros, kawa, 

alkohol) na pewną chorobę, zebraliśmy dane na temat ich 

używania w grupie 90-osobowej. Zastosowano podział na 4 

kategorie: nigdy (tzn. nie używano nigdy), niewiele (używano w 

małych ilościach), średnio (używano w średnich ilościach) i 

dużo (używano w dużych ilościach). 

background image

 

 

Tabele wielodzielcze

• Tabele wielodzielcze
•   W wielu badaniach medycznych 

gromadzimy dane będące 

liczebnościami. Na przykład możemy 

klasyfikować chorych w badanej próbie 

do różnych kategorii pod względem 

wieku, płci czy natężenia choroby. 

Przedstawiane do tej pory w naszym 

cyklu metody statystyczne stają się 

bezużyteczne dla danych tego typu, 

zwanych danymi jakościowymi. 

background image

 

 

Tabele wielodzielcze stanowią podstawę do 

obliczania pozostałych statystyk 

określających siłę związku.

 

gdzie E - oczekiwana liczebność komórki oraz   O 
lub nij - obserwowana liczebność komórki 

background image

 

 

MIARY 

WSPÓŁZALEŻNOŚCI

Do badania zależności między zmiennymi  

X i Y wykorzystuje     się     najczęściej    
współczynnik korelacji  liniowej  
Pearsona,  będący  miarą   siły związku  
    prostoliniowego     między     dwiema 
cechami mierzalnymi. Współczynnik ten 
wylicza się ze wzoru:

 

     gdzie:
     cov(x,y) - kowariancja zmiennych X i Y

   

y

s

x

s

y

x

r

xy

,

cov

background image

 

 

Kowariancja  jest średnią 

arytmetyczną iloczynu odchyleń  
zmiennych   X  i  Y   od   ich   
średnich arytmetycznych: 

 

 

n

i

i

i

y

y

x

x

n

y

x

1

1

,

cov

Rozpatrując      kowariancję      uzyskać   

   można następujące   informacje   o   
istniejącym   związku pomiędzy  
zmiennymi  X  i  Y:

Jeżeli cov(x,y)>0 – dodatnia korelacja
Jeżeli cov(x,y)<0 – ujmena korelacja
Jeżeli cov(x,y)=0 – brak korelacji

background image

 

 

Kowariancji        nie         można          

stosować     do   bezpośrednich   
porównań.   Dlatego jest ona 
standaryzowana  przez  odchylenia  
standardowe, dzięki    czemu    otrzymuje 
   się    współczynnik korelacji  liniowej  
Pearsona.

        Właściwości współczynnika korelacji:
1.

Przyjmuje wartości z przedziału <-1;1>

2.

Dodatni znak świadczy o  dodatnim,  zaś  
ujemny o ujemnym związku korelacyjnym

3.

Im                      tym        związek       
korelacyjny   jest     silniejszy.

background image

 

 

Sposoby komentowania 

współczynnika korelacji

:

a)

                      -    współzależność    nie   występuje,

b)                       -    słaby   stopień    współzależności,
c)

                      -    umiarkowany     (średni)    stopień             

współzależności,

d)                        -    znaczny  stopień współzależności,
e)

                       -    wysoki  stopień  współzależności,

f)

                       -    bardzo           wysoki          stopień            

                                      

współzależności,

g)                        -   całkowita (ścisła) współzależność 
                                    (zależność    funkcyjna   pomiędzy
                                     badanymi  cechami).

0

XY

r

3

,

0

0

XY

r

5

,

0

3

,

0

XY

r

7

,

0

5

,

0

XY

r

9

,

0

7

,

0

XY

r

1

9

,

0

XY

r

1

XY

r

background image

 

 

• Współczynnik korelacji liniowej Pearsona 

(dalej nazywany po prostu współczynnikiem 

korelacji), wymaga, aby zmienne były 

ciągłe. Określa on stopień proporcjonalnych 

powiązań wartości dwóch zmiennych. 

Wartość korelacji (współczynnik korelacji) 

nie zależy od jednostek miary, w jakich 

wyrażamy badane zmienne, np. korelacja 

pomiędzy wzrostem i ciężarem będzie taka 

sama bez względu na to, w jakich 

jednostkach (cale i funty czy centymetry i 

kilogramy) wyrazimy badane wielkości. 

Określenie "proporcjonalne" znaczy zależne 

liniowo, to znaczy, że korelacja jest silna, 

jeśli może być opisana przy pomocy linii 

prostej (nachylonej do góry lub na dół).

background image

 

 

Analizę  współzależności   należy   

uzupełnić o      współczynnik      
determinacji,      będący kwadratem  
współczynnika  korelacji  liniowej 
Pearsona (      ).

        Współczynnik  determinacji  

informuje,  jaka część  zmiennej  
objaśnianej  jest   wyjaśniona przez 
zmienną objaśniającą. Przy pomocy 
tego współczynnika   można   
wnioskować,  czy  na zmienną  
objaśniającą  wpływają również inne 
czynniki, nie podlegające badaniu. 

2

xy

r

background image

 

 

Prosta regresji: y=ax+b, 

gdzie 

a = cov(x,y)/

S;  b=     - a

• Linia, o której mowa, nazywa się linią regresji 

albo linią szacowaną metodą najmniejszych 
kwadratów, ponieważ jej parametry określane są 
w ten sposób, by suma kwadratów odchyleń 
punktów pomiarowych od tej linii była 
minimalna. Zwróćmy uwagę, że fakt podnoszenia 
odległości do kwadratu powoduje, iż 
współczynnik korelacji reaguje na sposób 
rozmieszczenia danych (jak to zobaczymy w 
dalszej części opisu).

•   

x

y

yy

background image

 

 

W   sytuacji,   gdy   obserwacje   

statystyczne dotyczące   badanych   
zmiennych   są   liczne, bazowanie   na   
wartościach    szczegółowych może  być  
uciążliwe.   W   celu   zapewnienia 
przejrzystości zebranych danych 
sporządza się wówczas tablicę korelacyjną.

         Na   skrzyżowaniu   kolumn    z    

wierszami wpisuje się liczebności 
jednostek  zbiorowości statystycznej,     u    
których    zaobserwowano jednoczesne      
występowanie       określonych wartości      
 i      .

i

x

i

x

i

y

background image

 

 

Schemat tablicy 

korelacyjnej:

 x

i

             y

y

1

 

y

2

 

... 

y

t

 

i

t

i

ij

n

1

 

x

1

 

x



x

n

11

 

n

21

 



n

k1

 

n

12

 

n

22

 



n

k2

 






n

1t

 

n

2t

 



n

kt

 

n

n

2

 



n

k

 

j

k

i

ij

n

1

 

n

.1 

n

.2

 

… 

n

.t

 

background image

 

 

Przykład tabeli korelacyjnej. 

Wykształcenie badanych osób 

przebywających w Domach Pomocy 

Społecznej  z uwzględnieniem płci

Wykształcenie

Płeć

Żeńska

Męska

                           

Liczba
podstawowe           
    %

53

86,9%

16

43,2%

                           
Liczba
zawodowe              

    %

2

3,3 %

14

37,8 %

                           
Liczba
średnie                  
%

6

9,8 %

5

13,5 %

                           
Liczba

wyższe                    
   %

0

0,0 %

2

5,4 %

                           
Liczba
Razem                    

    %

61

100,0 %

37

100,0 %

background image

 

 

W  tablicy  korelacyjnej  zawarte są 

rozkłady brzegowe  i  warunkowe.   
Rozkład  brzegowy (por.     ostatnia    
kolumna    określa    rozkład brzegowy  
cechy  X,  ostatni   wiersz – rozkład 
brzegowy   cechy   Y)    prezentuje    
strukturę wartości   jednej   zmiennej   (X   
lub   Y)    bez względu  na kształtowanie 
się wartości drugiej zmiennej. 

        Rozkłady  brzegowe  i warunkowe 

mogą być scharakteryzowane   pewnymi   
sumarycznymi wielkościami    (najczęściej  
  są    to    średnie arytmetyczne)

background image

 

 

Średnie     arytmetyczne     z      

rozkładów brzegowych     wyznacza     
się    ze   wzorów:

            Średnie     arytmetyczne     z      

rozkładów warunkowych     oblicza      
się     następująco:    

i

k

i

i

n

x

n

x

1

1

j

t

i

j

n

y

n

y

1

1

ij

k

i

i

j

j

n

x

n

x

1

.

1

ij

t

i

j

i

i

n

y

n

y

1

.

1

background image

 

 

W    sytuacji,     gdy    wraz    ze     

wzrostem (spadkiem) wartości jednej 
zmiennej następuje wzrost     (spadek)  
   warunkowych    średnich drugiej 
zmiennej,  wówczas można  stwierdzić 
istnienie       korelacji       dodatniej      
między zmiennymi.    W   sytuacji,   
kiedy   występuje przeciwny   kierunek 
  zmian,   można   mówić o  korelacji  
ujemnej. 

background image

 

 

Jeżeli  różnice  pomiędzy  

średnimi  są   takie same, tzn.:

     wówczas   związek   między   

zmiennymi   jest liniowy. 

1

2

3

1

2

...

t

t

x

x

x

x

x

x

1

2

3

1

2

...

k

k

y

y

y

y

y

y

background image

 

 

Innym  miernikiem korelacyjnego związku cech 

jest   współczynnik   korelacji   rang   
Spearmana. Współczynnik    ten    stosowany    
jest    głównie     do badania współzależności 
cech niemierzalnych, bądź cechy mierzalnej i 
niemierzalnej.  Może być on   również   
stosowany   w    badaniu    związku 
korelacyjnego  pomiędzy  cechami   
mierzalnymi (szczególnie w przypadku małej 
próby). 

         Konstrukcja    współczynnika    korelacji    

rang opiera  się  na  zgodności  pozycji,  którą 
zajmuje każda    z    odpowiadających    sobie    
 wielkości     we    wzrastającym    lub     
malejącym     szeregu wartości   cechy.

background image

 

 

Współczynnik   korelacji   rang  Spearmana  

(Q)      wylicza się w oparciu o wyznaczone 
różnice rang (    ) oraz liczby par 
obserwacji (n):

przy czym:

gdzie:
             - rangi zmiennej X oraz Y (i=1,2,...n)

n

n

d

Q

n

i

i

3

1

2

6

1

i

i

y

x

i

v

v

d

i

i

y

x

v

,

background image

 

 

gdy

        Współczynnik    korelacji    rang    

przyjmuje wartości    z    przedziału    
                ,  a   jego interpretacja        
   jest        analogiczna       do 
współczynnika    korelacji    Pearsona

1

Q

0

1

2

n

i

i

d

1

1

Q

background image

 

 

Przykład. W celu zbadania, czy istnieje związek 
między zdyscyplinowaniem pacjentów względem 
zaleceń personelu medycznego a wynikami 
terapii na pewną dolegliwość poddano 
obserwacji 10 pacjentów. Otrzymano 
następujące wyniki obserwacji zestawione w 
tabeli

:

Pacjent

Ranga 

zdyscyply-

-nowanie

Ranga

terapii

Różnica 

rang (d)

Kwadrat 

różnicy 

rang (d

2

)

1
2
3
4
5
6
7
8
9

10

6
2
5
1

10

4
9
3
8
7

4
1
5
3

10

7
6
2
9
8

2
1
0

-2

0

-3

3
1

-1
-1

4
1
0
4
0
9
9
1
1
1

Razem

0

30

background image

 

 

WSPÓŁCZYNNIK 

KORELACJI RANG 

SPEARMANA

• Współczynnik korelacji rang 

Spearmana służy do opisu siły 

korelacji dwóch cech w  przypadku, 

gdy:

•  -  cechy są mierzalne, a badana 

zbiorowość jest nieliczna,

•  - cechy mają charakter jakościowy i 

istnieje możliwość ich 

•     uporządkowania.


Document Outline