background image

 

 

Rozkład zmiennej losowej

• Prawdopodobieństwo
• Rozkład normalny
• Przedział ufności

PODSTAWY

 STATYSTYKI OPISOWEJ

Parametry 

opisowe 

zbiorowoś

ci 

statystycz

nej

charakterystyki 

liczbowe, dające 

sumaryczny i 

skrócony opis 

zbiorowości 

statystycznej.

background image

 

 

Jeżeli na n osób m jest liczbą kobiet, to możemy 
powiedzieć, że prawdopodobieństwo że x jest 
kobietą, co zapiszemy P(x=kobieta)  wynosi 
m/n;  0<=P<=1

Rozkład normalny 
W statystyce istnieje wiele rozkładów 

teoretycznych. Najczęściej 
występującym to rozkład normalny:

P(-<x<)=1

 

background image

 

 

Rozkład normalny określony przez 
funkcję gęstości:

2

2

2

)

(

2

1

)

(

x

e

x

f

gdzie:
e, 
 - stałe matematyczne
 - średnia w populacji;
 - odchylenie standardowe w populacji

Zmienna losowa ma rozkład normalny o 
parametrach 

co piszemy N(

)

Parametr 

 wyznacza środek symetrii 

wykresu, a parametr 

 decyduje o jego 

wysokości

background image

 

 

Reguła 3 sigm

)

(x

f

f(x)

0,0

0,1

0,2

0,3

0,4

0,5

-3

-2

-1

0

1

2

3

x

Wykres funkcji gęstości rozkładu normalnego dla =0 

=1

Jeżeli zmienna losowa X ma rozkład normalny N(

,σ) to:

P(

 - σ<x< 

 + σ) =0, 6827 - 68,27 % wyników jest w przedziale (

 -σ, 

 + σ)

P(

 -2σ<x< 

 +2σ) =0, 9545 - 95,45 % wyników jest w przedziale (

 -2σ, 

 +2σ)

P(

 - 3σ<x< 

 + 3σ) =0, 9973 - 99,73 % wyników jest w przedziale (

 -3σ, 

 + 3σ)

background image

 

 

Estymatory punktowe 

średniej 

szereg 
szczegółowy

n

i

i

x

n

x

1

1

szereg rozdzielczy punktowy

k

i

i

i

n

x

n

x

1

1

szereg rozdzielczy 

przedziałach 

klasowych

k

i

i

i

n

x

n

x

1

1

background image

 

 

 

Zmierzono wzrost 100 siedmioletnich dzieci. 
Obliczona średnia 
x=35 cm i odchylenie standardowe 

s=5 cm.  
Przy założeniu że cecha ta ma rozkład  normalny i 
korzystając z prawa „trzech sigm” można wyliczyć 
odpowiednie przedziały:

P(35-5<x< 35+5) =0, 6827  68,27 % wyników jest w 

przedziale (30, 40),
P(35-10<x< 35+10) =0, 9545  95,45 % wyników jest w 

przedziale (25, 45),
P(35-15<x< 35+15)
 =0, 9973  99,73 % wyników jest w 

przedziale (20, 50).

Wiele metod statystycznych stosowanych do analizy 
danych wymaga założeń normalności rozkładu badanej 
cechy.

 

Przykład

background image

 

 

ZADANIA PARAMETRÓW 

OPISOWYCH

Określenie:
• przeciętnego poziomu zmiennych opisujących 

analizowane cechy statystyczne przez wybór 

pojedynczej wartości, tj. miary przeciętnej 

(położenia), reprezentującej wszystkie 

wartości szeregu,

• zmienności (dyspersji, rozproszenia) wartości 

zmiennych w obserwowanej zbiorowości,

• miary asymetrii tj. w jakim stopniu badany 

szereg odbiega od idealnej symetrii,

• miary koncentracji tj. stopnia skupienia 

poszczególnych jednostek wokół średniej.

background image

 

 

PODSTAWOWE RÓŻNICE 

MIĘDZY ZBIOROWOŚCIAMI

• Rozkłady mogą się różnić:
• położeniem, tzn. wartością zmiennej, 

w pobliżu której skupiają się obserwacje,

• obserwacje mogą się skupiać wokół tej 

samej wartości, lecz różnić obszarem 
zmienności, 

• rozkłady mogą różnić się jednocześnie 

co do obu tych charakterystyk 
liczbowych.

background image

 

 

KLASYFIKACJA MIAR 

ŚREDNICH

ś re d n ia  a ry tm e ty c z n a

ś re d n ia  h a rm o n ic z n a

ś re d n ia  g e o m e try c z n a

ś re d n ia  k w a d ra to w a

k la s y c z n e

d o m in a n ta , m o d a ln a

k w a rty le  z  m e d ia n ą

k w in ty le

d e c y le

c e n tyle

k w a n ty le

p o z yc y jn e

m ia ry  ś re d n ie

background image

 

 

     xi - wartości zmiennej, i-ty wariant badanej 

cechy,

ni - liczebność grup reprezentujących i-ty 

przedział klasowy

 (tzw. wagi),

n - liczba jednostek objętych badaniem

k - liczba wyróżnionych wariantów badanej 

cechy statystycznej,

liczba przedziałów klasowych,

       - środek przedziału klasowego.

OZNACZENIA W OBLICZENIACH ŚREDNIEJ 

ARYTMETYCZNEJ

k

i

i

n

n

1

i

x

background image

 

 

Weryfikacja i testy statystyczne

• H0: hipoteza zerowa (1= 2) 

•  H1: hipoteza alternatywna (1 2,) 

• W oparciu o wynik obliczonego testu z 

danych z próby możemy H0: odrzucić lub 

nie. 

• Nie wiemy czy H0: zachodzi w populacji.

• Zatem można popełnić:

•  błąd I rodzaju jeśli odrzucimy H0 jeśli 

jest prawdziwa w populacji

• błąd II rodzaju jeśli nie odrzucimy H0 

wtedy kiedy jest ona fałszywa w populacji

• W naukach medycznych przyjmujemy 

poziom istotności  = 0,05

background image

 

 

Błędy przy wnioskowaniu

 

 = prawdopodobieństwo popełnienia 

błędu I rodzaju

 

= prawdopodobieństwo popełnienia błędu 

II rodzaju

                                      Populacja

H

0

 jest

 

prawdziw

a

H

0

 jest  fałszywa

Czyli prawdziwa 

jest 

H

1

Decyzj
a z 
wynikó

oblicze
ń 

próby

Przyjęcie 

H

0

1- 

Błąd II rodzaju

Odrzucenie 

H

0

Błąd I 

rodzaju

1- 

background image

 

 

Sformułować  hipotezę  zerową  H

o

  i  alternatywną 

H

1

 oraz dobrać odpowiedni test do weryfikacji

            Wykonać  obliczenia  i  wybrać  potrzebne 

wyniki,  przede  wszystkim  wartość  p  określającą 

prawdopodobieństwo 

popełnienia 

błędu 

odrzucenia  H

o

,  gdy  jest  prawdziwa  w  populacji 

(błąd I rodzaju).

      Przyjąć poziom istotności  , ale mniejszy niż 

lub równy 0,05.

      Podjąć decyzję o hipotezie zerowej H

o

  jeżeli  obliczona  wartość  p  ≤  ,  odrzucamy  H

o

  i 

przyjmujemy H

1

  jeżeli  obliczona  wartość  p  >  ,  to  brak  podstaw 

do odrzucenia H

o

.

• Wniosek w populacji z obliczeń w grupie

.

Schemat weryfikacji 

hipotez

background image

 

 

Test t-Studenta

Założenie:

 

Cecha X ma rozkład normalny w obu 

populacjach o jednorodnych wariancjach, czyli N(

1

) 

  

i

    

N(

2

)

  

leptokurtyczny

platokurtyczny

normalny

n

i

x

i

background image

 

 

Test t-Studenta dla dwóch średnich

• H0: 1= 2  hipoteza zerowa

•  H1: 1 2, hipoteza alternatywna

• Gdzie 

•                  dane, średnie i liczebności w próbach 

• W pakiecie statystycznym wyliczamy t i wartość p równą 

prawdopodobieństwu popełnienia błędu I rodzaju 

(odrzucenie prawdziwej H0 )

• Wartość p porównujemy z przyjętym poziomem istotności 

• Jeżeli p<  odrzucamy H0 i stwierdzamy istotną różnicę 

między średnimi

• Przykłady w STATISTICA

)

1

1

(

2

)

(

)

(

2

1

2

1

2

2

2

2

1

1

2

1

n

n

n

n

x

x

x

x

x

x

t

i

i

j

j

ij

n

x

x

,

,

background image

 

 

Przykład

H0: średni wzrost mężczyzn= średni 

wzrost kobiet w populacji

H0: średni wzrost mężczyzn średni 

wzrost kobiet w populacji

n Średnia Odch.std. n Średnia Odch.std.

WZROST (m) 65 1,72

0,05 81 1,67

0,05 6,25 0,000 1,22 0,40

Cecha

Równość średnich

jednorodność 

wariancji

Mężczyźni

Kobiety

t

p iloraz F p

background image

 

 

Analiza wariancji

 - 

kilka populacji

• Dodatkowym założeniem które powinno być 

spełnione to jednorodność wariancji. Należy 

więc zweryfikować hipotezę zerową Ho: 

21=. . . =2k kontra alternatywnej H1: 

wariancje są niejednorodne (test Levene’a)

• ANOVA

•         Hipoteza zerowa Ho: 1=. . . =

•         H1: średnie są różne pomiędzy sobą. 

• Jeżeli stwierdza się istotność różnic pomiędzy 

średnimi, to należy znaleźć pomiędzy którymi 

średnimi te różnice są istotne (test Scheffego) 

background image

 

 

Tablica z wynikami analizy 

wariancji

Ź

r

ó

d

ł

o

 

S

u

m

a

 

k

w

a

d

r

a

t

ó

w

 

S

t

o

p

n

i

e

 

s

w

o

b

o

d

y

 

Ś

r

e

d

n

i

a

 

k

w

a

d

r

a

t

ó

w

 

W

a

r

t

o

ś

ć

 

F

 

(

W

a

r

t

o

ś

ć

 

p

)

 

Z

m

i

e

n

n

o

ś

ć

 

m

i

ę

d

z

y

g

r

u

p

o

w

a

 

S

S

m

 

k

-

1

 

V

m

=

1

m

S

S

k

 

m

b

V

F

V

 

B

ł

ą

d

 

S

S

b

 

n

-

k

 

V

b

=

b

S

S

nk

 

 

 

G d z ie:  k  –  lic z b a  g r u p ;   n  –  lic z b a  w sz y stk ic h  o só b  z e  w sz y stk ic h  g r u p  

2

2

1

1

1

(

) ;

(

)

j

n

k

k

m

j

j

b

i j

j

j

j

i

S S

n

x

x

S S

x

x

 

 

x

ij

 w y n ik  c e c h y  u  i- tej o so b y  w  j- tej g r u p ie , n

j

 –  lic z b a  o só b  w  j- te j g r u p ie  

 x

j

 –  śr e d n ia  w  j - tej  g r u p ie ,  x  –  śr e d n ia  z  w sz y stk ic h  p o m ia r ó w  

Jeżeli wartość p <0,05 to są różnice między średnimi, należy 

znaleźć między którymi (test Scheffe’go) 

background image

 

 

Przykład ANOVA

n

x

s

chirurgia

21

39,1

2,8

interna

21

53,9

3,4

ginekologia

21

58,4

3,6

oddział

wiek

Test Levene'a

F

p

wiek

1,61

0,21

Źródło

SS Stopnie V

F

p

oddział

4265,4

2 2132,7 198,00 0,00

Błąd

646,3

60

10,8

Bieżący efekt: F(2, 60)=198,00, p=0,0000

Pionowe słupki oznaczają 0,95 przedziały ufności

chirurgia

interna

ginekologia

oddział

35

40

45

50

55

60

65

w

ie

k

background image

 

 

Regresja logistyczna

• W naukach medycznych mamy 

często sytuacje, gdy zmienna 
zależna jest typu 
dychotomicznego. Przykładowo 
może to być cecha występowanie 
choroby z poziomami: 1 - tak, 2 - 
nie   


Document Outline