Rozkład zmiennej losowej

• Prawdopodobieństwo
• Rozkład normalny
• Przedział ufności

PODSTAWY

STATYSTYKI OPISOWEJ

Parametry

opisowe

zbiorowoś

statystycz

nej

charakterystyki

liczbowe, dające

sumaryczny i

skrócony opis

zbiorowości

statystycznej.

Jeżeli na n osób m jest liczbą kobiet, to możemy
powiedzieć, że prawdopodobieństwo że x jest
kobietą, co zapiszemy P(x=kobieta) wynosi
m/n; 0<=P<=1

Rozkład normalny
W statystyce istnieje wiele rozkładów

teoretycznych. Najczęściej
występującym to rozkład normalny:

P(-<x<)=1

Rozkład normalny określony przez
funkcję gęstości:

)

(

)

(

















gdzie:
e,  - stałe matematyczne
 - średnia w populacji;
 - odchylenie standardowe w populacji

Zmienna losowa ma rozkład normalny o
parametrach





, co piszemy N(





Parametr



wyznacza środek symetrii

wykresu, a parametr



decyduje o jego

wysokości

Reguła 3 sigm



)

f(x)

0,0

0,1

0,2

0,3

0,4

0,5

-3

-2

-1

Wykres funkcji gęstości rozkładu normalnego dla =0

i =1

Jeżeli zmienna losowa X ma rozkład normalny N(



,σ) to:



- σ<x<



+ σ) =0, 6827 - 68,27 % wyników jest w przedziale (



-σ,



+ σ)



-2σ<x<



+2σ) =0, 9545 - 95,45 % wyników jest w przedziale (



-2σ,



+2σ)



- 3σ<x<



+ 3σ) =0, 9973 - 99,73 % wyników jest w przedziale (



-3σ,



+ 3σ)

Estymatory punktowe

średniej



szereg
szczegółowy





szereg rozdzielczy punktowy





szereg rozdzielczy

przedziałach

klasowych







Zmierzono wzrost 100 siedmioletnich dzieci.
Obliczona średnia x=35 cm i odchylenie standardowe

s=5 cm.
Przy założeniu że cecha ta ma rozkład normalny i
korzystając z prawa „trzech sigm” można wyliczyć
odpowiednie przedziały:

P(35-5<x< 35+5) =0, 6827  68,27 % wyników jest w

przedziale (30, 40),
P(35-10<x< 35+10) =0, 9545  95,45 % wyników jest w

przedziale (25, 45),
P(35-15<x< 35+15) =0, 9973  99,73 % wyników jest w

przedziale (20, 50).

Wiele metod statystycznych stosowanych do analizy
danych wymaga założeń normalności rozkładu badanej
cechy.

Przykład

ZADANIA PARAMETRÓW

OPISOWYCH

Określenie:
• przeciętnego poziomu zmiennych opisujących

analizowane cechy statystyczne przez wybór

pojedynczej wartości, tj. miary przeciętnej

(położenia), reprezentującej wszystkie

wartości szeregu,

• zmienności (dyspersji, rozproszenia) wartości

zmiennych w obserwowanej zbiorowości,

• miary asymetrii tj. w jakim stopniu badany

szereg odbiega od idealnej symetrii,

• miary koncentracji tj. stopnia skupienia

poszczególnych jednostek wokół średniej.

PODSTAWOWE RÓŻNICE

MIĘDZY ZBIOROWOŚCIAMI

• Rozkłady mogą się różnić:
• położeniem, tzn. wartością zmiennej,

w pobliżu której skupiają się obserwacje,

• obserwacje mogą się skupiać wokół tej

samej wartości, lecz różnić obszarem
zmienności,

• rozkłady mogą różnić się jednocześnie

co do obu tych charakterystyk
liczbowych.

KLASYFIKACJA MIAR

ŚREDNICH

ś re d n ia a ry tm e ty c z n a

ś re d n ia h a rm o n ic z n a

ś re d n ia g e o m e try c z n a

ś re d n ia k w a d ra to w a

k la s y c z n e

d o m in a n ta , m o d a ln a

k w a rty le z m e d ia n ą

k w in ty le

d e c y le

c e n tyle

k w a n ty le

p o z yc y jn e

m ia ry ś re d n ie

•

xi - wartości zmiennej, i-ty wariant badanej

cechy,

•

ni - liczebność grup reprezentujących i-ty

przedział klasowy

•

(tzw. wagi),

•

n - liczba jednostek objętych badaniem

•

k - liczba wyróżnionych wariantów badanej

cechy statystycznej,

•

liczba przedziałów klasowych,

•

- środek przedziału klasowego.

OZNACZENIA W OBLICZENIACH ŚREDNIEJ

ARYTMETYCZNEJ







Weryfikacja i testy statystyczne

• H0: hipoteza zerowa (1= 2)

• H1: hipoteza alternatywna (1 2,)

• W oparciu o wynik obliczonego testu z

danych z próby możemy H0: odrzucić lub

nie.

• Nie wiemy czy H0: zachodzi w populacji.

• Zatem można popełnić:

• błąd I rodzaju jeśli odrzucimy H0 jeśli

jest prawdziwa w populacji

• błąd II rodzaju jeśli nie odrzucimy H0

wtedy kiedy jest ona fałszywa w populacji

• W naukach medycznych przyjmujemy

poziom istotności  = 0,05

Błędy przy wnioskowaniu

 = prawdopodobieństwo popełnienia

błędu I rodzaju

= prawdopodobieństwo popełnienia błędu

II rodzaju

Populacja

jest

prawdziw

jest fałszywa

Czyli prawdziwa

jest

Decyzj
a z
wynikó
w
oblicze
ń

próby

Przyjęcie

1- 

Błąd II rodzaju



Odrzucenie

Błąd I

rodzaju



1- 

Sformułować hipotezę zerową H

i alternatywną

oraz dobrać odpowiedni test do weryfikacji

Wykonać obliczenia i wybrać potrzebne

wyniki, przede wszystkim wartość p określającą

prawdopodobieństwo

popełnienia

błędu

odrzucenia H

, gdy jest prawdziwa w populacji

(błąd I rodzaju).

Przyjąć poziom istotności , ale mniejszy niż

lub równy 0,05.

Podjąć decyzję o hipotezie zerowej H

jeżeli obliczona wartość p ≤ , odrzucamy H

przyjmujemy H

jeżeli obliczona wartość p > , to brak podstaw

do odrzucenia H

• Wniosek w populacji z obliczeń w grupie

Schemat weryfikacji

hipotez

Test t-Studenta

Założenie:

Cecha X ma rozkład normalny w obu

populacjach o jednorodnych wariancjach, czyli N(



)



)

leptokurtyczny

platokurtyczny

normalny

Test t-Studenta dla dwóch średnich

• H0: 1= 2 hipoteza zerowa

• H1: 1 2, hipoteza alternatywna

• Gdzie

• dane, średnie i liczebności w próbach

• W pakiecie statystycznym wyliczamy t i wartość p równą

prawdopodobieństwu popełnienia błędu I rodzaju

(odrzucenie prawdziwej H0 )

• Wartość p porównujemy z przyjętym poziomem istotności 

• Jeżeli p<  odrzucamy H0 i stwierdzamy istotną różnicę

między średnimi

• Przykłady w STATISTICA

)

(

)

(

)

(

















Przykład

H0: średni wzrost mężczyzn= średni

wzrost kobiet w populacji

H0: średni wzrost mężczyzn średni

wzrost kobiet w populacji

n Średnia Odch.std. n Średnia Odch.std.

WZROST (m) 65 1,72

0,05 81 1,67

0,05 6,25 0,000 1,22 0,40

Cecha

Równość średnich

jednorodność

wariancji

Mężczyźni

Kobiety

p iloraz F p

Analiza wariancji

kilka populacji

• Dodatkowym założeniem które powinno być

spełnione to jednorodność wariancji. Należy

więc zweryfikować hipotezę zerową Ho:

21=. . . =2k kontra alternatywnej H1:

wariancje są niejednorodne (test Levene’a)

• ANOVA

• Hipoteza zerowa Ho: 1=. . . =k

• H1: średnie są różne pomiędzy sobą.

• Jeżeli stwierdza się istotność różnic pomiędzy

średnimi, to należy znaleźć pomiędzy którymi

średnimi te różnice są istotne (test Scheffego)

Tablica z wynikami analizy

wariancji

(

)







G d z ie: k – lic z b a g r u p ; n – lic z b a w sz y stk ic h o só b z e w sz y stk ic h g r u p

(

) ;

(

)

i j

S S











 

w y n ik c e c h y u i- tej o so b y w j- tej g r u p ie , n

– lic z b a o só b w j- te j g r u p ie

 x

– śr e d n ia w j - tej g r u p ie ,  x – śr e d n ia z w sz y stk ic h p o m ia r ó w

Jeżeli wartość p <0,05 to są różnice między średnimi, należy

znaleźć między którymi (test Scheffe’go)

Przykład ANOVA



chirurgia

39,1

2,8

interna

53,9

3,4

ginekologia

58,4

3,6

oddział

wiek

Test Levene'a

wiek

1,61

0,21

Źródło

SS Stopnie V

oddział

4265,4

2 2132,7 198,00 0,00

Błąd

646,3

10,8

Bieżący efekt: F(2, 60)=198,00, p=0,0000

Pionowe słupki oznaczają 0,95 przedziały ufności

chirurgia

interna

ginekologia

oddział

Regresja logistyczna

• W naukach medycznych mamy

często sytuacje, gdy zmienna
zależna jest typu
dychotomicznego. Przykładowo
może to być cecha występowanie
choroby z poziomami: 1 - tak, 2 -
nie

Document Outline