background image

Podstawy statystyki

Dr Janusz 

Górczyński

background image

 

2

Literatura

J. Jóźwiak, J.Podgórski, Statystyka od 

podstaw, PWE, Warszawa 1997

K. Zając, Zarys metod 

statystycznych, PWE, Warszawa, 

1994

J. Górczyński, Podstawy statystyki

Wyd. II. WSZiM Sochaczew, 2000

J. Górczyński, Wybrane wzory i 

tablice statystyczne, Wyd. II. WSZiM 

Sochaczew, 2000

background image

 

3

Czym zajmuje się 
statystyka?

Odpowiadając na to pytanie rozważmy 
taką sytuację: interesuje nas poznanie 
takiej cechy jak np. zużycie paliwa na 
100 km przez samochody pewnej 
firmy (i modelu).

Szukając odpowiedzi na to pytanie 
można by ograniczyć się do spytania 
znajomego właściciela takiego pojazdu 
o to, ile jego pojazd zużywa paliwa.

background image

 

4

Czym zajmuje się statystyka ? 
(2)

Powiedzmy, że odpowiedź brzmi: 

6,8 l/100 km.

Natychmiast pojawiają się 

wątpliwości co do sposobu 

traktowania tej odpowiedzi.

Czy to oznacza, że WSZYSTKIE 

samochody mają takie zużycie?

Czy to oznacza, że ŚREDNIE 

zużycie jest takie?

background image

 

5

Czym zajmuje się statystyka ? 
(3)

Czy nasz znajomy jest DOBRYM 

reprezentantem ogółu właścicieli 

tego modelu?

A może jeździ zbyt ostro?

A może zbyt delikatnie?

A może trzeba uzyskać odpowiedzi 

od większej liczby kierowców?

Jeżeli tak, to od ilu? I jak ich wybrać?

background image

 

6

Czym zajmuje się statystyka ? 
(4)

Powiedzmy, że uzyskaliśmy 
odpowiedzi od 9 użytkowników 
badanego modelu.

Niech to będą takie dane:
6,2  6,7  6,5  6,9  7,2  7,2  7,1  7,3  7,2

Co TERAZ możemy powiedzieć o 
zużycia paliwa?

Najmniejsze zużycie to 6,2 l/100 km, a 
największe to 7,3 l/100 km.

background image

 

7

Czym zajmuje się statystyka ? 
(5)

A jak można teraz określić 
PRZECIĘTNE zużycie paliwa?

Jedna z możliwości to ŚREDNIA 
ARYTMETYCZNA, w tym przykładzie 
równa 6,92 l/100 km.

Pytanie kolejne: czy ta średnia odnosi 
się tylko do tych 9 pomiarów, czy też 
może być odniesiona do ogółu 
użytkowników badanego modelu?

background image

 

8

Czym zajmuje się statystyka ? 
(6)

Odpowiedzi na te i wiele innych pytań 

udziela STATYSTYKA, która zajmuje się 

badaniem zjawisk masowych.

Analiza zjawisk masowych pozwala na 

poznanie natury zjawiska (cechy) i 

praw nim rządzących.

Zastosowanie statystyki do naszego 

przykładu pozwoli na uogólnienie 

wniosków na wszystkich użytkowników 

badanego modelu samochodu. 

background image

 

9

Badanie statystyczne

Celem badania statystycznego będzie 

najczęściej poznanie rozkładu danej 

cechy i oszacowanie charakterystyk 

tego rozkładu.

Jeżeli zmienna losowa X jest modelem 

probalistycznym dla pewnej cechy w 

populacji generalnej, to rozkład 

często-ści występowania tej cechy 

jest opisany rozkładem 

prawdopodobieństwa zmiennej 

modelowej.

background image

 

10

Statystyka a rachunek 
prawdopodobieństwa

Statystyka korzysta z rachunku 
prawdopodobieństwa – działu 
matematyki zajmującego się 
badaniem zdarzeń przypadkowych 
(losowych).

Tym samym będziemy korzystać z 
elementarnych pojęć rachunku 
prawdopodobieństwa.

background image

 

11

Elelementy 
prawdopodobieństwa (1)

Zdarzenie losowe – takie, którego 
wyniku nie jesteśmy w stanie 
przewidzieć.

Przykładowo: wynik rzutu monetą, 
suma oczek przy rzucie dwoma 
kostkami sześciennymi.

Zdarzenie elementarne – każda 
możliwa sytuacja w danym 
zagadnieniu (eksperymencie).

background image

 

12

Elelementy 
prawdopodobieństwa (2)

Przykładem zdarzenia elementarnego 
przy rzucie dwoma kostkami do gry jest 
para liczb odpowiadających liczbie oczek 
na każdej z kostek (1,1), (1,2)...(6,6).

Zbiór wszystkich możliwych zdarzeń 
elementarnych oznaczamy symbolem .

Zbiór  może być skończony lub nie 

(może zawierać nieskończenie wiele 
zdarzeń elementarnych).

background image

 

13

Elementy prawdopodobieństwa 
(3)

Zdarzenie losowe – jest to dowolny pod-

zbiór zbioru zdarzeń elementarnych .

Rozpatrzmy rzut 3 monetami. 

Zdarzeniem losowym (powiedzmy) A 

może być wyrzucenie 2 reszek.

Prawdopodobieństwo zajścia zdarzenia 

losowego – jest to szansa zajścia tego 

zdarzenia.

Prawdopodobieństwo jest liczbą z 

przedziału domkniętego <0; 1>

background image

 

14

Obliczanie prawdopodobieństw 
(1)

Przy obliczaniu prawdopodobieństwa zajścia 
dowolnego zdarzenia losowego A można 
korzystać z tzw. klasycznej definicji Laplace’a:

n

k

A

P

)

(

gdzie k jest  liczbą zdarzeń 
elementarnych tworzących zdarzenie 
A, a n liczbą wszyst-kich zdarzeń 
elementarnych w zbiorze .

background image

 

15

Obliczanie prawdopodobieństw 
(2)

Z podanego wzoru można 
oczywiście korzystać tylko wtedy, 
gdy zbiory zdarzeń elementarnych i 
zdarzeń tworzących zdarzenie 
losowe A są skończone (policzalne).

Z podanego wzoru wynika, że P(A) 
może być równe 0 (dla k=0).

Z podanego wzoru wynika, że P(A) 
może być równe 1 (dla k=n).

background image

 

16

Obliczanie prawdopodobieństw 
(3)

O zdarzeniu losowym A, którego 

P(A)=0 mówimy, że jest to zdarzenie 

niemożliwe.

O zdarzeniu losowym A, którego 

P(A)=1 mówimy, że jest to zdarzenie 

pewne.

Zdarzenie A’ nazywamy zdarzeniem 

przeciwnym do zdarzenia A.

Suma zdarzeń A i A’ tworzy 

zdarzenie pewne.

background image

 

17

Obliczanie prawdopodobieństw 
(4)

Dla prawdopodobieństw zdarzeń A 
i A’ zachodzi relacja:

P(A)+P(A’)=1

a stąd P(A’)=1-P(A)

Relację powyższą wykorzystuje się 
przy obliczaniu 
prawdopodobieństwa zajścia A - 
jeżeli łatwiej jest obliczyć P(A’).

background image

 

18

Obliczanie prawdopodobieństw 
(5)

Przy obliczaniu prawdopodobieństw 

wykorzystuje się dwa klasyczne wzory:

P(AB)=P(A)+P(B)-P(AB)            (1)

P(AB)=P(A)P(B/A)                       (2)

Jeżeli zdarzenia A i B się wykluczają, to 

wzór 1 przyjmuje postać:

P(AB)=P(A)+P(B)                        (3)

Jeżeli A i B są niezależne, to wzór 2 

przyjmuje postać: 

P(AB)=P(A)P(B)                           (4)

background image

Przykłady obliczeń
prawdopodobieństw

background image

 

20

Przykład 1

Z talii 52 kart pobieramy losowo 1 kartę. Jakie 
jest p-stwo, że jest to as lub kier?

Korzystamy z wzoru na p-stwo sumy dwu 
zdarzeń. Niech A oznacza wylosowanie asa, a B 
wylosowanie kiera.

Zgodnie ze wzorem P(AB)=P(A)+P(B)-P(AB) 

mamy:

52

16

52

1

13

4

52

1

52

13

52

4

)

(

 B

A

P

background image

 

21

Przykład 2

Z urny o składzie 4 kule białe, 6 zielonych i 10 
niebieskich losujemy 1 kulę. Jakie jest p-stwo, 
że jest to kula biała lub zielona?

Korzystamy z wzoru na p-stwo sumy dwóch 
zdarzeń. Niech A oznacza wylosowanie kuli 
białej, a B zielonej.

Zgodnie ze wzorem P(AB)=P(A)+P(B)-

P(AB) mamy:

20

10

20

0

20

6

20

4

)

(

 B

A

P

background image

 

22

Przykład 3

Z urny o składzie 4 kule białe, 6 niebieskich i 
10 zielonych losujemy dwie kule. Jakie jest p-
stwo, że są to kule białe?

Korzystamy z wzoru na p-stwo iloczynu dwóch 
zdarzeń. Niech A oznacza wylosowanie 
pierwszej kuli białej, a B drugiej kuli białej.

Zgodnie ze wzorem P(AB)=P(A)P(B/A) 

mamy:

380

12

19

3

20

4

)

(

 B

A

P

background image

 

23

Przykład 3 inaczej

Przykład 3 może być także rozwiązany z 
użyciem symbolu Newtona od określenia 
liczebności zbioru  i ilości zdarzeń 

elementarnych składających się na zdarzenie 
losowe.

 

 

190

6

1

2

19

20

1

2

3

4

)!

2

20

(

!

2

!

20

)!

2

4

(

!

2

!

4

)

(

20

2

4
2

 B

A

P

background image

 

24

Zmiene losowe - definicja

 

Zmienne losowe oznaczać będziemy dużymi 

litera-mi alfabetu (np. X, Y, Z), a ich wartości 
odpowiednio małymi literami (np. x, y, z). 
Ze względu na możliwy zbiór wartości 
rozróżniać będziemy dwa podstawowe typy 
zmiennych losowych: skokowe i ciągłe.

Zmienną losową X nazywamy funkcję o 
wartościach rzeczywistych określoną na 
zbiorze zdarzeń elemen-tarnych 

background image

 

25

Zmienna losowa 
skokowa

Zmienna losowa X typu skokowego 

przyjmuje skończoną lub przeliczalną 
liczbę wartości z pewnego przedziału. 

Zmienne tego typu nazywane są 

także zmiennymi dyskretnymi.

Przykładem zmiennej tego typu 

może być np. liczba błędów na stronie 
pewnej książki.

background image

 

26

Zmienne losowe ciągłe

Zmienna losowa typu ciągłego 

przyjmuje nieskończenie wiele 
wartości z pewnego przedziału 
liczbowego.

Przykładem tego typu zmiennej 

może być np. zawartość tłuszczu w 
mleku krów, czy zawartość białka w 
pewnym produkcie.

background image

 

27

Rozkład zmiennej losowej 
skokowej

Przyporządkowanie każdej wartości zmiennej 

losowej typu skokowego prawdopodobieństwa jej 
realizacji nazy-wamy funkcją rozkładu 
prawdopodobieństwa 
(w skrócie f.r.p.). Funkcja ta 
może być podana w formie tabelki, wzoru lub wykresu.

Dla f.r.p. spełnione są warunki:

 

P X

x

p

p

p

i

i

i

i

i

(

)

,



0 1

1

background image

 

28

Funkcję f(x) spełniającą dwa warunki
 
 

nazywamy funkcją gęstości 

prawdopodobieństwa (f.g.p.) pewnej zmiennej 
losowej X (ciągłej).

Rozkład zmiennej losowej 
ciągłej

1

0

.

( )

x R

f x

2

1

 



.

( )

f x dx

background image

 

29

Funkcja dystrybuanty

Dystrybuantą zmiennej losowej X nazywamy 

funkcję F(x) spełniającą warunek:

F x

P X

x

P x x

f x dx

i

x

x x

x

i

i

( )

(

)

(

)

( )

 

 

background image

 

30

Własności dystrybuanty

Funkcja dystrybuanty spełnia trzy warunki (lub 

inaczej ma następujące własności):

1.

2.  jest niemalejąca

3. jest co najmniej prawostronnie ciągła

W szczególności 

F x

( )

;



0 1

F

F

(

)

(

)

  

 

0

1

background image

 

31

Momentem  zwykłym rzędu k zmiennej 

losowej nazywamy wartość oczekiwaną k-tej 
potęgi tej zmiennej

:

Parametry
rozkładu zmiennych losowych

m

EX

x p

x f x dx

k

k

i

k

i

i

k



 



( )

background image

 

32

Parametry
rozkładu zmiennych losowych

Momentem centralnym rzędu k zmiennej 

losowej nazywamy wartość oczekiwaną funkcji 

g x

X EX

k

( ) [

]

k

k

i

k

i

i

k

E X EX

x

EX p

x EX f x dx



 



[

]

(

)

(

) ( )

background image

 

33

Wybrane momenty

Moment zwykły rzędu pierwszego 

nazywamy wartością oczekiwaną zmiennej 
losowej X (wartością średnią):

Moment centralny rzędu drugiego 

nazywamy wariancją zmiennej losowej X

Pierwiastek kwadratowy z wariancji 

nazywamy odchyleniem standardowym

m

EX

1

D X

E X

EX

2

2

2

[

]

DX

D X

2

background image

 

34

Związki między momentami

Dla trzech pierwszych momentów zachodzą 

związki

:

Ze związków tych korzystamy przy 

praktycznym wyznaczaniu momentów 
centralnych.

 

1

1

0

E X m

(

)

2

2

2

1

2

E X

EX

m

m

(

)

3

3

3

1

2

1

3

3

2

E X

EX

m

mm

m

(

)

background image

 

35

Dodatkowe charakterystyki  
pozycyjne

P X

Me

i P X

Me

(

)

(

)

1

2

1

2

5

,

0

)

(

Me

F

Medianą zmiennej losowej X nazywamy 
wartość Me spełniającą nierówności

:

Dla zmiennej ciągłej spełniony jest warunek:

Mediana jest taką wartością zmiennej losowej 
X, która dzieli pole pod funkcją gęstości na 
dwie części o identycznej powierzchni.

background image

 

36

Dodatkowe charakterystyki 
pozycyjne

P X

K

p

i

P X

K

p

dla p

p

p

(

)

(

)

( , )

 

1

0 1

F K

p

p

( ) 

Kwantylem rzędu p zmiennej losowej X 
nazywamy wartość Kp spełniającą 
nierówności:

Z powyższej definicji wynika, że dla 
zmiennej ciągłej prawdziwa jest zależność:

background image

 

37

Dodatkowe charakterystyki 
pozycyjne

Kwantyle rzędu = 0.25, = 0.50 oraz 

= 0.75 nazywane są odpowiednio 
kwartylami i oznaczane symbolami

Q

1

 - kwartyl pierwszy

Q

- kwartyl drugi

Q

3 

- kwartyl trzeci

Z definicji kwantylu wynika, że 
kwartyle dzielą zbiór wartości 
zmiennej losowej X na ćwiartki (po 
25% zbioru elementów).

background image

 

38

Dodatkowe charakterystyki 
pozycyjne

W przypadku zmiennej losowej ciągłej 
wartości x odpowiada maksimum lokalne 
funkcji gęstości.

Dominantą Do (modą Mo) zmiennej 
losowej X nazywamy taką wartość x tej 
zmiennej, której odpo-wiada największe 
prawdopodobieństwo realizacji 
(w przypadku zmiennej losowej 
skokowej).

background image

 

39

Obliczanie dodatkowych 
charakterystyk

Funkcja rozkładu p-stwa pewnej zmiennej 
losowej X dana jest tabelką:

x

i

-3

-2

-1

0

1

3

p

i

0,1

0,2

0,2

0,1

0,2

0,2

Obliczmy Me, 

k0,75

 oraz Do (Mo) tej zmiennej 

losowej.

background image

 

40

Charakterystyki ....

Medianą tej zmiennej losowej jest dowolna 
liczba z zakresu od –1 do 0, co wynika z 
poniższych nierówności:

7

,

0

)

1

(

5

,

0

)

1

(

X

P

i

X

P

5

,

0

)

0

(

6

,

0

)

0

(

X

P

i

X

P

Kwantylem rzędu 0,75 jest liczba 1, co 
wynika z nierówności:

4

,

0

)

1

(

8

,

0

)

1

(

X

P

i

X

P

Dominanta nie istnieje, nie ma bowiem 
takiej wartości zmiennej, której odpowiada 
max. p-stwa.

background image

 

41

Asymetria rozkładu 
zmiennej losowej

Zmienna losowa X ma rozkład symetryczny
jeżeli istnieje taka wartość a, że każdemu 
punktowi              odpowiada punkt                 
taki, że spełnione są warunki

:

W przypadku ciągłej zmiennej losowej opisanej 
funkcją gęstości f(x) musi być spełniony warunek:

dla każdego x

x

a

i

x

a

j

P X

x

P X

x

i

a x

x

a

i

j

i

j

(

)

(

)

 

f a x

f a x

(

)

(

)

background image

 

42

Asymetria rozkładu zmiennej 
losowej

Punkt a nosi nazwę środka symetrii, a prosta 

= a jest osią symetrii.

background image

 

43

Asymetria rozkładu

Asymetria prawostronna

 

(M oznacza średnią, a M

0

 dominantę)

M M

o

 0

background image

 

44

Asymetria rozkładu

Asymetria lewostronna

 

(M oznacza średnią, a M

0

 dominantę)

M M

o

 0

background image

 

45

Miary 
asymetrii

Miarą asymetrii może być różnica między 
wartością średnią (M) a dominantą (Mo), która 
mierzy nie tylko stopień asymetrii, ale także jej 
kierunek. Jest to jednak miara mianowana, a 
więc zależna od jednostek cechy.
Lepszą miarą asymetrii jest współczynnik 
asymetrii (skośność) 
zdefiniowany jako

gdzie DX jest odchyleniem standardowym.

3

3

D X

background image

 

46

Miary asymetrii 
(c.d)

Jeżeli  > 0, to asymetria rozkładu jest dodatnia 

(prawostronna).

Jeżeli  < 0, to asymetria rozkłau jest ujemna 

(lewostronna).

W rozkładzie symetrycznym  = 0 (co wynika z 

faktu, że w rozkładach symetrycznych 
wszystkie momenty centralne rzędu 
nieparzystego są równe zero)

background image

 

47

Kurtoza

Miarą kształtu rozkładu zmiennej losowej jest 
kurtoza definiowana jest jako różnica stosunku 
momentu centralnego rzędu czwartego do 
kwadratu momentu centralnego rzędu drugiego a 
liczbą 3:

3

2

2

4

kurtoza

Dodatnia wartość kurtozy wskazuje na 
wysmukły kształt rozkładu zmiennej losowej, 
ujemna z kolei na kształt spłaszczony. Kurtoza 
jest więc miarą koncentracji wartości 
zmiennej losowej wokół jej wartości średniej. 

background image

 

48

Podstawowe rozkłady zmiennych 
losowych

1. Rozkład zero-jedynkowy.
Funkcja rozkładu prawdopodobieństwa dana jest 

tabelką:

  x

i

0

1

  p

i

q

p

Oczywiście p + q = 1
Parametrami rozkładu tej zmiennej są:

EX

p D X

pq DX

pq

,

,

2

background image

 

49

Podstawowe rozkłady zmiennych 
losowych

2. Rozkład dwumianowy (Bernoulliego)
Rozkład ten otrzymujemy w wyniku n-krotnego 
powtarzania eksperymentu, w którym realizuje 
się zmienna zero-jedynkowa. Zmienna losowa 
przyjmuje n + 1 wartości, a jej f.r.p. dana jest 
wzorem

:

Parametry rozkładu są odpowiednio równe:

P X k

n

k

p q

k n k

(

)

 



EX np D X npq DX

npq

,

,

2

background image

 

50

Wykresy f.r.p dla trzech p-stw 
sukcesu

background image

 

51

Podstawowe rozkłady zmiennych 
losowych

3. Rozkład Poissona
Zmienna losowa X przyjmująca wartości k = 0, 1, 
2, ..., n  ma rozkład Poissona, jeżeli jej f.r.p dana jest 
wzorem:

Parametrami rozkładu tej zmiennej są odpowiednio:

Rozkład Poissona może być wykorzystany jako 
przybliżenie rozkładu dwumianowego 
(Bernoulliego) w tych sytuacjach, gdy n jest duże, p 
małe i iloczyn np =  = const.

P X k

k

e

k

(

)

!

EX

D X

DX

,

,

2

background image

 

52

Wykresy f.r.p dla trzech wartości 

Mean

1
2,5
5

Poisson Distribution

p

ro

b

a

b

il

it

y

0

3

6

9

12

15

18

0

0,1

0,2

0,3

0,4

background image

 

53

Podstawowe rozkłady zmiennych 
losowych

4. Rozkład normalny
Funkcja gęstości rozkładu normalnego dana jest 

wzorem

W rozkładzie normalnym przyjmuje się nastepujące 

oznaczenia parametrów:

Jeżeli pewna zmienna losowa będzie miała rozkład 

normalny z wartością średnią m i odchyleniem 

standardowym , to zapiszemy to jako
Xm

Wykresem funkcji gęstości rozkładu normalnego jest 

tzw. krzywa Gaussa.

f x

e

x m

( )

(

)

1

2

2

2

2

EX m

D X

DX

,

2

2

background image

 

54

Funkcja gęstości rozkładu 
normalnego z parametrami m
 i 

 

background image

 

55

Funkcja dystrybuanty 
rozkładu normalnego

background image

 

56

Wpływ parametrów rozkładu 
normalnego na kształt i 
położenie funkcji gęstości

background image

 

57

Funkcja gęstości - 
interpretacja 
prawdopodobieństwa

background image

 

58

Funkcja dystrybuanty - 
interpretacja 
prawdopodobieństwa

background image

 

59

Prawo 3 
sigm

Niech pewna zmienna losowa X ma rozkład normalny 
N(m; ).

Prawdopodobieństwo przyjęcia przez zmienną X 
wartości z przedziału <m-3, m+3> jest równe 0,997 

.

Wynik ten można zinterpretować następująco: w 
przedziale <m-3, m+3>  mieszczą się prawie 

wszystkie elementy danej populacji (normalnej).
Prawo to jest znane jako prawo 3 sigm.

background image

 

60

Standaryzacja 
rozkładu

Rozkład normalny ze średnią m = 0 oraz 
odchyleniem standardowym  = 1 nazywamy 

standardowym rozkładem normalnym i 
oznaczamy symbolem N(0; 1)
Podstawienie 

pozwala na przekształcenie dowolnego rozkładu 
normalnego do  standardowego rozkładu 
normalnego.

z

x m

background image

 

61

Standardowy rozkład 
normalny

background image

 

62

Rozkład N(0; 1)

Standardowy rozkład normalny jest stablicowany, 
w tablicach statystycznych najczęściej podawana 
jest dystrybuanta tego rozkładu.
Zmienne losowe o standardowym rozkładzie 
normalnym są podstawą konstrukcji kilku 
kolejnych rozkładów o podstawowym znaczeniu 
w statystyce. Są to miedzy innymi rozkłady:

2

- Pearsona

t - Studenta
F - Fishera-Snedecora


Document Outline