04 - Statystyka opisowa i rozkład normalny

MODELE

ZDETERMINOWANE

LOSOWE

zdarzenie A

zdarzenie B

zdarzenie A

zdarzenie B1

zdarzenie B2

funkcja

prawdopodobie

prawdopodobieńńńństwa

stwa

S=V*t

zdarzenie B3

Podział cech statystycznych:

cechy

mierzalne

jako

jakośśśściowe

ciowe

(niemierzalne)

ciągłe

skokowe

(dyskretne)

porządkowe

nominalne

Ω

– zbiór wszystkich zdarzeń elementarnych

A – zdarzenie

k – liczba zdarzeń sprzyjających zajściu A
m – liczba wszystkich moŜliwych

zdarze

P(A) = k/m

Liczba wyraŜająca przekonanie, Ŝe powtarzając proces

losowy wielokrotnie, otrzyma się określoną wartość
zmiennej losowej

Prawdopodobieństwo w ujęciu klasycznym

Własności

1) P(A) ≥ 0

2) P(Ω) = 1

3) JeŜeli A

-1

jest zdarzeniem przeciwnym

do A (dope

nieniem) to P(A) = 1 – P(A

-1

)

Zdarzenie elementarne

– konkretna realizacja zmiennej

losowej (np. wynik pomiaru)

Populacja

– jest rozumiana jako zbiór wyników wszystkich

pomiarów, którymi jesteśmy zainteresowani.

Próba

– jest podzbiorem wyników pomiarów pobranych z

populacji.

Próba losowa

– pobieranie próby dokonuje się w sposób

losowy

tj. tak

aby kaŜda moŜliwa próba składająca się z n

elementów miała taką samą szansę, Ŝe zostanie wybrana.

Próba reprezentatywna

– próbka, której struktura pod

względem badanej charakterystyki nie róŜni się istotnie od
struktury populacji

Podstawowe pojęcia

1
0

Mediana

– le

ży w centrum zbioru w tym sensie, że połowa wyników

znajduje si

ę powyżej, a połowa poniżej jej wartości

(2. kwartyl)

(n+1)Pr/100

Dominanta

– warto

ść

modalna - jest

warto

ść, która w tym zbiorze

wyst

ępuje najczęściej

Średnia arytmetyczna (średnia klasyczna)

– zwan

ą także przeciętną jest sumą wartości wszystkich

wyników podzielon

ą przez licz

ebno

ść tego zbioru

iary tendencji centralnej:

1
1

Mediana

dla zbioru o parzystej liczbie danych

dla zbioru o nieparzystej liczbie danych

1,2,3,4,190

rednia = 40, mediana = 3

1
2

Średnia arytmetyczna

próóóóbbbb

::::

populacj

::::

n – liczebność próby

X – średnia z próby

s – odchylenie standardowe
próby

STATYSTYKI

N – liczebność populacji

µ – średnia z populacji

σ – odchylenie standardowe
populacji

PARAMETRY

1
3

Średnia arytmetyczna

∑

śśśśrednia pr

rednia pr

rednia próóóóbbbby::::

śśśśrednia populacji:

rednia populacji:

1
4

interpretacja średniej arytmetycznej:

Średnia z danych streszcza wszystkie informacje w

nich zawarte:

– MoŜe ona być uwaŜana za punkt, w którym skoncentrowała

się cała masa wszystkich wyników obserwacji i który jest
środkiem cięŜkości masy.

– Gdyby wszystkie wyniki obserwacji był jednakowe to kaŜdy

z nich byłby równy średniej arytmetycznej.

– Wielkość abstrakcyjna.

1
7

Miary rozrzutu

Rozstęp:

– w zbiorze wyników obserwacji rozstępem

nazywamy ró

żnicę pomiędzy wartością

najwi

ększą i najmniejszą

Wariancja:

– w zbiorze wyników wariancją nazywamy

przeci

ętne kwadratowe odchylenie

poszczególnych wyników od ich

średniej

Odchylenie standardowe

– pierwiastek kwadratowy z wariancji

1
8

Wzory

Rozstęp

Wariancja

)

(

−

∑

−

)

(

R = x

max

– x

min

próóóóbbbby::::

populacji:

1
9

Odchylenie standardowe

)

(

−

∑

−

)

(

próóóóbbbbie::::

populacji:

Zadanie 2

Obliczyć odchylenia standardowe danych z zadania 1

2
0

Grupowanie danych - szeregi

Najczęś

ęś

ęściej grupujemy dane w tak zwane szeregi:

–

Pozycyjny (n<30)

• (sortujemy dane rosnąco lub malejąco i zliczamy ile jest

elementów o tej samej wartości lub cesze)

–

Rozdzielczy (n≥30)

• dane grupujemy w klasy, czyli przedzia

ły o ustalonej

wielko

ści

• mo

żemy w ten sposób określić rozkład częstości danych w

poszczególnych klasach.

• wykres obrazuj

ący rozkład częstości nazywamy

histogramem

(wykres słupkowy).

Wysoko

ść słupka

reprezentuje cz

ęstość, z jaką pojawiły się wyniki obserwacji

nale

żące do klasy reprezentowanej przez słupek. Sąsiednie słupki

maj

ą wspólne boki.

2
1

4](4

7] …

(27

31]

Częstość

(liczebność)

Szerokość przedziału klasowego

Częstości odpowiadają

prawdopodobieństwu wystąpienia
wartości danej cechy i sumują się

do jedności

Wartości

cechy

2
2

jak dobrać liczbę klas?

Liczność próbki

Ilość przedziałów

100

101

200

201

500

=1+3,32*logN

2
3

Zmienne losowe

cecha, którą obserwujemy (mierzymy) jest

zmienną losową

(np.

rednica, masa)

zmienna losowa

- zmienna przyjmuj

ca ró

warto

ci liczbowe, wyznaczone przez los (30,6 ;

30,71 ; 30,78 ; 30,62 itd.)

rozkład prawdopodobie

stwa zmiennej losowej

- przyporz

dkowanie prawdopodobie

stw

wszystkim mo

liwym warto

ciom zmiennej

losowej

zmienne losowe –> model

– dyskretne – funkcja dyskretna (dwumianowy,

Poissona,…)

– ciągłe – funkcja ciągła (normalny, Weibula, itd.)

2
4

Zmienna losowa skokowa (dyskretna)

Rozkładem prawdopodobieństwa zmiennej losowej
skokowej jest tablica, wzór lub wykres, który
przyporządkowuje prawdopodobieństwa kaŜdej
moŜliwej wartości zmiennej.

Np.
P(X=x) = p

P(X=1) = 0,1

P(X=2) = 0,4

P(X=6) = 0,5

2
5

Przykład

Liczba wad pojawiająca się na linii montaŜowej A

P(x) F(x)

0,1

0,2

0,3

0,2

0,1

0,3

0,6

0,8

0,9

1,0

0 1 2 3 4 5

0,1

0,2

0,3

P(x)

0 1 2 3 4 5

F(x)

P(1≤x≤3) = P(X=1)+P(X=2)+P(X=3) =F(3)-F(0)

= 0,8-0,1 = 0,7

P(x≤3) = F(3)

= 0,8

Dystrybuanta

zmiennej losowej

Gęstość prawdopodobieństwa

zm. losowej

2
7

Rozkład dwumianowy:

Ciąg identycznych doświadczeń spełniających

następujące warunki:

• Dwa moŜliwe wyniki kaŜdego doświadczenia: sukces i

poraŜka

• Prawdopodobieństwo sukcesu (p) pozostaje takie samo od

doświadczenia do doświadczenia. Prawdopodobieństwo
poraŜki q = 1-p.

• Doświadczenia są od siebie niezaleŜne

• Liczba sukcesów opisana jest zmienną losową

dwumianową

Przykład rozkładu zmiennej losowej skokowej

Zmienna losowa dwumianowa

2
8

Rozkład dwumianowy:

Doświadczenie polegające na 4 rzutach monetą.

1. Jakie jest prawdopodobieństwo otrzymania

dokładnie 3 orłów?

2. Jakie jest prawdopodobieństwo, Ŝe nie

wypadnie Ŝaden orzeł?

3. Jakie jest prawdopodobieństwo, Ŝe wypadnie

co najmniej 1 orzeł?)

p - ?

x - ?

n - ?

Przykład rozkładu zmiennej losowej skokowej

P(X=3)

P(X=0)

P(X≥1) = 1 - P(X<1)

2
9

Rozkład dwumianowy:

W statystycznej kontroli jakości partia wyrobów zostaje

zaakceptowana jako dobra tylko wtedy, gdy liczba sztuk wadliwych w

stosunku do liczebności całej partii nie przekracza pewnej z góry

ustalonej wartości. Przypuśćmy, Ŝe w duŜej partii wyrobów jest 20%

sztuk wadliwych. Pobrano z niej próbę liczącą 20 sztuk. Procedura

kontrolna przewiduje zaakceptowanie partii wyrobów tylko wtedy, gdy

nie więcej niŜ 2 sztuki wśród 20 okaŜą się wadliwe. Jakie jest

prawdopodobieństwo, Ŝe partia wyrobów

nie

zostanie zaakceptowana?

Przykład rozkładu zmiennej losowej skokowej

p = 0,2, q = 0,8

P(X>2) = 1 - P(X≤2) = 1 - P(X=0) - P(X=1) - P(X=2) = 1 – 0,0115 – 0,0576 – 0,137 =
= 0,793

3
0

Rozkład dwumianowy:

2. Badania pracowników wykazały, Ŝe 70% z nich jest przekonanych, Ŝe
udział pracowników w zarządzaniu firmą podnosi jakość jej działania.
JeŜeli wybierze się losowo 15 pracowników, jakie jest prawdopodo-
bieństwo, Ŝe 3 spośród nich będzie podzielało przekonanie, iŜ udział
pracowników w zarządzaniu firmą podnosi jakość działania firmy?

3. Zarząd turystyki na wyspie Barbados przeprowadza cotygodniowe
wywiady z sześcioma losowo wybranymi turystami, pytając ich o
wraŜenia z pobytu na wyspie. WraŜenia kaŜdego turysty klasyfikuje się
jako pozytywne lub negatywne. Odpowiedzi zamieszcza się w
czasopiśmie „Visitor”. Przypuśćmy, Ŝe 5% wszystkich turystów
odwiedzających Barbados jest niezadowolonych z pobytu. Jakie jest
prawdopodobieństwo, Ŝe co najmniej dwóch spośród sześciu turystów, z którymi
przeprowadzono wywiady, wyrazi niezadowolenie?

Przykład rozkładu zmiennej losowej skokowej

3
1

Zmienna losowa ciągła

funkcja rozkładu

(gęstości)

f(x

) = P(X=x

)

dystrybuanta

F(x

) = P(X≤x

)

f(x

)

F(x

)

F(x

)

Rozkład dyskretny – dystrybuanta = suma
prawdopodobieństw poszczególnych słupków
Rozkład ciągły – dystrybuanta = pole pod krzywą
gęstości

3
2

Funkcja gęstości prawdopodobieństwa
a dystrybuanta ciągłej zmiennej losowej

Odcinek =

prawdopodobieństwu

0,8

0,3

0,5

Pole pod krzywą =

całka oznaczona z

funkcji gęstości

prawdopodobieństwa

prawdopodobieństwu

3
3

Rozk

łłłład normalny (Gaussa)

Rozkład normalny jest rozkładem, do którego dąży m.in.

rozk

ład dwumianowy gdy liczba doświadczeń n wzrasta

Okazuje się, że rozkład normalny jest rozkładem granicznym

wielu innych rozk

ładów, w sytuacjach gdy ujawniają się

skutki przypadkowych czynników pochodz

ących z różnych

źródeł

)

(

)

(

−

3
4

Rozkład normalny o róŜnych wartościach
średniej i odchyleni

a standardowego

)

Parametry rozkładu:

µ – wartość oczekiwana

σ – odchylenie
standardowe

Odległość od (0,0))

3
5

STANDARYZOWANY ROZKŁAD NORMALNY

Ponieważ istnieje nieskończenie wiele normalnych

zmiennych losowych, jedn

ą z nich wybieramy aby

łużyła jako pewien standard. Została ona stablicowana

i obliczono prawdopodobie

ństwa przyjmowania przez

ą określonych wartości.

µµµµ

=0,

σσσσ

= 1

)

(

−

⋅

3
6

standaryzacja

= 0

= 1

= -0,042

= 1,91

GLT

DLT

=2,5

P(X>x

)

P(X<x

)

transformacja: (x

P(U>u

)

P(U>u

)

P(X<x

) = P(U<u

)

P(X>x

) = P(U>u

)

P(U<u

)

3
9

Dodawanie zmiennych A i B o rozkładach
normalnych

A --- N(µ

)

B --- N(µ

)

Z = A+B --- N( µ

+µ

)

4
1

zadanie 2:

Producent dostarcza kulki do myszy komputerowych
o średnicy charakteryzującej się rozkładem
normalnym o następujących parametrach

= 5,25 i

= 0,12.

Odbiorca jest zainteresowany kulkami o średnicy
mieszczącej się w przedziale: GLT (górna linia
tolerancji) = 5,30 i DLT (dolna linia tolerancji) =
5,00.

Jaka jest frakcja kulek nie spełniających wymagań
odbiorcy?

P ≈ 0,36

4
2

zadanie 3:

Tygodniowa wielkość sprzedaŜy zupy w puszkach
firmy Winiary w sklepie spoŜywczym rozkłada się
normalnie ze średnią 2450 puszek i odchyleniem
standardowym 400 puszek.
Właściciel sklepu chce znaleźć dwie takie liczby,
połoŜone symetrycznie po obu stronach średniej, by
istniało prawdopodobieństwo 0.95, Ŝe tygodniowa
sprzedaŜ znajdzie się między tymi liczbami.
Tego rodzaju wiadomość będzie dla niego przydatna
przy ustalaniu wielkości zamówień i zapasów.

Właściciel moŜe mieć 95% pewności, Ŝe wielkość sprzedaŜy zup w
proszkach w dowolnym tygodniu będzie się mieściła w przedziale
1666 a 3234 puszki.

4
4

zadanie 5:

W województwach A i B zbadano roczną liczbę
opadów.

Okazało się, Ŝe zarówno w jednym jak i w drugim ilość
opadów podlega rozkładowi normalnemu.

Dla województwa A: N(120, 12) , a dla B: N(180, 16).

Jakie jest prawdopodobieństwo, Ŝe ciągu roku łączna
ilość opadów w obu województwach będzie niŜsza niŜ
300?