Gorgol I Elementy statystyki opisowej

background image

Elementy statystyki opisowej

Izolda Gorgol

wyciąg z prezentacji (wykład I)

Populacja statystyczna, badanie statystyczne

— Statystyka matematyczna zajmuje się opisywaniem i analizą zjawisk masowych za pomocą metod rachunku praw-

dopodobieństwa. Celem badań statystycznych jest poznanie prawidłowości ilościowych i jakościowych w masowych
zjawiskach losowych i opisywanie ich za pomocą liczb.

— Badane zbiory nazywamy populacjami statystycznymi.
— Badać można wszystkie elementy danej populacji statystycznej, zwanej też populacją (zbiorowością) generalną,

albo tylko ich część, zwaną próbką statystyczną (próbką).

— W pierwszym przypadku badanie jest kompletne i nie ma potrzeby używania elementów rachunku praw-

dopodobieństwa.

— W drugim przypadku badanie jest częściowe.

Próbka losowa

— Zadaniem statystyki jest wnioskowanie o własnościach całej populacji Z na podstawie informacji o tych własnoś-

ciach elementów pewnego skończonego podzbioru Z

1

tej populacji (Z

1

⊂ Z), zwanego próbką.

— Próbka Z

1

powinna stanowić reprezentację populacji Z, tzn. częstość występowania w próbce każdej z badanych

cech nie powinna znacznie różnić się od częstości występowania tych cech w populacji generalnej. Elementy próbki
Z

1

zazwyczaj losuje się spośród elementów populacji Z.

— Otrzymana próbka nosi nazwę próbki losowej.
— Próbka losowa prosta n-elementowa to próbka n-elementowa wylosowana z populacji, przy czym każdy

n-elementowy podzbiór populacji generalnej ma takie same szanse (takie samo prawdopodobieństwo) wylosowania.

Cechy statystyczne

— Elementy populacji generalnej mogą mieć różne właściwości, które podlegają obserwacji statystycznej.
— Nazywamy je cechami statystycznymi.
— Niektóre cechy mają charakter ilościowy (np. wiek, waga, wzrost) i nazywamy je cechami mierzalnymi, inne

posiadają charakter jakościowy (np. płeć, kolor oczu, zawód) i nazywamy je cechami niemierzalnymi.

— W przypadku cechy niemierzalnej zazwyczaj przypisuje się badanym elementom wartości liczbowe (np. numerujemy

kolory) i wtedy cecha niemierzalna staje się cechą mierzalną.

Zadanie statystyki opisowej

— Badana cecha X jest zmienną losową, której rozkład, zwany rozkładem cechy w populacji jest najczęściej nieznany.

Statystyka ogranicza się do badania próbki losowej wylosowanej z populacji generalnej.

— Statystyka opisowa zajmuje się wstępnym opracowaniem próbki bez posługiwania się rachunkiem prawdopodobieństwa.

Empiryczny rozkład cechy

— Podstawą badań statystycznych skończonej zbiorowości jest określenie empirycznego, tzn. zaobserwowanego w tej

zbiorowości, rozkładu zaobserwowanej cechy.

— Rozkład empiryczny to rozkład cechy w próbie. Określenie empirycznego rozkładu polega na przyporządkowaniu

kolejnym wartościom przyjmowanym przez cechę odpowiednio zdefiniowanych częstości ich występowania.

— Parametry rozkładu empirycznego nazywamy parametrami empirycznymi, zaś parametry rozkładu cechy X parame-

trami teoretycznymi.

— Badanie statystyczne rozpoczyna się od wyznaczenia rozkładu empirycznego.

Szereg rozdzielczy

— Rozkład empiryczny bada się najczęściej tworząc tzw. szereg rozdzielczy.
— Szeregiem rozdzielczym uporządkowany wg wielkości zbiór wartości badanej cechy w próbie.

1

background image

— Szereg rozdzielczy szczegółowy tworzy się poprzez grupowanie powtarzających się wartości badanej cechy

w próbie.

— Gdy liczba obserwacji jest duża (n

> 30), to szereg rozdzielczy przedziałowy tworzy się poprzez grupowanie

zaobserwowanych wartości w tzw. klasach.

— Klasy są przedziałami, najczęściej jednakowej długości, które tworzy się przyjmując upraszczające założenie, że

wszystkie wartości znajdujące się w danej klasie są identyczne z tzw. środkiem klasy.

Ustalanie liczby klas

— Istnieje kilka reguł ustalania orientacyjnie liczby k klas w zależności od liczności n próbki:

k 6 5 ln n lub k = 1 + 3, 322 ln n lub k =

n.

— Można również korzystać z poniższych orientacyjnych danych:

liczba pomiarów n

liczba klas k

30 − 60

6 − 8

60 − 100

7 − 10

100 − 200

9 − 12

200 − 500

11 − 17

500 − 1500

16 − 25

— Nawet przy dużo liczniejszej próbce nie stosuje się większej liczby klas niż 30.

Rozstęp, długość klasy

— Niech x

1

, x

2

, . . . , x

n

będzie n-elementową próbką prostą o zadanych wartościach.

— Rozstępem badanej cechy X w tej próbce nazywamy liczbę

R = x

max

− x

min

,

gdzie x

max

, x

min

oznaczają, odpowiednio, największą i najmniejszą liczbę w ciągu x

1

, x

2

, . . . , x

n

.

— Rozstęp jest zatem długością najkrótszego przedziału, w którym mieszczą się wszystkie wartości próbki.
— Jeżeli R jest rozstępem próbki, zaś k liczbą klas, to jako długość klasy przyjmuje się

b ≈

R

k

, tak jednak, by bk > R.

Dokładność przy ustalaniu granic klas

— Punkty stanowiące granice poszczególnych klas ustala się zwykle z dokładnością do

1

2

α, gdzie α oznacza dokładność,

z jaką wyznaczono wartości w próbce.

— Jeśli więc dla jednakowo dokładnych wartości w próbce dane liczbowe są podawane jako całkowite wielokrotności

największej liczby a, to należy przyjąć jako granice klas liczby postaci la +

1

2

α, gdzie l są liczbami całkowitymi.

— Dolną granicę pierwszej klasy otrzymujemy wg wzoru x

min

1

2

α.

— Liczbę wartości próbki zawartych w i-tej klasie nazywamy licznością (liczebnością) i-tej klasy i oznaczamy

symbolem n

i

. Oczywiście

k

X

i

n

i

= n.

— Jeżeli liczność n próbki x

1

, x

2

, . . . , x

n

kwalifikuje ją do podziału na klasy, to dokonuje się grupowania. Otrzymuje

się szereg rozdzielczy przedziałowy, który stanowią pary liczb: środki kolejnych klas ˙

x

i

oraz ich liczności n

i

, gdzie

i ∈ {1, 2, . . . , k}.

— Szereg rozdzielczy można również przedstawić w postaci histogramu. Na osi poziomej zaznacza się środki klas,

albo też granice poszczególnych klas, a na osi pionowej liczności klas n

i

albo częstości klas w

i

=

n

i

n

.

2

background image

Miary średnie

— Miary średnie pozwalają określić tzw. tendencję centralną, czyli przeciętny poziom.
— Miary średnie (wartości przeciętne) służą do określania tej wartości zmiennej, wokół której skupiają się wszystkie

pozostałe wartości zmiennej.

— Miary średnie dzielą się na:

— średnie klasyczne (średnia arytmetyczna, średnia harmoniczna, średnia geometryczna);
— średnie pozycyjne (mediana, moda).

Średnia arytmetyczna

— Średnią arytmetyczną x liczb x

1

, x

2

, . . . , x

n

nazywamy liczbę określoną wzorem x =

1

n

n

X

i=1

x

i

.

— Jeżeli wynik pomiaru x

i

wystąpił n

i

razy, gdzie i ∈ {1, 2, . . . , k} oraz

k

X

i=1

n

i

= n, to średnią arytmetyczną

ważoną nazywamy liczbę x =

1

n

k

X

i=1

x

i

n

i

.

— Jeżeli dane są pogrupowane w szeregu rozdzielczym przedziałowym, to x =

1

n

k

X

i=1

˙

x

i

n

i

.

Średnia harmoniczna

— Średnią harmoniczną h różnych od zera liczb x

1

, x

2

, . . . , x

n

nazywamy liczbę określoną wzorem

h =

1

n

n

X

i=1

1

x

i

!

−1

, o ile

n

X

i=1

1

x

i

6= 0.

— Jeżeli wynik pomiaru x

i

wystąpił n

i

razy, gdzie i ∈ {1, 2, . . . , k} oraz

k

X

i=1

n

i

= n, to średnią harmoniczną

ważoną nazywamy liczbę

h =

1

n

k

X

i=1

n

i

x

i

!

−1

.

Średnia geometryczna

— Średnią geometryczną g liczb dodatnich x

1

, x

2

, . . . , x

n

nazywamy liczbę określoną wzorem

g =

n

v
u
u
t

n

Y

i=1

x

i

.

— Jeżeli wynik pomiaru x

i

wystąpił n

i

razy, gdzie i ∈ {1, 2, . . . , k} oraz

k

X

i=1

n

i

= n, to średnią geometryczną

ważoną nazywamy liczbę

g =

n

q

x

n

1

1

· · · x

n

k

k

.

Mediana

— Medianą (wartością środkową) M e próbki x

1

, x

2

, . . . , x

n

nazywamy środkową liczbę w uporządkowanej niemale-

jąco próbce x

(1)

6 x

(2)

6 · · · 6 x

(n)

, gdy n jest liczbą nieparzystą, albo średnią arytmetyczną dwóch środkowych

liczb, gdy n jest liczbą parzystą, tzn.

M e =

x(

n+1

2

),

gdy n jest nieparzyste,

x

(

n

2

)

+x

(

n

2

+1

)

2

,

gdy n jest parzyste.

3

background image

Mediana

— Jeżeli dane są pogrupowane w szeregu rozdzielczym przedziałowym, to

M e = x

l

+

b

n

m

n

2

m−1

X

i=1

n

i

!

,

gdzie
x

l

- lewy koniec klasy zawierającej medianę,

m - numer klasy zawierającej medianę,
n - liczność próbki,
n

i

- liczność i-tej klasy,

b - długość klasy.

Moda

— Modą (dominantą, wartością najczęstszą) M o próbki x

1

, . . . , x

n

o powtarzających się wartościach nazywamy

najczęściej powtarzającą się wartość, o ile istnieje i nie jest to x

min

ani x

max

.

— Jeżeli dane są pogrupowane w szeregu rozdzielczym przedziałowym, to

M o = x

l

+

n

l

− n

l−1

(n

l

− n

l−1

) + (n

l

− n

l+1

)

b,

gdzie
x

l

- dolna granica klasy modalnej (klasy, w której znajduje się moda),

n

l

- liczność klasy modalnej,

n

l−1

, n

l+1

- liczności sąsiednich klas,

b - długość klasy.

— Moda zależy od sposobu podziału na klasy.

Miary rozproszenia

— Miary rozproszenia (zmienności) służą do badania zróżnicowania wartości, czyli tzw. dyspersji.
— Podstawowe miary rozproszenia to:

— rozstęp,
— wariancja,
— odchylenie standardowe.

Rozstęp

— Rozstępem w próbce o wartościach x

1

, . . . , x

n

nazywamy liczbę

R = x

max

− x

min

.

Wariancja

— Wariancją s

2

próbki x

1

, . . . , x

n

nazywamy średnią arytmetyczną kwadratów odchyleń poszczególnych wartości x

i

od średniej aryt-

metycznej x

i

próbki, tzn.

s

2

=

1

n

n

X

i=1

(x

i

− x)

2

.

— Jeżeli wynik pomiaru x

i

wystąpił n

i

razy, gdzie i ∈ {1, 2, . . . , k} oraz

k

X

i=1

n

i

= n, to

s

2

=

1

n

k

X

i=1

(x

i

− x)

2

n

i

.

— Jeżeli dane są pogrupowane w szeregu rozdzielczym przedziałowym, to s

2

=

1

n

k

X

i=1

( ˙

x

i

− x)

2

n

i

.

— Praktyczny wzór do obliczeń: s

2

= x

2

− (x)

2

.

4

background image

Odchylenie standardowe

— Odchyleniem standardowym nazywamy liczbę s =

s

2

.

— Odchylenie standardowe określa w przybliżeniu, o ile wszystkie jednostki statystyczne danej populacji różnią się

średnio od wartości średniej arytmetycznej badanej zmiennej.

Inne charakterystyki

— współczynnik zmienności
— typowy obszar zmienności

Współczynnik zmienności

Współczynnikiem zmienności nazywamy liczbę

v =

s

x

· 100%.

Typowy obszar zmienności

— Typowy obszar zmienności cechy statystycznej to obszar, w którym mieści się około

2
3

wszystkich jednostek badanej

populacji. Typowy obszar zmienności określa wzór

x − s < x

typ

< x + s.

— Znając typowy obszar zmienności można podzielić jednostki danej populacji na typowe (tzn. występujące sto-

sunkowo często) i nietypowe (tzn. występujące stosunkowo rzadko).

5


Wyszukiwarka

Podobne podstrony:
ELEMENTY STATYSTYKI OPISOWEJ - SCENARIUSZ, Matematyka dla Szkoły Podstawowej, Gimnazjum
Elementy Statystyki Opisowej
10 Elementy statystyki opisowej
Elementy statystyki opisowej
STATYSTYKA OPISOWA '
1 Statystyka opisowa Wprowadze Nieznany (2)
egzamin ze statystyki, Statystyka opisowa
ROZDZIAŁ 4, Statystyka opisowa
Parametry stosowane w statystyce opisowej, Płyta farmacja Bydgoszcz, statystyka, pozostałe

więcej podobnych podstron