background image

 

 

Pojęcie statystycznej 

próby losowej

 

background image

 

 

Populacja generalna

 (zbiorowość statystyczna) 

Populacja statystyczna (skończona lub nieskończona) 
badana jest ze względu na pewne cechy(zmienne). 
Rozkładem populacji generalnej będziemy nazywać  
rozkład badanej cechy w tej populacji. Modelem 
matematycznym rozkładu populacji jest rozkład 
prawdopodobieństwa pewnej zmiennej losowej skokowej 
lub ciągłej. Odpowiednie prawdopodobieństwa w 
modelowym rozkładzie zmiennej losowej interpretujemy 
jako częstości względne w populacji elementów o 
określonych wartościach badanej cechy. 
 
Interesujemy się jedynie badaniami statystycznymi 
częściowymi. Tak więc, by orzec coś o rozkładzie 
populacji, pobieramy z niej do badania częściowego 
pewną próbkę statystyczną. Ze względu na 
reprezentacyjny charakter próby statystycznej 
pozwalający uogólnić jej wyniki na całą zbiorowość, 
dopuszczamy jedynie taki dobór próby, który jest 

beztendencyjny 

(losowy). 

background image

 

 

 

Losowość próby oznacza, że wyniki jej można traktować 
jako realizację zmiennych losowych o rozkładzie 
identycznym z rozkładem populacji.
 
Losową próbę statystyczną z nieskończonej, 
hipotetycznej populacji możliwych wyników 
eksperymentów (pomiarów) w badaniach przyrodniczych 
lub technicznych uzyskuje się drogą obserwacji 
niezależnych powtórzeń eksperymentu wykonywanego w 
określonych warunkach uwzględniających różne czynniki 
wpływające na wynik eksperymentu.
 
Próba prosta ze skończonej populacji jest uzyskiwana 
przy zastosowaniu losowania ze zwracaniem.
 Dla nieskończonej populacji uzyskuję się próbę  prostą 
zakładając niezmienne warunki powtarzalnego 
doświadczenia i dokonując powtórzeń niezależnych tego 
doświadczenia.

background image

 

 

Próba prosta 

Próba prosta,

 może być zdefiniowana jako n-

wymiarowa zmienna losowa (wektor losowy) 
X = (X

1

,X

2

,…,X

n

) o własnościach:

 
        X

1

,X

2

,…,X

n  

są niezależnymi zmiennymi 

losowymi
        Każda zmienna losowa  X

i

 (i-ty wynik w 

próbie) ma rozkład identyczny z rozkładem 
populacji.

 

background image

 

 

Prezentacja wyników próby

Szeregi rozdzielcze

x

i

n

i

x

1

x

2

x

3

.
.

x

k

 

n

1

n

2

n

3

  

 

n

k

 

 
 

[x

0j 

, x

1j    

)

n

i

[x

01 

, x

11

)

[x

02 

, x

12

)

[x

03 

, x

13

)

.
.
.

[x

0k 

, x

1k

)

 

n

1

n

2

n

3

 

 

 

n

k

 

background image

 

 

[x

0j 

x

1j

)

n

i

15-25
25-35
35-45
45-55
55-65
65-75

10
25
48
30
10

5

background image

 

 

 

Szereg rozdzielczy wyników próby nazywa się też 
często rozkładem empirycznym, gdyż można z 
niego uzyskać rozkład procentowy (tzw. Rozkład 
częstości). Wyników próby rozdzielonych na k klas, 
tzw. szereg skumulowanych liczebności, będący 
podstawą tzw. dystrybuanty empirycznej określonej 
jako 

r

j

j

r

n

n

n

x

F

1

1

1

)

(

dla   r = 1,2,…,k.

 

j

1j

n

j

 /n

F

n

(x

1j

)

1
2
3
4
5
6

25
35
45
55
65
75

0,083

3

0,208

4

0,333

3

0,250

0

0,083

3

0,041

7

0,0833
0,2917
0,6250
0,8750
0,9583
1,0000

background image

 

 

Graficzna prezentacja wyników 

próby 

 
 

0

10

1

20

2

15

3

6

4

2

 

Wielobok liczebności 

background image

 

 

 Histogram i diagram

 

 
 

background image

 

 

Dwie cechy w populacji

Jeżeli w populacji generalnej bada się jednocześnie dwia 
cechy  i  Y , to matematycznym modelem rozkładu 
populacji jest rozkład prawdopodobieństwa 
dwuwymiarowej zmiennej losowej   ( X, Y) . Wyniki n-
elementowej próby stanowią wtedy pary liczb (x

i

, y

i

)  

dla i=1,2,…,n .
Dla dużych liczebności prób prezentacji wyników próby z 
dwuwymiarowej populacji dokonuje się w postaci tzw. 
tablicy korelacyjnej, stanowiącej dwudzielną kombinację 
dwóch szeregów rozdzielczych – cechy X  oraz Y . Tablica 
korelacyjna 
(dla cech ciągłych ) ma postać

background image

 

 

Tablica korelacyjna 

 

 

[y

01 

,  

y

11

)

 

[y

0 2 

,  y

1 2

)

 

 

[y

0 l 

,  y

1l

)

 

[x

01 

, x

11

)

[x

02 

, x

12

)

[x

03 

, x

13

)

.
.
.

[x

0k 

, x

1k

)

 

n

11

n

21

n

31

 

 

 

n

k1

 

n

1 2

n

2 2

n

3 2

 

 

 

n

k 2

 

 

n

1 l

n

2 l

n

3 l

 

 

 

n

k l

 

 

background image

 

 

Obliczanie wartości statystyk z 

próby 

 

Jeżeli przez  X = (X

1

,X

2

,…X

n

) oznaczymy n-elementową 

próbę losową a realizację próby (wektor liczbowych 
wyników próby) przez x = (x

1

,x

2

,…x

n

)  to statystyką   Z

n

 

   nazywamy dowolną funkcję próby X 
o wartościach rzeczywistych   Z

n

 = g(X)  

 
Z

n  

jest zmienną losową  ma więc swój rozkład 

prawdopodobieństwa.
 
Realizację zmiennej losowej Z

n

  będącej statystyką 

nazywamy wartością statystyki i oznaczamy 
symbolem z

n

 = g(x)    

 
Statystyki z próby dzielimy na miary skupienia 
(tendencji centralnych),  miary rozproszenia (rozrzutu, 
dyspersji), miary współzależności (korelacji).

background image

 

 

Miary skupienia

 

n

i

r

i

r

r

X

n

X

A

1

1

Moment zwykły rzędu     r

n

i

i

X

n

X

A

1

1

1

n

i

i

X

n

X

A

1

2

2

2

1

 

Dla r = 1 średnia arytmetyczna z próby.

 

Dla r = 2 średnia kwadratowa z próby.

background image

 

 

średnia arytmetyczna z 

próby 

Dla konkretnych wyników próby   x = (x

1

,x

2

,…x

n

)

  

n

i

i

x

n

x

1

1

Jeżeli mamy dla dużych prób, których wyniki 
pogrupowano w szereg rozdzielczy o k klasach. 

 
 

 

Wartość średniej wygodniej jest obliczać jako 
średnią ważoną

k

j

j

j

n

x

n

x

1

0

1

 

 

[x

0j 

x

1j

)

n

i

x

o

j

x

o

j

n

j

15-25
25-35
35-45
45-55
55-65
65-75

10
25
48
30
10

5

20
30
40
50
60
70

200
750

1600
1500

600
350

120

 

5000

(x

o

j

 jest środkiem  

klasy) 

background image

 

 

background image

 

 

background image

 

 

Odchylenia od średniej 

arytmetycznej

Ważną własnością wartości średniej arytmetycznej z 
próby jest, że suma odchyleń od niej dla wszystkich 
wyników   x

i

  w próbie wynosi zero :

 

 

n

i

n

i

i

i

n

i

i

n

i

i

x

x

x

n

x

x

x

1

1

1

1

0

)

(

background image

 

 

statystyki pozycyjne 

Jako miarę tendencji centralnej  empirycznego rozkładu 
uzyskanego w próbie występują też, statystyki 
pozycyjne
. Wyniki z próby należy uporządkować w 
niemalejący ciąg liczb.

)

(

)

2

(

)

1

(

...

n

x

x

x

Statystyką pozycyjną rzędu k nazywamy taką zmienną 
losową Z

(k)

n

  , 

której wartości zajmują k-te miejsce w uporządkowanym, 
niemalejącym ciągu wyników n-elementowej próby. 

Liczbę k nazywamy rzędem lub rangą statystyki 
pozycyjnej
 Z

(k)

k

  

background image

 

 

statystyki pozycyjne cd.

Statystyki pozycyjne dzielimy na skrajne oraz na 
środkowe (kwantyle z próby). Statystykę Z

(k)

k

  nazywamy 

skrajną jeżeli:
 

Statystykę Z

(k)

k

  nazywamy środkową jeżeli:

 

Środkowe statystyki pozycyjne zwane kwantylami z 
próby rzędu p
 
Rząd k statystyki pozycyjnej będącej kwantylem rzędu p 
określa się 
 
k =[np]     lub   k =[np] + 1 .

   

 

1

       

lub

        

0

lim

lim

n

k

n

k

n

n

}

1

,

0

{

lim

p

n

k

n

background image

 

 

Mediana

Statystyka pozycyjna szczególna 

)

(

2

n

n

Z

)

(

2

1

n

n

Z

dla parzystej liczby 
obserwacji 

dla nieparzystej liczby obserwacji 

Środkowa statystyka pozycyjna – 
mediana z próby (kwantyl z próby rzędu 
½).

n

n

n

n

n

n

2

1

2

1

2

lim

lim

background image

 

 

Mediana_2

Dla dużych prób, których wyniki pogrupowano w szereg 
rozdzielczy o k klasach medianę z próby wyznacza się ze 
wzoru interpolacyjnego:

 
gdzie  r

m

  oznacza numer przedziału klasowego, w którym 

znajduje się me (jest to przedział, w którym skumulowana 
liczebność n

j

  osiąga n/2 ,  x

om

 – początek przedziału 

klasowego, w którym znajduje się me ; n

m

 – liczebność 

przedziału r

m

 , h – rozpiętość (długość) przedziałów 

klasowych w szeregu rozdzielczym.

 





1

1

2

2

m

r

j

j

om

n

n

h

x

me

background image

 

 

background image

 

 

Kwantyle

Dla dowolnej liczby p  ( 0 < p < 1 ) kwantylem rzędu p  
rozkładu zmiennej losowej X nazywamy liczbę   x

p

  

spełniającą nierówności:
 
   
 
 Jeżeli istnieje (dla zmiennej losowej skokowej) więcej niż 
jedna taka liczba x

p

 , to przyjmuje się najmniejszą z nich.

Dla zmiennej ciągłej mamy równość  p=F(x

p

).

Podstawowymi 

kwantylami

 ważnymi zmiennej losowej X  

w praktyce statystycznej są:
Centyle  (p = 0.01  i  99 wielokrotności tej liczby  )
Decyle    (p = 0.1  i  9 wielokrotności tej liczby  )
Kwartyle  (p = 0.25  i  3 wielokrotności tej liczby  )
 
Najczęściej używanym kwantylem jest    x

0.5 

    mediana  

  

1

   

oraz

     

p

x

X

P

p

x

X

P

p

p

background image

 

 

background image

 

 

Miary rozproszenia

Rozstęp  

 

Wariancja z próby

Odchylenia standardowe 
z próby

min

max

)

(

1

)

(

X

X

Z

Z

R

n

n

n

n

i

i

n

i

i

X

X

X

n

X

n

S

S

1

___

2

1

2

__

2

2

1

1

)

(

Dla małych 
prób

n

i

X

X

n

S

n

n

S

1

2

___

2

2

1

1

1

ˆ

background image

 

 

Miary rozproszenia  2

n

i

m

X

n

S

1

2

2

*

1

Jeżeli znana jest wartość średniej populacji 
generalnej  m 





k

j

j

j

n

x

n

s

x

1

2

__

0

2

1

Dla danych z szeregu rozdzielczego 

[x

0j 

x

1j

)

n

i

15-25
25-35
35-45
45-55
55-65
65-75

10
25
48
30
10

5

background image

 

 

WARIANCJA

Ocenia wariancję na podstawie próbki.

Składnia

WARIANCJA(liczba1;liczba2;...)

Liczba1;liczba2;...   to od 1 do 30 argumentów liczbowych odpowiadających 
próbce z populacji.

Uwagi 

•Funkcja WARIANCJA przyjmuje, że jej argumenty są próbką z populacji. 
Jeżeli nasze dane reprezentują całą populację, należy obliczyć wariancję 
stosując funkcję WARIANCJA.POPUL.

•Wartości logiczne, takie jak PRAWDA i FAŁSZ oraz tekst są ignorowane. Jeśli 
wartości logiczne i tekst nie mają być ignorowane, użyj funkcji arkusza 
WARIANCJA.A.

•Funkcja WARIANCJA używa następującego wzoru:   

Excel  -  help

background image

 

 

background image

 

 

KOWARIANCJA

Podaje wartość kowariancji, tzn. 

średniej z iloczynów odchyłek 

każdej pary punktu danych. Należy 

używać kowariancji w celu 

określenia zależności pomiędzy 

dwoma zbiorami danych. Na 

przykład można sprawdzić, czy 

większe przychody związane są z 

wyższym poziomem wykształcenia.

Składnia

KOWARIANCJA(tablica1;tablica
2
)

Tablica1   jest pierwszą komórką 
zakresu liczb.

Tablica2   jest drugą komórką 
zakresu liczb.

background image

 

 

background image

 

 

Współczynnik korelacji z 

próby





 

n

i

n

i

i

i

n

i

i

i

y

x

n

i

i

i

y

y

x

x

y

y

x

x

s

s

y

y

x

x

n

r

1

1

2

2

1

1

1

 

n

i

n

i

i

i

n

i

i

i

y

y

x

x

y

x

n

y

x

1

1

2

2

1

background image

 

 

Współczynnik korelacji  cd.

y

x

k

s

l

sl

l

s

s

ns

n

y

y

x

x

r



 

1

1

0

0

)

)(

(

 

 
 

 

 

 

 

 

 

18
15
13
14
16
14

42
56
61
49
50
42

3
0
-2
-1
1
-1

-8
6
11
-1
0
-8

-24
0
-22
1
0
8

9
0
4
1
1
1

64
36
121
1
0
64

90

300

 

 

 

 

 

i

x

i

y

x

x

i

y

y

i

)

)(

(

y

y

x

x

i

i

2

)

(

y

y

i

2

)

(

x

x

i

-37

16

286

background image

 

 

WSP.KORELACJI

Podaje wartość współczynnika korelacji zakresów 

komórek tablica1 i tablica2 . Współczynnik korelacji 

jest wykorzystywany do wyznaczania zależności 

pomiędzy dwoma własnościami. Na przykład, można 

sprawdzić zależność między średnią temperaturą 

danej miejscowości, a używaniem klimatyzatorów.

Składnia

WSP.KORELACJI(tablica1;tablica2)

Tablica1   jest to zakres komórek zawierających 
wartości.

Tablica2   jest to drugi zakres komórek zawierających 
wartości.

Uwagi 

•Argumenty powinny być liczbami, nazwami, tablicami 
lub adresami zakresów zawierających liczby.

•Jeśli argument w postaci tablicy lub zakresu zawiera 
tekst, wartości logiczne lub komórki puste, to wartości 
takie są pomijane, jednakże uwzględnia się komórki z 
wartościami zerowymi.

•Jeśli zakresy tablica1 i tablica2 mają różne liczby 
punktów danych, to funkcja WSP.KORELACJI zwraca 
wartość błędu.

background image

 

 


Document Outline