Mat.Statystyka,2013L. Wykład 1 oraz materiał na dwiczenia
Ryszarda Rempała. Materiały dydaktyczne
1
WYKŁAD 1. Informacje wstępne. Sylabus. Wprowadzenie w
problematykę badao statystycznych. Elementy statystyki
opisowej
SYLABUS
1. Wprowadzenie w problematykę badao statystycznych.
Elementy statystyki opisowej.
2. Próba losowa prosta. Momenty z próby. Model
Statystyczny. Przykłady statystyk.
3. Dystrybuanta empiryczna. Twierdzenie.Gliwienki-
Cantelliego. Prawa wielkich liczb i Centralne twierdzenia
graniczne.
4.Funkcje charakterystyczne. Własności. Związek funkcji
charakterystycznych z rozkładami prawdopodobieostwa.
5. Przegląd i charakterystyka ważniejszych rozkładów
prawdopodobieostwa . Rozkład Chi-kwadrat. Rozkład
t-Studenta.
6. Estymatory i ich własności. Metody estymacji
punktowej. Problem oceny estymatora. Funkcja ryzyka.
Związek ryzyka z wariancją i obciążeniem
7. Informacja Fishera i nierównośd informacyjna
Mat.Statystyka,2013L. Wykład 1 oraz materiał na dwiczenia
Ryszarda Rempała. Materiały dydaktyczne
2
8. Estymacja przedziałowa. Przykłady konstrukcji
przedziałów ufności
9. Asymptotyczne przedziały ufności. Metoda delta
10. Weryfikacja hipotez. Metody konstrukcji testów
statystycznych
11.Testy parametryczne. Przykłady zastosowań
12. Testy nieparametryczne. Przykłady zastosowań
13. Weryfikacja hipotez dotyczących dwu populacji
14.Testy ilorazu wiarogodności. Podstawowy Lemat
Neymana-Pearsona. Krzywa mocy testu. Przykłady
wyznaczania krzywych
15. Elementy analizy regresji i analizy wariancji
Literatura
[1] M. Sobczyk.Statystyka Opisowa. CM.BECK, Warszawa 2010
[2] W. Niemiro. Rachunek Prawdopodobieostwa i Statystyka Matematyczna.
Biblioteka Szkoły Nauk Ścisłych, Warszawa 1999.
[3] M. Krzyśko. Statystyka Matematyczna, UAM, Poznań 2004.
[4] A. Plucińska i E. Pluciński. Probabilistyka . Rachunek
Prawdopodobieństwa. Statystyka Matematyczna. Procesy Stochastyczne. WNT.
Mat.Statystyka,2013L. Wykład 1 oraz materiał na dwiczenia
Ryszarda Rempała. Materiały dydaktyczne
3
Warszawa 2000.
[5] S. Trybuła. Statystyka Matematyczna z Elementami Teorii Decyzji. OWPW,
Wrocław 2004.
[6] W. Krysicki i inni. Rachunek prawdopodobieostwa i statystyka
matematyczna w zadaniach. Cz.2., PWN, 2007.
Wprowadzenie w problematykę badao
statystycznych.
(por.Sobczyk [1])
I. Przedmiot, metody i organizacja badao
statystycznych
Rodowód terminu statystyka pochodzi od słowa
łacioskiego status czyli paostwo. (
Gottfried
Achenwal (1719-1772)
– nazwa „statystyka” pojawiła się w
piśmiennictwie)
Do połowy XIX w. statystyka, to zbiór danych
liczbowych dotyczących paostwa. Rozszerzono
pojęcie na inne zbiory danych liczbowych.
Zbiory danych ujmowano w tablice. Pojawili się
tabelaryści. (1741 r. praca J. P. Anchersona)
(Opisywano najczęściej warunki bytu ludności , zestawiano
bilanse itp.)
Rozwój nauki: 1835r. W Anglii powołano
Królewskie Towarzystwo Statystyczne. W 1854 r.
odbył się w Brukseli I Międzynarodowy Kongres
Statystyczny.
Współcześnie statystyka ma wiele znaczeo:
Mat.Statystyka,2013L. Wykład 1 oraz materiał na dwiczenia
Ryszarda Rempała. Materiały dydaktyczne
4
- zbiory danych liczbowych,
- gromadzenie oraz opracowywanie danych,
- charakterystyki zbioru danych,
- dyscyplina naukowa o „ ilościowych metodach
badania prawidłowości występujących w zjawiskach
masowych” (Kurkiewicz,Stanowski 2005r).
-
potocznie - metody gromadzenia, prezentacji,
analizy i interpretacji danych dotyczących zjawisk
masowych.
W
Polsce, zasady gromadzenia danych, przechowywania,
opracowywania, udostępniania i rozpowszechniania danych oraz
wyników badao, tworzy System Informacyjny Statystyki Publicznej(
SIST). Prace SIST koordynuje GUS.
Statystyka – w programach nauczania
statystyka opisowa – wstępna analiza danych
statystyka matematyczna (wnioskowanie
statystyczne)
– metodologia wyciągania wniosków
(dotyczących badanego zjawiska masowego) na
podstawie danych statystycznych. Podstawy
teoretyczne metodologii – rachunek
prawdopodobieostwa
Zjawiska masowe (z.m.)
metody statystyczne są wykorzystywane do takich
z.m. , które dotyczą zbiorowości złożone z dużej
liczby jednostek (elementów).Na ogół jednostki te
są podobne ale nie identyczne.
Mat.Statystyka,2013L. Wykład 1 oraz materiał na dwiczenia
Ryszarda Rempała. Materiały dydaktyczne
5
prawidłowości ujawnione w obserwacji z.m.
nazywamy statystycznymi.(Np. prawidłowości
dotyczące charakterystyk demograficznych).
Badania statystyczne są pomocne przy podejmowaniu
decyzji w wielu dziedzinach życia i dają dużą siłę
poznawczą w różnych dyscyplinach naukowych.
Podstawowe pojęcia
a) Populacja generalna (p.g). (Inne nazwy: populacja,
zbiorowośd statystyczna)
p.g.- zbiór elementów (jednostek) objętych
badaniem.
b) Cecha statystyczna – badana właściwośd elementów
p.g. Bada się te cechy, które różnią elementy p.g -
(inna nazwa - zmienna obserwowalna).
cech jakościowe(niemierzalne) i ilościowe
(mierzalne)
cechy o wartościach skokowych (dyskretnych) i
ciągłych
Cechy wielowymiarowe.
Mat.Statystyka,2013L. Wykład 1 oraz materiał na dwiczenia
Ryszarda Rempała. Materiały dydaktyczne
6
Organizacja badao statystycznych
Etapy
przygotowanie badania: cel, metoda (badanie
pełne,
częściowe),
zbiorowośd
statystyczna,
badane cechy, jednostki sprawozdawcze.
obserwacja statystyczna: ustalenie wartości cech
ilościowych lub odmian cech jakościowych w
badanej próbie lub całej populacji – zbieranie
danych - materiał statystyczny pierwotny i wtórny.
opracowanie
materiału
statystycznego:
grupowanie i zliczanie,
prezentacja materiału statystycznego: szeregi
statystyczne,
opis lub wnioskowanie statystyczne.
Szereg statystyczny – zbiór wyników obserwacji cech
(materiał statystyczny)
szereg szczegółowy rozdzielczy przestrzenny dynamiczny
(uporządkowany) (strukturalny) (geograficzny) (czasowy)
wariantom cechy
przyporządkowuje się
liczebności
lub częstości
Mat.Statystyka,2013L. Wykład 1 oraz materiał na dwiczenia
Ryszarda Rempała. Materiały dydaktyczne
7
Przykład szeregu rozdzielczego punktowego:
Ocena testu (cecha)
2
3
4
5
Liczba studentów
3
20 6
1
Dane jakościowe
Podstawą analiz statystycznych są:
- rozkład empiryczny cechy. (Pojęciem tym określa się
przyporządkowanie
poszczególnym
wariantom
cechy,
obserwowalnym w próbce, liczności lub częstości ich występowania).
- wykresy: kołowe, słupkowe…
Przykład
Tabela: Skład wyznaniowy ludności Warszawy w 1864 i 1917 (K.M. str.14,15)
Wyznanie
Rok
Liczebnośd
1864
%
Rok
Liczebnośd
1917
%
Katolicy
131808
59.1
387069
46.2
Prawosławni
3026
1.4
3961
0.5
Ewangelicy
15909
6.7
12147
1.5
Żydzi
72772
32.6
329535
39.3
Inne
287
0.2
104500
12.5
Mat.Statystyka,2013L. Wykład 1 oraz materiał na dwiczenia
Ryszarda Rempała. Materiały dydaktyczne
8
Dane ilościowe
tablice, szeregi rozdzielcze, wykresy
histogram : zbiór przylegających prostokątów;
podstawa - rozpiętośd klasy, wysokośd -
liczebnośd, częstotliwośd lub natężenie
liczebności.
wielobok liczebności(częstości)- łamana
powstała przez połączenie punktów
odpowiadającym środkom klas i odpowiadającym
licznościom (częstościom))
dystrybuanta empiryczna
3. Grupowanie danych
Przykład.
Rejestr wieku 20 pracowników zgłaszających się na
badanie lekarskie w pewnej firmie:
36, 41, 33, 34, 38, 26, 33, 36, 30, 48, 39, 31, 35, 36, 38, 37, 22,
31, 25, 32.
Liczba różnych wartości cechy = 16. Wykres 16-słupkowy
mało czytelny – wkładamy wartości cechy w przedziały, np:
[20,25), [25,30), [30,35), [35,40), [40,45), [45,50)
1 2 7 8 1 1
Szereg rozdzielczy przedziałowy przedstawia się graficznie w postaci wykresu
nazywanego histogramem.
Mat.Statystyka,2013L. Wykład 1 oraz materiał na dwiczenia
Ryszarda Rempała. Materiały dydaktyczne
9
Przy dużej liczności próbki dane grupuje się w przedziały klasowe.
Najczęściej tworzy się szereg rozdzielczy z klasami o jednakowej
długości (nie jest to konieczne). Liczbę klas dobiera się w zależności
od liczności próbki n. Praktycy mają swoje sposoby na ustalania
liczby klas. Niektórzy zalecają przyjąd liczbę klas k spełniającą
nierównośd
n
k
n
4
3
Jeżeli przyjąd, że klasy będą jednakowej długości to praktycy
zalecają wyznaczyd długośd klasy z następującego wzoru
Długośd klasy:
k
x
x
min
max
max
x
,
min
x
oznaczają odpowiednio największą i najmniejszą
obserwację.
Końcowy etap badania statystycznego
Opis statystyczny (dziedzina statystyki opisowej)
dotyczy całej badanej populacji lub jej podzbioru (próby,
która nie musi byd losowa). Miary opisu: miary centralne
(np. średni poziom cechy), rozproszenia (dyspersji),
asymetrii, ...
histogram liczebności
Mat.Statystyka,2013L. Wykład 1 oraz materiał na dwiczenia
Ryszarda Rempała. Materiały dydaktyczne
10
dotyczy także współzależności zjawisk - powiązao między
różnymi cechami zbiorowości (np. staż pracy
i wynagrodzenie w ustalonej firmie).
dotyczy również dynamiki zjawisk (rozwój badanego
zjawiska w czasie nazywa się szeregiem czasowym)
Wnioskowanie statystyczne
Wnioskowanie o generalnej populacji na podstawie
próby losowej (wnioskowanie reprezentacyjne) –
uogólnianie wyników z próby na całą zbiorowośd
statystyczną. W zakres wnioskowania wchodzi
estymacja
i
testowanie
hipotez.
Teoretyczną
podstawą jest rachunek prawdopodobieostwa
Przykłady problemów statystycznych
1 . Testowanie hipotezy, że producent utrzymuje
zapowiedzianą na opakowaniu normę.
Listwy podłogowe dostarczane przez tartak powinny mied średnią
długośd 240 cm z odchyleniem standardowym 15cm.
Czy można na poziomie istotności
05
,
0
twierdzid, że dostarczona
duża partia listew jest zgodna z tą normą, jeśli w losowej próbie 20
listew średnia długośd wynosiła 234 cm. (Można założyd, że rozkład
długości produkowanych listew jest normalny).
2. Sprawdzanie rzetelności kostki do gry planszowej
W celu sprawdzenia , czy kostka sześcienna do gry jest rzetelna
(symetryczna) wykonano 120 rzutów, uzyskując wyniki:
Liczba oczek
1 2 3 4
5
6
Liczba rzutów
11 30 14 10
33
22
Mat.Statystyka,2013L. Wykład 1 oraz materiał na dwiczenia
Ryszarda Rempała. Materiały dydaktyczne
11
Zweryfikuj, na poziomie istotności 0.05, hipotezę, że kostka jest
rzetelna.
3. Przykład zadania ze statystyki opisowej
1.
Przeprowadzono badania dotyczące rozkładu czasu trwania
rozmów telefonicznych. Wyniki – w minutach - dla 32 połączeo
telefonicznych przedstawiały się następująco:
Czas
rozmowy
liczba
rozmów
0 – 5 7
5 – 10 10
10 –15 8
15 –20 4
20 –25 2
25 –30 1
32
a) podaj średni czas rozmowy………………………………………………………………………………………….
b) Wyznacz następujące miar zróżnicowania czasu trwania rozmów i podaj ich wartości:
wariancję empiryczną i odchylenie standardowe……..……………………………………………
…………………………………………………………………………………………………………………………
typowy obszar zmienności badanej cechy…… ………………………………………….…………
…………………………………………………………………………………………………………………………
Oceo (w przybliżeniu) jaki procent rozmów znajduje się w typowym obszarze………..
zmienności? …………………………………………………………………………………………………………
Prezentacja i analiza danych empirycznych
a) szereg punktowy: x
1,
x
2
,…, x
n
b) szereg rozdzielczy punktowy,
c) szereg rozdzielczy przedziałowy.
Mat.Statystyka,2013L. Wykład 1 oraz materiał na dwiczenia
Ryszarda Rempała. Materiały dydaktyczne
12
Ad b) Schemat szeregu rozdzielczego punktowego
Cecha
x
1
licznośd
n
i
częstość
w
i
Udział procentowy
w
i
100
x
2
n
1
w
1
w
1
100
x
3
n
2
w
2
w
2
100
x
4
n
3
w
3
w
3
100
...
x
k
n
k
w
k
w
k
100
Suma
n
1
100
Ad c) Schemat szeregu rozdzielczego przedziałowego
Cecha
x
0i
-x
1i
licznośd
n
i
częstość
w
i
Udział procentowy
w
i
100
x
01
-x
11
n
1
w
1
w
1
100
x
02
-x
12
n
2
w
2
w
2
100
x
03
-x
13
n
3
w
3
w
3
100
...
x
0k
-x
1k
n
k
w
k
w
k
100
Suma
n
1
100
Rozważmy szereg punktowy częstości
Wartości cechy
x
1
x
2
… x
n
częstosci wzgledne w
1
w
2
… w
n
gdzie w
i
= n
i
/n, n
i
– licznośd i-tej obserwacji w próbie,
n-ogólna liczba obserwacji.
Mat.Statystyka,2013L. Wykład 1 oraz materiał na dwiczenia
Ryszarda Rempała. Materiały dydaktyczne
13
Dystrybuanta empiryczna, to taka funkcja : F: R
że F(x)=
Materiał na dwiczenia
Opis próbki empirycznej.
Mierniki statystyczne: średnia
arytmetyczna, mediana, dominanta, wariancja, odchylenie
standardowe skośnośd i kurtoza.
Miary opisowe rozkładu empirycznego
Syntetyczny sposób charakteryzacji struktury danych
statystycznych: poziom cechy, zróżnicowanie wartości
oraz kształt rozkładu.
Miary położenia (inne nazwy- miary tendencji
centralnej, przeciętnego poziomu): średnia
arytmetyczna, dominanta, kwantyle, kwartyle,
mediana
Miary rozproszenia (inne nazwy - miary
zróżnicowania, zmienności, rozrzutu, dyspersji):
rozstęp, wariancja, odchylenie standardowe,
typowy obszar zmienności, klasyczny współczynnik
zmienności, odchylenie dwiartkowe (kwartylowe)
Miary kształtu rozkładu: współczynnik skośności
Pearsona, klasyczny współczynnik zmienności,
pozycyjny współczynnik asymetrii, współczynnik
kurtozy.
Mat.Statystyka,2013L. Wykład 1 oraz materiał na dwiczenia
Ryszarda Rempała. Materiały dydaktyczne
14
Miary położenia
1) Średnia arytmetyczna, oznaczenie x
a) szereg szczegółowy
x
1
, x
2
, ...,x
n
- wartości cechy w doświadczeniu
)
x
x
x
(
n
1
x
n
2
1
=
n
1
i
i
x
n
1
b) szereg rozdzielczy punktowy
Ogólnie:
k
1
i
k
1
i
k
1
i
i
i
i
i
i
i
w
x
n
n
x
n
x
n
1
x
c) szereg rozdzielczy przedziałowy
Przykład. X – wyraża czas dojazdu do pracy w min.
Ogólnie: mamy k przedziałów klasowych:i=1,2,...,k
x
0i
-dolna granica i-tego przedziału
x
0i
-górnana granica i-tego przedziału
i
x
-środek i-tego przedziału
k
1
i
k
1
i
k
1
i
i
i
i
i
i
i
w
x
n
n
x
n
x
n
1
x
Mat.Statystyka,2013L. Wykład 1 oraz materiał na dwiczenia
Ryszarda Rempała. Materiały dydaktyczne
15
Własności
max
min
x
x
x
,
n
1
i
i
)
x
x
(
= 0
n
1
i
2
i
)
x
x
(
n
1
i
2
i
)
x
x
(
dla każdego x
2. Dominanta (moda, wartośd najczęstsza)
Miara tendencji centralnej – najczęściej występująca
wartośd cechy w zbiorze.
Oznaczenie- D
Przykład: X-liczba wizyt w kinie
0 0 0 0 1 1 1 1 1 2 2 2 3 3
D = 1
a) szereg szczegółowy i szereg rozdzielczy punktowy
D = wartośd najliczniejszego wariantu cechy
b) szereg rozdzielczy przedziałowy
Dominantę wyznacza się w rozkładzie, który ma:
wyraźnie zaznaczone maksimum
zbliżony jest do symetrycznego
Mat.Statystyka,2013L. Wykład 1 oraz materiał na dwiczenia
Ryszarda Rempała. Materiały dydaktyczne
16
. -
. -
. -
. -
. -
-
Dominanta
h
)
n
n
(
)
n
n
(
n
n
x
D
1
D
D
1
D
D
1
D
D
D
0
(*)
Wzór (*) można także podad w wersji odpowiadającej
rozkładowi określonemu za pomocą częstości . Ma on
wtedy postad:
)
w
w
(
)
w
w
(
w
w
x
D
1
D
D
1
D
D
1
D
D
D
0
h
w
D
, w
D-1
, w
D+1
oznaczają odpowiednio częstości względne
przedziałów dominanty, przedziału poprzedniego i
następnego.
3. Kwantyle
Kwantyle są miarami pozycyjnymi. Charakterystyki te
wskazują na położenie rozkładu względem osi liczbowej,
x
0D
- dolna granica dominującego przedziału
n
D
- licznośd dominującego przedziału
n
D-1
– licznośd przedziału poprzedniego
n
D+1
- licznośd przedziału następnego
h
- rozpiętośd dominującego przedziału
Równanie dłuższej prostej : L(t)= n
D-1
+ (t-x
0D
)
h
n
n
1
D
D
Równanie krótszej prostej: L(t)= n
D
+ (x
0D
-t)
h
n
n
1
D
D
Punkt przecię
cia prostych = dominanta ( D)
Mat.Statystyka,2013L. Wykład 1 oraz materiał na dwiczenia
Ryszarda Rempała. Materiały dydaktyczne
17
na której zaznaczono wartości cechy. Kwantylem rzędu p
(0<p<1) w rozkładzie jest taka wartośd cechy, że
%
100
p
obserwacji ma wartości nie większe od niej .
Kwantyle rzędu p = 1/4 i p=3/4 nazywają się kwartylami.
Oznaczamy je odpowiednio
4
/
3
4
/
1
Q
,
Q
.
Kwantyl rzędu p = ½ nazywa się medianą. Oznaczamy go
literą M.
4. Mediana
W przybliżeniu można powiedzied, że jest to środkowa
wartośd cechy w doświadczeniu. Dzieli ona wartości próbki
na połowy tak, że połowa obserwacji ma wartości nie
większe od niej a druga nie mniejsze.
a) szereg szczegółowy uporządkowana lub szereg
rozdzielczy punktowy
Przykład. 1, 3, 5 , 6, 9 ; M= 5
1, 3, 5 , 6, 9, 10;
5
.
5
2
6
5
M
liczebnośd
parzysta
2
x
x
M
2
/
)
2
n
(
2
/
n
liczebnośd
nieparzysta
2
/
)
1
n
(
x
M
Mat.Statystyka,2013L. Wykład 1 oraz materiał na dwiczenia
Ryszarda Rempała. Materiały dydaktyczne
18
Wyznaczanie mediany w przypadku szeregu rozdzielczego
przedziałowego
Przykład. Czas obsługi klienta w sklepie w min. (przedziału
prawostronnie domknięte)
x
0i
-x
1i
n
i
w
i
n(x
i
) =
licz. sk.
F
n
(x
i
) =
czest. sk.
0-4
4-8
8-12
12-16
16-18
12
16
10
9
3
0,24
0.32
0.20
0.18
0.06
12
28
38
47
50
0.24
0.56
0.76
0.94
1
suma
50
1
Zauważmy, że środkowa obserwacja: n/2 = 25, po raz pierwszy
została przekroczona w przedziale (4,8+.
Przyjmujemy następujące (upraszczające) założenie.
(**) Obserwacja w przedziałach są rozłożone równomiernie.
Zatem w przedziale (4,8] obserwacje są w odstępach (8-4)/16 =
0.25
Stąd wynika, że 25 obserwacją jest 13 obserwacją z
przedziału (4,8+, co oznacza, że jest to wielkośd
Mat.Statystyka,2013L. Wykład 1 oraz materiał na dwiczenia
Ryszarda Rempała. Materiały dydaktyczne
19
M= 4+ (13) (0.25) = 7.25
Ogólny wzór na medianę jest oparty na opisanej metodzie.
W przypadku szeregu rozdzielczego przedziałowego przyjmuje się
następujący wzór na wyznaczanie mediany (M)
(***)
M
M
M
0
M
0
n
h
)
x
(
n
2
n
x
M
gdzie
x
0M
– dolna granica przedziału , w którym znajduje
się mediana,
)
x
(
n
M
0
- licznośd skumulowana do dolnej granicy
przedziału median, h
M
– rozpiętośd przedziału mediany,
n
M
– licznośd przedziału mediany, n - liczba zbadanych
jednostek.
Wyznaczanie mediany za pomocą częstości względnych
(dystrybuanty empirycznej) dla cech ciągłej
Ta metoda opiera się na przekształconym wzorze (***).
Jeżeli znamy dystrybuantę empiryczną to mediana jest taką
wartością cechy, która po raz pierwszy przekroczy wartośd
0.5.
Uwagi. Mediana jest miarą tendencji centralnej dla
wartości cechy w próbce -lokuje „środek rozkład ”.
Jest niewrażliwa na występowanie „odstających” t.zn.
bardzo małych lub bardzo dużych wartości cech.
Mat.Statystyka,2013L. Wykład 1 oraz materiał na dwiczenia
Ryszarda Rempała. Materiały dydaktyczne
20
5. Kwartyle rzędu 1/4 i ¾. Oznaczamy je odpowiednio
4
/
3
4
/
1
Q
,
Q
Pierwszy kwartyl
,
Q
4
/
1
oznacza, że 25% zbiorowości
przyjmuje wartości nie większe niż
4
/
1
Q
a 75% nie
mniejsze.
Trzeci kwartyl
,
Q
4
/
3
oznacza, że 75% zbiorowości
przyjmuje wartości nie większe niż
4
/
3
Q
a 25% nie
mniejsze.
Drugi kwartyl to mediana
Wzory na wielkości kwartyli
Dla szeregów punktowych (bez poprawki na parzystośd)
Q
1
)
4
/
n
(
x
;
Q
3
)
4
/
n
3
(
x
Dla szeregów rozdzielczych przedziałowych
1
1
1
1
Q
Q
Q
0
Q
0
)
4
/
n
(
1
n
h
)
x
(
n
4
n
x
x
Q
3
3
3
3
Q
Q
Q
0
Q
0
)
4
/
n
3
(
3
n
h
)
x
(
n
4
n
3
x
x
Q
gdzie
3
1
Q
0
Q
0
x
,
x
- Dolne granice przedziałów odpowiednio dla Q
1,
Q
3;
)
x
(
n
1
Q
0
,
)
x
(
n
3
Q
0
- liczebności skumulowane do momentu pojawienia się
odpowiednio przedziału pierwszego i przedziału trzeciego kwartyla;
3
1
Q
,
Q
h
h
- rozpiętości przedziałów odpowiednio pierwszego i trzeciego
kwartyla;
Mat.Statystyka,2013L. Wykład 1 oraz materiał na dwiczenia
Ryszarda Rempała. Materiały dydaktyczne
21
2
1
Q
Q
n
,
n
licznośd przedziałów odpowiednich kwartyli.
Miary rozproszenia (inne nazwy - miary zróżnicowania,
zmienności, rozrzutu, dyspersji)
1. Rozstęp
Całkowita zmiennośd w wartości cechy w próbie
(wstępna ocena dyspersji, miara pozycyjna)
R= x
max
- x
min
x
max
– najwyższa wartośd cechy
x
min
– najniższa wartośd cechy
Wykres pudełkowy czasu obsługi
x
min
Q
1
M Q
3
x
max
Wykres pudełkowy pozwala różne parametry rozkładu
przedstawid poglądowo.
Wartości cechy w przedziale
]
M
,
Q
[
1
są bardziej „zagęszczone” niż w
].
Q
,
M
[
3
2. Wariancja z próby
a)
szereg szczegółowy, (n = licznośd próby, k = liczba
wariantów cechy).
2
S
n
1
n
1
i
2
i
)
x
x
(
- wartośd średnia sumy
Mat.Statystyka,2013L. Wykład 1 oraz materiał na dwiczenia
Ryszarda Rempała. Materiały dydaktyczne
22
kwadratów odchyleo od średniej
b) szereg rozdzielczy punktowy
2
S
n
1
k
1
i
i
2
i
n
)
x
x
(
c) szereg rozdzielczy przedziałowy
2
S
n
1
k
1
i
i
2
i
n
)
x
x
(
Uproszczona formuła liczenia S
2
Po prostych przekształceniach można wykazad , że
2
S
n
1
k
1
i
i
2
i
n
)
x
x
(
=
n
1
2
k
1
i
i
2
i
x
)
n
x
(
3. Odchylenie standardowe
Bezwzględna miara zróżnicowania: S =
2
S
4. Typowy obszar zmienności wartości cechy w
doświadczeniu
s
x
x
s
x
typ
Przykład. Komunikat: Średnia temperatura lipca wynosi
17
0 +
_
2
0
Typowy obszar zmienności to przedział *15
0
, 19
0
]
Mat.Statystyka,2013L. Wykład 1 oraz materiał na dwiczenia
Ryszarda Rempała. Materiały dydaktyczne
23
5. Standaryzowane wartości cechy.
Przy porównywaniu obszarów zmienności kilku cech
wygodnie jest wprowadzid uniwersalny obszar zmienności.
W tym celu przekształcamy wartości cechy:
u
i
=
s
x
x
i
Typowy obszar zmienności dla przekształconych wartości
cechy to
-1
1
u
i
Przykład zastosowania (slajd)
6. Klasyczny współczynnik zmienności
Względna miara zróżnicowania cechy:
V=
%
100
x
S
7. Odchylenie dwiartkowe
(kwartylowe)
Bezwzględna miara zróżnicowania – rozstęp
uwzględniający 50% środkowych wartości
Q= Q
3/4
– Q
1/4
Mat.Statystyka,2013L. Wykład 1 oraz materiał na dwiczenia
Ryszarda Rempała. Materiały dydaktyczne
24
Miary skośnośd i spłaszczenia rozkładu
1.
Współczynnik skośności Pearsona
Charakteryzuje asymetrię rozkładu przez porównanie
średniej i dominanty
w
pirson
=
S
D
x
2. Klasyczny współczynnik asymetrii
Charakteryzuje skośnośd rozkłady za pomocą 3
momentu centralnego z próby
W
klasyk
=
3
3
S
Niech n = licznośd próby, k = liczba wariantów cechy
a) szereg szczegółowy
3
n
1
n
1
i
3
i
)
x
x
(
b) szereg rozdzielczy punktowy
3
n
1
k
1
i
i
3
i
n
)
x
x
(
c) szereg rozdzielczy przedziałowy (
i
x
środek
przedziału)
3
n
1
k
1
i
i
3
i
n
)
x
x
(
Mat.Statystyka,2013L. Wykład 1 oraz materiał na dwiczenia
Ryszarda Rempała. Materiały dydaktyczne
25
Trzeci moment centralny liczy się jak wariancję zamieniając we wzorze
potęgę drugą na trzecią
3.Pozycyjny współczynnik asymetrii
Współczynnik mierzy skośnośd rozkładu w jego
centralnej części. Definiowany jest za pomocą 1,2 i 3
kwartyla:
W
pozycyjny
=
4
/
1
4
/
3
4
/
1
4
/
3
Q
Q
)
Q
M
(
)
M
Q
(
Znak informuje o kierunku skośności (dodatni skośnośd
prawostronna, ujemny lewa), moduł wartości informuje o
sile asymetrii w części centralnej rozkładu.
4. Pudełko z wąsami
min Q
1/4
M Q
3/4
max
Rysunek przedstawia obrazowo rozkład za pomocą kwartyli:
1,2 i 3
oraz minimalnej i maksymalnej wartości cechy. (Widad, że
rozkład jest lewostronnie skośny).
Mat.Statystyka,2013L. Wykład 1 oraz materiał na dwiczenia
Ryszarda Rempała. Materiały dydaktyczne
26
3.
Współczynnik kurtozy (spłaszczenia rozkładu)
Dotyczy jedynie rozkładów symetrycznych. Jest miarą
spłaszczenia rozkładu cechy. Wykorzystuje 4 moment
centralny.
W
kurtoza
=
4
4
S
Czwarty moment centralny liczy się tak jak wariancję
wstawiając w miejsce drugiej potęgi potęgę czwartą.
Wyliczony dla rozkładu normalnego współczynnik kurtozy wynosi 3.
Wartośd W
kurtoza
porównuje się więc z liczbą 3. Jeśli W
kurtoza
< 3
spłaszczenie jest mniejsze od normalnego, jeśli W
kurtoza
> 3 skupienie
wartości cechy wokół średniej jest większe niż w rozkładzie
normalnym.