STATYSTYKA-WICZENIA, Statystyka


STATYSTYKA

Literatura podstawowa:

  1. Wacława Starzyńska - „Statystyka praktyczna”; PWN 2002, 2004

  2. Gorg A. Ferguson, Yosho Takana - Analiza Statystyczna w psychologii i pedagogice”; PWN

  3. Jarosław Podgórski - „ Statystyka dla studiów licencjackich”; PWE

Literatura uzupełniająca:

  1. Jerzy Brzeziński - „Metodologia badań psychologicznych”; PWN

  2. Chawa Frankword-Nachmias, David Nachmias - „Metody badawcze w naukach społecznych”; Zysk i Sp.

    1. PODSTAWOWE POJĘCIA STATYSTYKI 01.10.2006

Statystyka inaczej:

Statystyka dzieli się na dwa działy:

  1. Statystyka opisowa - zajmuje się zbiorowością, wyznaczeniem miar statystycznych oraz prezentację danych

  2. Statystyka indukcyjna - inaczej matematyczna - zajmuje się określeniem właściwości populacji na podstawie zredukowanej liczby informacji (na podstawie próby) przy użyciu metod opartych na rachunku prawdopodobieństwa

Rodzaje zbiorowości:

  1. zbiorowość generalna, inaczej populacja - jest to zbiór wszystkich obiektów lub zdarzeń poddanych badaniu statystycznemu, co do których formułujemy wnioski natury ogólnej, na podstawie zredukowanej liczby informacji

  2. Zbiorowość próbna - jest to podzbiór zbiorowości generalnej, wybrany w określony sposób i poddany obserwacji statystycznej

Elementy zbiorowości to JEDNOSTKI STATYSTYCZNE

Jednostki statystyczne - posiadają pewne właściwości

- właściwości istotne z punktu widzenia badania, nazywamy CECHAMI STATYSTYCZNYMI

TYPOLOGIA CECH STATYSTYCZNYCH

0x08 graphic
0x01 graphic

Cechy stałe - są to właściwości, takie same dla wszystkich badanych jednostek, zbiorowości

- służą do opisu zbiorowości

Cechy zmienne (zmienne) - są to właściwości, które różnicują badane zbiorowości

A. Zmienne jakościowe - to niemierzalne

- opisuje się w sposób symboliczny lub opisowy

- posiadają swoje warianty

B. Zmienne ilościowe - to mierzalne

- przedstawia się w postaci liczbowej

- posiadają swoje wartości

[arbitralny punkt - to punkt zerowy określony przez człowieka]

[naturalny punkt zerowy - to określony przez naturę, np. waga]

zmienne ilościowe jako całość dzielimy na:

[np. wzrost od 160-170 zawsze można znaleźć wartość pośrodku, np. 160-161, może być 160,5]

PORZĄDKOWANIE I GRUPOWANIE DANYCH

  1. PORZĄDKOWANIE - zmiennej ilościowej polega na utworzeniu rosnącego lub malejącego ciągu jej wartości

  2. GRUPOWANIE - polega na przyporządkowaniu jednostek zbiorowości do określonych podgrup tej zbiorowości, zwanych klasami utworzonych ze względu na wartość zmiennej.

Uporządkowane i pogrupowane dane przedstawia się najczęściej w formie szeregów statystycznych.

Rodzaje szeregów statystycznych:

np. zarobki

1) szereg szczegółowy

800, 800, 900, 1100, 1200

1600, 2100, 2100, 2100, 2700

2) szereg punktowy

xi

ni (fi)

800

2

900

1

1100

1

1200

1

1600

1

2200

3

2700

1

N=10

xi - x z indeksem „i” - wskazuje na kolejną wartość, np. 1,2 i 3

xi - to wartości zmiennej

ni - liczebność jednostkowa, to liczba jednostek zbiorowości posiadających daną wartość zmiennej (fi)

N - liczebność zbiorowości (liczba jednostek badanej zbiorowości) N = ni

0x01 graphic
- suma liczebności (częstotliwość)= liczebność zbiorowości

3) szereg przedziałowy

xi

ni

0-1000

3

1000-2000

3

2000-3000

4

N=10

k - to liczba przedziałów w szeregu (k=3)

x0i - to wartości, które rozpoczynają każdy przedział, to dolna granica przedziału

x1i - wartości, które zamykają, to górna granica przedziału

0x08 graphic

- wartości, które są w środku przedziału, to środek przedziału, to średnia arytmetyczna górnej i dolnej granicy

0x01 graphic

h - rozpiętość lub szerokość przedziału (różnica między górną i dolną granicą)

0x01 graphic

R - rozstęp lub obszar zmienności

R= x max - xmin

    1. MIARY TENDENCJI CENTRALNEJ 15.10.2006

Wyróżniamy 3 miary:

  1. Średnie

Średnia arytmetyczna:

  1. Mediany

  1. Dominanty (wartość modalna)

Tendencja centralna:

0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic

ŚREDNIA ARYTMETYCZNA:

0x01 graphic

0x01 graphic

0x01 graphic

MEDIANA

Jest to wartość środkowa, która dzieli badaną zbiorowość na dwie równe części, takie, że jednostki pierwszej części posiadają wartości zmiennej nie większe od wartości mediany (= lub <), a jednostki drugiej części posiadają wartości nie mniejsze od wartości mediany (= lub >)

Przykład:

1,2,3,4,5 3 - to mediana

1,2,3,.., 4,5,6 3,5 - to mediana

1,1,1,1,2,3,7 1 - to mediana

0x01 graphic

Me - mediana

x0m - dolna granica przedziału mediany (0-to zero)

N - pozycja mediany

2

M-1 - do przedziału poprzedniego

hM - rozpiętość przedziału mediany

nM - liczebność przedziału mediany

0x01 graphic
- to suma liczebności cząstkowych, liczona od początku szeregu do przedziału poprzedzającego przedział mediany

Szukanie przedziału pozycji mediany:

xi

ni (fi)

N

2

nisk

0-10

2

7

2

10-20

3

7

5 (2+3=5)

20-30

4

7

9 (5+4=9)

30-40

3

7

12

40-50

2

7

14

N=14

nisk - liczebność skumulowana dla danego przedziału jest sumą liczebności cząstkowych tegoż przedziału i wszystkich przedziałów go poprzedzających

liczba 9 - w tym miejscu przekroczyło nam liczbę 7 (pozycję mediany) i wówczas ten przedział jest przedziałem mediany

0x01 graphic

DOMINANTA

Dominanta - inaczej wartość typowa bądź modalna

0x08 graphic
- jest to wartość zmiennej, która powtarza się najczęściej w badanej zbiorowości

Sposób wyznaczania dominanty dla szeregu prostego

  1. uporządkować szereg rosnąco (czasami malejąco),

  2. podsumować jednostki, które maja tę samą wartość.

  3. dominantą będzie wartość występująca najczęściej.

Sposób wyznaczania dominanty dla szeregu rozdzielczego

Dominantę z szeregu rozdzielczego można w przybliżeniu wyznaczyć także w sposób graficzny0x08 graphic

0x01 graphic

gdzie: x0D - dolna granica przedziału w którym znajduje się dominanta,

nD - liczebność przedziału, w którym znajduje się dominanta,

nD-1 - liczebność przedziału poprzedzającego przedział dominanty,

nD+1 - liczebność przedziału następującego po przedziale dominanty

hD - rozpiętość przedziału dominanty

- przedział dominanty - zawsze tam, gdzie jest największa liczebność

Przykład:

xi

ni (fi)

N

2

nisk

0-10

2

7

2

10-20

3 (2+3=5)

7

5

20-30

4 (5+4=9)

7

9

30-40

3 (9+3=12)

7

12

40-50

2 (12+2=14)

7

14

N=14

0x01 graphic

ZADANIE 1:

Zbadano zatrudnienie w 40 najmniejszych firmach w Z.G. Uzyskano następujące wyniki:

xi

ni

0x01 graphic

ni0x01 graphic

0-5

8

2,5

20

5-10

12

7,5

90

10-15

14

12,5

175

15-20

3

17,5

52,5

20-25

2

22,5

45

25-30

1

27,5

27,5

N=40

410

Obliczyć średnią zatrudnienia dla firm

Obliczyć medianę i dominantę

Średnia:

0x01 graphic

Mediana:

0x01 graphic

Dominanta:

0x01 graphic

ZADANIE 2:

Pewien student uzyskał na koniec III semestru następujące wyniki zaliczeń i egzaminów:

Student stara się o stypendium, które przysługuje od średniej 4,0. Czy student dostanie stypendium?

- średnia - szereg szczegółowy

0x01 graphic

ZADANIE 3:

W obiektach turystycznych zachodniej Polski ustalono liczbę miejsc noclegowych, uzyskano następujące dane (wyniki)

xi

ni

0x01 graphic

ni0x01 graphic

20-35

6

27,5

165

35-50

7

42,5

297,5

50-65

9

57,5

517,5

65-80

14

72,5

1015

80-95

7

87,5

612,5

95-110

3

102,5

307,5

110-125

2

117,5

235

N=48

3150

Proszę określić średnią liczbę m-c noclegowych, przypadających na jeden obiekt w zachodniej Polsce.

Średnia - szereg przedziałowy

0x01 graphic

    1. MIARY TENDENCJI CENTRALNEJ - MIARY POŁOŻENIA I KWARTYLI 05.11.2006

0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic

0x08 graphic

Q1 = kwartyl 1

Q2 = Me

Q3 = kwartyl 3

(Q1 dzieli zbiorowość na dwie części w sposób następujący - 25% jednostek statystycznych jeszcze tej wartości nie osiągnęło, a pozostałe 75% tę wartość przekroczyło.

(Q3 to taka wartość badanej cechy, której 75% liczebności jeszcze nie osiągnęło tej wielkości, a 25% ją przekroczyło)

Liczenie:

0x01 graphic

0x01 graphic

0x01 graphic
- dolna granica przedziału Q1 lub Q3

0x01 graphic
- pozycje Q1 lub Q3

0x01 graphic
- suma liczebności cząstkowych liczona od początku szeregu (od góry) do przedziału poprzedzającego przedział Q1 lub Q3

0x01 graphic
- rozpiętość przedziału Q1 lub Q3

0x01 graphic
- liczebność przedziału Q1 lub Q3

ZADANIE:

Aby przyjąć do pracy nocnych urzędników Ministerstwo Gospodarki rozpisało konkurs, do konkursu zgłosiło się 100 kandydatów, ich prace i dorobek były punktowane od 0-16 punktów, do pracy w Ministerstwie można przyjąć 25 osób, które najlepiej wypadły w konkursie. Ile punktów należało uzyskać, żeby zdobyć pracę w Ministerstwie.

xi

ni

nisk

¾ N= ¾ *100 = 75

0-2

5

5

75

2-4

5

10

75

4-6

6

16

75

6-8

30

46

75

8-10

25

71

75

10-12

15

86

75

12-14

10

96

75

14-16

4

100

75

N=100

3150

Uczestników było 100, chcą przyjąć 25, czyli ¼ - liczymy więc Q3

(jeżeli 100, a ¼ najgorszych należy oddać na douczanie to liczymy Q1)

0x01 graphic

Odp. Należy otrzymać min 10,53 punktów.

    1. MIARY ZMIENNOŚCI - ZRÓŻNICOWANIA I DYSPERSJI

Miary zróżnicowania, to wartości, które uogólniają zróżnicowanie jednostek zbiorowości w postaci jednej miary (wartości)

  1. rozstęp - oparta jest na wartościach skrajnych

R = xmax - xmin

Np. 20, 23 R= 3

20, 55 R= 35 - zmienność większa

  1. odchylenie przeciętne

  1. wariancja - to kwadrat średnich odchyleń wartości zmiennej od jej średniej arytmetycznej

(VAR; 0x01 graphic
-to parametry dla populacji, dla próby)

0x01 graphic

0x01 graphic

0x01 graphic

Jeśli S2 jest większe, to tam zróżnicowanie zbiorowości jest większe.

  1. odchylenie standardowe - jako miara zmienności wskazuje na to o ile średnio odchylają się wartości zmiennej w badanej zbiorowości od średniej arytmetycznej.

(im jest większe odchylenie, tym zróżnicowanie większe)

0x01 graphic

Np. S=200 i S=500 -tu jest większa zmienność

WAŻNE! - żeby porównywać muszą być takie same średnie

  1. współczynniki zmienności (VS) - to miara, która umożliwia porównanie zmienności w różnych zbiorowościach, gdy średnie arytmetyczne w tych zbiorowościach nie są takie same.

0x01 graphic
- z reguły wyrażany w procentach

  1. klasyczny i kwartylowy obszar zmienności

ZADANIE:

Dane dotyczą całego roku 2005.

Zbadano ceny biletów z Warszawy do Londynu w dwóch tanich firmach A iB.

Uzyskano następujące miary dot. firmy A, średnia cena biletów 400 zł, a odchylenie standardowe70.

W firmie B szereg szczegółowy w zł.

Należy ustalić, w której firmie A czy B nastąpiło większe zróżnicowanie cen biletów.

Firma A:

S = 70

śr. arytm. = 400

0x01 graphic
- to 17,5 punktów procentowych

Firma B: 12 miesięcy

xi

ni

0x01 graphic

0x01 graphic

0x01 graphic

225

1

300

-75

5 625

225

1

300

-75

5 625

230

1

300

-70

4 900

236

1

300

-64

4 096

270

1

300

-30

900

0x08 graphic
382

1

300

82

6 724

322

1

300

22

484

324

1

300

24

576

320

1

300

20

400

310

1

300

10

100

368

1

300

68

4 624

388

1

300

88

7 744

3600

41798

0x01 graphic
= 3600:12 =300

0x01 graphic

0x01 graphic

0x01 graphic
0x01 graphic

Odp. Firma B ma większe zróżnicowanie o 2,2 punkty procentowe

    1. ANALIZA KORELACJI I REGRESJI 03.12.2006 R

Regresja - oznacza wpływ zmiennej traktowanej jako niezależna (skutek) na zmianę traktowaną jako zależną (przyczyna)

Korelacja - jest to współzależność zmiennych i nie istnieje tu potrzeba rozstrzygania, która ze zmiennych jest przyczyną, a która skutkiem.

zgromadzenie danych

xi

yi

1

2

2

4

3

6

4

8

5

10

6

12

0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
Wykres- diagram rozrzutu - to wykres punktowy:

0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
1 2 3 4 5 6

O istnieniu związku korelacyjnego między zmiennymi można wnioskować na podstawie wykresów rozrzutu (diagramów rozrzutu lub diagramów korelacyjnych) oraz przy pomocy miar statystycznych.

Najprostsze miary korelacji to współczynniki korelacji:

  1. współczynnik korelacji PEARSONA - używa się do ustalania związku korelacyjnego pomiędzy zmiennymi ilościowymi

  2. współczynnik korelacji SPEARMANA - używa się do ustalania związku korelacyjnego pomiędzy zmiennymi porządkowymi, porządkowo-ilościowymi lub ilościowymi.

PEARSON:

0x01 graphic

KIERUNEK KORELACJI:

Korelacja jest zgodna (dodatnia) wtedy, kiedy wartości jednej zmiennej zmieniają się w tym samym kierunku co wartości drugiej zmiennej

Korelacja jest niezgodna (ujemna) wtedy, kiedy wartości jednej zmiennej zmieniają się w przeciwnym kierunku co do wartości drugiej zmiennej (np. jedna rośnie, a druga maleje

0x08 graphic

INTERPRETACJA WYNIKÓW:

Współczynnik korelacji przyjmuje wartości z przedziału od -1 do +1.

Jego znak informuje o kierunku korelacji, a jego wartość bezwzględna informuje o sile korelacji.

SIŁA KORELACJI:

0 -0,2 -istnieje korelacja, ale nieznaczna

0,2 -0,4 -korelacja niska, słaba

0,4 -0,6 -korelacja umiarkowana

0,6 -0,8 -korelacja silna, znacząca

0,8 -0,99 -korelacja bardzo silna

1 -korelacja doskonała

SPEARMAN (współczynnik korelacji RANG - oparty na rangach)

Wartości zmiennej liczbowej uporządkowane:

2,3,7,9,9,9,10 9,9,9 - liczby powtarzające się to liczby związane -

Rangi 1 2 3 4 5 6 7 wszystkie otrzymają rangę 5, ponieważ

1 2 3 5 5 5 7 4+5+6=15 a 15: 3=5

Ranga - dla uporządkowanych wartości zmiennej jest numerem jej miejsca w tymże uporządkowanym szeregu.

Ranga dla liczb związanych jest średnią arytmetyczną jej numerów w szeregu.

Wartości zmiennej porządkowej:

Np. wykształcenie - zmienna porządkowa, nie można przedstawić liczbowo

podstawowe, podstawowe, średnie, średnie, średnie, wyższe, wyższe

1 2 3 4 5 6 7

Rangi 1,5 1,5 4 4 4 6,5 6,5

0x01 graphic

di - różnice rang di = Rxi - Ryi

INTERPRETACJA WYNIKÓW taka sama jak u PEARSONA

ZADANIE 1

Zyski teatrów zależą w pewnej mierze od ilości premier w sezonie. Należy zbadać, czy pomiędzy tymi dwoma zmiennymi istnieje związek korelacyjny, jaki jest jego kierunek oraz siła (zbadano 7 teatrów)

xi

liczba premier

yi

zysk w tys.

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

1

85

-2

-25

4

625

50

3

105

0

-5

0

25

0

2

100

-1

-10

1

100

10

3

110

0

0

0

0

0

4

125

1

15

1

225

15

3

115

0

5

0

25

0

5

130

2

20

4

400

40

21

770

10

1400

115

Średnia arytmetyczna x = 21 : 7 =3

Średnia arytmetyczna y = 770 : 7 =110

0x01 graphic

Odp. Korelacja jest dodatnia i bardzo silna.

ZADANIE 2:

Zbadać zależność pomiędzy czasem przeznaczonym na reklamę telewizorów pewnej marki, a ich miesięczną sprzedaż.

Dane ilustrują nam czas w mediach na reklamę w minutach, oraz liczbę sprzedanych telewizorów w tys. w okresie 7 m-cy.

x- czas na reklamę

y - sprzedaż telewizorów

xi

rangi

yi

rangi

di

di2

10

2

2,5

2

0

0

18

6

4,6

5

1

1

13

3

5,2

6

-3

9

14

4

4,0

4

0

0

20

7

5,6

7

0

0

15

5

3,2

3

2

4

8

1

1,5

1

0

0

14

xi

rangi

yi

rangi

8

1

1,5

1

10

2

2,5

2

13

3

3,2

3

14

4

4,0

4

15

5

4,6

5

18

6

5,2

6

20

7

5,6

7

0x01 graphic

Odp. Korelacja bardzo silna.

1

CECHU STATYSTYCZNE

Cechy stałe

Cechy zmienne (zmienne)

- c. rzeczowe

- c. czasowe

- c. terytorialne

c. jakościowe

c. ilościowe

-c. nominalne

-c. porządkowe

- c. interwałowe

- c. ilorazowe

c. ciągłe

c. nieciągłe

0x01 graphic

wartość rzeczywiste

Dominanta rzeczywiste

Wartość zmiennej

Liczebność (częstość występowania

Obszar pomiędzy to tendencja centralna

n

x

Dominanta

wartość rzeczywiste

Dominanta rzeczywiste

Wartość badanej cechy (cecha mierzalna

Liczebność (% lub liczby rzeczywiste

wartość rzeczywiste

Wartość zmiennej

Liczebność

Q1

Q2

Q3

8

6

4

2

4

Korelacja dodatnia

Korelacja ujemna

x

x

y

y

y

y



Wyszukiwarka