stata17, Zarządzanie studia licencjackie, statystyka


WNIOSKOWANIE STATYSTYCZNE

Pok. 226

Tel. 55 09 463

//panda.bg.univ.gda.pl/∼Najman

Metody wnioskowania statystycznego - Balicki, Makać

Statystyka w zarządzaniu, PWN 2000 - A.D.Aczel

WYKŁAD 1

W analizach statystycznych, które były omawiane do tej pory, zakładaliśmy, że badaniu podlegały wszystkie jednostki danej populacji. Jednak w praktyce badań naukowych, marketingowych, w kontroli jakości itp. nie ma możliwości lub jest bezcelowe badanie całej populacji jednostek. Badania takie są bowiem bardzo drogie, czasochłonne
(np. spis powszechny), a uzyskane wyniki mogą być obarczone systematycznym błędem (badanie dochodów i wydatków). W wielu sytuacjach badania pełne są niemożliwe do wykonania.

np. kontrola jakości. Firmy produkujące procesory gwarantują, że ich sprzęt będzie bezawaryjnie pracował przynajmniej 100 000 godzin. Jednak, aby mieć absolutną pewność, że norma w każdym wypadku będzie dotrzymana należałoby każdy procesor poddać 100 000 godzinnemu testowi.

W innych przypadkach badanie całej zbiorowości jest niepotrzebne, gdyż dokładny wynik można uzyskać jedynie na podstawie małej próby.

np. Aby stwierdzić …

Jeżeli niektórych populacji nie można a innych nie warto badać w całości to, czy mimo to można uzyskać dokładne wartości parametrów tych populacji?

MOŻNA

Rozwiązaniem tego problemu jest wnioskowanie statystyczne.

Wnioskowaniem statystycznym nazywamy proces uogólniania wyników uzyskanych
z próby losowej na całą zbiorowość statystyczną.

Wnioskowanie statystyczne prowadzi się na podstawie PRÓBY LOSOWEJ, a więc
w szczególności nie może to być próba dowolna, wybrana na chybił trafił.

różnica między próbą a próbą losową

jest taka jak między krzesłem a krzesłem elektrycznym

Aby próba była losowa musi być wybrana w sposób losowy.

Wynik losowy jest to taka metoda wyboru prób z danej skończonej populacji w wyniku zastosowania której otrzymujemy jedną z w>1 różnych prób tworząc populację prób, przy czym spełnione muszą być następujące własności:

  1. Każdy element populacji generalnej znajdzie się w przynajmniej jednej z prób.

  2. Przed realizacją metody wyboru nie wiadomo, którą próbę otrzymamy.

  3. Istnieje określone prawdopodobieństwo P, że otrzymamy konkretną próbę, przy czym ∑P=1 dla wszystkich i od 1 do w.

i

Próbę w …

Próba może być bardzo mała, a można uzyskać dobre wyniki!!!

Poprawna procedura pobierania prób

0x08 graphic
0x01 graphic

Próba została pobrana z całej populacji

0x08 graphic
0x01 graphic

0x08 graphic
Niepoprawna procedura pobierania prób

0x08 graphic

Informacja, którą otrzymujemy z próby, przyjmuje postać pewnej statystyki (liczby). Może nią być ŚREDNIA Z PRÓBY, ODCHYLENIE STANDARDOWE z próby, bądź inne charakterystyki obliczone po zbadaniu próby.

Taka statystyka jak średnia z próby jest traktowana jako ESTYMATOR (oszacowanie, przybliżenie) średniej w populacji.

Parametrami populacji, lub parametrami, nazywa się liczbowe charakterystyki całej populacji.

Statystyką z próby, lub statystyką, nazywa się liczbową charakterystykę uzyskaną z próby.

Oceną lub szacunkiem jest konkretna wartość liczbowa estymatora z danej próby.

Estymatorem parametru populacji jest statystyka z próby używana do oszacowania tego parametru.

Estymatorem nazywamy statystykę, będącą funkcją wartości w próbie

Tn = f(X1, X2,…, Xn)

która może posłużyć do oszacowania nieznanego parametru Q populacji.

Przybraną przez estymator Tn wartość tn nazywamy oceną lub szacunkiem

tn = f(x1, x2,…,xn)

np. Średnia z próby x jest statystyką z próby używaną jako estymator średniej w populacji μ. Gdy pobieramy próbę z populacji i obliczamy wartość

Najczęściej stosowane estymatory

parametr

estymator

ocena parametru

średnia

μ

wariancja

odchylenie standardowe

wsk. struktury, frakcja

Empiryczną oceną nieznanego parametru w populacji jest parametr uzyskany z próby. Jednak jak już powiedziano różnych prób można wylosować niemal nieskończenie wiele. Tak więc i różnych ocen parametrów populacji będzie niemal nieskończenie wiele. Jeżeli z danej populacji będziemy losować kolejno różne próby, będziemy również uzyskiwać różne oceny parametrów populacji. W ten sposób uzyskamy rozkład estymatora.

W badaniu empirycznym posługujemy się jednak jedną konkretną próba. Musimy mieć więc zaufanie do estymatora. Nie każdy estymator, a więc nie każda funkcja estymatorów próby, będzie tak samo godny zaufania.

Dobry estymator to taki, który spełnia jednocześnie przynajmniej trzy warunki:

- jest nieobciążony - nie popełniamy systematycznych błędów, nie zawyża i nie zaniża,

- jest efektywny - estymator ma najmniejszą wariancję,

- jest zgodny - liczebność próby rośnie, to błąd, który popełniamy maleje.

Rozkład średnich z prób jest symetryczny.

Środek rozkładu najbardziej odpowiada populacji.

DOŚWIADCZENIEM będziemy nazywać ścisłe przestrzeganie pewnej z góry ustalonej procedury, w rezultacie której otrzymujemy zbiór wartości stanowiących wynik. Proces, który prowadzi do jednego z możliwych wyników.

Przykład

Doświadczeniem będzie np. wyciągnięcie jednej karty z tali kart do brydża. Wynikiem doświadczenia może być np. król, dama,

Wielkości otrzymane w wyniku doświadczenia mogą mieć naturę SKOKOWĄ (DYSKRETNĄ) lub CIĄGŁĄ (nieskończona liczba wariantów).

Charakterystyczna cecha doświadczenia jest to, że nie potrafimy w pełni przewidzieć wyniku tego doświadczenia. Powiadamy więc, że wynik każdego doświadczenia jest LOSOWY.

Wynik możliwy do uzyskania w powtarzalnych doświadczeniach nazywamy ZDARZENIEM.

Zdarzenie, które w wyniku przeprowadzonego doświadczenia może zrealizować się lub nie i jeżeli o tej realizacji nie można nic powiedzieć, to takie zdarzenie jest nazywane ZDARZENIEM LOSOWYM.

Przykład

Rzucamy kostką do gry. Wyrzucenie np. 3 oczek jest zdarzeniem losowym, gdyż w wyniku tego doświadczenia liczba 3 oczek może wystąpić lub nie i nie można z góry stwierdzić, czy w danym rzucie kostką wypadnie akurat 3.

Doświadczeniem losowym będziemy nazywać takie doświadczenie, którego wynikiem jest zdarzenie losowe.

Wynik pojedynczego doświadczenia nazywamy zdarzeniem elementarnym. Jest to niepodzielny wynik doświadczenia losowego.

Zbiór wszystkich możliwych wyników otrzymanych w wyniku doświadczenia tworzy PRZESTRZEŃ PRÓB lub ZBIÓR ZDARZEŃ ELEMENTARNYCH.

E = {e1, e2, e3, … , en}

Zbiór zdarzeń elementarnych można więc zapisać następująco:

E = {e1, e2, e3, e4, e5, e6} = {1, 2, 3, 4, 5, 6}

Zdarzenie pewne to całkowity zbiór zdarzeń elementarnych, zdarzenie które zachodzi zawsze w danym doświadczeniu.

Zdarzenie niemożliwe to zbiór pusty zdarzeń elementarnych .

Zdarzenie przeciwne składa się z tych wszystkich zdarzeń, które nie należą do zdarzenia A. Jeżeli zdarzenie A nie zaszło, mówimy o zdarzeniu przeciwnym (A = nie A)

Klasyczna definicja prawdopodobieństwa (Laplace′a def. częstościowa)

Jeżeli zbiór podstawowy składa się z n-zdarzeń elementarnych jednakowo możliwych i jeżeli wśród nich jest k-zdarzeń sprzyjających zajściu zdarzenia A, to liczbę:

P(A) = k / n

nazywamy prawdopodobieństwem zajścia zdarzenia A.

W ten sposób prawdopodobieństwo P(A) można uważać jako funkcję zdarzenia A określoną na dziedzinie E.

Zmienną losową nazywamy funkcję x, przyporządkowującą każdemu zdarzeniu elementarnemu e € E dokładnie jedną liczbę rzeczywistą X(e) w ten sposób, że dla każdej liczby rzeczywistej x zbiór zdarzeń elementarnych, dla których X(e) < x jest zdarzeniem losowym, a więc dla każdego:

X : (e : x(e) < x) € Z

Zmienną losową nazywamy funkcję, której argumentami są zdarzenia elementarne a wartościami liczby rzeczywiste. To zmienna, która w wyniku doświadczenia realizuje różne wartości liczbowe zmiennej z określonym prawdopodobieństwem.

Zmienne losowe oznaczamy na ogół wielkimi końcowymi literami alfabetu X,Y…

Wartości jakie ta zmienna przyjmuje nazywa się REALIZACJAMI ZMIENNEJ LOSOWEJ lub krótko REALIZACJAMI i oznacza się je odpowiednia małymi literami x,y…

Zmienne losowe

skokowe (dyskretne) ciągłe

- zmienna losowa, która ma (jeżeli zbiór wartości jest skończony lub przeliczony zbiór wartości nieskończony)

Zmienne losowe skokowe

Zmienną losową X nazywamy skokową lub dyskretną, jeśli przyjmuje z dodatnim prawdopodobieństwem co najwyżej przeliczalną liczbę wartości. Wartościami tymi są zazwyczaj liczby naturalne lub całkowite i nazywamy je często punktami skokowymi.

Opisu zmiennej losowej typu skokowego dokonujemy na 2 sposoby:

  1. w oparciu o funkcję rozkładu prawdopodobieństwa,

  2. w oparciu o dystrybuantę.

Prawo probabilistyczne zmiennej losowej skokowej określa funkcja rozkładu prawdopodobieństwa:

Pi = P (x = xi)

Jest to zatem funkcja zmiennej losowej x przyporządkowująca wartościom xi odpowiednie prawdopodobieństwa Pi > 0 przy czym punkty skokowe xi (i = 1, 2, ……n) są jedynie możliwymi i wykluczającymi się wartościami, które zmienna losowa przyjmuje, czyli tworzy zupełny układ zdarzeń.

Funkcje rozkładu prawdopodobieństwa a musi spełniać trzy warunki wynikające z aksjomatyki rachunku prawdopodobieństwa

0 ≤ pi ≤ 1 dla każdego xi

∑pi = 1 dla wszystkich xi

i

P(a ≤ X ≤ b) = ∑pi

Funkcję rozkładu prawdopodobieństwa opisujemy na trzy sposoby:

- tabelarycznie,

- graficznie,

- algebraicznie.

F(0) = P(X=0) = P(0) = 1/8 - algebraiczna postać prawdopodobieństwa

Dystrybuanta zmiennej losowej skokowej

Dystrybuantą zmiennej losowej skokowej X nazywa się prawdopodobieństwo tego, że zmienna losowa X przyjmuje wartość mniejszą od x.

F(x) = P(X < x) = ∑pi

xi < x

Własności dystrybuanty:

0 ≤ F(x) ≤ 1 lim F(x) = 0 lim F(x) = 1

x → - ∞ x → + ∞

Dystrybuanta:

Zapis X ∼ F(x) oznacza: zmienna losowa X ma rozkład dany dystrybuantą F(x).

WYKŁAD 2

Dystrybuantę zmiennej losowej skokowej możemy zapisać na 3 sposoby:

F(x1) = 0 dla x ≤ x1

F(x2) = P(x1) dla x1 < x ≤ x2

F(x3) = P(x1) + P(x2) dla x2 < x ≤ x3

F(xn) = P(x1) + … + P(xn-1) dla xn-1 < x ≤ xn

F(xn+1) = 1 dla x > xn

F (x) = 0 dla x ≤ x1

P1 dla x1 < x ≤ x2

P1 + P2 dla x2 < x ≤ x3

-

-

-

P1 + P2 + … + Pn-1

1

Graficzny zapis dystrybuanty zmiennej losowej skokowej

WYKRES

Znając rozkład prawdopodobieństwa lub jej dystrybuantę mamy pełną wiedzę o zmiennej losowej. W wielu przypadkach praktycznych, wygodniej jest się jednak posługiwać jedynie wybranymi parametrami zmiennej losowej. Parametry te nazywamy momentami.

  1. pierwszy moment to średnia

  2. drugi moment - wariancja

  3. trzeci moment - asymetria

  4. czwarty moment - spłaszczenie

Wyróżniamy momenty: zwykłe i centralne

Momenty zwykłe rzędu r:

n r

mr = Σ xi p (xi)

i =1

Momenty centarlne rzędu r:

n r

μr = Σ [ xi - E (x) ] p (xi)

i =1

Rozkłady zmiennych losowych ciągłych:

Rozkład normalny, zwany w literaturze rozkładem Gaussa, czasem Gaussa - Laplace'a jest najważniejszym rozkładem teoretycznym. Twierdzenia z nim związane są kluczowymi i fundamentalnymi twierdzeniami statystyki.

Dawniej rozkład normalny był nazwany rozkładem błędów lub prawem błędów ponieważ przypadkowe skutki różnych niezależnych czynników, o różnym pochodzeniu i znaczeniu były traktowane jako „błędy”.

Zmienna losowa x ma rozkład normalny, jeżeli jej funkcja gęstości określona jest wzorem:

1 ( x - μ )2

f (x) = σ√2π exp { 2 σ2 }

dla każdego x € ( - ∞, + ∞ ), gdzie μ i σ > 0 są parametrami odpowiedniego przesunięcia i skali.

Zmienną losową x o rozkładzie normalnym zapisujemy:

x ~ N (μ , σ)

i czytamy: zmienna losowa x ma rozkład normalny ze średnią μ „mi” i odchyleniem standardowym σ „sigma”.

WYKRES

Rozkład normalny ma dwa parametry: średnią μ i odchylenie standardowe σ. Te dwa parametry całkowicie opisują rozkład normalny. Kształt krzywej gęstości rozkładu nazywamy krzywą dzwonową.

Najważniejsze momenty zmiennej losowej o rozkładzie normalnym SA nasteoujące:

E(X) = μ

D (X) = σ²

γ1 = 0 - oznacza, że jest symetryczny

Dystrybuantę rozkładu normalnego zgodnie z definicją możemy zapisać w postaci:

1 ( x - μ )2

f (x) = σ√2π exp ƒ -∞{ 2 σ2 } dx

WYKRES

Wyznaczenie prawdopodobieństwa zdarzeń dla zmiennej losowej o rozkładzie normalnym jest skomplikowane, gdyż wymaga znalezienia wartości dystrybuanty a to jest złożona całka. Niestety raz wyznaczone wartości x ~ N (μ , σ) nie przydadzą się dla y ~ N (μ , σ) Całkę trzeba będzie liczyć od nowa. Zauważono jednak, że proste przekształcenie zmiennej losowej x o rozkładzie normalnym o dowolnych parametrach takie, że:

x - μ

z = σ

powoduje , że zmienna losowa Z ma zawsze rozkład

Z ∼ N(0,1)

Przekształcenie to nazywane jest standaryzacją, a rozkład N(0,1) nazywany jest rozkładem normalnym standardowym lub standaryzowanym.

We wnioskowaniu statystycznym, przy opracowaniu danych próbkowych będziemy się posługiwali pewnymi funkcjami zmiennych losowych. Będziemy, przy tym zakładali, że te zmienne losowe mają identyczne rozkłady. W praktyce najczęściej będą to funkcje zmienn6ych losowych o rozkładzie normalnym. Aby rozwiązać szereg problemów opierając się na wnioskowaniu statystycznym ….

Rozkłady Chi-kwadrat, t-Studenta, F-Fishera-Snedecora SA bardzo ważne w statystyce matematycznej. Nie są one w przeciwieństwie do rozkładów omówionych wcześniej modelami, które wykorzystuje się w opisie rzeczywistych zmiennych. Maja one jednak szerokie zastosowania we wnioskowaniu statystycznym, gdyż są rozkładami pewnych funkcji wyników w próbie.

Rozkład T- Studenta jest nazywany rozkładem „małych prób”. Wraz ze wzrostem liczby stopni swobody rozkład ten dąży do rozkładu normalnego.

Dla v > 30 rozkład T - Studenta jest niemal identyczny z rozkładem normalnym.

WYKRES

Rozkład F-Fiszera ma silną prawostronną asymetrię, zaczyna się w punkcie 0. Przyjmuje wartości tylko dodatnie.

WYKRES

WYKŁAD 3

Weryfikacja hipotez statystycznych

Każdy sąd (założenie, przypuszczenie) o parametrach populacji lub o rozkładzie cechy
w populacji, o prawdziwości lub fałszywości, którego wnioski są na podstawie pobranej próby, nazywamy hipotezą statystyczną.

Wyróżnia się 2 rodzaje hipotez:

  1. hipotezy parametryczne - dotyczące wybranych parametrów populacji,

  2. hipotezy nieparametryczne - dotyczą postaci rozkładu czy zgodności dystrybuanty.

Hipotezy parametryczne to uogólnienie informacji otrzymanych z próby na całą populację.

Hipotezy nieparametryczne negują ??? informacje uzyskane z próby na populację.

Cechy weryfikacji hipotez

Istnieją dwa zasadnicze cele weryfikacji hipotez statystycznych:

  1. jeżeli chcemy zweryfikować przypuszczenia dotyczące populacji na podstawie próby losowej,

  2. jeżeli wyniki uzyskane z próby losowej chcemy uogólnić na całą populację.

UWAGA!

Ważne jest, aby nie utożsamiać próby losowej z dowolną próbą uzyskaną w sposób probabilistyczny lub w sposób nieprobabilistyczny. Zasady weryfikacji hipotez bazują na założeniu, że próba jest próbą prostą, a więc wylosowaną w sposób:

  1. indywidualny,

  2. niezależny,

  3. nieograniczony,

  4. z jednakowymi prawdopodobieństwami wyboru jednostek.

Wszystkie przypadkowe nie spełniają tego warunku.

W procesie weryfikacji hipotez formułujemy hipotezę statystyczną dotyczącą własności badanego rozkładu lub dowolnego parametru opisującego ten rozkład. Stawiana przez analityka hipoteza będzie poddana modyfikacji. Rozpoczynając wnioskowanie statystyczne zazwyczaj posiadamy wiedzę o badanym rozkładzie. Jeżeli wiemy, że badana zmienna losowa jest typu ciągłego ……

Jeżeli badamy jednocześnie jeden rozkład, który może charakteryzować populacje mówimy
o hipotezie prostej.

Jeżeli wiele rozkładów może charakteryzować badaną populację, mówimy o hipotezie złożonej.

Można to przedstawić formalnie następująco:

niech Ω - zbiór hipotez dopuszczalnych

F(x) - dystrybuanta rozkładu zmiennej losowej w populacji

wtedy

H: F(x) € w, gdzie w € Ω

Ze zbioru hipotez dopuszczalnych wybiera się jedną, która podlega weryfikacji. Tę wybraną do weryfikacji hipotezę nazywa się hipotezą zerową i oznacza H0. Procedura weryfikacyjna wymaga, aby sformułować także hipotezę przeciwną do zerowej. Hipotezę przeciwną do hipotezy zerowej nazywa się hipotezą alternatywną i oznacz H1.

Weryfikacja prawdziwości hipotezy zerowej jest realizowana zgodnie z procedurą nazywaną testem statystycznym.

Testem statystycznym nazywamy taka regułę decyzyjną (sposób postępowania), która każdej próbie losowej możliwej do uzyskania z badanej populacji przyporządkowujemy decyzję o przyjęciu lub odrzuceniu postawionej hipotezy zerowej.

Ho - coś jest prawdą

H1 - coś nie jest prawdą

Procedura weryfikowana jest oparta na temacie NEYMANA - PERSONA umożliwiając, dla danych hipotez, znalezienie testu najmniejszego.

Procedura testowa oparta jest na analizie 2 rodzajów, możliwych do popełnienia w trakcie weryfikacji błędów

Weryfikując hipotezy można popełnić dwa rodzaje błędów:

  1. odrzucić H0, kiedy jest ona prawdziwa błąd I rodzaju,

  2. przyjąć H0, kiedy jest ona fałszywa błąd II rodzaju.

Rzeczywistość

Decyzja

H 0

H 1

H 0

Słuszna decyzja

Błąd rodzaju II

H 1

Błąd rodzaju I

Słuszna decyzja

Prawdopodobieństwo błędu polegającego na odrzuceniu H0, gdy jest ona prawdziwa, czyli błędu I rodzaju jest oznaczona ά .

Prawdopodobieństwo błędu polegającego na przyjęciu H0, kiedy jest ona fałszywa, czyli błędu II rodzaju jest oznaczona β.

ά = P (H0 odrzucona / H0 jest prawdziwa)

β = P (H0 nie odrzucona / H0 jest fałszywa)

W badaniu statystycznym chcielibyśmy, aby oba rodzaje błędów były bliskie 0. Jednak w praktyce błędów nie można w pełni uniknąć. Minimalizacja prawdopodobieństwa popełnienia błędu I rodzaju zwykle powoduje zwiększenie prawdopodobieństwa popełnienia błędu II rodzaju.

W badaniach empirycznych często przyjmuje się zasadę: „niewinny dopóki nie dowiedziono mu winy”. Oznacza to, że za ważniejszy uznaje się błąd I rodzaju. Oznacza to, że „bardziej boimy się skazać osobę niewinną, niż nie skazać osoby winnej”.

Testy statystyczne konstruuje się tak, aby kontrolować błąd I rodzaju. Prawdopodobieństwo jego popełnienia jest z góry ustalone przez badacza na niskim poziomie. Zwykle:

ά = 0,01 ά = 0,05 ά = 0,1

Prawdopodobieństwo popełnienia błędu I rodzaju nazywa się także poziomem istotności.

Należy pamiętać, że nie należy przesadzać z ustaleniem poziomu istotności. Jeżeli bowiem ustalimy poziom istotności 0,00001, to w praktyce niemal zawsze Ho odrzucimy.

Procedura weryfikacji hipotez

Sformułowanie hipotez zerowej i alternatywnej

Wybór statystyki testowej

Określenie poziomu istotności α

Wyznaczenie obszaru krytycznego testu

Obliczenie statystyki testowej na podstawie próby

Nie odrzucać Ho

0x08 graphic

podjęcie decyzji

0x08 graphic

Odrzucić Ho

0x08 graphic

0x08 graphic

Ho może być prawdziwa

H1 jest prawdziwe

Należy wyróżnić wśród omawianych testów testy dla prób niezależnych i połączonych.

Wybór statystyki testowej

Następnie w zależności od sformułowania badanego problemu, ustalimy hipotezę alternatywną, która najczęściej jest zapisana jako H złożona

H1: lub H1: lub H1:

Najczęściej są to rozkłady:

- normalny

-

Określenie poziomu istotności

Przyjmuje się arbitralnie małe prawdopodobieństwo popełnienia błędu pierwszego rodzaju - poziom istotności.

Poziom istotności najczęściej zapisywany w literaturze …

Wyznaczenie obszaru krytycznego testu

Obszar krytyczny - obszar odrzucenia Ho.

Podjęcie decyzji

Wyznaczona wartość statystyki testowej zostaje porównana z wartością krytyczną testu.
Jeżeli wartość statystyki testowej należy do obszaru krytycznego, to oznacza, że Ho jest fałszywa. Odrzucamy Ho.

Jeżeli wartość statystyki testowej nie leży w obszarze krytycznym, to oznacza, że nie ma podstaw do odrzucenia Ho - Ho może być prawdziwa.

Jeżeli wartość statystyki testowej jest równa wartości krytycznej, to Ho odrzucamy.

Poziom krytyczny p (p-realne).

Jest to minimalny poziom istotności, na którym można odrzucić Ho.

p>α - brak podstaw do odrzucenia Ho, w przeciwnym razie odrzucamy.

Klasyfikacja testów statystycznych

  1. parametryczne - weryfikują hipotezy parametryczne, weryfikuje się hipotezy dotyczące wartości średniej, wariancji i frakcji w populacji, rozkład cech w populacji jest rozkładem normalnym

  2. nieparametryczne - są szersze

Ze względu na zakres zastosowań, można wyróżnić testy statystyczne:

- służące do weryfikacji własności jednowymiarowych,

- służące do porównania własności dwóch lub więcej liczby populacji.

TESTY SŁUŻĄCE DO WERYFIKACJI

Własności populacji jednowymiarowej

  1. testy porównujące oceny parametrów ze wzorcem

testy parametryczne

    1. test dla jednej średniej

    2. test dla jednej proporcji

    3. test dla jednej wariancji

b) testy oceniające zgodność rozkładu testy oceniające

empirycznego z teoretycznym losowość próby

testy nieparametryczne

  1. testy zgodności χ²

  2. test zgodności χ Kołmogorowa

  3. test serii

Testy porównujące własności dwóch populacji

  1. testy porównujące oceny parametrów z dwóch prób

testy parametryczne

  1. test dla dwóch średnich

  2. test dla dwóch proporcji

  3. test dla dwóch wariancji

Należy wyróżnić wśród omawianych testów testy dla prób niezależnych i połączonych.

  1. Testy oceniające zgodność dwóch rozkładów empirycznych.

(Testy te porównują dwa rozkłady empiryczne)

testy nieparametryczne

  1. test Kołmogorowa-Smirnowa

  2. test jednorodności - Chu-SQ

  3. testy mediany

  4. test serii

  5. test znaków

Klasyfikacja testów statystycznych

Testy nieparametryczne

testy zgodności testy jednorodności testy losowości

porównują dane z próby dwa rozkłady empiryczne

z wzorcem ze sobą (porównują dwie próby)

1.Test dla jednej średniej

2. Test dla dwóch średnich

Weryfikują hipotezy że wartości oczekiwane dla dwóch populacji są takie same. Oparty jest na założeniu, że posiadamy dwie próby losowe pochodzące z populacji o rozkładzie normalnym.

W procedurze testowej należy uwzględnić następujące czynniki:

a) liczebność próby - mała, duża

b) czy wariancje w obu badanych populacjach są równe czy różne

c) czy próby są zależne (połączone) czy niezależne.

Procedura weryfikacyjna przebiega w typowy dla testów parametrycznych sposób. Wybór statystyki testowej przeprowadza się w następujący sposób

Testy dla dwóch wariancji

Aby zweryfikować hipotezę o równości dwóch średnich, należy ustalić, czy wariancje
w badanych populacjach są równe czy różne. Do weryfikacji hipotezy stosuje się testy dla dwóch wariancji. Hipotezy formułuje się:

Ho:

Statystyka testowa przy założeniu prawdziwości Ho ma rozkład F-Snedecora i przyjmuje postać

Wartości krytyczne odczytuje się z tablic rozkładu F-Snedecora.

Parametryczne

Istotną cechą jest to, że wnioskując o zróżnicowaniu dystrybuant możemy także wnioskować o wartościach oczekiwanych i wariancjach tych rozkładów. Można je więc (czasem) stosować zamiast (niektórych) testów parametrycznych.

Testy nieparametryczne mogą być alternatywą dla testów dla dwóch wariancji lub dwóch średnich, w szczególności, gdy:

- próba jest tak mała, ze nie możemy przyjąć założenia o normalności rozkładu populacji

- gdy badane zmienne są niemierzalne.

Test nieparametryczny bazuje na słabszych założeniach.

Testy nieparametryczne. Testy nosowości.

Przy weryfikacji wszystkich hipotez parametrycznych i nieparametrycznych opieramy się na wynikach uzyskanych z próby. Ważne jest, aby próba miała charakter losowy. W przeciwnym razie wyniki uzyskane dzięki próbom losowym będą obciążone i będą zawyżały lub zaniżały badane parametry populacji.

Losowość próby weryfikuje się w oparciu o testy serii. W testach tych kluczowym pojęciem staje się pojecie serii.

Serią nazywamy każdy ciąg identycznych elementów w zbiorze uporządkowanym według przyjętego kryterium.

Jeżeli badam płeć kandydatów na pewne stanowisko zgłaszających się kolejno na rozmowę kwalifikacyjną, to może pojawić się np. taki ciąg osób

MM KM KKK M KM KKM

1 2 3 4 5 6 7 8 9

Próba ta zawiera 9 serii symboli odpowiadających odpowiednio K - kobietom
i M - mężczyznom.

Test serii Stevensa

Zakładamy, że pojawienie się kolejnych elementów ma charakter losowy. Ogólna liczba serii w próbie n-elementowej jest traktowana jako zmienna losowa K o znanym(?)
i stablicowanym rozkładzie.

Stawiamy hipotezy:

Ho: dobór jednostek do próby jest losowy

H1: dobór jednostek do próby nie jest losowy

Procedurę weryfikacyjną można zapisać następująco:

  1. obserwacje zapisane w trakcie pobierania próby stanowią ciąg podstawowy

  2. obserwacje porządkujemy niemalejąco i wyznaczamy medianę

  3. w ciągu podstawowym oznaczamy symbolami A i B wartości różniące się od mediany

x < Me = A x > Me = B x = Me - pomijamy

  1. zliczamy liczbę serii - symboli A i B, liczba serii K jest wartością statystyki testowej

Obszar krytyczny testu jest dwustronny, gdyż serii nie może być ani za dużo, ani za mało. Wartości krytyczne testu odczytuje się z tablic liczby serii (PIRAMIDY).

k1(

k1<k<k2 - nie ma podstaw do odrzucenia Ho.

Jeżeli jest inny układ, to należy odrzucić Ho.

kA - liczba symboli A

kB - liczba symboli B

1

PRÓBA

POPULACJA

PRÓBA

POPULACJA



Wyszukiwarka

Podobne podstrony:
stata14, Zarządzanie studia licencjackie, statystyka
stata13, Zarządzanie studia licencjackie, statystyka
statystyka-analiza-danych, Zarządzanie studia licencjackie, statystyka
statystyka-wzory, Zarządzanie studia licencjackie, statystyka
zerówka - adm dzienne 1, Zarządzanie studia licencjackie, mikroekonomia
Marketing(2), Zarządzanie studia licencjackie, marketing
pytania z r- nie wszystkie, Zarządzanie studia licencjackie, rachunkowość

więcej podobnych podstron