Bez powt.
Z powt.
P(A∪B)= P(A) + P(B); P(A∩B)= P(A) * P(B)
P(A/B)=
(pod warunkiem)
Zmienna losowa- f.w której każdej wart. X odpowiada pewien podzbiór zbioru omega, będący zdarzeniem losowym ( ma wartości i ich P). Wyróżniamy: skokową- gdy zbiór wart.zmiennej jest skończony lub niesk.ale przeliczalny; ciągła- nieprzeliczalny(jest przedziałem lub sumą przedziałów)
Funkcja prawdopod.zmiennej losowej- (f.przyporządk.każdej wart zm.los.x P wystapienia) f.rozkładu P- dla skokowej [f(xi)=P(X=xi)=pi] f.gęstości- dla skokowej. Własności: -jest ograniczona (0≤f(x)≤ 1 sk.; f(x)≥0 ciąg.); -Suma wszystkich wart=1
Dystrybuanta: f. Która określa P, że wart.zm.los. nie przekroczą arg f: F(x0)=F(X=x0)=P(X≤x0),f.kumulująca P.| Jest: -określona dla R\; -ograniczona od 0 do1; -niemalejąca; -przynajmniej prawostronnie ciągła.
Parametry zm.los: EX- wart.oczek.-wyznacza poł.najbardziej prawdop.wartości zm.los (suma xi*pi-skok., całka x*f(x)dx-ciąg.)
D2X= wariancja- miara rozrzutu wart.zm.los. wokół EX (suma xi2pi-EX2-skok.; całka x2f(x)dx-EX2-ciag.); DX- odch.stand.= pierw. z wariancji-wsk.przecietne odchylenie zm od EX; wskaźnik zmienności V=(DX/EX)*100%-służy do porównania zróżnic.zmiennych los.;Stadaryzacja: U=X-EX/DX-jest to przekszt.zm.losowej, w celu uzyskania zm.los.o wart.oczek=0 i wariancji=1. kwantyle; wart.modalna wartzm.los.x dla której f.gęstości przyjmuje max.lokalne ; wsp.asymetrii(skońności)
Dla rozk.jednomodalnych =(EX-Mo)/DX
ROZKŁADY ZMIENNYCH SKOKOWYCH:
ROZKŁĄD DWUPUNKTOWY: zm.los.ma tylko 2 wartości- 1 z prawdop p i 0 z prawd.1-p; EX=p D2X=p(1-p)- stan zdrowia,płeć, przezywalnosc,rogatosc.
BERNOULLIEGO (dwumianowy): nieduża, skończona lb el.; wysokie P sukcesu(>0,1);jest symetryczny gdy p=0,5; EX=N*p; D2X= N*p*q; q=1-p
P(xi=k)=
Jest sumą n zmiennych zero-jedynkowych
POISSONA: rozkł.graniczny w ciągu zm.los. mających rozkł dwumianowy. Wraz ze wzrostem dł.serii(n) maleje p sukcesu
Lb.nie jest podana, lub jest b.duża/nieskończ., P sukcesu b.małe; wart.oczek.jest jednocześnie wariancją EX iD2X=
(=n*p)
przykłądy: lb wypadków, lb.bakterii, zachorowan,awarii w czasie
P(xi=k)=
; e= 2,7182 |||
ROZKŁ.ZMIENNYCH CIĄGŁYCH
NORMALNY: tworzy krzywą dzwonową(gaussa-jej kszt.zalezy od sr.i odchylenia), Własności: -określony dla R\, -symetryczny, oś symetrii przez środek na osi y, prosta x=m (m=Mo=Me), rozkł.jednomodalny(1max) a ta wart jest jednocześnie średnią i środkiem wykresu xi=
; parametry:
(średnia [„
'] odch.st); X~N(m;sigma); -prawdop.wyst wart zm.los. w przedziałach lb.o konczach wyzn.przez parametry rozkładu jest jednakowe dla każdej zm.o rozkł.norm- regula 3 sigm [
-przedział typowy 68%, 2sigma-95%; 3-99,8%, reszta to 0,1%
|||parametry rozkł.standaryzowanego: 0 i 1; jeżeli inaczej należy przenieść punkt: U(lubZ)=
(gdy ujemna, to wart odjąć od 1);
T-STUDENTA: też symetr.ale bardziej płaski, może zamienić się w normalny gdy opisuje b.liczne populacje ale zwykle są mniej liczne; wartości na osi x to nie parametry tylko średnie z kolejnych pomiarów
Miary położenia: średnia(klasyczna), kwantyle, moda(pozycyjne). Mediana to kwantyl ½. Kwantyle dzielą obs.na częsci, każda cz. to rząd kw.(kwartyl, decyl, centyl)
Miary rozproszenia: klasyczne:wariancja (S2), odchylenie stand. (S), klasyczny współcz. zmienności (Vzk=odch./śr.)-[mówi ile % średniej stanowi odch.stand); pozycyjne: odchyl.ćwiartkowe Q, wsk.zmienności pozycyjny VZQ
Dla próby<-> w populacji: x(srednia)-EX(wart.oczekiw); Me(Q0,01...Q1)
S2, S- war i odch- DX2, DX; EX=
; D2X= [
]-EX2
ZM.LOSOWA DWUWYMIAROWA: połączenie 2 zm.los.jednowym.określonych na tym samym zbiorze omega. F rozkładu prawdop(gęstości) takiej zm.jest dwuargumentową f. zdefiniowaną: f(x.y)=pij=P((X=xi)”i”(Y=yj)) -skok., dystrybuanta F(x,y)=P((X≤x)”i”(Y≤y)); rozkłady brzegowe (rozkł.każdej zmiennej): f(x)=P(X=xi)=pi=suma pij; (tak samo dla Y j) -skok; f(x)=całka f(x,y)dy;...(x,y)dx -ciąg.; parametry: wart.oczek obu zmiennych (EX i EY), wariancje obliczane z f.rozkł.brzegowych (D2X,D2Y). Miarą charakt.współzmienność X iY jest kowariancja CXY=suma (xi-EX)*(yi-EY)*pij=suma xiyipij-EX*EY. Jeżeli zm.X i Y są niezależne to CXY=0. Niezależność zm. można sformułować jako relację m.funkcjami rozkł dwuwymiarowego a brzegowymi: f(x)*f(y) co dla zm.skok.mozna zapisac pij=pi*pj Tworzenie zm.los.: zm.los.mozna ze soba łaczyc,znajac par.zmiennych składowych mozna obli par.zm.złoż. Jeżeli zmienna V jest liniową kombinacją X1 i Y2 ; V=suma ai*Xi to EV=suma ai*Exi, D2V=suma ai2*D2Xi+suma 2* ai*aj*CXiXj; CVX=suma ai *D2Xm
TWIERDZENIA GRANICZNE: Złote tw.Bernoulliego: ze wzrostem lb.przpr.dośw. z których kazde moze zakonczyc sie sukcesem lub porażką, czestosc sukcesu skupia sie wokól stałej równej P sukcesu(p), Moivre'a-Laplace'a: ciąg standaryzowanych dystybuant zm.los.o rozkł.dwum.jest zbieżny do dystr.rozkładu norm. standaryzowanego., Lindenberga-Levy'ego-zmienne, których wart.kształtuja sie pod wpływem złożenia wielkiej lb czynników losowych mają rozkł.norm.
ROZKŁADY STATYSTYK Z PRÓBY
Statystyki z próby to np. średnia arytm, wariancja, rozkł.statystyk z próby zależy od rozkładu zm.losowych i wlk.próby. Rozkł stat.z próby w których parametrem jest lb.stopni swobody nazywane są dokładnymi i są wykorzyst.w przypadku małych prób.
Jeśli zmienna X ma rozkł.norm.to sr.arytm.tez ma r.n.o takim samym „m” i odchyleniu pierw(N) razy mniejszym od odch.zmiennejX
, Jeśli rozkł.zm.los. jest norm. ale zaden parametr nie jest znany wtedy wart sr.arytm. ma rozkład t-Studenta z par
=N-1 zwanym lb.st.swobody. Et=0, D2t= ν/(ν -2)=N-1/N-3;
Wariancja: Jeżeli zm.los.X ma r.n. to dla dowolnej N-el.próby poniższa statystyka ma rozkł. chi-kwadrat Pearson'a ; rozkład o dodatniej asymetrii, wart oczek. Echi2=
=N-1 (lb.st.swob.) a war D2chi2=2
; Jeżeli próba jest duża (min 100el) to czestosc empiryczna sukcesu bedzie miała r.n. w~N(p; pierw[(w*(1-w))/N])
Estymator: TN parametru populacji θ to statystyka z próby(f.elementów próby) która słuzy do oszac.nieznanej wart par. populacji Własności: nieobciążoność: gdy wart.oczek.estymatora =estymowanemu parametrowi, E(TN)=θ; zgodnosć: jest stochastycznie zbieżny do szacowanego parametru; efektywność: jest tym efektywniejszy im ma mniejszą wariancję; dostateczność: gdy uwzgl. wszystkie informacje z próby. Przedział ufności przedział w którym znajduje sie estymator P(-tα<t<tα)=1-α; 1-α- poziom ufności(miara wiarygodności szac.), dł przedziału -miara precyzji szac.
P(-tα<
<tα)=1-α; P(
)= 1-α, Dł przedziału zależy odwrotnie prop.od poziomu istotności (α), licz.próby(N), a wprost-od odch.stand w próbie(S), zwiększ lb.próby k razy= skrócenie przedziału o „pierw.(k)” Ocena precyzji szacowania: miarą prec.jest wspólcz. wzglednej precyzji
, precyzyjne jeśli <10%, jeśli <5%-bardzo prec.
Przedz.ufności dla wariancji:
, dla P sukcesu:
WERYFIKACJA HIPOTEZ hipoteza- stwierdzenie o parametrach rozkł.lub rozkładzie zmiennej losowej. Podział: -parametryczne (mówiące o parametrach rozkładu) -nieparametryczne(dot.rokł.zm.los.). Inny podział: weryfikowalne (H0)-do ich sprawdzenia istnieją narzędzia(testy stat.);-nie weryf. (H1) Etapy weryfikacji: -sform.hipotezy zerowej H0:θ=A; -dobranie h.altenat. H1->. H1:θ≠A (zaprzeczenie), H1:θ>lub <A (uzupełnienie); -wybór próby i scharakteryzowanie jej za pomocą parametrów; -dobór testu stat.i obl.jego empirycznej wielkości:(testemp). Wybór zdeterminowany jest rodzajem H0 i liczebnością próby; -dobranie poziomu istotn. α i okr.obszaru kryt ω. Obsz kryt-przedział lub ich suma wyzn.przez wart kryt., pole pod f rozkładu nad obsz kryt =α, położenie obsz.kryt.zależy od wybraniej uprzednio H altern.(H1) Granice: t-stud: dwu:(-∞;-tα>suma<tα;+∞), jedno: prawo: <t2α;∞) lewo (-∞;-t2α >; u tak samo, χ2 i F-sned.- połowa α.; -odrzucenie lub nie odrz.H0 (jeżeli wart. testu należy do obsz.kryt- odrzucamy) Jaki test? dopasowany co H oraz cechy i próby. H dot wart.oczek. cech: H0: EX=EX0, jeżeli cecha ma r.n. to H można zapisać jako H0:μ=μ0 i stosuje sie t-Stud. temp=
, jeśli nie ma r.n. to próba musi być duża i stos test uemp (tak samo tylko EX0 zamiast μ0); H.dot wart.oczek 2 populacji H0: EX1=EX2 Jeśli cecha mam w populacji r.n. to H0:μ1=μ2 i stosuje się t-Stud. temp=
;S...=
, jeśli cecha nie ma r.n. to pr.musi byc duża i stos.test u, uemp=tak samo tylko na dole zamiast S..->
; H.dot wariancji cechy w populacji H0=σ2=σ02 jeśli rozpatrywana cecha ma w pop.r.n., stos się test chi-kw. χ2emp=
; H dot war.cechy w 2 popul. H0=σ12=σ22, jeśli c.ma r.n. stos się F-Sned. Femp=
; H dot wart.prawdop. sukcesu w pop H0:p=p0, można zwer.tylko gdy duża próba(N>100), stos test u, uemp=
;H dot wart prawd. w 2 pop H0:p1=p2; tylko gdy duże próby, test u, uemp=
, gdzie
Hipotezy nieparametryczne: -o zgodności rozkładu z rozkł.rozk. teoretycznym, -o niezależności 2 cech., -o losowości wyboru próby , o zgodności rozkładu z rozkł.rozk. teoretycznym, [np. rozkład grup krwi] r.teoret.pozwala wyzn,.P (pi.) w każdej klasie-służą do obl.teoret liczebności(piN) a te są porówn.z empirycznymi(ni) test chi-kw:
KORELACJA: (DO ZMIENNYCH DWUWYMIAR.) jest miarą zależności korelacyjnej (typu liniowego) zmiennych los. i może mieć wart z przedz <-DX*DY; +DX*DY>, znak kowariancji (CXY) inf.o kierunku zależności. Ponieważ CXY jest wlk.mianowaną, zależną od jedn.X i Y, to miarą współzal. liniowej 2 zm. jest współczynnik korelacji liniowej
; przyjmuje wart od -1 do 1 (znak inf.o kierunku zależności, wartość o sile) Rodzaje zależności: jesli zm. są niezależne to CXY=0 ale nie odwrotnie!, są 2 rodzaje zależności: -Stochastyczna -->rozkłady warunk.1zmiennej na każdym poziomie są takie same- f(x,y)=f(x)*f(y)[wawtedy gdy rozkłądy są różne]; -korelacyjna--> wartości oczek.warunkowych rozkładów są jednakowe; EX/Y1= EX/Y2=... [gdy rozkł.są równe]
Rozkłady warunkowe: R.war. zm.Y pod warunkiem że X=xi określimy P(Y=yj/X=xi)=Pij/Pi -skok, f(y/x)=f(x,y)/f(x)
Zależność 1 zmiennej od 2: jedna ze zm. jest zm niezależną (argument f.) a druga zależną (wartość f.). Przykładem jest regresja. Regresja I rodzaju-f. przyporządkowująca wart zmiennej niezależnej warunkowe wart.oczek. zm.zależnej, ma postać m(x)=E(Y/X=xi) -->zal.zm YodX, m(y)=E(X/Y=yi) -->X od Y Regresja II rodz. f.przeprowadzona wg metody najmniejszych kwadratów-najcz. f.liniowa postaci g(y)=βXY*y+αXY -> zal YodX; βXY= wsp.regresji liniowej, wyraża wlk.zmiany zmiennej zależnej(Y) przy wzroscie zm.niezal.(X) o jednostkę. Wsp. αXY- stała regresji, wykresem jest linia prosta. βXY=
αXY=EX-βXY*EY; wsp.determinacji: miara inf.jaką część zm.zależnej można wyjaśnić przy pomocy danej f.regresji. Dla f. regresji I rodz. wsp.oznaczany jest ε2YX lub ε2XY a dla lin.regresji II rodz. przez ρ2XY. Dla regresji II rodz. wsp.det. jest taki sam dla każdego kier. zależności: ρ2XY=(ρXY )2= βXY*βYX ; ε2YX =
; [gdzie : D2(E(Y/X)) to wariancje warunkowych wart.oczek.; =∑ (E(Y/X=xi)-EY)2 * P(X=xi)= ∑(E(Y/X=xi))2*P(X=xi)-(EY)2 ] [a E(D2(Y/X)) są wart. oczek. wariancji rozkładów warunkowych =∑ D2(Y/X=xi)*P(X=xi)
Suma wariancji warunkowych wart.oczekiwanych i wart oczekiwanej wariancji warunkowych rozkł.dla każdego kierunku zależności=wariancji zm.zależnej, czyli D2Y= D2(E(Y/X))+ E(D2(Y/X))
OCENA ZALEŻNOŚCI : cel badania związku m.cechami: stwierdzenie czy istnieje zależność m.cechami, czy jest istotna, ocenić siłę zależności. Rodzaje cech: połączenie c.jakościowej lub ilościowej skokowej z dowolną, poł.c.ilośc.ciągłej z ilośc.ciągłą. Ad: jeżeli cecha jest skokowa to poszukujemy zależn.stochastycznej.| H0:cechy są niezal., H1: zal. , nij- liczebności w tabeli, pi=ni/N, liczebność teoretyczna:
; test:
, cechy są zależne gdy: χ2emp ≥ χ2αj(r-1)(k-1) <-z tabel(lb st.swob. ν dla kolumn i wierszy), sprawdzić też dla mniejszej α; o sile zależności decyduje wsp. T-Czuprowa T=
, jego wartość <0;1>. Jeśli zrobimy T2 to jest to wsp.determinacji (czyli x zależy w 5% od y)Ada.: poł cechy ilość.ciag z taką samą, gdy obie mają w populacji r.n.: kowariancja covxy=
, inf. czy jest zależność (≠0) czy nie ma(=0), znak mówi o kierunku zależności: proporcjonalnej(+), odwrtonie.prop.(-), jej wart w przedziale
<-SxSy;SxSy> ; wsp.korelacji liniowej Pearsona: rxy=
, inf.o sile i keir.zależności, jego wart w przedziale <-1;1>; istotność zależności: H0:E(rxy)=0 [nieistotna], t-stud: temp=
, gdy |temp|≥tα;N-2 to hipoteza zostanie odrzucona[jest istotny]. Liczymy (xi-
), dla y też, potem to do kwadratu (i jeżeli podzielimy przez N-1 to bedzie S2x i S2y.) a do kowariancji (x-
)*(y-
podzielić przez N-1, Adb połaczenie cechy ilosciowej ciagłej z c.il.ciagłą, gdy przynajmniej 1 nie ma w populacji r.n.:Współczynnik korelacji Spearmana: rs= 1-
, gdzie di to różnica rang przypisana wynikowi, takie samo temp do sprawdzenia istotności
ANALIZA REGRESJI: cel: -konstrukcja funkcji regresji dla próby, -ocena doparowania, sprawdzenie czy f.jest istotna, -stosowanie do przewidywania wart cechy zależnej (pamietać o błędzie prognozy)
F.liniowa ma postać
, b-wsp.regresji-informuje o ile zmieni się cecha zależna(y) jeśli niezależna wzrośnie o 1;
Wsp.równania reg.lin. są oznaczone metodą najmniejszych kwadratów, w której minimalizowana jest suma kw.odchyleń wart rzeczywistych od reszt: min
, stad byx= covxy/Sx2 ,a ayx=
-byx*
; ocena dopasowania funkcji: yi-
=(
-
)+(yi-
) ,
Suma 1- SST (suma kw.odchyleń całk.), suma 2- SSR (suma kw.odchyleń wyjaśnionych regresją), suma 3-SSE(suma kw.reszt)
R2=
-wsp.determinacji: informuje o stopniu dopasowania f.regresji., ocena istotności: H0: F.nieistotna, test F-Snedecora Femp.=
,gdzie k= lb.współczynników w modelu regresji łącznie z wyrazem wolnym (dla liniowej k=2). W tablicach F-Sned. odczyt wart.kryt. Fα;(k-1);(N-k) .Jesli obl.wart.testu Fempznajdzie się w prawostronnym obsz.krytycznym
ω=<Fα;(k-1);(N-k);∞> to model regresji jest istotny i opisuje zależność cechy Y od X w całej pop.; ocena istotności parametrów funkcji: H0: βyx=β0 dla wsp.regresji; H0: αyx=α0 dla stałej regresji, obie hipotezy weryfikujemy na podst. testu t-Studenta, a wart. emp.obliczamy: temp=
, Sb=
PREDYKCJA I JEJ BŁĄD: Jeżeli f.regresji jest istotna można używać jej do predykcji(przewidywania) wart cechy zależnej, jeśli znamy wart.cechy.niezal.(dla dowolnej cechy można oszacować wart Y oraz błąd tego przewidywania)
, błąd predykcji: wielkość błędu predykcji zależy od tego jak liczna była próba, jaka była jej zmienność, oraz jak duża jest wariancja błędu czyli reszt. Rośnie wraz z oddalaniem się wartości cechy X od jej średniej w próbie.
ANALIZA RESZT: reszty powinny mieć r.n., być losowo rozłożone w próbie uporządkowanej wzgl.cechy niezależnej oraz mieć stabilną wariancję
ANALIZA WARIANCJI: MODELE LINIOWE
Cele: ocena wpływu czynnika, podział zmnienności. Służy do weryfikacji hipotezy zakładającej równość wartości oczekiwanych wielu(k) populacji(lub grup): H0: μ1=μ2=...=μk (α1=...=αk) wobec dwustronnych hipotez alternatywnych. Aby można było tą H zweryfikować, potrzebna jest reprezentacja każdej z k-populacj (próba służąca do weyf.H o równości kilku średnich podzielona jest na k-grup reprezentujących k-populacji) taki podział to klasyfikacja czynnikowa. Czynnik-kryterium podziału(np.rasa),a poszczególne grupy(populacje)to poziom czynnika
gdzie 1 to SKOog-ogólna suma kwadratów odch., 2 to SKOm.grup.-międzygrupowa suma kwadratów(opisuje zmienność miedzy średnimi poszcz.grup) a 3 to SKOw.grup.-wewnątrzgrupowa suma kwadratów (odzwierc.zmiennosć miedzy obs.w obrebie kazdej grupy) MODEL LINIOWY analizy wariancji przedst każdą obserwajce (yij) jako sumę efektów czynników mających wpływ na jej wartość i uwzględnionych w analizie wariancji(opisuje jkakie składniki można wyodrębnić z każdej obserwacji a w konsekwencji na jakie skł.można podzielić oólną zmienność.
yij=μ+αi+eij gdzie yij-wart i-tej obs., μ- średnia ogólna, αi -efekt i-tej grupy(przewaga śreniej i-teg gr.nad śr.ogólną), eij-efekt odch.indywid.j-tej obserwacji.,| eij to błąd losowy (?)
CZYNNIKI STAŁE I LOSOWE: charakter czynników determinuje typ modelu liniowego (stały, losowy, mieszany).Rozkład całej populacji jest złożeniem rozkladów wszytskich poz.czynnika.(stały-rozkł o różnych charakterze, losowy-r.n.) czym sie róznia? sposób determinacji: st- [nie losowy, lo-[losowy]; lb poziomów:st- [niewielka, w analizie uwzgl.się zwykle konkretne poziomy cz], lo-duża, analizowany jest losowy podzbiór wsyztskich poz.cz.]; wnioskowanie: st-[ograniczone do poziomów cz.uwzględnionych w analizie],lo-[uogólnienie wniosków na wszytskie, również nie analizowane, poziomy cz];przykłady: st-[sezon, rok, stado, płeć, gr.żyw, rasa, linia],lo-[gr.genetyczna, linia, ojciec, rasa]
Przeprowadzenie analizy wariancji:
Źr.zmienności |
LSS |
SKO |
ŚKO |
Femp |
ogólna |
N-1 |
S0-S2 |
|
|
m.grupami |
k-1 |
S1-S2 |
|
|
wewnatrz grup |
N-k |
S0-S1 |
|
|
LSS-lb.st.swobody, , SKO-sumy kw.odchyleń, ŚKO=średnie kw.odchyleń(ilorazy sum kw. odch przez lb.st.swob.), S0-S2=SKOog,
S1-S2=SKOm.grup, S0-S1=SKOw.grup.Weryfikacja H-> porównanie Femp. z wart krytycznąrozkł F-Sned. dla st.sw k-1 i N-k. Obszar krytyczny jest prawostronny.(jeżeli jest wieksze-odrzucamy)
TEST DUNCANA-NIR: (porównanie parami wart.oczek)stawiamy zestaw hipotez, każda porównuje 1 pare wart.oczek, idea metody polega na znalezieniu najmniejszej istoty różnicy (NIR). Jeżeli rzeczywiste różnice m.dwiema gr są >NIR, hipotezę o ich równości odrzucamy.
;
; D-wart odcz.z tablic Duncana, no-przecietna liczebność w grupie., r=rząd różnicy