Czym różni się hipoteza statystyczna od hipotezy badawczej?
Hipoteza statystyczna to każde przypuszczenie dotyczące rozkładu(rozkładów) prawdopodobieństwa badanej zmiennej losowej(zmiennych losowych). Przypuszczenie to może dotyczyć parametru(parametrów) rozkłądu prawdopodobieństwa albo postaci tegoż rozkładu. Hipoteza statystyczna dotyczy teoretycznej kategorii badania a nie wyników uzyskanych z próby. Hipoteza statystyczna formułowana jest w terminach prawdziwych( choć nam nieznanych) wartości parametrów czy postaci rozkładu a nie wyników uzyskiwanych z próby. Wyniki liczbowe uzyskane z próby są podstawą do weryfikacji hipotezy statystycznej. Zatem na podstawie próby, uogólniając jej wynik formułujemy pewne sądy dotyczące ogólniejszej rzeczywistości- jest to istota metod indukcyjnych( rozumienia indukcyjnego).
Hipoteza badawcza jest sformułowana w terminach badania, w terminach merytorycznych a nie statystycznych, (np. „wprowadzenie tańszej technologii produkcji pewnego wyrobu nie powoduje pogorszenia jakości produktu” – hipoteza badawcza. Hipoteza statystyczna: „odsetek wadliwych produktów przy starej technologii – p1 i przy nowej technologi – p2 jest taki sam: p1=p2).
Hipoteza badawcza, niekiedy nazywana hipotezą naukową jest propozycją przypuszczalnego rozwiązania problemu badawczego, przez który w metodologii rozumie się pytanie albo zbiór pytań dotyczących pewnego fragmentu rzeczywistości. Taka propozycja rozwiązania problemu badawczego to często pomysł na przeprowadzenie badania, które może doprowadzić do rozwiązania problemu badawczego. Natomiast testowanie hipotezy statystycznej to nie tylko kwestia decyzji związanej z hipotezą zerową (testowaną) ale także rozstrzygnięcie, co zrobić, jeśli ją odrzucimy. Odrzucenie hipotezy zerowej jest równoznaczne z podjęciem decyzji o jej fałszywości. W każdym przypadku testowania hipotezy, oprócz hipotezy zerowej, sformułowana musi zostać także hipoteza alternatywna.
Zinterpretuj poziom istotności testu równy 0.05
Stosując testy istotności jesteśmy w stanie odrzucić hipotezę zerową na rzecz hipotezy alternatywnej, tj. podjąć decyzję, iż hipoteza zerowa jest fałszywa zaś hipoteza alternatywna prawdziwa. Podjęta w ten sposób decyzja będzie błędna w α×100% przypadków (podejmowania tego typu decyzji w powtarzanych badaniach), np. 5%. Natomiast nie możemy podjąć decyzji o prawdziwości hipotezy zerowej gdyż nie kontrolujemy prawdopodobieństwa błędu II rodzaju tj. prawdopodobieństwa błędu polegającego na przyjęciu hipotezy zerowej gdy jest ona fałszywa. Używamy wówczas pewnego wybiegu stwierdzając, że nie ma podstaw do odrzucenia hipotezy zerowej, co jednak jest znacznie słabsze niż jej przyjęcie.
Podstawą każdego testu statystycznego jest pewna staty-styka, tj. mierzalna funkcja obserwowalnych zmiennych losowych o znanym rozkładzie prawdopodobieństwa. W wyniku przeprowadzonego badania uzyskujemy zbiór danych, które wykorzystujemy do obliczenia wartości tej statystyki. Skoro znany jest nam rozkład prawdopodobień-stwa statystyki stanowiącej podstawę testu jesteśmy w stanie obliczyć odpowiadające tej wartości prawdopodobieństwo (używając dystrybuanty). Prawdopodobieństwo to jest porównywane z przyjętym arbitralnie poziomem istotności testu. W naukach biologicznych i społecznych najczęściej przyjmuje się α = 0,05.
Jeśli
p < α
to odrzucamy hipotezę zerową przyjmując za prawdziwą hipotezę alternatywną, iż np. dwie średnie (ale te w populacji generalnej, albo wartości oczekiwane badanych zmiennych) nie są sobie równe.
Jeśli
p > α
to stwierdzamy, iż nie ma podstaw do odrzucenia hipotezy zerowej (co nie oznacza, że hipotezę zerową przyjmujemy). Jeśli p = α to badacz podejmuje decyzję co z tym zrobić, odrzucić bądź nie H0.
Poziom istotności to α-prawdopodobieństwo błędu I rodzaju (prawdziwa hipoteza-Ho , hipoteza przyjęta H1)
3.zinterpretuj poziom istotności testu równy 0.05
Estymator przedziałowy nieznanego parametru rozkładu
Inaczej: przedział ufności. Jest to relacja między oszacowaniem nieznanego parametru i jego prawdziwej wartości w terminach prawdopodobieństwa. Krańce przedziału ufności są funkcjami zmiennych losowych. Jeżeli zrobiliśmy 100 doświadczeń i otrzymaliśmy 100 różnych przedziałów liczbowych, a p(x<Q<y)=0,95 (gdzie x i y to krańce przedziału ufności), to 95% spośród tych przedziałów pokrywa wartość parametru. Nie wiemy, które 5% pokrywa; możemy wnioskować po długościach przedziałów.
4.Czym różni się: poziom istotności testu i poziom ufności przedziału ufności?
Interpretacja poziomu ufności przedziału ufności
Jeśli wielokrotnie przeprowadzimy doświadczenie losowe (badanie) na odpowiedniej próbie i na podstawie wyników każdej próby obliczając realizację przedziału ufności, otrzymamy dużą liczbę liczbowych przedziałów ufności o różnych krańcach i różnych długościach. Jeśli poziom ufności przedziału ufności jest równy 0,95 to 95% spośród tych przedziałów będzie pokrywało nieznaną wartość szacowanego parametru Q (np. wartości oczekiwanej), oczywiście nie wiemy, które to są przedziały. (Prawdopodobieństwo, iż wynik badania zarejestrowany w próbie, podany w sposób przedziałowy jako pewien zakres wartości, jest zgodny ze stanem faktycznym w całej populacji).
interpretację poziomu istotności testu statystycznego
Testy istotności to takie, w których kontrolowany jest jedynie poziom istotności natomiast nie kontroluje się w nich prawdopodobieństwa błędu II rodzaju. Jesteśmy w stanie odrzucić hipotezę zerową na rzecz hipotezy alternatywnej tj. podejmujemy decyzję, że hipoteza zerowa jest fałszywa zaś hipoteza alternatywna jest prawdziwa. Nie możemy podjąć decyzji o prawdziwości hipotezy zerowej gdyż nie kontrolujemy prawdopodobieństwa błędu II rodzaju tj. prawdopodobieństwa błędu polegającego na przyjęciu hipotezy zerowej gdy jest ona fałszywa. Stwierdzamy wówczas, że nie ma podstaw do odrzucenia hipotezy zerowej .
5. do czego wykorzystujemy testy statystyczne?
Test statystyczny to reguła postępowania, która na podstawie wyników próby ma doprowadzić do podjęcia przez nas decyzji przyjęcia lub odrzucenia postawionej hipotezy statystycznej.
6.Testy istotności co to są?
Testy istotności to takie, w których kontrolowany jest jedynie poziom istotności natomiast nie kontroluje się w nich prawdopodobieństwa błędu II rodzaju. Jesteśmy w stanie odrzucić hipotezę zerową na rzecz hipotezy alternatywnej tj. podejmujemy decyzję, że hipoteza zerowa jest fałszywa zaś hipoteza alternatywna jest prawdziwa. Nie możemy podjąć decyzji o prawdziwości hipotezy zerowej gdyż nie kontrolujemy prawdopodobieństwa błędu II rodzaju tj. prawdopodobieństwa błędu polegającego na przyjęciu hipotezy zerowej gdy jest ona fałszywa. Stwierdzamy wówczas, że nie ma podstaw do odrzucenia hipotezy zerowej .
7. Dlaczego nie przyjmujemy Ho?
Jeśli
p < α
to odrzucamy hipotezę zerową przyjmując za prawdziwą hipotezę alternatywną, iż np. dwie średnie (ale te w populacji generalnej, albo wartości oczekiwane badanych zmiennych) nie są sobie równe.
8. Czy mediania i wartość oczekiwana zmiennej losowej to te same parametry? Uzasadnij.
Nie. Medianę można interpretować jako pewną wartość środkową analizowanej próby, która dzieli naszą próbę na dwie równoliczne części, obserwacje nie większe od mediany i obserwacje nie mniejsze od mediany, zaś wartość oczekiwana to wartość wokół której skupia się największa masa prawdopodobieństwa. Mediana może przyjąć tą samą wartość co wartość oczekiwana, ale jest to szczególny przypadek (gdy rozkład jest symetryczny). Mediana jest definiowana w terminach prawdopodobieństwa.
Porównanie „próbkowej” wartości oczekiwanej i mediany umożliwia łatwą choć przybliżoną ocenę symetrii (asymetrii) rozkładu prawdopodobieństwa badanej zmiennej. W rozkładzie symetrycznym, np. rozkład normalny, rozkład t-Studenta, wartość oczekiwana i mediana są sobie równe. Natomiast w rozkładach asymetrycznych są różne; im bardziej różni się wartość oczekiwana od mediany tym, zazwyczaj, rozkład wykazuje większą asymetrię. Poniższa rycina ilustruje taką zależność dla rozkładu prawoskośnego (rozkładu logarytmiczno-normalnego).
9. Omów pojęcia: estymacja, estymator, wartość stymatora
Estymacja jest metodą jest to szacowanie parametrów lub funkcji a estymator to narzędzie w tej metodzie wykorzystywane.
Aby funkcje zmiennych losowych uznać za estymator powinna ona posiadać porządne własności. ,,Porządny’’ estymator to taki, do którego będziemy mieli duże zaufanie, tzn., że spodziewamy się, że wartości parametru oszacowane na jego podstawie są w mniejszym lub większym przybliżeniu równe prawdziwej wartości parametru
Estymatory punktowe
Postępowanie przy oszacowaniu nieznanego parametru Q na podstawie próby polega na wyznaczeniu na podstawie próby wartości „u” pewnej statystyki „U”, której rozkład zależy od tego parametru. Wartość „u” statystyki „U” PRZYJMUJEMY za oszacowanie nieznanego parametru. Jako rezultat estymacji punktowej uzyskujemy jedną liczbę, którą ZGADZAMY SIĘ UWAŻAĆ za prawdziwą wartość poszukiwanego parametru
Liczba ta jest wynikiem obliczenia wartości estymatora na podstawie wyników obserwowanej cechy (np. wzrost, iloraz inteligencji, poziom cholesterolu całkowitego w surowicy krwi) w badanej próbie. Zmienną „U” nazywamy estymatorem. Jest to funkcja zmiennych losowych a zatem, sama jest zmienną losową. Natomiast „u” jest wartością estymatora, czyli jest wartością zmiennej losowej.
Czy każda zmienna losowa może być estymatorem?
Aby funkcję zmiennych losowych uznać za estymator, powinna ona posiadać pewne pożądane własności. „Porządny” estymator to taki, do którego będziemy mieli duże zaufanie w tym sensie, że spodziewamy się, iż wartości parametru oszacowane na jego podstawie są w mniejszym lub większym przybliżeniu równe prawdziwej wartości parametru. Do takich pożądanych cech estyma-tora punktowego należą:
− zgodność,
− nieobciążoność i
− efektywność estymatora
10. Czy przyjęcie hipotezy alternatywnej oznacza jej prawdziwość? Rozwiń
Testy statystyczne umożliwiają nam jedynie podjęcie decyzji o prawdziwości bądź fałszywości określonej hipotezy nie pozwalają jednak ROZSTRZYGNĄĆ czy dana hipoteza jest w rzeczywistości prawdziwa albo fałszywa
Stosując testy istotności jesteśmy w stanie odrzucić hipotezę zerową na rzecz hipotezy alternatywnej, tj. podjąć decyzję, iż hipoteza zerowa jest fałszywa zaś hipoteza alternatywna prawdziwa. Podjęta w ten sposób decyzja będzie błędna w α×100% przypadków (podejmowania tego typu decyzji w powtarzanych badaniach), np. 5%. Natomiast nie możemy podjąć decyzji o prawdziwości hipotezy zerowej gdyż nie kontrolujemy prawdopodobieństwa błędu II rodzaju tj. prawdopodobieństwa błędu polegającego na przyjęciu hipotezy zerowej gdy jest ona fałszywa. Używamy wówczas pewnego wybiegu stwierdzając, że nie ma podstaw do odrzucenia hipotezy zerowej, co jednak jest znacznie słabsze niż jej przyjęcie.
10.Czy test niezależności chi-kwadrat i dokładny test Fishera są stosowane do testowania takich samych hipotez? Jakich?
Tak. Obydwoma testami testujemy hipotezy:
H0: zmienne X i Y (dyskretne) są niezależne
H1: ~(zmienne X i Y są niezależne) ≡ zmienne X i Y nie są niezależne
Test Chi-kwadrat niezależności stosujemy gdy liczebność oczekiwana jest większa bądź równa 5 w każdej tablicy kontyngencji jeśli ten warunek jest nie spełniony powinniśmy zastosować dokładny test Fishera . Test Chi-kwadrat jest nadwrażliwy przy dużych liczebnościach więc stosujemy T. Fishera.
Decyzje podjęte na podstawie testu chi-kwadrat i dokładnego testu Fishera są takie same.
Wyjaśnij kiedy stosujemy dokłady test Fishera?
Dokładny test Fishera stosowany jest do tego samego rodzaju danych co test niezależności chi-kwadrat. Gdy pewne z liczebności oczekiwanych są małe, dokłady test Fishera jest wówczas odpowiedniejszy niż chi-kwadrat. Natomiast gdy wszystkie liczebności oczekiwane będą bardzo duże stosowanie testu fishera będzie niepraktyczne ze względów obliczeniowych
Jakie estymatory nazywamy nieobciążonymi?
Estymator Un, gdzie n oznacza liczebność próby, na podstawie której obliczana jest wartość estymatora parametru Q, jest estymatorem nieobciążonym, jeśli dla każdej liczebności próby wartość oczekiwana estymatora jest równa wartości estymowanego parametru.
Miary zależności między zmiennymi dyskretnymi
Stosując test niezależności chi-kwadrat możemy jedynie zdecydować, iż badane zmienne nie są niezależne. Jeżeli chcemy się dowiedzieć, jak silna to zależność oraz, w przypadku skal porządkowych, jaki jest jej kierunek, musimy zastosować mierniki zależności
a) mierniki zależności dla zmiennych badanych na skalach nominalnych
-określają tylko siłę związku między zmiennymi; 2 typy:
* Miary zbudowane na statystyce chi-kwadrat:
Współczynnik Pearsona C
Współczynnik Cramera V
Współczynnik T Czuprowa
* Miary koncentracji i niepewności:
Współczynnik Lambda Goldmana – Kruskala (0,1), możemy dowolnie przestawiać komórki i wiersze, a wartość się nie zmieni;
Współczynnik niepewności U Thiela
Współczynnik koncentracji Goldmana i Kruskala
Współczynnik K (kappa) Cohena – równy 0 gdy oczekiwana jest przypadkowa zgodnośc, 1, gdy idealna; im silniejsza zgodność tym większa wartość
b) Miary zależności dla zmiennych mierzonych na skalach porządkowych:
- oparte na porównywaniu zgodności i niezgodności par względem siebie; określają kierunek i charakter zależności.
Mierniki TB i TC Kendala
Miernik gamma Goldmana i Kruskala
Współczynnik d Somersa
Omów pojęcie kierunkowości dla mierników siły zależności miedzy zmiennymi porządkowymi.??????????????????????????????
Co to jest poziom istotności testu statystycznego?
Testy istotności to takie, w których kontrolowany jest jedynie poziom istotności natomiast nie kontroluje się w nich prawdopodobieństwa błędu II rodzaju. Jesteśmy w stanie odrzucić hipotezę zerową na rzecz hipotezy alternatywnej tj. podejmujemy decyzję, że hipoteza zerowa jest fałszywa zaś hipoteza alternatywna jest prawdziwa. Nie możemy podjąć decyzji o prawdziwości hipotezy zerowej gdyż nie kontrolujemy prawdopodobieństwa błędu II rodzaju tj. prawdopodobieństwa błędu polegającego na przyjęciu hipotezy zerowej gdy jest ona fałszywa. Stwierdzamy wówczas, że nie ma podstaw do odrzucenia hipotezy zerowej .
Na czym polega błąd pierwszego rodzaju?
18 na czym plega błąd II rodzaju
Błąd I rodzaju polega na odrzuceniu hipotezy zerowej gdy jest ona prawdziwa, błąd II rodzaju polega na przyjęciu hipotezy zerowej wtedy gdy jest ona fałszywa. Prawdopodobieństwo popełnienia błędu I rodzaju nazywane jest poziomem istotności testu, zaś prawdopodobieństwo popełnienia błędu II rodzaju jest podstawą do wyznaczenia mocy testu. Prawdopodobieństwa popełnienia błędów : I i II rodzaju pozwalają kontrolować częstość podejmowania błędnych decyzji
19 omów relacje między skalą pomiarową a typem zmiennej losowej.
Typ skali informuje nas o tym, jakie relacje między wynikami pomiaru uznawać będziemy za posiadające interpretację pod względem empirycznym. Dane czysto jakościowe wyrażamy na skali nominalnej. Obiekty mogą być zaklasyfikowane do różnych kategorii, np. wśród ludzi możemy wyróżnić osoby różnej płci lub zawodu. Relacje między kategoriami to zgodność (A=B) lub różność (A≠B). Skala porządkowa umożliwia porządkowanie danych. Zatem wyniki można uszeregować np. rosnąco. Skala przedziałowa umożliwia określanie odległości. Wyniki zatem mogą być poddawane operacjom arytmetycznym, takim jak sumowanie i różnicowanie (czyli porównywanie przedziałów). Skala ta nie posiada zera bezwzględnego. Pozwala operować na liczbach naturalnych. Skala ilorazowa jest „zamknięta” z jednej strony (posiada zero bezwzględne). Ponadto pozwala operować na liczbach rzeczywistych, umożliwia mnożenie i dzielenie (porównywanie stosunków). Wybrana skala determinuje odpowiednie narzędzia statystyczne, ponadto część informacji możemy utracić, jeśli np. użyjemy słabszej skali.
Skala pomiarowa służy operacjonalizacji analizowanej zmiennej. Zmienne dyskretne mogą być wyrażone na skali nominalej i porządkowej. Zmienne ciągłe na skali interwałowej lub ilorazowej.[ Zmienna dyskretna (skokowa) to zmienna losowa, która może przyjmować jedynie wartości należące do pewnego, co najwyżej przeliczalnego zbioru S, przy czym każda wartość ze zbioru S ma prawdopodobieństwo dodatnie, natomiast zmienna ciągła to zmienna losowa, która może przyjmować wartości należące do pewnego nieprzeliczalnego zbioru S i nie mającą punktów skokowych.] Natomiast skala pomiarowa służy do operacjonalizacji danej zmiennej. W zależności od celu badania można zmienną losową ciągłą wyrazić na skali niższego rzędu np.na skali porządkowej wówczas traktowana będzie jako quazi dyskretna.
20. omów testy wykorzystywane przy porównywaniu dwóch średnich
Test t-Studenta dla prób niezależnych – badamy dwie grupy osób (dwie populacje), w których badana cecha ma normalny rozkład prawdopodobieństwa. Odchylenia standardowe (wariancje) są nieznane ale jednakowe. Na podstawie wyników dwu małych prób wylosowanych niezależnie z tych populacji weryfikujemy hipotezę:
H0: μ1 = μ2 ≡ μ1 – μ2 = 0
H1: μ1 ≠ μ2 ≡ μ1 – μ2 ≠ 0
Test Manna – Whitney’a – oparty o statystykę wykorzystującą rangi; stosujemy, gdy nie można użyć testu t-Studenta (badana cecha nie ma rozkładu normalnego i nie możemy skorzystać z twierdzeń granicznych (n≤30)). Testujemy hipotezę:
H0: dwie niezależne próbki pochodzą z populacji o takim samym rozkładzie
H1: ~(dwie niezależne próbki pochodzą z populacji o takim samym rozkładzie)
Test t-Studenta dla prób zależnych – badamy jedną grupę osób (jedną populację) dwa razy, czyli badamy pewną cechę tej populacji dwa razy (w dwóch różnych momentach, np. przed i po terapii). Dla takiego eksperymentu testujemy następujące hipotezy:
H0: μd = 0
H1: μd ≠ 0
Gdzie μd jest średnią prawdziwych różnic (różnic w odpowiedniej populacji generalnej) obserwacji przed i po terapii. Czyli dla każdej osoby obliczamy różnicę między wartością badanej cechy przed terapią i wartością tej samej cechy po terapii. Następnie obliczamy średnią tych różnic. Testu możemy użyć jeśli badana cecha ma rozkład normalny (jeśli n≤30), jeśli próba jest liczniejsza, na mocy twierdzeń granicznych można zastosować ów test, wariancje cechy muszą być równe.
Test Wilcoxona dla par – test wykorzystujący rangi różnic oraz znaki różnic dla poszczególnych par obserwacji, tzn, że podobnie jak w teście t-Studenta dla par obserwacji, obliczamy różnicę między wartościami badanej cechy w dwóch momentach (np. przed i po terapii). Stosujemy, gdy dane empiryczne nie spełniają warunków stosowalności testu t-Studenta dla prób zależnych.
21. podaj podstawowe założenia testy T-studenta i oceń ich niezbędność?
Założenia testu t-Studenta (dla prób zależnych i dla prób niezależnych):
Rozkład normalny badanej cechy; jeśli liczebność obu grup > 30, to na mocy twierdzeń granicznych możemy zrezygnować z założenia, iż rozkład badanej cechy jest rozkładem normalnym i przeprowadzić testowanie, tak jakby cecha miała rozkład normalny
Równe wariancje w porównywanych grupach
n1 i n2 > 30
wykorzystujemy twierdzenia graniczne: wraz ze wzrostem liczby zmiennych (liczebności próby) rozkład statystyki będącej podstawą testu zbliża się do pewnego znanego nam rozkładu
n1 albo n2 < 30
sprawdzamy symetrię rozkładu; gdy rozkład jest w przybliżeniu symetryczny stosujemy test t korzystając z odporności statystyki t-Studenta; gdy rozkład będzie niesymetryczny możemy zastosować transformację logarytmiczną jeśli i ona nie pomoże stosujemy test nieparametryczny Manna-Whitney’a
22.Czy test manna-Whitney i test Wilcoxona są wykorzystywane do testowania tych samych hipotez statystycznych?
Oba testy są nieparametrycznymi (rangowymi) odpowiednikami testu t-Studenta, jednakże Manna Whitney’a używamy do badania 2 prób nzal, a testu Wilcoxona – dla 2 prób zal. Dodatkowo oprócz rang różnic wykorzystuje on znaki różnic.
Testują te same hipotezy:
Ho; F1-F2
gdzie F1 i F2 są np. dystrybuantami rozkładu prawdopo-dobieństwa badanej cechy w porównywanych populacjach
lub
H0: dwie niezależne próbki pochodzą z populacji o takim samym rozkładzie prawdopodobieństwa
H1: ~ (dwie niezależne próbki pochodzą z populacji o takim samym rozkładzie prawdopodobieństwa)
23. Podstawowe różnice między estymatorem punktowym i przedziałowym
Funkcja, będąca estymatorem punktowym, pozwala nam uzyskać jedną liczbę, którą zgadzamy się uważać za prawdziwą wartość poszukiwanego parametru. Estymator przedziałowy pozwala określić relację między oszacowaniem nieznanego parametru i jego prawdziwej wartości w terminach prawdopodobieństwa, tzn, że nie mamy dokładnej informacji o odległości między wartością estymatora punktowego a prawdziwą wartością parametru, jedynie poznajemy prawdopodobieństwo, iż prawdziwa wartość parametru może znajdować się z zbiorze pewnych przedziałów liczbowych
24 Scharakteryzuj parametry położenia
Mediana – przez to pojęcie rozumiemy pewną wartość środkową analizowanej próby, która dzieli naszą próbę na dwie równoliczne części, obserwacje nie mniejsze od mediany i obserwacje nie większe od mediany. Jest to odpowiednik wartości oczekiwanej jako parametru położenia
Kwartyle – dzielą badaną populację (próbę), ze względu na wielkość obserwacji, na cztery równoliczne części. (Ale ich definicja jest wyrażona w terminach prawdopodobieństwa)
Percentyle – kwantyle rzędu 0,1 0,2 ... 0,9; dzielą badaną próbę (populację) na 10 równolicznych części
25 Scharakteryzuj parametry rozproszenia
Wariancja – moment centralny rzędu drugiego, czyli średnie odchylenie kwadratowe zmiennej losowej X od wartości przeciętnej E(X)
Odchylenie standardowe – pierwiastek kwadratowy z wariancji
Odchylenie ćwiartkowe – odpowiednik odchylenia standardowego, połowa różnicy trzeciego i pierwszego kwartyla: ½(x3/4-x1/4)
Właściwości wariancji:odchylenie standardowe to miernik rozrzutu wartości zmiennej losowej wokół wartości oczekiwanej. Im odchylenie standardowe jest większe tym wartości zmiennej losowej będą bardziej rozproszone a im odchylenie stand., mniejsze tym wartości zmiennej losowej będą bardziej skupione wokół wartości oczekiwanej.
Wariancja i odchylenie zmiennej losowej w praktyce mają to samo znaczenie(oba parametry są miarami rozrzutu(rozproszenia)) zmiennej losowej wokół wartości oczekiwanej(wartości przeciętnej), jednakże odchylenie standardowe jest wygodniejsze gdyż mierzone jest w takich samych jednostkach jak sama zmienna oraz wartość oczekiwana.
26. Na czym polega częstościowa interpretacja prawdopodobieństwa?
Interpretacja ta znajduje zastosowanie gdy przestrzeń zdarzeń elementarnych zawiera nieskończoną ilość elementów. Jeśli eksperyment będziemy wykonywać wielokrotnie i po każdym wykonaniu eksperymentu obliczać częstość badanego zdarzenia A to wraz ze wzrostem liczby wykonanych doświadczeń wahania częstości na/n będą coraz mniejsze i będą oscylowały wokół pewnej stałej wartości wokół liczby będącej prawdopodobieństwem P(A)
27. określ różnice miedzy zmiennymi dyskretnymi i ciagłymi
Ciagła zmienna losowa przyjmuje wartości należące do pewnego nieprzeliczalnego zbioru S i nie ma puntków skowowych?????????????????/
Dyskretna zmienna skokowa
Zmienną losową, która z prawdopodobieństwem równym 1 przybiera wartości należące do pewnego, co najwyżej przeliczalnego zbioru S, przy czym każda wartość ze zbioru S ma prawdopodobieństwo dodatnie nazywać będziemy dyskretną zmienną losową (zmienną losową typu skokowego). Wartości te nazywamy punktami skokowymi, a ich prawdopodobieństwa – skokami
28. omów krótko zagadnienie reprezentatywności próby
Część populacji generalnej, której zbadanie ma dostarczyć określonych informacji o całej popu-lacji, nazywamy próbą
Badanie statystyczne, w którym zamiast całej popu-lacji bada się, odpowiednio wybraną część, tj. próbę, której reprezentatywność w żądanym zakresie można naukowo uzasadnić, nazywać będziemy badaniem metodą reprezentacyjną
Próba reprezentatywna: próba typowa (podobna jak populacja generalna) pod względem pewnych charakterystyk niezależnie od metody, za pomocą której została wybrana. Określenie reprezentatywne ograniczamy dla prób, które są takimi pod względem pewnych charakterystyk.
Próba reprezentatywna, czy coś takiego w ogóle istnieje?
Możemy mówić o reprezentatywności próby jedynie pod względem pewnej określonej cechy. Np. częstość kobiet i mężczyzn w badanej populacji generalnej i wylosowanej próbie są prawie takie same – możemy wówczas mówić o reprezentatywności próby względem rozkładu częstości płci.
Natomiast zwrot, który także można spotkać w wielu publikacjach, iż próba reprezentatywna to próba najlepiej reprezentująca badaną populację, wydaje mi się nadużyciem. Zwrot ten obiecuje coś niemożliwego do osiągnięcia. Nie istnieje próba reprezentatywna pod względem wszystkich możliwych do pomyślenia czy zbadania aspektów (właściwości) elementów populacji
29. Do czego przydatne są zmienne losowe??????
Zmienną losową nazywamy każdą mierzalną funkcję określoną na przestrzeni zdarzeń elementarnych Ω o wartościach w zbiorze liczb rzeczywistych. Funkcja ta ma własność: przeciwobraz A każdego przedziału I liczb rzeczywistych postaci (- ∞, x) jest zdarzeniem losowym
30. Co możesz powiedzieć o pojęciu odporności statystyk?
Wnioskowanie statystyczne będziemy traktowali jako odporne jeśli będzie ono niewrażliwe na (mniejsze albo większe) odchylenia od założeń, przy których było otrzymane.
Tego typu odporność może dotyczyć różnych aspektów wnioskowania, np. postaci rozkładu prawdopodobieństwa statystyki będącej podstawą testu, wartości tej statystyki, mocy testu, wartości estymatora, itp.
Co to jest interakcja między zmiennymi?
Interakcję miedzy czynnikami α i β możemy rozumieć jako łączny, nierozkłądalny na sumę efektów czynnika α i β wpływ obu czynników na badaną zmienną ciągłą.
Hipoteza zerowa:
H0: łączne efekty poziomów czynnika α i poziomów czynnika β, dla każdej pary (i, j) i = 1, ..., K; j = 1, ..., J, w jednakowy sposób wpływają na mierzoną cechę (zmienną Y).
Hipoteza alternatywna:
H1: istnieje przynajmniej jeden poziom pierwszego czynnika i jeden poziom drugiego czynnika, których łączny wpływ na zmienną Y jest inny niż pozostałych kombinacji poziomów tych czynników.
Efekty czynników α i β nazywane są efektami głównymi w dwuczynnikowym modelu analizy wariancji, zaś ich interakcja nazywana bywa efektem interakcyjnym. W przypadku dwuczynnikowej analizy kowariancji będziemy mieli do czynienia zarówno z efektami głównymi, efektami kowariancyjnymi jak i efektami interakcyjnymi.
W jakich modelach możemy spotkać się z interakcją?
Interakcja może wystąpić kiedy badamy związek więcej niż jednej zmiennej niezależnej ze zmienną zależną. Gdy istnieje mozliwość, że jedna ze zmiennych niezależnych modyfikuje wpływ innej zmiennej niezależnej na zmienną zależną.
W modelach analizy wariacji wieloczynnikowej i kowariancji, modelach regresji liniowej i logistycznej
Czym różnią efekty proste i efekty główne???????????
Ef. Proste-Porównanie średnich między poziomami czynnika pierwszego i osobno czynnika drugiego
Ef. Główne- dla 2 czynnika porównywanie średnich kiedy nie bierzemy pod uwagę poziomu czynnika pierwszego
Czy modele regresji liniowej i regresji logistycznej są stosowane do rozwiązywania tych samych problemów? Jakich?
Nie. W modelu regresji liniowej poszukujemy zależności między wartoścami zmienej objaśnianej i wartościami zmiennych objaśniających a model regresji logistycznej opisuje zależność między wartościami zmiennych objaśniających (nazywanych często czynnikami ryzyka) a prawdopodobieństwem wystąpienia badanego zdarzenia (stanu zmiennej wynikowej)
Można powiedzieć ze obie metody służą do oceny zależności ale zmienne wynikowe z badania są różne.
Czym różnią się: kontrast i porównanie wielokrotne?
Kontrasty- wybieramy jeden ze skrajnych poziomów jako poziomy odniesienia i porównujemy np. pierwszy i drugi, pierwszy i trzeci, nie ma wtedy porównania drugiego i trzeciego. Natomiast w porównaniu wielokrotnym porównujemy każdy poziom z każdym.
Połącz założenia jednoczynnikowej ANOVA z grupami testów porównań wielokrotnych?
W wyniku testowania ogólne hipotezy w jednoczynnikowej Analizie wariancji możemy uzyskać jeden z dwóch rezultatów.
-odpowiednie prawdopodobieństwo jest większe od przyjętego poziomu istotności, zatem nie mamy podstaw do odrzucenia Ho, iż wszystkie średnie we wszystkich grupach są jednakowe, wówczas kończymy proces testowania
-Jeśli prawdopodobieństwo odpowiadające wartości statystyki F-Sendecora jest mniejsze od alfa wówczas odurzamy Ho, traktując jako prawdziwą alternatywnej tj. Średnie we wszystkich porównywanych grupach nie są sobie równe.
Przyjęcie H 1 jest zbyt ogólne, pojawia się więc pytanie „która średnia spowodowała odrzucenie kipotezy?”- aby odpowiedzieć na to pytanie powinniśmy zastosować test porównań wielokrotnych, który służy do weryfikacji zespołu hipotez gwarantując, iż poziom istotności będzie zachowany dla wszystkich porównań jednocześnie
Omów króciutko metody oceny dopasowania modeli regresji liniowej i logistycznej do danych empirycznych.
Reg. Lin. Współczynnik determinacji- jest to kwadrat współczynnika korelacji i interpretuje się go jako odsetek (procent, jeśli pomnożymy przez 100)wariancji zmiennej objaśnianej wyjaśnionej przez zmienną objaśniająca. Ponadto służy on także jako miernik jakości dopasowania modelu do danych empirycznych.
Jeśli R-kwadrat jest równy 0 to nie koniecznie oznacza to iż nie ma zależności między badanymi zmiennymi. Oznacza to iż model liniowy jest nieodpowiedni do opisu zależności miedzy zmienną objaśnianą i objaśniającą (gdyż zależność ta może być nieliniowa i wówczas model liniowy nie pasuje (jest źle dopasowany)do danych empirycznych)
W programie SPSS występuje także skorygowany współczynnik determinacji, który jest próbą skorygowania R-kwadrat by lepiej odzwierciedlał jakość dopasowania modelu w populacji generalnej
Reg. Logist Test Hosmera- Lemenschowa – najprostszy tes dopasowania modelu. Jeśli p>0.05,model jest satysfakcjonujący jeśli p<α model jest źle dopasowany
Wynika to z H0:model jest dopasowany H1: model jest niedopasowany
Statystyka chi-kwadrat jest średnia miarą punktów empirycznych od krzywej czy powierzchni wyznaczonej przez model. Im ta miara jest mniejsza tym lepiej model pasuje do danych
Jakie hipotezy są testowane w jednoczynnikowej analizie kowariancji z jedną zmienną kowariancyjną?
Jakie hipotezy testowane są w dwuczynnikowej analizie wariancji?
H0α: α1 = α2 = ... = αk
H1α: ~(α1 = α2 = ... = αk)
Hipoteza zerowa – wszystkie poziomy pierwszego czynnika w jednakowy sposób wpływają na mierzoną cechę
Hipoteza alternatywna – istnieje przynajmniej jeden poziom pierwszego czynnika, który na mierzoną cechę wpływa inaczej niż pozostałe
H0β: β1 = β2 = ... = βk
H1β: ~(β1 = β2 = ... = βk)
Hipoteza zerowa – wszystkie poziomy drugiego czynnika w jednakowy sposób wpływają na mierzoną cechę
Hipoteza alternatywna – istnieje przynajmniej jeden poziom drugiego czynnika, który na mierzoną cechę wpływa inaczej niż pozostałe
H0γ: γ11 = γ12 = ... = γkj
H1γ: ~(γ11 = γ12 = ... = γkj)
Hipoteza zerowa - łączne efekty poziomów czynnika α i poziomów czynnika β, dla każdej pary (i, j) i = 1, ..., K; j = 1, ..., J, w jednakowy sposób wpływają na mierzoną cechę (zmienną Y).
Hipoteza alternatywna - istnieje przynajmniej jeden poziom pierwszego czynnika i jeden poziom drugiego czynnika, których łączny wpływ na zmienną Y jest inny niż pozostałych kombinacji poziomów tych czynników
Jakie hipotezy testujemy w regresji liniowej?
Ho:Bo=0
H1:~(…)
Ho:B1=0
H1~(...)
Jeśli współczynnik regresji B1 jest istotnie różny od zera (prawdo-podobieństwo w teście jest mniejsze od 0,05) to jesteśmy skłon-ni przyjąć, iż zmienna objaśniana w istotny sposób (w terminach statystycznych) jest związana ze zmienną objaśniająca.
R2=0
R2>0
hipoteza ta pozwala ocenić jakość dopasowania modelu do danych empirycznych.
Jakie hipotezy testujemy w regresji logistycznej?
Dlaczego dwuczynnikowej analizy wariancji nie możemy zastąpić dwiema analizami jednoczynnikowymi?
Ponieważ zanika interakcja pomiędzy czynnikami
W jaki sposób możemy osłabić założenie normalności rozkładu badanej cechy w znanych Ci modelach statystycznych?
-np. zastąpić rozkład normalny symetrycznym
W jaki sposób możemy zastąpić test do weryfikacji hipotezy zerowej, iż współczynnik regresji w modelu regresji logistycznej jest równy zeru skonstruowaniem przedziału ufności dla tegoż współczynnika?
Należy skonstruować przedział ufności którego górna granica będzie większa od jedności a dolna mniejsza od jedności
W jaki sposób możemy zastąpić test do weryfikacji hipotezy zerowej, iż iloraz szans w modelu regresji logistycznej jest równy jedności, skonstruowaniem dla niego przedziału ufności?
Należy skonstruować przedział ufności którego górna granica będzie większa od jedności a dolna mniejsza od jedności
Dlaczego w modelach regresji liniowej nie możemy zamiennie wykorzystywać standaryzowanych i niestandaryzowanych współczynników regresji?
Ponieważ przedstawiają inne wartości ???????????????
Czym różni się współczynnik korelacji liniowej Pearsona od współczynnika korelacji cząstkowej?
Wsp. Pearsona to współczynnik korelacji w modelu wielorzędowym- to współczynnik korelacji między określoną zmienną objaśniającą i objaśnianą bez innych zmiennych
Wsp. Korel cząstkowej to miara zależności między okr4eśloną zmienną objaśniającą i objaśnianą, gdy usuniemy efekty liniowe zmiennej objaśniającej z XiY
Do czego może być wykorzystywany współczynnik korelacji czastkowej?
Współczynnik korelacji cząstkowej (partial correlation coefficient) – miernik korelacji między Y i Xi gdy liniowe efekty pozostałych zmiennych objaśniających zostały usunięte zarówno z Xi jak i z Y.
Współczynnik korelacji cząstkowej, dla przypadku dwóch zmiennych objaśniających, można traktować jako miernik zależności między zmienną objaśnianą i określoną objaśniającą, zależności skorygowanej o wpływ drugiej zmiennej objaśniającej. Nie należy tu dowolnie żonglować zmiennymi objaśniającymi
19.Na czym polega istota metody najmniejszych kwadratów szacowania współczynników regresji w modelu regresji liniowej?
Do punktów {(xi , yi) i = 1, 2, ..., n} dobieramy taką prostą
y = b0 + b1 · x
by suma kwadratów odległości punktów od prostej, mierzonych równolegle do osi OY była najmniejsza (jest to metoda najmniejszych kwadratów estymacji współczynników regresji).
Lub
Do zbioru punktów empirycznych dobieramy taka k-wymiarową hiperpłaszczyznę
Y=b0+b1*x1+b2*x2…+Bk*xk
By suma kwadratów odległości punktów od tej hiperpłaszczyzny mierzonych równolegle do osi OY była najmniejsza
Kiedy, w jednoczynnikowej analizie wariancji, stosujemy test Welcha i Browna-Forsythe’a?
Testy: Welcha i Browna-Forsythe’a stosujemy gdy wariancje w grupach nie są jednorodne
Co to znaczy, iż test statystyczny jest odporny na niespełnianie podstawowych założeń?
Test statystyczny jest odporny jeśli odporna jest statystyka, moc testu jest stablna i poziom istotności nie bardzo odbiega od normalnego
22 . Zinterp retuj iloraz szans w regresji logistycznej.
Jest ona inna dla zmiennej ciągłej i inna dla zmiennej dyskretnej. Mianowicie, dla zmiennych ciągłych OR pozwala ocenić krotność zmian ryzyka przy wzroście o jednostkę zmiennej traktowanej jako czynnik ryzyka. Np. OR dla wieku w powyższym przykładzie = 1,0964, tzn. że z każdym rokiem życia ryzyko choroby układu krążenia wzrasta 1,0964 razy. Przyjmując, iż ryzyko to dla 25 latka wynosi p, dla 35 latka będzie równe
czyli jest ponad 2,5 razy większe u 35 latka w porównaniu z 25 latkiem.
Natomiast dla zmiennej dyskretnej podawane są ilorazy szans dla poszczególnych kategorii tej zmiennej w odniesieniu do kategorii zadeklarowanej jako kategoria odniesienia. W rozważanym przez nas przykładzie OR dla kategorii plec(1) zmiennej płeć wynosi 4,308. Zadeklarowaną kategorią odniesienia byli mężczyźni i uzyskany wynik oznacza, że ryzyko choroby układu krążenia dla kobiet jest 4,3 razy większe niż dla mężczyzn.
Omów króciutko metody krokowe wykorzystywane podczas budowania modeli regresyjnych.
Metody uzyskiwania modeli nie zawierających zmien-nych nieistotnych.
Jedne z nich eliminują z większego zbioru zmiennych te nieistotne, inne wprowadzają do modelu tylko zmienne istotne, oraz najefektywniejsze metody (metoda kroko-wa w SPSS), w której na każdym etapie po wprowadze-niu kolejnej zmiennej analizowany jest cały uzyskany do tego momentu model i usuwane są zmienne, które ewentualnie „utraciły istotność”.
Reg liniowa- metody wprowadzania. Eliminacji wstecznej i selekcji postępującej
Reg. Logistyczne- Eliminacji wstecznej i selekcji postępującej
Na czym polega interakcja w modelach regresji liniowej?
Jaki jest zakres zmienności współczynników regresji a jaki standaryzowanych współczynników regresji?
Standaryzowane współczynniki regresji zmieniają się w zakresie od -1 do +1 i mogą być porównywa-ne między sobą dla różnych zmiennych losowych.
Im większa jest wartość bezwzględna standaryzo-wanego współczynnika regresji tym silniejszy wpływ tejże zmiennej (w sensie statystycznym) na zmienną objaśnianą.
Współczynniki regresji zakres od – do + nieskończoności
Do czego służy test Shapiro-Wilka a do czego test Hosmera-Lemeshowa?
Test Hosmera- Lemenschowa – najprostszy tes dopasowania modelu. Jeśli p>0.05,model jest satysfakcjonujący jeśli p<α model jest źle dopasowany
Wynika to z H0:model jest dopasowany H1: model jest niedopasowany
Test Shapiro- Wilka jest najmocniejszy wśród testów normalności
Jeśli prawdopodobieństwoaw każdej grupie są mniejsze od 0.0005 to odrzucamy Ho; rozkład zmiennej badajen w każdej z badanych grup jest rozkładem normalnym na H1;~(Ho)
Czy test Kruskala-Wallisa w pełni zastępuje parametryczną jedoczynnikową analizę wariancji? Uzasadnij krótko.
Jest to nieparametryczna wersja jednoczynnikowej analizy wariancji. Podstawą tego testu jest statystyka.
Uwaga dotycząca testu Kruskala-Wallisa, nieparametrycznej wersji jednoczynnikowej analizy wariancji. Otóż w wersji parametrycznej ANOVA, po odrzuceniu hipotezy zerowej o równości średnich w grupach mamy do dyspozycji testy porównań wielokrotnych aby znaleźć tę grupę (albo grupy), która pod względem wartości średniej badanej cechy różni się istotnie od innych. Stosując test Kruskala-Wallisa nie mamy testów porównań wielokrotnych.
Czy hipotezy dotyczące tzw. efektów głównych w jednoczynnikowej ANOVA są formułowane tak samo w parametrycznej i nieparametrycznej wersji testów? Omów to króciutko.
Testy parametryczne służą do porównywania średnich Ho:µ1=µ2=µ3
Rozkłady średnich są jednakowe, ich wszystkie arametry są jednakowe więc własnośi oczekiwane też
nieparametryczne do badania rozkładu prawdopodobieństwa Ho;F1=F2=F3 tu mamy to samo a nawet więcej
Ho można powiedzieć ze dotyczątego amego jednak kiedy odrzucimy Ho to nie sa już równoważne ponieważ mogą różnić się wartościami
Co to jest zmienna kowariancyjna? Czy każda zmienna ciągła może być zmienną kowariancyjną?
Kowariancja jest to zmienna losowa (najczęściej ciągła) związana zarówno z czynnikiem jak i zmienną badaną (zmienną zależną).Aby zmienna była kowariancyjną wymagane jest spełnienie założeń:
-Zmienna objaśniana jest zależna od zmiennej zakłócającej
- Średnie wartośći zmiennej zakłócającej są jednakowe w porównywalnych grupach
Czym różnią się metody analizy wariancji: dwuczynnikowa jednozmiennowa ANOVA i dwuczynnikowa ANOVA z powtarzaniem obserwacji na jednym czynniku?
Do rozwiązywania jakich zagadnień wykorzystywana jest dwuczynnikowa analiza wariancji z powtarzaniem obserwacji?
Do porównywania średnich zaleznych
32. do czego wykorzystywany jest test Fridmana?
Test Friedmana można traktować, z jednej strony, jako uogólnienie testu Wilcoxona (dwie próby zależne) na większą liczbę prób zależnych, z drugiej strony, jako nieparametryczną wersję analizy wariancji z powtarza-niem obserwacji na jednym czynniku, gdy nie ma dru-giego czynnika. Niekiedy test Friedmana traktuje się jako test w dwuczynnikowej analizie wariancji z powta-rzanymi obserwacjami z jedną obserwacją w każdej klasie czynnika randomizowalnego.
Określ najistotniejsze różnice między analizą wariancji i analizą kowariancji.
W analizie wariancji porównywane są średnie surowe a w analizie kowariancji średnie skorygowane. W analizie kowariancji występuje zmienna kowariancyjna (zakłócajaca) lub kilka w celu kontroli zmienności spowodowanej błędem eksperymentalnym
Omów króciutko odporność metod analizy wariancji.
Wnioskowanie statystyczne będziemy traktowali jako odporne jeśli będzie ono niewrażliwe na (mniejsze albo większe) odchylenia od założeń, przy których było otrzymane.
Tego typu odporność może dotyczyć różnych aspektów wnioskowania, np. postaci rozkładu prawdopodobieństwa statystyki będącej podstawą testu, wartości tej statystyki, mocy testu, wartości estymatora, itp.
Podstawowe założenia metod analizy wariancji
jednorodność wariancji w grupach
normalność rozkładu badanej cechy w porównywanych grupach
, założenie jednorodności wariancji w porównywanych grupach, w praktyce, nie jest założeniem ograniczającym, gdyż po pewnych modyfikacjach liczby stopni swobody możemy wykorzystywać statystykę F-Snedecora do testowania.
W jednoczynnikowej jednozmiennowej analizie wariancji opracowane zostały pewne modyfikacje podstawowego testu F-Snedecora zmieniające liczbę stopni swobody.
Są to testy: Welcha i Browna-Forsythe’a, które nie wymagają założenia jednorodności wariancji w porównywanych grupach. Statystyki będące podstawą testów Welcha i Browna-Forsythe’a mają w przybliżeniu rozkład F-Snedecora z k-1 dla licznika i f stopniami swobody dla mianownika. f jest oszacowaną liczbą stopni swobody, w którym to oszacowaniu wykorzystano przybliżone wartości wariancji w grupach
Odstępstwa od normalności przejawiające się znacznymi wartościami współczynnika skośności mają bardzo mały wpływ na nominalny poziom istotności, i to zarówno w przypadku równolicznych jak i nierównolicznych komórek wyznaczonych przez wartości (poziomy) czynnika.
Zatem, odnośnie jednoczynnikowej analizy wariancji rozsądnym wydaje się przyjęcie, iż statystyka F-Snedecora jest odporna przy umiarkowanych odchyleniach (odstępstwach) od rozkładu normalnego przy odpowiednio licznych próbach (elementy w komórkach wyznaczonych przez kategorie czynnika) i równych liczebnościach w komórkach (Winer i wsp., 1991).
Niestety, zwroty umiarkowane odchylenia od rozkładu normalnego czy odpowiednio liczne próby są bardzo mało precyzyjne i niezbędne jest duże doświadczenie w prowadzeniu analiz statystycznych aby ocenić, czy w konkretnych warunkach statystyka F-Snedecora będzie wystarczająco odporna.
Gdy założenia jednorodności wariancji i normalności w planach dwuczynnikowych (albo więcej) zostaną naruszone, zwyczajowo stosowane metody testowania efektów głównych i efektów interakcyjnych mogą prowadzić do nieprawdziwych wniosków bądź znacząco zmniejszać moc stosowanych testów.
Do czego może być przydatny model regresji liniowej?
Jednym z celów analizy regresyjnej jest predykcja wartości jednej lub kilku zmiennych (objaśnianych) na pods inf zawartych w wynikach pomiarów zm objaśniających. W modelach reg liniowej bardzo ważną rolę spełnia współczynnik determinacji R-kwadrat (kwadrat współczynnika korelacji). Pozwala on na określenie, od str statystycznej, jakości dopasowania modelu do danych emp. Poza tym, na jest pods można określić odsetek wariancji zm objaśnianej wyjaśnionej przez zm objaśniającą lub zespół zm objaśniających.
Do czego może być przydatny model regresji logistycznej?
W modelach reg log zmienna wynikowa jest zm dwustanową i pozwala na określenie czy badane zdarzenie występuje czy też nie. . Model ten opisuje zależność (nieliniową) między wartościami zm objaśniających (nazywanych czynnikami ryzyka) a prawdopodobieństwem wystąpienia badanego zdarzenia.
Do czego służy współczynnik korelacji Pearsona a do czego współczynnik korelacji Spearmana?
Współczynnik korelacji liniowej Pearsona służy do oceny zależności liniowej, natomiast współczynnik korelacji rang Spearmana do oceny zależności monotonicznej (rosnącej albo malejącej), niekoniecznie liniowej.
Ponieważ każda zależność liniowa jest monotoniczna a nie każda monotoniczna liniową, to wsp. Korelacji rang jest ogólniejszy.
Jeśli zależność między badanymi zmiennymi jest zal. Liniową to wartości obu wsp. Będą podobne. Jeśli zależność jest zależnościa krzywoliniową (ale monotoniczną) to wartości spearmana będą wieksze niż persona