Zmienna losowa skokowa/dyskretna – zmienna losowa, której zbiór wartości jest przeliczalny albo skończony (np. liczba dzieci w rodzinie).
Zmienna losowa ciągła – to taka zmienna, której zbiór możliwych realizacji jest nieskończony i nieprzeliczalny (np. wzrost, waga poszczególnych osób).
Szereg rozdzielczy.
Szeregiem rozdzielczym (tabelą liczebności) nazywamy zbiór wartości liczbowych uporządkowanych według wariantów badanej cechy mierzalnej lub niemierzalnej, przy czym poszczególnym wariantom zmiennej przyporządkowane są odpowiadające im liczebności (częstości). Szeregi rozdzielcze określają strukturę badanej zbiorowości. Szeregi rozdzielcze punktowe buduje się dla cechy skokowej, natomiast szeregi rozdzielcze przedziałowe dla cechy ciągłej (tworzy się przedziały klasowe – rozłączne: poszczególne przedziały nie mogą zachodzić na siebie; wyczerpujące: klasy powinny obejmować wszystkie jednostki badanej zbiorowości; szerokość klas jest taka sama; prawdopodobieństwo w każdej klasie jest takie samo).
Próba losowa.
Podzbiór elementów populacji generalnej podlegający badaniu statystycznemu. Próba otrzymana w wyniku doboru losowego. Własności: Próba powinna być reprezentatywna – jednakowa szansa trafienia do próby każdego elementu populacji generalnej, dostateczna liczebność próby. Dla prób prostych dodatkowo występuje niezależność badań elementów trafiających do próby.
Dystrybuanta ciągłej zmiennej losowej.
Jest to funkcja, która określa jakie jest prawdopodobieństwo, że zmienna losowa przyjmie wartość mniejszą lub równą danej wartości. Jest to całka z funkcji gęstości prawdopodobieństwa od -∞ do wybranej wartości. Własności:
przyjmuje wartości z przedziału <0;1>
jest funkcją niemalejącą
jest funkcją lewostronnie ciągłą
F(-∞)=0, F(∞)=1
P(a ≤ X ≤ b)= F(b) –F(a)
Funkcja gęstości prawdopodobieństwa.
Funkcją gęstości prawdopodobieństwa zmiennej losowej ciągłej nazywamy funkcję f(x), określoną na zbiorze liczb rzeczywistych, o następujących własnościach:
f(x) ≥0,
∫abf(x)dx=P(a<X≤b) dla dowolnych a<b
Istota opisu rozkładu zmiennej losowej ciągłej za pomocą funkcji gęstości prawdopodobieństwa polega na tym, że prawdopodobieństwo realizacji tej zmiennej losowej w dowolnym przedziale (a, b〉, gdzie a<b, można przedstawić za pomocą całki oznaczonej z funkcji f(x) w granicach (a, b〉. Graficzna interpretacją tej całki jest pole obszaru ograniczonego wykresem funkcji f(x), osią odciętych i prostymi x=a, x=b.
Schemat Bernoulliego.
Wielokrotna realizacja doświadczenia w wyniku, którego można otrzymać tylko jedno z dwóch wykluczających się zdarzeń: A („sukces”) lub $\overset{\overline{}}{A}$ („porażkę”). Zakładamy przy tym, że prawdopodobieństwo zdarzenia A w każdym z n doświadczeń jest jednakowe i równe p. Prawdopodobieństwo porażki oznaczamy q=1-p. Przykładem takiego doświadczenia jest rzut monetą. Uzyskanie dokładnie k sukcesów w n próbach można obliczyć ze wzoru:
P(X=k) = $\left( \frac{n}{k} \right)*p^{k}*q^{n - k}$
Rozkład dwumianowy.
Eksperyment podlega schematowi Bernoulliego. Zmienną losową jest liczba sukcesów k, osiągnięta w n próbach.
Rozkład geometryczny.
Określa prawdopodobieństwo, że k-ty przypadek będzie pierwszym sukcesem. Niech w serii niezależnych prób x oznacza liczbę prób koniecznych do osiągnięcia kolejnego sukcesu. Tak określona zmienna losowa podlega rozkładowi geometrycznemu.
Rozkład Poissona.
Jest szczególnym przypadkiem rozkładu dwumianowego zachodzącym wtedy, gdy prawdopodobieństwo p sukcesu jest małe, a liczba realizacji n na tyle duża, że iloczyn np = λ jest wielkością stałą (np. liczba usterek w produkowanych urządzeniach). Ogólnie przyjęto, że wzór Poissona stosuje się wtedy, gdy n>100,a p< 0,2. Rozkład Poissona jest rozkładem prawostronnie skośnym i jednoparametrycznym (zależy tylko od parametru λ).
MIARY POZYCJI – służą do określania tej wartości zmiennej opisanej przez rozkład, wokół której skupiają się wszystkie pozostałe wartości zmiennej.
średnia arytmetyczna: suma wartości zmiennej wszystkich jednostek badanej zbiorowości podzielona przez liczbę tych jednostek.
średnia harmoniczna: odwrotność średniej arytmetycznej odwrotności wartości zmiennych.
średnia arytmetyczna ważona: oblicza się ją jeżeli warianty zmiennej występują z różną częstotliwością. Wagami są liczebności odpowiadające poszczególnym wariantom.
średnia geometryczna: pierwiastek n-tego stopnia z iloczynu n wartości danej zmiennej.
mediana: Jest to wartość cechy w szeregu uporządkowanym, powyżej i poniżej której znajduje się jednakowa liczba obserwacji (wartość środkowa obserwacji w szeregu).
Parzysta liczba obserwacji: $\text{Me} = \frac{1}{2}\left( x_{\frac{n}{2}} + x_{\frac{n}{2} + 1} \right)$
Nieparzysta liczba obserwacji: $\text{Me} = x_{\frac{n + 1}{2}}$
dominanta: wartość zmiennej, która w danym rozkładzie występuje najczęściej; wartość, której odpowiada najwyższa liczebność (częstość). Graficznie dominantą jest wartość cechy, której odpowiada maksimum krzywej rozkładu.
kwantyle: wartości cechy badanej w zbiorowości, które dzielą ją na określone części pod względem liczby jednostek.
kwartyle: rozróżniamy kwartyl pierwszy (zwany dolnym - wielkość w uporządkowanym ciągu obserwacji, poniżej której leży 25 procent danych), kwartyl drugi (mediana), kwartyl trzeci (zwany górnym - wielkość w uporządkowanym ciągu obserwacji, poniżej której leży 75 procent danych).
MIARY ROZPROSZENIA – służą do badania stopnia zróżnicowania wartości zmiennej.
wariancja z próby: miara rozrzutu wartości badanej cechy wokół wartości oczekiwanej; średnia arytmetyczna z kwadratów odchyleń poszczególnych wartości cechy od średniej arytmetycznej całej zbiorowości.
$$s^{2} = \frac{1}{N}{\sum_{i = 1}^{N}{(x_{i}} - \overset{\overline{}}{x})}^{2}$$
odchylenie standardowe: pierwiastek kwadratowy z wariancji (określa, jak szeroko wartości danej wielkości są rozrzucone wokół jej średniej. Im mniejsza wartość odchylenia tym obserwacje są bardziej skupione wokół średniej).
rozstęp: różnica pomiędzy największą, a najmniejszą wartością cechy w zbiorze.
Wartość oczekiwana.
Wartość określająca spodziewany wynik doświadczenia losowego. (parametr rozkładu normalnego - µ). Estymatorem wartości oczekiwanej rozkładu cechy w populacji jest średnia arytmetyczna. Własności:
wartość oczekiwana stałej równa jest tej stałej: E(C)=C
wartość oczekiwana sumy dwóch zmiennych losowych X i Y równa się sumie wartości oczekiwanych tych zmiennych: E(X+Y)= E(X) + E(Y).
wartość oczekiwana iloczynu dwóch niezależnych zmiennych losowych jest równa iloczynowi wartości oczekiwanych tych zmiennych: E(XY) = E(X) * E(Y).
Współczynnik skupienia.
Kurtoza – opisuje koncentrację wartości badanej cechy wokół średniej. Im większa jest wartość kurtozy, tym rozkład jest bardziej wysmukły, czyli występuje większa koncentracja wokół wartości średniej.
$$K = \frac{m_{4}}{s^{4}} - 3\ (gdzie\ m_{4} - \text{moment\ centralny\ czwartego\ rz}edu)$$
Współczynnik asymetrii rozkładu.
Skośność – iloraz momentu centralnego trzeciego rzędu przez trzecią potęgę odchylenia standardowego. Określa kierunek i siłę asymetrii rozkładu danych. Współczynnik asymetrii równy zero wskazuje na symetrię rozkładu zmiennych.
Histogram częstości względnej; histogram częstości skumulowanej.
Jest to zbiór prostokątów, których podstawy wyznaczone są na osi odciętych przez poszczególne przedziały klasowe, natomiast wysokości są określone na osi rzędnych przez częstości odpowiadające poszczególnym przedziałom klasowym. Histogram częstości względnej powstaje jeżeli liczby obserwacji w klasach zostaną podzielone przez całkowitą liczbę danych n. Histogram częstości skumulowanej to taki histogram, w którym liczebność danej klasy zastępuje się liczbą obserwacji należących do danej klasy i wszystkich ją poprzedzających.
Rozkład prawdopodobieństwa.
Rozkładem prawdopodobieństwa nazywamy funkcję przyporządkowującą wartościom zmiennej losowej prawdopodobieństwa przyjęcia danej wartości przez tą zmienną.
Rozkład prawdopodobieństwa może być dyskretny (gdy można go opisać przez podanie wszystkich wartości przyjmowanych przez zmienną losową) lub ciągły (gdy zmienna losowa przyjmuje wartości ze zbioru liczb rzeczywistych). Dla ciągłego rozkładu prawdopodobieństwa określa się funkcję gęstości prawdopodobieństwa, z której całka oznaczona w granicach a, b równa jest prawdopodobieństwu tego, że zmienna losowa należy do przedziału (a, b).
Przykłady dyskretnego rozkładu prawdopodobieństwa to: rozkład Poissona, rozkład dwumianowy itp.
Przykładami rozkładów ciągłych są: rozkład normalny, rozkład t-Studenta.
Estymator.
Jest to wielkość wyznaczona na podstawie próby losowej, służąca do oceny wartości nieznanych parametrów populacji generalnej. Estymatorem parametru Q rozkładu zmiennej losowej X nazywamy taką statystykę Zn= f(X1, X2,…, Xn), której rozkład prawdopodobieństwa zależy od szacowanego parametru Q. Estymator jako statystyka z próby jest zmienną losową – ma rozkład z określonymi parametrami. Rozkład estymatora Zn jest determinowany przez rozkład zmiennej losowej X w populacji generalnej, a przy tym jest zależny od parametru Q. Własności dobrego estymatora:
NIEOBCIĄŻONOŚĆ – estymator parametru Q nazywamy nieobciążonym, jeżeli jego wartość oczekiwana jest równa szacowanemu parametrowi.
ZGODNOŚĆ – estymator zgodny jest zbieżny według prawdopodobieństwa do szacowanego parametru Q.
EFEKTYWNOŚĆ – iloraz wariancji estymatora najefektywniejszego parametru Q i wariancji estymatora ocenianego. Najefektywniejszy estymator to estymator nieobciążony, który posiada najmniejszą wariancję (jego efektywność jest równa 1). Estymator asymptotycznie najefektywniejszy – przy wzrastającej do nieskończoności liczebności próby wariancja estymatora przyjmuje wartości coraz bliższe wariancji najefektywniejszego estymatora.
DOSTATECZNOŚĆ – estymator jest dostateczny, jeżeli zawiera wszystkie informacje jakie na temat parametru Q występują w próbie i żaden inny estymator nie może dać dodatkowych informacji o szacowanym parametrze.
Estymacja.
Grupa metod statystycznych służąca do oszacowania wartości szukanego parametru rozkładu. Polega na szacowaniu przy pomocy danych z próby, parametrów ogólnych rozkładu cechy w populacji generalnej. W estymacji punktowej za ocenę wartości parametru przyjmuje się konkretną wartość liczbową, natomiast w estymacji przedziałowej wyznacza się pewien przedział liczbowy, w którym z określonym prawdopodobieństwem zawiera się wartość szacowanego parametru.
Błąd szacunku parametru.
Różnica między uzyskaną liczbową oceną parametru, a jego prawdziwą wartością.
Przedział ufności.
Przedział liczbowy, który z określonym z góry - bliskim jedności - prawdopodobieństwem zawiera nieznaną wartość szacowanego parametru. Jego końce są funkcjami wyznaczonymi na podstawie próby losowej i nie zależą od szacowanego parametru, a od zadanego poziomu ufności i liczebności próby.
Poziom ufności.
Jest to prawdopodobieństwo wyznaczenia takiego przedziału, że rzeczywista wartość parametru w populacji znajdzie się w tym przedziale. Im większa wartość tego współczynnika, tym szerszy przedział ufności, a więc mniejsza dokładność estymacji parametru.
Rozkład normalny.
N(µ, σ) - Należy do najważniejszych rozkładów teoretycznych. Jest rozkładem symetrycznym względem prostej x=µ. Parametrami rozkładu normalnego są: wartość oczekiwana i wariancja.
Centralne twierdzenie graniczne.
Twierdzenie Lindeberga-Levy’ego: twierdzenie mówiące, że jeśli Xi są niezależnymi zmiennymi losowymi o jednakowym rozkładzie, takiej samej wartości oczekiwanej μ i skończonej wariancji σ2, to zmienna losowa zbiega według rozkładu do standardowego rozkładu normalnego gdy n rośnie do nieskończoności. (Z twierdzenia tego wynika, że jeżeli n jest duże to rozkład zmiennej losowej można przybliżać rozkładem normalnym z wartością oczekiwaną równą 0 oraz wariancją równą 1).
Standaryzacja.
Jest rodzajem normalizacji zmiennej losowej, w wyniku której zmienna uzyskuje wartość oczekiwaną równą 0 i wariancję równą 1. (Polega na sprowadzeniu dowolnego rozkładu normalnego o parametrach µ i σ do rozkładu standaryzowanego – modelowego).
Statystyka testowa.
Funkcja próby na podstawie, której wnioskuje się o odrzuceniu lub nieodrzuceniu hipotezy statystycznej.
Hipoteza statystyczna.
Dowolne przypuszczenie dotyczące rozkładu badanej cechy w populacji (jego postaci funkcyjnej lub wartości parametrów).
Hipoteza zerowa.
Hipoteza, która podlega weryfikacji (najpierw zakładamy, że jest prawdziwa). Hipotezy zerowe służą do udowodnienia nieprawdy (poprzez negację). Najczęściej mają postać rachunku równościowego – zakładamy, że różnica między analizowanymi parametrami lub rozkładami wynosi zero.
Hipoteza alternatywna.
Hipoteza, która jest odpowiednim zaprzeczeniem hipotezy zerowej i którą jesteśmy skłonni przyjąć po odrzuceniu hipotezy zerowej.
Obszar krytyczny.
Obszar krytyczny to podzbiór statystyki testowej, dla którego prawdopodobieństwo przyjęcia przez zmienną wartości należącej do tego przedziału jest nie większe od przyjętego poziomu istotności α. Obszar krytyczny znajduje się zawsze na krańcach rozkładu. Jeżeli statystyka testowa znajdzie się w tym obszarze, to weryfikowaną hipotezę zerową należy odrzucić. Wielkość obszaru krytycznego wyznacza dowolnie mały poziom istotności α (prawdopodobieństwo uzyskania statystyki z tego przedziału przy założeniu hipotezy zerowej), natomiast jego położenie jest określane przez hipotezę alternatywną.
-dwustronny – H1: m≠m0
-lewostronny - H1: m<m0
- prawostronny - H1: m>m0
Poziom istotności.
Prawdopodobieństwo popełnienia błędu I rodzaju; prawdopodobieństwo, że statystyka testowa znajdzie się w obszarze krytycznym przy założeniu hipotezy zerowej.
Test statystyczny.
Reguła postępowania, która każdej próbie losowej przyporządkowuje decyzję odrzucenia lub nieodrzucenia sprawdzanej hipotezy.
Błąd I rodzaju.
Odrzucenie sprawdzanej hipotezy, gdy jest prawdziwa (kiedy statystyka testowa znajdzie się w obszarze krytycznym) - α
Błąd II rodzaju.
Nieodrzucenie sprawdzanej hipotezy, gdy jest fałszywa - β
Nie jest możliwa równoczesna minimalizacja błędów I i II rodzaju. Dlatego testy konstruuje się w ten sposób, aby zminimalizować prawdopodobieństwo popełnienia błędu II rodzaju przy ustalonym z góry poziomie α (testy najmocniejsze).
Budowa testu istotności.
Ustalenie hipotezy zerowej i alternatywnej. 2) Wyznaczenie statystyki testowej. 3) Określenie obszaru krytycznego przy danym poziomie α. 4) Sprawdzenie czy statystyka testowa znajduje się w obszarze krytycznym. 5) Sformułowanie wniosku: -o odrzuceniu hipotezy zerowej na korzyść hipotezy alternatywnej; -brak podstaw do odrzucenia hipotezy zerowej.
Moc testu.
Prawdopodobieństwo odrzucenia fałszywej hipotezy zerowej i przyjęcia w to miejsce prawdziwej hipotezy alternatywnej.
M = 1 - β
Test zgodny.
Moc testu dąży do jedności przy wzrastającej liczebności próby.
Test istotności.
Rodzaj testu, w którym na podstawie statystyki testowej podejmuje się tylko i wyłącznie decyzję odrzucenia sprawdzanej hipotezy lub stwierdza się brak podstaw do odrzucenia tej hipotezy. W teście istotności nie podejmuje się decyzji o przyjęciu sprawdzanej hipotezy, ponieważ bierze się pod uwagę tylko błąd I rodzaju, nie uwzględnia się natomiast konsekwencji popełnienia błędu II rodzaju.
Parametryczne testy istotności.
Służą weryfikacji hipotezy parametrycznej (wartość oczekiwana, równość dwóch wartości oczekiwanych, wariancja, równość dwóch wariancji).
Nieparametryczne testy istotności.
Metody niezależne od rozkładu populacji. Dotyczą zgodności z rozkładem teoretycznym, zgodności dwóch rozkładów empirycznych, losowości, niezależności.
Testy zgodności.
Należą do testów nieparametrycznych, za ich pomocą sprawdza się zgodność rozkładu empirycznego z rozkładem teoretycznym lub też zgodność dwóch lub więcej rozkładów empirycznych.
Empiryczny rozkład cechy.
Przyporządkowanie uszeregowanym rosnąco wartościom, przyjmowanym przez tą cechę, odpowiednio zdefiniowanych częstości ich występowania.
Test CHI-KWADRAT.
Służy sprawdzeniu czy rozkład empiryczny jest zgodny z danym rozkładem teoretycznym.
Budowa: Określenie hipotezy zerowej – przypuszczenie, że populacja generalna ma rozkład określony pewną dystrybuantą. Wyniki z próby należy przedstawić w postaci rozkładu empirycznego poprzez utworzenie r rozłącznych klas wartości badanej zmiennej w próbie. Podstawą do konstrukcji miary zgodności rozkładu empirycznego z hipotetycznym jest różnica między liczebnościami zaobserwowanymi, a liczebnościami teoretycznymi.
Zalety i wady: tylko dla dużych prób, w żadnej klasie nie powinno być mniej niż 5 obserwacji (inaczej stosuje się poprawkę Yatesa), zarówno rozkłady typu ciągłego jak i skokowego, pomiary muszą być pogrupowane (szereg rozdzielczy), nie wymaga skomplikowanych obliczeń dlatego może być przeprowadzany bez użycia komputera ale potrzebne są tablice statystyczne, można go stosować kiedy nie znamy rozkładu.
χ2 = $\sum_{i = 1}^{r}\frac{{(n_{i} - \text{np}_{i})}^{2}}{\text{np}_{i}}$ gdzie r – liczba klas wartości zmiennej, k – liczba parametrów rozkładu które zostały oszacowane na podstawie rozkładu empirycznego metodą największej wiarygodności, r-k-1 – liczba stopni swobody, ni - liczebności zaobserwowane, npi - liczebności teoretyczne.
Współczynnik korelacji.
Parametr dwuwymiarowego rozkładu, wykorzystywany do oceny siły zależności między zmiennymi. Określa kierunek zależności, mierzy liniowe skorelowanie zmiennych. Jest to kowariancja dzielona przez stosunek wariancji. Własności:
- współczynnik korelacji przyjmuje wartości z przedziału <-1;1>;
- współczynnik korelacji jest równy zero, gdy cechy są liniowo nieskorelowane;
- moduł współczynnika korelacji równy jest jedności, gdy między cechami zachodzi funkcyjny związek liniowy.
W tej wersji zmienne są kolejno dodawane do modelu. Może ona polegać w pierwszym kroku na wyborze do modelu tej zmiennej objaśniającej, która jest najsilniej skorelowana ze zmienną objaśnianą i wyznacza model o istotnych parametrach. W drugim kroku wybierana jest kolejna zmienna objaśniająca, której wartości są najsilniej skorelowane z resztami kroku pierwszego, a rozszerzony model charakteryzuje się istotnością wszystkich parametrów. Oprócz istotności parametrów bada się również istotność współczynnika determinacji. Procedura podlega zakończeniu, gdy zabraknie zmiennych objaśniających lub dołączenie nowej zmiennej do równania prowadzi do utraty waloru istotności przez parametry lub współczynnik determinacji.
Regresja krokowa wsteczna.
Polega w pierwszym kroku na skonstruowaniu modelu zawierającego wszystkie potencjalne zmienne objaśniające, a następnie na stopniowym eliminowaniu zmiennych tak, aby utrzymać model z najwyższa wartością współczynnika determinacji przy zachowaniu istotności parametrów.
Metoda najmniejszych kwadratów.
Suma kwadratów odległości punktów od prostej regresji ma być jak najmniejsza. (TU TRZEBA COS DOPISAĆ + RYSUNEK, ALE NIE MOGĘ TEGO ZNALEŹĆ)
Współczynnik determinacji.
Współczynnik determinacji R2 – jedna z podstawowych miar dokładności dopasowania modelu. Współczynnik determinacji informuje o tym, w ilu procentach zmiany zmiennej zależnej są spowodowane zmianami zmiennej niezależnej. Współczynnik determinacji przyjmuje wartości z przedziału [0;1]. Jego wartości najczęściej są wyrażane w procentach. Dopasowanie modelu jest tym lepsze, im wartość R2 jest bliższa jedności. Wyraża się on wzorem: