Zagadnienia pomocnicze do egzaminu ze statystyki
Czym zajmuje się statystyka?
Statystyka jest to nauka traktująca o ilościowych metodach badania prawidłowości zjawisk masowych. O zjawiska masowych mówimy wówczas, gdy badaniu podlega wystarczająco duża liczba jednostek. Tylko wtedy można zaobserwować określone prawidłowości.
Terminem statystyka nazywamy:
–zbiory danych liczbowych(np. w rocznikach statystycznych),
–teorię statystyki wyjaśniającą podstawy metod statystycznych,
–oszacowania parametrów zbiorowości statystycznych
2. Próba - Próbą nazywamy wybrane elementy z populacji, co możemy rozumieć jako układ liczb X1,...Xn lub innych charakterystyk badanej cechy. Liczbę n nazywamy liczebnością próbki. Na podstawie próby statystyk wnosi hipotezę dotyczącą całej populacji, dlatego należy zadbać o to by próba była reprezentatywna.
populacja generalna - zbiór elementów podlegających badaniu statystycznemu, takich które mają przynajmniej jedną własność wspólną oraz przynajmniej jedną własność, ze względu na którą mogą się między sobą różnić. Ze względu na liczebność PG mogą być skończone i nieskończone. Próbę z PG wtedy można nazwać reprezentatywną, kiedy każdy z elementów PG ma jednakową szansę trafienia do tej próby
3. Na czym, polega losowanie warstwowe na przykładzie NSP 2011 (Narodowy Spis Powszechny)
Losowanie warstwowe – bada populacje generalną charakteryzującą się dużym zróżnicowaniem. Wybieramy kryteria warstwowania ( np. określenie położenia w powiacie, liczba mieszkań w budynku wielomieszkaniowym, liczba osób w mieszkaniu, występowanie osób pracujących, emerytów itp.) następnie alokacja próby w powiatach ( wybieramy schemat doboru próby ) Około 20%.
4. Zjawiska masowe - zjawisko, które składając się z wielkiej liczby zdarzeń wykazuje właściwą sobie prawidłowość, taką prawidłowość, której nie można zaobserwować w pojedynczym przypadku. Dane zjawisko można zaliczyć do masowych, wówczas gdy miała miejsce duża liczba przypadków jego występowania, co umożliwia zaobserwowanie pewnych prawidłowości statystycznych. Obserwacja pojedynczej jednostki lub niewielkiego zespołu nie prowadzi do wykrycia prawidłowości zjawiska.
5. Metody statystyczne - liczba jednostek statystycznych objętych badaniem:
Badania wyczerpujące - obejmują one wszystkie jednostki danej zbiorowości statystycznej.
• spis statystyczny
• rejestrację statystyczną
• sprawozdawczość statystyczną
Badania częściowe
• badania ankietowe
• badania monograficzne
• badania reprezentacyjne
• badania szacunkowe
szacunki statystyczne
• interpolacyjne - polega na szacowaniu nieznanych wartości cechy na podstawie znanych wartości sąsiednich (późniejszych i sąsiednich)
• ekstrapolacyjne – polega na szacowaniu wartości wykraczających poza przedział wartości znanych
Wiarygodność spisu zależy od spełnienia następujących warunków:
- powszechność – na terenie całego kraju.
- jedno chwilowość konkretny moment zbierania
- bezpośredniość
- służące wyłącznie celom statystycznym – tajemnica spisowa.
6. Miary pozycyjne – rodzaje, wykorzystanie, wady i zalety uzupełnić
Dominanta ( moda ) - jest wartością cechy najbardziej prawdopodobną, czyli najbardziej typową i jest związana z pozycją największej liczebności. W przypadku danych pogrupowanych w rozkład przedziałowy, dominantę można wyznaczyć graficznie, korzystając z wykresu histogramu.
Dominanty nie należy obliczać:
w przypadku rozkładów skrajnie asymetrycznych,
w przypadku rozkładów, w których brak jednego, wyraźnie zaznaczonego maksimum liczebności.
Właściwości dominanty:
Zalety:
na jej wartość liczbową nie mają wpływu wielkości skrajne szeregu;
dla jej wyznaczenia wystarcza znajomość trzech przedziałów klasowych o równej rozpiętości;
można ją wyznaczyć w szeregach otwartych.
Wady:
dokładne jej wyznaczenie nie jest możliwe w szeregach rozdzielczych wielostopniowych (dlatego stosuje się wzór interpolacyjny);
znaczenie poznawcze modalnej maleje, gdy liczba obserwacji jest mała;
nie nadaje się do przekształceń algebraicznych;
nie wyznacza się jej z szeregów bimodalnych lub wielomodalnych, gdyż obrazują one zbiorowości niejednorodne ze względu na cechę zmienną.
Kwantyle – wartości cechy badanej w zbiorowości, które dzielą ją na określone części pod względem liczby jednostek. Szeregi z których wyznacza się kwantyle, muszą być uporządkowane według rosnących lub malejących wartości. Do najczęściej używanych kwantyli zaliczamy kwartyle.
Kwartyl pierwszy dzieli zbiorowość uporządkowaną na dwie części w ten sposób, że 25% jednostek ma wartości cechy niższe, a 75% wyższe od kwartyla pierwszego;
Kwartyl drugi – inaczej mediana - wartość cechy w szeregu uporządkowanym, od której co najmniej połowa elementów próby posiada wartości nie większe i równocześnie co najmniej połowa elementów posiada wartości niemniejsze.
Kwartyl trzeci dzieli zbiorowośc uporządkowaną na dwie części w ten sposób, że 75% jednostek ma wartości cechy niższe, a 25% wyższe od kwartyla trzeciego.
Decyl np. pierwszy - oznacza, że 10% jednostek ma wartości cechy mniejsze bądź równe od decyla pierwszego, a 90% jednostek wartości cechy równe lub większe od decyla pierwszego
Odnalezienie środkowej ( mediany ) jednostki ułatwia skumulowanie liczebności. Kumulacja polega na kolejnym, narastającym sumowaniu liczebności dotyczących poszczególnych wariantów cechy.
Mediana jest jedyną średnią, którą można wyznaczyć dla rozkładów skrajnie symetrycznych, nadto jej wartość nie zależy od wartości krańcowych rozkładu. Wartość poznawcza mediany rośnie wraz z liczebnością próby.
Właściwości mediany:
Zalety:
łatwa do obliczenia;
niezależna od wartości krańcowych szeregu;
można ją ustalić w szeregu otwartym;
można ją obliczyć, gdy szereg zbudowano na podstawie cechy jakościowej (np. liczba osób z odpowiednim wykształceniem).
Wady:
można ją wyznaczyć tylko z szeregu uporządkowanego (przy obliczaniu średniej może być szereg nieuporządkowany);
nie jest reprezentatywna dla szeregu bardzo nieregularnego;
nie nadaje się do przekształceń algebraicznych.
Empiryczny obszar zmienności ( rozstęp) jest różnicą między największa i najmniejszą wartością zmiennej w badanej zbiorowości.
7. Miary klasyczne – rodzaje, wykorzystanie, wady i zalety
Jeśli charakter rozkładu umożliwia obliczanie jego parametrów liczbowych na podstawie wszystkich wartości cechy występujących w próbie, to statystyki tak obliczone nazywamy klasycznymi.
Średnia arytmetyczna – suma wartości zmiennej wszystkich jednostek badanej zbiorowości podzielona przez liczbę tych jednostek. Charakteryzuje się pewnymi własnościami:
Jako miara klasyczna jest wypadkową wszystkich wartości zmiennej,
Suma odchyleń poszczególnych wartości zmiennej od średniej arytmetycznej jest równa zeru.
Jest wrażliwa na nietypowe wartości cechy, wielkości odstające mogą zniekształcić wartość średniej arytmetycznej
Odchylenie przeciętne – służy jako wstępne ocenienie dyspersji.
Wariancja – średnia arytmetyczna z kwadratów odchyleń poszczególnych wartości cechy od średniej arytmetycznej całej zbiorowości. Wariancja, jako suma kwadratów dzielona przez liczbę dodatnią, jest zawsze wielkości nieujemną i mianowaną. Im zbiorowość jest bardziej zróżnicowana, tym wyższa jest wartość wariancji. Wariancja jest wielkością kwadratową. Aby uzyskać miarę zróżnicowania o postaci liniowej, wyciągamy z wariancji pierwiastek kwadratowy. W wyniku pierwiastkowania otrzymujemy odchylenie standardowe.
Odchylenie standardowe – typowy obszar zmienności – określa o ile wszystkie jednostki danej zbiorowość różnią się średnio od średniej arytmetycznej badanej zmiennej.
Właściwości odchylenia standardowego:
jest miarą klasyczną;
jest miarą najbardziej precyzyjną wśród miar dyspersji;
oblicza się tak jak każdą miarę klasyczną na podstawie wszystkich wartości szeregu;
można je także obliczyć, gdy liczebności szeregu podane są w liczbach względnych;
dla jego obliczenia konieczna jest znajomość miary centralnej (czyli średniej) z uwagi na fakt, iż rozproszenie zmiennych obliczamy wokół średniej;
odchylenie standardowe, jako liczba bezwzględna, nie może być wykorzystane do porównań poziomu dyspersji między dwoma lub większą liczbą zbiorowości w zakresie tej samej zmiennej lub dla kilku cech tej samej zbiorowości. Aby móc porównać rozproszenie zmiennych stosuje się miary względne
Jego wartość nie zmieni się, jeśli liczebność szeregu wyrazimy w procentach
Współczynnik zmienności – iloraz bezwzględnej miary dyspersji i odpowiednich wartości średnich. Informuje nas o sile dyspersji. Duże ich wartości liczbowe świadczą o niejednorodności zbiorowości.
Gdy:
współczynnik jest mniejszy lub równy 35%, to dyspersja jest mała, średnia arytmetyczna dobrze charakteryzuje średni poziom badanego zjawiska, badana zbiorowości jest jednorodna;
współczynnik jest większy od 35% ale mniejszy lub równy 60%, to dyspersja jest umiarkowana, średnia arytmetyczna dość dobrze charakteryzuje średni poziom badanego zjawiska;
współczynnik jest większy od 60% ale mniejszy lub równy 75%, to dyspersja jest duża, a średnia arytmetyczna ma małą wartość poznawczą;
współczynnik jest większy od 75% to dyspersja jest bardzo duża, a średnia arytmetyczna nie jest miarą dobrze charakteryzującą tendencję centralną
8. 9. Rodzaje cech statystycznych – wymień i podaj konkretne przykłady. Skala interwałowa i ilorazowa
Ze względu na własności badanych cech wyróżnić możemy cztery poziomy pomiaru:
nominalny, porządkowy, interwałowy i ilorazowy
Przez analogie mówimy wtedy o skalach i zmiennych:
-jakościowych (nominalnych i porządkowych)
-ilościowych (interwałowych i ilorazowych)
Nominalne - Możemy stwierdzić, czy jedna wartość jest różna/równa od innej. W wartościach zmiennej nie można ustalić żadnego porządku, pozwalają jedynie na jakościową klasyfikację (płeć, wyznanie, zawód).
Porządkowe - pozwalają na rangowanie (ustawianie w określonym porządku) elementów, które mierzymy w tym sensie, że element z wyższą rangą posiada cechę reprezentowaną przez mierzoną zmienną w większym stopniu, lecz ciągle nie można powiedzieć w o ile większym stopniu. (wykształcenie, poziom akceptacji zjawisk i poglądów).
(Skala) interwałowa - Możemy ustalić o ile jedna wartość jest większa od innej. Przypisanym wartościom zmiennej odpowiadają wtedy jednakowe różnice czyli kolejne wartości zmiennej różnią się o tę sama wartość. ( temperatura, rok urodzenia)
(Skala) Ilorazowa - Można ustalić ile razy jedna wartość jest większa od drugiej. Pomiar jest dokonywany na skali oraz posiada znaczące zero (wiek w latach, kwota dochodu, wzrost, wynik testu w procentach).
Nominalne -> porządkowe -> interwałowe -> ilorazowe
Każda kolejna skala ma cechy skali poprzedniej
Na liczbach wolno dokonywać wszelkich działań, jednak nie wolno wyciągać wniosków wybiegających poza dopuszczalne dla danej skali interpretacje:
Skala nominalna: różne/równe
Skala porządkowa: większe/mniejsze
Skala interwałowa: o ile większe/mniejsze
Skala ilorazowa: ile razy mniejsze/większe
10. Skala Likerta - pięciostopniowa skala wykorzystywana w kwestionariuszach ankiet i wywiadów (Zwłaszcza w badaniach społecznych). Ważne przy konstrukcji takiej skali jest aby była zachowana symetryczność wartościowania: tyle samo skal w jedną jak i w drugą stronę: pozytywną/negatywną. Zawsze nieparzysta ilość.
Skala ta najczęściej ma postać:
1. Nie
2. Raczej nie
3. Nie mam zdania
4. Raczej tak
5. Tak
11. Szereg empiryczny a szereg przedziałowy
Rozkładem empirycznym zmiennej nazywamy przyporządkowanie kolejnym wartościom zmiennej odpowiadających im liczebności. Rozkład odzwierciedla więc strukturę badanej zbiorowości z punktu widzenia określonej cechy.
Szereg przedziałowy – grupowanie jednostek o tych samych wartościach cechy w odrębne klasy. Robiąc taki szereg trzeba podjąć decyzje:
Ile przedziałów znajdzie się w szeregu,
Jakie będą rozpiętości tych przedziałów,
Jaki będzie sposób zamykania przedziału.
12. Różnice w zastosowaniu miar klasycznych i miar pozycyjnych
13. Interpretacja wartości miar tendencji centralnej, rozproszenia, asymetrii
Dyspersja – rozproszenie – zróżnicowanie jednostek zbiorowości statystycznej ze względu na wartość badanej cechy. Siłe dyspersji oceaniamy za pomocą pozycyjnych i klasycznych miar zmienności.
Pozycyjne miary rozproszenia i asymetrii stosujemy, gdy:
–do opisu (pomiaru) tendencji centralnej użyto mediany,
–badane rozkłady są asymetryczne lub mają niedomknięte
przedziały początkowy i/lub końcowy,
–próby są dostatecznie liczne
MIARY ASYMETRII ( skośności) odpowiadają na pytanie, czy większość jednostek badanej zbiorowości znajduje się poniżej, czy też powyżej wartości przeciętnych. Asymetrię rozkładu najłatwiej określić poprzez porównanie dominanty, mediany i średniej arytmetycznej. W rozkładach symetrycznych wszystkie średnie są sobie równe.
Jeśli - średnia > Mediany > Dominanty – to asymetria prawostronna ( dodatnia ) – wykres przesunięty bliżej zera. A na odwrót to lewostronna czyli ujemna.
Lp | Nazwa parametru | Miara | Rodzaj miary |
---|---|---|---|
KLASYCZNA | POZYCYJNA | ||
1. | Miary tendencji centralnej | - średnia arytmetyczna średnia harmoniczna średnia geometryczna |
D – dominanta M – mediana - kwantyle |
2. | Miary dyspersji | S2 - wariancja S - odchylenie standardowe Xtyp - typowy obszar zmienności |
R - rozstęp RQ-rozstęp kwantylowy Q-odchylenie ćwiartkowe Xtyp-typowy obszar zmienności |
VS-współczynnik zmienności | VQ-współczynnik zmienności | ||
3. | Miary asymetrii | A1-klasyczny współczynnik asymetrii | A2-pozycyjny współczynnik asymetrii |
A3-współczynnik skośności (klasyczno-pozycyjny) |
14. Kształt rozkładu a współczynniki asymetrii i skośności – powyżej rozkład.
Skośność jest miarą asymetrii obserwowanych wyników. Informuje nas o tym jak wyniki dla danej zmiennej kształtują się wokół średniej. Czy większość zaobserwowanych wyników jest z lewej strony średniej, blisko wartości średniej czy z prawej strony średniej? Innymi słowy, czy w naszym zbiorze obserwacji więcej jest wyników, które są niższe niż średnia dla całej grupy, wyższe czy równe średniej?
Przykład:
Idealnym przykładem asymetrii są zarobki osób w firmie. Większość zatrudnionych osób zarabia jakąś kwotę, o wiele niższą niż pensja najważniejszych osób w firmie, których dochody o wiele znaczniej przewyższają zarobki pozostałych osób pracujących w firmie. Na przykład, średnio firma płaci swoim wszystkim 50 pracownikom 2,5 tyś zł, z czego 5 osób zarabia ponad 6 tyś zł, a 25 pracowników poniżej 2 tyś zł. Można powiedzieć, że zarobki w firmie cechują się znaczną asymetrią.
Współczynnik skośności gdy przyjmuje wartość bliską 0 świadczy o braku asymetrii wyników. Współczynnik skośności powyżej 0 świadczy o prawostronnej asymetrii rozkładu (inaczej nazywanym rozkładem dodatnio skośnym), a wyniki poniżej 0 świadczą o lewostronnej asymetrii rozkładu (inaczej nazwanym ujemno skośnym rozkładem).
15. Wielobok kumulacji czasów trwania stanów wody i jego wykorzystanie do odczytywania miar
pozycyjnych.
w wykładzie trzecim mamy to omówione. Na podstawie czasów trwania stanów wody tworzymy wykres skumulowany. Następnie łączymy punkty pomiędzy poszczególnymi wielobokami i powstaje nam zbiór odcinków z którego łatwo odczytać miary pozycyjne.
Stanem zwyczajnym, albo środkowym nazywamy taki stan, który tyle razy bywa przekroczony, ile razy
nieosiągnięty, czyli stan, który wraz z niższymi trwa 182,5 dni w ciągu roku = mediana.
16. Typowe obszary zmienności – konstrukcja
Odchylenie standardowe można wykorzystać do konstrukcji typowego obszaru zmienności badanej cechy. W obszarze tym mieści się około2/3 wszystkich jednostek badanej zbiorowości statystycznej, gdyż jest on zawarty w granicach dwóch odchyleń standardowych: ×̅ - s i ×̅ + s.
17. Wysokość wynagrodzeń i ceny nieruchomości – zastosowanie poznanych miar
Wysokość cen mieszkań. Na wykładzie czwartym mam wykres. Przedstawia on stosunek ceny mieszkań do ilości osób które je nabyły. W tym przypadku możemy policzyć średnią, dominantę i medianę. Średnia w tym przypadku nie jest najlepsza ponieważ bardzo na nią wpływają apartamenty najdroższe, dlatego średnia ma wartość największą. Dobrą stroną średniej jest możliwość porównania zmian cen mieszkań w czasie. W tym przypadku mediana jest gorsza bo nie pokazuje ona zmian zachodzących po lewej czy prawej stronie. ( dopóki nie zmienią się znacząco z prawej na lewą np. – co jest rzadkie). Mediana ma niższą wartość od średniej a dominanta najniższą. Mediana nie interesuje się wartościami skrajnymi, pokazuje tendencje centralną. Dominanta wskazuje wartość która jest najbardziej popularna co często może być przypadkowe.
18. Metody podziału zbiory na przedziały – zalety i wady każdej z metod.
Przykładowe metody podziału zbioru na przedziały:
Metoda oparta o wzór na szerokość przedziałów (metoda
równej szerokości przedziałów),
Metoda oparta o średnią arytmetyczną (i odchylenie
standardowe) lub medianę i odchylenie ćwiartkowe
Metoda naturalnych przerw
Metoda równej liczebności przedziałów dokonćzyć
19. Tabele krzyżowe – konstrukcja, przykłady, wykorzystanie
Tabela krzyżowa (kontyngencji, rozdzielcza) –tabela przedstawiająca zapis związku dwóch lub większej ilości zmiennych:
- jakościowych: nominalnych lub porządkowych
- ilościowych: interwałowych lub ilorazowych wyrażonych w postaci porządkowej (np. przedziałów)
Tabela krzyżówa 2x2, 5x2,
Przykłady:
Czy aktywność społeczna zależy od wieku?
Czy w poszczególnych dziesięcioleciach zwiększa się aktywność burzowa?
Czy poczucie bezpieczeństwa zależy od poziomu bezrobocia w dzielnicy?
Tabela krzyżowa –przejście od danych ilościowych (ilorazowych) do jakościowych (porządkowych)
- stosuje się w celu zaprezentowania jakiegoś zjawiska
- wiąże się z obniżeniem poziomu pomiaru, a co za tym idzie utratą części informacji o badanym zjawisku
- stanowić może wstęp do bardziej zaawansowanych analiz,
np. analizy regresji
20. Różne sposoby przedstawiania typologii powiatów: (wszystko w wykładzie 5)
- w tabeli liczebności
- w tabeli z nazwami powiatów (ułatwia interpretację)
- na mapie
21. Miary siły związku cech jakościowych – przykłady
22. 23. Współczynnik Yule’a (Kendalla) – interpretacja, ograniczenia. Współczynnik phi
Wykorzystanie: Q -współczynnik Yule’a(Kendalla)
- tylko dla tabel 2 x 2
- stosowany dla obu poziomów pomiaru zmiennych
- oblicza się na podstawie liczebności w wewnętrznych polach tabel
Współczynnik Yule’a przyjmuje wartości z przedziału od -1 do 1. Znak tego współczynnika nie informuje o kierunku zależności, gdyż zależy on od ustawienia poziomu cech w tablicy.
Interpretacja: (np. -0.183)
- słaba negatywna zależność
- im wyższy poziom przedsiębiorczości tym (nieco) niższa stopa bezrobocia
- na poziom bezrobocia wpływ ma wiele czynników,
przyjmują wartości:
- 0 –dla braku związku
- +1 lub -1 –dla związku idealnego
współczynnik phi przyjmuje wartości zazwyczaj niższe niż współczynnik Yule’a
Różnica:
Dla zbadania siły związku oblicza się współczynnik Yula (Kendalla)
a. prawdziwy tylko w przypadku wystąpienia „par zgodności” i „par niezgodności” - stanowi odzwierciedlenie proporcji między nimi,
b. wzór: Q = (ad – bc)/(ad + bc), przyjmuje wartości ( – 1,1),
c. dla Q > |0,3| związek jest silny;
W przypadku braku takowych par (w jednej z komórek nie ma wskazań) współczynnik Yula „oszukuje”, należy obliczyć współczynnik phi
24. Współczynnik gamma Goodmana i Kruskala – wykorzystanie, interpretacja, ograniczenia
pary zgodne: dla każdej komórki tabeli przesuwamy się w prawo od lewego górnego rogu i mnożymy przez sumę wartości w komórkach położonych na prawo i w dół od tej komórki
pary niezgodne: dla każdej komórki tabeli przesuwamy się w lewo od prawego górnego rogu i mnożymy przez sumę wartości w komórkach położonych na lewo i w dół od tej komórki
Tylko dla zmiennych na poziomie porządkowym.
miara symetryczna przyjmująca wartości od -1 do +1, gdzie
-1 –idealna zależność negatywna
0 –brak zależności
+1 –idealna zależność pozytywna
Różnice:
Siłę związku zmiennych na poziomie porządkowym mierzy się przy pomocy współczynnika gamma Goodmana i Kruskala
a. miara symetryczna, przyjmuje wartości (-1,1),
b. dla gamma > |0,3| związek jest silny
Siłę związku zmiennych na poziomie nominalnym mierzy się współczynnikiem lambda Goodmana i Kruskala
miara asymetryczna, kierunek zależności określany na podstawie rozkładu liczebności w tabeli,,
dla lambda > 0,3 związek jest silny;
25. Zależność kierunku migracji od ukończonych studiów – przykład wykorzystania miar sił i
kierunku związku.
Liczymy za pomocą współczynnika lambda Goodmana i Kruskala.
kierunek studiów –zmienna niezależna (wyjaśniająca)
kierunek migracji –zmienna zależna (wyjaśniana)
Inaczej niż współczynnik gamma, lambda wskazuje tylko siłę zależności (bez wskazania kierunku) –przyjmuje wartości od 0 do +1
- jest miarą asymetryczną, to znaczy że zależność między zmiennymi może być
obliczana w dwie strony i może przyjmować wówczas różne wartości
- od obliczającego zależy decyzja odnośnie określenia, w którym kierunku jest zależność (możemy mieć do czynienia z zależnością dwustronną).
Bz – Bn/Bz = 0.29 = 29%
Bz – suma błedów dla wszystkich badanych
Bn – suma poszczególnych błedów.
Interpretacja: względna redukcja błędu wynosi 29% Na podstawie znajomości ukończonych kierunków studiów uzyskujemy 29% względną redukcję błędu w porównaniu z przewidywaniem opartym wyłącznie na podstawie dominanty zmiennej „kierunek migracji”.
26. Współczynnik korelacji rangowej Spearmana – współczynnik ten służy do opisu siły korelacji dwóch cech, zwłaszcza wtedy gdy mają one charakter jakościowy i istnieje możliwość uporządkowania obserwacji empirycznych w określonej kolejności. Miarę tę możną stosować również do badania zależności między cechami ilościowymi w przypadku niewielkiej liczby obserwacji.
Zastosowanie:
-dostępne są jedynie dane porangowane,
-rozkład zmiennej odbiega silnie od normalnego –korelacje
rangowe są bardziej odporne na przypadki odstające.
Ranga = kolejność przypadków w zbiorze danych (od 1 do n)
W przypadku, gdy dwa lub więcej przypadków mają tą samą wartość przyporządkowujemy im rangę równą średniej rang, które by im przypadały, gdyby miały różną wartość.
Np. 0.95 - Interpretacja: bardzo silna dodatni związek między zmiennymi
Korelacja rangowa S: przyjmuje wartości od -1 do +1,
-im bardziej wartości oddalone są od zera, tym większa siła związku między zmiennymi,
-wartość +1oznacza idealną zgodność rang obu zmiennych,
-wartość -1oznacza całkowitą niezgodność rang obu zmiennych.
27. Miary siły związku ilościowego – wykorzystanie, interpretacja, ograniczenia, np..
a. kowariancja - jest nieunormowaną miarą zależności liniowej pomiędzy dwiema zmiennymi. Stanowi ona miarę wspólnej zmienności obu zmiennych (ko-wariancja) pomiędzy zmiennymi. Innymi słowy czy odchylanie się obserwowanych wyników zmiennej od wartości średniej dla tej zmiennej jest podobne dla obu zmiennych. Jeżeli zmienne nie są ze sobą związane to kowariancja jest bliska wartości 0. Jeżeli zmienne są ze sobą związane to wartość kowariancji jest różna od 0.
- stanowi rozszerzenie idei wariancji(zmienności jednej cechy) do analizy współzmienności dwóch cech.
b. współczynnik korelacji liniowej Pearsona – unormowany miernik natężenia i kierunku współzależności liniowej dwóch zmiennych mierzalnych X i Y, wyznaczany poprzez standaryzację kowariancji. Zapewnia porównywalność opisu różnych zbiorowości. Im moduł współczynnika korelacji jest bliższy jedności, tym zależność korelacyjna między badanymi zmiennymi jest silniejsza. Zależność musi być liniowa, lub niewiele od liniowości odbiegająca.
c. iloraz korelacyjny eta
Iloraz korelacyjny to miara asymetryczna. Dla każdej pracy
zmiennych można obliczyć:
- iloraz korelacji mierzący skorelowanie cechy X z Y
- iloraz korelacji mierzący skorelowanie cechy Y z X.
28. Interpretacja kształtu chmury punktów empirycznych
Jeżeli rozkłady każdej z cech są symetryczne, to zależność jest liniowa, a chmura punktów
empirycznych ma kształt zbliżony do wrzeciona.
Jeżeli asymetria rozkładów jednowymiarowych nie jest znaczna, i jest tego samego znaku, to zależność nieznacznie odbiega od liniowej, a chmura punktów empirycznych ma kształt maczugowaty.
Jeżeli asymetria rozkładów jednowymiarowych ma przeciwne znaki, to mamy do czynienia z zależnościami nieliniowymi, tj. krzywoliniowymi. Chmura punktów empir. ma kształt bumeranga.
Stosowanie w takiej sytuacji współczynnika korelacji liniowej jest nieuzasadnione(jest błędem).
29. Zależności stochastyczne.
Zachodzi wówczas, gdy zmiana wartości jednej zmiennej losowej powoduje zmianę rozkładu prawdopodobieństwa drugiej zmiennej losowej. Przypadkiem zależności stochastycznej jest zależność korelacyjna. W obrębie związków stochastycznych (w tym korelacyjnych) wyróżniamy związki przyczynowo skutkowe, symptomatyczne i pozorne.
Jeżeli określonym wartościom jednej cechy dają się przyporządkować pewne średnie wartości drugiej cechy, to taką zależność stochastyczną nazywamy zależnością korelacyjną.
Przykłady związków przyczynowych:
a)związki przyczynowe jednostronne , gdy jedna cecha (żargonowo mówiąc) oddziałuje na drugą.
Kulistość Ziemi i nachylenie jej osi wirowej do płaszczyzny ekliptyki (przyczyna)powoduje zróżnicowanie i zmienność w czasie kąta padania promieni słonecznych na powierzchnię Ziemi, co przyczynia się do powstania stref klimatycznych (skutek).
Natomiast układ stref klimatycznych i jego zmiany nie mają wpływu na nachylenie osi wirowej Ziemi do ekliptyki.
b) Związki przyczynowe dwustronne(zwrotne):
przyczyna i skutek mogą się nawzajem warunkować –np.:
wydajność pracy i wynagrodzenie.
Inaczej należy postępować, gdy nie mamy podstaw do twierdzenia o istnieniu związku przyczynowego między cechami.
Wówczas wyznaczenie siły zależności (rachunek korelacyjny) jedynie wskazuje na występowanie zależności korelacyjnej, ale nie dowodzi jej istnienia.
Korelacja nie oznacza związku przyczynowego między cechami!
30. Korelacje iluzoryczne – przykłady własne
O koniecznej ostrożności w formułowaniu sądów o zależności przyczynowej na podstawie liczbowych wyników rachunku korelacyjnego przekonują liczne przykłady korelacji nonsensownych, albo iluzorycznych, np.: wysokość premii kadry zarządzającej wielkich banków a sprawność systemu finansowego. Przykłady własne
Stwierdzenie korelacji sygnalizuje możliwość wystąpienia związku przyczynowego, ale nie stanowi dowodu na jego istnienie.
31. Zależności wspólne - nie ma powiązania przyczynowego między cechami, ale rozkłady obu cech są kształtowane przez wspólne przyczyny (np. zmiany ciśnienia i temperatury powietrza wraz z wysokością). Korelacja jest wynikiem oddziaływania trzeciej zmiennej. Przedstawiona korelacja pomiędzy spożyciem czekolady a liczbą laureatów nagrody Nobla to zależność wspólna.
32. Etapy analizy regresji
Analiza regresji zmierza do natomiast opisania kształtuje zależności za pomocą funkcji.
Etapy analizy regresji:
- wybór odpowiedniej funkcji regresji,
- oszacowanie parametrów wybranej funkcji regresji,
- ocena stopnia dopasowania danych teoretycznych do danych empirycznych z zastosowaniem odpowiednich miar.
33. Wybór odpowiedniej krzywej regresji – kryteria
Krzywoliniowa, prosta.
34. Kryterium najmniejszej sumy kwadratów - sposób dopasowania funkcji liniowej spełniającej kryterium najmniejszej sumy kwadratów różnic wartości empirycznych i „teoretycznych”
35. Prosta regresja liniowa Y = f(x) + epsilon
epsilon –składnik losowy, reprezentujący oddziaływanie na zmienną zależną czynników, które nie zostały uwzględnione w modelu opisanym przez funkcję f(x) zmiennej niezależnej.
36. Ocena stopnia dopasowania krzywej do chmury punktów empirycznych
Obliczone współczynniki służą nam do wyznaczenie równania funkcji regresji liniowej, obliczenia „teoretycznych” wartości zmiennej zależnej y’ oraz wrysowania „teoretycznej” linii prostej opisującej badaną zależność w chmurę punktów.
„Teoretyczna” funkcja liniowa wyjaśnia zatem tylko część zmienności zmiennej zależnej Y. Niewyjaśniona część zmienności to tzw. składnik resztowy zi(reszta z regresji).
37. Interpretacja położenia punktów w stosunku do prostej regresji - easy
38. Współczynnik determinacji – interpretacja
Kwadrat współczynnika korelacji liniowej Pearsona
Informuje o tym, jaka część zmienności zmiennej objaśnianej została wyjaśniona przez model
Miara stopnia, w jakim model wyjaśnia kształtowanie się zmiennej objaśnianej
Opisuje tę część zmienności objaśnianej, która wynika z jej zależności od uwzględnionych w modelu zmiennych objaśniających.
R2 przyjmuje wartości z przedziału <0;1>, ale najczęściej wyraża się go w procentach <0%;100%>
Dopasowanie modelu jest tym lepsze, im wartość R2 jest bliższa jedności
39. Interpretacja równania regresji! easy
40. Regresja złożona (wielokrotna) – model, wykorzystanie, przykłady, budowa własnych modeli \
Dobór modelu regresji wielokrotnej polega na wskazaniu zestawu zmiennych niezależnych, które najlepiej opisują zróżnicowanie zmiennej zależnej.
1. Funkcja wykładnicza
2. Funkcja potęgowa
3. Funkcja logarytmiczna
4. Funkcji wielomianowych9 parabolicznej)
5. Funkcji hiperbolicznej:
6. Funkcji logistycznej:
41. Analiza związku i zależności dwóch zmiennych – tabele z podsumowania wykładu 8!
Uczymy się tabeli z wykładu 8
42. Metody taksonomiczne – podstawowe pojęcia i postulaty
Taksonomia –nauka o zasadach klasyfikacji (klasyfikacje (systematyki) roślin i zwierząt)
Podstawowe pojęcie taksonomii
Obiekt
województwo, powiat, miasto, gmina
źródło, szczyt górski, odkrywka glebowa
Grupa zawiera największą ilość informacji i bazuje na możliwie największej liczbie cech
(ale nie za cenę włączenia do analizy wskaźników bezużytecznych)
Liczba obiektów jest większa niż liczba cech (uważać przy nowych województwach!)
Każda cecha jest a priori równej wagi przy tworzeniu grupy
Ogólne podobieństwo między dwoma dowolnymi obiektami jest funkcją podobieństwa wszystkich uwzględnionych cech
43. Etapy procedury taksonomicznej
1. Dobór zmiennych diagnostycznych
2. Eliminacja wskaźników o niskich współczynnikach zmienności
3. Analiza współzależności (macierz korelacji)
4. Normalizacja
etap: Standaryzacja jako najczęstsza forma normalizacji
etap: Sprowadzenie zmiennych do jednakowej postaci (stymulanty/destymulanty rozwoju)
5. Ważenie cech
Rodzaje wag
6. Obliczenie wartości miernika taksonomicznego
Wskaźnik standaryzowanych sum (wykorzystywany m.in. przez Perkala)
Odległość Euklidesa
44. Współczynnik zmienności – zastosowanie, interpretacja
45. Macierz korelacji – zastosowanie, umiejętność wykorzystania
1. Macierz korelacji
Excel (wstaw funkcję lub z modułu Analiza danych: Korelacja)
Poszukanie wysokich wartości odpowiednich współczynników korelacji w danym roku
Liczba firm ogółem na 1000 mieszkańców i liczba firm usługowych na 1000 mieszkańców
Usunięcie cechy X2: liczba firm usługowych na 1000 mieszkańców
Macierz korelacji to macierz, której elementy stanowią wartości współczynników korelacji dla odpowiednich par zmiennych losowych.
Macierz ta spełnia pięć kryteriów:
jest macierzą kwadratową
wartości wszystkich elementów macierzy należą do przedziału < -1, 1 > (ponieważ są współczynnikami korelacji)
wszystkie elementy leżące na głównej przekątnej tej macierzy równe są 1 (określa to stopień skorelowania zmiennej Xi z nią samą)
jest to macierz symetryczna
wyznacznik tej macierzy należy do przedziału < 0, 1 >
46. Standaryzacja – zmienna standaryzowana –ściśle określone przekształcenie danych polegające na odjęciu od oryginalnych danych pewnej wartości (zazwyczaj średniej z próby) i podzieleniu ich przez odchylenie standardowe (najczęściej również wyznaczone z próby). Ta ważna transformacja umożliwia porównywanie wartości wielu zmiennych (niezależnie od ich oryginalnego rozkładu i jednostek, w jakich je zmierzono). W wyniku standaryzacji przekształcone wartości mają rozkład o średniej 0 i odchyleniu standardowym 1. Przekształcenie to ma wiele zastosowań, albowiem umożliwia porównywanie rozkładu wartości dla wielu zmiennych i wielu grup. Ponadto standaryzacja danych wejściowych czyni wyniki analiz statystycznych całkowicie niezależnymi od jednostek pomiaru poszczególnych zmiennych
47. Wykorzystanie metod taksonomicznych do konstrukcji rankingów – przykłady, budowa
własnych rankingów
48. Wskaźniki syntetyczne – rodzaje, zastosowanie, interpretacja
49. Analiza szeregów czasowych – metody eliminacji
50. Rodzaje tendencji rozwojowej
51. Interpretacja modelu w analizie szeregów czasowych
52. Przyczyny stosowania estymacji przedziałowej
53. Etapy estymacji przedziałowej
54. Krzywa rozkładu normalnego i dystrybuanta standaryzowanego rozkładu normalnego –
umiejętność interpretacji wartości
55. Rodzaje parametrów PG – znajomość, oznaczenia
56. Zastosowanie estymacji przedziałowej do rozwiązywania praktycznych problemów
57. Pojęcia
a. Przedział ufności
b. Poziom ufności
c. Poziom istotności
58. Rozkład normalny i rozkład t-Studenta – różnice i podobieństwa
59. Rozkład chi-kwadrat – właściwości i zastosowanie
60. Zasady konstrukcji przedziału ufności dla wartości oczekiwanej
61. Co wpływa na szerokość przedziału ufności dla wartości oczekiwanej?
62. Obszar ufności Neymana – zastosowanie
63. Jak wyznaczyć optymalną liczebność próby dla wartości oczekiwanej?
64. Etapy weryfikacji hipotez statystycznych
65. Błędy I i II rodzaju