STATYSTYKA
WYKŁAD II
1.TEORIA WSPÓŁZALEZNOŚCI
Teoria współzależności- zajmuje się badaniem związków miedzy wieloma zmiennymi. W rzeczywistości społeczno-gospodarczej zjawiska są ze sobą powiązane wielokierunkowymi zależnościami. Dlatego oprócz analizy zbiorowości pod względem jednej cechy- analizy jednowymiarowej, zachodzi potrzeba łącznego badania cech czyli prowadzenia analizy wielowymiarowej (gdy co najmniej dwie cechy podlegają badaniu).
Przykładami zależności występującymi pomiędzy zjawiskami gospodarczymi mogą być następujące związki:
Bezrobocie a inflacja
Popytem a ceną dobra
Popytem a dochodem
Podażą a cenami czynników produkcji
Plonami a nakładami
Wydajnością a poziomem płacy
2. RODZAJE ZWIAZKÓW POMIEDZY ZMIENNYMI
Rodzaje zależności występujące między zmiennymi:
Funkcyjna
Stachostyczna
Zalezności funkcyjna: ma miejsce gdy określonej wartości jednej zmiennej (niezależna, objaśniająca) odpowiada jedna i tylko jedna wartość drugiej zmiennej (zależna, objaśniająca). Istota tej zależności jest to, że zmiana wartości jednej zmiennej powoduje ściśle określona zmienne wartości drugiej zmiennej. Związki typu funkcjonalnego występują najczęściej w naukach ścisłych np. pole kwadratu P=a2. w naukach społeczno-gospodarczych. Są one rzadsze i nie podlegają głębszym analizom.
Zależność stachostyczna: występuje gdy określonemu wariantowi zmiennej niezależnej (lub kombinacji) odpowiadają różne warianty zmiennej zależnej. Oznacza to że wraz ze zmiana wartości jednej zmiennej zmienia się rozkład prawdopodobieństwa. Zależności ta wynika ze skomplikowanej charakterystyki zależności miedzy zmiennymi, gdzie na zmienne zależności wpływa wiele zmiennych niezależnych oddziaływujących z różnym kierunkiem i siła, a konkretne badania uwzględniają tylko niektóre z nich.
Związki typu stachostycznego występują w naukach społeczno-gospodarczych np. zależność wydatków na żywność od dochodu osiąganego przez gospodarstwo domowe, w gospodarstwach o jednakowych dochodach wydatki te mogą być różne, ponieważ na ich wydatki oddziaływają inne poza dochodowe czynniki np. liczba osób w gospodarstwie, gusty itp.
Szczególnym przypadkiem zależności stachostcznej jest zależność korelacyjna. W jej przypadku określonym wartościom jednej zmiennej (niezależnej), odpowiadają średnie wartości drugiej zmiennej (zależnej). Zależności korelacyjna wskazuje jak zmieniają się średnio wartości zmiennej zależnej, w wyniku zmiany wartości zmiennej niezależnej. Przykładowo, nie wszystkie gospodarstwa o wyższych dochodach wydaja więcej na żywność, ale średnio wydatki na żywność w gospodarstwach o wyższych dochodach są wyższe.
Stwierdzenie istnienia zależności korelacyjnej na podstawie analizy ilościowej nie zawsze będzie oznaczała występowania więzi przyczynowo-skutkowej miedzy zmiennymi. Dlatego analiza związków pomiędzy zjawiskami powinna być dwukierunkowa: ilościowa i jakościowa. Analiza ilościowa powinna być poprzedzona analiza jakościowa przeprowadzona na podstawie posiadanej wiedzy merytorycznej o badanym związku.
Związki przyczynowo-skutkowe mogą mieć dwojaki charakter:
Jednostronne (proste)- oddziaływanie przyczyny na skutek np. wpływ poziomów opadów na wielkości plonów.
Dwustronne (złożone)- wzajemne oddziaływanie na siebie badanych zjawisk np. produkcja i koszt.
3. PROSTE METODY ANALIZY ZWIAZKÓW KORELACYJNYCH
Analiza szczegółów polega na równoległym rozstawieniu szeregu dla dwóch cech i porównanie wartości liczbowych cech w szeregach w celu wykrycia prawidłowości, na tej podstawie można stwierdzić następujące rodzaje zależności:
- korelacja dodatnia: zmiana jednokierunkowe w obu szeregach (wartości obydwu zmiennych no ogół rosną lub maleją).
-korelacja ujemna: zmiany różnokierunkowe (wzrost wartości cechy w jednym szeregu odpowiada spadkowi wartości cechy z drugiego szeregu).
Wykres rozrzutu punktów (diagram korelacyjny) polega na zobrazowaniu w układzie współrzędnych punktów, których współrzędne są wartościami jednej zmiennej (zaznaczone na osi odciętych - x) i odpowiadającym im wartościom drugiej zmiennej (zaznaczone na osi rzędnych - y).
Na poniższych wykresach przedstawiono możliwe do zaistnienia zależności:
korelacja liniowa oddalona: b) korelacja liniowa ujemna:
yi
xi
korelacja nie liniowa: d) brak korelacji:
4. MIERNIKI KORELACJI
Analiza korelacja prowadzona jest przy wykorzystaniu mierników korelacji, które służą do badania siły i kierunku związku korelacyjnego miedzy zmiennymi. W zależności od ilości cech, ich rodzaju oraz sposobu prezentacji danych wykorzystane są różne miary korelacji. Wśród nich wyróżnia się:
pomiędzy dwiema zmiennymi:
zmienne ilościowe:
Współczynnik korelacji liniowej Pearsona
Współczynnik korelacji rang Spearmana
Zmienne jakościowe:
Miary zależności oparte na statystyce x2
- współczynnik Q Yule'a
- współczynnik zbieżności Czuprowa
- współczynnik V Cramera
- współczynnik kontyngencji C Pearsona
Współczynniki korelacji liniowej Pearsona - mierzy siłę oraz kierunek liniowego związku pomiędzy dwiema zmiennymi. W związku tym jednostkowym przyrostom jednej zmiennej towarzysza średnie stale przyrosty drugiej zmiennej. W sytuacji gdy dane zaprezentowane są w postaci szeregów szczegółowych dla obydwu zmiennych współczynników Pearsona wyznacza się za pomocą wzoru:-
cov (x,y) ∑ni=1 (yi - x)(xi - y)
rxy = s(x) s(y) = √∑ni=1(xi- x)2 ∑ni=1(yi-y)2
Współczynnik Pearsona jest miara symetryczna co oznacza, że rxy = ryx. Jest on unormowany w przedziale <-1;1>. Jego znak informuje o kierunku, natomiast wartość bezwzględna o sile zależności liniowej. Gdy posiada znak „+” oznacza korelacje dodatnia, a gdy ma znak „-” oznacza to korelacje ujemna. Im wartość względna współczynnika jest bliższa zeru tym wartość jest słabsza, a im bliższa jedności tym zależność silniejsza. Wartość współczynnika równa 0 mówi o braku zależności korelacyjnej liniowej, natomiast wartość bezwzględna równa 1 występuje w przypadku zależności funkcyjnych.
Współczynniki korelacji liniowej Pearsona:
|rxy| < 0,2 -praktycznie brak zależności
0,2 ≤ |rxy| <4 -zależność niska (słaba)
0,4 ≤ |rxy| < 0,7 -zależność umiarkowana
0,7 ≤ |rxy| <0,9 -zależność silna
0,9 ≤ |rxy| < 1 -zależność bardzo silna
Kwadrat wspłóczynnika korelacji jest nazywany współczynnikiem determinacji. Informuje on o tym w jakim stopniu zmiany jednej zmiennej (zaleznej) wyjaśniające są zmianami drugiej zmiennej (niezależnej) np. rxy2= 0,6 oznacza to że zmiany zmiennej x są w 60 % wyjaśniane zmianami zmiennej Y.
Współczynnik korelacji rangi Spearmana:
Współczynnik korelacji rangi Spearmana służy do wyznaczania kierunku i siły liniowego związku korelacyjnego pomiedzy dwiema cechami w przypadku gdy:
Cechy są mierzalne, a próba jest mała
Cechy maja charakter porządkowy
Punkt wyjścia stanowi uporządkowanie początkowych informacji według rosnących (lub malejących) wariantów jednej z cech. Uporządkowanym wartościom obydwu zmiennych nadaje się numery odpowiadające miejscom w uporządkowaniu. Numery te naywamy rangami, a czynności nadawania rang- rangowaniem. Rangowanie może być od największej do najmniejszej wartości lub odwrotnie, ale musi być jednakowe dla obydwu zmiennych. W przypadku gdy występują jednakowe wartości zmiennych przyporządkowuje się im średnią arytmetyczną z przypadających na nie rang.
Współczynnik korelacji rang oblicza się ze wzoru:
rs = 1 - n(n2-1) / 6∑ni=1d2i
gdzie di - różnica pomiędzy rangami odpowiadających sobie wartości cech xi i yi (i=1,2 ... ,n)
Współczynnik korelacji rangi przyjmuje wartości z przedziału <-1; 1>. Jego znak informuje o kierunku, natomiast jego wartość bezwzględna o sile zależności liniowej. Gdy posiada znak „+” oznacza to korelację dodatnią, a gdy znak „-” oznacza to korelacje ujemną. Im wartość bezwzględna współczynnika jest bliższa 0 tym zależność jest słabsza, a im bliższa jedności tym jest silniejsza.
Związek cech niemierzalnych:
W przypadku gdy mamy do czynienia z cechami jakościowymi (niemierzalnymi) do oceny ich stachostycznej niezależności wykorzystuje statystykę x2.
Badając zbiorowość pod względem dwóch cech, wyniki zestawiane są w tzw. Tablicy niezależności o k wierszach i r kolumnach. Na skrzyżowaniu i-tego wiersza i j-tej kolumny znajdują się liczebności elementów próby (nij) charakteryzujące się i-tym wariantem cechy X i j-tem wariantem cechy Y.
yi xi |
y1 |
y2 |
… |
yj |
… |
yr |
∑ |
x1
x2
xi
xk
|
n11
n21
ni1
nk1 |
n12
n22
ni2
nk2 |
…
…
…
… |
n1j
n2j
nij
nkj |
…
…
…
… |
n1r
n2r
nir
nkr |
n1
n2
ni
nk |
∑ |
n∙1 |
n∙2 |
… |
n∙j |
… |
n∙r |
n |
Na podstwie tak pogrupowanych danych oblicza się statystykę x2 ze wzoru:
k r k r
x2= ∑ ∑ (nij - ňij)2 / ňij = ∑ ∑ ( n2ij / ňij)
i=1 j=1 i=1 j=1
przy czym:
ňij= ni∙∙n∙j / n
gdzie:
nij- liczebności empiryczne występujące w tablicy kontyngencji.
ňij- liczebności teoretyczne, czyli takie jakie występują w tablicy kontyngencji. W przypadku stachostycznej niezależności cech
ni∙ ,n∙j - suma liczebności i-tego wiersza i j-tej kolumny tablicy kontyngencji.
Gdy dane pogrupowane są w tablice o wymiarach 2x2:
y x |
1 |
2 |
ni. |
1 2 |
a c |
b d |
a + b c + d |
n∙j |
a + c |
b + d |
n |
do obliczenia statystyki x2 można zastosować wzór:
x2 = n(ad - bc)2 / (a+ b)(a + c)(b+d)(c+d)
Obliczona statystyka x2 stanowi podstawę do badań nad zależnością pomiędzy zmiennymi, a w szczególności zmiennymi o charakterze jakościowym. Służy ona do obliczania następujących zależności:
Współczynnika q Yulea'a
q =
Gdy liczba wierszy w tablicy niezależności jest równa 2 to niezależnie od liczby kolumn przyjmuje wartości z przedziału <0 ;1>. Gdy liczba wierszy jest większa od 2 przy dowolnej liczbie kolumn jego wartość może przekroczyć 1.
Współczynnik zbieżności Czuprawa
T =
Gdy tablica jest symetryczna (k = r) współczynnik zależności Czuprawa zawiera się w przedziale <0 ; 1>. W przypadku gdy r ≠ k to max T może być mniejsza od 1.
Współczynnik V Cramera
V =
Współczynnik przyjmuje wartości z przedziału <0 ; 1>. Max wartość ( Vmax=1) osiąga tylko w przypadku tablic symetrycznych (k = r)
W przypadku tablic 2x2 wszystkie trzy współczynniki są sobie równe (q = V = T). wszystkie współczynniki przyjmują wartości 0, gdy istnieje niezależność badanych cech a ich wartość jest tym większa im silniejsza jest współzależność. Są one zawsze wielkościami dodatnimi w związku z czym nie wskazują kierunku korelacji badanych zmiennych ale jedynie siłę związku.
Współczynnik kontyngencji C Pearsona
C =
Współczynnik kontyngencji przyjmuje wartości od 0 (cechy są niezależne) do 1 (max wartość osiągana przy wymiarach tablicy dążących do nieskończoności). Ograniczenie górne współczynnika zależy od wymiarów tablicy i wynosi:
Cmax =
Gdzie:
k - jest liczba wierszy
r - liczba kolumn w tablicy.
Uwzględniając wymiary tablicy kontyngencji oblicza się skorygowany współczynnik kontyngencji:
Ckor =
Który przyjmuje wartości z przedziału <0 ; 1>.
6