Korelacja

W celu stwierdzenia występowania współzależności między dwiema cechami wykorzystujemy analizę korelacyjną, oceniając siłę i kierunek zależności.

Dane w formie szeregu korelacyjnego Szereg korelacyjny (inaczej prosty) zawiera uporządkowane parami warianty dwóch cech jednocześnie, stanowiąc zestawienie dwóch szeregów szczegółowych o tej samej liczebności.

Przykładowa tabela korelacyjna jest pokazana poniżej Szereg korelacyjny danych

Numer pary (niekonieczny)

1

2

3

4

5

6

...

n

Wartości zmiennej niezależnej x

x1

x2

x3

x4

x5

x6

...

xn

Wartości zmiennej niezależnej y

y1

y2

y3

y4

y5

y6

...

yn

Dane w formie tabeli korelacyjnej Tabela korelacyjna jest tworzona dla uproszczenia, gdy szereg korelacyjny zawiera zbyt dużo danych. Aby ją utworzyć dzieli się szeregi zmiennej x i zmiennej y na taką samą ilość przedziałów o równej szerokości. Na przecięciu przedziałów zmiennych x i y wpisuje się liczebność cech pasujących do odpowiednich przedziałów obu zmiennych. Czyli n3,2 oznacza ilość par danych, w których zmienna x mieści się w przedziale 3 a zmienna y mieści się w przedziale 2.

Tabela korelacyjna danych

przedział numer i dla zmiennej x

i=1

i=2

i=3

...

k

granice przedziałów

X1,min-X1,max

X2,min-X2,max

X3,min-X3,max

...

Xn,min-Xn,max

Y1,min-Y1,max

n1,1

n2,1

n3,1

...

nk,1

j=2

Y

iennej y

j=1

2,min-Y2,max

n1,2

n2,2

n3,2

...

nk,2

j=3

Y3,min-Y3,max

n1,3

n2,3

n3,3

...

nk,3

...

...

...

...

...

...

...

r

granice przedziałów

Yr,min-Yr,max

n1,r

n2,r

n3,r

...

nk,r

przedziały dla zm

Współczynnik korelacji Pearsona Współczynnik korelacji rxy mieści się z zakresie <-1, 1>. Wartość 0 oznacza brak korelacji, natomiast im bardziej współczynnik zbliża się do wartości -1 lub 1, tym silniejsza jest korelacja.

Orientacyjnie przyjmuje się, że siła korelacji między dwoma cechami jest: nie istnieje

|ryx| = 0

niewyraźna:

|ryx| < 0.2

wyraźna ale niska

0.2 < |ryx| < 0.4

umiarkowana

0.4 < |ryx| < 0.7

znacząca

0.7 < |ryx| < 0.9

bardzo silna

|ryx| > 0.9

cov  x , y

Do obliczenia współczynnika korelacji Pearsona używa się wzoru r = r =

xy

yx

S  x ⋅ S  y 

gdzie:

rxy

korelacja zmiennej x względem zmiennej y ryx

korelacja zmiennej y względem zmiennej x cov(x,y) kowariancja między zmiennymi x i y S(x)

odchylenie standardowe zmiennej x

S(y)

odchylenie standardowe zmiennej y

Kowariancja jest liczbą określającą zależność liniową między zmiennymi losowymi X i Y. Dodatnia wartość kowariancji cov(X,Y) > 0 oznacza, że przy wzroście wartości X wartości Y na ogół także rosną (co oznacza, że X i Y są skorelowane dodatnio/pozytywnie). Ujemna wartość kowariancji cov(X,Y) < 0 oznacza, że przy wzroście X wartości Y na ogół maleją (co oznacza, że zmienne X i Y

są skorelowane ujemnie/negatywnie).

Kowariancję wylicza się z wzoru cov  x , y= x⋅ y− x⋅ y gdzie:

cov(x,y) kowariancja między zmiennymi x i y S(y)

odchylenie standardowe zmiennej y

x

średnia cechy x

y

średnia cechy y

xy

średnia iloczynu cech x i y (zależna od formy danych, opisana poniżej)

Pozostałe elementy obu powyższych wzorów oblicza się nieco inaczej w zależności od tego, czy dane są przedstawione w formie szeregu korelacyjnego czy w formie tabeli korelacyjnej.

n

Dla szeregu korelacyjnego używa się następujących wzorów:

 xi− x 2

S  x =

n

n

n

∑ i=1 n

n

 y

∑ x

∑ y

∑ x⋅ y

i− y 2

i

i

i

i

S

i=1

i=1

i=1

 y =∑ i=1

x=

y=

x⋅ y=

n

n

n

n

gdzie:

S(x)

odchylenie standardowe zmiennej x

S(y)

odchylenie standardowe zmiennej y

xi

kolejne wartości cechy x

yi

kolejne wartości cechy y

x

średnia cechy x

y

średnia cechy y

xy

średnia iloczynu cech x i y

n

liczebność zbioru

k

Dla tablicy korelacyjnej używa się następujących wzorów:

 xi− x 2⋅ ni

S  x =

k

k

∑ i=1 n

k

k

r

 y

∑ x⋅ n

∑ y⋅ n

∑ ∑ x⋅ y ⋅ n

j− y2⋅ n j

i

i

i

j

i

j

ij

S

i=1

j=1

i=1 i =1

 y =∑ j=1

x=

y=

x⋅ y=

n

n

n

n

gdzie:

S(x)

odchylenie standardowe zmiennej x

S(y)

odchylenie standardowe zmiennej y

xi

wartość średnia przedziału numer i cechy x yj

wartość średnia przedziału numer j cechy y

x

średnia z wartości przedziałów cechy x y

średnia z wartości przedziałów cechy y xy

średnia iloczynu cech x i y

ni

liczebność zbioru w przedziale numer i nj

liczebność zbioru w przedziale numer j n

liczebność zbioru w przedziale numer i liczebność zbioru

nij

zmiennej x oraz przedziale numer j zmiennej y nie używać na razie

1 n

cov  x , y= ∑  x − x y − y

n

i

i

i=1

Document Outline

  • Korelacja
  • Dane w formie szeregu korelacyjnego
  • Dane w formie tabeli korelacyjnej
  • Współczynnik korelacji Pearsona