background image

02.05.2013  

1  

Pracownia Chemometrii Środowiska 

dr hab. Tomasz Puzyn, prof. UG 

Pracownia Chemometrii Środowiska 

e-mail: 

t.puzyn@qsar.eu.org

 

tel. (58) 523 54 51 

 

1  

Pracownia Chemometrii Środowiska 

 
1.  Analiza korelacji 

- wariancja i współczynnik korelacji 
- interpretacja współczynnika korelacji 
- wykresy korelacyjne 

 
2.  Regresja liniowa typu: y = ax + b 

- metoda najmniejszych kwadratów 
- szacowanie współczynników regresji 
- ocena istotności statystycznej modelu 
- ocena istotności statystycznej współczynników regresji 
- ocena jakości dopasowania modelu regresyjnego 
 

 
 
 

2  

Pracownia Chemometrii Środowiska 

 

1.

Analiza korelacji 
- wariancja i współczynnik korelacji 
- interpretacja współczynnika korelacji 
- wykresy korelacyjne 

 
2.  Regresja liniowa typu: y = ax + b 

- metoda najmniejszych kwadratów 
- szacowanie współczynników regresji 
- ocena istotności statystycznej modelu 
- ocena istotności statystycznej współczynników regresji 
- ocena jakości dopasowania modelu regresyjnego 
 

 
 
 

3  

background image

02.05.2013  

2  

Pracownia Chemometrii Środowiska 

r(x

k

x

l

)

=

cov(x

k

x

l

)

var(x

k

) var(x

l

)

cov(x

k

x

l

)

=

(x

ik

− x

k

)(x

il

− x

l

)

i

=1

n

n

− 1

var(x

k

)

=

(x

ik

− x

k

)

2

i

=1

n

n

− 1

Wariancja 

Zmienność w wektorze x

Kowariancja 

Współzmienność w wektorów x

k

 x

Współczynnik korelacji 

Współczynnik korelacji jest równy kowariancji dla danych standaryzowanych 

var(x

l

)

= 1

var(x

k

)

= 1

r(x

k

x

l

)

= cov(x

k

x

l

)

4  

Pracownia Chemometrii Środowiska 

•  Współczynnik korelacji r jest miarą 

współzmienności 

liniowej

 dwóch zmiennych 

x i y

 

•   

-1 ≤ r ≤ 1 

 

•  Jeżeli 

r > 0

 to ze wzrostem wartości 

zmiennej x 

rosną

 wartości zmiennej y

 

•  Jeżeli 

r < 0 

to ze wzrostem wartości 

zmiennej x 

maleją

 wartości zmiennej y

 

•  Współczynnik determinacji 

d = r

2

 

 wyraża 

ułamek ogólnej zmienności (wariancji) jednej 

zmiennej wyjaśnianej przez drugą.  

 

•  Współczynnik d wyraża się najczęściej w 

procentach. 

5  

r(x

k

x

l

)

=

cov(x

k

x

l

)

var(x

k

) var(x

l

)

Pracownia Chemometrii Środowiska 

6  

Żródło:  A  .  Mazerski,  Podstawy  chemometrii  

background image

02.05.2013  

3  

Pracownia Chemometrii Środowiska 

7  

Żródło:  A  .  Mazerski,  Podstawy  chemometrii  

Pracownia Chemometrii Środowiska 

 
1.  Analiza korelacji 

- wariancja i współczynnik korelacji 
- interpretacja współczynnika korelacji 
- wykresy korelacyjne 

 

2.

Regresja liniowa typu: y = ax + b 
- metoda najmniejszych kwadratów 
- szacowanie współczynników regresji 
- ocena istotności statystycznej modelu 
- ocena istotności statystycznej współczynników regresji 
- ocena jakości dopasowania modelu regresyjnego 
 

 
 
 

8  

Pracownia Chemometrii Środowiska 

 

y

ax b

 

∂Φ a,b

( )

a

= 0

∂Φ a,b

( )

b

= 0

 

Φ a,b

( )

=

y

i

− ax

i

b

(

)

[

]

2

i

=1

n

Φ =

(y

i

obs

− y

i

pred

)

2

i

=1

n

9  

y

obs

 

y

pred

 

background image

02.05.2013  

4  

Pracownia Chemometrii Środowiska 

 

y

ax b

 

a

=

n

x

i

y

i

i

=1

n

x

i

i

=1

n

y

i

i

=1

n

n

x

i

2

i

=1

n

x

i

i

=1

n

⎛ 
⎝ ⎜ 

⎞ 
⎠ ⎟ 

2

=

xy

− ⋅ 

x

2

− 

( )

2

=

cov xy

( )

var x

( )

 

b

=

x

i

2

i

=1

n

y

i

i

=1

n

x

i

i

=1

n

x

i

y

i

i

=1

n

n

x

i

2

i

=1

n

x

i

i

=1

n

⎛ 
⎝ ⎜ 

⎞ 
⎠ ⎟ 

2

− ax 

 

var(x)

=

(x

i

− )

2

i

=1

n

n

−1

 

cov(xy)

=

(x

i

− )⋅(y

i

− )

i

=1

n

n

−1

 

r(xy)

=

cov(xy)

var(x)

⋅ var(y)

10  

Pracownia Chemometrii Środowiska 

Wariancja resztowa 

Wariancja modelu 

•  Im większa wartość statystyki F-Snedecora, tym model jest bardziej istotny statystycznie.  

 

•  Wartości krytyczne F znajdujemy w tablicach dla n-1 n-p-1 stopni swobody odpowiednio dla 

licznika i mianownika (p - liczba parametrów modelu). 

Model istotny 

Model nieistotny 

11  

F = 0 

F > 0 

n – 1 

Pracownia Chemometrii Środowiska 

 

s

b

s

E

2

x

i

2

i

=1

n

n

x

i

2

x

i

i

=1

n

⎛ 
⎝ ⎜ 

⎞ 
⎠ ⎟ 

i

=1

n

2

 

s

a

=

s

E

2

x

i

2

− 

x

i

i

=1

n

⎛ 
⎝ ⎜ 

⎞ 
⎠ ⎟ 

i

=1

n

2

 

t

a

=

a

s

a

 

t

b

=

b

s

b

 

df

− 2

•  Jeżeli t ≤ t

kr

 => nie ma podstaw do odrzucenia H

0

 na założonym poziomie 

istotności. 

•  Jeżeli t > t

kr

 => H

0

 należy odrzucić na założonym poziomie istotności i przyjąć H

A. 

H

0

: a = 0 

H

A

: a 

 0

  

H

0

: b = 0 

H

A

: b 

 0

  

12  

background image

02.05.2013  

5  

Pracownia Chemometrii Środowiska 

Miarą jakości dopasowania modelu jest 

współczynnik determinacji 

R

2

. Wyrażony w 

procentach określa, jaka część ogólnej zmienności 
odpowiedzi jest wyjaśniana przez model:  
 
 
 

Analiza rozkładu różnic: 

y

pred 

y

obs 

Inną stosowaną miarą dopasowania jest 

średniokwadratowy błąd kalibracji RMSEC 

(ang. 

root mean square error of calibration): 

R

2

= 1−

y

i

obs

− y

i

pred

(

)

2

i

=1

n

y

i

obs

− y

obs

(

)

2

i

=1

n

RMSE

C

=

y

i

obs

− y

i

pred

(

)

2

n

=1

n

n

13