background image

 

 

 - 1 - 

 

REGRESJA NIELINIOWA 

 

w programie STATGRAPHICS Centurion 

 

Przekład 

Robert Wiśniewski 

 

 

 

http://chomikuj.pl/bobwis 

 
PODSUMOWANIE 
 
Procedura  regresji  nieliniowej  dopasowuje  model  zdefiniowany  przez  użytkownika  wiążący  jedną 
zmienną zależną Y z jedną lub z kilkoma zmiennymi niezależnymi X. Model ten estymowany jest przy 
korzystaniu  z  nieliniowej  metody  najmniejszych  kwadratów.  Dopasowany  model  można  wykreślać, 
generować na jego podstawie wartości przewidywane oraz identyfikować reszty odbiegające. 
 
Przykładowy plik folii statystycznej StatFolio: 

nonlinear reg.sgp

 

 
Przykładowy plik danych Data:   

 

nonlin.sf3 

 
Powyższy plik 

nonlin.sf3

  zawiera dane dotyczące zawartości chloru w próbkach produktu w funkcji 

liczby tygodni upływających od daty ich produkcji.  
 
Dane  te  zaczerpnięte  z  książki  Draper  and  Smith  (1998)  zawierają,  n  =  44  próbek,  których  część 
zastawiono w poniższej tablicy.  
 
 

 

 
 
Zadaniem naszym jest dopasowanie poniższego modelu do tych danych: 
 

         

8

49

0

weeks

b

e

a

a

chlorine

,

  ......................................... (1) 

 
Model  ten  zasugerowany  przez  eksperta  w  danej  dziedzinie  zawiera  dwie  niewiadome:  a  –  linia 
asymptoty  do  której  zmierza  zmienna  chlorine  gdy  zmienna  weeks  zmierza  do  dużych  wartości 
oraz b – wykładnik szybkości opóźnienia   

background image

 

 

 - 2 - 

WPROWADZANIE DANYCH 
 
Wybieramy polecenie menu Relate | Multiple Factors | Nonlinear Regression. Otwiera się pierwsze 
okienko dialogowe oczekujące wprowadzenia wymaganych danych: 
 

 

 

  Dependend  Vaiable  -  Zmienna  zależna.  Kolumna  numeryczna  arkusza  danych  zawierająca 

n-wartości zmiennej Y.W  
 
W naszym przykładzie wprowadzamy tu zmienną chlorine. 

 

  Function  –  Funkcja.  Wyrażenie  STATGRAPHICS  reprezentujące  dopasowywany  model 

regresji. Musi on  zawierać  jedną  lub kilka nazw kolumn reprezentujących  zmienne niezależne 
i może  zawierać  takie  funkcje  jak  SQRT  lub  EXP.  W  naszym  przykładzie  wprowadzamy  tu 
wyrażenie w poniższej postaci:   

 

   
                                               a+(0.49-a)*exp(-b*(weeks-8)) 
 
Wszelkie  nierozpoznane  nazwy  będą  traktowane  jako  parametry  modelu  wymagające 
estymacji. 

 

 

  (Weight) – Waga. Opcjonalna nazwa kolumny  numerycznej  zawierającej  wagi   stosowane do 

kwadratów reszt gdy korzystamy z  analizy regresji za pomocą ważonej metody najmniejszych 
kwadratów. 

 

 

  (Select) – Selekcja – Opcjonalna fraza stosowana do wyboru podzestawu danych do analizy. 

 
Po  kliknięciu  przycisku  OK  otwiera  sie  drugie  okienko  dialogowe  oczekujące  wprowadzenia  wartości 
początkowych każdego nieznanego parametru modelu. 
 

 

background image

 

 

 - 3 - 

Wprowadzamy tu wartości początkowe (pierwsze przybliżenia) każdego estymowanego parametru.  
 
Program  zacznie  obliczenia  od  tych  wartości  i  będzie  numerycznie  szukał  uch  estymacji,  które 
minimalizują resztową sumę kwadratów.  
 
W  zależności  od  złożoności  modelu,  zła  estymacja  może  ale  nie  musi  prowadzić  do  optymalnego 
rozwiązania.  We  wszystkich  stosunkowo  prostych  przypadkach,  inteligentny  wybór  wartości 
początkowych może znacznie zwiększyć szanse uzyskania dobrego rozwiązania.  
 
Typowo, ważne jest aby pierwsze przybliżenia miały co najmniej poprawny znak (dodatni lub ujemny), 
ponieważ w przeciwnym razie procedura szukania może się zacząć w złym kierunku. 
 
 
PODSUMOWANIE ANALIZY 
 
Po kliknięciu przycisku OK, otwiera się okno z tablicą analizy wyników. 

 

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Nonlinear Regression - chlorine 

Dependent variable: chlorine (percent available) 

Independent variables:  
   weeks (weeks since production) 
 
Function to be estimated:  a+(0.49-a)*exp(-b*(weeks-8)) 
Initial parameter estimates: 
   a = 0,1 
   b = 0,1 
 
Estimation method: Marquardt 
Estimation stopped due to convergence of residual sum of squares. 
Number of iterations: 4 
Number of function calls: 14 
 
Estimation Results 

 

 

 

Asymptotic 

95,0% 

 

 

Asymptotic 

Confidence 

Interval 

Parameter  Estimate 

Standard Error  Lower 

Upper 

0,390144  0,00501534 

0,380022 

0,400265 

0,101644  0,0133628 

0,0746763 

0,128611 

 
Analysis of Variance 

Source 

Sum of Squares  Df 

Mean Square 

Model 

7,982 

3,991 

Residual 

0,00500168 

42 

0,000119088 

Total 

7,987 

44 

 

Total (Corr.) 

0,0395 

43 

 

 
R-Squared = 

87,3375

 percent 

R-Squared (adjusted for d.f.) = 

87,036

 percent 

Standard Error of Est. = 

0,0109127 

Mean absolute error = 

0,00769665 

Durbin-Watson statistic = 1,98378 
Lag 1 residual autocorrelation = 0,00702451 
 
Residual Analysis 

 

Estimation 

Validation 

44 

 

MSE 

0,000119088 

 

MAE 

0,00769665 

 

MAPE 

1,82283 

 

ME 

-0,000097621   

MPE 

-0,0826224 

 

 

background image

 

 

 - 4 - 

Wyniki warte w tej tablicy zawierają: 
 

  Dane sumaryczne – Informacje o wprowadzanych danych, 

 

 

  Estymowana funkcja – Przyjęty model  i wartości początkowe parametrów. 

 

 

  Estymowane  statystyki  –  Stosowana  metoda  estymacji  i  liczba  wykonanych  iteracji  oraz 

liczba wywoływania funkcji. 

 

 

  Estymowane  parametry  –  Obliczone  parametry  modelu  wraz  z  ich  przedziałami  ufności.  

Przedziały ufności nie zawierające wartości 0 świadczą, że parametr modelu jest statystycznie 
istotny na przyjętym poziomie istotności.  
 

  Analiza  wariancji  –  Dekompozycja    (rozkład)  zmienności  zmiennej  zależnej  Y  na  sumę 

kwadratów modelu i sumę kwadratów reszt (błędów). 

 

 

  Statystyki – Opisowe statystyki  dopasowanego modelu, w tym: 

 

 R-Squared  –  Współczynnik  determinacji  R

2

  (kwadrat  współczynnika  korelacji),  który 

reprezentuje  procent  zmienności  zmiennej  zależnej  Y  wyjaśniony  dopasowanym  modelem 
regresji,  mieszczący  się  w  przedziale  od  0 do  100  %.  Dla  danych  naszego  przykładu 
(zmienność stężenia chloru), wartość tego współczynnika wynosi 87,3. 

 

 

 Adjusted  R-Squared  –    Dopasowany  współczynnik  determinacji  R

2

  uwzględniający  liczbę 

współczynników (parametrów) modelu. Wartość ta często jest stosowana do porównywania 
modeli o różnej liczbie współczynników. 

 

 

 Standard Error of Est. –  Estymowane odchylenie standardowe reszt (odchylenia w całym 

modelu).  Wartość  ta  jest  stosowana  do  obliczania  granic  przewidywania  dla  nowych 
obserwacji. 

 

 

 Mean Absolute Error – Średnia wartość bezwzględna reszt.   

 

 Durbin-Watson  Statistic  –  Miara  seryjnej  korelacji  reszt.  Gdy  reszty  zmieniają  się  lisowo, 

wartość  ta  powinna  być  bliska  2.  Małe  wartości  P-Value  wskazują  na  nielosowy  rozkład 
reszt.   
 
Dla danych rejestrowanych w czasie, małe  wartości P-Value mogą  wskazywać,  że niektóre 
trendy w czasie nie mogą być uwzględniane.   
 

  Lag  1  Residual  Autocorrelation  –  Estymowana  korelacja  między  kolejnymi  resztami 

w skali  od  -1  do  +1.  Wartości  odległe  od  0  wskazują,  na  strukturę  niedostatecznie  
objaśnioną przez ten model.   
 

 Residual Analysis – Analiza reszt. Gdy podgrupa wierszy arkusza danych była wykluczona  

z  analizy  przy  korzystaniu  z  pola  Select  w  okienku  dialogowym  wprowadzania  danych, 
wówczas    dopasowany  model  jest  stosowany  do  przewidywania  wartości  Y  tych  wierszy.  
Tabela ta pokazuje statystyki błędów przewidywania definiowanych następująco: 

 

i

i

i

y

y

e

ˆ

 .................................................................... (2) 

 

i  zawiera  średni  błąd  kwadratowy  MSE,  średni  błąd  bezwzględny  MAE,  średni  bezwzględny     
błąd procentowy MAPE błąd średniej ME i błąd procentowy średniej MPE. 

 

 
Te  prawomocne  statystyki  mogą  być  porównywalne  ze  statystykami  dopasowania  modelu 
w celu  sprawdzania  jak  dobrze  model  przewiduje  obserwacje  leżące  poza  stosowanymi 
danymi do jego dopasowania. 

background image

 

 

 - 5 - 

Dla przykładowych danych, dopasowany model ma poniższą postać: 
 
                             chlorine = 0.390144 + (0.49-0.390144)exp(-0.101644(weeks-8)) ……………….. (3) 
 
Model  ten  zaczyna  się  od  zawartości  chloru  chlorine  =  0,49  po  8  tygodniach  weeks  =  8  i spada 
wykładniczo do asymptoty równej w przybliżeniu 0,39 w miarę wzrostu zmiennej weeks. 
 

 

WYKRES DOPASOWANEGO MODELU 
 
Wykres  ten  wyświetlany  jest  w  lewym  panelu  okna  wyników  i  pokazuje  dopasowany  model  regresji 
w funkcji jednej zmiennej niezależnej, przy innych (ewentualnych) zmiennych ustawionych na wartości 
wyspecyfikowane w okienku dialogowym opcji panelu Pane Options. 
 
 

 

 
 

Opcje panelu 
 

 

 
 
Można  tu  wybrać  jedna  zmienną  do  wykreślania  na  osi  poziomej  wraz  z  jej  zakresem.  Dla  innych 
zmiennych można wprowadzać wartości zastępujące je w dopasowywanym modelu. 
 

background image

 

 

 - 6 - 

WYKRESY POWIERZCHNIOWE ODPOWIEDZI 
 
Gdy  w  modelu  występuje  więcej  niż  jedna  zmienna  niezależna,  można  tworzyć  wykresy 
powierzchniowe Surface oraz konturowe Contour. 
 
Przykładowo, Draper and Smith (1998) przytaczają raport z eksperymentu, w którym model opisywał 
udział materiału Y pozostałego po reakcji chemicznej: 
 
 





620

1

1

2

2

1

1

X

X

Y

exp

exp

 ............................................... (4) 

 
gdzie X

i  

jest czasem reakcji w minutach, a X

2

 jest temperaturą reakcji w stopniach Kelvina. Dane te są 

zapisane w przykładowym pliku nlreact.sf6  a ich analiza w pliku nlreact.sgp. 
 
Poniżej pokazano wykres powierzchniowy dopasowanego modelu. 
 
 

 

 
Na  tym  wykresie  powierzchniowym,  wysokość  powierzchni  reprezentuje  przewidywane  wartości  Y. 
Druga  pozycja  Response  Surface  Plots  w  okienku  dialogowym  otwieranym  po  kliknięciu  przycisku 
grafiki Graphics w pasku narzędzi analizy tworzy wykres konturowy: 
 
 

 

background image

 

 

 - 7 - 

Na  wykresie  konturowym  w  powyższym  formacie,  każda  linia  reprezentuje  kombinację  zmiennych 
niezależnych  X

1

 i X

2

, które tworzą tą samą przewidywaną wartość Y.  

 
W okienku dialogowym opcji panelu Pane Options znajdują się inne  dostępne formaty. 
 
 
Opcje panelu 
 

 

 
 
  Type  –  Typ  wykresu.  Można  tu  wybrać  wykres  powierzchni  3D  Surface.  w  którym  wysokość 

powierzchni  reprezentuje  wartość  Y  w  funkcji  dwóch  dowolnych  zmiennych  niezależnych, 
wykres  konturowy  2D  Contour,  w  którym  barwne  linie  lub  obszary  reprezentują  wartość  Y 
w funkcji  dwóch  dowolnych  zmiennych  niezależnych,  wykres  kwadratowy  2D  Square, 
w którego rogach wyświetlane są przewidywane wartości Y przy różnych kombinacjach dwoch 
zmiennych  niezależnych,  lub  wykres  sześcienny  3D  Cube  w  którego  wierzchołkach 
wyświetlane  są  przewidywane  wartości  Y  przy  różnych  kombinacjach  trzech  zmiennych 
niezależnych. 

 

 

 

  Contours – Kontury. Granice i ostępy  linii konturów i obszarów. Kontury mogą być rysowane 

jako linie ciągłe Lines  reprezentujące jedną wartość Y,  malowane obszary Painted Regions 
reprezentują  przedziały,  albo  można  korzystać  z  zakresów  kolorów  ciągłych  Continuous.
   

  Resolution  –  Rozdzielczość.  Liczba  działek  wzdłuż  każdej  osi  przy  których  wykreślane  są 

wartości Y. Zwiększenie rozdzielczości może poprawić jakość wykresu, ale może przedłużyć to 
czas jego rysowania. 

 

 

  Surface  –  Powierzchnia.  Dla  wykresu  powierzchni,  jest  to  liczba  działek  wzdłuż  każdej  osi 

między liniami stosowanym do rysowania powierzchni. Powierzchnie mogą być rysowane jako 
drutowe Wire Frame (przezroczysta siatka), jako jednolita powierzchnia barwna Solid lub jako 
kolorowe kontury Contoured (barwy zgodne z wartościami Y). Pole Contours Below wstawia 
wykres  konturowy  na  dole  sześcianu.  Pole  Show  Points  nanosi  punkty  obserwacji  na 
powierzchnię. 

 

 

  Factors.  Czynniki.  Przycisk  ten  służy  do  wybierania  wykreślanych  zmiennych.  Otwiera  się 

wtedy  okienko  dialogowe  podobne  do  opcji  panelu  dopasowanego  wykresu  Plot  of  Fitted 
Model Options. 

 

background image

 

 

 - 8 - 

Przykład – Wykres konturowy z ciągłymi (jednolitymi) kolorami. 

 

 

 
 

Przykład – Wykres powierzchniowy z konturami pod spodem i wstawionymi punktami. 

 

 

 

 
 OPCJE ANALIZY 
 
Okienko dialogowe opcji analizy Analysis Options steruje algorytmem stosowanym do dopasowania 
modelu regresji. 
 

 

background image

 

 

 - 9 - 

 

Method  –  Metoda  stosowana  do  estymacji  parametrów  modelu.  Metoda  Gauss-Newton 
korzysta  z  techniki linearyzacji, która dopasowuje sekwencję liniowych modeli regresji  w ceu 
znalezienia  minimum  resztowej  sumy  kwadratów.  Metoda  Steepest-Descent  (metoda 
najmniejszego  spadku)  korzysta  gradientu  resztowej  sumy  kwadratów.  Natomiast  domyślna 
metoda  Marquardt  jest  szybkim  i przydatnym  sposobem  stanowiącym  kompromis  dwóch 
poprzednich metod. 

 

 

 

Stopping Criteriion 1 – Algorytm stosowany jako kryterium zbieżności gdy względna zmiana 
resztowej  sumy  kwadratów  jednej  iteracji  i  następnej  jest  mniejsza  od  podanego  kryterium.
 

 

 

Stopping Criteriion 2 – Algorytm stosowany jako kryterium zbieżności gdy względna zmiana 
wszystkich  estymowanych  parametrów  jednej  iteracji  i  następnej  jest  mniejsza  od  podanego 
kryterium. 

 

 

 

Maximum  Iterations  –  Estymacja  zatrzymuje  się  gdy  zbieżność  nie  została  osiągnięta  po 
podanej liczbie iteracji.   
 

 

Maximum  Function  Calls  –  Estymacja  zatrzymuje  się  gdy  zbieżność  nie  została  osiągnięta 
gdy funkcja liczba wywoływania funkcji przekracza podaną liczbą razy.   
 

 

Marquardt  Parameters  –  Wartoścu  parametru  Marquardta  sterującego  stopniem  w  jakim 
dwie  metody  regresji  rozciągają  się  w  względem  siebie.  Szczegóły  dotyczące  algorytmu 
Marquardta
 – patrz Box, Jenkins and Reinsel (1994)

 

 

 

Confidence  Level  –  Poziom  ufności  (istotności).  Wartość  procentowa  stosowana  do 
obliczania asymptotycznych przedziałów ufności dla współczynników modelu. 

 
 
RAPORTY 
 
Po  kliknięciu  przycisku  tablic  Tables  w  pasku  narzędzi  analizy  i  wybraniu  opcji  Reports,  w  panelu 
wyników ukazuje się tablica zawierająca przewidywania na podstawie dopasowanego modelu regresji. 
Domyślnie, tablica ta zawiera każdy wiersz arkusza danych mający pełną informację o zmiennych  X, 
ale  nie  ma  wartości  dla  zmiennych  Y.  Dzięki  temu można  dodawać  wiersze  na  dole  arkusza  danych 
odpowiadające  poziomom,  przy  których  chcemy  uzyskać  przewidywania  bez  zmiany  dopasowanego 
modelu. 
 
Przykładowo  załóżmy,  że    chcemy  uzyskać  przewidywaną  wartość  zmiennej  chlorine  dla  wartości 
zmiennej  weeks  =  50  (ekstrapolacja  za  pomocą modelu). W  tym  celu  w  wierszu  45  arkusza  danych 
wprowadzany  w  pierwszej  kolumnie  weeks  wartość  50,  ale  pole  tego  wiersza  w  drugiej  kolumnie 
chlorine pozostawiamy puste. 
 
Po wybraniu opcji Reports (patrz wyżej) , w oknie wyników uzyskujemy poniższą tablicę: 

 

 

 

Tablica ta zawiera poniższe pozycje: 
 

 

Row – Numer wiersza w arkuszu danych zawierającego wartość zmiennej niezależnej.   
 

 

Fitted – Przewidywana wartość zmiennej zależnej na postawie dopasowanego modelu.  
 

 

Stand, Error – Estymowany błąd standardowy nowej obserwacji. 

 

 

background image

 

 

 - 10 -

 

Lower / Upper 95 % CL for Ferecast – Granice ufności (dolna i górna) wartości  prognozy Y. 
 

 

Lower / Upper 95 % CL for Mean – Granice ufności (dolna i górna) wartości średniej Y. 

 
Dla wiersza #45, przewidywana wartość zawartości chloru chlorine wynosi około 0,392. Nowa próbka 
przy  zmiennej  weeks  =  50  powinna  być  oczekiwana  w  przedziale  od  0,368  do  0,4i6  na  poziomie 
istotności  95  %  (pod  warunkiem,  że  wykonana  jest  ekstrapolacja).  Średni  poziom  zmiennej  chlorine 
po czasie weeks równym 50 tygodni jest estymowany w przedziale od 0,383 do 0,400. 
 
Korzystając  z  okienka  dialogowego  opcji  panelu  Pane  Options,    można  dołączyć  do  tej  tablicy 
dodatkowe  informacje  o  przewidywanych  wartościach  i  resztach  stosowanych  do  dopasowania 
modelu. 
 
 
Opcje panelu 
 

 

 

Można tu dołączać: 
 

 

Observed Y – Obserwowane wartości zmiennej zależnej 

 

 

 

Fitted Y – Przewidywane wartości zmiennej zależnej 

 

 

 

Residuals – Zwykłe reszty (wartości obserwowane minus przewidywane) 

 

 

 

Studentized Residuals – Usuwane reszty studentyzowane opisane w dokumentacji 

 

 

 

Standard Errors for Forecast – Błędy standardowe nowych obserwacji 

 

 

 

Confidence  Limits  for  Indywidual  Forecast  –  Błędy  standardowe  prognozy  wartiości  Y
 

 

 

Confidence Limits for Forecast Means – Błędy standardowe prognozy średnich Y. 

 
 
MACIERZ KORELACJI 
 
Po  kliknięciu  przycisku  tablic  Tables  w  pasku  narzędzi  analizy  i  wybraniu  opcji  Correlation  Matrix, 
w panelu  wyników  ukazuje  się  tablica  zawierająca  estymacje  korelacji  między  estymowanymi 
współczynnikami modelu regresji. 
 

 

 

 

Tablica  ta  może  być  pomocna  przy  sprawdzaniu  w  jakim  stopniu  wplywy  różnych  zmiennych 
niezależnych mogą być oddzielone jedne od drugich. 

background image

 

 

 - 11 -

WARTOŚCI OBSERWOWANE W FUNKCJI PRZEWIDYWANYCH 
 
Po  kliknięciu  przycisku  grafiki  Graphs  w  pasku  narzędzi  analizy  i  wybraniu  opcji  Observed  versus 
Predicted,  w panelu  wyników  ukazuje  się  wykres  pokazujący  wartości  obserwowane  Y  na  osi 
pionowej w funkcji wartości przewidywanych na osi poziomej.  

 

 

Gdy model regresji jest dobrze dopasowany, wówczas punkty tego wykresu są losowo rozmieszczone 
wzdłuż linii przekątnej.  
 
Czasem  można  zauważyć  pewną  krzywiznę  punktów  na  tym  wykresie,  co  wskazuje  na  potrzebę 
zastosowania modelu krzywoliniowego zamiast liniowego.  
 
Wszelkie  zmiany  rozrzutu  od  dolnych  do  górnych  wartości  Y  wskazują  na  celowość  transformacji 
zmiennej zależnej przed dopasowaniem modelu do danych. 
 
 
WYKRESY RESZT 
 
Tak  jak  we  wszystkich  modelach  statystycznych,  warto  sprawdzać  reszty  Residuals.  W  analizie 
regresji, reszty są definiowane następująco: 
 

i

i

i

y

y

e

ˆ

 .................................................................... (5) 

 
tzn.  reszta  jest  różnicą  między  wartością  obserwowaną  danej  a  wartością  wynikającą  z  modelu. 
Procedura  regresji  nieliniowej  Nonlinear  Regression  tworzy  różne  typy  wykresów  reszt  Residual 
Plots  w zależności  od  wybranych  opcji  w  okienku  dialogowym  opcji  wykresu  reszt  Residual  Plot 
Options otwieranym po kliknięciu przycisku Pane Options w pasku narzędzi wyników 
 

 

Scatterplots  -  Wykresy rozrzutu  
 
Opcja  ta  znajdująca  się  w  sekcji  Type  udostępnia  sekcję  Plot  Versus,  w  której  można  wybrać 
wielkość wyświetlaną na osi poziomej.  
 

 

Predicted  Values  –  W  funkcji  przewidywanych  wartości,  tutaj  chlorine  (opcja  domyślna) 
 

 

 

Row Number – W funkcji numerów wierszy 

 

 

 

Independent Variable – W funkcji zmiennej niezależnej X (tutaj weeks). 

background image

 

 

 - 12 -

 
 

 

 
 

Normal Probability Plot –  Wykres prawdopodobieństwa normalnego 
 
Wykres  ten  wybierany  w  sekcji  Type  można  stosować  do  sprawdzania  czy  odchylenia  wokół    linii 
spełniają rozkład normalny, co jest założeniem stosowanym do obliczania przedziałów przewidywania. 

 

 
 

 

 
 

Gdy odchylenia spełniają rozkład normalny, układają się w przybliżeniu wzdłuż linii prostej.  
 
Na powyższym  wykresie  dane  odchylają  się  znacznie  od  linii  prostej,  co  wskazuje  że  odchylenia  są 
większe w ogonach rozkładu niż powinno to mieć miejsce w rozkładzie normalnym. 
 
 
Autocorrelations Functions –   Funkcje autokorelacji reszt 
 
Wykres ten wybierany w sekcji Type oblicza korelacje między resztami w funkcji liczby wierszy między 
nimi w arkuszu danych. 

 

background image

 

 

 - 13 -

 

 

 

 
Wykres ten jest odpowiedni  tylko wtedy, gdy dane były gromadzone sekwencyjnie.  
 
Każdy  słupek  wykraczający  poza  linie  granic  prawdopodobieństwa  może  wskazywać  na    istotną 
zależność  między  resztami  oddzielanymi  wskaźnikiem  lag  (na  osi  poziomej)  co  narusza  założenie 
o niezależności przyjęte przy dopasowywaniu modelu regresji. 
 
 
Opcje panelu 
 

 

 
 

 

Plot – Rodzaj wykresu reszt 

 

 

 Residuals – Reszty analizy regresji wykonywanej metodą najmniejszych kwadratów   

 

 Studentized  Residuals  –  Reszty  studentyzowane.  Są  to  różnice  między  wartościami 

obserwowanymi  y

i

,  a  przewidywanymi 

i

y

ˆ

  gdy  model  jest  dopasowywany  przy  korzystaniu 

ze wszystkich obserwacji oprócz i-tej, dzielonej przez estymowany błąd standardowy.  
 
Reszty  te  noszą  czasem  nazwę  reszt  usuwanych  zewnętrznie  Externally  Deleted, 
ponieważ  są  one  miarą  odchyleń  wartości  od  modelu  regresji  gdy  jest  on  dopasowywany 
oprócz tych punktów. Jest to ważne, ponieważ  duże  wartości odbiegające mogą wpływać 
na model i tym samym nie odbiegają zbytnio od linii regresji. 

background image

 

 

 - 14 -

 

Type  –  Typ  tworzonego  wykresu.  Wykres  rozrzutu  Scatterplot  stosuje  się  do  testowania 
krzywizny. Wykres prawdopodobieństwa Normal Probability Plot stosuje się do sprawdzania 
czy  dane  pochodzą  z rozkładu normalnego,  a  wykres funkcji autokorelacji  Autocorrelations 
Functions stosuje się do testowania zależności między kolejnymi resztami. 

 

 

 

Plot Versus – Dla wykresu rozrzutu Scatterplot, wielkość wykreślana na osi poziomej   
 

 

Number of Lags – Dla funkcji autokorelacji Autocorrelations Functions, maksymalna liczba 
odstępów  między  wierszami  Lags.  Dla  małych  zestawów  danych,  liczba  ta  może  być 
mniejsza od podanej wartości   
 

 

Confidence Level – Dla funkcji autokorelacji Autocorrelations Functions, poziom istotności 
stosowany do tworzenia granic prawdopodobieństwa. 

 
 
NIETYPOWE RESZTY 
 
Po  dopasowaniu  modelu,  celowe  jest  badanie  reszt  w  celu  sprawdzenia  czy  istnieją  wartości 
odbiegające  Outlier,  które  można  usuwać  z  danych.  Opcja  Unusual  Residuals  dostępna  po 
kliknięciu  przycisku  tablic  Tables  w  pasku  narzędzi  analizy,  wyświetla  w  oknie  wyników  tablicę 
nietypowych reszt zawierającą wszystkie obserwacje dla których studentyzowane reszty są równe lub 
większe od wartości bezwzględnej 2. 
 

 

 

Studentyzowane  reszty  większe  co  do  wartości  bezwzględnej  od  3  odpowiadają  punktom  odległym 
więcej niż  o 3 odchylenia standardowe od dopasowanego modelu, co jest rzadkim przypadkiem przy 
rozkładzie normalnym. W naszym przykładzie, wiersz # 17 jest dalszy niż 3,5 odchylenia standardowe 
od dopasowanego modelu; 
 
UWAGA:  Punkty  można  usuwać  z  analizy  regresji  po  wybraniu  wykresu  dopasowanego  modelu 
Plot of Fitted Model i kliknięciu na punkcie i wybraniu przycisku Exclude/Include w pasku narzędzi 
analizy. Wykluczone punkty będą zaznaczone znakiem 

 
 
PUNKTY ODLEGLE 
 
Przy  dopasowywaniu  modelu  regresji,  nie  wszystkie  obserwacje  mają  jednakowy  wpływ  na 
estymowane  parametry.  W  przypadku  prostej  analizy  regresji  liniowej,  punkty  znajdujące  się  przy 
bardzo niskich lub bardzo wysokich  wartości X, mają większy wpływ niż punkty leżące blisko średniej 
wartości X. Opcja Influential Points dostępna po kliknięciu przycisku tablic Tables w pasku narzędzi 
analizy,  wyświetla  w  oknie  wyników  tablicę  zawierającą  obserwacje    odległe,  mające  jednak  silny 
wpływ na dopasowany model. 
 

 

background image

 

 

 - 15 -

Punkty są wstawiane na tą listę wg poniższego schematu: 

 
 

Leverage  –  Punkty  wpływowe.  Mierzą  jak  bardzo  odlegle  są  obserwacje  od  średniej  ze 
wszystkich  n-obserwacji  w  przestrzeni  zmiennych  niezależnych.  Im  wyższa  wartość  punktu 
wpływowego, tym większy jest jego wpływ na dopasowana wartość 

i

y

ˆ

.   

Punkty  są  wstawiane  na  tej  liście,  jeśli  ich  wartość  statystyki  Leverage  jest  większa  od 
3-krotnej odległości od średniej z punktów danych. 

 

 

 

Mahalanobis  Distance  –  Odległość  Mahalanobisa.  Mierzy  odległość  punktu  od  środka 
zestawu punktów w przestrzeni wielu zmiennych niezależnych. Z uwagi na to, że odległość ta 
jest  związana  ze  statystyką  Leverage,  nie  jest  ona  stosowana  do  zaznaczania  punktów 
w tablicy. 

 

 

 

DFITS – Mierzy różnicę między wartością przewidywaną 

i

y

ˆ

gdy model jest dopasowany wraz 

lub  bez  i-tej  danej.  Punkty  są  wstawiane  na  liście  gdy  wartość  bezwzględna  DFITS 
przekracza wartość 2p/n, gdzie p jest liczbą współczynników modelu regresji. 

 
 
ZAPISYWANIE WYNIKÓW 
 
Poniższe wyniki można zapisywać w arkuszu danych: 
 

1.  Predicted Values – Przewidywane wartości Y odpowiadające każdej z  n-obserwacji 

 

 

2.  Standard Errors of Predictions – Błędy standardowe n-przewidywanych obserwacji   

 

3.  Lower Limits for Predictions – Dolne granice przewidywania każdej wartości Y 

 

 

4.  Upper Limits for Predictions – Górne granice przewidywania każdej wartości Y 

 

 

5.  Standard Errors of Means – Błędy standardowe wartości średniej Y dla wszystkich X   

 

6.  Lower  Limits  for  Forecast  Means  –  Dolne  granice  średniej  wartości  Y  dla  wszystkich  X

 

 

7.  Upper  Limits  for  Forecast  Means  –  Górne  granice  średniej  wartości  Y  dla  wszystkich  X 

 

8.  Residuals – n-wszystkich reszt  

 

9.  Studentized Residuals –– n-wszystkich studentyzowanych reszt 

 

 

10.  Leverages – Punkty wpływowe  odpowiadające n-wartościom X 

 

 

11.  DFITS – Statystyki odpowiadające n-wartościom X 

 

 

12.  Mahalanobis Distances – Odleglości Mahalanobisa odpowiadające n-wartościom X   

 

13.  Coefficients – Estymowane  współczynniki (parametry) modelu regresji  

 

14.  Function – Łańcuch tekstowy wyrażenia STATGRAPHICS funkcji (modelu) regresji. 

 
 
OBLICZENIA 
 
Estymowane  parametry  są  obliczane  numerycznie  przez  minimalizacją  sumy  kwadratów.  Macierz 
wariancji / kowariancji tych współczynników jest estymowana na podstawie pochodnych cząstkowych 
sąsiednich przybliżeń rozwiązania metodą najmniejszych kwadratów.