Regresja liniowa dwoch zmiennych, materiały z roku 2011-2012, Semestr II, Statystyka opisowa - ćwiczenia


Model regresji liniowej dwóch zmiennych

Analiza regresji opiera się na modelu statystycznym. Przez model ten należy rozumieć „zbiór matematycznych wzorów i założeń, które opisują pewną sytuację zachodzącą w świecie rzeczywistym”. Chcemy oczywiście, by model wyjaśniał możliwie najlepiej procesy generujące wyniki obserwacji. Interesuje nas przy tym, by model ten był równocześnie oszczędny, to znaczy by „uchwycił” to, co w zachowaniach wyników obserwacji jest systematyczne, pozostawiając na uboczu czynniki przypadkowe, których skutki nie mogą być przewidziane. Czynniki te traktowane są jako błędy losowe.

Model statystyczny rozkłada więc w pewnym sensie wyniki obserwacji na składnik systematyczny i składnik losowy. Ten pierwszy reprezentowany jest przez określoną postać funkcji (czyli „wzór matematyczny”).

Składnik losowy ma natomiast swoje źródło w mechanizmach przypadkowych. Wyodrębnia się go ponieważ:

Model ten ma postać:

0x01 graphic
(1)

gdzie:

Y - zmienna objaśniana,

X - zmienna objaśniająca,

0x01 graphic
- parametry funkcji regresji,

U - składnik losowy, który w modelu jest jedynym źródłem losowości Y.

Prosty model regresji liniowej składa się ze składnika nielosowego (systematycznego) i błędu losowego.

Składnik systematyczny przedstawia średnie warunkowe wartości zmiennej Y przy danym X, co można zapisać następująco:

0x01 graphic

Jest to tzw. funkcja regresji pierwszego rodzaju.

Można również zdefiniować funkcję regresji pierwszego rodzaju w postaci:

0x01 graphic

Ogólnie biorąc prosty model regresji liniowej „funkcjonuje” przy następujących założeniach:

  1. związek między zmiennymi X i Y jest liniowy,

  2. wartości zmiennej objaśniającej X są ustalone, czyli nielosowe,

  3. losowość wartości zmiennej Y pochodzi tylko i wyłącznie ze składnika losowego,

  4. składnik losowy ma rozkład normalny (jakkolwiek nie jest to konieczne) o średniej 0 i stałej wariancji,

  5. realizacje składnika losowego nie są ze sobą wzajemnie skorelowane.

Parametry modelu regresji muszą następnie zostać oszacowane na podstawie wyników obserwacji pochodzących z próby (zbiorowości). Wykorzystuje się w tym celu różne metody estymacji, z których najczęściej stosowana jest klasyczna metoda najmniejszych kwadratów (KMNK).

W rezultacie oszacowaną funkcją regresji Y względem X jest funkcja:

0x01 graphic
(2)

gdzie:

0x01 graphic
− oceny parametrów funkcji regresji typu (2)

U − reszty modelu regresji (2), które reprezentują realizacje składnika losowego modelu (1).

Funkcję regresji typu (2) określa się mianem funkcji regresji drugiego rodzaju.

Prezentacji tego modelu dokonamy przyjmując następujące założenia:

Oczywiście, o tym którą ze zmiennych określamy jako objaśnianą, a którą jako objaśniającą decydują kryteria merytoryczne,

0x01 graphic

Hipoteza ta w każdym indywidualnym przypadku musi być weryfikowana.

Algorytm analizy korelacji i regresji liniowej dwóch zmiennych przebiega w nastę-pujących etapach:

  1. Specyfikacja zmiennych.

Na podstawie kryteriów merytorycznych określamy :

  1. Sporządzenie korelacyjnego diagramu rozrzutu.

Na jego podstawie wnioskujemy, czy związek korelacyjny występuje oraz czy można przyjąć, że jest to związek liniowy.

  1. Określenie siły i kierunku związku korelacyjnego między badanymi zmiennymi.

Zakładamy przy tym, że:

Wtedy jako miarę siły i kierunku zależności między badanymi zmiennymi stosujemy współczynnik korelacji liniowej Pearsona r .

Sposób liczenia tego współczynnika i jego interpretacja została już omówiona wcześniej. .

  1. Estymacja parametrów liniowych funkcji regresji i ich prezentacja graficzna.

0x01 graphic

gdzie:

xt - wartości zmiennej objaśniającej ( t = 1, 2, ..., N ),

ay - wyraz wolny,

by - współczynnik regresji Y względem X.

Współczynnik regresji by ma swoją interpretację. Określa on mianowicie o ile przeciętnie biorąc zmieni się Y gdy zmienna X wzrośnie o jednostkę.

Korzystając z KMNK otrzymuje się, że:

0x01 graphic

Można też obliczyć współczynnik regresji wykorzystując obliczony wcześniej współczynnik korelacji liniowej r :

0x01 graphic

Natomiast wyraz wolny liczymy ze wzoru:

0x01 graphic

0x01 graphic

gdzie:

yt - wartości zmiennej Y dla t = 1, 2, ..., N,

ax - wyraz wolny,

bx - współczynnik regresji X względem Y.

Współczynnik regresji bx ma również swoją interpretację. Pokazuje mianowicie o ile przeciętnie biorąc zmieni się X jeśli Y wzrośnie o jednostkę.

Wykorzystując KMNK otrzymuje się, że:

0x01 graphic

Lub podobnie jak w przypadku poprzedniej funkcji:

0x01 graphic

Natomiast wyraz wolny liczymy ze wzoru:

0x01 graphic
.

Warto zauważyć, że musi być spełniona relacja:

0x01 graphic

przy czym znak tych trzech współczynników musi być identyczny (wszystkie muszą być dodatnie lub ujemne).

Wykreślając oszacowane funkcje regresji na korelacyjnym diagramie rozrzutu znajdujemy dla każdej z nich dwa punkty, przez które musi ona przechodzić i następnie punkty te łączymy.

Współrzędne tych punktów są następujące:

P1 = (0x01 graphic
),

P2 = (0x01 graphic
), gdzie 0x01 graphic
obliczamy podstawiając do funkcji regresji 0x01 graphic
za 0x01 graphic
wartość x2 z przedziału określoności zmiennej X.

P1 = (0x01 graphic
),

P2 = (0x01 graphic
), gdzie 0x01 graphic
obliczamy podstawiając do funkcji regresji 0x01 graphic
za 0x01 graphic
wartość y2 z przedziału określoności zmiennej Y.

  1. Ocena jakości oszacowanych funkcji regresji

Ocenie podlegają obie funkcje regresji. Ze względu na to, że proces ten przebiega podobnie uwagę swoją skierujemy na ocenę funkcji regresji Y wzglę-dem X.

Dokonując oceny jakości funkcji regresji chcemy uzyskać odpowiedź na pytanie: czy funkcja ta dobrze opisuje ilościową stronę zależności miedzy badanymi zmiennymi? Inaczej mówiąc, czy oszacowany model regresyjny jest dobrą kopią zjawiska wyjaśnianego, czy dobrze opisuje zachowanie się tego zjawiska.

Żeby odpowiedzieć na tak sformułowane pytanie oblicza się:

  1. odchylenie standardowe składnika losowego Su:

0x01 graphic

Miara ta określa o ile przeciętnie biorąc (+/-) wartości empiryczne zmiennej objaśnianej odchylają się od wartości teoretycznych tej zmiennej, obliczonych na podstawie oszacowanej funkcji regresji.

  1. współczynnik zmienności losowej Vu:

0x01 graphic

Parametr ten wskazuje jaki % średniego poziomu zmiennej objaśnianej stanowią wahania losowe, których miarą jest Su. Parametr Vu jest więc miernikiem relatywnej wielkości błędu losowego. Błąd ten można umownie uznać za dopuszczalny, jeśli 0x01 graphic
,

  1. Współczynnik determinacji R2 :

0x01 graphic

Określa on jaki procent zmienności zmiennej objaśnianej został wyjaśniony przez oszacowaną funkcję regresji.

R2 przyjmuje wartości liczbowe z przedziału < 0, 1 > (lub < 0 %, 100 % >), przy czym model regresji tym lepiej opisuje zachowanie się badanej zmiennej objaśnianej im R2 jest bliższy jedności (bliższy 100 %). Zamiast współczynnika determinacji można użyć współczynnika zgodności 0x01 graphic
, który obliczamy korzystając z relacji:

0x01 graphic

Współczynnik zgodności 0x01 graphic
określa jaka część zmienności badanej zmiennej objaśnianej nie została przez funkcję regresji wyjaśniona. Oczywiste jest więc, że korzystna sytuacja występuje wówczas, gdy 0x01 graphic
jest bliższy zera. Można umownie przyjąć, że model regresji jest dopuszczalny ze względu na kryterium 0x01 graphic
, jeśli ma on wartość mniejszą od 20 % (< 0,2).

  1. Błędy średnie szacunku parametrów funkcji regresji:

0x01 graphic

0x01 graphic

Błędy te wskazują o ile przeciętnie biorąc (+/-) odchylają się oceny parametrów modelu regresji od ich wartości prawdziwych, których przecież nie znamy. Jest przy tym pożądane, by błędy te były możliwie jak najmniejsze.

W związku z powyższym uznaje się w praktyce, że parametry funkcji regresji są precyzyjnie oszacowane, jeśli:

0x01 graphic

Przykład 1.

Kontynuujemy przykład, który przedstawiliśmy mówiąc o badaniu korelacji.

Dla 15 gospodarstw domowych 4-osobowych zebrano informacje o przychodach mie-sięcznych (w zł/1 osobę) i wysokości wydatków na utrzymanie mieszkania (w zł/1 osobę) w I półroczu 2007 r.:

X

594

450

395

520

648

695

825

800

687

650

430

874

808

609

765

Y

58

48

42

62

70

75

95

92

66

72

45

88

85

65

74

Y - wydatki na utrzymanie mieszkania w przeliczeniu na 1 osobę

X - przychody miesięczne w zł / 1osobę

Zamieszczony w poprzednim pliku diagram rozrzutu wskazuje na istnienie silnej, dodatniej korelacji między badanymi zmiennymi.

Potwierdził to wyliczony współczynnik korelacji: 0x01 graphic
.

Przypominamy wyliczone wcześniej parametry: średnie obu cech i ich odchylenia standardowe:

0x01 graphic

0x01 graphic

Prowadzimy analizę dalej, czyli szacujemy parametry funkcji regresji:

0x01 graphic

Liczymy współczynnik regresji wykorzystując obliczony wcześniej współczynnik

korelacji liniowej r :

0x01 graphic

Natomiast wyraz wolny liczymy ze wzoru:

0x01 graphic

Funkcja regresji Y względem X ma więc postać:

0x01 graphic

Interpretujemy parametr 0x01 graphic
: wzrost dochodu o 1 zł na osobę w gospodarstwie domowym wiąże się ze wzrostem wydatków na utrzymanie mieszkania (na 1 osobę) przeciętnie o 0,105 zł.

Szacujemy parametry drugiej funkcji regresji:

0x01 graphic

0x01 graphic

0x01 graphic
.

Funkcja ma więc postać:

0x01 graphic

Interpretujemy parametr 0x01 graphic
: Jeżeli wydatki na mieszkanie wzrosną o 1 zł to można przypuszczać, że dochody na jedną osobę wzrosły średnio o 8,77 zł.

Na wykresie prezentujemy tylko funkcję podstawową, czyli funkcję Y względem X:0x08 graphic

Dokonamy teraz oceny jakości oszacowanych funkcji regresji. Liczymy więc:

0x01 graphic

Rzeczywiste wydatki na utrzymanie mieszkania różnią się od wydatków teoretycznych wyznaczonych w oparciu o funkcję regresji przeciętnie o +/- 4,48 zł.

0x01 graphic

Wahania losowe stanowią 6,48 % średniego poziomu wydatków na utrzymanie mieszkania. Można więc przyjąć, że poziom błędu losowego jest dopuszczalny.

0x01 graphic

0x01 graphic

0x01 graphic

Parametry te informują nas, że zmiany w wydatkach na utrzymanie mieszkania związane są w 92,16 % ze zmianami przychodu na jedną osobę, natomiast w 7,84 % zależą od innych zmiennych, nie uwzględnionych w badaniu oraz od czynnika przypadkowego.

0x01 graphic

0x01 graphic

Uwzględniając obliczone błędy można funkcję zapisać następująco:

0x01 graphic

Porównując oszacowania parametrów z wielkością błędów zauważyć można, że wyraz wolny nie jest oszacowany precyzyjnie, natomiast precyzja szacunku współczynnika regresji jest wystarczająca.

Należy więc przyjąć, że przychód ma dużą moc wyjaśniania zmienności wydatków na utrzymanie mieszkania.

Przykład 2.

Badanie zależności między dostawami masła i skupem mleka w pewnej spółdzielni mleczarskiej w latach 1997 - 2006 dało następujące wyniki:

Ponadto wiadomo, że wzrost skupu mleka o 1 tys. litrów powoduje zwiększenie dostaw masła przeciętnie o 200 kg.

Mając powyższe informacje:

  1. Określ siłę i kierunek badanej zależności.

  2. Wyznacz rachunkowo obie funkcje regresji.

  3. Oceń jakość funkcji regresji Y względem X.

  4. Oszacuj wielkość dostaw masła przy planowanym skupie mleka równym 70 tys. litrów.

Rozwiązanie:

Ponieważ wielkość dostaw masła zależy od rozmiarów skupu mleka, wobec tego:

Y - dostawy masła (w tonach),

X - wielkość skupu mleka (tys. litrów).

Identyfikujemy informacje podane w treści zadania:

0x01 graphic

Wykorzystujemy współczynnik zmienności 0x01 graphic
i obliczamy odchylenie standardowe zmiennej Y: 0x01 graphic
0x01 graphic

ad a) Liczymy współczynnik korelacji:

0x01 graphic

czyli: 0x01 graphic
z tego: 0x01 graphic

Odp. Między dostawami masła i skupem mleka występuje silna zależność liniowa o kierunku dodatnim.

ad b) Do pierwszej funkcji musimy wyznaczyć tylko wyraz wolny:

0x01 graphic

Funkcja ma więc postać:

0x01 graphic

Liczymy parametry drugiej funkcji regresji wykorzystując podany wcześniej wzór:

0x01 graphic

0x01 graphic
otrzymujemy 0x01 graphic

Liczymy wyraz wolny drugiej funkcji:

0x01 graphic

Druga funkcja ma postać:

0x01 graphic

Interpretujemy współczynnik regresji tej funkcji:

Na to, aby dostawy masła wzrosły o 1 tonę skup mleka musi wzrosnąć przeciętnie o 3,78 tys. litrów.

ad c) Obliczamy parametry struktury stochastycznej:

0x01 graphic

Su =1,1 (podane w treści zadania) - rzeczywiste dostawy masła mogą różnić się od dostaw wyznaczonych za pomocą funkcji regresji przeciętnie o +/- 1,1 ton,

Vu =12,22% - odchylenia losowe stanowią przeciętnie biorąc 12,22 % średniego poziomu dostaw masła - jest to dopuszczalny poziom błędu,

R2, 0x01 graphic
- wielkość dostaw masła zależy w 75,69 % od wielkości skupu mleka, natomiast w 24,31 % od innych czynników, nie uwzględnionych w badaniu oraz od czynnika przypadkowego.

ad d) W odpowiedzi na to pytanie do funkcji regresji Y względem X w miejsce xt podstawiamy planowany skup mleka, czyli 70 tys. litrów:

0x01 graphic

Jeżeli skup mleka wyniesie 70 tys. litrów to dostawy masła wyniosą 19,98 +/- 1,1 ton

1

8

0x01 graphic



Wyszukiwarka