background image

Projekt ze 

statystyki

„Awarie na sieciach 

wodociągowych”

Autorzy:                        

 

Dominik Szołtysik    
Kamil Wieczorek      

background image

I .  Niniejszy projekt powstał w ramach pracy zaliczeniowej z przedmiotu STATYSTYKA na I 
semestrze   studiów   uzupełniających   magisterskich.   Celem   naszego   projektu   było   opracowanie 
danych statystycznych dotyczących awarii na sieciach wodociągowych. Dane pochodzą z I półrocza 
2006-go roku i zawierają następujące zmienne: 

Rodzaj sieci na której doszło do awarii,

Materiał z którego wykonana jest sieć,

Średnica rur,

Data zgłoszenia awarii,

Data rozpoczęcia naprawy,

Godzina rozpoczęcia naprawy, 

Data zakończenia awarii,

Godzina zakończenia awarii,

Czas bezuszkodzeniowej pracy,

Czas odnowy,

Nowy czas odnowy (czas zapisany dziesiętnie),

Czas naprawy,

Czas oczekiwania na naprawę,

Dzień tygodnia awarii.

 
Do wykonania mieliśmy następujące zadania:
1)  Poprawić dane statystyczne - dane zawierały nieprawidłowo wyliczone czasy odnowy, czasy 
naprawy i czasy oczekiwania na naprawę (dane poprawiliśmy poprzez wyliczenie różnicy 
pomiędzy godziną zakończenia awarii, a godziną zgłoszenia - dla czasu odnowy i analogicznie dla 
pozostałych czasów).
2)  Sprawdzić częstość awarii za względu na dzień tygodnia.
3)  Wykonać analizę wariancji czasu odnowy ze względu na rodzaj sieci oraz ze względu na 
materiał z którego wykonana jest sieć (stal, żeliwo, ocynk), na których sieciach awarie są 
najdłuższe? Czy długość trwania awarii zależy od materiału z którego wykonana jest sieć?
4)  Dopasować rozkłady czasu (czas odnowy i naprawy), czy mają rozkład normalny?,

5)  

Wykonać regresję ze względu na średnicę (czy ma sens?), a liczbę awarii (osobno dla każdej 

sieci i w sumie).

background image

 
Zad.2
Analiza ilości awarii ze względu na dzień tygodnia dla wszystkich sieci:

Histogram   Dzień tygodnia awarii

zbiorczy.sta 14v*536c

Dzień tygodnia awarii = 536*1*normal(x; 3,5373; 1,8901)

poniedziałek

wtorek

środa

czwartek

piątek

sobota

niedziela

Dzień tygodnia awarii

0

20

40

60

80

100

120

Li

cz

b

o

bs

.

z naszej analizy wynika, że najwięcej awarii zdarzyło się we wtorki (105 co stanowi 18,6% 
wszystkich awarii), a najmniej w niedziele (44 tj. 8,2%).

Podsumowanie:

ilość

procentowo

poniedziałek

94

17,54 %

wtorek

105

19,59 %

środa

74

13,81 %

czwartek

85

15,86 %

piątek

82

15,30 %

sobota

52

9,70 %

niedziela

44

8,21 %

Suma

536

100 %

Jak widać ilość awarii w poszczególnych dniach tygodnia różni się. Przeprowadzimy analizę 

wariancji. W tym celu stworzyliśmy nowy arkusz danych o nazwie dni_tygodnia . Arkusz zawiera 3 
kolumny: data (wszystkie dni od 1.1.2006 do 30.6.2006), ilość awarii w danym dniu oraz dzień 
tygodnia odpowiadający danej dacie.

background image

Wykres średnich w poszczególnych dniach:

dzien tygodnia; Oczekiwane średnie brzegowe

Bieżący efekt: F(6, 174)=2,2373, p=,04181

Dekompozycja efektywnych hipotez

Pionowe słupki oznaczają 0,95 przedziały ufności

poniedziałek

wtorek

środa

czwartek

piątek

sobota

niedziela

dzien tygodnia

0,0

0,5

1,0

1,5

2,0

2,5

3,0

3,5

4,0

4,5

5,0

ilo

sc

 a

w

ar

ii

Wykonujemy test Leven`a. Wyniki przedstawia tabela poniżej:

Jako hipotezę H

0

  przyjmujemy tezę o równości wariancji. Ponieważ w tym przypadku 

wartość p jest większa od poziomu 

α

 = 0,05, nie mamy podstaw do odrzucenia  H

0. 

Tym samym 

analiza nie wykazała istotnych różnic wariancji między grupami (w naszym przypadku dni 
tygodnia). Przeprowadzamy dalsze rozważania.

 Przeprowadzamy testy hipotezy o równości średnich w grupach (testy Post-Hoc). 

Wykonujemy test Scheffego. 

Wynik testu:

background image

Dla lepszego zobrazowania wybieramy opcję pokazania grup jednorodnych.

Jako hipotezę H

0

  przyjmujemy tezę o równości średnich ilości awarii. Wynik testu 

pokazuje, że dni tworzą grupę jednorodną. Tym samym nie mamy podstaw do odrzucenia H

0

.

WNIOSEK:

Pomimo, że w okresie czasu, którego dotyczyły nasze dane obserwujemy różną ilość awarii w 

zależności od dnia, test wskazuje, że dni tygodnia tworzą jedną grupę jednorodną. Nie mamy 

podstaw do odrzucenia hipotezy o równości średnich ilości awarii w poszczególnych dniach 

tygodnia.

Dane do wglądu w skoroszycie roboczym(dni_tygodnia_skoroszyt).

background image

Zad.3

Wykonujemy analizę wariancji:

KOMENTARZ:

Wykonując   analizę   wariancji   natrafiliśmy   na   nieoczekiwane   działanie   programu 

STATISTICA, mianowicie wyliczone przez nas na nowo czasy odnowy były w formacie czasu 
hh:ss   .   Okazało   się,   że   program   licząc   np.   średnie   lub   sumując   tak   zapisane   czasy   działa 
nieoczekiwanie, tj. sumując czasy np. 13:00+5:00+4:00 daje 21:00, ale dodając teraz 21:00+3:00 
daje wynik 0:00 i teraz dodając do tego np. 7:00 mamy 0:00+7:00=7:00. Jest to dla nas działanie 
bardzo   niepożądane,   bo   wykonując   statystykę   wszystkich   czasów   odnowy  i   zaznaczając   opcję 
wszystko otrzymujemy wynik:

jak widać wyliczenia są błędne – SUMA przyp. 1-536=11:27, a ŚREDNIA
przyp. 1-536=0,353502021.

Powyższą nieprawidłowość zauważyliśmy dopiero 2.stycznia podsumowując nasze wyniki 

(naszą uwagę zwróciły bardzo małe średnie czasów odnowy w poszczególnych grupach np. 

). 

Konieczne okazało się zapisanie czasów odnowy w inny sposób, tj. znak „:” został zastąpiony 

„ ,” , a część czasu wyrażona w minutach została zapisana dziesiętnie i tak np. czas 4:10 został 
zapisany jako 4,16, a czas 9:50 jako 9,83 (komórki zostały sformatowane jako liczbowe).  Czasy te 
zostały   zapisane   jako   zmienna   12   „nowy   czas   odnowy”.   Wszystkie   analizy   musieliśmy 
przeprowadzić na nowo.

background image

Wykonujemy ponownie statystykę nowego czasu odnowy, by mieć pewność, że nowe dane są 

poprawne:

jak widać tym razem program działa prawidłowo, tj. ŚREDNIA i SUMA są poprawne.

Przystępujemy do analizy wariancji.

Czas odnowy ze względu na rodzaj sieci:

Wykonujemy test Leven’a, wyniki testu przedstawia poniższa tabela

Jako hipotezę H

0

  przyjmujemy tezę o równości wariancji czasów odnowy. 

Ponieważ wartość p jest mniejsza od poziomu 

α

 = 0,05 odrzucamy hipotezę H

0

 i przyjmujemy, że 

wariancja zmiennej zależnej w grupach (sieciach)  różni się. Przeprowadzamy testy hipotezy o 
równości średnich  (testy Post-Hoc). 

W naszych doświadczeniach pomocny może się okazać wykres średnich w poszczególnych 

grupach:

background image

Awaria na sieci:; Oczekiwane średnie brzegowe

Bieżący efekt: F(2, 533)=13,306, p=,00000

Dekompozycja efektywnych hipotez

Pionowe słupki oznaczają 0,95 przedziały ufności

Przyłącze

Sieć rozdzielcza

Sieć magistralna

Awaria na sieci:

7,0

7,5

8,0

8,5

9,0

9,5

10,0

10,5

11,0

11,5

no

w

cz

as

 o

dn

ow

y

Z wykresu można wywnioskować, że średnie czasy odnowy na sieciach różnią się od siebie, 

jednakże widać również, że wartością najbardziej odstającą od pozostałych jest średni czas odnowy 
na sieci magistralnej. Wartości dla sieci przyłącza i sieci rozdzielczej są bardziej zbliżone, w celu 
wykluczenia ich jednorodności przeprowadzamy dalsze testy.

Wykonujemy test NIR Fischera. Wynik testu ilustruje poniższa tabela :

jak widać różnice między grupami są istotne. Dla lepszego zilustrowania wyniku testu zaznaczamy 
również opcję pokazania grup jednorodnych (tabela poniżej).

background image

Jako hipotezę H

0

  przyjmujemy tezę o równości średnich czasu odnowy. Wynik testu 

pokazuje, że grupy nie są jednorodne. Tym samym odrzucamy hipotezę o równości średnich.

Dla porównania przeprowadzimy również test Scheffego. Wynik testu został pokazany w 

poniższej tabeli:

tak samo jak w teście NIR różnice są istotne. Dla lepszego zilustrowania wyniku testu, tak jak dla 
testu NIR zaznaczamy również opcję pokazania grup jednorodnych (tabela poniżej).

Jak widać wyniki testów się ze sobą pokrywają, tzn. test Schaffego również odrzucił 

hipotezę o równości średnich w grupach. 

Ponieważ nie jest spełnione założenie o jednorodności wariancji nasze rozważania nie są do 

końca poprawne. Dla porównania wykonujemy test Kruskala-Wallisa. Wyniki testu pokazane są w 
poniższych tabelach:

Jak widać wartości w tabeli wpisane zostały kolorem czerwonym, tzn. różnice są istotne i 

uzyskujemy ten sam podział co w przypadku testu NIR Fischera i testu Schaffego.

background image

WNIOSEK:

Pomimo nie spełnienia założeń o jednorodności wariancji testy dały ten sam podział na grupy 

jednorodne, tzn. odrzuciliśmy hipotezy o równości średnich czasów odnowy między sieciami. Tym 
samym długość czasu odnowy zależy od sieci na której doszło do awarii. Najdłuższy czas ma sieć 
magistralna (można to tłumaczyć skomplikowaniem naprawy tej sieci – średnica rur jest 
największa), następnie sieć rozdzielcza, a najkrótszy sieć przyłącza.

Dane do wglądu w skoroszycie roboczym(siec_czasodnowy_anwar).

Czas odnowy ze względu na materiał:

Wykonujemy test Leven’a, wyniki testu przedstawia poniższa tabela

Jako hipotezę H

0

  przyjmujemy tezę o równości wariancji, ponieważ w tym przypadku 

wartość p jest większa od poziomu 

α

 = 0,05, nie mamy podstaw do odrzucenia  H

0. 

Tym samym 

analiza nie wykazała istotnych różnic wariancji między grupami (w naszym przypadku materiał z 
którego wykonana jest sieć). Przeprowadzamy dalsze rozważania.

Wykres oczekiwanych średnich brzegowych:

Materiał; Oczekiwane średnie brzegowe

Bieżący efekt: F(2, 533)=6,1932, p=,00219

Dekompozycja efektywnych hipotez

Pionowe słupki oznaczają 0,95 przedziały ufności

stal

stal ocynkowana

żeliwo

Materiał

6,8

7,0

7,2

7,4

7,6

7,8

8,0

8,2

8,4

8,6

8,8

9,0

9,2

no

w

cz

as

 o

dn

ow

y

Z wykresu można wywnioskować, że średnie czasy odnowy w zależności od materiału 

background image

różnią się od siebie, jednakże różnice te są mniejsze niż to miało miejsce w zależności od rodzaju 
sieci. Przeprowadzamy dalsze testy .

Wykonujemy test NIR Fischera. Wynik testu ilustruje poniższa tabela :

jak widać nie wszystkie różnice są istotne, stal i stal ocynkowana tworzą grupę jednorodną.

Dla lepszego zilustrowania wyniku testu zaznaczamy również opcję pokazania grup 

jednorodnych (tabela poniżej).

Z testu wynika, że sieć wykonana ze stali oraz sieć wykonana ze stali ocynkowanej tworzą 

grupę jednorodną, tzn. w grupie tej nie mamy podstaw do odrzucenia hipotezy H

0

 , tym samym 

średni czas odnowy dla tych sieci jest taki sam. Natomiast czas odnowy dla sieci wykonanej z 
żeliwa jest większy i w tym przypadku odrzucamy H

0.

Dla porównania przeprowadzimy również test Scheffego. Wynik testu został pokazany w 

poniższej tabeli:

jak widać w przypadku tego testu różnic istotnych jest mniej niż w teście NIR. Powstały dwie grupy 
jednorodne, poniżej pokazujemy wynik testu z pokazaniem grup jednorodnych.

background image

Test dał dość ciekawy podział. Zostały utworzone dwie grupy jednorodne w których nie 

mamy podstaw do odrzucenia hipotezy H

0. 

Jedną grupę tworzy stal i stal ocynkowana, a drugą stal 

ocynkowana i żeliwo.

WNIOSEK:

Nie możemy jednoznacznie stwierdzić, czy materiał ma wpływ na czas odnowy.

Dane do wglądu w skoroszycie roboczym(material_czasodnowy).

background image

Zad. 4.

Sprawdzamy czy czasy odnowy i naprawy mają rozkład normalny, oraz próbujemy 

dopasować ewentualnie inne znane rozkłady.

Wyniki przedstawimy w formie tabeli:

Czas 

odnowy/naprawy

Ilość przedziałów

Typ badanego rozkładu

Wartość p

O

6

Normalny

0,01

O

8

Normalny

0

O

10

Normalny

0

N

6

Normalny

0,00379

N

8

Normalny

0,0019

N

10

Normalny

0

Jako hipotezę H

0

  przyjmujemy, że dane mają rozkład normalny, ponieważ wartości p są 

mniejsze od poziomu 

α

 = 0,05, odrzucamy hipotezę H

0.

Wyniki zostały przedstawione dla testu Chi-kwadrat, natomiast badania zostały wykonane 

również dla testów*: Lillieforsa, oraz Kołmogorowa-Smirnowa dając podobne wyniki tzn: nie 
możemy przyjąć, że dane są w postaci normalnej. 

Tak więc spróbujmy dopasować inne rozkłady:

Czas 

odnowy/naprawy

Ilość przedziałów

Typ badanego rozkładu

Wartość p

O

10

Wykładniczy

0

O

10

Gamma

0

O

10

Lognormalny

0

O

10

Chi-kwadrat

0

N

10

Chi-kwadrat

0

N

10

Wykładniczy

0

N

10

Gamma

0

Dla powyższych wyników jako hipotezę zerową H

0  

przyjmujemy, że dane mają rozkład 

podany w tabeli(wykładniczy, gamma, lognormalny, chi-kwadrat). Wszystkie wartości parametru p 
są równe 0 stąd możemy wnioskować (bo p=0 < 

α

 = 0,05), że dane nie są w postaci żadnego z 

podanych rozkładów.

W powyższej tabeli prawdopodobieństwo p wyliczone zostało z testu chi-kwadrat, natomiast 

badania zostały przeprowadzone również dla testu* Kołmogorowa-Smirnowa, gdzie wszystkie 
wartości p< 0,1. Stąd test ten potwierdził tylko nasz wcześniejszy wniosek, iż nie możemy przyjąć, 
że dane posiadają którykolwiek z podanych rozkładów.

background image

WNIOSEK:

Na podstawie przeprowadzonych analiz możemy jednoznacznie stwierdzić, że dane nie mają 

rozkładu normalnego, oraz nie mają również żadnego z podanych rozkładów: wykładniczy, gamma, 
lognormlany, chi-kwadrat. Fakt ten wydaję się być jeszcze bardziej wiarygodny ponieważ badania 
zostały wykonane na podstawie dość licznej próby (n=536 ).

Dane do wglądu w skoroszycie roboczym(dopasowanie rozkładu, dopasowanie rozkładu2).

Zad. 5
Regresja liniowa pomiędzy średnicą, a czasem odnowy:

Najpierw by badać regresję liniową modelu musimy sprawdzić, założenia, tak więc:

a) n>= 2 i wynosi 536(po usunięciu 502)
b) model jest liniowy co jednoznacznie pokazuje test F-Fischera
c) reszty są nieskorelowane, ale nie mają rozkładów normalnych.

Po usunięciu przypadków odstających wykres pokrywał się już niemal idealnie z linią prostą.

background image

Po wykonaniu analizy regresji liniowej pomiędzy średnicą, a czasem odnowy na wszystkich 

rodzajach sieci otrzymano prostą Y=

0,315306198589884

+

0,000194746850022978

X oraz następujące 

współczynniki: 

= 0,30;  R

2

=0,09. Wszystkie otrzymane dane są istotne natomiast model wyjaśnia tylko 

9% wszystkich przypadków. Natomiast gdy odstające przypadki nie zostały usunięte(założenia nie 
były spełnione) współczynnik 

R

2

=0,04, tak więc usunięcie odstających przypadków zwiększyło 

procentowe wyjaśnienie danych poprzez model.

Regresja liniowa pomiędzy średnicą, a czasem naprawy:

Założenia:

a) n>= 2 i wynosi 536(po usunięciu 503)
b) model jest liniowy co jednoznacznie pokazuje test F-Fischera
c) reszty są nieskorelowane, ale nie mają rozkładów normalnych.

Po usunięciu przypadków odstających wykres pokrywał się już niemal idealnie z linią prostą.

Po wykonaniu analizy regresji liniowej pomiędzy średnicą, a czasem naprawy na wszystkich 

rodzajach sieci otrzymano prostą Y=

0,245994072353221

+

0,000142615651741813

X oraz następujące 

współczynniki: 

= 0,24; 

R

2

=0,06. Wszystkie otrzymane dane są istotne natomiast model wyjaśnia tylko 

background image

6% wszystkich przypadków. W momencie gdy odstające przypadki nie zostały usunięte 
współczynnik  R

2

=0,04.

Regresja liniowa pomiędzy średnicą, a czasem oczekiwania na naprawę:

Założenia:

a) n>= 2 i wynosi 536(po usunięciu 503)
b) model nie jest liniowy(nawet po usunięciu odstających przypadków)

.

W związku z tym nie możemy wykonać regresji liniowej. Pomijając założenia program 

wyliczył model, w którym współczynnik kierunkowy prostej regresji jest statystycznie nie istotny.

Wszelkie próby zestawienia innych danych np.: czas odnowy, naprawy, oczekiwania na 

naprawę dały wyniki nie istotne statystycznie do tego nie wyjaśniały nawet 0,2% danych.

Rozpatrując regresję liniową pomiędzy średnicą, a czasem odnowy, naprawy i oczekiwania 

na naprawę w wszystkich możliwych kombinacjach rozdzielonych ze względu na rodzaj sieci 
(magistralna, rozdzielcza , przyłącza) możemy zauważyć, że wyniki otrzymane są bardzo do siebie 
podobne. Niestety żaden z badanych przypadków nie spełnia założeń dla regresji liniowej. Modele 
nie są liniowe, pomijając fakt niespełnionych założeń modele obliczone w programie statistica mają 
nie istotne statystycznie współczynniki liniowe. Możemy również zauważyć pewną prawidłowość 
w odstających przypadkach. Ich numery dość często się powielają, może to być spowodowane 
błędnie wprowadzonymi danymi, lub z podanych informacji nie sposób stworzyć statystycznie 
dobry model liniowy.

Podsumowując, wykonana regresja liniowa dla danych o awariach na sieciach 

wodociągowych nie dała zadowalających wyników. Większość modeli nie spełniała założeń 
potrzebnych do dalszych badań, a nawet jeśli założenia zostały spełnione to powstałe modele 
wyjaśniały maksymalnie tylko 9% informacji.