background image

Podstawy Analizy 

Danych 

Opracowanie pytao by  

MC_OMEN 

 

 

 

background image

1.  Przypadek jednej zmiennej losowej: dystrybuanta, gęstośd prawdopodobieostwa, przedział ufności i 

poziom ufności. 

Dystrybuanta oznacza prawdopodobieostwo, że zmienna losowa x jest mniejsza od pewnej liczby rzeczywistej x. 

                 ( )    (     ) 

Dla zmiennych losowych dyskretnych dystrybuanta jest zmienną skokową. 

Gęstośd prawdopodobieostwa jest to pierwsza pochodna z dystrybuanty 

 ( )  

  ( )

  

 

Funkcja gęstości prawdopodobieostwa to funkcja rzeczywista, która pozwala wyrazid prawdopodobieostwo wystąpienia 
dowolnego zdarzenia B za pomocą wartości całki Lebesgue’a z tej funkcji po zbiorze B. 

 

 (     )    ( )     ∫  ( )  

 

  

 

 (         )   ∫  ( )  

 

 

 

∫  ( )      

 

  

 

Z gęstością prawdopodobieostwa, z prawdopodobieostwem, wiąże się pojęcie przedziału ufności oraz poziomu ufności. 

Wykorzystując znajomośd funkcji gęstości prawdopodobieostwa rozkładu f (x) można obliczyd prawdopodobieostwo α 
znalezienia się wyniki w dowolnym przedziale, np. w przedziale od a do b , a mianowicie 

 (         )   ∫  ( )      

 

 

 

Przedział (         ) nazywamy przedziałem ufności, a odpowiadające mu prawdopodobieostwo   to poziom ufności. 
Najczęściej przedział ufności rozmieszcza się symetrycznie wokół wartości średniej. 

 

 

 

background image

2.  Właściwości rozkładu normalnego  (    ) 

Rozkład normalny jest opisany krzywą Gaussa, a jego skrót to albo  (    ) lub  (    ),gdzie m to wartośd 

średnia zmiennej losowej x (od ang. Mean). Wielkośd   to odchylenie standardowe rozkładu. Wartośd średnia i 

odchylenie standardowe to parametry rozkładu normalnego. 

Krzywa Gaussa (czyli ta którą opisany jest rozkład normalny) ma 2 parametry: 

            

                           

A ogólny zapis funkcji to  

 ( )  

 

 √  

 

 

(   )

 

  

 

 

Wykres i jego właściwości przedstawione są poniżej: 

 

 

 

 

background image

3.  Przypadek dwóch zmiennych losowych: dystrybuanta, gęstośd prawdopodobieostwa 

 

Dystrybuanta funkcji dwóch zmiennych losowych mówi  prawdopodobieostwie jakie spełniają dwie zmienne losowe     , 
które spełniają warunek                 . 

„Duże litery” oznaczają zmienne losowe, z kolei małe po prostu zmienne. 

Tak więc z definicji wynika że : 

 (    )    (            ) 

A to łączy się z pojęciem łącznej gęstości prawdopodobieostwa: 

 (    )   (

 

  

) (

 

  

)  (    ) 

Które pozwala na wyznaczenie prawdopodobieostwa: 

 (                    )   ∫ [∫  (    )  

 

 

]      ∫ [∫  (    )  

 

 

]   

 

 

 

 

 

Gdzie „kwadratowe nawiasy” to odpowiednio g(x), h(y) 

Gdy zmienne losowe są niezależne to  

 (    )    ( ) ( ) 

Czyli łączna gęstośd prawdopodobieostwa zmiennych losowych niezależnych jest równa iloczynowi brzegowych gęstości 
prawdopodobieostwa. 

W przypadku dwóch zmiennych definiujemy także warunkową gęstośd prawdopodobieostwa 

 ( | )  

 (    )

 ( )

                          

 

 ( ) ( )

 ( )

   ( ) 

Czyli wniosek tego jest że wartośd warunkowej gęstości prawdopodobieostwa staje się wartością brzegowa gdy zmienne 
są niezależne. 

4.  Kowariancja i współczynnik korelacji dwóch zmiennych losowych; dla zmiennych losowych. Definicja, 

interpretacja 

Kowariancja określa stopieo współzależności między zmiennymi losowymi x oraz y. Gdy zmienne losowe są 

niezależne, kowariancja jest równa zero. 

   (    )    *(     ̂)   (     ̂)+ 

Gdzie funkcja E to wartośd oczekiwana, wygodniejszym wzorem jest : 

   (    )    (     )    ( )    ( ) 

Co dla jasności sprowadza się do (dla zmiennych dyskretnych): 

background image

   (    )  

 

 

 

 

 

   

 

   ̂    ̂ 

Dla dwóch zmiennych losowych definiuje się także współczynnik korelacji  (    ).  

Jest on różny od zera tylko dla zmiennych losowych zależnych. Dla zmiennych losowych niezależnych zachodzi 
 (    )    . 

 (    )  

   (    )

 ( ) ( )

 

Kowariancja i współczynnik korelacji są miarą współzależności zmiennych losowych; dla zmiennych losowych 
niezależnych są one równe zero. 

5.  Centralne twierdzenie graniczne 

Załóżmy standardowy rozkład normlany ( taki którego wartośd średnia jest zerowa, a wariancja równa 1): 

          ( )     

Funkcja wtedy ma postad : 

 ( )  

 

√  

 

 

 

 

 

 

Treśd CTG to: 

Suma       niezależnych zmiennych losowych, takich że  ̂    ( ) oraz    ( )    

 

( ), jest także zmienna losową o 

wartości ś®edniej wynoszącej      ̂ i o wariancji równej      

 

( ). 

Praktycznie: 

Gdy dodaje się wiele zmiennych niezależnych o jednakowym rozkładzie, to ich suma ma w przybliżeniu (asymptotycznie, 
dla       ) rozkład normalny. 

Twierdzenia te wyjaśniają mechanizm częstego występowania w praktyce rozkładu normalnego. Obserwowane zjawiska 
losowe są najczęściej sumą wielu niezależnych przyczyn losowych. Twierdzenie wyjaśnia, dlaczego rozkład normalny jest 
tak powszechny (jest taki „normalny”). Na przykład, na błąd pomiaru ma wpływ wiele niezależnych czynników, które 
sumują się. Uznajemy, że błąd pomiaru jest zmienną losową o rozkładzie normalnym. 

6.  Elipsa kowariancji na płaszczyźnie  

 

   

 

 : równanie elipsy, interpretacja. 

Kiedy mówimy o dwóch zmiennych losowych, o ich rozkładzie itp, to rolę przedziału ufności przejmują elipsy 

kowariancji. Gdy zmiennych jest więcej, mówimy o elipsoidach wariancji-kowariancji w przestrzeni 

wielowymiarowej. 

Zakładając  

   

[

 

 

 

 

 

 

 

 

 

 

 

 

 

 

]

 

 

 

 

 

To równanie elipsy wariancji kowariancji ma postad: 

background image

,(     ̂)

 

      (     ̂)-      

Gdzie c to stała. 

Po wymnożeniu wektorów i macierzy otrzymujemy równanie algebraiczne (c=1) : 

 

   

 

)

 

 

 

 

 

 

   

 

)

 

 

 

 

    

Jest to równanie elipsy na płaszczyźnie  

 

   

 

 , o osiach   

 

    

 

 i o środku w punkcie o współrzędnych  

 

   

 

Kąt nachylenia osi elipsy zależy od znaku i wartości współczynnik korelacji   (    )  

   (   )

 ( ) ( )

. 

Ważne: 

  Korelacja wydłuża i obraca elipsę 

  Rozmiar elipsy zależy od wariancji 

  Elipsa kowariancji zawiera pełną informację o macierzy kowariancji 

  Prawdopodobieostwo zajścia wydarzeo  

 

   

 

 wewnątrz elipsy kowariancji jest niezależne od samej 

elipsy 

  Elipsa kowariancji stanowi odpowiednik przedziału ufności dla rozkładu jednowymiarowego 

Interpretacja: 

Poziome przekroje funkcji gęstości prawdopodobieostwa dla dwuwymiarowego rozkładu Gaussa są elipsami 

wzajemnie koncentrycznymi. Dla maksymalnej wartości funkcji elipsa przechodzi przez punkt o współrzędnych 

 

 

   

 

 : jest to rzut wierzchołka na płaszczyznę  

 

   

 

 i ma on współrzędne  

 

   

 

Pionowe przekroje przechodzące przez wierzchołek to krzywe Gaussa, których szerokości wyznaczane są przez 

punkty leżące na elipsie kowariancji i są różne dla różnych przekrojów. Wszystkie linie stałego 

prawdopodobieostwa , gdy wykładnik jest przyrównywany do innej stałej c=1, to także elipsy. Leżą one 

wewnątrz gdy c>1, lub na zewnątrz gdy c<1, elipsy powstałej dla c=1. 

Punkty leżące na elipsie (punkty elipsy e ) są jednakowo prawdopodobne i jest określone przez 

prawdopodobieostwo  

 

. Każdy z punktów leżących wewnątrz elipsy jest bardziej prawdopodobny od punktu 

leżącego na elipsie, a każdy punkt na elipsie jest bardziej prawdopodobny od punktu leżącego na 

zewnątrz elipsy. Jest tak niezależnie od tego jakie są geometryczne odległości tych punktów od środka elipsy. 

 

background image

7.  Wykresy punktowe. Zawartośd informacji. 

Wykres punktowy pokazuje rodzaj zależności pomiędzy dwoma zmiennymi; zależności te nie są jednakowo 

silne w rozważanych przykładach. Analiza wykresu punktowego pozwala znaleźd odpowiedzi, między innymi, 

na następujące pytania:  

  Czy zmienne są zależne/powiązane? 

  Czy zależnośd pomiędzy zmiennymi ma charakter liniowy? 

  Czy zależnośd pomiędzy zmiennymi ma charakter nieliniowy? 

  Czy występują tzw. outliers czyli odchyłki grube, pomyłki? 

Dla przykładu : 

Wykres punktowy pokazuje, że zmienne są 

a)  niezależne, 

b)  są zależne liniowo, korelacja dodatnia,  

c)  są zależne liniowo, korelacja ujemna,  

d)  są zależne w sposób kwadratowy,  

e)  są zależne w sposób wykładniczy,  

f)  występuje outlier- jeden z wyników wyraźnie odbiega od ogólnej tendencji zmian i 

najprawdopodobniej jest błędnym pomiarem, pomyłką. 

 

background image

8.  Ilościowa analiza danych. Estymacja przedziałowa. 

W praktyce wartośd poszukiwanej wielkości wyznaczamy na podstawie próby pobranej z populacji generalnej. 

Nie jest to zatem wartośd prawdziwa lecz jest tylko jej estymata, estymata z próby. Na przykład, wartośd 

średnia obliczona z próby jest traktowana jako estymata wartości rzeczywistej. Jednak wartości średnie 

wyznaczane w wyniku pobierania kolejnych prób będą różniły się. Zatem estymata punktowa (jedna wybrana 

średnia) jest niedokładnym przybliżeniem wartości średniej. 

Estymacja przedziałowa polega na uzupełnieniu informacji o wartości średniej o informację o jej niepewności, 

niedokładności. Sprowadza się to do określenia przedziału wokół wartości średniej w którym znajdzie się 

wartośd rzeczywista badanej wielkości z określonym prawdopodobieostwem. Rolę taka spełnia przedział 

ufności 

9.  Ilościowa analiza danych. Testowanie hipotez 

Testowanie hipotez dotyczy sprawdzania słuszności pewnych stwierdzeo odnoszących się do parametrów 

wyznaczonych z próby. Przykładowo, hipoteza może mied jedną z postaci: 

  Wartośd średnia z populacji wynosi 7 

  Dewiacja standardowa z populacji wynosi 2 

  Wartości średnie z dwóch populacji są równe (hipoteza o równości średnich) 

  Dewiacje standardowe z dwóch populacji są równe (hipoteza o równości dewiacji standardowych). 

Odrzucenie hipotezy oznacza, że hipoteza była fałszywa. Jednak nie odrzucenie hipotezy nie oznacza iż jest ona 

prawdziwa a oznacza jedynie, że nie mamy podstaw do jej odrzucenia. Dla przeprowadzenia testu formułuje 

się zazwyczaj jedną z dwóch alternatywnych hipotez, są to: 

  Hipoteza zerowa  

 

, przykładowo : wartości ś®ednie z dwóch populacji są równe 

  Hipoteza alternatywna  

 

 : wartości średnie z dwóch populacji nie są równe 

Przeprowadzenie statystycznego testu postawionej hipotezy daje odpowiedź w formie: hipoteza jest 

przyjęta/odrzucona dla poziomu istotności α .  

Poziom istotności to maksymalne ryzyko jakie jesteśmy skłonni zaakceptowad przy odrzuceniu hipotezy gdy 

jest ona faktycznie prawdziwa. Poziom istotności α opisuje czułośd testu. Gdy α = 0.05 to oznacza, że dla 5% 

przypadków mylimy się odrzucając hipotezę. Gdy wynik testu (wykonują go wyspecjalizowane programy) 

mówi: hipoteza przyjęta z poziomem istotności α = 0.01 lub z poziomem α = 0.001 to taki rezultat jest bardzo 

wiarygodny. W ostatnim przypadku statystycznie tylko jeden raz na tysiąc mylimy się. Mówimy wówczas o 

wysokiej statystycznej istotności. 

Ważne jest aby z rozwagą podchodzid do wyników testów statystycznych, gdyż statystyczna istotnośd różnic 

pomiędzy badanymi wielkościami i praktyczna istotnośd tych różnic to dwa odrębne problemy. Zdolnośd testu 

statystycznego do wykrycia np. różnic wartości średnich, zależy silnie od reprezentatywności próby, od jej 

background image

wielkości. Może zdarzyd się, że test odrzuci hipotezę o równości średnich z dwóch procesów a różnica ta z 

inżynierskiego punktu widzenia może byd nieistotnie mała. Może byd także odwrotnie: znaczne różnice 

średnich (z inżynierskiego punku widzenia), mogą nie zostad rozpoznane przez test statystyczny gdy 

pobrano zbyt małą, nie reprezentatywną próbę. 

 

10. Założenia odnośnie stosowalności testu t-Studenta 

Aby móc zastosowad test t-Studenta należy sprawdzid, czy spełnione zostały następujące warunki *1, 2,3+: 

1.  Mała liczba próbek w każdej próbie (n<50). 

2.  Rozkład wyników zmiennej badanej w każdej grupie jest zbliżony do rozkładu normalnego. 

3.  Jednorodnośd wariancji - do sprawdzenia tego założenia służy test F, test Levene'a lub test Bartletta. 

Jeśli wyżej wymienione testy nie wykazały jednorodności wariancji, do sprawdzenia równości średnich 

zamiast t-Testu należy użyd testu Cohrana i Coxa. Warunku jednorodności wariancji nie trzeba 

sprawdzad dla zmiennych powiązanych. 

4.  Reprezentatywnośd każdej próby, czyli próba dobrze reprezentuje analizowaną populację, jej struktura 

jest zbliżona do struktury całej populacji. 

Zasada randomizacji:  

o  Należy zapewnid reprezentatywnośd (typowośd) próby. Uzyskujemy to przez losowy wybór 

próby (pierwsza zasada randomizacji). Jeśli pierwsza zasada randomizacji nie jest spełniona, 

wyciągnięte wnioski mogą dotyczyd tylko badanej grupy a nie populacji (np. tylko wysokich 

mężczyzn, tylko z przedziału wiekowego 20-30 lat, itp.). Badania powinny należy przeprowadzid 

co najmniej na dwóch grupach aby sprawdzid działanie leku A w porównaniu z lekiem B (lub z 

placebo). Decyzja o tym, która osoba otrzymuje lek A lub B lub musi byd podjęta losowo (druga 

zasada randomizacji). Jeśli druga zasada randomizacji nie jest spełniona, mogą zostad 

wyciągnięte błędne wnioski. 

11. Poziomy istotności ex ante oraz ex post w procesie weryfikacji hipotez. 

Poziom istotności ex ante, jest to dopuszczalne prawdopodobieostwo   odrzucenia hipotezy zerowej  

 

 gdy 

jest ona prawdziwa. 

Poziom istotności ex post jest to poziom istotności dla którego hipoteza zerowa jest prawdziwa. 

  Gdy       na poziomie istotności   to należy odrzucid hipotezę zerową i przyjąd alternatywną. 

  Gdy       na poziomie istotności   to mamy brak podstaw do odrzucenia hipotezy zerowej. 

 

 

 

background image

12. Skrzynki z wąsami (Box And Whiskers) – zawartości informacji 

Skrzynki z wąsami (Box And Whiskers), pokazują zakresy wybranej zmiennych oraz wartośd średnią oraz 

odchylenie standardowe. 

 

Punkt środkowy odpowiada wartości średniej  

 

   

 

 kwadrat wyznacza zakres  

 

         

 

   

 

         

 

natomiast wąsy wyznaczają 95% przedział ufności dla badanych średnich (jest to przedział           

     

 ). 

Hipotezę o równości średnich można odrzucid, gdy wąsy skrzynek na siebie nie zachodzą (tak jak na tym 

rysunku). 

13. Metoda najmniejszych kwadratów. 

Metoda najmniejszych kwadratów została wprowadzona przez Legendre'a i Gaussa. Jej istota jest następująca: 

wynik kolejnego pomiaru  

 

 można przedstawid jako sumę (nieznanej) wielkości mierzonej  

 

 oraz błędu 

pomiarowego  

 

 

 

 

   

 

   

 

 

Od wielkości  

 

 oczekujemy, aby suma kwadratów była jak najmniejsza. 

∑  

 

 

  ∑( 

 

   

 

)

 

     

 

 

 

Metoda najmniejszych kwadratów jest najczęściej stosowaną w praktyce metodą statystyczną