background image

 

Wykład 2: Prezentacja danych

Biometria i 

Biostatystyka

background image

Zmienne typu atrybuty 

i zmienne rangowe

Wykresy słupkowe

Wykresy kołowe

background image
background image
background image

Zmienne pomiarowe

background image

Wykresy „łodygowe” (stem-
leaf)

Obrazują kształt rozkładu, 
jednocześnie ukazując na wykresie 
wartości numeryczne.

Są najbardziej odpowiednie dla 
niewielkiej liczby dodatnich 
obserwacji.

background image

Rysowanie wykresu 
łodygowego

Podziel każdy wynik na łodygę (stem) i 

listek (leaf).

Łodyga:  tyle cyfr ile potrzeba

Listek:  pojedyncza cyfra

Wypisz łodygi w pionowej kolumnie 

rosnąco w dół. Narysuj pionową linię po 

prawej stronie. 

Wypisz każdy listek w wierszu po prawej 

stronie od jego łodygi, w porządku 

rosnącym.

background image

Biuro obsługi klienta
Liczba odwiedzin dziennie

54

59

35

41

46

25

47

60

54

46

49

46

41

34

22

background image

54

59

35

41

46

25

47

60

54

46

49

46

41

34

22

background image

Porównywanie dwóch 
rozkładów

Wykresy o 
wspólnym 
pniu

background image

Wykresy „łodygowe”, cd.

Są nieodpowiednie dla dużych 

zestawów danych

Każda łodyga musi zawierać dużą liczbę 

listków

Warianty:

Podzielić każdą łodygę na dwie, np.:

Jedna z liśćmi od 0 do 4

Druga z liśćmi od 5 do 9

Mają za zadanie zobrazować kształt 

rozkładu zmiennej losowej

background image
background image

Histogramy

Histogramem nazywa się wykreślne 
przedstawienie szeregu rozdzielczego 
wykonane w sposób następujący: na 
osi poziomej odkłada się odpowiednie 
przedziały klasowe, zaś na osi 
pionowej rzędne odkłada się w ten 
sposób, żeby pola odpowiednich 
prostokątów były proporcjonalne do 
liczebności danych klas. 

background image

Histogramy

Nie mają takich ograniczeń jak 
wykresy łodygowe

Dzielą zakres obserwowanych wartości 
na przedziały, pokazując jedynie 
liczności lub udział procentowy 
obserwacji w danym przedziale

Można wybrać dowolną liczbę 
przedziałów 

równej

 szerokości

background image

Rysowanie histogramu

1.

Podziel zakres zmienności danych na 
przedziały o równej szerokości.

2.

Rozpocznij tak, by pomiar najmniejszy 
był mniej więcej w połowie pierwszego 
przedziału.

3.

Zlicz liczbę obserwacji w każdym 
przedziale. Zrób tabelę częstości 
wystąpień.

4.

Narysuj histogram.

background image
background image
background image

Histogramy, cd.

Częstości względne

Ułamek lub procent obserwacji, które 
przypadają na poszczególne przedziały

Poprawnie oznacz „liczba” lub „procent”.

Właściwy wybór przedziałów:

Za mało: wszystkie wartości tylko w kilku 
przedziałach

Za dużo: dużo przedziałów ma 1 lub mniej 
wyników

background image

Histogramy, cd.

Wzór heurystyczny do oszacowania szerokości 

przedziału:

Jeśli szerokość przedziału jest za mała lub za 

duża, można ją skorygować przez pomnożenie 

lub podzielenie przez a = 1.2 ÷1.5

Sprawdza się przy rozkładach zbliżonych do 

rozkładu normalnego oraz przy względnie 

dużych ale nie bardzo dużych n (liczność próby)

3

1

n

IQR

64

.

2

h

0

background image

Histogramy, cd.

Jest kilka innych wzorów pomocnych 
przy poszukiwaniu liczby przedziałów. 
Kilka przykładów:

Żeby znaleźć szerokość, wystarczy 
podzielić zakres przez k.

)

n

(

log

3

.

3

1

k

n

k

)

n

(

log

5

k

10

10

background image

Histograms, cont.

93

.

5

h

14

k

0

background image

Histograms, cont.

40

.

3

h

24

k

0

background image

Histograms, cont.

11

.

4

h

20

k

0

background image

Histograms, cont.

12

.

10

h

8

k

0

background image

Histograms, cont.

background image

Histogramy, cd.

Wiele zależy od Twojej decyzji odnośnie 
szerokości przedziałów.

Pole pod krzywą zmienia się w zależności od h i 
jest równe:

Żeby otrzymać eksperymentalną funkcję gęstości 
prawdopodobieństwa, musimy sprowadzić pole 
powierzchni S do 1. Ponieważ h nie może być 
zmienione, musimy skorygować jednostkę na osi 
OY. 

n

*

h

S

background image

Histogramy, cd.

background image

Symetria i kurtoza

Często obserwujemy odstępstwa 
od rozkładu normalnego. 
Statystyki, które pozwolą to ocenić 
ilościowo bardzo użyteczne.

Zajmiemy się dwoma najczęściej 
pojawiającymi się odstępstwami 
rozkładów od normalności:

 

skośnością 

kurtozą

.

background image

Skośność

Skośność

, inaczej zwana asymetrią, ocenia 

na ile jeden z końców krzywej rozkładu 
prawdopodobieństwa jest niesymetryczny w 
stosunku do drugiego końca.

W takim przypadku brak jest zgodności 
wartości średniej i mediany.

W zależności od deformacji, krzywe określa 
się mianem prawo- i lewoskośności. 

background image

Skośność

Przykład - wzrost: skośność = 
-0.26

background image

Kurtoza

Jeśli symetryczny rozkład ma 
środek, dwa ramiona i dwa końce, 
kurtoza opisuje stosunek między 
częścią środkową i końcami w 
odniesieniu do ramion. 

Definiujemy leptokurtozę 
(wyostrzenie krzywej) i platykurtozę 
(spłaszczenie krzywej).

background image

Kurtoza

O leptokurtozie (wyostrzeniu) 
mówimy, gdy krzywa ma więcej 
obserwacji blisko środka i na końcach a 
mniej w ramionach w porównaniu do 
rozkładu normalnego, z tą samą średnią i 
wariancją

.

Przykład - wzrost: kurtoza = 3.65 

background image

Kurtoza

O platykurtozie (spłaszczeniu) 
mówimy, gdy krzywa ma mniej 
elementów w środku i końcach, za to 
więcej w ramionach niż krzywa 
normalna.

background image

Skośność i kurtoza

Przykładowe statystyki mierzące skośność i 
kurtozę są zapisywane jako g

1

 and g

2

 i służą do 

reprezentowania parametrów populacji γ

1

 i γ

2

3

3

1

)

2

)(

1

(

)

(

s

n

n

X

X

n

g

i

4

2

2

4

1

)

1

(

2

)

3

)(

2

(

)

(

3

)

(

s

n

n

X

X

X

X

g

i

i

n

n

n

background image

Skośność i kurtoza

W normalnym rozkładzie częstości γ

1

 i 

γ

2

 są równe zero. 

Ujemne g

1

 wskazuje na lewoskośność, 

a dodatnie g

1

 - prawoskośność. 

Ujemne g

2

 mówi o wyostrzeniu, zaś 

dodatnie g

2

 - o spłaszczeniu.

Wartości bezwzględne z g

1

 and g

2

 nie 

mają wielkiego znaczenia.

background image

Ocena skośności i kurtozy za 
pomocą kwantyli

Oznaczając i-ty kwartyl jako Q

i

, możemy 

zdefiniować współczynnik skośności 
Bowley’a (Bowley, 1920):

1

3

2

1

3

2

Q

Q

Q

Q

Q

skewness

wielkość, która może przyjmować 
wartości od  -1 dla rozkładu ekstremalnie 
lewoskośnego, przez 0 dla rozkładu 
symetrycznego, do 1 dla rozkładu 
prawoskośnego

background image

Ocena skośności i kurtozy za 
pomocą kwantyli

Pomiar kurtozy (wyostrzenia) na podstawie 
oktyli O

i

 (12.5%, 25%, 37.5% itd.) został 

zaproponowany przez Moors’a w 1988

1

3

1

3

5

7

)

(

)

(

Q

Q

O

O

O

O

kurtosis

Dla skrajnie spłaszczonego rozkładu 
ta wartość wynosi 0; 1.233 dla 
normalnego; nieskończoność dla 
skrajnie wyostrzonego.

background image

Opisywanie rozkładów 
liczbami

Miary położenia

Wartość średnia

Mediana

Miary rozrzutu

Odchylenie standardowe

Kwartyle

Metoda pięciu liczb (wykresy ramkowe)

Poszukiwanie wielkości odstających

background image

Metoda pięciu liczb

Obejmuje najmniejszą obserwację, 
pierwszy kwartyl, medianę, trzeci 
kwartyl i największą obserwację, 
napisane od najmniejszego do 
największego:

Minimum    Q1    M    Q3    
Maksimum

background image

Metoda pięciu liczb, cd.

Dostarcza w miarę pełnej informacji o 
położeniu i rozrzucie.

Położenie

Mediana

Rozrzut

rozrzut środkowej połowy pomiarów (od 
25% do 75%) ukazują kwartyle

Minimum i maksimum pokazują pełny 
rozrzut

background image

Wykresy ramkowe 
(pudełkowe)

Wykres pięciu liczb

Centralna ramka obejmuje Q1 i Q3

Linia w pudełku to M

Linie wychodzące z ramki dochodzą 
do największej i najmniejszej wartości 
wśród pomiarów

background image
background image

Wykresy ramkowe, cd.

Przedstawiają mniej informacji niż 

histogramy i wykresy łodygowe

Używane do porównania więcej niż 

jednej serii pomiarów

Analiza wykresu

Znajdź medianę (środek)

Określ rozrzut (między Q1 i Q3; 

między min i max)

background image

Punkty odstające

Definicja: 

Pomiar odstający to obserwacja, która 
istotnie różni się od pozostałych i tym 
samym pojawia się podejrzenie, że 
pojawiła się jako efekt innego niż 
analizowany mechanizmu.

D. Hawkins. Identification of Outliers. Chapman and Hall, London, 

1980

background image

Detekcja punktów 
odstających

Odległość między kwartylami = zakres 
połowy danych = przedział 
międzykwartylowy = IQR 

IQR = Q3 – Q1

IQR jest odporny na zmiany na końcach 
dystrybucji zmiennej losowej.

Wynik może być punktem odstającym, 
jeśli ma wartość powyżej Q3+1.5 x IQR 
lub poniżej Q1-1.5 x IQR.

background image

Example: % narodowości 
USA

Q1 = 2.0, Q3 = 7.0

IQR = 7.0 – 2.0 = 5.0

Wszystkie wartości poniżej 2.0 – 1.5*5.0 = -5.5 lub 

ponad 7.0 + 1.5*5.0 = 14.5 są oznaczone jako 

możliwe punkty odstające.  Jest 7 takich obserwacji.

To nie zwalnia od własnego osądu – trzeba zerknąć 

na dystrybucje i podjąć decyzję o pozostawieniu lub 

usunięciu pomiaru z dalszej analizy.

Wygodne narzędzie do oceny dużych zbiorów 

danych.

background image

Zmodyfikowany wykres 
ramkowy

Zaznacz każdy punkt odstający osobno 
używając symboli typu ‘*’ lub ‘o’.

Linie od „pudełka” prowadzą tylko do 
największych i najmniejszych pomiarów, 
które pozostały po usunięciu punktów 
odstających.

background image
background image

Przykład - wzrost

Liczność próbki N = 582

Wartość średnia = 176.16 cm

Mediana = 177 cm

Zakres = 82 cm

Q1 = 170 cm; Q3 = 183 cm

IQR = 13 cm

Odchylenie standardowe = 9.86 cm

background image

Przykład - wzrost

Dwie wielkości odstające
210 cm i 125 cm

background image

Normalny wykres 
kwantylowy

Rozkłady normalne

Dobre modele dla niektórych rozkładów 

rzeczywistych danych

Rozkłady niektórych zmiennych są skośne i 

dalekie od normalnych

Należy przejrzeć dane!

Sposoby sprawdzenia normalności

Histogramy

Wykresy łodygowe

Normalne wykresy kwantylowe

background image

Konstrukcja normalnego wykresu 
kwantylowego

1.

Uporządkuj zaobserwowane dane w porządku 

malejącym.  Zapisz jakim percentylem danych 

jest każda wartość.

2.

Przeprowadź obliczenia dla normalnego rozkładu 

 żeby znaleźć punkty standardowe z tych 

percentyli.

3.

Zaznacz każdy punkt x w zależności od z.  Jeśli 

rozkład danych jest w przybliżeniu standardowy 

normalny, narysowane punkty będą leżały blisko 

prostej x=z.  Jeśli rozkład danych jest bliski do 

innego dowolnego rozkładu normalnego, punkty 

będą leżały blisko innej linii, także prostej.

background image

Normalny wykres 
kwantylowy

Linia prosta

Dane pochodzą z rozkładu normalnego

Systematyczne odchylenia od linii 

prostej

Dane nie pochodzą z rozkładu 

normalnego

Punkty odstające ujawniają się jako 

punkty leżące daleko od ogólnego 

kształtu wykresu.

background image
background image
background image
background image

Document Outline