background image

 

 

Grupowanie danych:   definicja i cel

Grupowanie 

oznacza 

grupowanie 

rekordów, 

obserwacji  lub  przypadków  w  klasy  podobnych 
obiektów.  Grupa  jest  zbiorem  rekordów,  które  są 
podobne  do  siebie  nawzajem  i  niepodobne  do 
rekordów z innych grup.
Grupowanie  różni  się  od  klasyfikacji  tym,  że  w 
przypadku grupowania nie ma zmiennej celu. Zadanie 
grupowania  nie  próbuje  klasyfikować,  szacować  lub 
przewidywać  wartości  zmiennej  celu.  Zamiast  tego, 
algorytm  grupowania  próbuje  podzielić  cały  zbiór 
danych  w  stosunkowo  zgodne  podgrupy  lub  grupy, 
przy czym podobieństwo rekordów wewnątrz grup jest 
maksymalizowane,  a  podobieństwo  do  rekordów 
spoza grupy minimalizowane.

VIII         EKSPLORACJA DANYCH

background image

 

 

Grupowanie  jest  często  wykorzystywane  jako  krok 
wstępny do procesu eksploracji danych, z wynikowymi 
grupami  użytymi  jako  dane  wejściowe  do  innej 
techniki, takiej jak sieci neuronowe. Z powodu dużego 
rozmiaru  wielu  baz  danych,  często  jest  korzystnie 
najpierw 

przeprowadzić 

analizę 

skupień, 

aby 

zredukować przestrzeń przeszukiwań dla algorytmów.

Grupowanie danych:   definicja i cel

VIII         EKSPLORACJA DANYCH

background image

 

 

Grupowanie danych:   definicja i cel

Cel grupowania:

  znajdowanie naturalnego podziału danych na 

istotne 

podgrupy

  dekompozycja danych na części, które są 

łatwiejsze do 

opisania – bardziej jednolite

  poznanie rozkładu przykładów (danych)

  wyróżnienie przypadków, tych, które można 

uznać za 

typowe i tych, które za wyjątki

VIII         EKSPLORACJA DANYCH

  uzupełnianie brakującej informacji

background image

 

 

Grupowanie danych:   definicja i cel

Przykłady zadań grupowania w badaniach:

Przykłady zadań grupowania w biznesie:

  namierzenie grupy potencjalnych klientów 

pewnego  produktu z niszy rynkowej 
wyprodukowanego przez 

małą firmę z małym 

budżetem reklamowym

  podział zachowań finansowych na korzystne i 

niepewne  w celu kontroli obliczeń

  redukcję wymiarów, gdy zbiór ma setki atrybutów

  grupowanie ekspresji genów, gdzie bardzo dużo 

genów może wykazywać podobne zachowanie

VIII         EKSPLORACJA DANYCH

background image

 

 

Grupowanie danych:   definicja i cel

Przykłady zadań grupowania w marketingu:

Przykłady zadań grupowania w geodezji i kartografii:

  identyfikacja obszarów o podobnych glebach na 

podstawie  zdjęć z obserwacji Ziemi

  lokalizacje epicentrów trzęsień Ziemi, na 

podstawie  zaobserwowanych defektów 
kontynentów

  identyfikacja grup ubezpieczonych w 

towarzystwach 

ubezpieczeniowych generujących 

wysokie koszty 

napraw

  rozpoznanie potrzeb rozwojowych miasta, na 

podstawie grupowania domów o określonej wartości, 
lokalizacji, itp.

VIII         EKSPLORACJA DANYCH

background image

 

 

Grupowanie danych:   

metody

  metody hierarchiczne, polegają na łączeniu 

pojedynczych elementów, wg założonego kryterium 
odległości (elementy podobne)

  metody niehierarchiczne, polegają na wstępnym 

podzieleniu zbioru na określoną liczbę klas, a następnie 
modyfikowaniu podziału (przez przenoszenie elementów 
z grupy do grupy) prowadzącym do poprawy tego 
podziału

Metody grupowania:

VIII         EKSPLORACJA DANYCH

background image

 

 

Grupowanie danych:   

metody hierarchiczne

  początkowo każda obserwacja traktowana jest jako 

osobne 

skupienie

  wyniki przedstawiane są za pomocą drzewka połączeń

Uogólniony algorytm metod hierarchicznych:

  następnie tworzona jest macierz odległości pomiędzy 

kolejnymi obserwacjami

  określa się odległości pomiędzy poszczególnymi 

skupieniami 

 i na ich podstawie tworzy się nowe 

skupienia obiektów

VIII         EKSPLORACJA DANYCH

background image

 

 

Grupowanie danych:   

metody hierarchiczne

  metoda najbliższego sąsiada

  metoda środka ciężkości

Wybór metody aglomeracji:

  metoda najdalszego sąsiada

  metoda średniej grupowej

  metoda mediany (ważonych środków 

ciężkości)

VIII         EKSPLORACJA DANYCH

background image

 

 

Grupowanie danych:   

metody hierarchiczne

  metoda najbliższego sąsiada

VIII         EKSPLORACJA DANYCH

background image

 

 

Grupowanie danych:   

metody hierarchiczne

  metoda najbliższego 

sąsiada

VIII         EKSPLORACJA DANYCH

  metoda najdalszego sąsiada

background image

 

 

Grupowanie danych:   metody hierarchiczne

Wady metod hierarchicznych

  brak oczywistego kryterium stopu dla 

uzyskania względnie jednorodnych skupień 

  otrzymane raz skupienie nie może być 

rozłączone, czyli ewentualny wcześniejszy błąd 
nie może być skorygowany

 w metodach aglomeracyjnych nie jest znana z 

góry ani liczba grup (skupień) ani liczba 
obiektów w poszczególnych grupach

VIII         EKSPLORACJA DANYCH

background image

 

 

Grupowanie danych:   algorytm k - średnich

Algorytm k – średnich:

procedura 

postępowania

• wybieramy losowo tyle punktów w przestrzeni, na ile 
grup  dzielimy zbiór danych

• obliczamy odległości wszystkich elementów zbioru od 

wylosowanych punktów

• grupujemy zgodnie z bliskością elementów zbioru od 

punktów początkowych

• obliczamy centroidy grup jako średnie elementów 
grupy

• powtarzamy punkty 2 i 3 aż do osiągnięcia 
stabilności

VIII         EKSPLORACJA DANYCH

background image

 

 

Grupowanie danych:   algorytm k - średnich

X

Y

1

1

1

2

1

3

2

1

3

3

4

3

4

2

5

3

VIII         EKSPLORACJA DANYCH

background image

 

 

Grupowanie danych:   algorytm k - średnich

Wskaźnik jakości algorytmu k - średnich

  ZPG – zmienność pomiędzy grupami

  ZWG – zmienność wewnątrz grupy

W = 

ZPG

ZWG

VIII         EKSPLORACJA DANYCH

background image

 

 

Grupowanie danych:   algorytm k - średnich

Wskaźnik jakości algorytmu k - średnich

W = 

ZPG

ZWG

c

1

c

2

ZPG = d (c

1

, c

2

)

ZWG = 

 

Σ

  

Σ d(m

ij

, c

i

i=1 j

k

m

15

m

14

m

13

m

12

m

11

m

21

m

26

VIII         EKSPLORACJA DANYCH

background image

 

 

Grupowanie danych:   algorytm k - średnich

Zalety algorytmu k - średnich

  sprawny – η(nkt), gdzie n jest liczbą 

obserwacji, k  jest liczbą klasterów, a t jest 
liczbą iteracji,  zazwyczaj k, t << n

  obliczenia kończą się po osiągnięciu 

minimum lokalnego

  łatwy w zaprogramowaniu

VIII         EKSPLORACJA DANYCH

background image

 

 

Grupowanie danych:   algorytm k - średnich

Wady algorytmu k - średnich

  możliwość stosowania jedynie do danych, 

dla  których możliwe jest obliczenie średnich; 

wyłącza to zbiory z danymi 

kategorycznymi

  konieczność wstępnego określenia liczby k 

(liczby 

grup) przed rozpoczęciem 

modelowania

  niezdolność do radzenia sobie z danymi 

zaszumionymi i z danymi odstającymi

VIII         EKSPLORACJA DANYCH

background image

 

 

Wady algorytmu k - średnich

Grupowanie danych:   algorytm k - średnich

  nie do zastosowania w przypadku, gdy modelowana 

grupa ma kształt wklęsły

VIII         EKSPLORACJA DANYCH

background image

 

 

Grupowanie danych:   definicja i cel

VIII         EKSPLORACJA DANYCH

background image

 

 

Grupowanie danych:   zastosowanie

0

5

10

15

20

25

30

35

300

400

500

600

700

800

900

wytrzymałość [MPa]

w

yd

łu

że

ni

[%

]

10
11

31
42
43
44

46
47
49

sc

VIII         EKSPLORACJA DANYCH

background image

 

 

VIII         EKSPLORACJA DANYCH

Grupowanie danych:   zastosowanie

0

5

10

15

20

25

30

35

300

400

500

600

700

800

900

wytrzymałość [MPa]

w

yd

łu

że

ni

[%

]

10
11
31
42
43
44
46
47
49
sc

Nr 

wyt

C %

Mn 

%

Si %

P %

S %

Cr %

Ni %

Cu %

Mg 

%

Rm

A5

HB

1279,

1

3,84 0,17

2,50

0,05

0,01

0,04

0,02

0,06

0,03

6

747

11,4

248

2039,

1

3,82 0,09

2,50

0,05

7

0,00

8

0,02

0,00

0,03

0,03

7

382

  7,1

156

2036,

1

3,76 0,11

2,54

0,05

7

0,01

1

0,03

0,00

0,04

0,04

0

490

29,0

159

2036,

2

3,81 0,12

2,58

0,05

9

0,01

4

0,03

0,01

0,04

0,04

1

490

29,0

159

średn

i

3,78 0,15

2,53

0,05

0,01

0,03

0,01

0,06

0,03

6

460,

9

20,4

163,

7

0114,

1

3,71 0,15

2,43

0,07

0,01

0,02

0,01

0,11

0,03

6

459

20,7

163

1063,

1

3,87 0,14

2,54

0,05

0,01

0,02

0,01

0,04

0,03

5

459

20,7

156

1063,

2

3,86 0,12

2,49

0,05

0,01

0,02

0,01

0,04

0,03

9

459

20,7

156

1232,

1

3,76 0,18

2,55

0,04

0,01

0,04

0,02

0,17

0,03

2

459

20,7

156

1232,

2

3,79 0,18

2,56

0,04

0,01

0,04

0,02

0,17

0,03

4

459

20,7

156

background image

 

 

Grupowanie danych:   

podsumowanie

Uwaga: niezależnie od zastosowanej metody 
wszystkie podziały będą się mieścić pomiędzy 
dwoma skrajnymi przypadkami:

• skrajny przypadek: wszystkie obiekty rozkładają się 
tak, że uzyskujemy skupienia jednoelementowe (zbiór 
n elementów dzielony jest na n skupień 
jednoelementowych)

• skrajny przypadek: zbiór elementów jest tak 
jednorodny, że nie możliwe jest rozłożenie jego na 
podzbiory, tzn. otrzymujemy jedno skupienie n-
elementowe

VIII         EKSPLORACJA DANYCH

background image

 

 

Grupowanie danych:   

podsumowanie

VIII         EKSPLORACJA DANYCH

background image

 

 

Grupowanie danych:   

podsumowanie

VIII         EKSPLORACJA DANYCH

background image

 

 

Grupowanie danych:   

podsumowanie

VIII         EKSPLORACJA DANYCH


Document Outline