background image

1

Segmentacja. Analiza skupień 

 

Algorytm  grupowania  usiłuje  podzielić  cały  zbiór  danych  na  zgodne 

podgrupy,  przy  czym  podobieństwo  rekordów  wewnątrz  grup  jest 

maksymalizowane,  a  podobieństwo  do  obiektów  z  poza  grup 

minimalizowane 

Założenia 

 

 

nie istnieją żadne warunki wstępne, na jakich musiałoby się opierać 

postępowanie segmentacyjne 

 

nie zakłada się żadnej informacji o właściwościach ani o liczbie grup 

 

podział jest dokonywany w całości w oparciu o informację zawartą 

w obiektach 

background image

2

Możliwy cel grupowania: 

 

Ekstrapolacja danych – ustalenie określonej struktury hierarchicznej 

np. w postaci drzewa binarnego 

 

Porównanie  istniejącej  typologii  wynikającej  z  teorii  (albo 

wcześniejszych badań) z wynikami empirycznymi 

 

Agregacja  informacji  w  pojedynczych  obiektach  do  poziomu  grup. 

Dzięki temu w dalszym etapie badań można się posługiwać grupami 

– zamiast pojedynczymi obiektami  

Metody hierarchiczne 

 

Aglomeracyjne  –  punktem  wyjścia  jest  sytuacja,  gdzie  każdy  obiekt  jest 

osobnym  skupieniem.  Dalej  oblicza  się  odległość  między  wszystkimi 

obiektami  i  łączny  dwa  najbliższe.  Cała  procedura  trwa,  aż  wszystkie 

obiekty będą w jednym skupieniu 

 

Podziałowe – (algorytm działa w przeciwnym kierunku). Punktem wyjścia 

jest  jedno  skupienie,  do  którego  należą  wszystkie  obiekty.  W  kolejnych 

krokach  tworzy  się  grupy  obiektów  najbardziej  się  różniących.  W  końcu 

otrzymuje się pojedyncze obiekty 

 

background image

3

Etapy działania 

 

 

 

1.

 

Przekształcenie  zmiennych  –  doprowadzenie  zmiennych  do 

porównywalności – normalizacja. 

 

Typowe metody przekształcania zmiennych 

Standaryzacja. Cel: jest otrzymanie zmiennych o jednostkowym 

odchyleniu standardowym 

)

(

j

j

ij

ij

x

S

x

x

z

=

gdzie: 

)

(x

S

 - odchylenie standardowe, 

__

x

 średnia wartość zmiennej 

Unitaryzacja.  Cel:  uzyskanie  zmiennych  o  ujednoliconym  zakresie

zmienności  

{ }

{ }

{ }

ij

i

ij

i

ij

i

ij

ij

x

x

x

x

z

min

max

min

=

 

2. 

Wybór miary podobieństwa, która pozwoli wyznaczyć macierz 

odległości obiektów 

 

Typowe miary odległości (podobieństwa) 

Odległość euklidesowa 

=

=

p

k

jk

ik

ij

x

x

d

1

2

)

(

 

Odległość Mińkowiskego 

 

m

m

jk

p

k

iki

ij

x

x

d

1

1

)

|

|

(

=

=

 

Odległość miejska 

=

=

p

k

jk

ik

ij

x

x

d

1

|

|

 

Odległość Mahalanobisa 

∑∑

=

=

=

p

k

kl

jl

il

jk

ik

p

l

ij

s

x

x

x

x

d

1

1

)

)(

(

 

Odległość Czebyszewa 

|}

{|

max

,...

1

jk

ik

p

k

ij

x

x

d

=

=

 

 

background image

4

 

3.

 

Wyznaczenie macierzy odległości  

 

Wybór  najmniejszej  wartości  w  macierzy  odległości  i  utworzenie 

skupienia z jednostek, których ta najmniejsza odległość dotyczy.  

 

Liczba obiektów w tym kroku zmniejszyła się z n do n-1. 

 

4.

 

i kolejne kroki…. 

 

Ponowne  wyznaczenie  macierzy  odległości  dla  zredukowanego  –  o 

dokonane połączenie w kroku pierwszym – zbioru obiektów 

 

Liczba obiektów zmniejsza się o kolejną jednostkę.  

Po  n-tym  powtórzeniu  wszystkie  badane  jednostki  będą  w  jednej 

grupie. 

Metody wyznaczania kolejnych odległości  

 

Metoda najbliższego sąsiedztwa 

 

Metoda najdalszego sąsiedztwa 

 

Metoda średniej 

 

Metoda mediany 

 

Metoda centroidalna 

 

Metoda Warda 

 

background image

5

Metoda najbliższego sąsiedztwa (pojedyncze wiązanie) 

 

odległość  między  dwoma  skupieniami  to  najmniejsza  z  odległości 

pomiędzy ich elementami;  

 

Metoda najdalszego sąsiedztwa (pełne wiązanie) 

 

odległość  między  dwoma  skupieniami  to  największa  odległość 

między ich elementami 

 

Metoda średniej 

 

Odległość między dwoma skupieniami – średnia z odległości między 

jednostkami jednego i drugiego skupienia 

 

Metoda mediany 

 

Odległość  między  dwoma  skupieniami  –  mediana  z  odległości 

między jednostkami jednego i drugiego skupienia 

Metoda centroidalna 

 

W  każdym  kroku  po  utworzeniu  skupienia  wyznacza  się  nową 

macierz  odległości  na  podstawie  uśrednionych  wartości  cech

(stanowiących kryteria segmentacji) tych jednostek, które połączono 

w skupienia 

 

Metoda Warda (preferowana) 

 

Kryterium grupowania jednostek:  minimum zróżnicowania wartości 

cech, względem wartości średnich skupień tworzonych w kolejnych 

krokach 

 

Gdy  powiększymy  jedno  ze  skupisk,  wówczas  wariancja 

wewnątrzgrupowa  (liczona  jako  kwadraty  odchyleń  od  średnich  w 

skupisku) rośnie; metoda polega na takiej fuzji skupisk, aby nastąpił 

jak najmniejszy przyrost wariancji dla danej iteracji 

background image

6

Metody optymalnego podziału. Metoda k – średnich 

 

W ramach metody algorytm dzieli zbiór danych na ustaloną liczbę skupień 

optymalizując pewne kryterium celu – np. podobieństwo wewnątrz skupień. 

 

Etapy działania: 

 

Ustalenie a priori docelowej liczby segmentów 

 

Dla  ustalonej  liczby  segmentów  dokonuje  się  rozdziału  jednostek 

według wstępnie wybranych przedstawicieli każdego segmentu 

 

Zasada  rozdziału:  kryterium  najmniejszej  odległości  względem 

wybranych przedstawicieli 

Krok 1. Wybór przedstawicieli segmentów  

 

Krok 2. Wyznaczenie środków ciężkości dla utworzonych skupień 

 

 

Ś

rodki  ciężkości  –  wartości  średnie  zmiennych,  które  stanowią 

podstawę grupowania – wyznaczone dla tych jednostek, które tworzą 

grupę 

 

Krok  3.  Określenie  odległości  każdej  jednostki  od  wszystkich 

wyznaczonych środków ciężkości. Skorygowanie składu grup  

 

Po  wykonaniu  segmentacji  należy  ocenić  jej  jakość  oraz 

dokonać profilowania utworzonych klas