analiza skupień

Możliwy cel grupowania:

•

Ekstrapolacja danych – ustalenie określonej struktury hierarchicznej

np. w postaci drzewa binarnego

•

Porównanie istniejącej typologii wynikającej z teorii (albo

wcześniejszych badań) z wynikami empirycznymi

•

Agregacja informacji w pojedynczych obiektach do poziomu grup.

Dzięki temu w dalszym etapie badań można się posługiwać grupami

– zamiast pojedynczymi obiektami

Metody hierarchiczne

Aglomeracyjne – punktem wyjścia jest sytuacja, gdzie każdy obiekt jest

osobnym skupieniem. Dalej oblicza się odległość między wszystkimi

obiektami i łączny dwa najbliższe. Cała procedura trwa, aż wszystkie

obiekty będą w jednym skupieniu

Podziałowe – (algorytm działa w przeciwnym kierunku). Punktem wyjścia

jest jedno skupienie, do którego należą wszystkie obiekty. W kolejnych

krokach tworzy się grupy obiektów najbardziej się różniących. W końcu

otrzymuje się pojedyncze obiekty

Etapy działania

Przekształcenie zmiennych – doprowadzenie zmiennych do

porównywalności – normalizacja.

Typowe metody przekształcania zmiennych

Standaryzacja. Cel: jest otrzymanie zmiennych o jednostkowym

odchyleniu standardowym

)

(

−

gdzie:

)

- odchylenie standardowe,

średnia wartość zmiennej

Unitaryzacja. Cel: uzyskanie zmiennych o ujednoliconym zakresie

zmienności

{ }

min

max

min

−

Wybór miary podobieństwa, która pozwoli wyznaczyć macierz

odległości obiektów

Typowe miary odległości (podobieństwa)

Odległość euklidesowa

∑

−

)

(

Odległość Mińkowiskego

iki

)

(

−

∑

Odległość miejska

∑

−

Odległość Mahalanobisa

∑∑

−

)

)(

(

Odległość Czebyszewa

max

,...

−

Wyznaczenie macierzy odległości

Wybór najmniejszej wartości w macierzy odległości i utworzenie

skupienia z jednostek, których ta najmniejsza odległość dotyczy.

Liczba obiektów w tym kroku zmniejszyła się z n do n-1.

i kolejne kroki….

Ponowne wyznaczenie macierzy odległości dla zredukowanego – o

dokonane połączenie w kroku pierwszym – zbioru obiektów

Liczba obiektów zmniejsza się o kolejną jednostkę.

Po n-tym powtórzeniu wszystkie badane jednostki będą w jednej

grupie.

Metody wyznaczania kolejnych odległości

•

Metoda najbliższego sąsiedztwa

•

Metoda najdalszego sąsiedztwa

•

Metoda średniej

•

Metoda mediany

•

Metoda centroidalna

•

Metoda Warda

Metoda najbliższego sąsiedztwa (pojedyncze wiązanie)

•

odległość między dwoma skupieniami to najmniejsza z odległości

pomiędzy ich elementami;

Metoda najdalszego sąsiedztwa (pełne wiązanie)

•

odległość między dwoma skupieniami to największa odległość

między ich elementami

Metoda średniej

•

Odległość między dwoma skupieniami – średnia z odległości między

jednostkami jednego i drugiego skupienia

Metoda mediany

•

Odległość między dwoma skupieniami – mediana z odległości

między jednostkami jednego i drugiego skupienia

Metoda centroidalna

•

W każdym kroku po utworzeniu skupienia wyznacza się nową

macierz odległości na podstawie uśrednionych wartości cech

(stanowiących kryteria segmentacji) tych jednostek, które połączono

w skupienia

Metoda Warda (preferowana)

•

Kryterium grupowania jednostek: minimum zróżnicowania wartości

cech, względem wartości średnich skupień tworzonych w kolejnych

krokach

•

Gdy powiększymy jedno ze skupisk, wówczas wariancja

wewnątrzgrupowa (liczona jako kwadraty odchyleń od średnich w

skupisku) rośnie; metoda polega na takiej fuzji skupisk, aby nastąpił

jak najmniejszy przyrost wariancji dla danej iteracji

Metody optymalnego podziału. Metoda k – średnich

W ramach metody algorytm dzieli zbiór danych na ustaloną liczbę skupień

optymalizując pewne kryterium celu – np. podobieństwo wewnątrz skupień.

Etapy działania:

•

Ustalenie a priori docelowej liczby segmentów

•

Dla ustalonej liczby segmentów dokonuje się rozdziału jednostek

według wstępnie wybranych przedstawicieli każdego segmentu

•

Zasada rozdziału: kryterium najmniejszej odległości względem

wybranych przedstawicieli

Krok 1. Wybór przedstawicieli segmentów

Krok 2. Wyznaczenie środków ciężkości dla utworzonych skupień

•

rodki ciężkości – wartości średnie zmiennych, które stanowią

podstawę grupowania – wyznaczone dla tych jednostek, które tworzą

grupę

Krok 3. Określenie odległości każdej jednostki od wszystkich

wyznaczonych środków ciężkości. Skorygowanie składu grup

Po wykonaniu segmentacji należy ocenić jej jakość oraz

dokonać profilowania utworzonych klas