background image

SAS Enterprise Miner  Analiza skupień – laboratorium nr 2 .  
 
Wczytać z pliku NUTRITION.DAT do zbioru NUTRITION dane dotyczące zawartości 
składników odżywczych w poszczególnych produktach spożywczych.  
 

 

Przeprowadzić grupowanie produktów (analiza skupień) przy pomocy narzędzia SAS EM 
według następującego scenariusza: 

1.

  Zbadać statystki opisowe poszczególnych zmiennych oraz zapoznać się z 

histogramami.  

a)

   Która ze zmiennych ma rozkład najbardziej zbliżony do 

równomiernego ?  

b)

  Która ze zmiennych ma  najbardziej symetryczny rozkład a której 

zmiennej rozkład wartości jest najbardziej skośny ?  

2.

  Podzielić wszystkie produkty spożywcze na grupy przy następujących 

założeniach:  

•  Zakresowa standaryzacja wszystkich zmiennych 
•  Automatyczny dobór liczby grup  
•  Przyjąć metodę grupowania opartą na odległościach środków 

ciężkości (CENTROID) 

•  Ograniczyć maksymalną liczbę wyznaczonych skupień do 10. 
a)

  Ile skupień zostało wyznaczonych   ?  

b)

  Które skupienie jest najbardziej jednorodne? Które jest najmniej 

jednorodne ?  

c)

  Jak można scharakteryzować poszczególne skupienia ? 

d)

  Odczytaj, które produkty zostały przydzielone do których skupień  ?  

e)

  Podaj statystyki poszczególnych skupień: liczbę elementów,  

odchylenie wewnątrzskupieniowe, maksymalną odległość od środka 
ciężkości ( wartości dla wypełnienia tabeli).  

Skupienie nr:  

E

le

m

en

ty

 

p

rz

y

d

zi

el

o

n

d

o

 s

k

u

p

ie

n

ia

 

L

ic

zb

el

em

en

w

 

O

d

c

h

y

le

n

ie

 

w

ew

n

ą

tr

zs

k

u

p

ie

n

io

w

M

a

k

sy

m

al

n

o

d

le

g

ło

ść

 o

d

 

śr

o

d

k

ci

ę

żk

o

śc

 

Ś

re

d

n

ia

 

w

ar

to

ść

 

zm

ie

n

n

ej

  

X

 

d

la

 e

le

m

en

w

 

n

al

e

ż

ą

cy

c

h

 d

o

 

O

b

se

rw

ac

ja

 

za

k

la

sy

fi

k

o

w

a

n

d

o

 g

ru

p

y

n

aj

b

ar

d

zi

ej

 

„o

d

st

aj

ą

ca

” 

 

CLUSTER 1  

 

 

 

 

 

 

CLUSTER 2  

 

 

 

 

 

 

……………. 

 

 

 

 

 

 

 
f)

  Odczytać jaką średnią wartość przyjmują poszczególne zmienne w 

poszczególnych skupieniach.  

3.

  Dodać do diagramu węzeł SAS_CODE, dla wykonania następujących operacji:  

background image

a)

  Dodać węzeł SAS_CODE aby w wyniku analizy powstawał zbiór 

SASLIB.NUTRITION_GROUPS, z dodatkową kolumną 
CLUSTER_ID, w której będzie identyfikator klastra.  

 

b)

  Zmodyfikować diagram procesu tak, aby w wyniku powstawał zbiór 

SASLIB.NUTRITION_CLUSTERS, tak aby zawierał wszystkie 
statystyki poszczególnych grup.