background image

SAS Enterprise Miner  Analiza skupień – laboratorium nr 2  - klucz.  
 
Wczytać z pliku NUTRITION.DAT do zbioru NUTRITION dane dotyczące zawartości 
składników odżywczych w poszczególnych produktach spożywczych.  

 

 
Przeprowadzić grupowanie produktów (analiza skupień) przy pomocy narzędzia SAS EM 
według następującego scenariusza: 

1.

  Zbadać statystki opisowe poszczególnych zmiennych oraz zapoznać się z 

histogramami.  

 

a)

   Która ze zmiennych ma rozkład najbardziej zbliżony do 

równomiernego ?     
Odp.  PROTEIN – zmienna ta posiada najmniejsze odchylenie 
standardowe w porównaniu ze średnią  (współczynnik zmienności)    

 
b)

  Która ze zmiennych ma  najbardziej symetryczny rozkład, a której 

zmiennej rozkład wartości jest najbardziej skośny ?  

 

 

Odp. Najbardziej symetryczny rozkład ma zmienna ENERGY – 
współczynnik skośności (SKEWNESS) przyjmuje wartość najbliższą 0.  
Najbardziej skośny rozkład posiada zmienna CACLIUM ( największa 
wartość bezwzględna współczynnika skośności).  
 

 

 
 
  

background image

2.

  Podzielić wszystkie produkty spożywcze na grupy przy następujących 

założeniach:  

 

 

•  Zakresowa standaryzacja wszystkich zmiennych 

 

•  Automatyczny dobór liczby grup  
•  Przyjąć metodę grupowania opartą na odległościach środków 

ciężkości (CENTROID) 

•  Ograniczyć maksymalną liczbę wyznaczonych skupień do 10 

 

 
a)

  Ile skupień zostało wyznaczonych   ?  

 

Odp.  4 skupienia.  

background image

b)

  Które skupienie jest najbardziej jednorodne? Które jest najmniej 

jednorodne ?  

 

Odp. Najbardziej jednorodnym skupieniem jest skupienie nr. 3, ze 
względu na najmniejsze odchylenie standardowe (0.109). 
Maksymalna odległość obserwacji od środka skupienia jest niewielka 
(0,49) w porównaniu z odpowiednimi odległościami w pozostałych 
skupieniach (minimalny promień ma skupienie 2 i wynosi on 0.43).  

c)

  Jak można scharakteryzować poszczególne skupienia ? 

 

Skupienie nr 4 – niskokaloryczne produkty, bogate w żelazo (owoce 
morza) 
Skupienie nr 3 – wysokaloryczne, tłuste produkty  mięsne.  
Skupienie nr 1 – Produkty zawierające dużo wapnia   
Skupienie nr 2 – produkty zawierające dużo protein (ryby)  

background image

 
d)

  Odczytaj, które produkty zostały przydzielone do których skupień ?  

 

Odp. Skupienie nr 3 zawiera: Braised beef, Hamburger, Roast beef. 
Beefsteek, roast lamb leg, roast lamb shoulder, smoke ham etc.  
 

e)

  Podaj statystyki poszczególnych skupień: liczbę elementów,  

odchylenie wewnątrzskupieniowe, maksymalną odległość od środka 
ciężkości (wartości dla wypełnienia tabeli).  

f)

  Odczytać jaką średnią wartość przyjmują poszczególne zmienne w 

poszczególnych skupieniach.  

Odp.  
 

Skupienie 
nr:  

E

le

m

en

ty

 p

rz

y

d

zi

el

o

n

d

o

 s

k

u

p

ie

n

ia

 

L

ic

zb

el

em

en

w

 

O

d

c

h

y

le

n

ie

 

w

ew

n

ą

tr

zs

k

u

p

ie

n

io

w

M

ak

sy

m

al

n

o

d

le

g

ło

ść

 

o

d

 ś

ro

d

k

ci

ę

ż

k

o

śc

 

Ś

re

d

n

ia

 w

ar

to

ść

 z

m

ie

n

n

ej

  

F

A

T

  

el

em

en

w

 

n

al

e

ż

ą

cy

ch

 d

o

 s

k

u

p

ie

n

ia

 

Ś

re

d

n

ia

 w

ar

to

ść

 z

m

ie

n

n

ej

  

..

 .

  

el

em

en

w

 

O

b

se

rw

ac

ja

 

za

k

la

sy

fi

k

o

w

a

n

d

o

 

g

ru

p

y

n

aj

b

ar

d

zi

ej

 

„o

d

st

aj

ą

ca

” 

 

CLUSTER 1  

Canned beef 
Broiled chicken  
Canned chicken 

….. 

12 

0.164 

0.652 

7.417 

… 

Beef heart 

CLUSTER 2  

Cannes salmon 
Cannes mackarel 
Cannes sardines

 

0.188 

0.464 

7.667 

…. 

Canned sardines 

……………. 

……. 

 

 

 

 

 

 

 

background image

 

 

3.

  Dodać do diagramu węzeł SAS_CODE, dla wykonania następujących operacji:  

a)

  Dodać węzeł SAS_CODE aby w wyniku analizy powstawał zbiór 

SASLIB.NUTRITION_GROUPS, z dodatkową kolumną 
CLUSTER_ID, w której będzie identyfikator klastra.  

 

b)

  Zmodyfikować diagram procesu tak, aby w wyniku powstawał zbiór 

SASLIB.NUTRITION_CLUSTERS, tak aby zawierał wszystkie 
statystyki poszczególnych grup.