background image

SAS Enterprise Miner  Klasyfikacja za regresji logistycznej – laboratorium nr 5  

 

Wczytać z pliku SPAMBASE.DATA do zbioru SPAMBASE dane opisujące e-maile pod kątem 
częstości  występowania słów  i znaków, oraz zaklasyfikowanych jako spam lub normalna 
poczta.   
W pliku SPAMBASE.DESC oraz SPAMBASE.NAMES znajduje się opis zmiennych  
zawartości pliku i interpretacji zmiennych.  
 
Zbudować model predykcyjny dla klasyfikowania e-maila jako spam w oparciu o 
zaproponowane w modelu zmienne predykcyjne, przyjmując założenia opisane poniżej.  
Wykorzystać diagram budowany dla drzewa decyzyjnego.  

 

Przyjąć metodę Backward doboru zmiennych do modelu. Pozostałe parametry pozostawić 
domyślne.  

a)

  Podaj proporcję błędnych klasyfikacji wyznaczoną w oparciu o ciąg walidujący 

b)

  Porównać proporcję błędnych klasyfikacji w porównaniu z  modelem opartym o 

drzewo decyzyjne.  

c)

  Podaj trzy najistotniejsze zmienne  dla prognozowania zawartości maila ?