L5 regresja logistyczna klucz (2)

SAS Enterprise Miner Klasyfikacja za regresji logistycznej – laboratorium nr 5 - klucz

Wczytać z pliku SPAMBASE.DATA do zbioru SPAMBASE dane opisujące e-maile pod kątem
częstości występowania słów i znaków, oraz zaklasyfikowanych jako spam lub normalna
poczta.
W pliku SPAMBASE.DESC oraz SPAMBASE.NAMES znajduje się opis zmiennych
zawartości pliku i interpretacji zmiennych.

Zbudować model predykcyjny dla klasyfikowania e-maila jako spam w oparciu o
zaproponowane w modelu zmienne predykcyjne, przyjmując założenia opisane poniżej.
Wykorzystać diagram budowany dla drzewa decyzyjnego.

Przyjąć metodę Backward doboru zmiennych do modelu. Pozostałe parametry pozostawić
domyślne.

Podaj proporcję błędnych klasyfikacji wyznaczoną w oparciu o ciąg walidujący

Odp. 0.0739130435
b)

Porównać proporcję błędnych klasyfikacji w porównaniu z modelem opartym o

drzewo decyzyjne.

Dla drzewa decyzyjnego proporcja błędnych klasyfikacji wynosiła 0,1072, a więc
model predykcyjny oparty na regresji logistycznej jest lepiej dopasowany.

Podaj trzy najistotniejsze zmienne dla prognozowania charakteru maila ?

Odp. FREQ5, WORD7, WORD16.

Podaj przykładowe trzy zmienne, które nie są istotne ?

Odp. FREQ1, WORD1, WORD18