Lista 10 Weka

background image

Lista 4 - Selekcja cech

Selekcja cech z wykorzystaniem GUI Weki

Należy otworzyć skonstruowany w ramach poprzedniej listy zbiór danych XXXXXXL3 1.arff poprzez
udostępnione przez Wekę GUI. Należy zapoznać się działaniem modułu selekcji cech (Zakładka Select
Attributes
).

Metody selekcji cech wykorzystujące entropię

Typowymi metodami stosowanymi do selekcji cech są algorytmy wykorzystujące pojęcie entropii:

H(X) =

X

x∈X

p(x) log p(x)

(1)

oraz entropii warunkowej:

H(X|Y ) =

X

y∈Y

p(y)H(X|y)

(2)

W Wece wyróżnić można dwie metody które wykorzystują entropię do oceny istotności atrybutów:

GainRatioAttributeEval, oraz InfoGainAttributeEval. Pierwszy z nich bada istotność atrybu-
tów ze względu współczynnik GainRatio definiowany w następujący sposób:

GainRatio(Class, Attribute) =

H(Class) − H(Class|Attribute)

H(Attribute)

(3)

natomiast drugi z nich wykorzystuje tzn. InfoGain:

Inf oGain(Class, Attribute) = H(Class) − H(Class|Attribute)

(4)

Opisane metody wykonują ocenę każdego atrybutu ze względu na przyjęte kryterium niezależnie,

dla każdego z atrybutów osobno.

Zadania

Wszystkie zadania zostaną wykonane na pliku XXXXXXL3 1.arff.

1. Należy dokonać dyskretyzacji zmiennych numerycznych z wykorzystaniem filtra pracującego w

trybie nadzorowanym. W dalszej kolejności należy zapoznać się z działaniem filtrów do selek-
cji cech GainRatioAttributeEval, oraz InfoGainAttributeEval. Należy wybrać cechy dla
których zarówno GainRatio, jak i InfoGain przyjmują wartości wyższe niż 0.001. Należy uszere-
gować atrybuty rosnąco względem GainRatio i zbiór po procesie selekcji i uszeregowaniu zapisać
jako XXXXXXL4 1.arff (3 pkt ).

2. Należy własnoręcznie (bez wykorzystywania klas GainRatioAttributeEval, InfoGainAttri-

buteEval) zaimplementować metodę GainRatioAttributeEval i zweryfikować jej działanie
na zbiorze XXXXXXL3 1.arff. Należy zidentyfikować podstawę logarytmu, jaką wykorzystuje
implementacja GainRatioAttributeEval w Wece zadając jej wartość jako parametr programu
(5 pkt ).

1


Wyszukiwarka

Podobne podstrony:
Biochemia I - Lista 10 PL, biochemia I
Lista 2 10 2011
Fizyka lista 10
Lista 10, Lista 10
Lista 10
lista 10 2
Lista 10 dla studentów
Lista 10 całki funkcji niewymiernych
Lista 11 Weka
NST LOG LISTA 10
lista 10 2 id 269805 Nieznany
Lista 5 10 2011
Lista 6 10 2011
LISTA 10, Macierze i układy równań liniowych
Lista 10 PL
lista 10 1 id 269804 Nieznany
Oto lista 10 najlepiej sprzedających się produktów FM GROUP w trzech kategoriach, szkoła

więcej podobnych podstron