background image

I.

 

Analiza danych breast cancer wisconsin (original) 

http://archive.ics.uci.edu./ml/datasets.html 

1.

 

Zapoznaj się z opisem danych. 

2.

 

Podziel dane na 2 części – niech część treningową stanowią obiekty 1 – 600; część testową 

niech stanowią obiekty 601 – 699. 

3.

 

Dokonaj preprocessingu danych treningowych polegającego na zastąpieniu wartości 

brakujących wartościami kompletnymi. Wykonaj zamianę wg następującej strategii:  

Dla każdego obiektu z wartością brakującą znajdź obiekt niezawierający wartości 

brakujących będący jego najbliższym sąsiadem. Weź pod uwagę tylko obiekty z tej 

samej klasy decyzyjnej, a do wyznaczenia odległości pomiędzy obiektami użyj metryki 

Manhattan i uwzględnij wszystkie atrybuty z wyjątkiem pierwszego i tego na którym 

dany obiekt ma wartość brakującą. 

4.

 

Dokonaj preprocessingu danych testowych polegającego na zastąpieniu wartości brakujących 

wartościami kompletnymi. Wykonaj zamianę wg następującej strategii: 

- Znajdź obiekt testowy z wartością brakującą. 

- Znajdź wszystkie obiekty treningowe identyczne z danym na wszystkich atrybutach z 

wyjątkiem pierwszego, ostatniego (decyzyjnego) i tego, który zawiera wartość brakującą. 

- Zastąp wartość brakującą wartością występującą najczęściej na danym atrybucie wśród 

obiektów wyznaczonych w poprzednim kroku. 

5.

 

Użyj metody 3-NN aby każdemu obiektowi testowemu zaproponować jedną z dwóch 

wartości decyzji: 2 lub 4. 

6.

 

Oszacuj przydatność klasyfikatora 3-NN do predykcji nowych przypadków. Użyj do tego 

współczynnika dokładności klasyfikacji. 

7.

 

Powtórz etapy 5-6 eksploracji danych stosując metodę 5-NN. 

8.

 

Porównaj wyniki otrzymane w krokach 6 i 7. 

Rozwiąż zadanie za pomocą 2 narzędzi komputerowych. 

 

II.

 

Analiza danych breast tissue 

http://archive.ics.uci.edu./ml/datasets.html 

1.

 

Zapoznaj się z opisem danych. 

2.

 

Dokonaj segmentacji danych na 6 skupisk. W trakcie podziału nie uwzględniaj atrybutu 

decyzyjnego. Wykorzystaj metodę k-means. 

3.

 

Dla każdego skupiska sprawdź jego jednorodność pod względem przynależności obiektów do 

różnych klas decyzyjnych. Wyniki przedstaw w postaci graficznej – utwórz 6 wykresów 

kołowych (po jednym dla każdego skupiska) na których zaznaczone będzie jaki procent 

obiektów z danego skupiska należy po każdej z sześciu klas decyzyjnych. 

Rozwiąż zadanie za pomocą 2 narzędzi komputerowych.