background image

MKIRW 

– TERMIN I GRUPA B

 

 
 
1. Teoretyczna optymalność klasyfikatora oparta na regule Bayessa wynika z: 
a) Minimalizacji błędu uczenia 
b) Minimalizacji kroswalidacyjnego oszacowania błędu testowego 
c) Minimalizacji ryzyka całkowitego 
d) Maksymalizacji marginesu klasyfikatora 
 
2. Wartość oczekiwana przyjętej funkcji straty to 
a). Strata całkowita klasyfikatora 
b). Ryzyko całkowite klasyfikatora 
c). Średnia niepewność klasyfikatora 
d). Średnia wiarygodność klasyfikatora 
 
3. Metoda bootstrap polega na 
 

a) Wielokrotnym uczeniu tego samego klasyfikatora na podstawie losowych  

początkowych ustawień parametrów tego klasyfikatora 
 

b) Wielokrotnym uczeniu tego samego klasyfikatora na podstawie losowych zbiorów uczących 

tworzonych przez losowanie z powtórzeniami z oryginalego zbioru uczącego  
 

c) Wielokrotnym uczeniu tego samego klasyfikatora na podstawie losowych zbiorów uczących 

tworzonych przez losowanie bez powtórzeń z oryginalnego zbioru uczącego 
 

d) Wielokrotnym uczeniu tego samego klasyfikatora na podstawie przykładów, których 

atrybuty poddane zostały pseudolosowej normalizacji 
 
4. Testowi medycznemu poddano 160 osób. Test wykrył chorobę u 100 osób, jednak wśród tych 
wykryć 30 było błędnych. Oznacza to, że: 
 

a) TN (true h) wynosi 60 

 

b) TP (true positives) wynosi 60 

 

c) FP (false ) wynosi 30 

 

d) FN (false negatives) wynosi 30 

 
5. Na bardzo dobry klasyfikator wskazuje wartość AUC (Area Under Curve): 
 

a) Blisko 1 
b). Powyżej 1 
c). Blisko 0 
d). Powyżej 0 

 
6. Na bardzo słaby klasyfikator wskazuje wartość AUC (Area Under Curve): 
 

a) Powyżej 1 

 

b) Mniejsza od zera 

 

c) Mniejsza niż 0,5 

 

d) Większa niż 0,5 

 
7. Która metoda/metody nie wykorzystują informacji o przynależności klasowej analizowanych 
przykładów: 

a). PCA oraz LDA 
b). LDA oraz ICA 
c). PCA oraz ICA 
d). LDA 

 

background image

8. Wspólną cechą metod PCA, ICA oraz LDA jest: 

 

a) Wykorzystanie nieliniowych transformacji oryginalnych atrybutów 

 

b) Wykorzystanie liniowych transformacji oryginalnych atrybutów 

 

c) Nie uwzględnia przynależności klasowej przykładów 

 

d) Ta sama funkcja oceny jakości generowanych atrybutów 

 

9. Jeśli test ANOVA nie wykrył potencjalnych różnic w działaniu kilku klasyfikatorów to wtedy: 

a). Należy szukać tych różnic kolejnymi testami statystycznymi pomiędzy parami klasyfikatorów, 

np. testem studenta. 

b). Nie należy szukać tych różnic kolejnymi testami statystycznymi pomiędzy parami 

klasyfikatorów, np. testem studenta. 

c). Należy koniecznie wykonać dodatkowe obliczenia. 
d). Należy powtórzyć obliczenia z innymi ustawieniami parametrów algorytmów uczenia. 

 
10. Poprawne wykorzystanie testów ANOVA oraz testu t-Studenta to: 

a). Wykonaj test t-Studenta dla każdej pary klasyfikatorów, a jeżeli choć dla jednej wykaże on 

różnice w działaniu, zweryfikuj ten wniosek korzystając z testu ANOVA. 

b). Wykonaj test t-Studenta dla każdej pary klasyfikatorów, a jeśli dla wszystkich par wykaże on 

różnice w działaniu, zweryfikuj ten wniosek korzystając z testu ANOVA. 

c). Wykonaj test ANOVA, a jeśli wykaże on różnice w działaniu klasyfikatorów, wykonaj 

dodatkowe testy T-Studenta dla każdej pary klasyfikatorów. 

d). Wykonaj test ANOVA, a jeśli nie wykaże on różnic w działaniu klasyfikatorów, spróbuj znaleźć 

te różnice za pomocą testów t-Studenta dla każdej pary klasyfikatorów. 

 

11. Algorytm k-średnich to: 

a). Algorytm uśredniania wyników działania dowolnej liczby klasyfikatorów. 
b). Algorytm uśredniania wyników działania dokładnie dwóch klasyfikatorów. 
c). Algorytm grupowania, w którym szukamy zadanej  liczby grup. 
d). Algorytm grupowania w którym szukamy dowolnej liczby grup. 
 

12. Współczynnik Pearsona zastosowany do dwóch atrybutów określa: 

a). Stopień ich statystycznej warunkowej n… 
b). Stopień ich liniowej korelacji 
c). Stopień ich użyteczności przy ich wspólnym wykorzystaniu w rozwiązywaniu zadania 

dyskryminacji z dwoma klasami 

d). Stopień ich użyteczności przy ich wspólnym wykorzystaniu w rozwiązywaniu zadania 

dyskryminacji z dowolną liczbą klas. 

 

13. W sieci neuronowej typu MLP zastosowanej … klasyfikacji, liczba atrybutów opisujących p… 

a). Liczbę warstw ukrytych 
b). Liczbę wejść neuronów pierwszej warstwy sieci 
c). Liczbę wyjść neuronów pierwszej warstwy sieci 
d). Liczbę wyjść neuronów ostatniej warstwy sieci 

 
14. Co jest prawdą odnośnie perceptronu: 
a). Podczas uczenia optymalizow… … kryterium perceptronowe. 
b). Podczas uczenia optymalizow… … odpowiednio zdefiniowany … 
c). Szukania jest granica w postaci liniowej 
d). Szukana jest granica oddzielająca dwie klasy 
 
15. Kryterium perceptronu bierze pod uwagę: 
a). Wszystkie przykłady ze zbioru uczącego 

Commented [KC1]: Teoretycznie to perceptron działa 
tylko na zbiorach, które mają 2 klasy (binominal). Ale prawdą 
jest też, że granica jest w postaci liniowej, ale tylko dla N=2… 
inaczej jest to hiperpłaszczyzna. Jak zapewne pamiętacie 
perceptron był w sieciach neuronowych: 

http://michalbereta.pl/dydaktyka/elementy_SI/Sieci_Neuro
nowe_1.pdf

  

background image

b). Jedynie przykłady błędnie zaklasyfikowane przez uczony perceptron 
c). Wszystkie przykłady ze zbioru uczącego, ale przykłady błędnie klasyfikowane przez uczony 
perceptron mają dwa razy większą wagę 
d). Losowy podzbiór przykładów uczących, losowanych ze zwracaniem spośród tych przykładów, 
które są aktualnie błędnie klasyfikowane przez uczony perceptron 
 
16. Algorytmem modyfikacji wag neuronu nie jest: 
a). Reguła Oji 
b). Reguła Windrowa-Hoffa 
c). Reguła Sangera 
d). Reguła Fishera 
 
17. Wykres ROC na osiach (odpowiednio, poziomej i pionowej) ma 
a). Procent niepoprawnie zaklasyfikowanych przykładów z klasy pozytywnej oraz procent poprawnie 
zaklasyfikowanych przykładów z klasy negatywnej. 
b). Procent poprawnie zaklasyfikowanych przykładów z klasy pozytywnej oraz procent poprawnie 
zaklasyfikowanych przykładów z klasy negatywnej. 
c). Procent niepoprawnie zaklasyfikowanych przykładów z klasy negatywnej oraz procent poprawnie 
zaklasyfikowanych przykładów z klasy pozytywnej. 
d). Procent poprawnie zaklasyfikowanych przykładów z klasy negatywnej oraz procent poprawnie 
zaklasyfikowanych przykładów z klasy pozytywnej. 
 
18. W której metodzie liczba kierunków, na które rzutuje się oryginalne dane zależy od liczby klas w 
rozważanym problemie: 
a). PCA 
b). LDA 
c). ICA 
d). LPA 
 
19. wykorzystywane przy konstrukcji naiwnego klasyfikatora Bayesa są często niespełnione w danym 
problemie gdyż: 
a) wartości atrybutów opisujących przykłady nie są odpowiednio znormalizowane 
b) zbiór trenując jest zbyt duży by klasyfikator ten był w praktyce użyteczny 
c) atrybuty opisujące przykłady nie są od siebie warunkowo niezależne 
d) problem posiada więcej niż dwie klasy 
 
20. Metody przekształcenia atrybutów nie realizuje się bla bla bla  odpowiednią sieć neuronową 
a)  PCA 
b) LDA 
c) ICA 
d) Mapy Kohonena 
 
23 Sieć RBF ma w warstwie ukrytej neurony: 

a)  Liniowe  
b)  Z sigmoidalną funkcją aktywacji 
c)  Z gausowską funkcją aktywacji 
d)  Nie jest to ściśle zdefiniowane 

 
24. Ortogonalizacja Grama-Schmidta to procedura która może być użyta do  
a) usuwania tych atrybutów, które nie są ortogonalne do co najmniej jednego innego atrybutu 
b) zapobiegania zbieżności uczonych neutronów do tego samego rozwiązania 
c) szukania granicy decyzyjnej jako klasyfikatora liniowego prostopadłego do wyznaczonego kierunku 

Commented [KC2]: Czułość: TP/(TP + FN) czyli na 
piononowej mamy część poprawnie sklasyfikowanych 
przykładów z klasy pozytywnej. 
Specyficzność: TN/(TN+FP) czyli na poziomej mamy ilość 
pozytywnie sklasyfikowanych przypadków z klasy 
negatywnej… jednak w wykładzie berety (wykład drugi slajd 
98) sam podaje ten wzór a potem pisze, że specyficzność to 
oszacowanie prawdopodobieństwa błędu przewidzenia 
przeztest choroby po warunkiem, że pacjent jest zdrowy 
(fałszywy wynik dodatni). Zgłupieć można… WTF? 

Commented [M3R2]: Na potwierdzenie 
http://img.mp.pl/articles/www/inne_publikacje/Ebm10_2.gi

Commented [KC4]: Patrz zadanie 5 z drugiej grupy. 
Zgodnie z wykładem 3 mamy maximum g-1 kierunków 
wytyczonych przez LDA, gdzie g to liczba klas. 

Commented [KC5]: Zgodnie z tym: 

http://michalbereta.pl/dydaktyka/PatternRecognition/Rozpo
znawanie_wzorcow_lab5_pca.pdf

 

PCA i LDA są wykorzystywane. 
ICA jest powiązane z PCA (jest uogólnieniem) więc zgaduję, 
że mapy kohonena? 

Commented [A6]

http://home.agh.edu.pl/~asior/stud/d

oc/RBF_12.pdf

 

funkcja gaussa jest funkcją radialną 
 
Strona 19: 

http://michalbereta.pl/dydaktyka/ZSI/lab_neuronowe_II/Sie
ci_Neuronowe_2.pdf

  

Commented [KC7]: Wykład 4: 
Dla estymacji każdego kolejnego, należy wprowadzić 
dodatkowy krok w algorytmie zapobiegający zbieganiu się 
rozwiązań kolejnych neuronów do już 
znalezionych rozwiązań. (…) Jednym ze sposobów na 
dokonanie tego jest schemat Grama-Schmidta. 

background image

d) szukania kierunku dobrze oddzielającego lasy w problemie klasyfikacyjnym z dwoma klasami 
 
25.  Co nie jest prawdą w przypadku metody PCA: 
a) Szukane atrybuty maksymalizują wariancje wszystkich danych ze wszystkich klas jednocześnie 
b) Szukane atrybuty maksymalizują wariancję wszystkich danych w każdej klasie osobno a końcowa 
wariancja mierzona jest jako średnia z wariancji wewnątrzklasowych 
c) Kolejne kierunki wyznaczane przez metodę PCA zawsze są ortogonalne do poprzednich  
d) Metoda PCA może służyć jako metoda redukcji wymiarowości problemu 
 
26. Wymiar Vapnika-Chervonenkisa jest to 
a) Minimalny rozmiar zbioru, na którym można wykonać wszystkie możliwe dychotomiczne  podziały 
b) Maksymalny rozmiar zbioru, na którego elementach można wykonać wszystkie dychotomiczne 
podziały  
c) Maksymalny rozmiar zbioru, na którego elementach można trenować dany klasyfikator 
d) Minimalny rozmiar zbioru, na którego elementach można trenować dany klasyfikator 
 
 
27. Wymiar Vapnika-Chervonenkisa służy do określenia 
a) Wielkości przestrzeni hipotez dla danej rodziny klasyfikatorów 
b) stopnia komplikacji problemu klasyfikacyjnego szacowanego na podstawie zbioru trenującego 
c) stopnia komplikacji problemu klasyfikacyjnego szacowanego na podstawie zbioru testowego 
d) stopnia komplikacji problemu klasyfikacyjnego szacowanego na podstawie zbioru atrybutów 
 
28. Który algorytm służy do stworzenia reguł asocjacyjnych? 
a) Single Lineage 
b) … Lineage 
c) Priori 
d) Aposteriori 
 
 
 

MKIRW 

– TERMIN I GRUPA A

 

 

Teoretyczna optymalność klasyfikatora oparta na regule Bayessa wynika z: 

a) Minimalizacji błędu uczenia 
b) Minimalizacji kroswalidacyjnego oszacowania błędu testowego 
c) Minimalizacji ryzyka całkowitego 
d) Maksymalizacji marginesu klasyfikatora 

 
Kryterium perceptronu bierze pod uwagę: 
a). Wszystkie przykłady ze zbioru uczącego 
b). Jedynie przykłady błędnie zaklasyfikowane przez uczony perceptron 
c). Wszystkie przykłady ze zbioru uczącego, ale przykłady błędnie klasyfikowane przez uczony 
perceptron mają dwa razy większą wagę 
d). Losowy podzbiór przykładów uczących, losowanych ze zwracaniem spośród tych przykładów, 
które są aktualnie błędnie klasyfikowane przez uczony perceptron 
 
2. Stratyfikacja (angielski termin stratification) w zagadnieniach projektowania klasyfikatorów 

oznacza 

a. Dbałość o posiadania takiej samej liczby przykładów z każdej klasy 
b. Dbałość o zastosowanie takiej samej metody normalizacji każdego z atrybutów 
c. Dbałość o zachowanie oryginalnego rozkładu klas przy podziale dostępnego zbioru przykładów 

background image

d. Dbałość o losową kolejność prezentowania klasyfikatorom przykładów uczących, ale taką samą dla 
każdego klasyfikatora 
 
3. Algorytmem modyfikacji wag neuronu nie jest 

a. Reguła Oji 
b. Reguła Widrowa-Hoffa 
c. Reguła Sangera 
d. Reguła Fishera 
 

4. Wykres ROC na osiach (odpowiednio, poziomej i pionowej) ma 
a). Procent niepoprawnie zaklasyfikowanych przykładów z klasy pozytywnej oraz procent poprawnie 
zaklasyfikowanych przykładów z klasy negatywnej. 
b). Procent poprawnie zaklasyfikowanych przykładów z klasy pozytywnej oraz procent poprawnie 
zaklasyfikowanych przykładów z klasy negatywnej. 
c). Procent niepoprawnie zaklasyfikowanych przykładów z klasy negatywnej oraz procent poprawnie 
zaklasyfikowanych przykładów z klasy pozytywnej. 
d). Procent poprawnie zaklasyfikowanych przykładów z klasy negatywnej oraz procent poprawnie 
zaklasyfikowanych przykładów z klasy pozytywnej. 
 
5. Metoda LDA znajduje
 

a. Dowolną liczbę kierunków kanonicznych 
b. Maksymalna liczba kierunków kanonicznych zależny od liczby przykładów 
c. Maksymalna liczba kierunków kanonicznych zależny od liczby klas 
d. Zawsze jeden kierunek kanoniczny 
 

6. Warunkowa statystyczna niezależność atrybutów jest istotnym założeniem w przypadku 
projektowania
 

a. Sieci neuronowej typu RBF 
b. Sieci neuronowej typu MLP 
c. Klasyfikatora opartego na wielorakiej regresji liniowej 
d. Naiwnego klasyfikatora Bayesa 
 

7. Odpowiednią siecią neuronową można zrealizować: 

a. PCA, LDA oraz ICA 
b. LDA oraz ICA 
c. ICA oraz PCA 
d. PCA oraz LDA 
 

8. Testowi medycznemu poddano 90 osób. Wśród 30* zdrowych test wskazał chorobę w 3 
przypadkach. Dla 10 pacjentów chorych test wykrył chorobę w przypadku 8 z nich. Oznacza to że 
(*może się walłem w liczbach bo niewyraźne zdjęcie)
 

a. Czułość testu wynosi ok. 96% 
b. Specyficzność testu wynosi ok. 96% 
c. Czułość wynosi ok. 94% 
d. Specyficzność wynosi ok. 94% 
 

9. Sieć RDF ma w warstwie ukrytej neurony 

a). Liniowe 

b. Z sigmoidalną funkcją aktywacji 
c. Z gaussowską funkcją aktywacji 
d. Nie jest to ściśle zdefiniowane 
 

Commented [KC8]: Tak jak w poprzedniej grupie… 

Commented [KC9]: Wykład 3, slajd 30 – jest mowa o tym, 
że jeden kierunek może nie wystarczyć i można poszukać 
kolejnych. Maksymalna liczba kierunków wynosi g-1, gdzie g 
to liczba klas, czyli skłaniałoby to do odp C. Jednak Nie wiem 
czy rozumieć to wszystko tak, że LDA znajduje tylko 1 
kierunek, a jak coś to poszukamy sobie więcej? 
Z Wikipedii o multiclass LDA: 

In the case where there are 

more than two classes, the analysis used in the 
derivation of the Fisher discriminant can be extended to 
find 

subspace

 which appears to contain all of the 

class variability

 

Commented [KC10]: Dla tych danych: 
Czułość = 8/(8+2) = 0,8 czyli 80% 
Specyficzność = 27/(27+3) = 27/30 = 0,9 = 90% 

background image

10. Wadą kroswalidacji jest 

a. Tworzenie dużych zbiorów testowych w porównaniu z tworzonymi zbiorami trenującymi 

b. Tworzenie dużych zbiorów uczących w porównaniu z tworzonymi zbiorami testowymi 
c. Losowość tworzonych podziałów 
d. Niezależność zborów trenujących i testowych powstałych z kolejnych podziałów 
 

11. Jeśli przykładów jest mało, najlepszą metodą szacowania jakości działania danego klasyfikatora 
jest
 

a. Kroswalidacja 
b. Metoda bootstrapowa 
c. Test McNemara 
d. Podział 5x2 

 
12. Moc testu statystycznego to jego zdolność do 

a. Zaakceptowania hipotezy zerowej jeśli jest ona prawdziwa 
b. Odrzucenie hipotezy zerowej jeśli jest ona nieprawdziwa 
c. Operowania na próbach o małej liczności 
d. Operowania na próbach o dużej liczności 
 

13. Test McNemara służy do porównania 

a. Wielu klasyfikatorów na jednym problemie klasyfikacyjnym 
b. Wielu klasyfikatorów na wielu problemach klasyfikacyjnych jednocześnie 
c. Dwóch klasyfikatorów na dwóch problemie klasyfikacyjnym jednocześnie 
d. Dwóch klasyfikatorów na jednym problemie klasyfikacyjnym 
 

14. Do sprawdzenia czy istnieje statystycznie istotna różnica w czasie działania algorytmów należy 
użyć
 

a. Dowolnego testu parametrycznego 
b. Odpowiedniego testu nieparametrycznego 
c. Odpowiedniej wersji testu t-Studenta 
d. Dowolnego testu parametrycznego zakładając normalność rozkładu badanych wartości 
 

15. Poprawkę Bonferroniego stosuję się by (trochę z pamięci bo mi ucięło to i część 16) 

a. Zwiększyć moc testu statystycznego 
b. Zmniejszyć moc testu statystycznego 
c. Zastosować test parametryczny do danych nie(?) posiadających rozkładu normalnego 
d. Zmniejszyć prawdopodobieństwo .. błędu przy wielokrotnym powtórzeniu(?) 
 

16. Baza z danymi transakcyjnymi zawierała 1200 produktów. A produktów występuje w 500 
rekordach, B produktów w 400 rekordach. Istnieje 300 rekordów zawierających zarówno A jak i B. 
Dla reguły „A → B” prawdą jest, że
 

a. Wsparcie wynosi 60% a ufność 25% 
b. Wsparcie wynosi 25% a ufność 60% 
c. Wsparcie wynosi 30% a ufność 60% 
d. Wsparcie wynosi 60% a ufność 30% 

 
17. Klasyfikatory bazowe w przypadku algorytmu AdaBoost: 

a. Tworzone są niezależnie od siebie na podstawie zbiorów trenujących wygenerowanych za 
pomocą metody bootstrapowej 
b. Uwzględniają w procesie uczenia błędy popełnione przez klasyfikatory trenowane 
wcześniej 
c. Stosują głosowanie większościowe 

Commented [KC11]: A to nie był właśnie problem? Za 
każdym razem jak się odpalało to klasyfikacja zwracała inne 
wyniki przez tę losowość właśnie.  

Commented [KC12]

http://michalbereta.pl/dydaktyka/Pa

tternRecognition/Rozpoznawanie_wzorcow_Projektowanie_
i_analiza_eksperymentow.pdf

 

Tutaj jest… W wyniku tego testu powstaje macierz 2x2 z 
częstotliwościami typu: A succeed i B failed, A succeed i B 
succeed itp. Zgaduję więc, że to 1 problem rozważamy na 2 
klasyfikatorach. 

Commented [KC13]

http://michalbereta.pl/dydaktyka/Pa

tternRecognition/Rozpoznawanie_wzorcow_Projektowanie_
i_analiza_eksperymentow.pdf

 

Slajd 57 – o testach nieparametrycznych: można ich używać 
do porównywania nie tylko błędów, ale również czasu 
uczenia 
… ale czy to oznacza, że parametrycznych nie można do tego 
użyć? Preferowane są testy parametryczne a nie 
nieparametryczne (jeśli można użyć obu) 

Commented [KC14]: Z wykładu: 
więcej testów, większe prawdopodobieństwo popełnienia 
błędu - przy pojedynczym teście jest to alfa 
» poprawka Bonferroniego - jeśli wykonujemy T testów, 
poziom istotności każdego z nich jest ustawiony nie na alfa 
lecz na alfa/T 

Commented [KC15]: Z wykładu reguły asocjacyjne slajd 
14: 
 
wsparcie = (liczba transakcji zawierająca A i B) / (liczba 
wszystkich transakcji) 
 
ufność = (liczba transakcji zawierających A i B)/(liczba 
transakcji zawierających A) 

Commented [KC16]: Z wykładu 5: 
Każdy kolejny prosty (bazowy) klasyfikator zwraca większą 
uwagę na przykłady, które sprawiały trudności poprzednim 
klasyfikatorom. 

background image

d. Są zawsze klasyfikatorami liniowymi 
 
 

18. Metoda liczenia Bordy to 

a. Metoda agregacji odpowiedzi klasyfikatorów bazowych w metodzie bagging 
b. Metoda agregacji list preferencji 
c. Metoda szacowania górnej granicy błędu klasyfikatora 
d. Metoda szacowania dolnej granicy błędu klasyfikatora 
 

19. Ortagonalizacja Grama-Schmidta to procedura, która może być użyta do 

a. Usuwania tych atrybutów, które nie są ortagonalne do co najmniej jednego innego 
atrubutu 
b. Zapobiegania zbieżności uczonych neuronów do tego samego rozwiązania 
c. Szukania granicy decyzyjnej jako klasyfikatora liniowego prostopadłego do 
wyznaczonego kierunku 
d. Szukania kierunku dobrze oddzielającego klasy w problemie klasyfikacyjnym z dwoma 
klasami 

 
 
 

 

 

Commented [KC17]: Wykład 5 slajd 28: 
Użyć metody agregacji list preferencji (np. Liczenia Bordy) 
aby otrzymad nowy ranking.