plik

MKIRW

– TERMIN I GRUPA B

1. Teoretyczna optymalność klasyfikatora oparta na regule Bayessa wynika z:
a) Minimalizacji błędu uczenia
b) Minimalizacji kroswalidacyjnego oszacowania błędu testowego
c) Minimalizacji ryzyka całkowitego
d) Maksymalizacji marginesu klasyfikatora

2. Wartość oczekiwana przyjętej funkcji straty to
a). Strata całkowita klasyfikatora
b). Ryzyko całkowite klasyfikatora
c). Średnia niepewność klasyfikatora
d). Średnia wiarygodność klasyfikatora

3. Metoda bootstrap polega na

a) Wielokrotnym uczeniu tego samego klasyfikatora na podstawie losowych

początkowych ustawień parametrów tego klasyfikatora

b) Wielokrotnym uczeniu tego samego klasyfikatora na podstawie losowych zbiorów uczących

tworzonych przez losowanie z powtórzeniami z oryginalego zbioru uczącego

c) Wielokrotnym uczeniu tego samego klasyfikatora na podstawie losowych zbiorów uczących

tworzonych przez losowanie bez powtórzeń z oryginalnego zbioru uczącego

d) Wielokrotnym uczeniu tego samego klasyfikatora na podstawie przykładów, których

atrybuty poddane zostały pseudolosowej normalizacji

4. Testowi medycznemu poddano 160 osób. Test wykrył chorobę u 100 osób, jednak wśród tych
wykryć 30 było błędnych. Oznacza to, że:

a) TN (true h) wynosi 60

b) TP (true positives) wynosi 60

c) FP (false ) wynosi 30

d) FN (false negatives) wynosi 30

5. Na bardzo dobry klasyfikator wskazuje wartość AUC (Area Under Curve):

a) Blisko 1
b). Powyżej 1
c). Blisko 0
d). Powyżej 0

6. Na bardzo słaby klasyfikator wskazuje wartość AUC (Area Under Curve):

a) Powyżej 1

b) Mniejsza od zera

c) Mniejsza niż 0,5

d) Większa niż 0,5

7. Która metoda/metody nie wykorzystują informacji o przynależności klasowej analizowanych
przykładów:

a). PCA oraz LDA
b). LDA oraz ICA
c). PCA oraz ICA
d). LDA

8. Wspólną cechą metod PCA, ICA oraz LDA jest:

a) Wykorzystanie nieliniowych transformacji oryginalnych atrybutów

b) Wykorzystanie liniowych transformacji oryginalnych atrybutów

c) Nie uwzględnia przynależności klasowej przykładów

d) Ta sama funkcja oceny jakości generowanych atrybutów

9. Jeśli test ANOVA nie wykrył potencjalnych różnic w działaniu kilku klasyfikatorów to wtedy:

a). Należy szukać tych różnic kolejnymi testami statystycznymi pomiędzy parami klasyfikatorów,

np. testem studenta.

b). Nie należy szukać tych różnic kolejnymi testami statystycznymi pomiędzy parami

klasyfikatorów, np. testem studenta.

c). Należy koniecznie wykonać dodatkowe obliczenia.
d). Należy powtórzyć obliczenia z innymi ustawieniami parametrów algorytmów uczenia.

10. Poprawne wykorzystanie testów ANOVA oraz testu t-Studenta to:

a). Wykonaj test t-Studenta dla każdej pary klasyfikatorów, a jeżeli choć dla jednej wykaże on

różnice w działaniu, zweryfikuj ten wniosek korzystając z testu ANOVA.

b). Wykonaj test t-Studenta dla każdej pary klasyfikatorów, a jeśli dla wszystkich par wykaże on

różnice w działaniu, zweryfikuj ten wniosek korzystając z testu ANOVA.

c). Wykonaj test ANOVA, a jeśli wykaże on różnice w działaniu klasyfikatorów, wykonaj

dodatkowe testy T-Studenta dla każdej pary klasyfikatorów.

d). Wykonaj test ANOVA, a jeśli nie wykaże on różnic w działaniu klasyfikatorów, spróbuj znaleźć

te różnice za pomocą testów t-Studenta dla każdej pary klasyfikatorów.

11. Algorytm k-średnich to:

a). Algorytm uśredniania wyników działania dowolnej liczby klasyfikatorów.
b). Algorytm uśredniania wyników działania dokładnie dwóch klasyfikatorów.
c). Algorytm grupowania, w którym szukamy zadanej liczby grup.
d). Algorytm grupowania w którym szukamy dowolnej liczby grup.

12. Współczynnik Pearsona zastosowany do dwóch atrybutów określa:

a). Stopień ich statystycznej warunkowej n…
b). Stopień ich liniowej korelacji
c). Stopień ich użyteczności przy ich wspólnym wykorzystaniu w rozwiązywaniu zadania

dyskryminacji z dwoma klasami

d). Stopień ich użyteczności przy ich wspólnym wykorzystaniu w rozwiązywaniu zadania

dyskryminacji z dowolną liczbą klas.

13. W sieci neuronowej typu MLP zastosowanej … klasyfikacji, liczba atrybutów opisujących p…

a). Liczbę warstw ukrytych
b). Liczbę wejść neuronów pierwszej warstwy sieci
c). Liczbę wyjść neuronów pierwszej warstwy sieci
d). Liczbę wyjść neuronów ostatniej warstwy sieci

14. Co jest prawdą odnośnie perceptronu:
a). Podczas uczenia optymalizow… … kryterium perceptronowe.
b). Podczas uczenia optymalizow… … odpowiednio zdefiniowany …
c). Szukania jest granica w postaci liniowej
d). Szukana jest granica oddzielająca dwie klasy

15. Kryterium perceptronu bierze pod uwagę:
a). Wszystkie przykłady ze zbioru uczącego

Commented [KC1]: Teoretycznie to perceptron działa
tylko na zbiorach, które mają 2 klasy (binominal). Ale prawdą
jest też, że granica jest w postaci liniowej, ale tylko dla N=2…
inaczej jest to hiperpłaszczyzna. Jak zapewne pamiętacie
perceptron był w sieciach neuronowych:

http://michalbereta.pl/dydaktyka/elementy_SI/Sieci_Neuro
nowe_1.pdf

b). Jedynie przykłady błędnie zaklasyfikowane przez uczony perceptron
c). Wszystkie przykłady ze zbioru uczącego, ale przykłady błędnie klasyfikowane przez uczony
perceptron mają dwa razy większą wagę
d). Losowy podzbiór przykładów uczących, losowanych ze zwracaniem spośród tych przykładów,
które są aktualnie błędnie klasyfikowane przez uczony perceptron

16. Algorytmem modyfikacji wag neuronu nie jest:
a). Reguła Oji
b). Reguła Windrowa-Hoffa
c). Reguła Sangera
d). Reguła Fishera

17. Wykres ROC na osiach (odpowiednio, poziomej i pionowej) ma
a). Procent niepoprawnie zaklasyfikowanych przykładów z klasy pozytywnej oraz procent poprawnie
zaklasyfikowanych przykładów z klasy negatywnej.
b). Procent poprawnie zaklasyfikowanych przykładów z klasy pozytywnej oraz procent poprawnie
zaklasyfikowanych przykładów z klasy negatywnej.
c). Procent niepoprawnie zaklasyfikowanych przykładów z klasy negatywnej oraz procent poprawnie
zaklasyfikowanych przykładów z klasy pozytywnej.
d). Procent poprawnie zaklasyfikowanych przykładów z klasy negatywnej oraz procent poprawnie
zaklasyfikowanych przykładów z klasy pozytywnej.

18. W której metodzie liczba kierunków, na które rzutuje się oryginalne dane zależy od liczby klas w
rozważanym problemie:
a). PCA
b). LDA
c). ICA
d). LPA

19. wykorzystywane przy konstrukcji naiwnego klasyfikatora Bayesa są często niespełnione w danym
problemie gdyż:
a) wartości atrybutów opisujących przykłady nie są odpowiednio znormalizowane
b) zbiór trenując jest zbyt duży by klasyfikator ten był w praktyce użyteczny
c) atrybuty opisujące przykłady nie są od siebie warunkowo niezależne
d) problem posiada więcej niż dwie klasy

20. Metody przekształcenia atrybutów nie realizuje się bla bla bla odpowiednią sieć neuronową
a) PCA
b) LDA
c) ICA
d) Mapy Kohonena

23 Sieć RBF ma w warstwie ukrytej neurony:

a)  Liniowe
b)  Z sigmoidalną funkcją aktywacji
c)  Z gausowską funkcją aktywacji
d)  Nie jest to ściśle zdefiniowane

24. Ortogonalizacja Grama-Schmidta to procedura która może być użyta do
a) usuwania tych atrybutów, które nie są ortogonalne do co najmniej jednego innego atrybutu
b) zapobiegania zbieżności uczonych neutronów do tego samego rozwiązania
c) szukania granicy decyzyjnej jako klasyfikatora liniowego prostopadłego do wyznaczonego kierunku

Commented [KC2]: Czułość: TP/(TP + FN) czyli na
piononowej mamy część poprawnie sklasyfikowanych
przykładów z klasy pozytywnej.
Specyficzność: TN/(TN+FP) czyli na poziomej mamy ilość
pozytywnie sklasyfikowanych przypadków z klasy
negatywnej… jednak w wykładzie berety (wykład drugi slajd
98) sam podaje ten wzór a potem pisze, że specyficzność to
oszacowanie prawdopodobieństwa błędu przewidzenia
przeztest choroby po warunkiem, że pacjent jest zdrowy
(fałszywy wynik dodatni). Zgłupieć można… WTF?

Commented [M3R2]: Na potwierdzenie
http://img.mp.pl/articles/www/inne_publikacje/Ebm10_2.gi
f

Commented [KC4]: Patrz zadanie 5 z drugiej grupy.
Zgodnie z wykładem 3 mamy maximum g-1 kierunków
wytyczonych przez LDA, gdzie g to liczba klas.

Commented [KC5]: Zgodnie z tym:

http://michalbereta.pl/dydaktyka/PatternRecognition/Rozpo
znawanie_wzorcow_lab5_pca.pdf

PCA i LDA są wykorzystywane.
ICA jest powiązane z PCA (jest uogólnieniem) więc zgaduję,
że mapy kohonena?

Commented [A6]:

http://home.agh.edu.pl/~asior/stud/d

oc/RBF_12.pdf

funkcja gaussa jest funkcją radialną

Strona 19:

http://michalbereta.pl/dydaktyka/ZSI/lab_neuronowe_II/Sie
ci_Neuronowe_2.pdf

Commented [KC7]: Wykład 4:
Dla estymacji każdego kolejnego, należy wprowadzić
dodatkowy krok w algorytmie zapobiegający zbieganiu się
rozwiązań kolejnych neuronów do już
znalezionych rozwiązań. (…) Jednym ze sposobów na
dokonanie tego jest schemat Grama-Schmidta.

d) szukania kierunku dobrze oddzielającego lasy w problemie klasyfikacyjnym z dwoma klasami

25.  Co nie jest prawdą w przypadku metody PCA:
a) Szukane atrybuty maksymalizują wariancje wszystkich danych ze wszystkich klas jednocześnie
b) Szukane atrybuty maksymalizują wariancję wszystkich danych w każdej klasie osobno a końcowa
wariancja mierzona jest jako średnia z wariancji wewnątrzklasowych
c) Kolejne kierunki wyznaczane przez metodę PCA zawsze są ortogonalne do poprzednich
d) Metoda PCA może służyć jako metoda redukcji wymiarowości problemu

26. Wymiar Vapnika-Chervonenkisa jest to
a) Minimalny rozmiar zbioru, na którym można wykonać wszystkie możliwe dychotomiczne  podziały
b) Maksymalny rozmiar zbioru, na którego elementach można wykonać wszystkie dychotomiczne
podziały
c) Maksymalny rozmiar zbioru, na którego elementach można trenować dany klasyfikator
d) Minimalny rozmiar zbioru, na którego elementach można trenować dany klasyfikator

27. Wymiar Vapnika-Chervonenkisa służy do określenia
a) Wielkości przestrzeni hipotez dla danej rodziny klasyfikatorów
b) stopnia komplikacji problemu klasyfikacyjnego szacowanego na podstawie zbioru trenującego
c) stopnia komplikacji problemu klasyfikacyjnego szacowanego na podstawie zbioru testowego
d) stopnia komplikacji problemu klasyfikacyjnego szacowanego na podstawie zbioru atrybutów

28. Który algorytm służy do stworzenia reguł asocjacyjnych?
a) Single Lineage
b) … Lineage
c) Priori
d) Aposteriori

MKIRW

– TERMIN I GRUPA A

Teoretyczna optymalność klasyfikatora oparta na regule Bayessa wynika z:

a) Minimalizacji błędu uczenia
b) Minimalizacji kroswalidacyjnego oszacowania błędu testowego
c) Minimalizacji ryzyka całkowitego
d) Maksymalizacji marginesu klasyfikatora

Kryterium perceptronu bierze pod uwagę:
a). Wszystkie przykłady ze zbioru uczącego
b). Jedynie przykłady błędnie zaklasyfikowane przez uczony perceptron
c). Wszystkie przykłady ze zbioru uczącego, ale przykłady błędnie klasyfikowane przez uczony
perceptron mają dwa razy większą wagę
d). Losowy podzbiór przykładów uczących, losowanych ze zwracaniem spośród tych przykładów,
które są aktualnie błędnie klasyfikowane przez uczony perceptron

2. Stratyfikacja (angielski termin stratification) w zagadnieniach projektowania klasyfikatorów

oznacza

a. Dbałość o posiadania takiej samej liczby przykładów z każdej klasy
b. Dbałość o zastosowanie takiej samej metody normalizacji każdego z atrybutów
c. Dbałość o zachowanie oryginalnego rozkładu klas przy podziale dostępnego zbioru przykładów

d. Dbałość o losową kolejność prezentowania klasyfikatorom przykładów uczących, ale taką samą dla
każdego klasyfikatora

3. Algorytmem modyfikacji wag neuronu nie jest

a. Reguła Oji
b. Reguła Widrowa-Hoffa
c. Reguła Sangera
d. Reguła Fishera

4. Wykres ROC na osiach (odpowiednio, poziomej i pionowej) ma
a). Procent niepoprawnie zaklasyfikowanych przykładów z klasy pozytywnej oraz procent poprawnie
zaklasyfikowanych przykładów z klasy negatywnej.
b). Procent poprawnie zaklasyfikowanych przykładów z klasy pozytywnej oraz procent poprawnie
zaklasyfikowanych przykładów z klasy negatywnej.
c). Procent niepoprawnie zaklasyfikowanych przykładów z klasy negatywnej oraz procent poprawnie
zaklasyfikowanych przykładów z klasy pozytywnej.
d). Procent poprawnie zaklasyfikowanych przykładów z klasy negatywnej oraz procent poprawnie
zaklasyfikowanych przykładów z klasy pozytywnej.

5. Metoda LDA znajduje

a. Dowolną liczbę kierunków kanonicznych
b. Maksymalna liczba kierunków kanonicznych zależny od liczby przykładów
c. Maksymalna liczba kierunków kanonicznych zależny od liczby klas
d. Zawsze jeden kierunek kanoniczny

6. Warunkowa statystyczna niezależność atrybutów jest istotnym założeniem w przypadku
projektowania

a. Sieci neuronowej typu RBF
b. Sieci neuronowej typu MLP
c. Klasyfikatora opartego na wielorakiej regresji liniowej
d. Naiwnego klasyfikatora Bayesa

7. Odpowiednią siecią neuronową można zrealizować:

a. PCA, LDA oraz ICA
b. LDA oraz ICA
c. ICA oraz PCA
d. PCA oraz LDA

8. Testowi medycznemu poddano 90 osób. Wśród 30* zdrowych test wskazał chorobę w 3
przypadkach. Dla 10 pacjentów chorych test wykrył chorobę w przypadku 8 z nich. Oznacza to że
(*może się walłem w liczbach bo niewyraźne zdjęcie)

a. Czułość testu wynosi ok. 96%
b. Specyficzność testu wynosi ok. 96%
c. Czułość wynosi ok. 94%
d. Specyficzność wynosi ok. 94%

9. Sieć RDF ma w warstwie ukrytej neurony

a). Liniowe

b. Z sigmoidalną funkcją aktywacji
c. Z gaussowską funkcją aktywacji
d. Nie jest to ściśle zdefiniowane

Commented [KC8]: Tak jak w poprzedniej grupie…

Commented [KC9]: Wykład 3, slajd 30 – jest mowa o tym,
że jeden kierunek może nie wystarczyć i można poszukać
kolejnych. Maksymalna liczba kierunków wynosi g-1, gdzie g
to liczba klas, czyli skłaniałoby to do odp C. Jednak Nie wiem
czy rozumieć to wszystko tak, że LDA znajduje tylko 1
kierunek, a jak coś to poszukamy sobie więcej?
Z Wikipedii o multiclass LDA:

In the case where there are

more than two classes, the analysis used in the
derivation of the Fisher discriminant can be extended to
find a

subspace

which appears to contain all of the

class variability

Commented [KC10]: Dla tych danych:
Czułość = 8/(8+2) = 0,8 czyli 80%
Specyficzność = 27/(27+3) = 27/30 = 0,9 = 90%

10. Wadą kroswalidacji jest

a. Tworzenie dużych zbiorów testowych w porównaniu z tworzonymi zbiorami trenującymi

b. Tworzenie dużych zbiorów uczących w porównaniu z tworzonymi zbiorami testowymi
c. Losowość tworzonych podziałów
d. Niezależność zborów trenujących i testowych powstałych z kolejnych podziałów

11. Jeśli przykładów jest mało, najlepszą metodą szacowania jakości działania danego klasyfikatora
jest

a. Kroswalidacja
b. Metoda bootstrapowa
c. Test McNemara
d. Podział 5x2

12. Moc testu statystycznego to jego zdolność do

a. Zaakceptowania hipotezy zerowej jeśli jest ona prawdziwa
b. Odrzucenie hipotezy zerowej jeśli jest ona nieprawdziwa
c. Operowania na próbach o małej liczności
d. Operowania na próbach o dużej liczności

13. Test McNemara służy do porównania

a. Wielu klasyfikatorów na jednym problemie klasyfikacyjnym
b. Wielu klasyfikatorów na wielu problemach klasyfikacyjnych jednocześnie
c. Dwóch klasyfikatorów na dwóch problemie klasyfikacyjnym jednocześnie
d. Dwóch klasyfikatorów na jednym problemie klasyfikacyjnym

14. Do sprawdzenia czy istnieje statystycznie istotna różnica w czasie działania algorytmów należy
użyć

a. Dowolnego testu parametrycznego
b. Odpowiedniego testu nieparametrycznego
c. Odpowiedniej wersji testu t-Studenta
d. Dowolnego testu parametrycznego zakładając normalność rozkładu badanych wartości

15. Poprawkę Bonferroniego stosuję się by (trochę z pamięci bo mi ucięło to i część 16)

a. Zwiększyć moc testu statystycznego
b. Zmniejszyć moc testu statystycznego
c. Zastosować test parametryczny do danych nie(?) posiadających rozkładu normalnego
d. Zmniejszyć prawdopodobieństwo .. błędu przy wielokrotnym powtórzeniu(?)

16. Baza z danymi transakcyjnymi zawierała 1200 produktów. A produktów występuje w 500
rekordach, B produktów w 400 rekordach. Istnieje 300 rekordów zawierających zarówno A jak i B.
Dla reguły „A → B” prawdą jest, że

a. Wsparcie wynosi 60% a ufność 25%
b. Wsparcie wynosi 25% a ufność 60%
c. Wsparcie wynosi 30% a ufność 60%
d. Wsparcie wynosi 60% a ufność 30%

17. Klasyfikatory bazowe w przypadku algorytmu AdaBoost:

a. Tworzone są niezależnie od siebie na podstawie zbiorów trenujących wygenerowanych za
pomocą metody bootstrapowej
b. Uwzględniają w procesie uczenia błędy popełnione przez klasyfikatory trenowane
wcześniej
c. Stosują głosowanie większościowe

Commented [KC11]: A to nie był właśnie problem? Za
każdym razem jak się odpalało to klasyfikacja zwracała inne
wyniki przez tę losowość właśnie.

Commented [KC12]:

http://michalbereta.pl/dydaktyka/Pa

tternRecognition/Rozpoznawanie_wzorcow_Projektowanie_
i_analiza_eksperymentow.pdf

Tutaj jest… W wyniku tego testu powstaje macierz 2x2 z
częstotliwościami typu: A succeed i B failed, A succeed i B
succeed itp. Zgaduję więc, że to 1 problem rozważamy na 2
klasyfikatorach.

Commented [KC13]:

http://michalbereta.pl/dydaktyka/Pa

tternRecognition/Rozpoznawanie_wzorcow_Projektowanie_
i_analiza_eksperymentow.pdf

Slajd 57 – o testach nieparametrycznych: można ich używać
do porównywania nie tylko błędów, ale również czasu
uczenia
… ale czy to oznacza, że parametrycznych nie można do tego
użyć? Preferowane są testy parametryczne a nie
nieparametryczne (jeśli można użyć obu)

Commented [KC14]: Z wykładu:
więcej testów, większe prawdopodobieństwo popełnienia
błędu - przy pojedynczym teście jest to alfa
» poprawka Bonferroniego - jeśli wykonujemy T testów,
poziom istotności każdego z nich jest ustawiony nie na alfa
lecz na alfa/T

Commented [KC15]: Z wykładu reguły asocjacyjne slajd
14:

wsparcie = (liczba transakcji zawierająca A i B) / (liczba
wszystkich transakcji)

ufność = (liczba transakcji zawierających A i B)/(liczba
transakcji zawierających A)

Commented [KC16]: Z wykładu 5:
Każdy kolejny prosty (bazowy) klasyfikator zwraca większą
uwagę na przykłady, które sprawiały trudności poprzednim
klasyfikatorom.

d. Są zawsze klasyfikatorami liniowymi

18. Metoda liczenia Bordy to

a. Metoda agregacji odpowiedzi klasyfikatorów bazowych w metodzie bagging
b. Metoda agregacji list preferencji
c. Metoda szacowania górnej granicy błędu klasyfikatora
d. Metoda szacowania dolnej granicy błędu klasyfikatora

19. Ortagonalizacja Grama-Schmidta to procedura, która może być użyta do

a. Usuwania tych atrybutów, które nie są ortagonalne do co najmniej jednego innego
atrubutu
b. Zapobiegania zbieżności uczonych neuronów do tego samego rozwiązania
c. Szukania granicy decyzyjnej jako klasyfikatora liniowego prostopadłego do
wyznaczonego kierunku
d. Szukania kierunku dobrze oddzielającego klasy w problemie klasyfikacyjnym z dwoma
klasami

Commented [KC17]: Wykład 5 slajd 28:
Użyć metody agregacji list preferencji (np. Liczenia Bordy)
aby otrzymad nowy ranking.