HD_ED_02

Zastosowanie MBA

Znaleziony wzorzec:

„kto

kto kupuje pieluszki, najcz

ęś

ciej kupuje równie mleko w proszku”

Akcja promocyjna: (typowy trick)

Ogło

obni

cen pieluszek, jednocze

nie podnie

mleka w proszku

Organizacja sklepu:

Staraj si

umieszcza

produkty kupowane wspólnie w przeciwległych

cach sklepu, zmuszaj

c klientów do przej

cia przez cały sklep

MBA

znajduje zastosowanie wsz

dzie tam, gdzie „klienci” nabywaj

cznie

pewien

zbiór

dóbr

lub

usług

(analiza

pogody,

telekomunikacja, bankowo

ść

, diagnostyka medyczna, techniczna)

Model koszyka zakupów

Model koszyka zakupów jest pewna abstrakcja umo

liwiaj

modelowanie relacji wiele-do-wiele pomi

dzy encjami „produkty” i

„koszyki”.

Formalnie, model koszyka zakupów mo

na opisa

za pomoc

tzw.

tablicy obserwacji.

Tablica obserwacji

Dany jest zbiór atrybutów A= {A

, A

, ..., A

} oraz zbiór obserwacji T =

, T

, ..., T

}

TR_id

Tablica obserwacji

Elementy tablicy obserwacji:

Atrybuty tablicy reprezentuj

wyst

pienia encji „produkty”

Wiersze tablicy reprezentuj

wyst

pienia encji „koszyki”

Dodatkowy atrybut TR_id – warto

ciami atrybutu s

identyfikatory

poszczególnych obserwacji

Pozycja T

] = 1 tablicy wskazuje, e i-ta obserwacja zawiera

wyst

pienie j-tego atrybutu

Tablica obserwacji

Elementy tablicy obserwacji:

„koszyki” = studenci, „produkty” = wykłady oferowane przez uczelni

MBA – poszukiwanie wykładów, które studenci wybieraj

najcz

ęś

ciej ł

cznie

„koszyki” = strony WWW, „produkty” = słowa kluczowe

poszukiwanie stron WWW opisanych tymi samymi, lub podobnymi lub
podobnymi, zbiorami słów kluczowych (prawdopodobnie, znalezione strony
dotycz

podobnej problematyki)

Reguły asocjacyjne

Wynikiem analizy koszyka jest zbiór reguł asocjacyjnych postaci

nast

puj

cej relacji:

{(A

= 1)

∧

...

∧

= 1)}

→

{(A

ik+1

= 1)

∧

...

∧

ik+l

= 1)} (1)

Interpretacja reguły:

„je

eli klient kupił produkty A

, A

, ..., A

, to prawdopodobnie kupił równie

produkty A

ik+1

, A

ik+2

, ..., A

ik+l

”

Reguł

asocjacyjn

(1) mo

na przedstawi

jednoznacznie w równowa

nej

postaci

θ → ϕ

: (A

, A

, ..., A

)

→

ik+1

, A

ik+2

, ..., A

ik+l

)

Z ka

reguł

asocjacyjn

θ → ϕ

zwi

zane s

dwie podstawowe miary

okre

laj

ce statystyczn

ść

i sił

reguły:

wsparcie - sup(

θ→ϕ

)

ufno

ść

- conf(

θ→ϕ

)

Reguły asocjacyjne

Statystyczna wa

ść

i siła reguły:

Wsparciem sup reguły asocjacyjnej

θ → ϕ

nazywac b

dziemy stosunek liczby

obserwacji, które spełniaja warunek

θ ∧ ϕ

,do liczby wszystkich obserwacji

(wsparcie reguły = prawdopodobienstwu zaj

cia zdarzenia

θ ∧ ϕ

)

Ufno

conf reguły asocjacyjnej

θ → ϕ

nazywac b

dziemy stosunek liczby

obserwacji, które spełniaja warunek

θ ∧ ϕ

, do liczby obserwacji, które spełniaja

warunek

(ufno

ść

reguły = warunkowemu prawdopodobienstwu p(

θθθθ

)

Klasyfikacja reguł asocjacyjnych
(typ przetwarzanych danych)

na wyró

binarne reguły asocjacyjne

ilo

ciowe reguły asocjacyjne

Reguł

asocjacyjn

nazywamy binarn

, je

eli dane wystepujace w

regule sa danymi (zmiennymi) binarnymi.

Reguł

asocjacyjna nazywamy ilosciow

, je

eli dane wystepujace w

regule sa danymi ciagłymi i/lub kategorycznymi

Klasyfikacja reguł asocjacyjnych
(typ przetwarzanych danych)

Binarna reguła asocjacyjna:

pieluszki = 1

→

mleko w proszku=1

(reprezentuje współwyst

powanie danych)

Ilo

ść

iowa reguła asocjacyjna:

wiek = ’30...40’

∧

wykształcenie = ‘wy

sze’

→

opcja_polityczna =‘demokrata’

(reprezentuje współwyst

powanie wartosci danych

Klasyfikacja reguł asocjacyjnych
(wymiarowo

ść

przetwarzanych danych)

na wyró

jednowymiarowe reguły asocjacyjne

wielowymiarowe reguły asocjacyjne

Regułe asocjacyjn

nazywamy jednowymiarow

, je

eli dane

wyst

puj

ce w regule reprezentuj

sam

dziedzin

warto

Reguł

asocjacyjna nazywamy wielowymiarow

, je

eli dane

wyst

puj

ce w regule reprezentuj

ró

ne dziedziny warto

Klasyfikacja reguł asocjacyjnych
(wymiarowo

ść

przetwarzanych danych)

Jednowymiarowa reguła asocjacyjna:

pieluszki = 1

→

mleko w proszku=1

(reprezentuje współwyst

powanie danych)

Wielowymiarowa reguła asocjacyjna:

wiek = ’30...40’

∧

wykształcenie = ‘wy

sze’

→

opcja_polityczna =‘demokrata’

(reprezentuje współwyst

powanie warto

ci danych

Stopie

abstrakcji przetwarzanych

Jednopoziomowa reguła asocjacyjna:

pieluszki_Pampers = 1

→

mleko_Bebiko2 =1

Wielopoziomowa reguła asocjacyjna:

pieluszki_Pampers = 1

∧

mleko_Bebiko2 =1

→

ywno

ść

_dla_niemowl

t = 1

(produkt

ywno

ść

_dla_niemowl

t reprezentuje pewna abstrakcj

generalizacja okre

lonych produktów)

Odkrywanie binarnych reguł
asocjacyjnych

Dane:

I={i

, i

, ..., i

}: zbiór literałów, nazywanych dalej elementami

Transakcja T: zbiór elementów, takich

e T

⊆

I i T

≠ ∅

Baza danych D: zbiór transakcji

Transakcja T wspiera element x

∈

I, je

eli x

∈

Transakcja T wspiera zbiór X

⊆

I, je

eli T wspiera ka

dy element ze zbioru

X, X

⊆

Reguły asocjacyjne – miary

Binarna reguła asocjacyjna

Binarn

reguł

asocjacyjn

(krótko, reguł

asocjacyjn

) nazywamy relacj

postaci X

→

Y, gdzie X

⊂

I, Y

⊂

I, i X

∩

Y =

∅

Wsparcie

Reguła X

→

Y posiada wsparcie sup w bazie danych D, 0

≤

sup

≤

1,je

eli

sup% transakcji w D wspiera zbiór X

∪

Ufno

ść

Reguła X

→

Y posiada ufno

ść

conf w bazie danych D, 0

≤

conf

≤

1,je

eli

conf% transakcji w D, które wspieraj

zbiór X, wspieraj

równie

Reguły asocjacyjne – miary

Wsparcie (X

→

oznacza liczb

transakcji w bazie danych, które potwierdzaj

dan

reguł

–

miara wsparcia jest symetryczna wzgl

dem zbiorów stanowi

cych

poprzednik i nast

pnik reguły

Ufno

ść

→

oznacza stosunek liczby transakcji zawieraj

cych X

∪

Y do liczby transakcji

zawieraj

cych Y – miara ta jest asymetryczna wzgl

dem zbiorów

stanowi

cych poprzednik i nast

pnik reguły

Reguły asocjacyjne – miary

Ograniczenia miar (definiowane przez u

ytkownika):

Minimalne wsparcie – minsup

Minimalna ufno

ść

– minconf

Mówimy,

e reguła asocjacyjna X

→

Y jest silna je

eli

sup(X

→

≥

minsup i conf(X

→

≥

minconf

Dana jest baza danych transakcji. Nale

y znale

źć

wszystkie silne binarne

reguły asocjacyjne

Trans_Id

Produkty

100

A, B, C

200

A,C

300

A,D

400

B,E,F

Reguły asocjacyjne – miary-przykład

Dana jest baza danych transakcji. Nale

y znale

źć

wszystkie silne binarne

reguły asocjacyjne

Zakładaj

c minsup = 50% oraz minconf = 50% (tylko takie nas interesuj

)

w przedstawionej bazie danych mo

na znale

źć

nast

puj

ce reguły asocjacyjne:

→

C sup = 50%, conf = 66,6 %

→

A sup = 50%, conf = 100%

jeszcze inne miary reguł asocjacyjnych (Coviction, Lift, Interest)

Trans_Id

Produkty

100

A, B, C

200

A,C

300

A,D

400

B,E,F

Algorytm naiwny

Dany jest zbiór elementów I i baza danych D

Wygeneruj wszystkie mo

liwe podzbiory zbioru I i nast

pnie, dla ka

dego

podzbioru oblicz wsparcie tego zbioru w bazie danych D.

Dla ka

dego zbioru, którego wsparcie jest wi

ksze/równe minsup, wygeneruj

reguł

asocjacyjn

– dla ka

dej otrzymanej reguły oblicz ufno

ść

reguły

Liczba wszystkich mo

liwych podzbiorów zbioru I wynosi 2|I| - 1 (rozmiar I

≈

200 000 elementów)

Ogólny algorytm odkrywania reguł
asocjacyjnych

Znajd

wszystkie zbiory elementów

={i

, i

, ..., i

⊆

I, których wsparcie(L

) minsup

Zbiory Li nazywa

dziemy zbiorami cz

stymi

Korzystaj

c z Algorytmu 1.2 i znalezionej kolekcji

zbiorów cz

stych wygeneruj wszystkie reguły asocjacyjne)

Algorytm 1.1 składa si

z dwóch kroków. W pierwszym kroku znajdowane s

wszystkie zbiory cz

ste, które reprezentuj

zbiory elementów wyst

puj

cych

wspólnie w transakcjach. W kroku drugim, na podstawie znalezionych
zbiorów cz

stych, generowane s

wszystkie silne binarne reguły

asocjacyjne, których ufno

ść

jest nie mniejsza ni

zadany próg minimalnej

ufno

ci minconf

Ogólny algorytm odkrywania reguł
asocjacyjnych

Znajd

wszystkie zbiory elementów

={i

, i

, ..., i

⊆

I, których wsparcie(L

) minsup

Zbiory Li nazywa

dziemy zbiorami cz

stymi

Korzystaj

c z Algorytmu 1.2 i znalezionej kolekcji

zbiorów cz

stych wygeneruj wszystkie reguły asocjacyjne

Algorytm składa si

z dwóch kroków. W pierwszym kroku znajdowane s

wszystkie zbiory cz

ste, które reprezentuj

zbiory elementów wyst

puj

cych

wspólnie w transakcjach. W kroku drugim, na podstawie znalezionych
zbiorów cz

stych, generowane s

wszystkie silne binarne reguły

asocjacyjne, których ufno

ść

jest nie mniejsza ni

zadany próg minimalnej

ufno

ci minconf

Ogólny algorytm odkrywania reguł
asocjacyjnych-alg 1.2

for each zbioru czestego Li do

for each podzbioru subLi zbioru Li do

if wsparcie(Li)/wsparcie(subLi)

≥

minconf

then

output reguła subLi

→

(Li-subLi)

conf(subLi

→

(Li-subLi)) =

support(Li)/support(subLi),

sup(subLi

→

(Li-subLi)) = support(Li)

W ostatnim kroku algorytmu wygenerowane reguły s

poddawane

analizie. W zbiorze wynikowym pozostan

tylko te reguły , kt

rych

wsp

łczynnik ufno

ci b

dzie co najmniej tak dobry jak minimalny pr

wsparcia. W ten spos

b otrzymujemy tylko silne reguły asocjacyjne.