background image

Metody statystyczne w analizie 
danych marketingowych
 

Magdalena Jabłońska 
mjablonska2@swps.edu.pl 

background image

Kwestie organizacyjne:  

 

E-learning:  

-

hasło: predyktor  
 

Obecność:  

-

2 nieobecności  
 

background image

Zaliczenie 

Moduł: 45 z 100 punktów   
 

-

Test: 25 punktów 

-

Raport z badań: 15 punktów 

-

Zadanie domowe: 5 punktów 
 

Zakres pytań: prezentacje + informacje 
przekazane podczas ćwiczeń 

background image

Tematyka poruszana podczas zajęć:  

1.

Marketing i pytania statystyczne.  

2.

Ogólny model liniowy i regresja wieloraka.  

3.

Regresja logistyczna.  

4.

Metody 

redukcji 

wymiarów 

(analiza 

głównych 

składowych, analiza czynnikowa).  

5.

Pozycjonowanie (analiza dyskryminacyjna, skalowanie).  

6.

Metody  klasyfikacji  (segmentacja,  analiza  skupień, 
analiza drzew hierarchicznych).  

7.

Podsumowanie zajęć, prezentacje.  

background image
background image

Badania marketingowe  

(Definicja American Marketing Association): 

 

funkcja  wiążąca  konsumenta,  klienta  i  opinię  publiczną  z 

menedżerem 

marketingu 

poprzez 

informację 

wykorzystywaną do  

identyfikowania  i  wykorzystywania  marketingowych 

szans i zagrożeń, 

tworzenia, 

doskonalenia 

oceny 

działań 

marketingowych, 

monitorowania wyników marketingu. 

Badanie  marketingowe:  określa  jakie  informacje  są 

niezbędne, projektuje metodę zbierania informacji, wdraża 

proces 

zbierania 

danych, 

analizuje 

wyniki

komunikuje wyniki oraz wnioski 

 

background image

Eric Schmidt 

„Co  każde  dwa  dni 
tworzymy 

tyle 

informacji  co  od 
początku  cywilizacji 
do 2003 roku”.   

background image

Eksploracja danych 
Data Mining 

 

Analiza  (często  ogromnych)  zbiorów  danych 
obserwacyjnych w celu znalezienia nieoczekiwanych 
związków  i  podsumowania  danych  w  oryginalny 
sposób 

Tak  aby  były  zarówno  zrozumiałe,  jak  i  przydatne 
dla ich właściciela  

background image

Typowe zadania w analizie danych: 

Klasyfikacja: ocena cech nowego obiektu i 

przewidywanie do jakiej wcześniej zdefiniowanej klasy 

będzie należał. 

– np. skoring finansowy dla kredytów, skoring marketingowy 

akceptacji nowej oferty,  przynależność do grupy segmentacyjnej. 

 

Estymacja: ocena wartości pewnej ciągłej zmiennej na 

podstawie innych zmiennych.  

-

np. ocena wartości transakcji z konsumentem (life – time value 

CLV

 

Predykcja: przewidywanie przyszłych wartości na 

podstawie danych historycznych (może to być estymacja 

lub klasyfikacja) 

-

np. przewidywanie akceptacji nowych ofert, ryzyko odejścia, 

przyszłe wartości kursów akcji 

 

 

background image

Tworzenie reguł asocjacyjnych:  poszukiwanie zależności, które 
da się przedstawić w postaci „jeżeli A, to B”.  

-      np. przygotowywanie ofert cross – selling i up – selling, organizacja 
towaru na półkach 

 
Łączenie w grupy (clustering):
 poszukiwanie grup obiektów, 
które pod jakimś względem są podobne do siebie i łączenie ich 
grupy (liczba grup nie jest znana z góry) 

- np. poszukiwanie segmentów konsumentów, analiza podobieństwa 

produktów 

 

Tworzenie profili: opisywanie zależności w zbiorze danych w 
sposób ułatwiające zrozumienie 

-     np. opis cech wyborców głosujących na polityków danej partii, opis cech 
osób często kupujących produkt X 

 

background image

Analizy danych i pytania marketingowe 

background image

 

Metody wykorzystywane w analizie danych: 

 

Metody matematyczne, wykorzystujące operacje na wartościach 
cech obiektów: 
 

regresja liniowa, regresja logistyczna, analiza dyskryminacyjna, 

analiza głównych składowych, sieci neuronowe, klasyfikacja bayesowska 

 
Metody dystansowe, polegają na znalezieniu najbliższych 
sąsiadów (najbardziej podobne) i określeniu cech obiektu na 
podstawie cech sąsiadów 
 

hierarchiczna analiza skupień, analiza skupień metodą k – 

średnich, skalowanie wielowymiarowe 

 
Metody logiczne – łączą informacje z próby wykorzystując 
operatory prawda / fałsz 
 

analiza drzew hierarchicznych 

 

background image

Metody matematyczne 
 

Regresja liniowa 

 
Przykład: Temperatura w miastach amerykańskich jest 
zależna liniowo od szerokości geograficznej na północ 

background image

 
1. Czym jest model? 
Model jest równaniem, zmienna zależna ma charakter ilościowy, zmienne 
niezależne są ilościowe, zmienne jakościowe mogą być wykorzystane jako 
wskaźnikowe 
 
2. Algorytm budowania modelu 
Metoda najmniejszych kwadratów – minimalizacja sumy kwadratów 
odchyleń wartości wykorzystanych do modelowania od wartości w modelu 
 
3. Wynik modelowania 
Równanie, opisujące wartości zmiennej zależnej jako liniową kombinacją 
zmiennych niezależnych 
 
4 Wskaźnik dopasowania modelu 
Wartość R kwadrat,  czyli proporcja sumy kwadratów dla wartości 
opisanych przez równanie regresji do całkowitej sumy kwadratów 
(najczęściej w wersji skorygowanej, po uwzględnieniu liczby obiektów i 
liczby predyktorów) 

background image

5. Upraszczanie modelu 
Zmiana liczby predyktorów (na podstawie wartości testu F i ew. 
testu t)  
 
 
6. Założenia 
Dane o charakterze przedziałowym (?), predyktory nie są 
współliniowe (VIF i tolerancja), reszty mają rozkład normalny 
(warto przeprowadzić analizę reszt) 
 

background image

 
Model dystansowy:  

Hierarchiczna analiza skupień 

 
Przykład 
 
Jak bardzo karpie różnią się  
między sobą 
 
 

background image

Plik:  
small-
cluster.sav 

Jak bardzo psy różnią się między sobą?  

background image

1. Czym jest model? 

 

Model jest grafem obrazującym relacje podobieństwa między 
testowanymi obiektami 
 
2. Algorytm budowania modelu 
 
Kolejne kroki łączenia obiektów w pary na podstawie wyliczonych 
wartości „geometrycznego podobieństwa” w przestrzeni N-1 wymiarowej 
 

background image

 
3. Wynik modelowania 
Najważniejszym wynikiem modelowania jest dendrogram obrazujący 
kolejność łączenia obiektów oraz odległości między nimi (także w 
postaci tabeli jako przegląd aglomeracji) 
 

4. Wskaźnik dopasowania modelu 
Jako wskaźnik dopasowania modelu można wykorzystać testy F dla 
poszczególnych analizowanych zmiennych po przypisaniu badanym 
obiektom kategorii skupień 

5. Upraszczanie modelu 
HAS przedstawia podobieństw między wszystkimi obiektami wychodząc 
od N skupień (tyle ile jest obiektów) do jednego skupienia. Trudno jest 
podać analityczne metody odcięcia drzewa skupień na jakimś poziomie 
 
6. Założenia 
Wykonanie HAS jest możliwe, gdy liczba danych jest odpowiednio 
większa od liczby wymiarów (50%) oraz gdy jest sensowne traktowanie 
relacji między obiektami jako odległości 

background image

Ad 1. Algorytm budowania modelu: dendrogram jest 
tworzony w wyniku iteracji, czyli analizy podobieństwa w 
kolejnych krokach. 
 
Analiza podobieństwa jest zależna od definicji metryki 
podobieństwa (jak w MDS) 

Podobieństwo między ob. 5 i ob. 6 jest wyższe niż między 3 i 4 
(linie pionowe na dendrogramie są krótsze) 

background image

Ad 2. Wynik modelowania: klienci banku połączeni w 
hierarchiczne grupy  
 
Jak można wykorzystać te dane, aby uzyskać maksimum korzyści? 

background image

Po podziale badanych obiektów na grupy można sprawdzić, jakie są 
cechy (wartości wymiarów) w tych grupach 

background image

Ad 3. Wskaźnik dopasowania: skupienia można potraktować 
jako kategorie (zmienne niezależne) w Anova i sprawdzić czy 
tak utworzone grupy istotnie różnią się między sobą 

background image

Metody logiczne   

Analiza drzew hierarchicznych 

 
Drzewa wykorzystywane są głównie w przypadku 
segmentacji 
 
 

Dochód w zależności 
od cech 
demograficznych 

background image

1. Czym jest model? 

 

Hierarchiczny graf obrazujący przynależność do kategorii jakościowej 
zmiennej zależnej na podstawie wartości zmiennych niezależnych, które 
mogą być jakościowe i ilościowe 
 
2. Algorytm budowania modelu 
 
Model najczęściej tworzony jest przez rekurencyjne tworzenie drzewa, w 
którym każdy obiekt jest końcowym „liściem” a potem drzewo jest 
przycinane, tak, aby utrzymać na odpowiednim poziomie procent 
poprawnych klasyfikacji 
 

background image

5. Upraszczanie modelu 
Upraszczanie modelu polega na przycinaniu drzewa i z reguły jest 
wykonywane automatycznie przez algorytm obliczeniowy 
 
6. Założenia 
Zmienna zależna musi być jakościowa. Nie ma założeń, co do 
charakteru ZN (choć może być potrzeba równoważenia zbioru 
danych). 

3. Wynik modelowania 
Wynikiem modelowania jest graf obrazujący drzewo, który może być 
przestawiony także w postaci reguł „Jeżeli …., to …” 

4. Wskaźnik dopasowania modelu 
Podstawowym wskaźnikiem modelu jest procent poprawnych i 
błędnych klasyfikacji (czasem także możliwe jest obliczenie kosztów 
takich klasyfikacji i ważności predykatów)  

background image

SPSS 22 

 

Analiza drzew hierarchicznych 

background image

SPSS 22 

 

Analiza drzew hierarchicznych 

Definiujemy wybrane 
zmienne.  
 

UWAGA!  

Zmienna zależna musi 
być kategorialna 

background image
background image

+ dodano zmienną age 

background image
background image

Ta

Ta

Ni

Ni

Wyniki drzewa można opisać przy pomocy reguł: 
Jeżeli A i B i C …, to X (gdzie X jest nazwą kategorii) 

Ocena drzewa – wykres klasyfikacji 

background image

Metody sprawdzania dopasowania modelu klasyfikacji 
 
1. Podział na próbę uczącą i próbę testową 

background image

Walidacja krzyżowa