Dr Jacek Bazarnik
jacek.bazarnik@uek.krakow.pl
Uniwersytet Ekonomiczny w Krakowie
Informatyka
w turystyce i rekreacji
(3)
CRM analityczny
Jacek Bazarnik
“Kluczem do biznesu jest wiedzieć to, czego nikt inny
nie wie.”
— Aristotle Onassis
Źródło: A. Mazur, K. Jaworska, D. Mazur, CRM Zarządzanie Kontaktami z klientami,
Madar, Zabrze
Moduły CRM
CRM analityczny
CRM analityczny - przechowuje, przechwytuje, przetwarza i
interpretuje dane o klientach, tworząc z nich raporty. Dane te
mogą być przechwytywane z wielu źródeł a przechowuje się je w
hurtowniach danych . Dane poddawane są skomplikowanym
analizom statystycznym, których wyniki pomagają zrozumieć
potrzeby i zachowania klientów, a wartością podstawą takiej
aplikacji jest zdolność
personalizacji analiz pod kątem
korzystającego z niej uŜytkownika.
ERP
Internet
Zastane
systemy
Pozyskiwanie
danych
Magazyn
danych
Zarządzanie danymi
przedsiębiorstwa
Magazyn danych
operacyjnych
Systemy operacyjne
Dostarcza
nie
danych
Magazyn danych
przeszukiwanych
Magazyn danych
analitycznych
Magazyn danych
zbiorczych
Zarządzanie meta danymi
Inne
Zewnętrzny
Data Mining
Raporty
Wizualizacja
Modele
CRM analityczny
Aplikacje analitycznego CRM dotyczą przygotowania,
wsparcia i optymalizacji wewnętrznych i zewnętrznych
procesów decyzyjnych zorientowanych na klienta.
W systemy te wkomponowane są specjalne moduły do analizowania
danych o klientach. W zaleŜności od specyficznych funkcji moduły te
naszą róŜne nazwy:
Business Intelligence,
Customer Inteligence,
Customer Insight,
Data Mining,
Data Warehousing,
OLAP.
Business Intelligence
Termin ten odnosi się do umiejętności zbierania,
ekstrapolowania, interpretowania i analizowania
duŜej ilości danych dotyczących klientów,
dostawców, rynków, procesów wewnętrznych
i środowiska biznesowego.
Business Intelligence obejmuje szerokie
spektrum technologii:
- narzędzia OLAP (On-Line Analytical Processing) -
oprogramowanie umoŜliwiające analizę wielowymiarową danych
biznesowych w czasie rzeczywistym,
- narzędzia eksploracji danych (Data miting) – algorytmy do
automatycznej analizy duŜych wolumenów danych zarówno
ilościowych jak i jakościowych,
- narzędzia zarządzania wiedzą (Knowledge management) –
umoŜliwiające składowanie, indeksowanie, i analize dokumentów
tekstowych oraz powiązanie ich z innymi danymi
- narzędzia zarządzania danymi (Data Warehousing) -
umoŜliwiają ujednolicenie, uporządkowanie i powiązanie danych
zgromadzonych z róŜnorodnych systemów informatycznych
przedsiębiorstwa
Technologia OLAP –
On Line Analilytical Processing
(Systemy Analitycznego Przetwarzania na Bie
Ŝą
co)
Wykorzystywana ona jest do wspierania
bardziej zaawansowanych systemów typu
SIK oraz systemów wspomagania decyzji.
Systemy tego typu wymagają bardzo
szybkiego dostępu do wielkich i coraz
większych zbiorów danych
Hurtownie danych
(Data Warehouse)
Hurtownie danych, w sensie strukturalnym i funkcjonalnym,
to na ogół wielowymiarowe, dedukcyjne bazy danych.
Gromadzone dane mają często charakter wirtualny a ich
struktury zaprojektowano tak aby moŜliwe było
zaspakajanie juŜ zdefiniowanych lub potencjalnych
potrzeb informacyjnych uŜytkowników.
Dzięki temu moŜliwe jest udostępnianie wymaganej
informacji natychmiast, tj. w ciągu kilku sekund, oraz
prowadzenie złoŜonych analiz i symulacji typu „co jeśli”.
Technologia exploracji danych
(Data Mining)
Stosowana ona jest do odkrywania (wydobywania) i
udostępniania uŜytkownikom uogólnionych reguł i
wiedzy zawartych w bardzo duŜych bazach danych. W
tej metodzie nie poszukuje się określonych
elementarnych informacji, ale zadaje pytanie, czy w
zgromadzonych danych występują jakieś korelacje oraz
trendy i jakie one są
Szczególnie istotne w tej technologii jest to, Ŝe programy
realizujące te funkcje działają autonomicznie i operują
na zawartości baz wiedzy oraz, Ŝe poszukują korelacji
pomiędzy wartościami określonych atrybutów oraz
wskazują atrybuty pomiędzy którymi zachodzą jakieś
korelacje.
Segmentacja i klasyfikowanie klientów.
Na przykład moŜe pomóc sklasyfikować klientów w następujących
segmentach:
Klienci, którzy mają podobne zachowania zakupowe (co do
częstości, wielkości i struktury zakupów)
Klienci, którzy reagują na nowe promocje,
Klienci, którzy reagują na wprowadzenie na rynek nowych
produktów,
Klienci, którzy reagują na obniŜki,
Klienci, którzy okazują skłonność do kupowania specyficznych
produktów.
Business Intelligence
Analiza skuteczności kampanii promocyjnej
Analiza skuteczności kampanii promocyjnej moŜe dawać
odpowiedzi na pytania takie jak:
Które kanały medialne odniosły największy sukces w przeszłości
dla róŜnych kampanii?
Które lokalizacje geograficzne dobrze zareagowały na
poszczególne kampanie?
Jakie były względne koszty i korzyści z tej kampanii?
Które segmenty klientów zareagowały na kampanię?
Business Intelligence
SprzedaŜ krzyŜowa (cross-selling):
Detaliści dzięki analizom BI dostają odpowiedź na następujące
pytania:
Jakie produkty są razem kupowane?
Jakie produkty są razem kupowane przez podobnych klientów?
Czym róŜnią się klienci którzy kupili dany produkt od tych , którzy
nie kupili?
Jakie produkty jest skłonny kupić dany klient?
Jaki produkt powinien być zaoferowany klientowi w przyszłości?
Którzy klienci chętnie kupują dany produkt – profilowanie?
Jak długa jest przerwa między zakupami?
Business Intelligence
Analiza LTV (Lifetime value ).
Analiza lojalności klienta.
Prognozowanie churn
Analiza koszykowa
Zarządzanie kategorią (Stock Keeping Unit - SKU)
Analiza Braków
Business Intelligence
Ustalanie ceny produktu:
Korzystając z hurtowni danych i eksploracji danych, detaliści mogą
opracowywać złoŜone modele cenowe dla róŜnych produktów, które
mogą ustalać relację cena - sprzedaŜ dla produktu i sposób, w jaki
zmiany w cenach wpływają na sprzedaŜ innych produktów.
Marketing docelowy
Handlowcy mogą optymalizować wysiłki związane z ogólnym
marketingiem i promocją przez kierowanie kampanii do konkretnych
klientów albo grup klientów. Marketing docelowy moŜe opierać się na
bardzo prostej analizie zwyczajów zakupowych klientów albo grup
klientów; jednak coraz częściej narzędzia eksploracji danych są
uŜywane do określania konkretnych segmentów klientów, które
prawdopodobnie zareagują na określone typy kampanii.
Business Intelligence
Analiza Web Logów
z jakiego adresu domenowego lub IP łączył się uŜytkownik,
jakiej przeglądarki uŜywał,
datę i czas nawiązania sesji z poszczególnymi planszami serwisu
internetowego,
liczbę wizyt wykluczając jednocześnie odwiedziny powtarzające
się z tego samego komputera,
ilość pobranych informacji i liczbę ściągniętych plików,
za pomocą jakiego słowa kluczowego uŜytego w wyszukiwarce
została odnaleziona strona,
stronę, z której uŜytkownik przeszedł do serwisu,
informację jak często uŜytkownik oglądał dany produkt zanim
dokonał jego zakupu.
Business Intelligence
Nawigacja w sieci
Analiza typowych ścieŜek, którymi podąŜają uŜytkownicy poruszając
się po witrynach internetowych
Analiza odnośników
Analiza witryn, które skutecznie przekierowują uŜytkowników do
witryny internetowej firmy.
Analiza błędów
Analiza błędów, na które natykają się uŜytkownicy podczas
poruszania się po witrynie internetowej
Analiza słów kluczowych
Analiza najpopularniejszych słów kluczowych wpisywanych przez
uŜytkowników w wyszukiwarki internetowe, w celu odnalezienia
handlowych witryn internetowych sprzedawców.
Business Intelligence
Web housing:
Dyskretne poznawanie zainteresowań odwiedzających stronę, profile
uŜytkowników są przetwarzane w czasie rzeczywistym jak tylko
przybywa więcej informacji zachowaniach internauty.
Automatyczne dobieranie reklam do zainteresowań odwiedzających.
Przedstawiać w rzeczywistym czasie odpowiedź na pytanie: ”Czy ten
klient zdecyduje się na zakup?”
Przedstawiać w rzeczywistym czasie szacunek moŜliwości: „Ile
klient jest gotów wydać pieniędzy?”
Business Intelligence w internecie
Web housing:
Przewidywać kiedy klient chce opuścić stronę i dostarczyć zachętę
aby został na stronie.
Identyfikować i prowadzić sprzedaŜ krzyŜową.
Wyjawiać typy strumienia kliknięć na stronę. „Jaką ścieŜką klienci
zazwyczaj podąŜają?”, „Jaką ścieŜką podąŜają najbardziej cenni
uŜytkownicy?” „W jaki sposób trafili na stronę?”
analizy w czasie rzeczywistym wykonywane są w oparciu o
technologie OLAP (On Line Analythical Processing)
Business Intelligence w internecie
Typowe zbiory danych
Strukturalne zbiory danych
Dane o zachowaniach internautów
Niestrukturalne zbiory danych tekstowych
Metody pozyskiwania informacji o
internautach
cookie
analiza logów serwera
rejestracja uŜytkowników
Cookie (dos
ł
.ciastko)
Jest to porc ja informa cji wysyłana przez serwer do
prz egląda rki uŜytkow nika. Prze glą darka informac ję tę
z achow uje i na polece nie serwera udostępnia.
Po na da niu polece nia w yświe tlenia strony przez
prz egląda rkę serwe r kie ruje odpow iedni dokument
w raz z c ookie który wystę puje jako e leme nt nagłówka
H TTP . Na stępnie prze glądarka informac ję tę
z atrzymuje na dysku uŜytkownika. W przypadku
kolejnej wizyty internauty na tej samej stronie WWW
serwer otrzyma za pisany c ookie, który pozwoli mu
odtworzyć poprze dni stan strony.
log serwera
• jest to informacja, jaką przekazuje
serwerowi komputer uŜytkowni ka przy
kaŜdym połączeniu, moŜe zawierać róŜne
dane (np. numer IP)
Elementy danych
Dane adresowe
Dane klienta – typ i status
Dane o transakcjach
Charakterystyki demograficzne
Rejestracja akcji promocyjnych
Prawdopodobne wpływy zewnętrzne
Dane dotyczące uŜycia telefonu
Dane wywnioskowane
Negatywne elementy danych
Ź
ródła pozyskiwania danych
adresowych
Bazy
stworzone
od
podstaw
(komercyjne)
przeznaczone na sprzedaŜ lub do wynajęcia.
Bazy własnych klientów.
Bazy skompilowane z mniejszych baz.
Bazy instytucji publicznych i firm państwowych, np.
ZUS, firm ciepłowniczych, abonentów telefonicznych,
uczniów szkół wyŜszych;
Bazy nazwisk pozyskanych w czasie promocji
sprzedaŜy
Baza PESEL - czyli powszechny, elektroniczny spis
ludności. Jej uŜywanie do celów komercyjnych jest
wyraźnie zabronione przez prawo. PESEL sprzedaje
adresy, ale tylko do badań rynku i opinii publicznej.
Ź
ródła pozyskiwania danych
marketingowych
Rejestracja zakupów
Informacje z biur obsługi i call center
Tworzenie bazy danych w ramach promocji
sprzedaŜy.
Karty stałego klienta
Oferty w gazetach i czasopismach
Wykorzystanie reklamy bezpośredniej realizowanej
przez pocztę do tworzenia bazy danych
Wspólne oferty pocztowe,
Wielkie bazy danych
•
wielkie bazy danych (Very Large Databases) i magazyny
danych (Data Warehouses)
•
rozmiary współczesnych systemów baz danych
–
sieć sprzedaŜy Wal-Mart gromadzi dziennie dane dotyczące ponad
20 milionów transakcji
–
koncern Mobil Oil rozwija magazyn danych pozwalający na
przechowywanie ponad 100 terabajtów danych o wydobyciu ropy
naftowej
–
system satelitarnej obserwacji EOS zbudowany przez NASA
generuje w kaŜdej godzinie dziesiątki gigabajtów danych
–
niewielkie supermarkety rejestrują codziennie sprzedaŜ tysięcy
artykułów
tak wielkie wolumeny danych są trudne w analizowaniu
Problem normalizacji
Problem waŜności cech (detrminant)
Problem wspólnej wariancji
Problem współzaleŜności cech – brak ortogonalności
W teorii im więcej danych tym lepiej.
JednakŜe w praktyce rodzi to kilka problemów
metodologicznych.
5
10
5
10
x
y
5
10
5
10
x
y
Ortogonalno
ść
Ortogonalno
ść
zmiennych
zmiennych
Nadmiar informacji
Przyrost ilo
ś
ci dziennych informacji na jednego e-pracownika
1970
1980
1990
2000
64x
Dzi
ś
otrzymujemy 64 razy wi
ę
cej informacji ni
Ŝ
w
roku 1970!
Ludzkie mo
Ŝ
liwo
ś
ci
Ź
ródło: Executive Systems Research Center
Data Mining - Eksploracja
danych
Eksploracja danych (Data Mining): zbiór technik
automatycznego odkrywania nietrywialnych
zaleŜności i schematów w duŜych zbiorach danych
(bazach danych)
Eksploracja danych (Data Mining) często
nazywana jest równieŜ odkrywaniem wiedzy w
bazach danych (Knowledge Discovery in
Databases) lub eksploracją baz danych (Database
Mining) i coraz częściej Customer Intelligence
DANE
DATA
MINING
SCHEMATY
Geneza Data Mining
Zmiany w otoczeniu biznesowym
Konsumenci staj
ą
si
ę
bardziej wymagaj
ą
cy
Rynki s
ą
nasycone
Dzisiejsze bazy danych s
ą
ogromne:
Wi
ę
cej ni
Ŝ
1,000,000 rejestrów
Od 10 do 10,000 zmiennych
Gigabajty i terabajty
Bazy danych rosn
ą
do bezprecedensowych
rozmiarów
Decyzje musz
ą
by
ć
podejmowane natychmiastowo
Podejmowane decyzje musz
ą
by
ć
poparte rozległ
ą
wiedz
ą
Data Mining
Niebanalne wydobycie nowej, bezwarunkowej i zdolnej
do działania wiedzy z ogromnych zbiorów danych.
Technologia umoŜliwiająca badanie, analizowanie i
wizualizację danych z ogromnego zbioru danych w
znacznym stopniu abstrakcyjnych, bez wymyślania
specyficznych hipotez.
Wyszukane umiejętności przeszukiwania danych
umoŜliwiające uŜycie statystycznych algorytmów do
odkrywania wzorów i współzaleŜności w danych.
Data Mining (składniki)
Sk
ą
d pochodzi
Data Mining
Mechanizm
nauczania
Bazy danych
Wizualizacja
Stosowane
statystyki
Rozpoznanie
wzorca
Analogiczne
algorytmy
Wysoko
wyspecjalizowane
komputery
Data Mining (składniki)
Data Mining jest krokiem do zdobycia wiedzy w
procesie przekształcania baz danych (Knowledge
Discovery in Databases) KDD
–
Gromadzenie danych
–
Selekcja danych
–
Wstępne przetwarzanie danych
–
Transformacja danych
–
Data Mining – Wydobywanie danych
–
Interpretacja/Opracowanie danych
Data Mining jest czasem nazywane odkrywaniem
wiedzy w procesie przekształcania baz danych
KDD. Obydwa terminy stosuje się zamiennie.
Data Mining nie jest …
Gromadzeniem danych
Sprawozdaniem ( SQL/Ad Hoc Queries)
Przedstawieniem oprogramowania
(Software Agents)
Komputerowym procesem analizowania
(Online Analytical Processing – OLAP)
Prezentowaniem danych
Zastosowanie Data Mining:
Sprzeda
Ŝ
detaliczna
Przedstawienie wyników analizy
–
Które produkty klienci starają się nabywać razem. Ta
wiedza moŜe podnieść obroty, polepszyć strategię
sprzedaŜy i wpłynąć na lepszą promocję.
Prognozy handlowe
–
Badanie wyników opartych na czasie pomaga
sprzedawcom podjąć decyzje związane z dostawą.
Jeśli klient kupuje produkt dzisiaj, kiedy zakupi
podobny?
Zastosowanie Data Mining:
Sprzeda
Ŝ
detaliczna
Database marketing
–
Sprzedawcy mogą stworzyć profile konsumentów o
pewnych zachowaniach, na przykład, ci którzy kupują
markową odzieŜ lub ci, którzy po prostu kupują. Takie
informacje mogą być uŜywane do skupiania się na
promocjach nie wymagających duŜych nakładów
finansowych.
Planowanie i przydział towarów
–
Kiedy sprzedawcy otwierają nowe sklepy mogą
ulepszyć planowanie i przydział towarów przez
sprawdzenie wzorów w sklepach o podobnych cechach
demograficznych. Sprzedawcy mogą równieŜ uŜyć
data mining do ustalenia idealnego układu dla
konkretnego sklepu.
Zastosowanie Data Mining:
Bankowo
ść
Marketing kart kredytowych
–
Przez identyfikację segmentów klientów, wydawców kart kredytowych i ich
nabywców moŜna polepszyć dochodowość z duŜo większą skutecznością
programów zdobywania i dochodów, z ukierunkowanym rozwojem produkcji i
negocjowanymi cenami.
Ceny i dochodowość posiadaczy kart kredytowych
–
Wydający karty kredytowe mogą skorzystać z technik data mining do wyceny
swoich produktów tak aby zmaksymalizować dochody ale zminimalizować
straty klientów, zawierając cenę ryzyka.
Wykrywanie fałszerstw
–
Fałszerstwa są ogromnie kosztowne. Przez analizowanie minionych transakcji,
które później okazały się fałszywymi, banki mogą odkryć schemat oszustw.
Przez analizowanie minionych transakcji, wychwytuje on-line próby
oszustwa.
Zarządzanie przewidywaniem cyklu Ŝycia
–
Data Mining pomaga bankom przewidzieć cykl Ŝycia kaŜdego klienta i
zaoferować odpowiedni przedział np. oferując specjalne umowy i rachunki
bankowe.
Zastosowanie Data Mining:
Telekomunikacja
Analiza szczegółowych rejestrów rozmów
telefonicznych
–
Firmy telekomunikacyjne gromadzą szczegółowe rejestry
rozmów telefonicznych. Przez identyfikację przedziałów
klientów o podobnym charakterze korzystania z usług
telekomunikacyjnych operatorzy mogą stworzyć atrakcyjną
ofertę i przygotować dostosowane do klientów promocje.
Lojalność konsumentów
–
Niektórzy klienci ciągle zmieniają dostawców usług
telekomunikacyjnych by skorzystać z konkurencyjnych
ofert operatorów. Firmy mogą wykorzystać z Data Mining
do określenia profilu klientów, którzy najprawdopodobniej
będą lojalni wobec raz wybranej firmy telekomunikacyjnej,
co umoŜliwi im trafienie z ofertą do tych klientów, którzy
przyniosą największy dochód.
Zastosowanie Data Mining:
Inne zastosowania
Segmentacja klientów
–
Wszystkie rodzaje biznesu mogą czerpać korzyści z
Data Mining do odkrywania segmentów ich klientów
rozwaŜając dodatkowe zmienne leŜące poza tradycyjną
analizą.
Gwarancje
–
Producenci muszą przewidzieć ilość klientów, którzy
mogą złoŜyć reklamację i oszacować średnią kosztów
tych reklamacji.
Częste promocje dla pasaŜerów linii lotniczych
–
Linie lotnicze mogą określić grupę klientów, którą
moŜna zachęcić by częściej z nich korzystała.
Data Mining w CRM:
Cykl
Ŝ
ycia klienta
Cykl Ŝycia klienta
–
Etapy rozwoju stosunków między klientem a firmą
DM pomaga w
–
Ustaleniu zachowań towarzyszących szczególnym
wydarzeniom w cyklu Ŝycia klienta
–
Znalezieniu innych ludzi na podobnym etapie
Ŝ
ycia i ustaleniu, którzy z tych klientów będą
realizowali podobne wzorce konsumenckie
Jest waŜne by znać wydarzenia w cyklu Ŝycia
klienta (np. moment przejścia na emeryturę)
Techniki Data Mining
Techniki Data Mining
Opisowe
Prognostyczne
Gromadzenie
Powi
ą
zanie
Klasyfikacja
Regresja
Analiza Sekwencyjna
Drzewo Decyzyjne
Zasada Indukcyjna
Komputerowe Sieci Neuronowe
Taksonomia
Metody eksploracji danych
klasyfikacja
odkrywanie asocjacji
regresja
grupowanie
odkrywanie sekwencji
odkrywanie charakterystyk
dyskryminacja
wykrywanie zmian i odchyleń
Metody eksploracji:
klasyfikacja
klasyfikacja: znajdowanie sposobu odwzorowywania
danych w zbiór predefiniowanych klas (podzbiorów)
przykład klasyfikacji: automatyczny podział kierowców
na powodujących i nie powodujących wypadków
drogowych:
– kierowcy prowadzący czerwone pojazdy o pojemności 650 ccm
powodują wypadki drogowe
– kierowcy, którzy posiadają prawo jazdy ponad 3 lata lub jeŜdŜą
niebieskimi samochodami nie powodują wypadków drogowych
zastosowania klasyfikacji:
– diagnostyka medyczna
–
rozpoznawanie trendów na rynkach finansowych
–
automatyczne rozpoznawanie obrazów
–
przydział kredytów bankowych
Metody eksploracji:
odkrywanie asocjacji
odkrywanie asocjacji: znajdowanie związków
pomiędzy występowaniem grup elementów w
zbiorach danych
przykładem wykrywania asocjacji jest analiza
koszykowa
– klienci, którzy kupują piwo, kupują równieŜ orzeszki
– klienci, którzy kupują chleb, masło i ser, kupują równieŜ wodę
mineralną i ketchup
zastosowania odkrytych asocjacji:
–
planowanie kampanii promocyjnych
–
planowanie rozmieszczenia stoisk sprzedaŜy w supermarketach
Analiza koszykowa
Zale
Ŝ
no
ś
ci w bazach danych
kierowcy w wieku powyŜej 40 lat jeŜdŜą
samochodami o pojemności większej niŜ 1600
ccm
kierowcy o mniejszym staŜu częściej powodują
wypadki
wybór koloru auta zaleŜy od wieku
wiek
lat prawo
kolor
poj.
moc
razem
kierowcy
jazdy
pojazdu
silnika
szkody
------------- ------------- -------------- ------------- ------ -------
42
24
biały
1610
100
0
19
1
czerwony
650
24
2500
28
4
czerwony
1100
40
0
41
20
czarny
1800
130
0
21
3
czerwony
650
24
1300
20
1
niebieski
650
24
0
Zale
Ŝ
no
ś
ci w bazach danych
piwo i orzeszki są zawsze kupowane wspólnie
chleb uczestniczy w transakcjach na kwotę mniejszą niŜ
50 złotych
transakcja
produkt
dzie
ń
cena
------------ ------------- ------------- --------------
1
pizza
sobota
48,40
1
mleko
sobota
2,80
1
chleb
sobota
1,50
2
piwo
wtorek
16,20
2
orzeszki
wtorek
8,50
3
chleb
sobota
1,50
3
orzeszki
sobota
25,50
3
piwo
sobota
32,40
Metody eksploracji:
grupowanie
klastrowanie: znajdowanie sko
ń
czonego zbioru klas
(podzbiorów) w bazie danych
5
10
5
10
•
zastosowania klastrowania:
–
okre
ś
lanie segmentów rynku na podstawie cech klientów
klasa 1: x<5
klasa 2: 5<x<10 i y>5
klasa 3: y<5
x
y
Metody eksploracji:
odkrywanie sekwencji
odkrywanie sekwencji: znajdowanie najczęściej
występujących po sobie zdarzeń
przykład odkrywania sekwencji:
– klienci, którzy kupili farbę emulsyjną, kupią w najbliŜszym czasie
pędzel płaski
– kurs akcji BPH, który podczas ostatnich trzech sesji wzrósł o
0.5%, 0.9%, 0.1%, na następnej sesji spadnie o 0.5%
zastosowania odkrytych sekwencji:
–
planowanie inwestycji giełdowych
–
przewidywanie sprzedaŜy
Metody eksploracji:
odkrywanie charakterystyk
odkrywanie charakterystyk: znajdowanie zwięzłych
opisów (charakterystyk, statystyk, parametrów) podanego
zbioru danych
przykład odkrywania charakterystyk: opis pacjentów
chorujących na anginę
–
pacjenci chorujący na anginę cechują się temperaturą
ciała większą niŜ 37.5 C, bólem gardła, osłabieniem
organizmu
zastosowania odkrywania charakterystyk:
– znajdowanie zaleŜności funkcyjnych pomiędzy
zmiennymi
– określanie profilu klienta - zbioru cech
charakterystycznych
1
Sie
ć
neuronowa
... jest to system symulujący pracę mózgu
Nazwą tą określa się symulatory
(programowe lub sprzętowe) modeli
matematycznych realizujące
pseudorównoległe przetwarzanie informacji,
składające się z wielu wzajemnie
połączonych neuronów i naśladujący
działanie biologicznych struktur mózgowych.
Neuron
Liczba komórek nerwowych w mózgu człowieka wynosi ok. 10
10
Liczba połączeń między nimi sięga 10
15
Szybkość przetwarzania mózgu oceniana jest na 10
18
, operacji
na sekundę
Neuron
1
2
[ ,
,...,
]
T
N
x x
x
=
x
1
2
[
,
,...,
]
T
i
i
i
iN
W W
W
=
W
( )
i
i
y
f u
=
- wektor wejściowy
- wektor wag i-tego neuronu
- próg
0
i
W
- funkcja aktywacji
0
1
N
i
ij
j
i
j
u
W x
W
=
=
+
∑
Neuron
Jak działa neuron?
Schemat sieci wielowarstwowej
http://republika.pl/edward_ch/
•Przykładem sieci jednokierunkowej wielowarstwowej jest
perceptron wielowarstwowy.
•Sieć tego typu posiada warstwę wejściową, wyjściową oraz
jedną lub więcej warstw ukrytych.
•Zadaniem elementów w warstwie wejściowej jest wstępne
przetwarzanie obrazu wejściowego x=[x
1
, x
2
, x
3
, ..., x
N
], które
moŜe obejmować normalizację lub skalowanie sygnałów.
•Zasadnicze przetwarzanie neuronowe obrazu wejściowego
odbywa się w warstwach ukrytych oraz w warstwie
wyjściowej.
•NaleŜy zauwaŜyć, Ŝe połączenia pomiędzy poszczególnymi
warstwami są zaprojektowane, Ŝe kaŜdy element warstwy
poprzedniej jest połączony z kaŜdym elementem warstwy
następnej.
Proces uczenia
sztucznych sieci neuronowych
Metoda z nauczycielem
Nauczyciel podaje:
- wzorcowe obiekty na wej
ś
ciu;
- oczekiwane warto
ś
ci na wyj
ś
ciu;
Sie
ć
:
- uczy si
ę
wzorców „na pami
ęć
” oraz
nabywa zdolno
ść
uogólniania wiedzy
(rozpoznawanie podobnych obiektów);
- zmienia warto
ś
ci wag w celu
dopasowania swojego działania do
wzorców (nauczonych wyników).
Metoda samouczenia
- brak wzorcowych wag (sie
ć
generuje je
losowo);
- sie
ć
odbiera sygnał wej
ś
ciowy i na jego
podstawie wyznacza swoje wyj
ś
cie;
- sie
ć
ocenia warto
ść
na wyj
ś
ciu ka
Ŝ
dego
neuronu warstwy wyj
ś
ciowej;
- wagi poszczególnych neuronów
zmieniane s
ą
zgodnie z okre
ś
lonymi w
danej metodzie zasadami.
8
Podstawowe właściwości sieci
neuronowych
BEZ TRUDU ODWZOROWUJĄ ZALEśNOŚCI NIELINIOWE
WYMAGANIA WIEDZY TEORETYCZNEJ SĄ MNIEJSZE NIś W PRZYPADKU
STOSOWANIA TRADYCYJNYCH METOD STATYSTYCZNYCH
UMOśLIWIAJĄ KONTROLĘ NAD ZŁOśONYM PROCESEM
WIELOWYMIAROWOŚCI
CECHUJĄ SIĘ ŁATWOŚCIĄ UśYCIA
POSIADAJA NIEOGRANICZONE MOśLIWOSĆI ZASTOSOWAŃ
Mała wraŜliwość na błędy (szumy) w zbiorze danych - w klasycznym programie
komputerowym błąd w danych moŜe prowadzić do całkowicie błędnych wyników, sieć
potrafi błąd pominąć.
Zdolność do efektywnej pracy nawet po częściowym uszkodzeniu sieci (usunięciu kilku
neuronów lub połączeń między nimi), co w klasycznym programie komputerowych jest
nie do pomyślenia.
Przetwarzanie równoległe i rozproszone.
ZALETY
WADY
nie dają dokładnych precyzyjnych wyników.
nie potrafią analizować wieloetapowo.
nie tworzy modeli
Ze względu na specyficzne cechy i niepodwaŜalne
zalety obszar zastosowań sieci neuronowych jest
rozległy:
Rozpoznawanie wzorców (znaków, liter, kształtów, sygnałów mowy,
sygnałów sonarowych)
Klasyfikowanie obiektów
Prognozowanie i ocena ryzyka ekonomicznego
Prognozowanie zmian cen rynkowych (giełdy, waluty)
Ocena zdolności kredytowej podmiotów
Diagnostyka medyczna
Dobór pracowników
Prognozowanie sprzedaŜy
Aproksymowanie wartości funkcji
Text mining definiowane jest jako
odkrywanie i wykorzystanie wiedzy
zawartej w zbiorze dokumentów
– m.in. ustalenie powi
ą
za
ń
mi
ę
dzy dokumentami
w zbiorze, ł
ą
czenie wolnego tekstu i zmiennych
ilo
ś
ciowych w celu uzyskania nowych informacji
- czytanie plików tekstowych,
- wstępne przetwarzanie,
- redukcja danych,
- analiza dokumentów.
Proces Text Mining
Wstępne przetwarzanie polega na:
-
identyfikacji jednostek tekstu: paragrafy, zdania, wyrazy, a
takŜe frazy
- wyznaczeniu miara bogactwa słownictwa: słowo jest tym
waŜniejsze (ma większą wagę), im więcej razy pojawia się w
danym dokumencie
- zastosowanie wszystkich technik znanych z klasycznych
systemów wyszukiwawczych, a więc:
stoplisty pozwalające na eliminację często występujących słów nie
niosących znaczenia;
stemming, czyli sprowadzanie wyrazów do podstawowej formy
gramatycznej;
normalizacja – określenie, jaką część mowy stanowi dane słowo;
wykorzystanie synonimów oraz moŜliwość definiowania wyraŜeń.
NLP
NLP (ang. Natural Language Processing)
zbiór technik komputerowych słuŜących do
analizy i reprezentacji tekstów występujących na
poziomie analizy lingwistycznej w celu uzyskania
przypominającego ludzki sposobu przetwarzania
języka w określonym zakresie zadań i zastosowań.
NLP, NLU, NLG, ...
NLP – Natural Language Processing
–
Właściwie wszystko, co jest związane z przetwarzaniem
informacji zapisanej w języku naturalnym
–
Inne nazwy: Computational Linguistics (CL), Human Language
Technology (HLT), Natural Language Engineering (NLE)
NLU – Natural Language Understanding
–
Dosłownie „rozumienie języka naturalnego”
–
Co to jednak znaczy „rozumienie”?
–
Semantyka i logika
NLG – Natural Language Generation
–
To akurat jest proste (o ile nie mamy wygórowanych wymagań)
Dwa podej
ś
cia w NLP
„Gramatyczne”
–
Język naturalny moŜna opisać wykorzystując aparat logiki
matematycznej
–
Lingwistyka porównawcza – Jakob Grimm, Rasmus Rask
–
Noam Chomsky – I-Language i E-language
–
Argument „poverty of stimulus”
„Statystyczne”
–
Przekonanie, iŜ struktura i reguły uŜycia słów w języku
naturalnym moŜna odkryć, analizując rzeczywiste wypowiedzi
–
Najlepiej analizować duŜo wypowiedzi...
–
Bardzo duŜo wypowiedzi...
–
Statystyka
–
Pierwsze próby – Markow /łańcuchy Markowa/, Shannon /gra
Shannona/
Zadania Text Mining
Klasyfikacja dokumentów (ang. Document classification)
Grupowanie dokumentów (ang. Document clustering)
Sumaryzacja (ang. Summarization)
Automatyczne rozpoznawanie języka (ang. Automatic Language
Identification)
Grupowanie pojęć (ang. Concept clustering)
Wizualizacja i nawigacja
Web Mining
Wyszukiwanie informacji (ang. Information Retrieval, IR)
Ekstrakcja informacji (ang. Information Extraction, IE)