background image

Dr Jacek Bazarnik
jacek.bazarnik@uek.krakow.pl
Uniwersytet Ekonomiczny w Krakowie

Informatyka 

w turystyce i rekreacji

(3)

CRM analityczny

Jacek Bazarnik

“Kluczem do biznesu jest wiedzieć to, czego nikt inny 

nie wie.”

— Aristotle Onassis

Źródło: A. Mazur, K. Jaworska, D. Mazur, CRM Zarządzanie Kontaktami z klientami, 

Madar, Zabrze

Moduły  CRM

CRM analityczny

CRM  analityczny - przechowuje,  przechwytuje,  przetwarza  i 

interpretuje  dane  o  klientach,  tworząc  z  nich  raporty.  Dane  te 
mogą być przechwytywane z wielu źródeł a przechowuje się je w 
hurtowniach  danych  .  Dane  poddawane  są skomplikowanym 
analizom  statystycznym,  których  wyniki  pomagają zrozumieć
potrzeby  i  zachowania  klientów,  a  wartością podstawą takiej 
aplikacji  jest  zdolność

personalizacji  analiz  pod  kątem 

korzystającego z niej uŜytkownika. 

background image

ERP

Internet

Zastane
systemy

Pozyskiwanie

danych

Magazyn

danych

Zarządzanie danymi

przedsiębiorstwa

Magazyn danych

operacyjnych

Systemy operacyjne

Dostarcza
nie 
danych

Magazyn danych    
przeszukiwanych

Magazyn danych      

analitycznych

Magazyn danych 

zbiorczych

Zarządzanie meta danymi

Inne

Zewnętrzny

Data Mining

Raporty

Wizualizacja

Modele

CRM analityczny

Aplikacje analitycznego CRM dotyczą przygotowania, 

wsparcia i optymalizacji wewnętrznych i zewnętrznych 

procesów decyzyjnych zorientowanych na klienta. 

W systemy te wkomponowane są specjalne moduły do analizowania 
danych o klientach. W zaleŜności od specyficznych funkcji moduły te 

naszą róŜne nazwy:



Business Intelligence, 



Customer Inteligence, 



Customer Insight, 



Data Mining, 



Data Warehousing, 



OLAP

Business Intelligence

Termin ten odnosi się do umiejętności zbierania, 

ekstrapolowania, interpretowania i analizowania 

duŜej ilości danych dotyczących klientów, 

dostawców, rynków, procesów wewnętrznych 

i środowiska biznesowego. 

Business Intelligence obejmuje szerokie 

spektrum technologii:



narzędzia OLAP (On-Line Analytical Processing) -
oprogramowanie umoŜliwiające analizę wielowymiarową danych 
biznesowych w czasie rzeczywistym,



narzędzia eksploracji danych (Data miting) – algorytmy do 
automatycznej analizy duŜych wolumenów danych zarówno 
ilościowych jak i jakościowych,



narzędzia zarządzania wiedzą (Knowledge management) 
umoŜliwiające składowanie, indeksowanie, i analize dokumentów 
tekstowych oraz powiązanie ich z innymi danymi 



- narzędzia zarządzania danymi (Data Warehousing) -
umoŜliwiają ujednolicenie, uporządkowanie i powiązanie danych 
zgromadzonych z róŜnorodnych systemów informatycznych 
przedsiębiorstwa

background image

Technologia OLAP –

On Line Analilytical Processing

(Systemy Analitycznego Przetwarzania  na Bie

Ŝą

co)



Wykorzystywana ona jest do wspierania 
bardziej zaawansowanych systemów typu 
SIK oraz systemów wspomagania decyzji. 
Systemy tego typu wymagają bardzo 
szybkiego dostępu do wielkich i coraz 
większych zbiorów danych 

Hurtownie danych

(Data Warehouse)

Hurtownie danych, w sensie strukturalnym i funkcjonalnym, 

to na ogół wielowymiarowe, dedukcyjne bazy danych. 

Gromadzone dane mają często charakter wirtualny a ich 

struktury zaprojektowano tak aby moŜliwe było 
zaspakajanie juŜ zdefiniowanych lub potencjalnych 
potrzeb informacyjnych uŜytkowników. 

Dzięki temu moŜliwe jest udostępnianie wymaganej 

informacji natychmiast, tj. w ciągu kilku sekund, oraz 
prowadzenie złoŜonych analiz i symulacji  typu „co jeśli”.

Technologia exploracji danych

(Data Mining)

Stosowana ona jest do odkrywania (wydobywania) i 

udostępniania uŜytkownikom uogólnionych reguł i 
wiedzy zawartych w bardzo duŜych bazach danych. W 
tej metodzie nie poszukuje się określonych 
elementarnych informacji, ale zadaje pytanie, czy w 
zgromadzonych danych występują jakieś korelacje oraz 
trendy i jakie one są

Szczególnie istotne w tej technologii jest to, Ŝe programy 

realizujące te funkcje działają autonomicznie i operują
na zawartości baz wiedzy oraz, Ŝe poszukują korelacji 
pomiędzy wartościami określonych atrybutów oraz 
wskazują atrybuty pomiędzy którymi zachodzą jakieś
korelacje. 

background image

Segmentacja i klasyfikowanie klientów

Na przykład moŜe pomóc sklasyfikować klientów w następujących 
segmentach:



Klienci, którzy mają podobne zachowania zakupowe (co do 

częstości, wielkości i struktury zakupów)



Klienci, którzy reagują na nowe promocje,



Klienci, którzy reagują na wprowadzenie na rynek nowych 

produktów,



Klienci, którzy reagują na obniŜki,



Klienci, którzy okazują skłonność do kupowania specyficznych 

produktów.

Business Intelligence

Analiza skuteczności kampanii promocyjnej

Analiza skuteczności kampanii promocyjnej moŜe dawać
odpowiedzi na pytania takie jak: 



Które kanały medialne odniosły największy sukces w przeszłości 

dla róŜnych kampanii?



Które lokalizacje geograficzne dobrze zareagowały na 

poszczególne kampanie?



Jakie były względne koszty i korzyści z tej kampanii?



Które segmenty klientów zareagowały na kampanię?

Business Intelligence

SprzedaŜ krzyŜowa (cross-selling):

Detaliści dzięki analizom BI dostają odpowiedź na następujące 

pytania:



Jakie produkty są razem kupowane?



Jakie produkty są razem kupowane przez podobnych klientów?



Czym róŜnią się klienci którzy kupili dany produkt od tych , którzy 

nie kupili?



Jakie produkty jest skłonny kupić dany klient?



Jaki produkt powinien być zaoferowany klientowi w przyszłości?



Którzy klienci chętnie kupują dany produkt – profilowanie?



Jak długa jest przerwa między zakupami?

Business Intelligence



Analiza  LTV (Lifetime value ). 



Analiza lojalności klienta.



Prognozowanie churn



Analiza koszykowa



Zarządzanie kategorią (Stock Keeping Unit - SKU) 



Analiza Braków

Business Intelligence

background image

Ustalanie ceny produktu:



Korzystając z hurtowni danych i eksploracji danych, detaliści mogą

opracowywać złoŜone modele cenowe dla róŜnych produktów, które 
mogą ustalać relację cena - sprzedaŜ dla produktu i sposób, w jaki 
zmiany w cenach wpływają na sprzedaŜ innych produktów.

Marketing docelowy



Handlowcy mogą optymalizować wysiłki związane z ogólnym 

marketingiem i promocją przez kierowanie kampanii do konkretnych 
klientów albo grup klientów. Marketing docelowy moŜe opierać się na 
bardzo prostej analizie zwyczajów zakupowych klientów albo grup 
klientów; jednak coraz częściej narzędzia eksploracji danych są
uŜywane do określania konkretnych segmentów klientów, które 
prawdopodobnie zareagują na określone typy kampanii.

Business Intelligence

Analiza Web Logów



z jakiego adresu domenowego lub IP łączył się uŜytkownik, 



jakiej przeglądarki uŜywał, 



datę i czas nawiązania sesji z poszczególnymi planszami serwisu 

internetowego, 



liczbę wizyt wykluczając jednocześnie odwiedziny powtarzające 

się z tego samego komputera, 



ilość pobranych informacji i liczbę ściągniętych plików, 



za pomocą jakiego słowa kluczowego uŜytego w wyszukiwarce 

została odnaleziona strona, 



stronę, z której uŜytkownik przeszedł do serwisu, 



informację jak często uŜytkownik oglądał dany produkt zanim 

dokonał jego zakupu.

Business Intelligence

Nawigacja w sieci



Analiza typowych ścieŜek, którymi podąŜają uŜytkownicy poruszając 

się po witrynach internetowych

Analiza odnośników



Analiza witryn, które skutecznie przekierowują uŜytkowników do 

witryny internetowej firmy. 

Analiza błędów



Analiza błędów, na które natykają się uŜytkownicy podczas 

poruszania się po witrynie internetowej

Analiza słów kluczowych



Analiza najpopularniejszych słów kluczowych wpisywanych przez 

uŜytkowników w wyszukiwarki internetowe, w celu odnalezienia 
handlowych witryn internetowych sprzedawców.

Business Intelligence

Web housing:



Dyskretne poznawanie zainteresowań odwiedzających stronę, profile 

uŜytkowników są przetwarzane w czasie rzeczywistym jak tylko 
przybywa więcej informacji zachowaniach internauty.



Automatyczne dobieranie reklam do zainteresowań odwiedzających. 



Przedstawiać w rzeczywistym czasie odpowiedź na pytanie: ”Czy ten 

klient zdecyduje się na zakup?”



Przedstawiać w rzeczywistym czasie szacunek moŜliwości: „Ile 

klient jest gotów wydać pieniędzy?”

Business Intelligence w internecie

background image

Web housing:



Przewidywać kiedy klient chce opuścić stronę i dostarczyć zachętę

aby został na stronie. 



Identyfikować i prowadzić sprzedaŜ krzyŜową.



Wyjawiać typy strumienia kliknięć na stronę. „Jaką ścieŜką klienci 

zazwyczaj podąŜają?”, „Jaką ścieŜką podąŜają najbardziej cenni 
uŜytkownicy?” „W jaki sposób trafili na stronę?”



analizy w czasie rzeczywistym wykonywane są w oparciu o 

technologie OLAP (On Line Analythical Processing)

Business Intelligence w internecie

Typowe zbiory danych

Strukturalne zbiory danych

Dane o zachowaniach internautów

Niestrukturalne zbiory danych tekstowych

Metody pozyskiwania informacji o 

internautach



cookie



analiza logów serwera



rejestracja uŜytkowników

Cookie (dos

ł

.ciastko)

Jest to porc ja  informa cji wysyłana przez  serwer do 

prz egląda rki uŜytkow nika. Prze glą darka  informac ję tę
z achow uje i na polece nie  serwera udostępnia.

Po na da niu polece nia  w yświe tlenia  strony przez 

prz egląda rkę serwe r kie ruje odpow iedni dokument 
w raz z c ookie który wystę puje jako e leme nt nagłówka 
H TTP . Na stępnie prze glądarka  informac ję tę
z atrzymuje  na dysku uŜytkownika. W przypadku 
kolejnej wizyty internauty na tej samej stronie  WWW 
serwer otrzyma za pisany c ookie, który pozwoli mu 
odtworzyć poprze dni stan strony. 

log serwera

• jest to informacja, jaką przekazuje 

serwerowi komputer uŜytkowni ka przy 
ka
Ŝdym połączeniu, moŜe zawierać Ŝne 
dane (np. numer IP)

Elementy danych

Dane adresowe
Dane klienta – typ i status 
Dane o transakcjach 
Charakterystyki demograficzne 
Rejestracja akcji promocyjnych 
Prawdopodobne wpływy zewnętrzne 
Dane dotyczące uŜycia telefonu 
Dane wywnioskowane 
Negatywne elementy danych 

Ź

ródła pozyskiwania danych 

adresowych



Bazy 

stworzone 

od 

podstaw 

(komercyjne) 

przeznaczone na sprzedaŜ lub do wynajęcia.



Bazy własnych klientów.



Bazy skompilowane z mniejszych baz.



Bazy  instytucji  publicznych  i  firm  państwowych,  np. 
ZUS, firm ciepłowniczych, abonentów telefonicznych, 
uczniów szkół wy
Ŝszych;



Bazy  nazwisk  pozyskanych  w  czasie  promocji 
sprzeda
Ŝy



Baza  PESEL  - czyli  powszechny,  elektroniczny  spis 
ludno
ści.  Jej  uŜywanie  do  celów  komercyjnych  jest 
wyra
źnie  zabronione  przez  prawo.  PESEL  sprzedaje 
adresy, ale tylko do bada
ń rynku i opinii publicznej.

background image

Ź

ródła pozyskiwania danych 

marketingowych



Rejestracja zakupów 



Informacje z biur obsługi i call center



Tworzenie bazy danych w ramach promocji 
sprzeda
Ŝy.



Karty stałego klienta



Oferty w gazetach i czasopismach



Wykorzystanie reklamy bezpośredniej realizowanej 
przez poczt
ę do tworzenia bazy danych



Wspólne  oferty pocztowe,

Wielkie bazy danych

wielkie bazy danych (Very Large Databases) i magazyny 
danych (Data Warehouses)

rozmiary współczesnych systemów baz danych

sieć sprzedaŜy Wal-Mart gromadzi dziennie dane dotyczące ponad 
20 milionów transakcji

koncern Mobil Oil rozwija magazyn danych pozwalający na 
przechowywanie ponad 100 terabajtów danych o wydobyciu ropy 
naftowej

system satelitarnej obserwacji EOS zbudowany przez NASA 
generuje w kaŜdej godzinie dziesiątki gigabajtów danych

niewielkie supermarkety rejestrują codziennie sprzedaŜ tysięcy
artykułów

 tak wielkie wolumeny danych są trudne w analizowaniu

Problem normalizacji

Problem waŜności cech (detrminant)

Problem wspólnej wariancji

Problem współzaleŜności cech – brak ortogonalności

W teorii im więcej danych tym lepiej. 

JednakŜe w praktyce rodzi to kilka problemów 

metodologicznych.

5

10

5

10

x

y

5

10

5

10

x

y

Ortogonalno

ść

Ortogonalno

ść

zmiennych

zmiennych

Nadmiar informacji 

Przyrost ilo

ś

ci dziennych informacji na jednego e-pracownika

1970

1980

1990

2000

64x

Dzi

ś

otrzymujemy 64 razy wi

ę

cej informacji ni

Ŝ

roku 1970!

Ludzkie mo

Ŝ

liwo

ś

ci

Ź

ródło: Executive Systems Research Center

background image

Data Mining - Eksploracja 

danych

 Eksploracja danych (Data Mining): zbiór technik 

automatycznego odkrywania nietrywialnych
zaleŜności i schematów w duŜych zbiorach danych 
(bazach danych)

 Eksploracja danych (Data Mining) często 

nazywana jest równieŜ odkrywaniem wiedzy w 
bazach danych (Knowledge Discovery in
Databases) lub eksploracją baz danych (Database
Mining) i coraz częściej Customer Intelligence

DANE

DATA 

MINING

SCHEMATY

Geneza Data Mining



Zmiany w otoczeniu biznesowym



Konsumenci staj

ą

si

ę

bardziej wymagaj

ą

cy



Rynki s

ą

nasycone



Dzisiejsze bazy danych s

ą

ogromne:



Wi

ę

cej ni

Ŝ

1,000,000 rejestrów



Od  10 do 10,000 zmiennych



Gigabajty i terabajty



Bazy danych rosn

ą

do bezprecedensowych 

rozmiarów



Decyzje musz

ą

by

ć

podejmowane natychmiastowo



Podejmowane decyzje musz

ą

by

ć

poparte rozległ

ą

wiedz

ą

Data Mining



Niebanalne wydobycie nowej, bezwarunkowej i zdolnej 
do działania wiedzy z ogromnych zbiorów danych.



Technologia umoŜliwiająca badanie, analizowanie i 
wizualizację danych z ogromnego zbioru danych w 
znacznym stopniu abstrakcyjnych, bez wymyślania 
specyficznych hipotez.



Wyszukane umiejętności przeszukiwania danych 
umoŜliwiające uŜycie statystycznych algorytmów do 
odkrywania wzorów i współzaleŜności w danych.

Data Mining (składniki)

Sk

ą

d pochodzi

Data Mining

Mechanizm 
nauczania

Bazy danych

Wizualizacja

Stosowane 
statystyki

Rozpoznanie 

wzorca

Analogiczne 

algorytmy

Wysoko 

wyspecjalizowane 

komputery

background image

Data Mining (składniki)



Data Mining jest krokiem do zdobycia wiedzy w 
procesie przekształcania baz danych (Knowledge
Discovery in Databases) KDD

Gromadzenie danych

Selekcja danych

Wstępne przetwarzanie danych

Transformacja danych

Data Mining – Wydobywanie danych

Interpretacja/Opracowanie danych



Data Mining jest czasem nazywane odkrywaniem 
wiedzy w procesie przekształcania baz danych 
KDD. Obydwa terminy stosuje się zamiennie.

Data Mining nie jest …



Gromadzeniem danych



Sprawozdaniem ( SQL/Ad Hoc Queries)



Przedstawieniem oprogramowania 
(Software Agents)



Komputerowym procesem analizowania 
(Online Analytical Processing – OLAP)



Prezentowaniem danych

Zastosowanie Data Mining:

Sprzeda

Ŝ

detaliczna



Przedstawienie wyników analizy

Które produkty klienci starają się nabywać razem. Ta 
wiedza moŜe podnieść obroty, polepszyć strategię
sprzedaŜy i wpłynąć na lepszą promocję.



Prognozy handlowe

Badanie wyników opartych na czasie pomaga 
sprzedawcom podjąć decyzje związane z dostawą. 
Jeśli klient kupuje produkt dzisiaj, kiedy zakupi 
podobny?

Zastosowanie Data Mining:

Sprzeda

Ŝ

detaliczna



Database marketing

Sprzedawcy mogą stworzyć profile konsumentów o 
pewnych zachowaniach, na przykład, ci którzy kupują
markową odzieŜ lub ci, którzy po prostu kupują. Takie 
informacje mogą być uŜywane do skupiania się na 
promocjach nie wymagających duŜych nakładów 
finansowych.



Planowanie i przydział towarów

Kiedy sprzedawcy otwierają nowe sklepy mogą
ulepszyć planowanie i przydział towarów przez 
sprawdzenie wzorów w sklepach o podobnych cechach 
demograficznych. Sprzedawcy mogą równieŜ uŜyć
data mining do ustalenia idealnego układu dla 
konkretnego sklepu.

background image

Zastosowanie Data Mining:

Bankowo

ść



Marketing kart kredytowych

Przez identyfikację segmentów klientów, wydawców kart kredytowych i ich 
nabywców moŜna polepszyć dochodowość z duŜo większą skutecznością
programów zdobywania i dochodów, z ukierunkowanym rozwojem produkcji i 
negocjowanymi cenami.



Ceny i dochodowość posiadaczy kart kredytowych

Wydający karty kredytowe mogą skorzystać z technik data mining do wyceny 
swoich produktów tak aby zmaksymalizować dochody ale zminimalizować
straty klientów, zawierając cenę ryzyka.



Wykrywanie fałszerstw

Fałszerstwa są ogromnie kosztowne. Przez analizowanie minionych transakcji, 
które później okazały się fałszywymi, banki mogą odkryć schemat oszustw. 
Przez analizowanie minionych transakcji, wychwytuje on-line próby 
oszustwa.



Zarządzanie przewidywaniem cyklu Ŝycia

Data Mining pomaga bankom przewidzieć cykl Ŝycia kaŜdego klienta i 
zaoferować odpowiedni przedział np. oferując specjalne umowy i rachunki 
bankowe.

Zastosowanie Data Mining:

Telekomunikacja



Analiza szczegółowych rejestrów rozmów 
telefonicznych

Firmy telekomunikacyjne gromadzą szczegółowe rejestry 
rozmów telefonicznych. Przez identyfikację przedziałów 
klientów o podobnym charakterze korzystania z usług 
telekomunikacyjnych operatorzy mogą stworzyć atrakcyjną
ofertę i przygotować dostosowane do klientów promocje.



Lojalność konsumentów

Niektórzy klienci ciągle zmieniają dostawców usług 

telekomunikacyjnych by skorzystać z konkurencyjnych 
ofert operatorów. Firmy mogą wykorzystać z Data Mining
do określenia profilu klientów, którzy najprawdopodobniej 
będą lojalni wobec raz wybranej firmy telekomunikacyjnej, 
co umoŜliwi im trafienie z ofertą do tych klientów, którzy 
przyniosą największy dochód.

Zastosowanie Data Mining:

Inne zastosowania



Segmentacja klientów

Wszystkie rodzaje biznesu mogą czerpać korzyści z 
Data Mining do odkrywania segmentów ich klientów 
rozwaŜając dodatkowe zmienne leŜące poza tradycyjną
analizą.



Gwarancje

Producenci muszą przewidzieć ilość klientów, którzy 
mogą złoŜyć reklamację i oszacować średnią kosztów 
tych reklamacji.



Częste promocje dla pasaŜerów linii lotniczych

Linie lotnicze mogą określić grupę klientów, którą
moŜna zachęcić by częściej z nich korzystała.

Data Mining w CRM:

Cykl 

Ŝ

ycia klienta



Cykl Ŝycia klienta

Etapy rozwoju stosunków między klientem a firmą



DM pomaga w

Ustaleniu zachowań towarzyszących szczególnym 
wydarzeniom w cyklu Ŝycia klienta

Znalezieniu innych ludzi na podobnym etapie 
Ŝ

ycia i ustaleniu, którzy z tych klientów będą

realizowali podobne wzorce konsumenckie



Jest waŜne by znać wydarzenia w cyklu Ŝycia 
klienta (np. moment przejścia na emeryturę)

background image

Techniki Data Mining 

Techniki Data Mining 

Opisowe

Prognostyczne

Gromadzenie

Powi

ą

zanie

Klasyfikacja

Regresja

Analiza Sekwencyjna

Drzewo Decyzyjne

Zasada Indukcyjna

Komputerowe Sieci Neuronowe

Taksonomia

Metody eksploracji danych



klasyfikacja



odkrywanie asocjacji



regresja



grupowanie



odkrywanie sekwencji



odkrywanie charakterystyk



dyskryminacja



wykrywanie zmian i odchyleń

Metody eksploracji:

klasyfikacja

 klasyfikacja: znajdowanie sposobu odwzorowywania 

danych w zbiór predefiniowanych klas (podzbiorów)

 przykład klasyfikacji: automatyczny podział kierowców 

na powodujących i nie powodujących wypadków 
drogowych:

– kierowcy prowadzący czerwone pojazdy o pojemności 650 ccm

powodują wypadki drogowe

– kierowcy, którzy posiadają prawo jazdy ponad 3 lata lub jeŜdŜą

niebieskimi samochodami nie powodują wypadków drogowych

 zastosowania klasyfikacji:

– diagnostyka medyczna

rozpoznawanie trendów na rynkach finansowych

automatyczne rozpoznawanie obrazów

przydział kredytów bankowych

Metody eksploracji:

odkrywanie asocjacji

 odkrywanie asocjacji: znajdowanie związków 

pomiędzy występowaniem grup elementów w 
zbiorach danych

 przykładem wykrywania asocjacji jest analiza 

koszykowa

– klienci, którzy kupują piwo, kupują równieŜ orzeszki
– klienci, którzy kupują chleb, masło i ser, kupują równieŜ wodę

mineralną i ketchup

 zastosowania odkrytych asocjacji:

planowanie kampanii promocyjnych

planowanie rozmieszczenia stoisk sprzedaŜy w supermarketach

background image

Analiza koszykowa 

Zale

Ŝ

no

ś

ci w bazach danych



kierowcy w wieku powyŜej 40 lat jeŜdŜą
samochodami o pojemności większej niŜ 1600 
ccm



kierowcy o mniejszym staŜu częściej powodują
wypadki



wybór koloru auta zaleŜy od wieku

wiek

lat prawo

kolor

poj.

moc

razem

kierowcy

jazdy

pojazdu

silnika

szkody

------------- ------------- -------------- ------------- ------ -------

42

24

biały

1610

100

0

19

1

czerwony

650

24

2500

28

4

czerwony

1100

40

0

41

20

czarny

1800

130

0

21

3

czerwony

650

24

1300

20

1

niebieski

650

24

0

Zale

Ŝ

no

ś

ci w bazach danych

 piwo i orzeszki są zawsze kupowane wspólnie
 chleb uczestniczy w  transakcjach na kwotę mniejszą niŜ

50 złotych

transakcja

produkt

dzie

ń

cena

------------ ------------- ------------- --------------

1

pizza

sobota

48,40

1

mleko

sobota

2,80

1

chleb

sobota

1,50

2

piwo

wtorek

16,20

2

orzeszki

wtorek

8,50

3

chleb

sobota

1,50

3

orzeszki

sobota

25,50

3

piwo

sobota

32,40

Metody eksploracji:

grupowanie



klastrowanie: znajdowanie sko

ń

czonego zbioru klas 

(podzbiorów) w bazie danych

5

10

5

10

zastosowania klastrowania:

okre

ś

lanie segmentów rynku na podstawie cech klientów

klasa 1: x<5
klasa 2: 5<x<10 i y>5
klasa 3: y<5

x

y

background image

Metody eksploracji:

odkrywanie sekwencji

 odkrywanie sekwencji: znajdowanie najczęściej 

występujących po sobie zdarzeń

 przykład odkrywania sekwencji:

– klienci, którzy kupili farbę emulsyjną, kupią w najbliŜszym czasie 

pędzel płaski

– kurs akcji BPH, który podczas ostatnich trzech sesji wzrósł o 

0.5%, 0.9%, 0.1%, na następnej sesji spadnie o 0.5%

 zastosowania odkrytych sekwencji:

planowanie inwestycji giełdowych

przewidywanie sprzedaŜy

Metody eksploracji:

odkrywanie charakterystyk



odkrywanie charakterystyk: znajdowanie zwięzłych 
opisów (charakterystyk, statystyk, parametrów) podanego 
zbioru danych



przykład odkrywania charakterystyk: opis pacjentów 
chorujących na anginę

pacjenci chorujący na anginę cechują się temperaturą
ciała większą niŜ 37.5 C, bólem gardła, osłabieniem 
organizmu

 zastosowania odkrywania charakterystyk:

– znajdowanie zaleŜności funkcyjnych pomiędzy 

zmiennymi

– określanie profilu klienta - zbioru cech 

charakterystycznych

1

Sie

ć

neuronowa

... jest to system symulujący pracę mózgu

Nazwą tą określa się symulatory 
(programowe lub sprzętowe) modeli 
matematycznych realizujące 
pseudorównoległe przetwarzanie informacji, 
składające się z wielu wzajemnie 
połączonych neuronów i naśladujący 
działanie biologicznych struktur mózgowych.

background image

Neuron

Liczba komórek nerwowych w mózgu człowieka wynosi ok. 10

10

Liczba połączeń między nimi sięga 10

15

Szybkość przetwarzania mózgu oceniana jest na 10

18

,  operacji 

na sekundę

Neuron

1

2

[ ,

,...,

]

T

N

x x

x

=

x

1

2

[

,

,...,

]

T

i

i

i

iN

W W

W

=

W

( )

i

i

y

f u

=

- wektor wejściowy

- wektor wag i-tego neuronu

- próg

0

i

W

- funkcja aktywacji

0

1

N

i

ij

j

i

j

u

W x

W

=

=

+

Neuron

Jak działa neuron?

background image

Schemat sieci wielowarstwowej

http://republika.pl/edward_ch/

Przykładem sieci jednokierunkowej wielowarstwowej jest 
perceptron wielowarstwowy. 

Sieć tego typu posiada warstwę wejściową, wyjściową oraz 
jedn
ą lub więcej warstw ukrytych. 

Zadaniem elementów w warstwie wejściowej jest wstępne 
przetwarzanie obrazu wej
ściowego x=[x

1

, x

2

, x

3

, ..., x

N

], które 

moŜe obejmować normalizację lub skalowanie sygnałów. 

Zasadnicze przetwarzanie neuronowe obrazu wejściowego 
odbywa si
ę w warstwach ukrytych oraz w warstwie 
wyj
ściowej. 

NaleŜy zauwaŜyćŜe połączenia pomiędzy poszczególnymi 
warstwami s
ą zaprojektowane, Ŝe kaŜdy element warstwy 
poprzedniej jest poł
ączony z kaŜdym elementem warstwy 
nast
ępnej. 

Proces uczenia 

sztucznych sieci neuronowych

Metoda z nauczycielem
Nauczyciel podaje:
- wzorcowe obiekty na wej

ś

ciu;

- oczekiwane warto

ś

ci na wyj

ś

ciu;

Sie

ć

:

- uczy si

ę

wzorców „na pami

ęć

” oraz 

nabywa zdolno

ść

uogólniania wiedzy 

(rozpoznawanie podobnych obiektów);
- zmienia warto

ś

ci wag w celu 

dopasowania swojego działania do 
wzorców (nauczonych wyników).

Metoda samouczenia
- brak wzorcowych wag (sie

ć

generuje je 

losowo);
- sie

ć

odbiera sygnał wej

ś

ciowy i na jego 

podstawie wyznacza swoje wyj

ś

cie;

- sie

ć

ocenia warto

ść

na wyj

ś

ciu ka

Ŝ

dego 

neuronu warstwy wyj

ś

ciowej; 

- wagi poszczególnych neuronów 
zmieniane s

ą

zgodnie z okre

ś

lonymi w 

danej metodzie zasadami.

8

Podstawowe właściwości sieci 

neuronowych 

BEZ TRUDU ODWZOROWUJĄ ZALEśNOŚCI NIELINIOWE
WYMAGANIA WIEDZY TEORETYCZNEJ SĄ MNIEJSZE NIś W PRZYPADKU 

STOSOWANIA TRADYCYJNYCH METOD STATYSTYCZNYCH

UMOśLIWIAJĄ KONTROLĘ NAD ZŁOśONYM PROCESEM 

WIELOWYMIAROWOŚCI

CECHUJĄ SIĘ ŁATWOŚCIĄ UśYCIA
POSIADAJA NIEOGRANICZONE MOśLIWOSĆI ZASTOSOWAŃ
Mała wraŜliwość na błędy (szumy) w zbiorze danych - w klasycznym programie 

komputerowym błąd w danych moŜe prowadzić do całkowicie błędnych wyników, sieć
potrafi błąd pominąć.

Zdolność do efektywnej pracy nawet po częściowym uszkodzeniu sieci (usunięciu kilku 

neuronów lub połączeń między nimi), co w klasycznym programie komputerowych jest 
nie do pomy
ślenia.

Przetwarzanie równoległe i rozproszone.

ZALETY

WADY

nie dają dokładnych precyzyjnych wyników.

nie potrafią analizować wieloetapowo.

nie tworzy modeli

background image

Ze względu na specyficzne cechy i niepodwaŜalne 

zalety obszar zastosowań sieci neuronowych jest 

rozległy:



Rozpoznawanie wzorców (znaków, liter, kształtów, sygnałów mowy, 
sygnałów sonarowych)



Klasyfikowanie obiektów 



Prognozowanie i ocena ryzyka ekonomicznego 



Prognozowanie zmian cen rynkowych (giełdy, waluty) 



Ocena zdolności kredytowej podmiotów 



Diagnostyka medyczna 



Dobór pracowników 



Prognozowanie sprzedaŜ



Aproksymowanie wartości funkcji

Text mining definiowane jest jako 

odkrywanie i wykorzystanie wiedzy 

zawartej w zbiorze dokumentów 

– m.in. ustalenie powi

ą

za

ń

mi

ę

dzy dokumentami 

w zbiorze, ł

ą

czenie wolnego tekstu i zmiennych 

ilo

ś

ciowych w celu uzyskania nowych informacji

czytanie plików tekstowych,

- wstępne przetwarzanie, 

- redukcja danych,

- analiza dokumentów

Proces Text Mining 

Wstępne przetwarzanie polega na: 

-

identyfikacji jednostek tekstu: paragrafy, zdania, wyrazy, a 

takŜe frazy 

- wyznaczeniu miara bogactwa słownictwa: słowo jest tym 

waŜniejsze (ma większą wagę), im więcej razy pojawia się 

danym dokumencie 

- zastosowanie wszystkich technik znanych z klasycznych 

systemów wyszukiwawczych, a więc: 

stoplisty pozwalające na eliminację często występujących słów nie 

niosących znaczenia; 

stemming, czyli sprowadzanie wyrazów do podstawowej formy 

gramatycznej; 

normalizacja – określenie, jaką część mowy stanowi dane słowo; 

wykorzystanie synonimów oraz moŜliwość definiowania wyraŜeń.

background image

NLP

NLP (ang. Natural Language Processing)



zbiór technik komputerowych słuŜących do 
analizy i reprezentacji tekstów występujących na 
poziomie analizy lingwistycznej w celu uzyskania 
przypominającego ludzki sposobu przetwarzania 
języka w określonym zakresie zadań i zastosowań. 

NLP, NLU, NLG, ...

NLP – Natural Language Processing

Właściwie wszystko, co jest związane z przetwarzaniem 
informacji zapisanej w j
ęzyku naturalnym

Inne nazwy: Computational Linguistics (CL), Human Language 
Technology (HLT), Natural Language Engineering (NLE)

NLU – Natural Language Understanding

Dosłownie „rozumienie języka naturalnego”

Co to jednak znaczy „rozumienie”?

Semantyka i logika

NLG – Natural Language Generation

To akurat jest proste (o ile nie mamy wygórowanych wymagań)

Dwa podej

ś

cia w NLP

„Gramatyczne”

Język naturalny moŜna opisać wykorzystując aparat logiki 
matematycznej

Lingwistyka porównawcza – Jakob Grimm, Rasmus Rask

Noam Chomsky – I-Language i E-language

Argument „poverty of stimulus”

„Statystyczne”

Przekonanie, iŜ struktura i reguły uŜycia słów w języku 
naturalnym mo
Ŝna odkryć, analizując rzeczywiste wypowiedzi

Najlepiej analizować duŜo wypowiedzi...

Bardzo duŜo wypowiedzi...

Statystyka

Pierwsze próby – Markow /łańcuchy Markowa/, Shannon /gra 
Shannona/

Zadania Text Mining



Klasyfikacja dokumentów (ang. Document classification)



Grupowanie dokumentów (ang. Document clustering)



Sumaryzacja (ang. Summarization)



Automatyczne rozpoznawanie języka (ang. Automatic Language 

Identification)



Grupowanie pojęć (ang. Concept clustering)



Wizualizacja i nawigacja



Web Mining



Wyszukiwanie informacji (ang. Information Retrieval, IR



Ekstrakcja informacji (ang. Information ExtractionIE