background image

 

 

Text Mining

dr Jarosław Olejniczak
Jaroslaw.Olejniczak@wat.ed
u.pl

background image

 

 

Text mining

definicje

Tekst mining jest to zbiór narzędzi analitycznych 
umożliwiających wydobywanie, porządkowanie i 
wykorzystanie wiedzy z dokumentów tekstowych 
występujących w wersji elektronicznej.

R. Feldman,J. Sanger The text mining handbook, 
Advanced Approaches in Analyzing Unstructured 
Data, Cambridge University Press, 2007

background image

 

 

Text mining

Źródła

• Dokumenty

• Zbiory dokumentów

dynamiczne
Statyczne

background image

 

 

Text mining

Pojęcia związane z dokumentem

• Znaki

• Słowa

• Określenia
• Pojęcia

background image

 

 

Text mining

Tendencje i wzorce

• Poszukiwanie wzorców

• Poszukiwanie tendencji

background image

 

 

Text mining

Tendencje i wzorce - przykłady

Przykładowo w zbiorze artykułów 
prasowych dotyczących polityka X, 
słowo skandal oznacza negatywny 
obraz tego polityka co powinno 
skutkować próbą zmiany jego 
wizerunku przez popierającą go 
partię.

Rosnąca liczba artykułów dotycząca 
Firmy X i produktu Y może oznaczać 
zmianę polityki produkcyjnej firmy X 
co może być interesujace dla 
konkurencji.

background image

 

 

Text mining

Tendencje i wzorce - przykłady

Przykłady analizy tendencji

• Jaka jest tendencja dotycząca podejmowania 

określonych tematów w określonych 
okresach (rozumianych jako różne zbiory 
dokumentów)

• Czy tematy podejmowane w prasie w dwóch 

różnych przedziałach czasowych się różnią 
czy są podobne.

• Czy można zidentyfikować nowe i zanikające 

tematy

• Czy któryś z tematów ma taka samą częstość 

występowania w ciągu dwóch okresów

background image

 

 

Text mining

Zasada działania

background image

 

 

Text mining

Architektura uniwersalna

background image

 

 

Text mining

Architektura dla systemów dziedzinowych

background image

 

 

Text mining

Architektura dla systemów z bazą wiedzy

background image

 

 

Text mining

Podstawowe operacje

• Badanie rozkładu

Selekcja pojęć
Szukanie proporcji (odstetek 
pojęć)

• Badanie częstości
• Poszukiwanie relacji 

background image

 

 

Text mining

Podstawowe operacje

background image

 

 

Text mining

Podstawowe operacje

• Podział na kategorie

• Grupowanie
• Ekstrakcja

• Wizualizacja

• Analiza powiązań

background image

 

 

Text mining

Podział na kategorie

• Indeksacja tekstu z 

wykorzystaniem określonego 
słownictwa

• Sortowanie i filtrowanie tekstu
• Tworzenie drzew pojęciowych dla 

stron www

background image

 

 

Text mining

Grupowanie

• Określenie problemu
• Szukanie miar bliskości

• Grupowanie

• Nadawanie etykiet znalezionym 

grupom

• Ocena

background image

 

 

Text mining

Ekstrakcja

background image

 

 

Text mining

Ekstrakcja

entity {
ID = 1,
NAME = “Fletcher Maddox”
DESCRIPTOR = “Former Dean of 
USCD Business School”
CATEGORY = person
}
entity {
ID = 2
NAME = “La Jolla Genomatics”
ALIAS = “LJG”
DESCRIPTOR = “”
CATEGORY = organization
}
entity {
ID = 3
NAME = “La Jolla”
DESCRIPTOR = “the Maddox 
family hometown”
CATEGORY = location
}

background image

 

 

Text mining

Wizualizacja

background image

 

 

Text mining

Wizualizacja

background image

 

 

Text mining

Wizualizacja

background image

 

 

Text mining

Szukanie powiązań


Document Outline