background image

Autor: mgr inż. Jakub Siwiec 

mgr inż. Jakub Siwiec (j.siwiec@utp.edu.pl) 
mgr inż. Cezary Graul (cezary.graul@utp.edu.pl) 
Katedra Informatyki w Zarządzaniu 
Wydział Zarządzania 

 

    

  

PODSTAWY ZARZĄDZANIA WIEDZĄ 

 

 

Ćwiczenia praktyczne nr 6 – podobieństwo dokumentów 

 

Zadanie:  

Na podstawie zdobytej na poprzednich zajęciach bazy tekstów anglojęzycznych (30 artykułów, w 30 
plikach tekstowych *.txt, w języku angielskim, o minimalnej długości 1800 znaków bez spacji) oraz 
zastosowaniu  programu  RapidMiner,  zaprogramuj  kolejny  proces  j

akim  będzie  „podobieństwo 

dokumentów”. Proces ten wskaże w jakim stopniu posiadane przez Państwa artykuły są do siebie 
podobne.

 

Środowisko pracy: 

 

stwórz „nowy folder” na pulpicie o nazwie Imie_nazwisko, 

 

przekopiuj wszystkie 30 plików tekstowych do nowoutworzonego folderu, 

 

otwórz program RapidMiner (Start  Programy  RapidMiner), 

 

stwórz  nowy  proces  -  „new  process”  i  zapisz  go  jako  podobieństwo_imię_i_nazwisko,  bez 
polskich znaków. 
 

1.Pierwsza kostka: 

UWAGA 

– pamiętaj o wiązaniach między procesami 

 

skorzystaj z lewego drzewka procesów – rozwiń „Text Processing”, 

 

przeciągnij  proces  „Process  Documents  from  Files”  na  pulpit  ekranu  projektowego,  pamiętaj  o 
połączeniu wszystkich wiązań związanych z ładowaniem danych (wejściem – input) oraz wynikami. 

UWAGA 

– w tym przypadku, nie łączymy wyniku WOR (wordlist) !!!! 

 

 

 

klikając na każdej kostce jednokrotnie masz możliwość sformułować założeń, 

o  w  opcji  text  directories    edit  list 

wpisz  nazwę  klasy  (np.  swoje  imię),  wskaż  folder 

zawierający Twoje 30 plików tekstowych (.txt), kliknij „apply”

o  zaznacz opcje: 

  extract text only 
  use file extension as type 
  encoding 

– UTF-8 

background image

Autor: mgr inż. Jakub Siwiec 

  vector creation 

– TF-IDF 

  add meta information 
  prune method 

– absolute 

  prune below absolute 

– 3 

  prune above absolute - 100 
  datamanagement 

– double_sparse_array 

 
2.Kolejne kostki 

– podprocesy w 1 kostce::  

 

otwórz dodany przez siebie proces „Process Documents from Files”, (podwójne kliknięcie)  

 

dołącz proces tokenizacji, doprowadź go do punktu wynikowego 

o  mode 

– non letters 

 

dołącz proces tranform cases 

o  opcjonalnie 

– lower case (małe litery) lub upper case (wielkie litery) 

 

dołącz proces filter stopwords (English) 

 

dołącz process filter tokens (by length) 

o  min chars 

– 3 

o  max chars 

– 50 

 

 

 
3.Kostka 

mierząca podobieństwo każdego rekordu z wszystkimi pozostałymi po kolei: 

 

powróć  do  nadrzędnego  ekranu  projektowego  -  tak  aby  widoczna  była  tylko  pierwsza,  główna 
kostka 

– PROCESS DOCUMENTS FROM FILES. 

 

Dodaj kolejną kostkę Data to SImilarity (Modeling / Similarity Computation) 

o  z

definiuj wartość “measures type” – NumericalMeasures 

o  z

definiuj wartość “numerical measures” – CosineSimilarity 

połącz ze sobą obie kostki oraz dodaj wiązanie wynikowe 
 

 

 
4.

Krok końcowy: 

 

zapoznaj się z wynikami podobieństwa, sprawdź wyniki pod kątem najbardziej podobnych do siebie 
rekordów  oraz  najmniej  podobnych  do  siebie  artykułów  (filtrowanie  poprzez  „similarity”  – 
podobieństwo), 

 

zapoznaj się z graficznym przedstawieniem wyników, a dokładnie z HISTOGRAMEM 

 

 

background image

Autor: mgr inż. Jakub Siwiec 

 

stwórz  raport  z  niniejszego  ćwiczenia  w  dokumencie  typu  WORD,  raport  powinien  zawierać 
następujące informacje: 

imię i nazwisko, 

o  klasyfikacj

ę 5 najbardziej podobnych do siebie par artykułów wraz z ich tytułami, 

o  klasyfikacj

ę 5 najmniej podobnych do siebie par artykułów wraz z ich tytułami, 

o  zrzut ekranu 

– widok HISTOGRAM. 

  tak 

sporządzony  dokument  wyślij  na  adres  prowadzącego  (

j.siwiec@utp.edu.pl

 

lub 

cezary.graul@utp.edu.pl

w temacie wiadomości wpisując: IMIĘ i NAZWISKO – Dzień i godz. Zajęć 

(np. Śr. 13:00), 

 

usuń pliki z pulpitu, 

 

opróżnij kosz, 

 

wyłącz komputer.