background image

Autor: mgr inż. Jakub Siwiec 

mgr inż. Jakub Siwiec (j.siwiec@utp.edu.pl) 
mgr inż. Cezary Graul (cezary.graul@utp.edu.pl) 
Katedra Informatyki w Zarządzaniu 
Wydział Zarządzania 

 

    

  

PODSTAWY ZARZĄDZANIA WIEDZĄ 

 

 

Ćwiczenia praktyczne nr 3 – Programowanie procesów text-mining’owych 

 

Zadanie:  

Na podstawie zdobytej na poprzednich zajęciach bazy tekstów anglojęzycznych (30 artykułów, w 30 
plikach tekstowych *.txt, w języku angielskim, o minimalnej długości 1800z znaków bez spacji) oraz 
zastosowaniu programu RapidMiner

zaprogramuj swój pierwszy proces text-mining’owy.

 

Środowisko pracy: 

 

stwórz „nowy folder” na pulpicie o nazwie Imie_nazwisko, 

 

przekopiuj wszystkie 30 plików tekstowych do nowoutworzonego folderu, 

 

otwórz program RapidMiner (Start  Programy  RapidMiner) w razie potrzeby ściągnij i zainstaluj 
(Strona WZ 

– materiały dla studenta), 

 

stwórz nowy proces - „new process” i zapisz go jako 30_imię_i_nazwisko, bez polskich znaków. 
 

Pierwsza kostka: 

UWAGA 

– pamiętaj o wiązaniach między procesami 

 

 

skorzystaj z lewego drzewka procesów – rozwiń „Text Processing”, 

 

przeciągnij  proces  „Process  Documents  from  Files”  na  pulpit  ekranu  projektowego,  pamiętaj  o 
połączeniu wszystkich wiązań związanych z ładowaniem danych (wejściem – input) oraz wynikami 

 

klikając na każdej kostce jednokrotnie masz możliwość sformułować założeń, 

o  w  opcji  text  directories    edit  list 

wskaz  folder  zawierający  Twoje 30  plików  tekstowych 

(.txt), 

o  zaznacz opcje: 

  extract text only 
  use file extension as type 
  encoding 

– UTF-8 

  vector creation 

– TF-IDF 

  add meta information 
  prune method 

– none 

  datamanagement 

– double_sparse_array 

background image

Autor: mgr inż. Jakub Siwiec 

Kolejne kostki:  

UWAGA 

– śledź zmiany w wynikach po każdym dodatkowym procesie!!! 

 

otwórz dodany przez siebie proces „Process Documents from Files” „(podwójne kliknięcie)  

 

dołącz proces tokenizacji, doprowadź go do punktu wynikowego 

o  mode 

– non letters 

 

dołącz proces tranform cases 

o  opcjonalnie 

– lower case (małe litery) lub upper case (wielkie litery) 

 

dołącz proces filter stopwords (English) 

 

dołącz process generate n-Grams (Terms) 

o  max length - 2 

 

dołącz process filter tokens (by length) 

o  min chars 

– 4 

o  max chars - 50 

 
Krok końcowy: 
 

 

zapoznaj  się  z  otrzymanymi  wynikami  –  czyli  wykazem  wyrazów  wraz  z  ich  ilościami  wystąpień 
(total occurences)  

  otrzymane wyniki (WordList) przefiltruj 

pod względem najczęściej występujących - od najczęściej do 

najrzadziej występujących 

  wykonaj 2 zrzuty ekranu (Print Screen) 

o  filtr 

najczęściej występujących wyrazów 

filtr najrzadziej występujących wyrazów 

 

zrzuty ekranu wklej do dokumentu WORD i prześlij na adres prowadzącego (

j.siwiec@utp.edu.pl

 lub 

cezary.graul@utp.edu.pl

 

 

usuń pliki z pulpitu 

 

opróżnij kosz, 

 

wyłącz komputer.