background image

 

 

 

 

Wyszukiwarki 

Wyszukiwarki 

internetowe

internetowe

 

 

background image

 

 

 

 

Wstęp

Wstęp

Internet to ogromna składnica 
informacji, która coraz częściej 
zastępuje tradycyjną bibliotekę. 
Informacja to dzisiaj kluczowy element 
niezbędny do konkurowania na coraz 
bardziej wymagającym rynku, jednak 
odszukanie interesujących nas 
informacji spośród blisko 5 miliardów 
stron internetowych, bo na tyle się 
dzisiaj szacuje ich ilość, to nie proste 
zadanie.

background image

 

 

 

 

Czym jest wyszukiwarka?

Czym jest wyszukiwarka?

Wyszukiwarki internetowe to narzędzia, które za 
pomocą wbudowanych mechanizmów i 
algorytmów pozwalają na zminimalizowanie tych 
5 mld. stron do mniejszego zbioru, który człowiek 
mógłby ogarnąć. W dużym uproszczeniu, 
wyszukiwarki najpierw indeksują strony 
internetowe czyli przeglądają ich zawartość i 
zapisują odpowiednie informacje w swojej bazie 
danych. Następnie, gdy użytkownik poda 
poszukiwane słowa, wyszukiwarka znajduje w 
swojej bazie danych wszystkie strony, które 
zawierają poszukiwane słowa i zwraca linki do 
tych stron. 

background image

 

 

 

 

Kolejność, w jakiej zwracane są 

Kolejność, w jakiej zwracane są 

linki przez wyszukiwarkę

linki przez wyszukiwarkę

 

 

Zależy ona od wewnętrznych mechanizmów 

konkretnej wyszukiwarki. Mechanizmy te są 

najbardziej strzeżoną tajemnicą, jednak ogólne 

mechanizmy jakimi się kierują przeglądarki przy 

ustalaniu kolejności linków są znane. Właścicielom 

stron zależy, żeby ich strona znalazła się na 

pierwszej stronie wyników wyszukiwania 

określonych fraz. Np. firma informatyczna tworząca 

strony internetowe chce, aby jej strona znalazła się 

na pierwszej stronie wyników wyszukiwania frazy: 

"tworzenie stron internetowych" czy "strony www". 

Jest to o tyle ważne, że badania pokazują, że 

użytkownicy nie przeglądają więcej niż 100 

pierwszych wyników, a 30 pierwszych pozycji 

uznaje się za najbardziej pożądane.

background image

 

 

 

 

Ogólnie, można podzielić wyszukiwarki na 

kontrolowane przez autora strony (ang. author-

controlled), kontrolowane przez redaktora 

wyszukiwarki (ang. editor-controlled), 

kontrolowane prze użytkowników (ang. user-

controlled). Do tych pierwszych należy Google i 

Altavista, które tworzą rankingi istotności na 

podstawie słów kluczowych znajdujących się na 

indeksowanych stronach. Do drugiej grupy 

należą Yahoo i LookSmart, które umieszczają 

strony w katalogach tworzących strukturę 

drzewiastą. Do grupy user-controlled należy np. 

Direct Hit. Kategoria ta charakteryzuje się tym, 

że istotność obliczana jest na podstawie liczby 

odwiedzin danej strony przez użytkowników.

background image

 

 

 

 

Oprogramowanie 

Oprogramowanie 

wyszukiwarek

wyszukiwarek

 

 

Oprogramowanie wyszukiwarek to zestaw 

programów, modułów, z których każdy ma 

oddzielne zadanie. W skład zestawu wchodzą takie 

elementy jak:

pająk: program podobny do robota, który 

kolekcjonuje strony WWW; 

pełzacz: robot, który automatycznie śledzi oraz 

podąża za linkami zawartymi na stronie WWW; 

indekser: kolejny program, który buduje ze 

znalezionych stron WWW indeks; 

bazy danych: ogromny zbiór stron WWW, linków 

oraz treści dodatkowej; 

silnik zajmujący się wynikami wyszukiwania: 

"przekopuje" wyniki wyszukiwania zawarte w bazie 

oraz indeksie 

background image

 

 

 

 

Czego nie indeksują 

Czego nie indeksują 

wyszukiwarki?

wyszukiwarki?

Należy pamiętać, że wyszukiwarki nie 

indeksują wszystkiego, a w 

szczególności:

plików binarnych - pliki typu pdf (Adobe 

Acrobat), doc (Microsoft Word), mp3, 

mpeg, avi, jpg, gif, txt

dokumentów, do których dostęp 

wymaga logowania - np. intranety

stron, które zostały wykluczone przez 

autora poprzez umieszczenie w 

specjalnym pliku robots.txt

background image

 

 

 

 

www.google.com - strony WWW, najlepsza wyszukiwarka s

www.google.com - strony WWW, najlepsza wyszukiwarka s

zukaj.onet.pl

zukaj.onet.pl

 - 

 - 

strony WWW w

strony WWW w

ww.google.com

ww.google.com

 - strony WWW w

 - strony WWW w

ww.altavista.com

ww.altavista.com

 - strony 

 - strony 

WWW w

WWW w

ww.emulti.pl

ww.emulti.pl

 - strony WWW, multiwyszukiwarka w

 - strony WWW, multiwyszukiwarka w

ww.szukacz.pl

ww.szukacz.pl

 - 

 - 

strony WWW n

strony WWW n

etoskop.pl

etoskop.pl

 - strony WWW n

 - strony WWW n

etsprint.pl

etsprint.pl

 - strony WWW s

 - strony WWW s

zukaj.wp.pl

zukaj.wp.pl

 - strony WWW s

 - strony WWW s

zukaj.interia.pl

zukaj.interia.pl

 - strony WWW s

 - strony WWW s

zukaj.wow.pl

zukaj.wow.pl

 - 

 - 

strony WWW, z pomocą NetSprint www.yandex.pl - strony WWW 

strony WWW, z pomocą NetSprint www.yandex.pl - strony WWW 

www.alltheweb.com - strony WWW www.szukacz.pl - strony WWW 

www.alltheweb.com - strony WWW www.szukacz.pl - strony WWW 

szukaj.hoga.pl - strony WWW, z pomocą NetSprint www.altavista.com - 

szukaj.hoga.pl - strony WWW, z pomocą NetSprint www.altavista.com - 

strony WWW www.mamma.com - strony WWW, multiwyszukiwarka 

strony WWW www.mamma.com - strony WWW, multiwyszukiwarka 

www.euroseek.com - strony WWW www.yahoo.com - strony WWW 

www.euroseek.com - strony WWW www.yahoo.com - strony WWW 

szukaj.wp.pl - strony WWW, z pomocą Google www.sciseek.com - naukowe 

szukaj.wp.pl - strony WWW, z pomocą Google www.sciseek.com - naukowe 

strony WWW www.emulti.pl - strony WWW, multiwyszukiwarka 

strony WWW www.emulti.pl - strony WWW, multiwyszukiwarka 

www.educationworld.com - edukacyjne strony WWW vivisimo.com - strony 

www.educationworld.com - edukacyjne strony WWW vivisimo.com - strony 

WWW, multiwyszukiwarka www.wisenut.com - strony WWW 

WWW, multiwyszukiwarka www.wisenut.com - strony WWW 

www.search.com - strony WWW search.aol.com - strony WWW 

www.search.com - strony WWW search.aol.com - strony WWW 

www.metacrawler.com - strony WWW www.lycos.com - strony WWW 

www.metacrawler.com - strony WWW www.lycos.com - strony WWW 

7metasearch.com - strony WWW, multiwyszukiwarka www.alltheweb.com - 

7metasearch.com - strony WWW, multiwyszukiwarka www.alltheweb.com - 

strony WWW www.overture.com - strony WWW www.excite.com - strony 

strony WWW www.overture.com - strony WWW www.excite.com - strony 

WWW www.ask.com - strony WWW www.msn.com - strony WWW 

WWW www.ask.com - strony WWW www.msn.com - strony WWW 

www.teoma.com - strony WWW  

www.teoma.com - strony WWW  

background image

 

 

 

 

Wyszukiwarki oparte na 

Wyszukiwarki oparte na 

analizie treści strony

analizie treści strony

 

 

Ponieważ Internet rośnie znacznie szybciej 
niż jakakolwiek grupa ludzi może go 
katalogować, oraz z powodu wad 
katalogów (np. pod danym hasłem może 
znajdować się tysiące stron), powstały 
wyszukiwarki, które przeszukują Internet 
analizując zawartość stron. Kiedy 
użytkownik poda wyszukiwarce zapytanie, 
ona odpowie mu łączami do stron, które 
uzna, w zależności od użytego algorytmu, 
za najbardziej odpowiednie.

background image

 

 

 

 

Wyszukiwarki oparte na tej 

zasadzie mogą objąć znacznie 
większą część sieci niż katalogi. 
Niestety są one bardzo podatne na 
nadużycia, przez co użytkownik 
zamiast użytecznych informacji 
dostaje linki na strony nie mające nic 
wspólnego z jego zapytaniem. 
Szczególnie wyspecjalizowały się w 
tym strony pornograficzne.

background image

 

 

 

 

Wyszukiwarki oparte na 

Wyszukiwarki oparte na 

analizie topologii sieci

analizie topologii sieci

 

 

Żeby przeciwdziałać temu, wyszukiwarki 

zaczęły stosować analizę topologii sieci. 

Pierwszą wyszukiwarką, która zastosowała 

zaawansowane algorytmy analizy topologii 

sieci był Google.

Wyszukiwarki oparte na analizie topologicznej 

są często uważane za bardzo odporne na 

nadużycia. W rzeczywistości stosunkowo 

częstym atakiem są spam-systemy 

automatycznej wymiany linków. Inną formą 

ataku jest stworzenie dużej ilości gęsto 

linkowanych stron, z czego wszystkie na ten 

sam temat. 

background image

 

 

 

 

Wyszukiwarki oparte na 

Wyszukiwarki oparte na 

zasadzie aukcji miejsc

zasadzie aukcji miejsc

 

 

Osobnym pomysłem jest wprowadzony 

przez Overture (http://overture.com/ ) 

system, gdzie strony płacą wyszukiwarce 

kilka centów za każde kliknięcie, przy 

czym miejsca są licytowane - strona która 

daje więcej za kliknięcie znajdzie się wyżej 

na liście rezultatów. Pozycje płatne są 

oznaczone jako takie, razem z ceną. 

System ten jest korzystny dla właścicieli 

stron - płacą oni tylko za wejścia nie za 

wyświetlenia.

background image

 

 

 

 

Twórcy twierdzą, że jest on również 
korzystny dla użytkownika, gdyż tylko 
strony, które oferują coś użytecznego z 
danej dziedziny mogą sobie pozwolić na 
taką reklamę. Z drugiej jednak strony wiele 
użytecznych stron jest niekomercyjnych, a 
nawet przy stronach komercyjnych wyniki 
będą często nieoptymalne - np. na taką 
reklamę nie mogą sobie pozwolić strony, 
które mają niskie marże i oferują produkty 
po niskich cenach, a jedynie te, które mają 
wysokie marże i oferują produkty drożej.

background image

 

 

 

 

Przykłady  

Przykłady  

wyszukiwarek

wyszukiwarek

background image

 

 

 

 

Wyszukiwarki globalne

Wyszukiwarki globalne

background image

 

 

 

 

AltaVista jest jedną z największych wyszukiwarek 

internetowych pod względem ilości 

zaindeksowanych stron. Jej uniwersalność i łatwość 

używania zapewnia popularność wśród osób 

poszukujących informacji w Internecie. AltaVista 

oferuje liczne rozwiązania dla początkujących 

internautów, takie jak "Ask AltaVista", które 

pochodzi od Ask Jeeves. Wyszukiwanie wspierane 

jest przez katalogi internetowe Open directory oraz 

LookSmart. AltaVista została uruchomiona w 

grudniu 1995. Jej właścicielem była firma Digital, 

przejęta później przez Compaqa (w 1998 roku). 

Następnie została wyodrębniona jako samodzielna 

firma, dzisiaj kontrolowana przez CMGI. 

background image

 

 

 

 

Excite jest jednym z serwisów z wielkiej 6 
wyszukiwarek internetowych. Oferuje dużą bazę 
indeksów oraz bogaty serwis informacyjny. 
Excite powstał w 1995 roku. W następnych 
latach rozpoczął przejmowanie serwisów 
konkurencyjnych - Magellana w czerwcu 1996 
oraz WebCrawler w listopadzie 1996. 

background image

 

 

 

 

Google jest unikalnym rozwiązaniem łączącym 

zaawansowaną technologię z wyjątkowym 

softwarem. Aby osiągnąć wysoką wydajność 

systemu stworzony został superkomputer, który 

składa się z setek tanich komputerów 

połączonych w sieć.

Sercem programu jest unikalne rozwiązanie 

PageRank(TM) określające ranking znalezionych 

stron. Najwyżej cenione są te dokumenty, do 

których jest najwięcej odnośników ze stron 

cenionych przez Google. Google Wspiera swoją 

technologią takie portale jak Yahoo czy Netscape 

Search. Dlatego jest ona obecnie wyszukiwarką 

numer jeden  i nie zanosi się w najbliższym 

czasie, aby ta sytuacja uległa zmianie. 

background image

 

 

 

 

HotBot wyróżnia się wśród wyszukiwarek 

swoimi możliwościami spośród innych 

wyszukiwarek. W większości przypadków na 

pierwszej stronie wyświetlane są rezultaty z 

serwisu Direct Hit, następne pochodzą z 

wyszukiwarki Inktomi. HotBot wystartował w 

maju 1996 roku jako wejście firmy Wired 

Digital na rynek wyszukiwarek internetowych. 

W październiku 1998 roku HotBot został 

kupiony przez firmę Lycos, lecz dalej 

funkcjonuje jako samodzielna wyszukiwarka.

background image

 

 

 

 

Yahoo jest najpopularniejszym i najstarszym 
serwisem wyszukiwawczym- został 
uruchomiony w 1994 roku. Sekretem 
popularności są ludzie. Yahoo jest największym, 
opracowywanym przez 150 redaktorów 
przewodnikiem po Internecie. W bazie danych 
serwis posiada ponad milion zaindeksowanych 
stron. Od czerwca 2000 rezultaty wyszukiwania 
uzupełniane są przez serwis wyszukiwawczy 
Google. 

background image

 

 

 

 

Adresy niektórych 

Adresy niektórych 

globalnych wyszukiwarek

globalnych wyszukiwarek

http://www.altavista.com

www.altavista.pl

 

www.excite.com

 

www.google.pl

 

www.hotBot.com

 

www.yahoo.com

 

background image

 

 

 

 

Wyszukiwarki krajowe

Wyszukiwarki krajowe

 

 

background image

 

 

 

 

Szukacz jest narzędziem służącym do 

wyszukiwania dokumentów w Internecie. Został 

przygotowany przede wszystkim do wyszukiwania 

dokumentów w języku polskim. Składa się z 

czterech podstawowych modułów: zbieracza, 

tekstowacza, Indeksera i opowiadacza. Zbieracz, 

zwany też robotem lub pająkiem, "chodzi" po 

sieci i wyszukuje dokumenty, tworząc archiwa, z 

których co pewien czas (zwykle raz na dwa 

tygodnie) budowane są nowe kolekcje, 

korzystając z tekstowacza i Indeksera. Gotowa 

kolekcja jest wykorzystywana przez opowiadacz 

do konstruowania odpowiedzi.

background image

 

 

 

 

W sieci zadebiutowała nowa 
wyszukiwarka polskiego Internetu - 
GOORU.pl . Jest ona obecnie jednym z 
najbardziej zaawansowanych 
technologicznie narzędzi dostępnym dla 
celów przeszukiwania zasobów polskich 
stron WWW. Najważniejsze cechy 
wyszukiwarki: wysoki stopień trafności, 
duża liczba zindeksowanych stron WWW 
oraz szybkość wyszukiwania. 

background image

 

 

 

 

Yandex.pl to najnowszy system 

wyszukiwawczy, umożliwiający 

przeszukiwanie zasobów polskiego 

Internetu. Powstał on we współpracy z 

Yandex Technologies oraz z naukowcami z 

renomowanych instytutów naukowo-

badawczych i zawiera efekty lat badań - 

najnowocześniejsze algorytmy i 

rozwiązania techniczne i koncepcyjne.. 

Wyszukiwarka Yandex (www.yandex.pl) jest 

zarządzana i prowadzona przez firmę 

Yandex Polska.

background image

 

 

 

 

NetSprint jest to wyszukiwarka 
internetowa, która pozwala na 
szybkie i precyzyjne dotarcie do 
dokumentów znajdujących się w 
Sieci. Rozwiązanie stworzyła firma 
XOR Internet (Grupa XOR Solutions).

background image

 

 

 

 

NEToskop jest pierwszą polską wyszukiwarką. 
Został uruchomiony pod koniec grudnia 1996 
roku i niezmiennie cieszy się dużą 
popularnością. Zamiarem twórców NEToskopu 
było stworzenie wyszukiwarki, która 
dostosowana byłaby do specyfiki języka 
polskiego i rozpoznawała różne sposoby zapisu 
polskich liter. Większość wyszukiwarek 
działających w Polsce pracuje z reguły na 
oprogramowaniu pisanym za granicą, 
dostosowanym do języka angielskiego i zupełnie 
nie przystosowanym do rozpoznawania polskich 
liter kodowanych na różne sposoby ani specyfiki 
polskiego języka.

background image

 

 

 

 

Adresy niektórych polskich 

Adresy niektórych polskich 

wyszukiwarek

wyszukiwarek

www.szukacz.pl

 

www.gooru.pl

 

www.yandex.pl

www.netsprint.pl

 

www.netoskop.pl

 

background image

 

 

 

 

Jak szukać?

Jak szukać?

Zawsze dobra jest chwila zastanowienia 

przed rozpoczęciem poszukiwań. Należy wtedy 

przygotować strategię poszukiwań zadając 

sobie następujące pytania :

Co chcę zrobić ? 

- przeglądać sieć?

- znaleźć dokument w sieci odpowiadający 

poszukiwanemu tematowi?

- znaleźć wszystkie dostępne informacje na 

poszukiwany temat? 

Odpowiedź na te pytania ma zasadnicze 

znaczenie dla sposobów poszukiwania oraz 

koniecznych narzędzi. 

background image

 

 

 

 

Jeśli zamierzasz przeglądać sieć Internet w 
poszukiwaniu ogólnej informacji zacznij od 
katalogów internetowych takich, jak Yahoo! lub 
Open Directory
Następnie spróbuj użyć multiwyszukiwarkę np. 
Emulti używając do wyszukiwania słów kluczowych. 

Jeśli szukasz bardzo specyficznej informacji 
skorzystaj z globalnych wyszukiwarek takich jak: 
Fast Search lub Google, 
lub specjalistycznej bazy danych . 

Jeśli poszukujesz wszystkich informacji na zadany 
temat spróbuj użyć tych samych słów kluczowych 
w wielu wyszukiwarkach

background image

 

 

 

 

Budując zapytanie staraj się pamiętać 

Budując zapytanie staraj się pamiętać 

o następujących zasadach:

o następujących zasadach:

 

 

Używaj specyficznych słów

    Przykład:    meta keywords 

Jeśli to możliwe używaj rzeczowników i 

dopełnień jako słów kluczowych

    Przykład:    Huragan Anna 

Umieść najważniejsze słowa na początku 

listy i dodaj znak + aby mieć pewność, że 

wszystkie słowa będą poszukiwane 

    Przykład:    +hybrydowe 

+elektryczne +pojazdy 

Używaj przynajmniej 3 słów w zapytaniu

    Przykład:    dzieci antybiotyki wpływ 

background image

 

 

 

 

Staraj się tworzyć frazy

    Przykład:    "search engine tutorial" 

Unikaj słów powszechnie używanych np. 

zielony. Jeśli jednak musisz użyć, stwórz 

frazę z innymi słowami .

    Przykład:    "zielona herbata" 

Spróbuj określić słowa, które spodziewasz 

się znaleźć w treści dokumentu i użyj ich 

jako słów kluczowych 

    Przykład:    anoreksja bulimia 

jedzenie 

background image

 

 

 

 

Wybierz tak dużo słów lub fraz 
opisujących szukany temat jak to tylko 
możliwe. Dzięki temu zawężasz wyniki 
wyszukiwania. Wykorzystuj operatory 
logiczne, jeśli wyszukiwarka na to 
pozwala. 

Przede wszystkim bądź uparty i 
pomysłowy. Wyszukiwarki są bardzo 
pomocnymi narzędziami, lecz jeszcze 
niedoskonałymi. Wykorzystaj 
mechanizmy ich działania do 
optymalizacji procesu wyszukiwania. 

background image

 

 

 

 

Niniejsza prezentacja również  
została stworzona z pomocą 
wyszukiwarek. Głównie google    , ale 
również innych wymienionych wyżej.

background image

 

 

 

 

Strony źródłowe:

Strony źródłowe:

http://pl.wikipedia.org/wiki/Wyszukiw
arki_internetowe

http://www.extreme-is.com/technolog

ia/search_engines/introduction_to_s

earche_engines

http://gim18gda.neostrada.pl/wyszuk

iwarka.html

A także strony wymienionych w 

tekście wyszukiwarek

background image

 

 

 

 

Autorki:

Autorki:

###### #########
####### ########


Document Outline