Brian
Hancock
- Podstawy
mechanizm≤w wyszukuj▒cych
Artyku│ z serwisu IBM DeveloperWorks
(t│um. Micha│ 'Podles' Podlewski)
Ostatnie
badania pokazuj▒, ┐e katalogowanie zasob≤w Internetu staje siΩ zadaniem
trudniejszym, ni┐ serwisy takie jak Yahoo! chcia│yby aby╢ s▒dzi│. Wydobycie
oczekiwanych wynik≤w tematycznego wyszukiwania mo┐e byµ trudne. Brian
Hancock ogl▒da mechanizmy przeszukuj▒ce w Linuxie, miΩdzy innymi dwa
bazuj▒ce na Open Source i wyjania, co mog▒ one zrobiµ aby pom≤c Ci w
znalezieniu tego, czego szukasz.
Internet
udowodni│ ju┐, ┐e jest szerokim, ale niepos│usznym zasobem. Studenci
ciesz▒ siΩ mog▒c przychodz▒c do biblioteki korzystaµ z og≤lnych wyszukiwarek
takich jak AltaVista czy katalog≤w takich jak Yahoo ┐eby przeprowadzaµ
swoje poszukiwania w Sieci, ale czΩsto generowane przez nie wyniki s▒
og≤lnikowe i pochodz▒ce z niepewnych ╝r≤de│. Co gorsza, ostatnie badania
wykazuj▒, ┐e g│≤wne wyszukiwarki indeksuj▒ jedynie czΩµ Internetu, chociaµ
Excite og│asza, ┐e niedawno wprowadzi│ wyszukiwarkΩ, kt≤ra ma zindeskowaµ
wszystkie strony w Sieci. Aby pom≤c u┐ytkownikom w ich sieciowych poszukiwaniach
zaczΩto wprowadzaµ tematyczne wyszukiwarki i katalogi o ograniczonym
zasiΩgu terytorialnym. Jedne z najlepszych w tej kategorii s▒ Wolnym
Oprogramowaniem (Open Source), chocia┐ nie jest to regu│▒.
Wyszukiwarki tematyczne s▒ dobrym narzΩdziem aby skoncentrowaµ wyszukiwanie
w obrΩbie konkretnej dyscypliny oraz konkretnego obszaru geograficznego.
Takie parametry naturalnie definiuj▒ wyszukiwanie i pomagaj▒ u┐ytkownikom
zdobyµ szybko odpowiadaj▒ce wyniki. Aby pom≤c w osi▒gniΩciu tego, wyszukiwarki
te s▒ po│▒czone z szerok▒ gam▒ zautomatyzowanego oprogramowania.
Ten artyku│
skoncentruje siΩ na dw≤ch mechanizmach wyszukiwawczych z rodziny Open-Source,
"Harvest" (»niwa) oraz ROADS i bedzie siΩ odnosi│ do dw≤ch
wyszukiwarek - Altavista oraz Infoseek, kt≤re zosta│y przeniesione na
platforme Linuxow▒.
Co
to jest mechanizm wyszukuj▒cy?
Odnosz▒c
siΩ do Internetu, zar≤wno wyszukiwarki jak i katalogi stron zosta│y
razem ochrzczone mianem "wyszukiwarek". R≤┐nica polega na
metodzie, za pomoc▒ kt≤rej informacje s▒ gromadzone i │▒czone. Harvest,
AltaVista i Infoseek wysy│aj▒ "robota" czy te┐ "paj▒ka"
aby zbiera│ informacje z Internetu, kt≤re p≤╝niej s▒ automatycznie indeksowane
na lokalnym serwerze. [Jest to odw≤rcony spis informacji wyci▒gniΩtych
z dowolnego sposobu kodowania, takiego jak na przyk│ad HTML.] Mechanizm
wyszukuj▒cy jest w rzeczywistoci jedynie ko±c≤wka (front-end), kt≤ra
wydobywa informacjie juz zebrane i skatalogowane. Aby utrzymaµ aktualnoµ
tych danych, "roboty" odwiedzaj▒ dan▒ stronΩ wielokrotnie,
aby zbieraµ nowe pojawiaj▒ce siΩ na niej informacje. Proces ten mo┐e
siΩ odbywaµ co dowoln▒ iloµ czasu ustalon▒ przez administratora. Na
przyk│ad "scooter" AltaVisty odwiedza dan▒ stronΩ co 28 dni,
a Index Antiquus - u┐ywaj▒cy Harvest'a - jest odwierzany co 2 miesi▒ce.
R≤┐nica polega na tym, ┐e Altavista chce byµ na bierz▒co z du┐▒ liczb▒
czΩsto zmieniaj▒cych siΩ stron, a Index Antiquus odwiedza wzglΩdnie
niewielk▒ liczbΩ statycznych i g│≤wnie tekstowych stron, wybieranych
przez operatora, tak wiΩc parametry zbioru s▒ r≤┐ne.
Katalogi
takie jak Yahoo! i ROADS ("the Resource Organization and Discovery
in Subject-based Services" czyli "organizowanie i odkrywanie
zasob≤w w serwisach baz tematycznych") polegaj▒ na ludziach podczas
zbierania informacji i umieszczania ich w odpowiedznich katalogach.
NastΩpnie ko±c≤wka szukaj▒ca wyrzuca rezultaty.
Zale┐nie
od tego, czego oczekujesz od mechanizmu wyszukujacego, powiniene rozwa┐yµ
pewne cechy:
Mechanizmy
wyszukuj▒ce
Harvest
("Harvest Information Discovery and Access System" czyli System
odkrywania i dostΩpu do informacji)
Harvest jest zintegrowanym zestawem narzΩdzi do gromadzenia, ekstrakcji,
organizowania, przeszukiwania, "cache'owania" i replikowania
informacji w Internecie. Pocz▒tkowo zosta│ stworzony na Uniwersytecie
w Kolorado przez IRTF-RD (Internet Task Force Group on Resource Discovery)
i jest utrzymywany przez grupΩ ochotnik≤w z Uiwersytetu w Edynburgu.
Jest
on u┐ywany do gromadzenia informacji z wybranych stron, wiΩc u┐ytkownik
dostaje informacje odpowiadaj▒c▒ poszukiwanemu tematowi. Na przyk│ad
Index Antiquus (tematyczna wyszukiwarka materia│≤w zwi▒zanych z kultur▒
klasyczn▒ i redniowieczn▒) na pytanie o Horacego zwr≤ci wyniki powi▒zane
z rzymskim poet▒. U┐ytkownicy wyszukiwarek tematycznych maj▒ pewnoµ,
┐e zwr≤cone informacje bΩd▒ odpowiednie i precyzyjne.
Harvest
sk│ada siΩ z dw≤ch podstawowych podsystem≤w: "zdobywacza"
i "wydawacza". Zdobywacz zbiera informacje ze stron wybranych
przez cz│owieka (w wypadku Index Antiquusa - osob▒ t▒ jest bibliotekarz).
Proces ten jest ocenianiem stron u┐ywaj▒c pewnych kryteri≤w takich jak
odpowiednioµ, aktualnoµ, organizacja itp. Do listy tej trzeba te┐ dodaµ
stabilnoµ. Chocia┐ robot (lub tester link≤w) pomaga utrzymaµ linki tylko
do aktywnych stron, niedobrze jest kiedy baza danych zmienia siΩ diametralnie
za ka┐dym razem kiedy jest odnawiana.
Kiedy
informacja jest zwracana do lokalnego serwera, jest ona podsumowywana
i indeksowana (tzn. jest pozbawiana wszelkiego kodu HTML, a baza danych
jest tworzona i indeksowana). Zdobywacz nie uaktualnia bazy danych samodzielnie,
odbywa siΩ to za pomoc▒ komendy cron, kt≤ra ponownie wysy│a zdobywacza.
Mo┐e siΩ to odbywaµ w okrelonym czasie, np. co miesi▒c, wczenie z rana
(┐eby nie obci▒┐aµ Sieci). "Wydawacz" jest po prostu mechanizmem
│▒cz▒cym siΩ z baz▒ danych i zwracaj▒cym wyniki - innymi s│owy jest
mechanizmem wyszukuj▒cym. Domylnym mechanizmem wyszukuj▒cym dla Harvest'a
jest 'glimpse', ale jeli chcesz, mo┐esz u┐yµ 'WAIS' lub 'Swish'. Ze
wzglΩdu na to, ┐e Harvest jest rozprowadzany na zasadach OpenSource,
mo┐esz go ci▒gn▒µ i skompilowac na dowolnym UNIX'ie. Ostatnia wersja
to 1.5.20 i jest dostΩpna ze strony Harvest'a jako archiwum tar.gz
ROADS
System katalogowy ROADS, rozwijany przez Loughborough University of
Technology i ufundowany przez Access to Networked Resources section
of the UK Electronic Libraries Programme (eLib), daje dostΩp do bazy
danych rekord≤w powi▒zanych z danym tematem. U┐ytkownik mo┐e przegl▒daµ
i przeszukiwaµ bazΩ danych. W przeciwie±stwie do Harvesta system ten
nie u┐ywa robot≤w do przeszukiwania Internetu, ale bazuje na wpisach
dokonanych przez u┐ytkownika. Jednak┐e ma testera link≤w informuj▒cego
administratora o zmienionych lub nieaktywnych odnonikach.
ROADS
jest zbiorem narzΩdzi pomagaj▒cych skatalogowaµ zasoby Internetu. Przypomina
on Yahoo! w kt≤rym ludzie s▒ niezbΩdni do wpisywania nowych rekord≤w
do bazy i uaktualnianiu b│Ωdnych link≤w. Dostarcza szablon≤w do opisywania
poszczeg≤lnych zasob≤w takich jak obrazy, d╝wiΩki, dokumnety, us│ugi
i FAQ'i. Jest konfigurowalny i zosta│ rozwiniΩty z "zestawu narzΩdzi"
wiΩc jeli potrzebujesz, mo┐esz u┐yµ tylko poszczeg≤lnych modu│≤w.
Program
zosta│ napisany w Perl'u i uruchomi siΩ na prawie ka┐dym UNIX'ie. Jest
dostΩpny jako tar.Z lub i386.rpm ze strony internetowej ROADS.
AltaVista
SDK (Search Developer's Kit) AltaVisty pozwala programistom na dodawanie
nowych funkcji do istniej▒cych baz danych lub tworzenia nowych aplikacji.
FBI u┐ywa go z baz▒ Oracle do przeszukiwania bazy 250 mln wpis≤w, co
znacznie przekracza mo┐liwo╢ci zwyk│ego u┐ytkownika Linuxa, ale skoro
DB2 i Oracle zosta│y przystosowane do Linuxa, jest to wiΩc mo┐liwe.
SDK zawiera
wszystkie narzΩdzia kt≤rych bΩdziesz potrzebowaµ do stworzenia zbior≤w
ustrukturalizowanych (sk│▒daj▒cych siΩ z rekord≤w o konkrentej budowie)
lub nieustrukturalizowanych (np. bazy tekst≤w). Oprogramowanie to zawiera
tak┐e API (application programming interface) aby u│atwiµ dostΩp i manipulacje
danymi. Dokumentacja i przyk│▒dy s▒ do│▒czone do pakietu, kt≤rego testow▒
wersje mo┐na ci▒gn▒µ jako plik tar.Z
InfoSeek
InfoSeek stworzy│ sw≤j w│asny Serwer Ultraseek, kt≤rego wersja linuxowa
jest dostΩpna do testowania. Sprawdzilimy j▒ na RH6.0 i s│yszelimy od
InfoSeek'a, ┐e dzia│a te┐ na SuSE6.1. Jest │atwa w instalacji, ale trzeba
pamiΩtaµ o wyznaczeniu katalogu z danymi (inaczej zwraca komunikaty
o b│Ωdach).
Ultraseek
automatycznie wysy│a swojego robota do wybranych stron i tworzy spis.
Interfejs do wyszukiwarki jest konfigurowalny i akceptuje zapytania
w jΩzyku naturalnym. Baz▒ danych (po jej stworzeniu) mo┐na zarz▒dzaµ
za porednictwem przegl▒darki. Dokumentacja zawiera opis instalacji,
administracji i dostosowywania. Wersja pr≤bna dla Linuxa jest dostΩpna
jako i386.rpm
Zale┐nie
od twoich potrzeb na mozliwo╢ci wyszukiwawcze w Internecie lub Intranecie,
powy┐sze propozycje zapewniaj▒ Ci wyb≤r. Wyszukiwarki tematyczne i obszarowe
udowodni│y swoja przydatnoc jako dodatki do stron WWW. Linux zapewnia
stabiln▒ platformΩ i bez w▒tpliwo╢ci coraz wiΩcej firm przeniesie na
niego swoje platformy wyszukiwawcze, udostΩpniaj▒c kod (tak jak zrobi│
to Netscape).
Zasoby
w sieci:
Wykluczanie robot≤w: http://info.webcrawler.com/mak/projects/robots/norobots.html
Harvest Web Indexing: http://www.tardis.ed.ac.uk/harvest/
ROADS: http://www.roads.lut.ac.uk/
AltaVista SDK: http://k2.altavista-software.com/sdk_intro.htm
UltraSeek: http://software.infoseek.com/products/ultraseek