|| | ||| ok│adka | intro | spis tre╢ci | redakcyjne | prenumerata | adv.
Magazyn Prawdziwych Internaut≤w
numer 25:. aktualno╢ci | komputery | internet | kultura ||| || |

 

Brian Hancock - Podstawy mechanizm≤w wyszukuj▒cych
Artyku│ z serwisu IBM DeveloperWorks
(t│um. Micha│ 'Podles' Podlewski)

Ostatnie badania pokazuj▒, ┐e katalogowanie zasob≤w Internetu staje siΩ zadaniem trudniejszym, ni┐ serwisy takie jak Yahoo! chcia│yby aby╢ s▒dzi│. Wydobycie oczekiwanych wynik≤w tematycznego wyszukiwania mo┐e byµ trudne. Brian Hancock ogl▒da mechanizmy przeszukuj▒ce w Linuxie, miΩdzy innymi dwa bazuj▒ce na Open Source i wyjania, co mog▒ one zrobiµ aby pom≤c Ci w znalezieniu tego, czego szukasz.

Internet udowodni│ ju┐, ┐e jest szerokim, ale niepos│usznym zasobem. Studenci ciesz▒ siΩ mog▒c przychodz▒c do biblioteki korzystaµ z og≤lnych wyszukiwarek takich jak AltaVista czy katalog≤w takich jak Yahoo ┐eby przeprowadzaµ swoje poszukiwania w Sieci, ale czΩsto generowane przez nie wyniki s▒ og≤lnikowe i pochodz▒ce z niepewnych ╝r≤de│. Co gorsza, ostatnie badania wykazuj▒, ┐e g│≤wne wyszukiwarki indeksuj▒ jedynie czΩµ Internetu, chociaµ Excite og│asza, ┐e niedawno wprowadzi│ wyszukiwarkΩ, kt≤ra ma zindeskowaµ wszystkie strony w Sieci. Aby pom≤c u┐ytkownikom w ich sieciowych poszukiwaniach zaczΩto wprowadzaµ tematyczne wyszukiwarki i katalogi o ograniczonym zasiΩgu terytorialnym. Jedne z najlepszych w tej kategorii s▒ Wolnym Oprogramowaniem (Open Source), chocia┐ nie jest to regu│▒.
Wyszukiwarki tematyczne s▒ dobrym narzΩdziem aby skoncentrowaµ wyszukiwanie w obrΩbie konkretnej dyscypliny oraz konkretnego obszaru geograficznego. Takie parametry naturalnie definiuj▒ wyszukiwanie i pomagaj▒ u┐ytkownikom zdobyµ szybko odpowiadaj▒ce wyniki. Aby pom≤c w osi▒gniΩciu tego, wyszukiwarki te s▒ po│▒czone z szerok▒ gam▒ zautomatyzowanego oprogramowania.

Ten artyku│ skoncentruje siΩ na dw≤ch mechanizmach wyszukiwawczych z rodziny Open-Source, "Harvest" (»niwa) oraz ROADS i bedzie siΩ odnosi│ do dw≤ch wyszukiwarek - Altavista oraz Infoseek, kt≤re zosta│y przeniesione na platforme Linuxow▒.

Co to jest mechanizm wyszukuj▒cy?

Odnosz▒c siΩ do Internetu, zar≤wno wyszukiwarki jak i katalogi stron zosta│y razem ochrzczone mianem "wyszukiwarek". R≤┐nica polega na metodzie, za pomoc▒ kt≤rej informacje s▒ gromadzone i │▒czone. Harvest, AltaVista i Infoseek wysy│aj▒ "robota" czy te┐ "paj▒ka" aby zbiera│ informacje z Internetu, kt≤re p≤╝niej s▒ automatycznie indeksowane na lokalnym serwerze. [Jest to odw≤rcony spis informacji wyci▒gniΩtych z dowolnego sposobu kodowania, takiego jak na przyk│ad HTML.] Mechanizm wyszukuj▒cy jest w rzeczywistoci jedynie ko±c≤wka (front-end), kt≤ra wydobywa informacjie juz zebrane i skatalogowane. Aby utrzymaµ aktualnoµ tych danych, "roboty" odwiedzaj▒ dan▒ stronΩ wielokrotnie, aby zbieraµ nowe pojawiaj▒ce siΩ na niej informacje. Proces ten mo┐e siΩ odbywaµ co dowoln▒ iloµ czasu ustalon▒ przez administratora. Na przyk│ad "scooter" AltaVisty odwiedza dan▒ stronΩ co 28 dni, a Index Antiquus - u┐ywaj▒cy Harvest'a - jest odwierzany co 2 miesi▒ce. R≤┐nica polega na tym, ┐e Altavista chce byµ na bierz▒co z du┐▒ liczb▒ czΩsto zmieniaj▒cych siΩ stron, a Index Antiquus odwiedza wzglΩdnie niewielk▒ liczbΩ statycznych i g│≤wnie tekstowych stron, wybieranych przez operatora, tak wiΩc parametry zbioru s▒ r≤┐ne.

Katalogi takie jak Yahoo! i ROADS ("the Resource Organization and Discovery in Subject-based Services" czyli "organizowanie i odkrywanie zasob≤w w serwisach baz tematycznych") polegaj▒ na ludziach podczas zbierania informacji i umieszczania ich w odpowiedznich katalogach. NastΩpnie ko±c≤wka szukaj▒ca wyrzuca rezultaty.

Zale┐nie od tego, czego oczekujesz od mechanizmu wyszukujacego, powiniene rozwa┐yµ pewne cechy:

  • Dok│adnoµ: Precyzja i odpowiednioµ wynik≤w s▒ najistotniejsze
  • Przeszukiwanie boolowskie: wyszukiwarka powinna obs│ugiwaµ operatory logiczne AND, NOT i OR
  • Wyszukiwanie schemat≤w tekstowych: Zamykanie ich w cudzys│owach jest pomocne np. przy wyszukiwaniu cytat≤w z poezji itp.
  • Konfigurowalny interfejs
  • Konwersja format≤w: Czy bΩdzie indexowa│a np. TeX, pdf i "otwarte" archiwa ZIP
  • Administracja: bardzo przydaje siΩ zdalny dostΩp dla administratora przez przegl▒darke
  • Pomoc: niekt≤rzy u┐ytkownicy z niej korzystaj▒ :-)
  • SprzΩt: Na serwerze dobrze jest mieµ bardzo du┐o RAM'u, szybki procesor i SCSI. Na przyk│▒d IndexAntiquus pracowa│ na 533 Megahertzowym procesorze Alpha ze 128 Mb RAM'u i RedHat'cie 5.1 , zmienianym p≤╝niej na PII 400, 128Mb RAM'u i SuSE 6.1 . Potrzebne te┐ jest szybkie │▒cze z sieci▒ - Antiquus │▒czy│ siΩ przez uniwersyteck▒ sieµ szkieletow▒ (100BaseT), a ze wiatem │▒czy│ go Internet2.
  • Wykluczanie robot≤w: Z r≤┐nych przyczyn w│▒ciciele niekt≤rych serwis≤w nie chc▒, aby ich strony by│y odwiedzane / indeksowane przez roboty (W takim wypadku na systemach linuxowych administrator strony umieszcza w katalogu dostΩpnym przez HTTP plik robots.txt aby uniemo┐liwiµ. robotom dostΩp do wszystkiego w tym katalogu podkatalogach.). Jednak wiΩkszoµ stron wpuszcza roboty, a niekt≤re im pomagaj▒ umiesczaj▒c tagi META opisuj▒ce stronΩ (niekt≤re nawet oszukuj▒ roboty, ┐eby mieµ wy┐szy ranking w wyszukiwarkach).

Mechanizmy wyszukuj▒ce

Harvest
("Harvest Information Discovery and Access System" czyli System odkrywania i dostΩpu do informacji)
Harvest jest zintegrowanym zestawem narzΩdzi do gromadzenia, ekstrakcji, organizowania, przeszukiwania, "cache'owania" i replikowania informacji w Internecie. Pocz▒tkowo zosta│ stworzony na Uniwersytecie w Kolorado przez IRTF-RD (Internet Task Force Group on Resource Discovery) i jest utrzymywany przez grupΩ ochotnik≤w z Uiwersytetu w Edynburgu.

Jest on u┐ywany do gromadzenia informacji z wybranych stron, wiΩc u┐ytkownik dostaje informacje odpowiadaj▒c▒ poszukiwanemu tematowi. Na przyk│ad Index Antiquus (tematyczna wyszukiwarka materia│≤w zwi▒zanych z kultur▒ klasyczn▒ i redniowieczn▒) na pytanie o Horacego zwr≤ci wyniki powi▒zane z rzymskim poet▒. U┐ytkownicy wyszukiwarek tematycznych maj▒ pewnoµ, ┐e zwr≤cone informacje bΩd▒ odpowiednie i precyzyjne.

Harvest sk│ada siΩ z dw≤ch podstawowych podsystem≤w: "zdobywacza" i "wydawacza". Zdobywacz zbiera informacje ze stron wybranych przez cz│owieka (w wypadku Index Antiquusa - osob▒ t▒ jest bibliotekarz). Proces ten jest ocenianiem stron u┐ywaj▒c pewnych kryteri≤w takich jak odpowiednioµ, aktualnoµ, organizacja itp. Do listy tej trzeba te┐ dodaµ stabilnoµ. Chocia┐ robot (lub tester link≤w) pomaga utrzymaµ linki tylko do aktywnych stron, niedobrze jest kiedy baza danych zmienia siΩ diametralnie za ka┐dym razem kiedy jest odnawiana.

Kiedy informacja jest zwracana do lokalnego serwera, jest ona podsumowywana i indeksowana (tzn. jest pozbawiana wszelkiego kodu HTML, a baza danych jest tworzona i indeksowana). Zdobywacz nie uaktualnia bazy danych samodzielnie, odbywa siΩ to za pomoc▒ komendy cron, kt≤ra ponownie wysy│a zdobywacza. Mo┐e siΩ to odbywaµ w okrelonym czasie, np. co miesi▒c, wczenie z rana (┐eby nie obci▒┐aµ Sieci). "Wydawacz" jest po prostu mechanizmem │▒cz▒cym siΩ z baz▒ danych i zwracaj▒cym wyniki - innymi s│owy jest mechanizmem wyszukuj▒cym. Domylnym mechanizmem wyszukuj▒cym dla Harvest'a jest 'glimpse', ale jeli chcesz, mo┐esz u┐yµ 'WAIS' lub 'Swish'. Ze wzglΩdu na to, ┐e Harvest jest rozprowadzany na zasadach OpenSource, mo┐esz go ci▒gn▒µ i skompilowac na dowolnym UNIX'ie. Ostatnia wersja to 1.5.20 i jest dostΩpna ze strony Harvest'a jako archiwum tar.gz

ROADS
System katalogowy ROADS, rozwijany przez Loughborough University of Technology i ufundowany przez Access to Networked Resources section of the UK Electronic Libraries Programme (eLib), daje dostΩp do bazy danych rekord≤w powi▒zanych z danym tematem. U┐ytkownik mo┐e przegl▒daµ i przeszukiwaµ bazΩ danych. W przeciwie±stwie do Harvesta system ten nie u┐ywa robot≤w do przeszukiwania Internetu, ale bazuje na wpisach dokonanych przez u┐ytkownika. Jednak┐e ma testera link≤w informuj▒cego administratora o zmienionych lub nieaktywnych odnonikach.

ROADS jest zbiorem narzΩdzi pomagaj▒cych skatalogowaµ zasoby Internetu. Przypomina on Yahoo! w kt≤rym ludzie s▒ niezbΩdni do wpisywania nowych rekord≤w do bazy i uaktualnianiu b│Ωdnych link≤w. Dostarcza szablon≤w do opisywania poszczeg≤lnych zasob≤w takich jak obrazy, d╝wiΩki, dokumnety, us│ugi i FAQ'i. Jest konfigurowalny i zosta│ rozwiniΩty z "zestawu narzΩdzi" wiΩc jeli potrzebujesz, mo┐esz u┐yµ tylko poszczeg≤lnych modu│≤w.

Program zosta│ napisany w Perl'u i uruchomi siΩ na prawie ka┐dym UNIX'ie. Jest dostΩpny jako tar.Z lub i386.rpm ze strony internetowej ROADS.

AltaVista
SDK (Search Developer's Kit) AltaVisty pozwala programistom na dodawanie nowych funkcji do istniej▒cych baz danych lub tworzenia nowych aplikacji. FBI u┐ywa go z baz▒ Oracle do przeszukiwania bazy 250 mln wpis≤w, co znacznie przekracza mo┐liwo╢ci zwyk│ego u┐ytkownika Linuxa, ale skoro DB2 i Oracle zosta│y przystosowane do Linuxa, jest to wiΩc mo┐liwe.

SDK zawiera wszystkie narzΩdzia kt≤rych bΩdziesz potrzebowaµ do stworzenia zbior≤w ustrukturalizowanych (sk│▒daj▒cych siΩ z rekord≤w o konkrentej budowie) lub nieustrukturalizowanych (np. bazy tekst≤w). Oprogramowanie to zawiera tak┐e API (application programming interface) aby u│atwiµ dostΩp i manipulacje danymi. Dokumentacja i przyk│▒dy s▒ do│▒czone do pakietu, kt≤rego testow▒ wersje mo┐na ci▒gn▒µ jako plik tar.Z

InfoSeek
InfoSeek stworzy│ sw≤j w│asny Serwer Ultraseek, kt≤rego wersja linuxowa jest dostΩpna do testowania. Sprawdzilimy j▒ na RH6.0 i s│yszelimy od InfoSeek'a, ┐e dzia│a te┐ na SuSE6.1. Jest │atwa w instalacji, ale trzeba pamiΩtaµ o wyznaczeniu katalogu z danymi (inaczej zwraca komunikaty o b│Ωdach).

Ultraseek automatycznie wysy│a swojego robota do wybranych stron i tworzy spis. Interfejs do wyszukiwarki jest konfigurowalny i akceptuje zapytania w jΩzyku naturalnym. Baz▒ danych (po jej stworzeniu) mo┐na zarz▒dzaµ za porednictwem przegl▒darki. Dokumentacja zawiera opis instalacji, administracji i dostosowywania. Wersja pr≤bna dla Linuxa jest dostΩpna jako i386.rpm

Zale┐nie od twoich potrzeb na mozliwo╢ci wyszukiwawcze w Internecie lub Intranecie, powy┐sze propozycje zapewniaj▒ Ci wyb≤r. Wyszukiwarki tematyczne i obszarowe udowodni│y swoja przydatnoc jako dodatki do stron WWW. Linux zapewnia stabiln▒ platformΩ i bez w▒tpliwo╢ci coraz wiΩcej firm przeniesie na niego swoje platformy wyszukiwawcze, udostΩpniaj▒c kod (tak jak zrobi│ to Netscape).

Zasoby w sieci:
Wykluczanie robot≤w: http://info.webcrawler.com/mak/projects/robots/norobots.html
Harvest Web Indexing: http://www.tardis.ed.ac.uk/harvest/
ROADS: http://www.roads.lut.ac.uk/
AltaVista SDK: http://k2.altavista-software.com/sdk_intro.htm
UltraSeek: http://software.infoseek.com/products/ultraseek


copyrights PRO - Magazyn Prawdziwych Internaut≤w 2002 [ aktualno╢ci | komputery | internet | kultura ] 16
<--poprzednia strona | do g≤ry | spis tre╢ci | nastΩpna strona-->