Căutătorii

Iosif Fettich

Fiecare pagină HTML este ca o cameră într-o casă. Cei mai multi intră în acestă casă prin Home Page (pagina de bun venit). O astfel de pagină, bine făcută, salută vizitatorul îi spune unde se află si care sînt resursele interesante care pot fi găsite înăuntru. Controalele de navigatie ale browserului îi vor permite cititorului să intre si să iasă din diversele încăperi. În unele se pot găsi si cîteva sugestii ale autorului legate de alte locuri interesante de vizitat pe Web. Dar nu toată lumea va intra în aplicatia Web prin Home Page. Există un număr de programe automate (numite căutători) care explorează încontinuu Web-ul construind baze de date din titluri, subtitluri si URL-uri, sărind de la un server la altul. Programe ce se dovedesc deosebit de utile cînd doriti o listă cu adresele resurselor de pe Web care se referă la o anumită problemă.

Volumul imens de date pe care îl reprezintă documentele din Internet ar fi practic lipsit de valoare dacă nu ar fi indexat cu grijă si meticulozitate. A face indexarea cîtorva zeci de milioane de documente, cît mai flexibil, pentru a permite si găsirea documentelor ce contin variante ale cuvintelor cheie utilizate în interogări, este o operatiune ce presupune un efort de calcul semnificativ. De aceea, nu va surprinde pe nimeni că nu sînt foarte multe locurile din lume unde există posibilitatea efectivă de a face asa ceva - e nevoie de cîteva zeci/sute de Gbytes pe discuri rapide si de o capacitate de calcul adecvată. Nu numai volumul efectiv de date este impresionant - rata de actualizare este si ea incredibil de ridicată, practic nu există secundă în care să nu se schimbe sau să nu apară o pagină de WWW sau o informatie care ar trebui făcută disponibilă lumii. Dacă un autor îsi face publică o pagină de prezentare pe tocmai instalatul server de WWW de pe PC-ul de acasă, este desigur improbabil că el îi va anunta pe toti cei care încearcă să indexeze documentele din Internet - este grija acestora să încerce să afle tot ce e nou, tot ce sa modificat, tot ce a dispărut… Cum o fac, reprezintă probabil unul din capitolele cele mai fierbinti ale soft-ului contemporan. Se folosesc "spideri" (păianjeni) sau "gopheri", "roboti" sau "ants" (furnici), "crawlers" sau "worms" (viermi), sau pur si simplu se pleacă la "harvest" (recoltat) - multe sînt tehnicile utilizate sau încercate pentru a obtine performante rezonabile în această tentativă de a păstra informatii la zi despre un volum imens de date care se schimbă mereu. Iată de exemplu lista cîtorva din cei mai importanti căutători, împreună cu URL-urile asociate:


(C) Copyright Computer Press Agora