INTERNET - Programe de căutare

Scurt istoric

Reţeaua Internet pe care o cunoaştem aztăzi s-a schimbat destul de mult de-a lungul anilor, fiind rezultatul unui proces schimbare şi extindere de circa 30 de ani. Marile universităţi americane au avut un rol important în dezvoltarea acestei reţele, în colaborare cu DoD (Department of Defense - Departamentul de Apărare al SUA). După ce reţeaua a trecut în domeniul universitar, a fost folosit mai ales pentru colaborarea între universităţi, profesori şi studenţi, în special pentru schimbul rapid de informaţii. Cu timpul, foarte multe reţele regionale universitare şi comerciale şi a multor organizaţii s-au conectat la această reţea, iar rezultatul este Internetul din prezent. Şi în zilele noastre, pricipalele două aplicaţii ale Internetului sunt comunicaţia rapidă şi sigură între persoane aflate la distanţe mari, răspîndite pe glob, precum şi publicarea de informaţii.

În ultimii ani, Internetul s-a răspîndit foarte mult, în special din cauza posibilităţii de a publica şi oferi informaţii, prin metode simple, unui număr foarte mare de utilizatori. De-a lungul timpului, au apărut o mulţime de unelte de publicare de informaţii pe Internet. Primele dintre ele, cele care au dominat pînă în 1992, au fost FTP şi NetNews. În jurul anului 1992, Gopher şi WAIS (Wide Area Information Service) au devenit populare pentru că au simplificat interacţiunea în reţea şi au oferit metode mai bune de navigare prin informaţii. Gopher este utilizat şi azi dar de un număr mai mic de persoane. Este bazat pe meniuri, utilizatorul putînd selecta dintr-un meniu ce anume îl interesează, iar rezultatul acestei selecţii va fi un alt meniu sau o anumită resursă. WAIS are o interfaţă grafică intuitivă şi este o colecţie mare de informaţii indexate, oferind un mod de navigare în date destul de bun. De asemenea, dispune de un sistem performant de căutare a acestor informaţii. În anul 1993, cîţiva cercetători de la un centru de cercetare în fizică din Elveţia (CERN) au inventat o nouă unealtă pentru publicarea pe Internet a infomaţiilor: World Wide Web, respectiv protocolul HTTP (HyperText Transfer Protocol). Cu apariţia primului browser grafic - Mosaic - în acelaşi an, publicarea informaţiilor pe World Wide Web a cunoscut o creştere şi o răspîndire uluitoare. Din acest moment, s-a produs o explozie de informaţii, iar utilizarea Internetului a cunoscut o rapidă răspîndire, numărul calculatoarelor conectate la Internet crescănd exponenţial. Acest lucru se datorează atractivei interfeţe grafice a browserelor, binecunoscute ca Netscape sau Internet Explorer, şi a uşurinţei de a folosi aceste unelte, fiind posibilă accesarea datelor multimedia, de diverse formate, prin intermediul legăturilor WWW. Explozia continuă şi azi, numărul utilizatorilor Internetului creşte într-un ritm ameţitor şi se aşteaptă ca această creştere să continue şi în următorii ani.

Din moment ce publicarea de informaţii pe Internet a devenit uşoară, populară şi ieftină, utilizarea în mod efectiv a informaţiilor accesibile a devenit tot mai greoaie. Volumul informaţiilor continuând să crească rapid, a devenit tot mai greu găsirea infomaţiilor relevante. Mai mult, sistemele de informaţii actuale - serverele Web - se confruntă cu o supraîncărcare şi avem de-a face cu gîtuiri şi blocaje pe reţea, din cauza numărului tot mai mare de utilizatori care încearcă să acceseze informaţii disponibile pe Internet.

Reţeaua Internet şi World Wide Web -ul sunt reţele descentralizate, dinamice şi foarte diverse. Navigarea pe WWW este dificilă, iar găsirea de informaţii poate fi o adevărată provocare. Unul dintre motive este creşterea rapidă a volumului datelor, a numărului utilizatorilor şi marea diversitate a datelor, ceea ce duce la folosirea efectivă a informaţiei din ce în ce mai dificilă. Un alt motiv este că utilizatorii Web-ului, de obicei, navighează pentru a găsi informaţii urmărind legături hipertext. Cu continua creştere a Web-ului, utilizatorii sunt nevoiţi să parcurgă tot mai multe legături ca să găsească ceea ce caută. Astfel traversarea individuală pentru a găsi informaţii devine o soluţie care nu este deloc practică. De aceea, utilizatorii au ajuns să depindă de programe de căutare sau căutătoare (search-engines), care îi ajută în căutarea informaţiilor disponibile prin Internet.

Ce este un program de căutare?

Din cauza dificultăţii (sau a imposibilităţii?) de a păstra un imens spaţiu de informaţii organizate, a nevoii de mult lucru pentru traversarea de sisteme informaţionale mari şi din cauza naturii subiective a organizării acestor informaţii, majoritatea programelor de căutare - sau sisteme de descoperire a resurselor - creează o bază de date, un index al infomaţiilor accesibile pe reţea. Cînd utilizatorii apelează la aceste programe de căutare, pentru a-i ajuta în găsirea de informaţii, are loc, de fapt, o căutare în această bază de date.

Multe dintre uneltele de căutare şi indexare fac parte din una din următoarele categorii:
• programe care generează indexuri de nume de fişiere sau nume de meniuri ale informaţiilor larg răspîndite, de exemplu Archie sau Veronica;
• programe de căutare care generează indexuri complete pentru tot conţinutul fişierelor, de exemplu Lycos sau WebCrawler.

Indexurile de nume sunt foarte eficiente din punct de vedere al spaţiului pe care îl ocupă, dar ele suportă doar cereri limitate, în multe cazuri negăsind rezultate. E posibil ca să creăm cereri de căutare şi să avem rezultate, doar dacă există fişiere ale căror nume conţine subşirul respectiv. Indexurile globale pe conţinutul fişierelor devin mai puţin utile cu creşterea volumului informaţiilor, ele ocupînd foarte mult spaţiu şi cauzează ca, la multe cereri, să se găsească ca rezultat prea multe informaţii, din care foarte puţine sunt de fapt utile utilizatorului.

Unele programe de căutare, ca de exemplu AliWeb, colectează indexuri locale care descriu ce informaţii se găsesc pe un anumit server. Această abordare necesită ca administratorii să creeze aceste fişiere, şi să introducă într-un format special datele cerute, pe care să le stocheze pe servere. Mulţi administratori de servere, însă, nu au fost de acord să facă acest efort suplimentar.

Putem spune deci că majoritatea programelor performante de căutare de azi generează indexuri enorme, pentru întregul conţinut al documentelor (full-content indexing). Aceste programe de căutare folosesc roboţi Web, pentru a transfera pe sistemul de fişiere local informaţiile, documentele care trebuie indexate. Aceşti roboţi sunt programe software care încearcă să localizeze şi transferă un număr mare de documente WWW, traversînd în mod recursiv legături hipertext, pornind de la un set de documente cunoscute. Aceste programe nu necesită luări de decizii centralizate şi nici participarea a unor webmaster-i individuali, fiind nevoie doar ca ele să fie compatibile cu standardele care guvernează şi fac Web-ul să funcţioneze. Programele de căutare de acest gen tind să genereze baze de date mai complete decît cele care se bazează pe efortul voluntar de colaborare a webmaster-ilor.

Probleme

Programele de căutare şi indexare actuale ne oferă un serviciu extrem de util: localizarea informaţiilor dorite, pe baza unor cereri create de utilizator. Aceste programe care ne ajută atît de mult însă, nu sunt perfecte, ele au anumite deficienţe.

Înainte de a prezenta aceste deficienţe, trebuie să prezentăm cum funcţionează serverele Web. Aceste servere trebuie să trateze simultan un număr mare de cereri. Un server popular pe Internet recepţionează cîteodată sute sau chiar mii de cereri pe secundă, la care trebuie să răspundă în timp util. Acest lucru poate duce la o supraîncărcare a serverelor.

Prima dintre deficienţele programelor clasice de căutare este deci supraîncărcarea serverelor. Acest lucru are loc cînd un astfel de program trebuie să indexeze informaţia de pe un server, şi ca să facă acest lucru el porneşte un robot. Robotul transferă recursiv toate fişierele aflate pe acel server. Robotul fiind un program care se execută pe un calculator, el poate prelucra şi transfera aceste fişiere rapid, cu o viteză uimitoare, care nu se compară cu viteza cu care lucrează un utilizator uman. Acest lucru poate duce la supraîncărcarea serverului, iar dacă robotul este un program cu fire multiple care se execută în paralel, cererile HTTP către serverul web indexat pot creşte exponenţial.

Al doilea dezavantaj al programelor de căutare provine din faptul că acest robot trebuie să transfere informaţii de la toate serverele pe care programul de căutare le indexează, ceea ce, pe lîngă încărcarea serverelor, duce şi la un trafic intens pe reţea şi poate cauza blocaje. Acest lucru poate duce la întârzieri pentru utilizatorii care vizitează serverele indexate. Aceste deficienţe sunt dublate de faptul că programele de căutare - care sunt destul de multe - adună informaţii, dublate de faptul că programele de căutare-dinare a efortului între ele.

O altă deficienţă este mărimea enormă a indexului, a bazei de date care ocupă foarte mult spaţiu. Fiind vorba despre indexare totală a conţinutului fişierelor, aproape fiecare cuvînt dintr-un fişier este indexat şi stocat în baza de date. În unele cazuri, mărimea indexului poate fi mai mare decît informaţiile indexate. Cu creşterea volumului datelor - procesul de indexare fiind o operaţiune lentă - timpul necesar indexării creşte şi el. Acest timp însă, nu are voie să depăşească o limită, iar, ca să rămînă sub această limită, este nevoie de noi resurse, pentru ca sistemul să rămînă performant. Pe partea pozitivă, indexurile o dată construite, formatul lor special permite o căutare foarte rapidă.

O altă probleme apare din două motive: din natura dinamică a Internetului şi din modul de funcţionare a programelor de căutare. Majoritatea programelor de căutare vizitează periodic serverele pe care trebuie să le indexeze. Din motive de performanţe şi pentru evitarea încărcării serverelor, perioadele acestea durează cel puţin o lună. Internetul fiind foarte dinamic, cu multe informaţii care se schimbă foarte des, de multe ori, sunt generate anumite rezultate care conţin legături incorecte la documente care nu mai există, informaţia respectivă nemaifiind disponibilă. Acest lucru poate fi destul de supărător pentru utilizatorii care caută informaţii.

Arhitectura unui program de căutare clasic

În general, un program de căutare clasic este constituit din mai multe module: nucleul de căutare, robotul de transfer, baza de date şi serverul de cereri. În continuare, vor fi prezentate separat aceste componente.

1. Nucleul de căutare
Această componentă a programului de căutare coordonează toate activităţile şi este responsabilă cu luarea deciziilor de genul care document va fi explorat în continuare şi iniţiază transferul documentului prin trimiterea unor instrucţiuni robotului care efectuează transferul. De asemenea, de obicei, are o bază de date a serverelor care trebuie indexate. Administratorul unui server web care doreşte ca un program de căutare să indexeze serverul administrat de el - şi la următoarele căutări să genereze rezultate şi de pe serverul respectiv - se conectează de obicei, la programul de căutare respectiv şi completează un formular HTML, în care descrie conţinutul serverului adminstrat de el. Astfel, el ajunge în baza de date a serverelor care trebuie vizitate şi indexate a programului de căutare. Nucleul de căutare vizitează fiecare server de pe listă periodic - nu mai des de o dată pe lună, pentru a nu genera trafic excesiv - şi transferă recursiv toate documentele de pe servere, pe care apoi le indexează.

2. Robotul de transfer
Acest program este responsabil cu transferul documentelelor de pe reţea, de la serverele Web, la comanda nucleului de căutare. Ca să funcţioneze corect, roboţii trebuie să respecte anumite reguli, care ţin de anumite probleme etice de bun simţ de pe reţeaua Internet. În primul rînd, trebuie să se identifice, şi să identifice proprietarul lor, pentru ca, în cazul unor probleme cu un server Web, probleme cauzate eventual de robot, administratorii sistemului să ştie pe cine să contacteze. O altă problemă ar fi evitarea supraîncărcării serverelor Web. Un robot fiind un program care rulează pe un calculator, poate transfera fişiere cu o viteză uluitoare. Dacă este un program multi-threaded, numărul fişierelor prelucrate pe minut poate fi foarte mare. Dacă un asemenea robot se năpusteşte pe un server, în mod sigur, va cauza creşterea încărcării acestuia. O soluţie la această problemă este ca robotul să ţină o pauză - 30 de secunde este satisfăcător din punctul de vedere al serverului - între transferul consecutiv al documentelor de pe acelaşi server. De asemenea, ar fi bine ca robotul să se limiteze doar la fişierele de care chiar are nevoie. Un robot care transferă fişiere pentru a fi indexate nu are ce să facă cu fişiere grafice, de exemplu. O altă soluţie pentru evitarea încărcării serverelor ar fi ca roboţii să ruleze şi să facă transferul la momente oportune, cînd serverele sunt mai libere. Dacă nu ar face aşa şi ar transfera fişierele cînd e îmbulzeală, cînd mulţi utilizatori umani vizitează acelaşi server, aceştia din urmă ar înregistra întîrzieri semnificative. Este, de asemenea, de preferat ca un robot să nu viziteze prea des acelaşi server. O altă regulă este ca roboţii să încerce să reducă din trafic şi încărcarea serverului, prin tactica de a nu ataca un singur server dintr-o dată, ci să transfere documente de pe mai multe servere, simultan. De asemenea, ar fi corect din partea unui robot ca să avertizeze administratorul serverului pe care urmează să-l viziteze despre intenţiile lui. Astfel, dacă apar anumite probleme cu serverul, acesta din urmă să ştie la cine să apeleze. Administratorul serverului ar putea da sfaturi cînd este serverul mai liber, cînd este momentul oportun pentru transferul fişierelor care vor fi indexate.

În anumite cazuri, un administrator de server doreşte să controleze accesul roboţilor la anumite fişiere, pe care nu le vrea indexate de un program de căutare. Pentru realizarea acestui lucru, s-a elaborat un standard prezentat în caseta Standard pentru Excluderea Roboţilor.

3. Baza de date
Acestă componentă este responsabilă cu stocarea persistentă a datelor - de fapt a meta-datelor - unui document. Documentele transferate sunt indexate şi rezultatele indexării sunt stocate. De asemenea, anumite programe de căutare stochează şi legăturile dintre documente. De obicei, modul de indexare se bazează pe un algoritm de asociere, dând fiecărui cuvînt cheie o valoare de pondere. Fiind vorba de o indexare totală, pe tot conţinutul documentului, aproape fiecare cuvînt din document este considerat un cuvînt cheie. Exceptate de la această regulă sunt cuvintele care sunt pe o listă a cuvintelor care nu pot fi cuvinte cheie. Acestea pot fi prepoziţiile, conjuncţiile etc. De asemenea, unele programe de căutare nu consideră cuvinte cheie acele cuvinte al căror număr de apariţie într-un document depăşeşte o limită maximă. Modul de asociere a ponderii cuvintelor cheie are anumite reguli, care pot diferi de la un program la altul. Unele programe de căutare pur şi simplu asociază o pondere în funcţie de numărul de apariţii a cuvintelor cheie din fişierele respective. Alte programe asociază o pondere mai mare acelor cuvinte, care apar în anumite zone mai importante ale documentului, în interiorul unor anumite tag-uri HTML, ca de exemplu titlul, care este în tag-ul , subtitluri, în tagurile <H1>…<H6>, cuvinte care apar în interiorul tagului META, la atributul „keywords“, la începutul documentelor sau alte zone evidenţiate în text. Unele programe mai iau în considerare proporţia dintre cuvinte cheie găsite şi numărul total al cuvintelor în document. În baza de date astfel creată, vor fi executate căutări la cererea unor utilizatori, iar documentele rezultate în urma unei căutări vor fi listate în ordinea descrescătoare a ponderilor.</p> <p><b>4. Serverul de cereri<br> </b> Acest modul implementează serviciul de cereri disponibil de pe Internet în forma unui formular HTML. În figura „Formular de creare de cerere de căutare“ este prezentat un asemenea formular.</p> <p>Aceasta este o interfaţă puternică care permite formularea de cereri complexe. Din datele şi parametrii introduşi de un utilizator oarecare, se generează o cerere către baza de date. Utilizatorii introduc un set de cuvinte cheie şi specifică modul în care aceste cuvinte cheie se leagă între ele. Rezultatele, care sunt documentele relevante găsite pentru cererea respectivă, sunt prezentate sortate, în ordinea relevanţei lor. Despre modul în care o cerere este creată de către un utilizator şi despre funcţiile pe care o unealtă de căutare le poate oferi, puteţi citi în caseta „<a href="/byte97-08/met.html">Metode de căutare</a>“.</p> <h3>Prezentarea rezultatelor unei căutări în context</h3> <p>În multe cazuri, cînd utilizatorii caută informaţii, adesea, ei au în minte doar nişte detalii vagi, fragmentate, despre ce anume caută. În asemenea situaţii, dacă le oferim doar titlurile unor documente ca rezultate, nu este îndeajuns ca ei să facă o alegere bună. </p> <p>Arătîndu-le descrieri de context din fişierele găsite, de obicei, putem reduce numărul încercărilor greşite pe care utilizatorii le fac cînd aleg din lista cu rezultatele căutării. Afişarea unei descrieri destul de mari ca utilizatorul să aleagă bine din prima încercare este un lucru important. Unele programe de căutare permit utilizatorului să aleagă el mărimea descrierii pe care o doreşte, în acelaşi fel cum setează alte opţiuni ale căutării.</p> <p>Multe programe de căutare prezintă ca descriere a unui anumit document primele linii sau propoziţii din respectivul document. Descrierile luate din textul care înconjoară cuvintele cheie căutate sunt adesea mult mai folositoare decît descrierile luate din primele linii ale fişierului. Din păcate, puţine programe de căutare generează descrieri specifice cuvintelor cheie.</p> <p>În continuare, vom dicuta cîteva aspecte legate de performanţele programelor de căutare.</p> <h3>Performanţele programelor de căutare</h3> <p>Capacitatea programelor de căutare de a găsi informaţii utile se măsoară, de obicei, cu ajutorul a doi factori: capacitatea de regăsire (recall) şi precizia. Capacitatea de regăsire este proporţia documentelor relevante găsite şi măsoară ce fracţiune a documentelor relevante sunt găsite. Este, de fapt, numărul de documente relevante găsite, împărţit la numărul total al documentelor relevante existente în baza de date. </p> <p>Precizia ne spune cît de bine corespund documentele găsite cu cererea recepţionată. Este definită de proporţia documentelor găsite - adică numărul documentelor relevante găsite, împărţit la numărul total de documente găsite - care chiar sunt relevante.</p> <p>Scopul unei căutări bune este maximizarea capacităţii de regăsire a documentelor relevante şi a preciziei. Adică, cît mai multe din documentele folositoare să fie găsite şi, în acelaşi timp, cît mai multe din documentele irelevante să fie respinse.</p> <p>Programele de căutare clasice au o capacitate de regăsire adecvată, care este destul de mare. Nu găsirea de destul material relevant este problema. Problema apare cu precizia, care este destul de mică, pentru că programele dau multe rezultate pozitive false, multe rezultate nu conţin ceea ce utilizatorul caută. O soluţie practică este asocierea unor ponderi de relevenţă la rezultatele găsite, astfel, utilizatorul se poate concentra pe documentele considerate mai relevante, dar nu se elimină complet cele mai puţin relevante.</p> <h3>Concluzie</h3> <p>Programele de căutare sunt folosite, zilnic, de milioane de persoane care încearcă să localizeze în spaţiul imens al Web-ului anumite informaţii. În unele cazuri, ei găsesc ceea ce caută, în multe cazuri însă nu, şi rezultatele căutărilor nu conţin informaţiile dorite. Acest lucru se datorează, în parte, imperfecţiunii programelor de căutare, pe de altă parte, inexistenţei informaţiilor căutate. Producătorii programelor de căutare încearcă tot timpul să îmbunătăţească aceste programe, desfăşurînd o intensă activitate de cercetare în acest domeniu. Să sperăm că aceste unelte se vor perfecţiona şi le vom putea utiliza, ca să găsim, cu un efort minim exact informaţiile pe care le căutăm.</p> </div> <hr> <h5><a href="/byte97-08/sumar.html">BYTE România - august 1997</a></h5> <p> <hr> <h6 align="LEFT"><a href="http://www.agora.ro/info/copyright.html">(C) Copyright Computer Press Agora</a> </h6> <p></p> </td> </tr> </table> <h1> </h1> </center> </body> </html>

Programe de căutare de informaţii pe Internet

Scurt istoric

Ce este un program de căutare?

Probleme

Arhitectura unui program de căutare clasic

Programe de căutare
de informaţii pe Internet