Webmaster - Getpage

Un Cadou de Sărbători:
o carte în format HTML
sau un întreg site ?

Apărut spre sfârşitul anilor '80, ca rezultat al necesităţii unui limbaj scriptural simplu, pentru procesarea fişierelor text, limbajul PERL pare să-şi păstreze un loc sigur în loja limbajelor practice, lucru dovedit şi prin noua sa versiune 5. Limbaj interpretat, optimizat pentru scanarea şi extragerea de informaţii din fişierele text şi tipărirea de rapoarte bazate pe aceste informaţii, Perl-ul a fost conceput pentru a fi simplu de utilizat, eficient şi complet. Este, totodată, un limbaj bun pentru multe activităţi de administrare a unui sistem Unix şi pentru crearea de scripturi CGI (programare legată de Internet şi HTML) .

În opinia autorului său, Larry Wall, Perl-ul (Practical Extraction and Report Language) combină multe din cele mai bune caracteristici ale binarelor sh, awk, sed şi are unele asemănări cu Pascal şi csh. Scripturile Perl ce folosesc setuid sunt mai sigure decât programele C, lucru obţinut printr-un mecanism de evitare a „găurilor“ de securitate.

Perl-ul este un limbaj uşor de învăţat, datorită unei familiarităţi obţinută din asemănarea cu alte limbaje clasice (cunoscute). Noua versiune Perl5 a fost total rescrisă, rezultând un interpretor mai rapid şi mai flexibil.

Ideea creării unui program, ca cel descris în continuare, a apărut dintr-o necesitate: existenţa pe Internet a diverselor cărţi şi documentaţii în format HTML, dar care nu puteau fi salvate local ca o arhivă. Încercarea de a salva fişier cu fişier tot ce îţi trebuie, inclusiv pozele şi background-urile, se dovedeşte mai costisitoare ca scrierea unui program ce face acest lucru automat. Amintim faptul că informaţia de care discutăm se află organizată într-o structură arborescentă de directoare. Astfel, pentru a recompune local configuraţia de pe maşina de la distanţă, trebuie ori create aceste directoare şi unele fişiere mutate acolo, ori modificate paginile HTML salvate … Şi cum scrierea unui program pare o muncă mult mai interesantă decât prima alternativă, am ales-o pe aceasta.

Getpage este un progrămel instructiv, pentru programarea în Perl şi simplu de folosit: getpage . De exemplu: getpage www.mcs.anl.gov/dbpp/text/ book.html vă va aduce o întreagă carte despre Programarea Paralelă şi Distribuită de la Argonne National Laboratory, ce se ocupă de un proiect de publicare online pentru Addison-Wesley inc., pe când getpage -1 www.perl.com/CPAN/src/latest .tar.gz vă va aduce doar arhiva ultimei distribuţii de Perl.

Utilizând facilităţile Perl-ului de manipulare a şirurilor de caractere (extragere, concatenare, vectorizare şiruri de caractere şi uşurinţa pattern-matching-ului), am creat mai întâi un progrămel ce, primind un fişier Index (table of contents), îl parcurge şi memorează legăturile relative (de exemplu: ) într-un vector. Acesta este apoi parcurs şi se salvează fiecare link.

Acesta este doar începutul. Într-o versiune mai evoluată, programul filtrează fiecare fişier adus, inclusiv primul. Filtrarea presupune extragerea link-urilor către imagini, eventual sunete. În acest fel, se pot transfera atât fişiere text cât şi binare (GIFs, JPEGs, *.class, *.wav sau orice alt tip de fişiere). Singura diferenţă faţă de varianta prezentată o găsim în instrucţiunea care selectează linii din documentul salvat.

În loc de:

 $Lines'$i ++' = $_ if /.*href.*/i

vom scrie:

 $Lines'$i ++' = $_ if /.*src.*/i .

Încercaţi ca exerciţiu aceasta.

Dacă scanăm fiecare fişier salvat şi memorăm legăturile interne, vom putea salva recursiv o întreagă structură de directoare.

Apar însă următoarele probleme:
1. trebuie să creăm local o structură de directoare similară cu cea de la distanţă;
2. nu trebuie să procesăm un fişier salvat anterior, pentru că acest lucru creează o buclă infinită.

Soluţie: păstrăm istoria salvărilor într-o listă specială. Varianta prezentată în listing cât şi cea care se găseşte la adresele: http://apolo.cs.pub.ro/~bogo/getpage/index.html şi http://disco.cs.pub.ro/~bodiz/getpage/index.html nu este recursivă, acest lucru fiind însă avut în vedere de către autori pentru un proiect viitor.

Un avantaj al Getpage-ului, care a fost exploatat de noi, este acela că el poate fi lăsat să lucreze în background cu prioritate mică, util mai ales în cazul transferului unui număr foarte mare de fişiere.

Cu toate că se porneşte din linia de comandă, am creat pentru Getpage şi două tipuri de interfeţe. Una în TCL/TK cu Visual Tcl care rulează sub Xwindow şi apelează în spate pur şi simplu Getpage-ul. Alta, o pagină de HTML încărcată în Netscape care poate apela un script aflat pe un calculator de la distanţă (de exemplu http:// disco.cs.pub.ro/cgi-bin/getpage/getpage.pl) dar care este nerecomandată datorită încărcării maşinii ce rulează scriptul. Serverul salvează local toate fişierele şi le trimite arhivate în format tgz spre noi.

Un program asemănător Getpage-ului şi foarte complet există şi pe Internet. El face parte din pachetul Snag-o-rama şi îl puteţi găsi la adresele : http://www.wg.omron.co.jp/~jfriedl/perl/ şi http://enterprise.ic.gc.ca/~jfriedl/perl.

Pentru a putea testa Getpage sau Snag, aveţi nevoie de Perl 5.004 sau mai nou. PERL-ul se găseşte free la adresele de pe Internet: http://www.perl.com/CPAN/src/latest.tar.gz sau la noi la: ftp://ftp.dnttm.ro/pub/CPAN/

CPAN reprezintă iniţialele de la Comprehensive Perl Archive Network unde sunt adunate laolaltă toate materialele şi contribuţiile relative la Perl. Ele sunt oglindite pe site-uri din diverse colţuri ale lumii pentru un acces mai rapid la informaţii.

Un bun punct de plecare pentru documentaţie referitoare la Perl este site-ul oficial de la : http://www.perl.com .

Pentru orice întrebări sau detalii, autorii sunt bucuroşi să vă stea la dispoziţie.

Getpage

BYTE România - decembrie 1997

(C) Copyright Computer Press Agora