Reprezentarea caracterelor: Unicode

O caracteristică a navigatorilor se referă la posibilitatea de a "vedea" caracterele particulare ale diferitelor limbi naturale. Standardul care acoperă toate caracterele limbilor vorbite este Unicode, un superset de caractere ASCII care utilizează doi octeti pentru fiecare caracter (în loc de unul). Este capabil deci să manipuleze pînă la 65536 combinatii (fată de 256 în ASCII pe 8 biti sau 128 de caractere în US-ASCII pe 7 biti ). ISO (International Standard Organization) a definit chiar un set de caractere pe patru octeti dar utilizează Unicode ca un subset.

Serverul poate prezenta caracterele browserului (via standardele WWW, adică HTML si HTTP) în trei moduri diferite: caracterul însusi, prin codul lui ISO8859-1 Reprezentarea caracterului sub forma &#număr sau reprezentarea &entitate a numelui caracterului. Capacitatea de reprezentare a browserului se judecă după cum anume se comportă cînd i se prezintă un caracter: îl afisează corect sau afisează prostii, lucru care depinde de complianta lui cu ultimele standarde WWW.

Majoritatea browserelor vechi nu au functia care permite utilizatorului să schimbe setul de caractere si prin urmare ele nu vor putea vedea decît caracterele din codul american pe 7 biti US-ASCII (128 de caractere). Versiunile mai noi ale multor browsere permit nu numai reprezentarea corectă pe ecran a unui număr sporit de caractere (de pildă toate caracterele codificate pe 8 biti, 256 de caractere) ci si schimbarea fonturilor. Un exemplu de browser care utilizează Unicode este HotJava.


(C) Copyright Computer Press Agora