UTF-8

UTF-8 (UCS Transformation Format 8) és el més comú de la World Wide Web en la character encoding (codificació de caràcters). Cada caràcter es representa per mitjà d'un a quatre bytes. UTF-8 és compatible amb versions anteriors amb ASCII i pot representar qualsevol caràcter Unicode estàndard.

Els primers 128 caràcters UTF-8 coincideixin exactament amb els primers caràcters ASCII 128 (numerades 0-127), el que significa que el text ASCII existent ja és UTF-8 vàlid. Tots els altres caràcters utilitzen de dos a quatre bytes. Cada byte té alguns bits reservats per a propòsits de codificació. Atès que els caràcters no ASCII requereixen més d'un byte per a l'emmagatzematge, corren el risc de ser danyats si els bytes estan separats i no es tornen a combinar.

Aprèn més

Coneixement general