UTF-8

UTF-8 (UCS Transformation Format 8) est le codage de caractères le plus répandu sur le World Wide Web. Chaque caractère est représenté par un à quatre octets. UTF-8 est rétro-compatible avec l'ASCII et peut représenter n'importe quel caractère Unicode.

Les 128 premiers caractères UTF-8 correspondent exactement aux 128 premiers caractères ASCII (numérotés de 0 à 127), ce qui signifie que tous les textes ASCII existants sont déjà valides en UTF-8. Tous les autres caractères utilisent de deux à quatre octets. Chacun de ces octets possède quelques bits réservés à des fins d'encodage. Comme les caractères non-ASCII nécessitent plus d'un octet pour être enregistrés, ils courent le risque d'être corrompus s'ils sont séparés ou s'ils ne sont pas recombinés.

Pour approfondir

Culture générale

Étiquettes et contributeurs liés au document

 Contributeurs à cette page : xdelatour
 Dernière mise à jour par : xdelatour,