UTF-8

UTF-8 (Format Transformacji UCS 8) to najpopularniejsze kodowanie znaków w sieci WWW. Każdy znak jest reprezentowany przez jeden do czterech bajtów. UTF-8 jest wstecznie kompatybilny z ASCII i może reprezentować dowolny standardowy znak Unicode.

Pierwsze 128 znaków UTF-8 dokładnie odpowiada pierwszym 128 znakom ASCII  (numerowanym 0-127), co oznacza, że istniejący tekst ASCII jest zgodny z UTF-8. Wszystkie pozostałe znaki używają od dwóch do czterech bajtów. Każdy bajt ma kilka bitów zarezerwowanych do celów kodowania. Ponieważ znaki nie-ASCII wymagają do przechowywania więcej niż jednego bajtu, istnieje ryzyko ich uszkodzenia, jeżeli bajty są rozdzielone i nie są ponownie łączone.

Dowiedz się więcej

Wiedza ogólna