UTF-8

UTF-8 (англ. UCS Transformation Format 8 - формат перетворення Юнікоду) - це найбільш вживане кодування символів у Всесвітній мережі. Кожний символ представлений послідовністю від одного до чотирьох байтів. UTF-8 зворотно сумісний з ASCII і може відобразити будь-який стандартний символ Юнікоду.

Перші 128 символів UTF-8 повністю співпадають з першими 128 символами ASCII (пронумеровані 0-127). Це означає, що існуючий текст ASCII вже є коректним текстом UTF-8. Усі інші символи використовують від двох до чоритьох байтів. Кожен байт має кілька бітів, зарезервованих для цілей кодування. Оскільки символи, що не належать до ASCII, потребують більше одного байту для зберігання, вони ризикують бути пошкодженими у випадку, якщо байти були розділені та не поєднані знову.

Дізнатись більше

Загальні відомості