ジャンプ先:

UTF-8 (UCS Transformation Format 8) は World Wide Web において最も一般的な文字エンコーディングです。1文字あたり1~4バイトで表します。 UTF-8 は ASCII に対して前方互換性を持っており、すべての標準 Unicode 文字を表現することができます。

UTF-8 の最初の128文字は、 ASCII の128文字(0~127)に正確に対応しており、つまり既存の ASCII 文字列はすでに UTF-8 として有効です。他の文字は2~4バイトを使用します。それぞれのバイトにはエンコードのためにいくつかのビットが予約されています。非 ASCII 文字は格納するために2バイト以上を必要とするため、バイト列が分割され再結合されない場合に破損する恐れがあります。

関連情報

一般知識

ドキュメントのタグと貢献者

このページの貢献者: mfuji09, clariroid
最終更新者: mfuji09,