Character set

字符集是一种让计算机知道如何识别 Character 包括字母、数字、标点符号和空格的编码系统。

早期,由于各国使用的语言不同而发展出各自的字符集,例如日语的 Kanji JIS(例如 Shift-JIS, EUC-JP 等),繁体中文的 Big5 和俄罗斯的 KOI8-R。然而,Unicode 因其对通用语言的支持,逐渐成为最被接受的字符集。

如果一个字符集使用不正确(例如,对于以 Big5 编码的文章使用 Unicode),你可能会看到一些支离破碎的乱码,这被称为 Mojibake.