操作系统之字符集-白红宇

操作系统之字符集

阅读量：2388 次

发布时间：2019-05-10

本文共 910 字，大约阅读时间需要 3 分钟。

字符集是操作系统中所使用的字符映射表。最早的字符集，可以认为是UNIX系统使用的，包含128个字符的7- bit ASCII 字符集（包括tabs、空格、标点、符号、大小写字母、数字和回车键等）。随后，就是标准8- bit ASCII，包含256个字符，早期的Windows 操作系统使用8- bit ASCII字符集。由于扩展后的ASCII字符集还是无法满足所有语言的需求，如汉语、日语和韩语这些语言的字符都高达几万个字符。所以产生了16-bit字符集（双字节、多字节或变数字节）--统一的字符编码标准为Unicode。

Unicode是一个国际标准，采用双字节字符进行编码，提供了在世界主要语言中通用的字符，所以也称为基本多文种平面。Unicode以明确的方式表述文本数据，简化了混合平台环境中的数据共享。目前，很多操作系统都支持Unicode，包括Windows系统、Linux系统和Mac OS、Solaris、IBM-AIX、HP-UX等。Unicode简称为UCS，现在用的是UCS-2，即２个字节编码，与国际标准字符集ISO 10646-1相对应。UCS的最新版本是2005年的Unicode 4.1.0，而ISO的最新标准是ISO 10646-3:2003。

Codepage是各国的文字编码和Unicode之间的映射表。例如，简体中文和Unicode的映射表就是CP936，其他的映射关系有：

UTF-8/ UTF-16/ UTF-32。UCS只是规定如何编码，并没有规定如何传输、保存编码。所以有了UniCode实用的编码体系，如UTF-8、UTF-7、UTF-16。UTF-8（UCS Transformation Format）和ISO-8859-1完全兼容，解决了UniCode编码在不同的计算机之间的传输、保存的问题，使得双字节的Unicode能够在现存的单字节的系统上正确传输。UTF-8使用可变长度的字节来储存Unicode字符，这能解决敏感字符引起的问题。前面有几个1，就表示整个UTF-8串是由几个字节构成的。以下是Unicode和UTF-8之间的转换关系表：

比较完整的字符集列表:

转载地址：http://jitab.baihongyu.com/

你可能感兴趣的文章

给广大码农分享福利：一个业界良心的github仓库，中文计算机资料