博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
操作系统之字符集
阅读量:2388 次
发布时间:2019-05-10

本文共 910 字,大约阅读时间需要 3 分钟。

字符集是操作系统中所使用的字符映射表。最早的字符集,可以认为是UNIX系统使用的,包含128个字符的7- bit ASCII 字符集(包括tabs、空格、标点、符号、大小写字母、数字和回车键等)。随后,就是标准8- bit ASCII,包含256个字符,早期的Windows 操作系统使用8- bit ASCII字符集。由于扩展后的ASCII字符集还是无法满足所有语言的需求,如汉语、日语和韩语这些语言的字符都高达几万个字符。所以产生了16-bit字符集(双字节、多字节或变数字节)--统一的字符编码标准为Unicode。

    Unicode是一个国际标准,采用双字节字符进行编码,提供了在世界主要语言中通用的字符,所以也称为基本多文种平面。Unicode以明确的方式表述文本数据,简化了混合平台环境中的数据共享。目前,很多操作系统都支持Unicode,包括Windows系统、Linux系统和Mac OS、Solaris、IBM-AIX、HP-UX等。Unicode简称为UCS,现在用的是UCS-2,即2个字节编码,与国际标准字符集ISO 10646-1相对应。UCS的最新版本是2005年的Unicode 4.1.0,而ISO的最新标准是ISO 10646-3:2003。

    Codepage是各国的文字编码和Unicode之间的映射表。例如,简体中文和Unicode的映射表就是CP936,其他的映射关系有:

     UTF-8/ UTF-16/ UTF-32。UCS只是规定如何编码,并没有规定如何传输、保存编码。所以有了UniCode实用的编码体系,如UTF-8、UTF-7、UTF-16。UTF-8(UCS Transformation Format)和ISO-8859-1完全兼容,解决了UniCode编码在不同的计算机之间的传输、保存的问题,使得双字节的Unicode能够在现存的单字节的系统上正确传输。UTF-8使用可变长度的字节来储存Unicode字符,这能解决敏感字符引起的问题。前面有几个1,就表示整个UTF-8串是由几个字节构成的。以下是Unicode和UTF-8之间的转换关系表:

比较完整的字符集列表:

转载地址:http://jitab.baihongyu.com/

你可能感兴趣的文章
给广大码农分享福利:一个业界良心的github仓库,中文计算机资料
查看>>
SAP C4C Opportunity和SAP ERP Sales流程的集成
查看>>
ABAP,Java和JavaScript的序列化,反序列化
查看>>
我用ABAP做过的那些无聊的事情
查看>>
不喜欢SAP GUI?那试试用Eclipse进行ABAP开发吧
查看>>
SAP GUI里Screen Painter的工作原理
查看>>
如何处理错误消息Please install the Linux kernel header files
查看>>
使用脚本在Linux服务器上自动安装Kubernetes的包管理器Helm
查看>>
使用com.sun.imageio.plugins.png.PNGMetadata读取图片的元数据
查看>>
如何处理错误消息Please install the gcc make perl packages
查看>>
让您的Eclipse具有千变万化的外观
查看>>
Red Hat Enterprise Linux(RHEL)中yum的repo文件详解
查看>>
安装指定版本的minikube
查看>>
ABAP的Package interface, 安卓的manifest.xml和Kubernetes的Capabilities
查看>>
webpack最简单的入门教程里bundle.js之运行单步调试的原理解析
查看>>
在Linux系统里安装Virtual Box的详细步骤
查看>>
ABAP和Java单例模式的攻防
查看>>
在Ubuntu操作系统里安装Docker
查看>>
用代码判断当前系统是否支持某个版本的feature
查看>>
ABAP system landscape和vue项目webpack构建的最佳实践
查看>>