unicode

unicode

来自: > 浏览词条

unicode

目录·
·
·
·


Unicode统一码万国码单一码)是一种在 上使用的 编码。它为每种 中的每个字符设定了统一并且唯一的 编码,以满足跨语言、跨平台进行文本转换、处理的要求。1990年开始研发,1994年正式公布。随着计算机工作能力的增强,Unicode也在面世以来的十多年里得到普及。

2006年 的最新版本的 Unicode 是 2005年 推出的Unicode 4.1.0 。另外,5.0 Beta已于2005年12月12日推出,以供各会员评价。

Unicode 的编码和实现

大概来说,Unicode 编码系统可分为 和实现方式两个层次。

1. 编码方式

Unicode 的编码方式与 的 (亦称[通用字符集])(Universal Character Set,UCS)概念相对应,目前的用于实用的 Unicode 版本对应于 UCS-2,使用16位的编码空间。也就是每个字符占用2个 。这样理论上一共最多可以表示 65,536(2的16次方) 个字符。基本满足各种语言的使用。实际上目前版本的 Unicode 尚未填充满这16位编码,保留了大量空间作为特殊使用或将来扩展。

上述16位 Unicode 字符构成基本多文种平面(Basic Multilingual Plane, 简称 )。最新(但未实际广泛使用)的 Unicode 版本定义了16个辅助平面,两者合起来至少需要占据21位的编码空间,比3字节略少。但事实上辅助平面字符仍然占用4字节编码空间,与 UCS-4 保持一致。未来版本会扩充到 10646-1 实现级别3,即涵盖 UCS-4 的所有字符。UCS-4 是一个更大的尚未填充完全的31位字符集,加上恒为0的首位,共需占据32位,即4字节。理论上最多能表示 2,147,483,648(2的31次方)个字符,完全可以涵盖一切语言所用的符号。

BMP 字符的 Unicode 编码表示为 U+hhhh,其中每个 h 代表一个 数位。与 UCS-2 编码完全相同。对应的4字节 UCS-4 编码后两个字节一致,前两个字节的所有位均为0。

2. 实现方式

Unicode 的实现方式不同于编码方式。一个字符的 Unicode 编码是确定的。但是在实际传输过程中,由于不同系统平台的设计不一定一致,以及出于节省空间的目的,对 Unicode 编码的实现方式有所不同。Unicode 的实现方式称为Unicode转换格式(Unicode Translation Format,简称为 )。

例如,如果一个仅包含基本7位 字符的 Unicode 文件,如果每个字符都使用2字节的原 Unicode 编码传输,其第一字节的8位始终为0。这就造成了比较大的浪费。对于这种情况,可以使用 UTF-8 编码,这是一种变长编码,它将基本7位ASCII字符仍用7位编码表示,占用一个字节(首位补0)。而遇到与其他 Unicode 字符混合的情况,将按一定算法转换,每个字符使用1-3个字节编码,并利用首位为0或1进行识别。这样对以7位ASCII字符为主的西文文档就大大节省了编码长度(具体方案参见UTF-8)。类似的,对未来会出现的需要4个字节的辅助平面字符和其他 UCS-4 扩充字符,2字节编码的 UTF-16 也需要通过一定的算法进行转换。

再如,如果直接使用与 Unicode 编码一致(仅限于 BMP 字符)的 UTF-16 编码,由于每个址都不相同, 机和 机上对字节顺序的理解是不一致的。这时同一字节流可能会被解释为不同内容,如编码为 U+594E 的字符“奎”同编码为 U+4E59 的“乙”就可能发生混淆。于是在 UTF-16 编码实现方式中使用了大尾序(big-endian)、小尾序(little-endian)的概念,以及BOM(Byte Order Mark)解决方案。(具体方案参见UTF-16)

此外 Unicode 的实现方式还包括 UTF-7、Punycode、CESU-8、SCSU、UTF-32等,这些实现方式有些仅在一定的国家和地区使用,有些则属于未来的规划方式。目前通用的实现方式是 UTF-16小尾序(BOM)、UTF-16大尾序(BOM)和 UTF-8。在微软公司Windows XP操作系统附带的记事本中,“另存为”对话框可以选择的四种编码方式除去非 Unicode 编码的 ANSI 外,其余三种“Unicode”、“Unicode big endian”和“UTF-8”即分别对应这三种实现方式。

目前辅助平面的工作主要集中在第二和第三平面的中日韩统一表意文字中,因此包括 、 、 等简体中文、正体 、 、 以及 的各种编码与 Unicode 的协调性被重点关注。考虑到 Unicode 最终要涵盖所有的字符,从某种意义而言,这些编码方式也可视作 Unicode 的出现于其之前的既成事实的实现方式,如同ASCII及其扩展Latin-1一样,后两者的字符在16位 Unicode 编码空间中的编码第一字节各位全为0,第二字节编码与原编码完全一致。但上述东亚语言编码与 Unicode 编码的对应关系要复杂得多。

非 Unicode 环境

在非 Unicode 环境下,由于不同国家和地区采用的字符集不一致,很可能出现无法正常显示所有字符的情况。 公司使用了代码页(Codepage)转换表的技术来过渡性的部分解决这一问题,即通过指定的转换表将非 Unicode 的字符编码转换为同一字符对应的系统内部使用的 Unicode 编码。可以在“语言与区域设置”中选择一个代码页作为非 Unicode 编码所采用的默认编码方式,如936为简体中文GBK,950为正体中文Big5(皆指PC上使用的)。在这种情况下,一些非英语的欧洲语言编写的软件和文档很可能出现乱码。而将代码页设置为相应语言中文处理又会出现问题,这一情况无法避免。从根本上说,完全采用统一编码才是解决之道,但目前上无法做到这一点。

代码页技术现在广泛为各种平台所采用。UTF-7 的代码页是65000,UTF-8 的代码页是65001。

XML 和 Unicode


及其子集 采用UTF-8作为标准字集,理论上我们可以在各种支持XML标准的 上显示任何地区文字的 ,只要 本身安装有合适的字体即可。可以利用&#nnn;的格式显示特定的字符。nnn代表该字符的十进制 Unicode 代码。如果采用十六进制代码,在编码之前加上x字符即可。但部分旧版本的浏览器可能无法识别十六进制代码。

然而部分由于 Unicode 版本发展原因,很多浏览器只能显示 UCS-2 完整字符集也即现在使用的 Unicode 版本中的一个小子集。下表可以检验您的浏览器怎样显示各种各样的 Unicode 代码:

代码             字符标准名称 (英语)             在浏览器上的显示

A             大写拉丁字母"A"                         A

ß           小写 "Sharp S"             ß

þ            小写 "Thorn"               þ

Δ            大写 字母"Delta"                   Δ

Й            大写 字母"Short I"             Й

ק             字母"Qof"                ק            

م             字母 "Meem"                            م

๗            泰文数字 7                        ๗

ቐ             音节文字"Qha"               ቐ

あ             "A"                       あ

ア             日语 "A"                       ア

叶             简体 "叶"                        叶

叶             汉字 "叶"                         叶

엽             音节文字 " Yeob"                  엽

输入Unicode

除了 外, 会提供几种方法输入Unicode。像是 之后的Windows系统就提供一个可点击的表。例如在 之下,按下 键不放,输入 0 和某个字符的 Unicode 编码( ),再松开 Alt 键即可得到该字符,如Alt + 033865会得到Unicode字符叶。另外按Alt + X 组合键,MS Word 也会将光标前面的字符同其十六进制的四位 Unicode 编码进行互相转换。

Unicode 编码表

0000-0FFF 8000-8FFF 10000-10FFF 20000-20FFF 28000-28FFF

1000-1FFF 9000-9FFF   21000-21FFF 29000-29FFF

2000-2FFF A000-AFFF   22000-22FFF 2A000-2AFFF

3000-3FFF B000-BFFF   23000-23FFF   

4000-4FFF C000-CFFF 1D000-1DFFF 24000-24FFF 2F000-2FFFF

5000-5FFF D000-DFFF   25000-25FFF   

6000-6FFF E000-EFFF   26000-26FFF   

7000-7FFF F000-FFFF   27000-27FFF E0000-E0FFF

Unicode 目前已经有5.0版本。世界上有一大批计算机、语言学等科学家专门研究Unicode,到了现在Unicode标准已经不单是一个编码标准,还是记录人类语言文字资料的一个巨大的数据库,同时从事人类文化遗产的发掘和保护工作。
对于中文而言,Unicode 16编码里面已经包含了GB18030里面的所有汉字(27484个字),目前Unicode标准准备把 的所有汉字放入到Unicode 32bit编码中。

简单地说,Unicode扩展自ASCII字元集。在严格的ASCII中,每个字元用7位元表示,或者电脑上普遍使用的每字元有8位元宽;而Unicode使用全16位元字元集。这使得Unicode能够表示世界上所有的书写语言中可能用於电脑通讯的字元、象形文字和其他符号。Unicode最初打算作为ASCII的补充,可能的话,最终将代替它。考虑到ASCII是电脑中最具支配地位的标准,所以这的确是一个很高的目标。

Unicode影响到了电脑工业的每个部分,但也许会对作业系统和程式设计语言的影响最大。从这方面来看,我们已经上路了。Windows NT从底层支援Unicode(不幸的是,Windows 98只是小部分支援Unicode)。先天即被ANSI束缚的C程式设计语言通过对宽字元集的支援来支援Unicode。

自然,作为程式写作者,我们通常会面对许多繁重的工作。我已试图透过使本书中的所有程式「Unicode化」来减轻负担。其含义会随著本章对Unicode的讨论而清晰起来。      
开放分类:
、 、 、
 
参考资料:
 1.
 2.
 3.Unicode补完计划
 
“unicode”在英汉词典中的解释(来源: ):
Unicode
n.
【电脑】万国码 (一种国际标准字符集, 为世界上绝大多数已知的字符集定义了唯一的16位数值)

Read more

Tomcat学习总结(7)——Tomcat与Jetty比较

Tomcat学习总结(7)——Tomcat与Jetty比较

Jetty 基本架构 Jetty目前的是一个比较被看好的 Servlet 引擎,它的架构比较简单,也是一个可扩展性和非常灵活的应用服务器。 它有一个基本数据模型,这个数据模型就是 Handler(处理器),所有可以被扩展的组件都可以作为一个 Handler,添加到 Server 中,Jetty 就是帮你管理这些 Handler。 下图是 Jetty 的基本架构图,整个 Jetty 的核心组件由 Server 和 Connector 两个组件构成,整个 Server 组件是基于 Handler 容器工作的,它类似与 Tomcat 的 Container 容器。 Jetty 中另外一个比不可少的组件是 Connector,它负责接受客户端的连接请求,并将请求分配给一个处理队列去执行。 图 1. Jetty 的基本架构 Jetty 中还有一些可有可无的组件,

By Ne0inhk
Jquery学习总结(2)——jQuery Ajax用法详解

Jquery学习总结(2)——jQuery Ajax用法详解

【详解】jquery ajax在web应用开发中常用,主要包括有ajax,get,post,load,getscript等这几种常用无刷新操作方法,下面来给大家介绍一下。我们首先先从最简单的方法看起。 我们先从最简单的方法看起,处理复杂的ajax请求时,jquery使用jquery.ajax方法进行处理,在jquery中有一些简单的方法,他对jquery.ajax方法进行了封装,是的我们在处理一些简单的ajax事件时,不需要使用jquery.ajax方法,其中有些方法在之前的文章已经出现过啦。,相信大家很快能够掌握。 以下4个方法执行一般ajax请求的简短形式,在处理复杂的ajax请求时应该使用jquery.ajax。 1.load(url,[data],[callback]) 载入远程html文件代码并插入至DOM中,默认使用GET方式,传递参数时自动转换为POST方法 *url:要载入的远程url地址 *data:发送至服务器的key/value数据 *callback:载入成功时的回调函数 示例代码: //无参数、无回调函数 $("#showload").lo

By Ne0inhk
玩日志的你不了解 Filebeat ,就像搞结拜不认识关二爷!深度解析 Filebeat 工作原理,轻松玩转大数据!

玩日志的你不了解 Filebeat ,就像搞结拜不认识关二爷!深度解析 Filebeat 工作原理,轻松玩转大数据!

文章目录 * * 深度解析 Filebeat 工作原理,轻松玩转大数据! 什么是 Filebeat 玩日志的同学可能比较了解 Filebeat。Filebeat 是一个轻量级的日志收集模块。由 Goland 实现,用于转发和汇总日志与文件。它是 ES [elastic] 旗下 beats 项目其中的一员,通常与 ELK 配套使用,编排在 Logstash 之前。 这里放上 Filebeat 的官方介绍:https://www.elastic.co/cn/beats/filebeat Filebeat 工作原理 官网中有 Filebeat 的文档,是英文版,这里附上译文: Filebeat 的工作原理 在本主题中,您将了解 Filebeat 的关键构建块以及它们如何协同工作。

By Ne0inhk
数人云CTO解读Docker 1.12和金融业容器化

数人云CTO解读Docker 1.12和金融业容器化

7月29日  在上海举办金融沙龙,邀请上交所和近二十家来自银行、保险、证券的IT技术专家一同探讨容器技术在金融业中的最佳实践。数人云CTO肖德时在会上将传统金融行业通过容器可以解决的四大问题做了逐一解读。 以下是演讲实录: 容器技术基本上是2013年出来的,2014年开始在中国传播。在2016年,大家可以感觉到Docker技术的发展加速,在生产环境中也有很多的成功案例。在DockerCon 2016上我们发现,Docker已经从原来的一个工具变成一个真正的生态圈,Docker已经具备整套的解决方案,同时上下游生态也已经非常完备。这都在告诉大家,你能想到的、和你需要的一些最佳实践,Docker基本上都能提供。目前,基本上是大公司在不断的追求Docker的技术,因为小公司用Docker技术解决问题产生的收益比还比较不明显,而大公司原来冗余的架构通过使用Docker确实可以产生效益,所以一些传统企业对Docker会比较关注。 容器技术发展加速 最新的资料显示,现在是应用Docker技术的比较好的时机。全球雇员超过500人的公司中73%已使用Docker技术。国内的很多公司也都在关注

By Ne0inhk