程序员趣味读物:谈谈Unicode编码--中华网--科技频道

新闻 | 军事 | 论坛 | 汽车 | 科　技 | 游戏 | 娱乐 | 女人 | 时尚 | 留学 | 旅游 | 购车 | 食品 | 文化 | ３Ｇ | 教育 | 音乐 | 邮箱 | 公益 | 求医
财经 | 军史 | 博客 | 搜车 | 实拍 | 网游 | 明星 | 城市 | 篮球 | 数码 | 智游 | 亲子 | 社会 | 文史 | 健康 | 图库 | 电影 | 问答 | 评论 | 时尚

程序员趣味读物:谈谈Unicode编码(3)

中华网科技 http://tech.china.com 2005-09-01 14:14:26

【进入BBS】【进入聊天室】【推荐给朋友】【浏览字号：大中小】【关闭窗口】

　　
　　5、UTF的字节序和BOM

　　UTF-8以字节为编码单元，没有字节序的问题。UTF-16以两个字节为编码单元，在解释一个UTF-16文本前，首先要弄清楚每个编码单元的字节序。例如收到一个“奎”的Unicode编码是594E，“乙”的Unicode编码是4E59。如果我们收到UTF-16字节流“594E”，那么这是“奎”还是“乙”？

　　Unicode规范中推荐的标记字节顺序的方法是BOM。BOM不是“Bill Of Material”的BOM表，而是Byte Order Mark。BOM是一个有点小聪明的想法：

　　在UCS编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。

　　这样如果接收者收到FEFF，就表明这个字节流是Big-Endian的；如果收到FFFE，就表明这个字节流是Little-Endian的。因此字符"ZERO WIDTH NO-BREAK SPACE"又被称作BOM。

　　UTF-8不需要BOM来表明字节顺序，但可以用BOM来表明编码方式。字符"ZERO WIDTH NO-BREAK SPACE"的UTF-8编码是EF BB BF（读者可以用我们前面介绍的编码方法验证一下）。所以如果接收者收到以EF BB BF开头的字节流，就知道这是UTF-8编码了。

　　Windows就是使用BOM来标记文本文件的编码方式的。

　　6、进一步的参考资料

　　本文主要参考的资料是 "Short overview of ISO-IEC 10646 and Unicode" (http://www.nada.kth.se/i18n/ucs/unicode-iso10646-oview.html)。

　　我还找了两篇看上去不错的资料，不过因为我开始的疑问都找到了答案，所以就没有看：

　　"Understanding Unicode A general introduction to the Unicode Standard" (_id=nrsi&item_id=IWS-Chapter04a">http://scripts.sil.org/cms/scripts/page.php?site_id=nrsi&item_id=IWS-Chapter04a)
　　"Character set encoding basics Understanding character set encodings and legacy encodings" (_id=nrsi&item_id=IWS-Chapter03">http://scripts.sil.org/cms/scripts/page.php?site_id=nrsi&item_id=IWS-Chapter03)

　　我写过UTF-8、UCS-2、GBK相互转换的软件包，包括使用Windows API和不使用Windows API的版本。以后有时间的话，我会整理一下放到我的个人主页上(http://fmddlmyy.home4u.china.com)。

　　我是想清楚所有问题后才开始写这篇文章的，原以为一会儿就能写好。没想到考虑措辞和查证细节花费了很长时间，竟然从下午1:30写到9:00。希望有读者能从中受益。