收藏
0有用+1
0

GB13000

国家标准GB13000的简称
本词条缺少概述图,补充相关内容使词条更完整,还能快速升级,赶紧来编辑吧!
GB13000 全称:国家标准GB13000:2010《信息技术 通用多八位编码字符集(UCS)第一部分:体系结构与基本多文种平面》,此标准等同采用国际标准ISO/IEC 10646-2003,IDT《信息技术 通用多八位编码字符集(UCS)第一部分:体系结构与基本多文种平面》。Unicode 标准在基本平面上与GB 13000保持一致。采纳UTF-16方案作为未来实现01到0F共15个辅助平面的方式。其它方面与GB 13000基本一致。
外文名
GB13000
全    称
国家标准GB13000

简介

播报
编辑
GB13000.1-1993的字符集包含20902个汉字。
此标准由信息产业部电子工业标准化研究所归口;
此标准起草单位:信息产业部电子工业标准化研究所;

来源

播报
编辑
为了便于多个文种的同时处理,国际标准化组织下属编码字符集工作组研制了新的编码字符集标准,ISO/IEC 10646。该标准第一次颁布是在1993年,当时只颁布了其第一部分,即ISO/IEC 10646.1: 1993,中国相应的国家标准是GB 13000.1-93《信息技术 通用多八位编码字符集(UCS) 第一部分:体系结构与基本多文种平面》。制定这个标准的目的是对世界上的所有文字统一编码,以实现世界上所有文字在计算机上的统一处理。

意义

播报
编辑
GB13000建立了一个全新的编码体系。ISO/IEC 10646被称作"多八位"编码字符集,是因为它采用四个"八位"(即8 bit)编码。这四个字节被用来分别表示组、平面、行和字位
GB2312规定的汉字为常用汉字,包括简化汉字三千余个。由于我国汉字数量巨大(约10万字),我国又陆续增加了六个辅助集。其中,基本集与第二、第四辅助集是简化汉字集,第一(即GB 12345)、第三、第五辅助集是繁体集,且基本集与第一、第二与第三、第四与第五辅助集分别有简、繁体字一一对应关系,(个别简、繁关系为一对多的汉字除外)。第七辅助集汉字的来源是GB13000.1的CJK统一汉字部分,为日本、韩国和台湾地区使用的汉字。七个字符集包含汉字共计约49,000字(简化字和繁体字分别编码)。
可以看出,GB13000的总编码位置高达2,147,483,648个(128组×256平面×256行×256字位)。实现的是00组的00平面,称为"基本多文种平面"(Basic Multilingual Plane, BMP),编码位置65536个。(由于基本多文种平面所有字符代码的前两个字节都是0(00组00平面XX行XX字位),因此,在默认情况下,基本多文种平面按照两字节处理。)

特点介绍

播报
编辑
编码空间非常巨大,可以容纳多种文字同时编码,也就保证了多文种同时处理;
作为统一的编码,拉丁语系的文字与其它文字一样,都是采用相同数目的"八位"编码,即:都是四字节,在基本多文种平面,都是双字节;
注:对于GB1988(ISO646/ASCII)字符,直接增加高八位为0x00即可。
字符和字形的区分十分清楚:字符是负载文本内容的抽象实体,而字形则是可视的具体图形形式;
通过采用汉字认同规则,各国家/地区的汉字统一编码,既满足了各国家/地区对编码汉字数目的实际需求,又不至于由于汉字在基本多文种平面占据的码位过多而影响到其他文字的编码:
由于世界上的文字数量巨大,不可能将所有文字编码,为此,划定了专用区,供标准使用者实现其对未编码字符的特别需要。
其中,CJK统一汉字和CJK统一汉字扩充A收录了GB2312和第一、三、五、七辅助集的全部汉字27,484个。康熙部首和中日韩补充部首共收录汉字部首369个。
此外,还收录了维哈克文(属于阿拉伯文体系)、朝鲜文、彝文、藏文和蒙古文。预计不久将增加傣文。