unicode中文范围 - 幽空命记 - ITeye博客

`

thoughtfly

浏览: 676243 次
性别:
来自: 合肥

最近访客更多访客>>

exe19

qh529

二冲2010

a1002323289

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

di1984HIT：学习了，学习了！
Tomcat的URL中文乱码解决以及传输优化
arottenapple： ...
我的二十一天CoreJava 学习笔记
黯淡流觞： ...
我的二十一天CoreJava 学习笔记
onlyOneToOne： wsc830719 写道@RequestMapping(val ...
spring mvc3中 ResponseBody中文乱码
waj_615：但是打印订单不是简单的string 啊
用java实现打印功能

unicode中文范围

博客分类：

CoreJava

阅读更多

在网上搜索了一下汉字的Unicode范围，普遍给出了“U+4E00..U+9FA5”。但事实上这个范围是不完整的，甚至连基本的全角（中文）标点也未包含在内。根据最新的Unicode 5.0版整理如下：

注：在绝大多数应用场合中，我们可以仅用（1）、（2）、（3）、（4）、（5）的集合作为CJK判断的依据。

1）标准CJK文字

http://www.unicode.org/Public/UNIDATA/Unihan.html

Code point range	Block name	Release
U+3400..U+4DB5	CJK Unified Ideographs Extension A	3.0
U+4E00..U+9FA5	CJK Unified Ideographs	1.1
U+9FA6..U+9FBB	CJK Unified Ideographs	4.1
U+F900..U+FA2D	CJK Compatibility Ideographs	1.1
U+FA30..U+FA6A	CJK Compatibility Ideographs	3.2
U+FA70..U+FAD9	CJK Compatibility Ideographs	4.1
U+20000..U+2A6D6	CJK Unified Ideographs Extension B	3.1
U+2F800..U+2FA1D	CJK Compatibility Supplement	3.1

2）全角ASCII、全角中英文标点、半宽片假名、半宽平假名、半宽韩文字母：FF00-FFEF

http://www.unicode.org/charts/PDF/UFF00.pdf

3）CJK部首补充：2E80-2EFF

http://www.unicode.org/charts/PDF/U2E80.pdf

4）CJK标点符号：3000-303F

http://www.unicode.org/charts/PDF/U3000.pdf

5）CJK笔划：31C0-31EF

http://www.unicode.org/charts/PDF/U31C0.pdf

6）康熙部首：2F00-2FDF

http://www.unicode.org/charts/PDF/U2F00.pdf

7）汉字结构描述字符：2FF0-2FFF

http://www.unicode.org/charts/PDF/U2FF0.pdf

8）注音符号：3100-312F

http://www.unicode.org/charts/PDF/U3100.pdf

9）注音符号（闽南语、客家语扩展）：31A0-31BF

http://www.unicode.org/charts/PDF/U31A0.pdf

10）日文平假名：3040-309F

http://www.unicode.org/charts/PDF/U3040.pdf

11）日文片假名：30A0-30FF

http://www.unicode.org/charts/PDF/U30A0.pdf

12）日文片假名拼音扩展：31F0-31FF

http://www.unicode.org/charts/PDF/U31F0.pdf

13）韩文拼音：AC00-D7AF

http://www.unicode.org/charts/PDF/UAC00.pdf

14）韩文字母：1100-11FF

http://www.unicode.org/charts/PDF/U1100.pdf

15）韩文兼容字母：3130-318F

http://www.unicode.org/charts/PDF/U3130.pdf

16）太玄经符号：1D300-1D35F

http://www.unicode.org/charts/PDF/U1D300.pdf

17）易经六十四卦象：4DC0-4DFF

http://www.unicode.org/charts/PDF/U4DC0.pdf

18）彝文音节：A000-A48F

http://www.unicode.org/charts/PDF/UA000.pdf

19）彝文部首：A490-A4CF

http://www.unicode.org/charts/PDF/UA490.pdf

20）盲文符号：2800-28FF

http://www.unicode.org/charts/PDF/U2800.pdf

21）CJK字母及月份：3200-32FF

http://www.unicode.org/charts/PDF/U3200.pdf

22）CJK特殊符号（日期合并）：3300-33FF

http://www.unicode.org/charts/PDF/U3300.pdf

23）装饰符号（非CJK专用）：2700-27BF

http://www.unicode.org/charts/PDF/U2700.pdf

24）杂项符号（非CJK专用）：2600-26FF

http://www.unicode.org/charts/PDF/U2600.pdf

25）中文竖排标点：FE10-FE1F

http://www.unicode.org/charts/PDF/UFE10.pdf

26）CJK兼容符号（竖排变体、下划线、顿号）：FE30-FE4F

http://www.unicode.org/charts/PDF/UFE30.pdf

分享到：

从数据库读图片并在页面中显示 | 写代码时的条理

2009-12-28 09:19
浏览 7298
评论(10)
论坛回复 / 浏览 (7 / 31311)
分类:编程语言
查看更多

评论

10 楼 RonQi 2010-12-17

niyunjiu 写道

xingqiliudehuanghun 写道

楼主收集的够全的，对这一快确实不清楚，一半写正则什么的验证中文总是习惯
性的使用\u4e00-\u9FA5

你这个不够全。用这个更好。
\u0391-\uFFE5

有一个问题比较困惑，做字符串中英文判断的时候，有两个思路：
1、是判断这个字符串所有字符全部包含在中文范围里，所以是中文字符串？
2、还是用ASCII码比较每个字符，如果存在ASCII码范围外的字符，就判断这个字符串非英文（设定非英即按中文算）？

实际应用中应该用哪个思路呢？

9 楼 glancer 2009-12-29

哦， lz把把字符和编码也研究哈然后分享哈子

8 楼 niyunjiu 2009-12-29

xingqiliudehuanghun 写道

楼主收集的够全的，对这一快确实不清楚，一半写正则什么的验证中文总是习惯
性的使用\u4e00-\u9FA5

你这个不够全。用这个更好。
\u0391-\uFFE5

7 楼 shinezhou 2009-12-29

标记一下.
还是javaeye上资料比较多.

6 楼 andy54321 2009-12-29

这个是不错
上午还研究了阵Unicode-utf

5 楼 thoughtfly 2009-12-29

汉字简繁体与unicode间的关系不好定了，我一般是在程序里用过滤器转编码，如：gbk2312或用国际化来解决这种问题的。正则的话，我现在还没用来处理简繁体的，如果有人用过，还望能教我一下。

4 楼 whaosoft 2009-12-29

娃哈哈 lz辛苦了 thx哦

3 楼 robertliudeqiang 2009-12-29

收藏，非常全，谢谢分享。

2 楼 xingqiliudehuanghun 2009-12-29

楼主收集的够全的，对这一快确实不清楚，一半写正则什么的验证中文总是习惯
性的使用\u4e00-\u9FA5

1 楼 diddyrock 2009-12-29

lz知道汉字简繁体unicode之间有啥联系么？

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

所有中文字Unicode编码区间及常用中文字Unicode编码: 所有中文字Unicode编码区间及常用中文字Unicode编码，在生成随机验证码时可能使用到

常用的java汉字unicode编码: 该文档有常用的java汉字unicode编码

unicode汉字编码拼音对照表: unicode汉字和拼音对照表，按照：汉字编码拼音声标拼音声调（声调在字母后）声调在拼音后纯拼音的格式排列。一共是20902个汉字编码范围是 U4e00 ~ U9fa5.

最全的unicode 汉字编码表: 最全的unicode 汉字编码，范围为4e00-9fa5，格式为txt

unicode-GBK编码对照表: unicode-GBK编码对照表，支持24068个字转换，这个表格适合运用各个平台，小程序，c语言等。

unicode编码汉字库（16*16点阵）: Unicode编码下的16*16点阵汉字库（先左后右先上后下），宋体12号或小4字体大小（简体）。取码范围0X4E00-0X9FFF

GB18030汉字的GB18030 Unicode URL编码对照表.xlsx: 目前大部分的网站，都是使用的UTF-8编码。例如发送一段二进制到服务器时，服务器规定该二进制内容的编码...附件是GB18030包含的21004个汉字的GB18030编码、Unicode编码、URL编码对照表，可用于解决中文乱码转换恢复。

汉字字符编码区位码 GB2312 GB18030-2005及Unicode 8.0字符集: 汉字字符编码区位码 GB2312 GB18030-2005及Unicode 8.0字符集

完整的CJK Unicode范围.txt: 因为FontRouter新版本开发的需要，在网上搜索了一下汉字的Unicode范围，普遍给出了“U+4E00..U+9FA5”。但事实上这个范围是不完整的，甚至连基本的全角（中文）标点也未包含在内。为此，我特地查询了Unicode官方的...

Unicode字符编码表: Unicode字符编码表涵盖了所有字符码的范围和Unicode起始位。包含中文字符。

Unicode对应GBK编码范围详细整理: 这是我整理了一星期，记过了好多测试、修改得出的结果，相信可以帮助在编写Unicode对应GBK编码的正则表达式的程序员一些帮助！

UNICODE 基础知识.pdf: UNICODE 基础知识 Unicode.org 是一个国际性的组织，致力于使全球各种语言...16 位的整数的范围是0~65535，所以早期版本的UNICODE 最多只能支持65535个字符。但是世界上的文字何其多？单单是汉字就不止6 万个啦。.....

unicode 中文编码对照表: 非常清晰完整的，格式很好的，范围从 \u4e00-\u9fa5

完整的CJK Unicode范围（5_0版）: 25）中文竖排标点：FE10-FE1F UFE10.pdf 26）CJK兼容符号（竖排变体、下划线、顿号）：FE30-FE4F UFE30.pdf 2）全角ASCII、全角中英文标点、半宽片假名、半宽平假名、半宽韩文字母：FF00-FFEF UFF00.pdf 3.5）CJK...

c#通过unicode编码判断字符是否为中文示例分享: 本文介绍了c#通过unicode编码判断字符是否为中文的示例,在unicode字符串中，中文的范围是在4E00..9FFF:CJK Unified Ideographs。通过对字符的unicode编码进行判断来确定字符是否为中

微信-汉字拼音首字母排序选择.rar: 微信小程序-汉字拼音首字母排序选择，包括了一个微信小程序富文本解析函数库，收录字符的Unicode编码范围为19968至40869，汉字拼音首字母列表本列表包含了20902个汉字,用于配合 ToChineseSpell，改动为判定输入数组...

利用python3随机生成中文字符的实现方法: 在unicode码中,汉字的范围是(0x4E00, 9FBF) import random def Unicode(): val = random.randint(0x4e00, 0x9fbf) return chr(val) 这个方法比较简单,但是有个小问题,unicode码中收录了2万多个汉字,包含很多生僻...

glyphNameFormatter:从Unicode名称生成字形名称列表: GlyphNameFormatter 从官方Unicode数据生成... 版本0.3从Unicode 11.0.0提供了更多范围。版本0.4修复了冲突分析中的错误。所有人的更好名字。版本0.5改进了对格鲁吉亚名称的支持。版本0.6添加了数学字母数字符

C++基础考试.doc: C++基础考试.doc C++/C编程质量试题 (考试时间：90分钟) 本试题仅用于考查C++/C程序员的基本编程技能。内容限于C++/C常用语法，不涉及数据结构、算法以及深奥的语法。考试成绩能反映出考生的编程质量以及对C++/C...

Global site tag (gtag.js) - Google Analytics