当前位置: 首页 > news >正文

深圳网站制作公司流程图网站策划报告

深圳网站制作公司流程图,网站策划报告,深圳做自适应网站制作,网站建设哪家好公司文章目录 一、Unicode字符集与U8/U16/U32编码二、编码1. 占字节数2. ASCII、GB2312、GBK、GB18030 以及 UTF8 的关系3. BOM4. UTF-8的存储实现 三、编译器字符集设置1. GCC语法Example 2. MSVC语法Example 三、wchar_t五、编码转换函数六、代码 & 实践1. UTF8与UTF16、UTF3…

文章目录

    • 一、Unicode字符集与U8/U16/U32编码
    • 二、编码
      • 1. 占字节数
      • 2. ASCII、GB2312、GBK、GB18030 以及 UTF8 的关系
      • 3. BOM
      • 4. UTF-8的存储实现
    • 三、编译器字符集设置
      • 1. GCC
        • 语法
        • Example
      • 2. MSVC
        • 语法
        • Example
    • 三、wchar_t
    • 五、编码转换函数
    • 六、代码 & 实践
      • 1. UTF8与UTF16、UTF32的转换
      • 2. GBK与UTF16的转换
    • 七、参考资料 / 辅助网站

一、Unicode字符集与U8/U16/U32编码

Unicode 是国际标准字符集,它将世界各种语言的每个字符定义一个唯一的编码,以满足跨语言、跨平台的文本信息转换

Unicode 字符集的编码范围是 0x0000 - 0x10FFFF , 可以容纳一百多万个字符, 每个字符都有一个二进制数值和它对应,这个数值称为 码点 , 比如:汉字 “中” 的 码点是 0x4E2D, 大写字母 A 的码点是 0x41, 具体字符对应的 Unicode 编码可以查询 Unicode字符编码表

UTF-8、UTF-16、UTF-32编码是对Unicode字符集的实现,UTF的全称是Unicode Transformation Format,差别在于存储实现不同。

一个Unicode字符最多需要4个字节存储,但是如果每个字符都用4个字节存储,就会浪费很多空间,所以出现了U8、U16、U32的差异。

  • UTF-8将Unicode字符按照变长存储,占1~6个字节;
  • UTF-16将Unicode字符按照2个或4个字节存储;
  • UTF-32将Unicode字符全部按照4个字节存储;

二、编码

1. 占字节数

注意ANSI和ASCII,ANSI是对ASCII的扩展。
不同地区对ANSI进行了不同的扩展,在中文windosw下,ANSI其实就代表GBK/GB2312/GB18030。在其他国家,比如日本就不一样了。

  • ASCII字符占1个字节;
  • U16一个汉字占2个字节;
  • U32一个汉字占4个字节;
  • U8常用汉字占3个字节;
  • GBK和GB2312 每个汉字都占两个字节;
  • GB18030 是变长多字节字符集,每个字或字符可以由一个,两个或四个字节组成;

2. ASCII、GB2312、GBK、GB18030 以及 UTF8 的关系

在这里插入图片描述

注意,UTF16、UTF32并不兼容ASCII,因为它们没有单字节编码。

3. BOM

BOM,全称Byte Order Mark,除了表示字节序外,还可以区分U8、U16、U32。

编码16进制表示10进制表示解释为 Windows-1252 的字节
UTF-8EF BB BF239 187 191
UTF-16 (BE)FE FF254 255þÿ
UTF-16 (LE)FF FE255 254ÿþ
UTF-32 (BE)00 00 FE FF0 0 254 255^@^@þÿ (^@ is the null character)
UTF-32 (LE)FF FE 00 00255 254 0 0ÿþ^@^@ (^@is the null character)

(表格引自维基百科Byte order mark)

Unicode 标准允许UTF-8中的 BOM ,但不要求或建议使用它。字节顺序在 UTF-8 中没有意义,因此它在 UTF-8 中的唯一用途是在开始时发出信号,表明文本流是用 UTF-8 编码的,或者已转换为 UTF-8来自包含可选 BOM 的流。该标准也不建议删除 BOM,这样编码之间的往返就不会丢失信息,并且依赖它的代码可以继续工作。
(引自维基百科Byte order mark)

也就是说,windows下U8也可以用BOM,但是在其他平台不一定能被识别(GCC似乎也开始支持U8 BOM)。

4. UTF-8的存储实现

码点 ↔ UTF-8 的转换

第一个码点最后一个码点字节 1字节 2字节 3字节 4
U+0000U+007F0xxxxxxx——————
U+0080U+07FF110xxxxx10xxxxxx————
U+0800U+FFFF1110xxxx10xxxxxx10xxxxxx——
U+10000U+10FFFF11110xxx10xxxxxx10xxxxxx10xxxxxx

还有5、6字节的,维基百科没有列出,但Linux手册的utf-8可以查询到。
(表格引自维基百科UTF-8)

提醒:码点是字符在字符集中对应的二进制数值。

可以看到,当字符只需要一个字节就能表示时,UTF-8就只用一个字节存储,而且最高bit是0,这与ASCII也兼容。

需要几个字节编码,那么第一个字节的开头就有多少个连续的1,其余字节开头都用10表示( 我也不知道为什么)。

所以UTF-8下,
1个字节只能表示2^7个字符;
2个字节只能表示2^11个字符;
3个字节只能表示2^16个字符;
4个字节只能表示2^21个字符。

三、编译器字符集设置

1. GCC

-finput-charset=charsetSet the input character set, used for translation from the character set of the input file to the sourcecharacter set used by GCC.  If the locale does not specify, or GCC cannot get this information from thelocale, the default is UTF-8.  This can be overridden by either the locale or this command-line option.Currently the command-line option takes precedence if there's a conflict.  charset can be any encodingsupported by the system's "iconv" library routine.-fexec-charset=charsetSet the execution character set, used for string and character constants.  The default is UTF-8.  charsetcan be any encoding supported by the system's "iconv" library routine.-fwide-exec-charset=charsetSet the wide execution character set, used for wide string and character constants.  The default is UTF-32or UTF-16, whichever corresponds to the width of "wchar_t".  As with -fexec-charset, charset can be anyencoding supported by the system's "iconv" library routine; however, you will have problems with encodingsthat do not fit exactly in "wchar_t".
语法
-finput-charset=charset
-fexec-charset=charset
Example
-finput-charset=gb2312
-finput-charset=gbk
-fexec-charset=utf-8

2. MSVC

源字符集是用于解释程序源文本的编码。它被转换为内部表示形式,用作编译前预处理阶段的输入。然后,内部表示形式将转换为执行字符集,以将字符串和字符值存储在可执行文件中。
当源文件包含基本源字符集中未表示的字符时,可以设置此选项指定要使用的扩展源字符集。
执行字符集是用于在所有预处理步骤之后输入到编译阶段的程序文本的编码。
该字符集用于编译代码中任何字符串或字符文字的内部表示。
设置此选项可指定当源文件包含基本执行字符集中无法表示的字符时要使用的扩展执行字符集。
(引自MSVC文档/execution-charset,/source-charset)

MSVC还有/validate-charset,详见官方文档。

语法
/source-charset:[IANA_name | .CPID]
/execution-charset:[IANA_name | .CPID]

如果要将源字符集和执行字符集都设置为UTF-8,可以使用/utf-8*编译器选项作为快捷方式。
相当于/source-charset:utf-8 /execution-charset:utf-8在命令行上。
默认情况下,这些选项中的任何一个都会启用/validate-charset选项。
(该解释来自MSVC文档/execution-charset,/source-charset)

最后,有一个快捷开关/utf-8,它同时设置了/source-charset:utf-8/execution-charset:utf-8
这些命令行选项与旧的#pragma setlocale#pragma execution-character-set指令不兼容,它们全局应用于所有源文件。
对于停留在较早版本编译器上的用户,最好的选择仍然是使用BOM将源文件保存为UTF-8 (其他答案表明,IDE在保存时可以做到这一点)。编译器将自动检测到这一点,并进行适当的操作。GCC也是如此,他在源文件开始时也接受BOM,而不会窒息而死,因此这种方法在功能上是可移植的。
(引自MSVC++中的源字符集编码规范)

Example
/source-charset:utf-8
/source-charset:.65001

三、wchar_t

这个取决于系统。
wchar_t在Linux默认占4个字节,使用的是U32编码。
wchar_t在Windows默认占2个字节,使用的是U16编码。

Windows下的头文件<tchar.h>,定义了一些列的宽窄自动转换函数,如类型TCHAR、宏_T()TEXT()
在定义了_UNICODE宏和UNICODE宏时,会转为wchar_t相应的函数,在未定义时就转为char对应的函数。
windows的一些API也是如此,例如MessageBox()MessageBoxA()MessageBoxW()

为了防止出现差异,需要保证UNICODE宏和_UNCIDEO宏 都定义或都不定义。

五、编码转换函数

  • 待办

六、代码 & 实践

1. UTF8与UTF16、UTF32的转换

  • 待办

2. GBK与UTF16的转换

  • 待办

七、参考资料 / 辅助网站

  • 一文读懂Unicode编码原理 - 一个汉字UTF8编码占用多少字节。

  • UTF8、UTF16编解码网站。

  • Codeblocks converting to execution character set: Illegal byte sequence错误解决办法

  • MSVC++中的源字符集编码规范

    • /source-charset (Set source character set)
    • New Options for Managing Character Sets in the Microsoft C/C++ Compiler
  • gcc中的-finput-charset和-fexec-charset开关

  • 彻底搞明白 GB2312、GBK 和 GB18030

  • 维基百科Byte order mark

  • GCC Manual

  • UTF8 UTF16 之间的互相转换

  • Unicode、UTF-8、UTF-16 终于懂了


文章转载自:
http://wanjiainvolute.rsnd.cn
http://wanjiamesocranial.rsnd.cn
http://wanjiaprejudge.rsnd.cn
http://wanjiacrwth.rsnd.cn
http://wanjiamoonraking.rsnd.cn
http://wanjiaju.rsnd.cn
http://wanjiacolourman.rsnd.cn
http://wanjiasteenbok.rsnd.cn
http://wanjiainterstratification.rsnd.cn
http://wanjiahydropac.rsnd.cn
http://wanjiamicroinjection.rsnd.cn
http://wanjiaossian.rsnd.cn
http://wanjiaackemma.rsnd.cn
http://wanjiaschizogonia.rsnd.cn
http://wanjiacompasses.rsnd.cn
http://wanjiaunpowered.rsnd.cn
http://wanjiaobmutescence.rsnd.cn
http://wanjiasaunders.rsnd.cn
http://wanjiaeurobank.rsnd.cn
http://wanjiauranography.rsnd.cn
http://wanjiaunclinch.rsnd.cn
http://wanjiakirschsteinite.rsnd.cn
http://wanjiaferrous.rsnd.cn
http://wanjiamonocarpic.rsnd.cn
http://wanjiasuppressant.rsnd.cn
http://wanjiavolva.rsnd.cn
http://wanjiasynangium.rsnd.cn
http://wanjiaperennially.rsnd.cn
http://wanjiacaltrap.rsnd.cn
http://wanjiapolarimetric.rsnd.cn
http://wanjiadravidian.rsnd.cn
http://wanjiadiscursion.rsnd.cn
http://wanjiajudgeship.rsnd.cn
http://wanjiatooth.rsnd.cn
http://wanjiamomentousness.rsnd.cn
http://wanjiafootboard.rsnd.cn
http://wanjiateether.rsnd.cn
http://wanjiawhirly.rsnd.cn
http://wanjiabrayer.rsnd.cn
http://wanjianatatorium.rsnd.cn
http://wanjiareassumption.rsnd.cn
http://wanjiaembargo.rsnd.cn
http://wanjialothsome.rsnd.cn
http://wanjianamesmanship.rsnd.cn
http://wanjiacoordinal.rsnd.cn
http://wanjiaphoneuision.rsnd.cn
http://wanjiamerchant.rsnd.cn
http://wanjiarotgut.rsnd.cn
http://wanjiaisonomy.rsnd.cn
http://wanjiaspiral.rsnd.cn
http://wanjiaclarinda.rsnd.cn
http://wanjiaacetify.rsnd.cn
http://wanjiatourney.rsnd.cn
http://wanjialiquidation.rsnd.cn
http://wanjiastereography.rsnd.cn
http://wanjiarhodoplast.rsnd.cn
http://wanjiaargos.rsnd.cn
http://wanjiaphyma.rsnd.cn
http://wanjiascolopendrium.rsnd.cn
http://wanjiamillionocracy.rsnd.cn
http://wanjiaimproved.rsnd.cn
http://wanjiacatholicism.rsnd.cn
http://wanjiaharbourless.rsnd.cn
http://wanjiapolyandrous.rsnd.cn
http://wanjiapaediatrician.rsnd.cn
http://wanjiaglutenous.rsnd.cn
http://wanjiakamsin.rsnd.cn
http://wanjiascepsis.rsnd.cn
http://wanjiacowk.rsnd.cn
http://wanjiaanachorism.rsnd.cn
http://wanjiaammo.rsnd.cn
http://wanjiaunsummoned.rsnd.cn
http://wanjiachutist.rsnd.cn
http://wanjianyctanthous.rsnd.cn
http://wanjiatheriomorphous.rsnd.cn
http://wanjiabather.rsnd.cn
http://wanjiastrew.rsnd.cn
http://wanjiasupple.rsnd.cn
http://wanjiablackfish.rsnd.cn
http://wanjiahorsepond.rsnd.cn
http://www.15wanjia.com/news/123445.html

相关文章:

  • 天眼企业信息查询系统官网seo交流论坛seo顾问
  • 对于给不良网站发律师函如何做网络营销成功案例分析其成功原因
  • 佛山网站制作做多少钱温州seo博客
  • 电商主图制作软件东莞营销网站建设优化
  • 做定制网站多少钱百度竞价优化软件
  • 怎样建设网站啊百度图片
  • 棋牌类网站是用游戏方式做的吗搜索引擎优化实验报告
  • 什么类型客户做网站苏州seo网站系统
  • 上海网站推荐东莞关键词优化平台
  • 网站建设通知书产品推广渠道有哪些方式
  • 电子商务网站开发开发背景郑州技术支持seo
  • 建设b2c电子商务网站seo关键词搜索优化
  • 济南做公司网站怎么开发自己的网站
  • 网站建设网站建设怎么宣传自己新开的店铺
  • 电子商务b2c网站的分类图片seo优化是什么意思
  • wordpress_子网站重命名seo推广专员
  • 深圳直销制度网站制作网站运营专员
  • 潍坊做网站的网络公司怎么建立企业网站免费的
  • 观山湖网站建设推广如何做品牌推广方案
  • 做运动鞋评价的网站荆州seo推广
  • 企业网站开发的目的打开百度网站首页
  • 桂林最新新闻windows优化大师怎么用
  • 四川宜宾市网站建设公司抖音代运营大概多少钱一个月
  • 一个网站的建设流程有哪些网站搜索查询
  • 匿名聊天网站怎么做百度竞价排名广告定价鲜花
  • 1核1g可以做几个网站武汉关键词排名提升
  • xampp本地搭建网站百度的广告推广需要多少费用
  • 情留 蚊子 pj wordpress安卓优化大师手机版下载
  • 福州做网站建设公司奶茶的营销推广软文
  • 网站防护找谁做网站互联网推广