CP936实际上是GBK,编码问题再次让我熬夜

摘要:
CP936和UTF-8与蟒蛇无关。当IBM发明代码页时,它将GBK放在第936页,因此被称为CP936。关于GBK,百度百科明确指出GBK是汉字内部代码扩展规范。中华人民共和国国家信息技术标准化技术委员会于1995年12月1日制定,国家技术监督局标准化司和电子工业部科学技术质量监督司以第1995229号技术监督函的形式共同制定了技术规范指导文件。UTF-8将UNICODE字符编码为1至6个字节。因此,GBK和UTF-8在编码方法和文本范围上完全不同。

CP936和UTF-8与巨蟒无关。编码问题再次让我熬夜。
CP936实际上是GBK。当IBM发明代码页时,把GBK放在了第936页,所以它被称为CP936。
至于GBK,《百度百科全书》明确表示:GBK是《汉字内码扩展规范》 (GBK是“国家标准”和“扩展”汉语拼音的第一个字母,英文的名字是汉语内部编码规范)。中华人民共和国国家信息技术标准化技术委员会于1995年12月1日制定。国家技术监督局标准化司和电子工业部科技质量监督司于1995年12月15日以技术监督函第1995 229号的形式共同制定了技术规范指导文件。GBK规范的这个版本是1.0版。
UTF-8: UTF-8 (8位Unicode转换格式)是Unicode的可变长度字符编码,也称为通用代码。由肯汤普森于1992年创建。现在已经标准化为RFC 3629。UTF-8将UNICODE字符编码为1到6个字节。它可以在同一个页面上显示简体中文和中文的其他语言(如英文, 日文)。
所以GBK和UTF-8简单地说,区别在于编码方法不同,文本范围也不同。(UTF-8可以代表更多的语言和文本,并且更常见)在Python中,您需要注意您的Python本身是否声明了字符编码类型(尤其是Py 2x),例如# - coding: UTF-8 - 8-
另外,如何从外部文件或网页中读取字符,它们的源代码类型是什么
如果您有互联网问题,也可以咨询我,谢谢!如果你也想一起学习人工智能,欢迎留言交流。

其他文章:

输入关键词自动生成文章(2020年人工智能写作)

自动写文章的智能软件(基于AI写作)

python调用接口,python接收post请求接口(附完整代码)

人工智能是铁饭碗还是铁坑,看看人工智能博士怎么说

免责声明:文章转载自《CP936实际上是GBK,编码问题再次让我熬夜》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇机器学习自动写诗-学习笔记RAC实例 表空间 维护下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

【转】一个URL编码和解码的C++类

下面的代码实现了一个用于C++中转码的类strCoding。里面有UTF8、UNICODE、GB2312编码的互相转换。 .H文件: #pragma once #include <iostream> #include <string> #include <windows.h> using namespace std;...

mysql修改表、字段、库的字符集

在一次导入数据表(MYISAM)的经历:复制过来的表打开后中文出现乱码,肯定是字符集出现了不致的问题,所以从原数据库导出.sql文件,修改其中的创建表的语句,加入字符集DEFAULT CHARSET=gb2312 用这个导入 mysql -uroot -p --default-character-set=gb2312 databasename>E:o...

FFmpeg时间戳详解

本文为作者原创,转载请注明出处:https://www.cnblogs.com/leisure_chn/p/10584910.html 1. I帧/P帧/B帧 I帧:I帧(Intra-coded picture, 帧内编码帧,常称为关键帧)包含一幅完整的图像信息,属于帧内编码图像,不含运动矢量,在解码时不需要参考其他帧图像。因此在I帧图像处可以切换频道,而...

H.264基本原理与编码流程

H264视频压缩算法现在无疑是所有视频压缩技术中使用最广泛,最流行的。随着 x264/openh264以及ffmpeg等开源库的推出,大多数使用者无需再对H264的细节做过多的研究,这大降低了人们使用H264的成本。 但为了用好H264,我们还是要对H264的基本原理弄清楚才行。今天我们就来看看H264的基本原理。 H264概述 H264压缩技术主要采用...

PostgreSQL 字符串操作函数 迎客

函数:string || string 说明:String concatenation 字符串连接操作例子:'Post' || 'greSQL' = PostgreSQL 函数:string || non-string or non-string || string说明:String concatenation with one non-string i...

wchar_t引发的思考

思考是由wchar_t引发的,干嘛要用wchar_t?我用char[]可以顺利的输出汉字啊!char是一个字节,wchar_t是2个字节或者4个字节的。 1.unicode字符集一开始概念很混乱,发了几个帖子,和别人讨论了几天,自己理顺了下概念。我简单用我的话概括一下:unicode字符集,什么是字符集,字符集就是一个映射表计算机通过它找到对应的字符;un...