python3对文件编码的转换处理,python 编码转换

python3对文件编码的转换处理

摘要：

因此，有必要将UTF-8编码的文件转换为GBK。代码如下/usr/bin/python3#-*-coding:utf-8-*-#pythonfileConvasource_filedest_fileimportos，sysimportchardetsource_File=sys。argv[1]#源文件dest_文件=sys。argv[2]#转换后的目标文件#为rowinopen:tmp=charge确定源文件的字符代码。detectlanguage=tmp。getiflanguage Upper=='UTF-8'：charset=“UTF-8”else:charset=”GB18030“break#使用openasfp:forrownop:fp将文件转换为GBK代码在转换生产数据时仍然有用，但某些字符无法很好地识别，导致转换失败。

　　前言：

　　公司同事邀我一起给SQLSERVER 2008导数，数据来源有高斯和ORACLE, 数据文件保存格式有UTF-8和GBK。

　　当我在做测试导入的时候发现SQLSERVER 2008数据库的WITH选项不支持CODEPAGE='65001', 即UTF-8文件编码格式导入。所以需要把UTF-8编码的文件

统一转换成GBK，代码如下。

示例一：

#!/usr/bin/python3
# -*- coding: utf-8 -*-
# python fileConv source_file dest_file
import os, sys
import chardet

source_file = sys.argv[1]  # 源文件
dest_file = sys.argv[2] # 转后的目标文件

# 确定源文件字符编码
for row in  open(source_file, 'rb'):
    tmp = chardet.detect(row)
    language = tmp.get("encoding")
    if language.upper == 'UTF-8':
        charset = "UTF-8"
    else:
        charset = "GB18030"
    break

# 将文件转换成GBK编码
with open(dest_file, 'w', encoding="GB18030") as fp:
    for row in open(source_file,'r', encoding=charset):
        fp.write(row)

　　在转换生产数据的时候还算好用，但有些字符还是无法很好的识别，导致转换失败。

在网上又看到了一个专门用来编码转换的包:codecs, 用法大同小异

示例二：

#!/usr/bin/python3
# -*- coding: utf-8 -*-
# python fileConv source_file dest_file
import os, sys
import chardet
import codecs

source_file = sys.argv[1]  # 源文件
dest_file = sys.argv[2] # 转后的目标文件

# 确定源文件字符编码
for row in  open(source_file, 'rb'):
    tmp = chardet.detect(row)
    language = tmp.get("language")
    if language == 'Chinese':
        charset = "GB18030"
    else:
        charset = "UTF-8"
    break

# 将文件转换成GBK编码
fp = codecs.open(dest_file, 'w', encoding="GB18030") # 中文编码写入
for row in codecs.open(source_file, 'r', encoding=charset): # 指定编码读
    fp.write(row)
fp.close()

知识小记：

通过 Unicode 编码来进行不同编码之间的相互转化

1、不同的编码之间不能互相识别，不能相互转化，会报错或出现乱码

2、国际通用标准：文字通过网络传输、或硬盘存储等不能使用 Unicode 编码方式，因为 Unicode 使用的是升级版 32 位的，太费流量和空间

3、在 Python3 版本中，唯独 string 在内存中的编码方式是 Unicode，所以字符串不能直接进行网络传输及进行文件的存储

4、bytes：也是一种数据类型，不是字节，与 string 类型就像是孪生兄弟

5、为啥要有 bytes ？—— bytes 内部编码不是 Unicode 方式，因此可以进行网络传输和文件的存储

6、不同编码之间相互转化都需要先变成unicode编码, encode编码， decode解码

示例：

s1 = "中国"
b=s1.encode("gbk")
s2 = b.decode("gbk")
s3=u"中国"
 
print(s1)
print(b)
print(s2)
print(s1==s2==s3)
 
结果 ：
 
中国
b'xd6xd0xb9xfa'
中国
True

在python3版本中, 字符串的编码方式就是Unicode，所以中国==u"中国"

各系统的默认编码方式

　　WINDOWS: GBK

　　LINUX: UTF-8

　　IOS: UTF-8

示例：

# windows下生成的文件打开方式
with open(r"d:	est.txt") as fp:
    print(fp.read())
 
 
# linux下生成文件的打开方式
with open(r"d:	est.txt"， encoding="utf-8") as fp:
    print(fp.read())

　　如果encoding不对，打开内容是乱码

免责声明：文章转载自《python3对文件编码的转换处理》仅用于学习参考。如对内容有疑问，请及时联系本站处理。

python3对文件编码的转换处理

相关文章

Python3之并发(七)---线程同步队列(queue)

C++用iconv进行页面字符转换

【转】二维码生成原理

Python3 中 configparser 使用注意事项

xxl-job 增加python3

pipreqs 报错：UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 966: illegal multibyte sequence

最新文章

随机推荐

思享工具箱导航

JSON工具

格式化转换

加解密编码

文本数字

网络

站长

计算

其他

对照列表