【改】utf-8 的去掉BOM的方法

摘要:
最近,在测试中发现,在打开记事本并保存为或保存后,从Linux系统导出的文件再次导入到Linux系统中。发现它失败了。比较文件的内容,没有发现差异。打开二进制文件时,发现文件头中有三个字符:EFBBBF。通过网络找到答案。Windows记事本和其他系统使用utf8 BOM格式,而Linux使用UTF-8非BOM格式。以上三个字符为BOM。删除BOM方法:1.#catINFILE|sed的/xefxbxbf//g'˃输出文件;Sed-i的/^xEFxBBxBF//g测试。txt//直接修改2.#awk“{ifsub;print}”INFILE˃OUTFILE 3.#tail--bytes=+4INFILE˃OUTFILE##无判断标记

最近在测试中发现,linux系统中导出的文件,有记事本打开另存为或者保存后,再次导入进linux系统,发现失败了,对比文件内容,没发现区别,打开二进制文件对比发现,文件头部多了三个字符:EF BB BF。

【改】utf-8 的去掉BOM的方法第1张

通过网络查找答案知,windows记事本等采用utf8 BOM格式,而Linux下采用UTF-8无BOM格式,上述三个字符即BOM。

去掉BOM方法:

1. # cat INFILE | sed 's/xefxbbxbf//g' > OUTFILE    ;     sed -i 's/^xEFxBBxBF//g' test.txt  //直接修改

2. # awk '{if(NR==1)sub(/^xefxbbxbf/,"");print}' INFILE > OUTFILE

3.# tail --bytes=+4 INFILE > OUTFILE  ##没有判断标示

免责声明:文章转载自《【改】utf-8 的去掉BOM的方法》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇【转】dbx用法讲解接口加密该怎么测试下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

utf-8编码引起js输出中文乱码的解决办法

如果web application的编码规则是utf-8,如网页头中的:<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /> 那么js文件中如果有中文输出就会出现乱码,解决此个问题可在引用javascript输出的地方加上charset="gb2312" 或 ...

mysql 修改字符集

1: 在Mysql的配置文件 my.ini (一般在c:/windows/下面) 里加上服务器的默认编码配置: default-character-set=utf82: 修改你的数据库的字符编码:进入Mysql数据库,通过命令修改你的数据库字符编码: ALTER DATABASE `databaseName` DEFAULT CHARACTER SET u...

如何判断数据库中存储的是不是乱码

开发人员说从数据库中读取的是??? 数据库表字符集都是utf8,也set names utf8了,为什么读取到的还是??? 可以判断数据库中存储的是???了,如何验证呢? 1.暂时打开general_log,看看开发人员插入的到底是什么语句 2.抓包分析 字符集测试情况,操作系统字符集为utf8 表的字符集 set names 存中文 读取中文 l...

大数据 CDH 6.2 安装

环境信息 如果是单节点的,建议将虚拟机的内存最小设置为8G,硬盘大小为100G 类别 版本 备注 CDH 6.2.0 下载网址 数据库 mysql 5.7 系统 CentOS7 jdk 1.8 cdh 修改过的 parcels 下载网址 CDH6.2.0中的软件版本信息 Component Component Ve...

在linux环境下搭建java web测试环境(非常详细!!)

一.项目必备软件及基本思路 项目必备:虚拟机:VMware Workstation (已安装linux的 CentOS6.5版本) 项目:java web项目 (必须在本地部署编译后选择项目的webRoot,改为ROOT(ROOT包含下面四个关键文件),放到tomcat下的webapps下即可,因为tomcat启用一个工程的时候,就是发布了除了JSP以外的...

LaTex支持中文的三种方式(首推第一种)

转自:https://blog.csdn.net/z_feng12489/article/details/90449495 我们知道 Latex 一般用 CJK 和 CTEX 宏包支持中文编辑,CJK 和 CTEX 的默认编码是 GBK,而 windows 下的默然编码就是 GBK,因此 CJK 和 CTEX 不需要特殊配置就可以直接支持中文 Latex...