Invoke-WebRequest Invoke-RestMethod 乱码研究

摘要:
但我认为这可能与Linux的http服务器有关,http://www.msn.com这是iis网站,微软的官方网站。这个网站也有这种乱码现象。最后,确定这是InvokeWebRequestInvokeRestMethod,这两个命令中的一个错误。只有这样才敢向微软提交bug。这种乱码的最终消除取决于微软。如果您的系统是Windows 8或更高版本,或者Windows 7安装了powershell 4.0和5.0,则powershell附带两个命令:和。http://www.cnblogs.com/swiftma/p/5420145.htmlhttp://www.cnblogs.com/swiftma/p/5430007.html------------------------------扰乱的命令版本:所有版本的powershell。错误重复powershell命令:Invoke WebRequest Urihttp://www.msn.com'#returnchinesemessycode.BaseResponse.CharacterSet#utf8webpage,butreturnISO-8859-1Voke-RestMethod-Uri'http://www.msn.com'修复:反转上述代码。

  powershell Invoke-WebRequest Invoke-RestMethod 乱码 encoding sharset CharacterSet    

  Invoke-WebRequest和Invoke-RestMethod 爬部分网址会乱码。这个问题很久了,很多人知道。
似乎从有这两个命令的时候起,就有这个问题,至今已经4年有余了,但没人知道原因。或许是没人关注它。
  其实这个问题并不难,经我研究,找出了原因,指出了解决方案。
但我当时片面地认为,这有可能和linux的http服务器有关,但后来发现,
http://www.msn.com 是iis网站,微软官方网址,这个网址也有此乱码现象,
最后才确定了这是Invoke-WebRequest Invoke-RestMethod,这两个命令的bug。
才敢给微软提交bug,这个乱码最终的消除,还是要靠微软。

powershell 传教士 原创文章 2016-05-01 允许转载,但必须保留名字和出处,否则追究法律责任

 2017-02-10更新: 参见下面的bug报告,由于我报告bug时,只给出了utf8的例子,现在ps5.1版中,发现utf8的bug已经修复了,但gb2312的还没修复。

------------【第一章 编码知识点】-----------------

编码类型,和编码值,是不可分割的一对。所有乱码的产生,是由于只知道编码值,而不知道编码类型! 如:

编码值【70 00 73 00 20 4F 59 65 EB 58】 和 编码类型【utf16】 结合起来,才知道,上述内容是【ps传教士】。

这也是微软发明,在文本中使用【bom头】的原因。

【bom头】【bom头】,有头无乱码!
【bom头】【bom头】,用的人多的牛x文本编辑器,都支持【bom头】,如vi,gedit等。

我以前遇到的某些烂人,怪人。他们很讨厌,微软使用的文本【bom头】,非要不用。非要用某些野路子的奇技淫巧猜测编码。 那么将导致:

1)必然有一定的猜错几率。此乃故意给自己乱码吃。

2)某些文档,如html,可能是多种编码组合的。或许在【<>】中就使用了单独的charset编码。在这种单文件多编码情况下,猜错几率更多。

3)不用【bom头】的.py文档,必然要用 coding:之类的。它们是同一种东西,都是编码类型的标识。

有能耐你别用【bom头】,也别用【coding】,纯猜!脚本编码未知,解析中文注释报错,导致的运行不了 活该! 宁可py脚本不能运行,也别用【bom头】和【coding】

【bom头】只解决了,纯文本文件的乱码。传输字符串的时候,也必须跟着编码类型。一旦编码类型丢失或未知,将产生乱码。

--------------------【第二章 序】--------------------

  (PowerShell中的)两只爬虫,两只爬虫,跑地快,爬网页不赖~~~

一只基于com版的ie,一只基于.net中的WebRequest类,都是老奶奶,不奇怪 。。。

虽然很老了,但爬的也很快 。。。    

  如果你的系统是win8,或者win8以上,或者win7安装了powershell 4.0,5.0,那么 powershell中自带了这样的两个命令,【Invoke-WebRequest】和【Invoke-RestMethod】。 第一个命令返回的是对象,第二个返回的是(整个网页)字符串。

  这两个命令有时候会返回乱码,很长一段时间,我认为,是这个命令有解码bug,但后来发现,把结果用其自带的-outfile参数输出到文件之后,编码是正确的。 也就是说,其实是我们不知道怎么解码。只能用写入磁盘的慢方法。

  后来我看了博客园友【昵称:老马说编程】的这两篇帖子,琢磨出来的,感谢他! 也请大家先看看这两篇乱码修复类文章。

http://www.cnblogs.com/swiftma/p/5420145.html

http://www.cnblogs.com/swiftma/p/5430007.html

------------【第三章 正文】-----------------

乱码命令版本:

所有版本的powershell。

乱码原因:大概90%以上都是这种问题。

网页编码为utf8,但是接收到编码后,把网页源码,编码类型认错误了,或者说丢失了。 把utf8编码网页源码,错误地认为是iso8859-1编码类型的编码,把此utf8再次转换成了utf8,然后给我们呈现了。

bug重现powershell命令:

Invoke-WebRequest -Uri 'http://www.msn.com' # return chinese messy code 

(Invoke-WebRequest -Uri 'http://www.msn.com').BaseResponse.CharacterSet  # utf8 web page,but return ISO-8859-1

Invoke-RestMethod -Uri 'http://www.msn.com'

修复办法: 对上述编码进行逆转换。

bug修复powershell命令:

$utf8 = [System.Text.Encoding]::GetEncoding(65001) 
$iso88591 = [System.Text.Encoding]::GetEncoding(28591) #ISO 8859-1 ,Latin-1

$wrong_string = Invoke-RestMethod -Uri 'http://www.msn.com' 
$wrong_bytes = $utf8.GetBytes($wrong_string)

$right_bytes = [System.Text.Encoding]::Convert($utf8,$iso88591,$wrong_bytes) #仔细看这里 
$right_string = $utf8.GetString($right_bytes)  #仔细看这里 
write-host $right_string


 gbk乱码的解决:网页源码声明了gb2312,浏览器打开正常,但powershell识别不正常的解决。

$gbk = [System.Text.Encoding]::GetEncoding(936)
$utf8 = [System.Text.Encoding]::GetEncoding(65001)
$iso88591 = [System.Text.Encoding]::GetEncoding(28591) #ISO 8859-1 ,Latin-1

$wrong_string = Invoke-RestMethod -Uri 'http://1212.ip138.com/ic.asp'
$wrong_bytes = $utf8.GetBytes($wrong_string)

$right_bytes = [System.Text.Encoding]::Convert($utf8,$iso88591,$wrong_bytes) #仔细看这里
$right_string = $gbk.GetString($right_bytes)  #仔细看这里
write-host $right_string

欢迎去顶这个bug:

https://windowsserver.uservoice.com/forums/301869-powershell/suggestions/13685217-invoke-restmethod-and-invoke-webrequest-encoding-b

问:在这个bug没修复之前,如何用powershell爬数据?

答:请看我这篇文章:  转帖不会乱码的,powershell网络蜘蛛  http://www.cnblogs.com/piapia/p/5093201.html

------------【第四章 后记:分析 列举 网页常用编码类型】-----------------

wincodepage  名称

936      gbk

54936     gb18030

GB18030使用变长编码,有的字符是两个字节,有的是四个字节。 在两字节编码中,字节表示范围与GBK一样。在四字节编码中,第一个字节的值从0x81到0xFE,第二个字节的值从0x30到0x39,第三个字节的值从0x81到0xFE,第四个字节的值从0x30到0x39。 解析二进制时,如何知道是两个字节还是四个字节表示一个字符呢?看第二个字节的范围,如果是0x30到0x39就是四个字节表示,因为两个字节编码中第二字节都比这个大。

932      japanese

949      korean

950      big5

20127     us-ascii us 7bit

1252     ISO-8859-1

28591     ISO 8859-1 又称Latin-1

1200     utf-16

1201     utf-16 Big-Endian

12000         utf-32          

12001         utf-32 Big-Endian  

65001     utf-8

    gb2312,gbk,gb18030,之间是兼容的。由于网页中都是简单中文,所以可以把它们看作是同一种编码。    所以常用(网页!)编码只有,gbk,big5,utf8,ISO 8859-1,1252, 所以常用(文本!)编码只有,gbk,big5,utf8,ISO 8859-1,1252,utf16le,

        摘自:    https://msdn.microsoft.com/zh-cn/library/system.text.encodinginfo.codepage.aspx   

------------【第五章 相关问题】-----------------       

问:如何获取网页编码?

答:    下载网页,并查找网页中的charset关键字。

powershell代码: 
$网址 = 'http://www.baidu.com' 
$网页编码字串 = (Invoke-RestMethod -Uri $网址 ) -split '>' | select-string "Content-Type.*charset" 
#如这个百度网页,有些网页没有 "`n" 换行符


 

问:【Invoke-WebRequest】和【Invoke-RestMethod】如何获取网页编码?

答:

这个获取方法是不可靠的,有些是错误的。powershell传教士注

(Invoke-WebRequest -Uri www.baidu.com ).BaseResponse.CharacterSet 
#返回 utf-8

(Invoke-WebRequest -Uri news.qq.com ).BaseResponse.CharacterSet 
#返回 GB2312

(Invoke-WebRequest -Uri http://www.nmc.cn ).Headers.'content-type' #text/html

(Invoke-WebRequest -Uri http://www.nmc.cn ).BaseResponse.CharacterSet 
#ISO-8859-1

(Invoke-WebRequest -Uri http://www.scielo.br).BaseResponse.CharacterSet

   问:如何给网页传值?

答:

$text = '要发送的内容' 
$postData = [System.Text.Encoding]::UTF8.GetBytes($text) 
Invoke-WebRequest -Uri 'http://www.mydomain.com/' -Method Post -Body $postData -ContentType "text/plain; charset=utf-8"

  

免责声明:文章转载自《Invoke-WebRequest Invoke-RestMethod 乱码研究》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇windows 下安装 node.js 双击没反应全国计算机技术与软件专业技术资格(水平)考试【软件评测师】-考试内容总结(七)软件工程知识下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

mysql修改表、字段、库的字符集

在一次导入数据表(MYISAM)的经历:复制过来的表打开后中文出现乱码,肯定是字符集出现了不致的问题,所以从原数据库导出.sql文件,修改其中的创建表的语句,加入字符集DEFAULT CHARSET=gb2312 用这个导入 mysql -uroot -p --default-character-set=gb2312 databasename>E:o...

URL的编码和解码

URL的编码和解码   参考:阮一峰--关于URL编码 1 为什么要URL编码 在因特网上传送URL,只能采用ASCII字符集      也就是说URL只能使用英文字母、阿拉伯数字和某些标点符号,不能使用其他文字和符号,即只有字母和数字[0-9a-zA-Z]、一些特殊符号$-_.+!*'()[不包括双引号]、以及某些保留字(空格转换为+),才可以不经过编...

WIN10 使用POWERSHELL 设置单应用KIOSK模式(win10家庭版或企业版)

win10 使用PowerShell 设置单应用kiosk模式 win10 家版或企业版PowerShellshell 启动器 v1Autologon.exe 注意事项 win10 家庭版或企业版。 下载安装Autologon.exe。 Shell 启动器 v1调用的应用程序不可有黑窗(类似cmd)。 以下示例采用账号:- 账户:'KIOSK'- 密码:'...

ASCII,unicode, utf8 ,big5 ,gb2312,gbk,gb18030等几种常用编码区别(转载)

原文出处:http://www.blogjava.net/xcp/archive/2009/10/29/coding2.html  最近老为编码问题而烦燥,下定决心一定要将其弄明白!本文主要总结网上一些朋友提供的 ascii,ISO-8859-1,unicode, utf8,gb2312,big5,gbk,gb18030等几种常区别.     1. ASC...

项目字典表设计

系统字典表,一半涉及两张表:字典1:n字典项。是一对多的关系 字典表: 字典项表: 如,消息类型,在字典表就是 在字典项对应的多条: 字典表sql: CREATE TABLE `sys_dict` ( `id` varchar(32) CHARACTER SET utf8 COLLATE utf8_general_ci NOT NULL,...

高效的数据压缩编码方式 Protobuf

一. protocol buffers 是什么? Protocol buffers 是一种语言中立,平台无关,可扩展的序列化数据的格式,可用于通信协议,数据存储等。 Protocol buffers 在序列化数据方面,它是灵活的,高效的。相比于 XML 来说,Protocol buffers 更加小巧,更加快速,更加简单。一旦定义了要处理的数据的数据结构之...