phantomjs 抓取、截图中文网站乱码的问题的解决

摘要:
解决方案是安装字体。在centos中执行:yum installbitmap fontsbitmap fonts cjk在ubuntu:sudoapt getinstallxfonts wqy中执行,这样中文页面上就不会出现一堆框。

用phantomjs抓取html乱码的解决方案:

phantomjs --output-encoding=gbk test.js http://webscan.360.cn/index/checkwebsite?url=www.coding123.net

https://blog.csdn.net/kaosini/article/details/47252457

这两个参数可以指定编码 ...

--output-encoding=encoding sets the encoding used for terminal output (default is utf8).
--script-encoding=encoding sets the encoding used for the starting script (default is utf8).

设置成 GBK 就可以了 ...

或者

phantom.outputEncoding="gbk";

用phantomjs截图时中文乱码的解决方案:

用phantomjs去截取中文页面的网站可能会出现乱码的情况,也就是截图中中文的位置全是方框。
解决办法就是安装字体。
在centos中执行:yum install bitmap-fonts bitmap-fonts-cjk
在ubuntu中执行:sudo apt-get install xfonts-wqy
这样再去截图中文的页面就不会出现一堆的方框了。

免责声明:文章转载自《phantomjs 抓取、截图中文网站乱码的问题的解决》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇解决studio 3T时间到期的两种方法使用百度字体编辑器删除不必要字体,减少字体文件体积下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

第七部分(三) 动态渲染页面爬取(用Selenium获取淘宝商品,不涉及验证登录)

三、 使用 Selenium 爬取淘宝商品在分析 Ajax 抓取相关数据时,不是所有页面都可以通过分析 Ajax 来完成抓取。比如淘宝的整个页面数据确实是通过 Ajax 获取的,但这些 Ajax 接口参数复杂,并且包含有加密密钥等,如果要构造 Ajax 参数是很困难。像这种页面最方便的抓取方法是通过 Selenium 。接下就用 Selenium 模拟浏览...

vue针对搜索引擎做SEO优化

先把几个方法放出来: 1.SSR服务器渲染;2.静态化;3.预渲染prerender-spa-plugin;4.使用Phantomjs针对爬虫做处理。 首先复习一下seo: 搜索引擎优化(Search engine optimization,简称seo),指为了提升网页在搜索引擎自然搜索结果中(非商业性推广结果)的收录数量以及排序位置而做的优化行为,是为了...

nodejs之SVG转图片下载方案

本文介绍在nodejs基础上。怎样实现将svg转为png并下载的功能。 所需Webkit和node module简单介绍: phantomjs:一个基于WebKit的server端JavaScript API,它基于 BSD开源协议公布。PhantomJS无需浏览器的支持就可以实现对Web的支持。且原生支持各种Web标准,如DOM 处理、JavaScr...

手把手教你写网络爬虫(1):网易云音乐歌单

手把手教你写网络爬虫(1):网易云音乐歌单 把之前发表在微信公众号的爬虫系列文章迁移过来,热热身,就当备份了。 本来还有一些内容想写的,比如headless chrome、okhttp、netty和文本相似度算法等等,不过最近精力不在爬虫上面,以后等因缘成熟再把这个系列写完。 手把手教你写网络爬虫(1) 作者:拓海 摘要:从零开始写爬虫,初学者的速成指南...

爬虫 selenium+Xpath 爬取动态js页面元素内容

介绍 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持多种浏览器 from selenium import webdriver browser=web...

PhantomJS 基础及示例 (转)

概述 PhantomJS is a headless WebKit scriptable with a JavaScript API. It has fast and native support for various web standards: DOM handling, CSS selector, JSON, Canvas, and SVG.(ht...