爬虫学习之pdf读取和存储,爬虫可以爬pdf 里的文字吗

爬虫学习之pdf读取和存储

摘要：

如果您需要为py3中的pdf文件操作加载PDFMiner3K库文件，您可以在pip模式下安装python-3-pipinstallpdfminer3k，或者在下载源文件模式下下载源文件：1.首先下载源文件2.使用python3setup Pyinstall处理pdf文件的想法：pdf以字符串形式读取，然后使用StringIO:1fromurlib.requestimporturlopen2转换为文件对象实例

在py3中如需进行pdf文件操作需要加载PDFMiner3K库文件，可通过pip方式或者可以下载源文件方式安装

python3 -m pip install pdfminer3k 
下载源文件方式:
1、先下载源文件 
2、通过python3 setup.py install

处理Pdf文件的思路：

PDF 读成字符串，然后用StringIO 转换成文件对象

实例：

 1 from urllib.request import urlopen
 2 from io import StringIO
 3 from pdfminer.pdfinterp import PDFResourceManager, process_pdf
 4 from pdfminer.converter import TextConverter
 5 from pdfminer.layout import LAParams
 6 
 7 def readPDF(pdfFile):
 8     rsrcmgr = PDFResourceManager()
 9     retstr = StringIO()
10     laparams = LAParams()
11     device = TextConverter(rsrcmgr, retstr, laparams=laparams)
12 
13     process_pdf(rsrcmgr, device, pdfFile)
14     device.close()
15 
16     content = retstr.getvalue()
17     retstr.close()
18     return  content
19 
20 pdfFile = urlopen("http://pythonscraping.com/pages/warandpeace/chapter1.pdf")
21 outputString = readPDF(pdfFile)
22 print(outputString)
23 pdfFile.close()

readPDF 函数最大的好处是，如果你的PDF 文件在电脑里，你就可以直接把urlopen 返回
的对象pdfFile 替换成普通的open() 文件对象：
pdfFile = open("../pages/warandpeace/chapter1.pdf", 'rb')
输出结果可能不是很完美，尤其是当PDF 里有图片、各种各样的文本格式，或者带有表格
和数据图的时候。但是，对大多数只包含纯文本内容的PDF 而言，其输出结果与纯文本格
式基本没什么区别。

免责声明：文章转载自《爬虫学习之pdf读取和存储》仅用于学习参考。如对内容有疑问，请及时联系本站处理。

python实现将固定格式的字符串调整为字典的格式，用于爬虫爬取数据时快速添加请求数据

#!/usr/local/bin/python3.7 """ @File : str_replace.py @Time : 2020/06/03 @Author : Mozili """# 输入多行字符串 data = [] str = input('输入要调整的字符串： ') data.append(str) stopwor...

Java-Word转PDF

1. 下载jar包或者引入pom.xml 下载：https://www.e-iceblue.cn/Downloads/Free-Spire-Doc-JAVA.html 引入pom.xml：https://www.e-iceblue.cn/licensing/install-spirepdf-for-java-from-maven-repository.ht...

利用itext生成pdf的简单例子

一、itext简介 iText是著名的开放源码的站点sourceforge一个项目，是用于生成PDF文档的一个java类库。通过iText不仅可以生成PDF或rtf的文档，而且可以将XML、Html文件转化为PDF文件。 iText的安装非常方便，在http://www.lowagie.com/iText/download.html网站上下载iText.j...

C#调用WPS将文档转换成pdf进行预览

vs启动项目可以生成wps实例本地iis部署的站点却不行原因是vs是管理员权限，而iis没有权限解决方法启动IIS，应用程序池-“选定的应用程序池”-高级设置-进程模型-标识：设置为管理员账号administrator 代码 1.安装WPS 2016 专业版 2.方法一：在项目中引用etapi.dll,wpsapi.dll,wpp...

python爬虫数据解析之BeautifulSoup

BeautifulSoup是一个可以从HTML或者XML文件中提取数据的python库。它能够通过你喜欢的转换器实现惯用的文档导航，查找，修改文档的方式。 BeautfulSoup是python爬虫三大解析方法之一。首先来看个例子: from bs4 import BeautifulSoup html_doc = """ <html><...

asp.net2.0导出pdf文件完美解决方案[转载]

PDF简介：PDF（Portable Document Format）文件格式是Adobe公司开发的电子文件格式。这种文件格式与操作系统平台无关，也就是说，PDF文件不管是在Windows，Unix还是在苹果公司的Mac OS操作系统中都是通用的。这一特点使它成为在Internet上进行电子文档发行和数字化信息传播的理想文档格式。越来越多的电子图书、产品说...

爬虫学习之pdf读取和存储

相关文章

python实现将固定格式的字符串调整为字典的格式，用于爬虫爬取数据时快速添加请求数据

Java-Word转PDF

利用itext生成pdf的简单例子

C#调用WPS将文档转换成pdf进行预览

python爬虫数据解析之BeautifulSoup

asp.net2.0导出pdf文件完美解决方案[转载]

最新文章

随机推荐

思享工具箱导航

JSON工具

格式化转换

加解密编码

文本数字

网络

站长

计算

其他

对照列表