Python读取PDF文档

摘要:
1提示人。转换端口PDF页面聚合器2提示人。从PDfminer.pdf解析端口PDF解析器4提示人。pdf解析端口PDF文档5从PDfminar.pdf导入PDF资源Ma
 1 from pdfminer.converter import PDFPageAggregator
 2 from pdfminer.layout import LAParams
 3 from pdfminer.pdfparser import PDFParser
 4 from pdfminer.pdfparser import PDFDocument
 5 from pdfminer.pdfinterp import PDFResourceManager
 6 from pdfminer.pdfinterp import PDFPageInterpreter
 7 from pdfminer.pdfdevice import PDFDevice
 8 
 9 # 获取文档对象
10 fp = open("banReport.pdf","rb")
11 
12 # 创建一个PDF文档解释器
13 parser = PDFParser(fp)
14 
15 # PDF文档的对象
16 doc = PDFDocument()
17 
18 #连接解释器和文档对象
19 parser.set_document(doc)
20 doc.set_parser(parser)
21 
22 # 初始化文档
23 doc.initialize('')
24 
25 # 创建PDF资源管理器
26 resource = PDFResourceManager()
27 
28 #参数分析器
29 laparam = LAParams()
30 
31 # 创建一个聚合器
32 device = PDFPageAggregator(resource,laparams=laparam)
33 # 创建PDF页面解释器
34 interpreter = PDFPageInterpreter(resource,device=device)
35 
36 # 使用文档对象得到页面的集合
37 for page in doc.get_pages():
38     # 使用页面解释器来读取
39     interpreter.process_page(page)
40 
41     # 使用聚合器来获取内容
42     layout = device.get_result()
43 
44     for out in layout:
45         if hasattr(out,"get_text"):
46             print(out.get_text())

免责声明:文章转载自《Python读取PDF文档》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇什么是UML?Sqlite 帮助类 SQLiteHelper下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

DATAX 实现python调用cmd 系统控制台,实现在开发工具中内嵌datax (python 多行执行cmd命令)

上代码 1 import os 2 if __name__=='__main__': 3 str="CHCP 65001"+"&&" 4 str+="E:"+"&&" 5 str += "cd E:\DATAX\datax\bin" + "&&" 6 str += "pytho...

解放双手!用 Python 控制你的鼠标和键盘

在工作中难免遇到需要在电脑上做一些重复的点击或者提交表单等操作,如果能通过 Python 预先写好相关的操作指令,让它帮你操作,然后你自己去刷网页打游戏,岂不是很爽?】 很多人学习python,不知道从何学起。很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手。很多已经做案例的人,却不知道如何去学习更加高深的知识。那么针对这三类人,我给大...

python 把数据 json格式输出

有个要求需要在python的标准输出时候显示json格式数据,如果缩进显示查看数据效果会很好,这里使用json的包会有很多操作 import json date = {u'versions': [{u'status': u'CURRENT', u'id': u'v2.3', u'links': [{u'href': u'http://controll...

Python request SSL证书问题

错误信息如下: 1 requests.exceptions.SSLError: ("bad handshake: Error([('SSL routines', 'tls_process_server_certificate', 'certificate verify failed')],)",)   python做爬虫,对于有的网站,需要验证证书...

Logistic模型原理详解以及Python项目实现

此文转载自:https://blog.csdn.net/master_hunter/article/details/111158447#commentBox 目录 前言 一、Logistic回归模型 二、Logit模型 三、几率 四、Logistic模型 五、基于最优化方法的最佳回归系数确定 5.1梯度上升算法 5.1.1梯度 5.1.2使用梯度上升找到最...

sqlite3 on python for newbies

python 集成了 sqlite3 ,其接口很简单: import sqlite3 db_connection = sqlite3.connect(db_filename) db_cursor = db_connection.cursor() db_cursor.execute('select * from tt') result_one = db_cu...