当前位置：移动技术网 > IT编程>脚本编程>Python > 利用python将pdf输出为txt的实例讲解

利用python将pdf输出为txt的实例讲解

2019年06月17日 | 移动技术网IT编程 | 我要评论

割包皮一般要多少钱,马克思的魔法标记,runningman100912

一个礼拜前一个同学问我这个事情，由于之前在参加华为的比赛，所以赛后看了一下，据说需要用到pdfminer这个包。于是安装了一下，安装过程很简单：

sudo pip install pdfminer;

中间也没有任何的报错。至于如何调用，本人也没有很好的研究过pdfminer这个库，于是开始了百度……

官方文档：

完全使用python编写。（适用于2.4或更新版本）

解析，分析，并转换成pdf文档。

pdf-1.7规范的支持。（几乎）

中日韩语言和垂直书写脚本支持。

各种字体类型（type1、truetype、type3，和cid）的支持。

基本加密（rc4）的支持。

pdf与html转换。

纲要（toc）的提取。

标签内容提取。

通过分组文本块重建原始的布局。

一些基本的类

pdfparser：从一个文件中获取数据

pdfdocument：保存获取的数据，和pdfparser是相互关联的

pdfpageinterpreter处理页面内容

pdfdevice将其翻译成你需要的格式

pdfresourcemanager用于存储共享资源，如字体或图像。

简单的实现

读取test.pdf输出为output.txt:

# -*- coding: utf-8 -*-  
from pdfminer.pdfparser import pdfparser 
from pdfminer.pdfdocument import pdfdocument 
from pdfminer.pdfpage import pdfpage 
from pdfminer.pdfpage import pdftextextractionnotallowed 
from pdfminer.pdfinterp import pdfresourcemanager 
from pdfminer.pdfinterp import pdfpageinterpreter 
from pdfminer.pdfdevice import pdfdevice 
from pdfminer.layout import * 
from pdfminer.converter import pdfpageaggregator 
import os 
fp = open('test.pdf', 'rb') 
#来创建一个pdf文档分析器 
parser = pdfparser(fp) 
#创建一个pdf文档对象存储文档结构 
document = pdfdocument(parser) 
# 检查文件是否允许文本提取 
if not document.is_extractable: 
 raise pdftextextractionnotallowed 
else: 
 # 创建一个pdf资源管理器对象来存储共赏资源 
 rsrcmgr=pdfresourcemanager() 
 # 设定参数进行分析 
 laparams=laparams() 
 # 创建一个pdf设备对象 
 # device=pdfdevice(rsrcmgr) 
 device=pdfpageaggregator(rsrcmgr,laparams=laparams) 
 # 创建一个pdf解释器对象 
 interpreter=pdfpageinterpreter(rsrcmgr,device) 
 # 处理每一页 
 for page in pdfpage.create_pages(document): 
  interpreter.process_page(page) 
  # 接受该页面的ltpage对象 
  layout=device.get_result() 
  for x in layout: 
   if(isinstance(x,lttextboxhorizontal)): 
    with open('output.txt','a') as f: 
     f.write(x.get_text().encode('utf-8')+'\n')

以上这篇利用python将pdf输出为txt的实例讲解就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持移动技术网。

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

python如何查看网页代码

用python查看网页代码的方法：1、使用“import”导入requests包import requests2、使用requests包的get()函数通过网页... [阅读全文]
Python如何用wx模块创建文本编辑器

用python的wx模块创建文本编辑器的方法：1、设置按钮的位置import wxapp = wx.app()win = wx.frame(none,title... [阅读全文]
python如何保存文本文件

python保存文本文件的方法：使用python内置的open()类可以打开文本文件，向文件里面写入数据可以用write()函数，写完之后，使用close()函... [阅读全文]
python如何编写win程序

python可以编写win程序。win程序的格式是exe，下面我们就来看一下使用python编写exe程序的方法。编写好python程序后py2exe模块即可将... [阅读全文]
Python替换NumPy数组中大于某个值的所有元素实例

我有一个2d(二维) numpy数组，并希望用255.0替换大于或等于阈值t的所有值。据我所知，最基础的方法是：shape = arr.shaperesult ... [阅读全文]
使用Numpy对特征中的异常值进行替换及条件替换方式

原始数据为excel文件，由传感器获得，通过pyhton xlrd模块读入，读入后为数组形式，由于其存在部分异常值和缺失值，所以便利用numpy对其中的异常值进... [阅读全文]
Python 实现将numpy中的nan和inf,nan替换成对应的均值

nan：not a numberinf：infinity;正无穷numpy中的nan和inf都是float类型t!=t 返回bool类型的数组(矩阵)np.co... [阅读全文]
给ubuntu18安装python3.7的详细教程

参考文章准备工作安装工具sudo apt updatesudo apt upgradesudo apt install gccsudo apt install ... [阅读全文]
python爬虫把url链接编码成gbk2312格式过程解析

1. 问题　　抓取某个网站，发现请求参数是乱码格式，这是点击 textview，发现请求参数如下图所示3. 那么=%b9%fa%ce%f1%d4%ba%b7%a... [阅读全文]
pyecharts在数据可视化中的应用详解

使用pyecharts进行数据可视化安装 pip install pyecharts也可以在pycharm软件里进行下载pyecharts库包。下载成功后进行查... [阅读全文]

网友评论


验证码：

利用python将pdf输出为txt的实例讲解

2019年06月17日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论