有时我们需要对pdf文件进行一些处理,提取文本、合并等。以前我们使用a-pdf text extractor免费工具,为什么不自己写一个呢?
现在我们可以使用pdfbox-0.7.3这个开源类库. 下载解包后引用:
新建一个项目,代码很简单:
获得这个textstring,再把它们写成磁盘文件就可以了, 像这样的方法:
其它的功能您可以自行发挥了. 这个类库目前支持:
pdf to text extraction
merge pdf documents
pdf document encryption/decryption
lucene search engine integration
fill in form data fdf and xfdf
create a pdf from a text file
create images from pdf pages
print a pdf
如对本文有疑问, 点击进行留言回复!!
CNCF 新增两个孵化项目 | 云原生生态周报 Vol. 58
赛题类型 Web、Crypto、Pwn、Reverse、Misc 各是指什么意思?
c# .net无限递归获取分类,传统for无限递归和 linq无限递归获取分类
网友评论