当前位置：移动技术网 > IT编程>开发语言>.net > .NET下读取PDF文本总结

.NET下读取PDF文本总结

2018年12月06日 | 移动技术网IT编程 | 我要评论

尚方杵,八十年代歌手,青北外院

在.net下读取pdf文本用到的类库主要有两个：pdfbox和itextsharp。

先说pdfbox，这个类库据说功能很强大，本人在这只是简单介绍一下：

1、下载pdfbox

2、引用动态链接库

解压缩下载的pdfbox，找到其中的bin目录，需要在项目中添加引用的dll文件有：

ikvm.gnu.classpath.dll

pdfbox-0.7.3.dll

fontbox-0.1.0-dev.dll

ikvm.runtime.dll

将以上4个文件引用到项目中，在文件中需要引入以下2个命名空间：

using org.pdfbox.pdmodel;

using org.pdfbox.util;

3、api的使用方法看代码：

[csharp]

using org.pdfbox.pdmodel;

using org.pdfbox.util;

public void pdf2txt(fileinfo file,fileinfo txtfile)

{

pddocument doc = pddocument.load(file.fullname);

pdftextstripper pdfstripper = new pdftextstripper();

string text = pdfstripper.gettext(doc);

streamwriter swpdfchange = new streamwriter(txtfile.fullname, false, encoding.getencoding("gb2312"));

swpdfchange.write(text);

swpdfchange.close();

}

itextsharp，其实很多时候都是用于生成pdf，但是他读取pdf的能力也不差，使用如下：

1、下载itextsharp

2、引用动态链接库

解压缩下载的压缩包里面的itextsharp-dll-core.zip，得到itextsharp.dll，在项目中添加引用itextsharp.dll即可

在文件中需要引入以下3个命名空间：

using itextsharp;

using itextsharp.text;

using itextsharp.text.pdf;

3、api的使用方法看代码：

[csharp]

private string oncreated(string filepath)

{

try

{

string pdffilename = filepath;

pdfreader pdfreader = new pdfreader(pdffilename);

int numberofpages = pdfreader.numberofpages;

string text = string.empty;

for (int i = 1; i <= numberofpages; ++i)

{

byte[] bufferofpagecontent = pdfreader.getpagecontent(i);

text += system.text.encoding.utf8.getstring(bufferofpagecontent);

} www.2cto.com

pdfreader.close();

return text;

}

catch (exception ex)

{

streamwriter wlog = file.appendtext(system.appdomain.currentdomain.setupinformation.applicationbase+"\\mylog.log");

wlog.writeline("出错文件：" + e.fullpath + "原因：" + ex.tostring());

wlog.flush();

wlog.close();return null;

}

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

Blazor server side 自家的一些开源的, 实用型项目的进度之 CEF客户端

距离上次提出 [Asp.Net Core] Blazor Server Side 扩展用途 - 配合CEF来制作带浏览器核心的客户端软件的想法后,&#... [阅读全文]
武装你的WEBAPI-OData入门

本文属于OData系列目录（可能会有后续修改） "武装你的WEBAPI OData入门" 武装你的WEBAPI OData便捷查询武装你的WEBAP... [阅读全文]
.NET IoC模式依赖反转(DIP)、控制反转(Ioc)、依赖注入(DI)

依赖倒置原则(DIP) 依赖倒置(Dependency Inversion Principle,缩写DIP)是面向对象六大基本原则之一。他是指一种特定的... [阅读全文]
DevExpress+Winform（四）

视频：https://www.bilibili.com/video/BV15x411x7WN?p=5 新建Devexpress Winform Blan... [阅读全文]
Jenkins之Nunit的应用

一、在Jenkins中安装Nunit插件进入jenkins的插件管理模块，下载Nunit插件。此步骤不做截图说明二、引用nunit.console的nu... [阅读全文]
vue+.netcore可支持业务代码扩展的开发框架 VOL.Vue 2.0版本发布

框架介绍这是一个基于vue、element-ui、iview、.netcore3.1 可支持前端、后台动态扩展业务代码快速开发框架。框架内置定制开发... [阅读全文]
微信退款（在.net core 用http方式请求）

微信JSAPI支付申请退款接口地址接口链接：https://api.mch.weixin.qq.com/secapi/pay/refund 是否需... [阅读全文]
Owin Katana 的底层源码分析

最近看了一下开源项目asp.net katana，感觉公开的接口非常的简洁优雅，channel 9 说是受到node.js的启发设计的，Katana是一... [阅读全文]
jenkins发布application且并运行

一、发布配置差异配置：编译内容编译目标NetWorkClient/KJ90NetClient.csproj编译命令/t:build/p:Configur... [阅读全文]
WPF 简易日期控件魔改ListBox

先上截图修正：应该将SetTime方法修改为，行号为207行开始修改 var nk = Day_of_week(year, month, 1); i... [阅读全文]

网友评论


验证码：

.NET下读取PDF文本总结

2018年12月06日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论