当前位置：移动技术网 > IT编程>开发语言>.net > .net 使用HtmlAgilityPack做爬虫

.net 使用HtmlAgilityPack做爬虫

2019年04月16日 | 移动技术网IT编程 | 我要评论

今夜星光似往年,太委屈吉他谱,露露公主中文版

htmlagilitypack官网：https://html-agility-pack.net/?z=codeplex

.net中使用htmlagilitypack做爬虫步骤:

1、在nuget中安装htmlagilitypack

安装好之后我们就可以开始我们的爬虫之旅了

2、抓取网页源代码

1 var web = new htmlweb();
2 var doc = web.load("要抓取的网页链接");

至此，我们就得到了网页的源代码了，然后用htmldocument来操作

还有一些特殊性质的需要填装验证数据的抓取，我们可以通过httpwebrequest或者httpclient来获取网页源代码

1 var htmltxt =获取html的string的方法;
2 var doc = new htmldocument();
3 doc.loadhtml(htmltxt);

3、进行数据筛选清洗

举个栗子：

我们现在抓取电影天堂的数据：https://www.dytt8.net

我们先抓取他的分类，我们打开https://www.dytt8.net 然后右键查看源代码，发现分类处于div class 为contain中，这样我们就好办了

直接用htmldocument获取 class为contain的所有a标签

 1 var list =doc.documentnode.selectnodes("//div[@class='contain']/ul/li/a");
 2 
 3 
 4  foreach (var item in list)
 5 {
 6     //获取a标签下面的href
 7      var url = item.attributes["href"].value;
 8       // 获取a标签的文本
 9      var txt =item.innerhtml;
10 }

这样，我们就获取电影天堂的影片分类啦。

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

Blazor server side 自家的一些开源的, 实用型项目的进度之 CEF客户端

距离上次提出 [Asp.Net Core] Blazor Server Side 扩展用途 - 配合CEF来制作带浏览器核心的客户端软件的想法后,&#... [阅读全文]
武装你的WEBAPI-OData入门

本文属于OData系列目录（可能会有后续修改） "武装你的WEBAPI OData入门" 武装你的WEBAPI OData便捷查询武装你的WEBAP... [阅读全文]
.NET IoC模式依赖反转(DIP)、控制反转(Ioc)、依赖注入(DI)

依赖倒置原则(DIP) 依赖倒置(Dependency Inversion Principle,缩写DIP)是面向对象六大基本原则之一。他是指一种特定的... [阅读全文]
DevExpress+Winform（四）

视频：https://www.bilibili.com/video/BV15x411x7WN?p=5 新建Devexpress Winform Blan... [阅读全文]
Jenkins之Nunit的应用

一、在Jenkins中安装Nunit插件进入jenkins的插件管理模块，下载Nunit插件。此步骤不做截图说明二、引用nunit.console的nu... [阅读全文]
vue+.netcore可支持业务代码扩展的开发框架 VOL.Vue 2.0版本发布

框架介绍这是一个基于vue、element-ui、iview、.netcore3.1 可支持前端、后台动态扩展业务代码快速开发框架。框架内置定制开发... [阅读全文]
微信退款（在.net core 用http方式请求）

微信JSAPI支付申请退款接口地址接口链接：https://api.mch.weixin.qq.com/secapi/pay/refund 是否需... [阅读全文]
Owin Katana 的底层源码分析

最近看了一下开源项目asp.net katana，感觉公开的接口非常的简洁优雅，channel 9 说是受到node.js的启发设计的，Katana是一... [阅读全文]
jenkins发布application且并运行

一、发布配置差异配置：编译内容编译目标NetWorkClient/KJ90NetClient.csproj编译命令/t:build/p:Configur... [阅读全文]
WPF 简易日期控件魔改ListBox

先上截图修正：应该将SetTime方法修改为，行号为207行开始修改 var nk = Day_of_week(year, month, 1); i... [阅读全文]

网友评论


验证码：

.net 使用HtmlAgilityPack做爬虫

2019年04月16日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论