当前位置：移动技术网 > IT编程>开发语言>.net > C#+HtmlAgilityPack+Dapper走一波爬虫

C#+HtmlAgilityPack+Dapper走一波爬虫

2018年04月24日 | 移动技术网IT编程 | 我要评论

教师资格证现场确认,山西省政府采购网,陪读妈妈的生理需要

　　　　最近因为公司业务需要，又有机会撸winform了，这次的需求是因为公司有项目申报的这块业务，项目申报前期需要关注政府发布的相关动态信息，政府部门网站过多，人工需要一个一个网站去浏览和查阅，有时候还会遗漏掉，因此呢，我们打算用爬虫+移动端web来做，我呢主要负责爬虫和web Api。

爬虫篇

　　　　爬虫主要采用.Net强大的开源解析HTML元素的类库HtmlAgilityPack，操作过XML的童鞋应该很快就可以上手，通过分析XPath来解析HTML，非常的方便的，不过还有一款不错的叫Jumony，没用过，对HtmlAgilityPack比较熟悉，所以首选了HtmlAgilityPack来作为主力军。

　　　　HtmlAgilityPack的基本使用可以参考这篇 https://www.cnblogs.com/GmrBrian/p/6201237.html，

　　　　效果图，多图慎入

采集广西财政厅例子

　　因为是政府发布的出来的信息，所以信息的对外开放的，只是机器代替人工来浏览，不会被和谐的，主要采集文章列表和文章内容，以广西财政厅网站为例子。

First

　　加载网站这个就不用说了，先查看网站的字符编码，如图<meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> ，然后设置HtmlAgilityPack中的OverrideEncoding属性，

htmlAgilityPack.OverrideEncoding = Encoding.UTF8;

Second

　　分析文章列表，浏览器F12查看HTML标签情况，可以分析出XPath为

//ul[@class='dzjzw_list_main_ul']//li

　　流程代码：

//获取第一页的内容
HtmlNode  row = GetHtmlDoc(htmlWeb, url);
//根据xpath获取列表
var list = row.SelectNodes("//ul[@class='dzjzw_list_main_ul']//li");
 foreach (var data in list)
{
     ....
}

/// <summary>
/// 这里偶尔会浏览网页失败的，所以失败了多浏览几次
/// </summary
public static HtmlNode GetHtmlDoc(HtmlWeb htmlWeb, string url)
        {
            try
            {
                var doc = GetDoc(htmlWeb, url);
                if (doc == null)
                {
                    int againIdx = 0;
                    while (againIdx++ < 5)
                    {
                        System.Threading.Thread.Sleep(1000);
                        doc = GetDoc(htmlWeb, url);
                        if (doc != null)
                            break;
                    }
                    if (doc == null)
                    {
                        var htmlData = HttpHelper.Get<string>(url).Result;//.GetStringAsync(url).Result;
                        return HtmlNode.CreateNode(htmlData);
                    }
                    else
                    {
                        return doc.DocumentNode;
                    }
                }
                return doc.DocumentNode;
            }
            catch
            {
                Log.Error("未能正确访问地址：" + url);
                return null;
            }
        }

　　文章内容的链接的XPath标签

//a

　　文章发布的时间XPath标签

//span[@class='date']

都可以使用 HtmlNode.InnerText 来获取到相关值，非常的方便。

Third

　　　　文章详细内容也如此，通过分析XPath来分析即可，最头疼的是翻页的问题，因为政府网站使用的技术一般都是比较那个的，你懂的，在这里的翻页也比较简单，通过拼接URL来进行翻页即可，有些使用到oncilck来触发的，有些表单提交，要具体问题具体分析了，用Fiddler和浏览器的F12大法来分析翻页数据来源，所以这里的例子比较简单

Fourth

　　爬取到的之后，再来一个钉钉通知，在群里拉入一个机器人，可以参考钉钉的开发文档（https://open-doc.dingtalk.com/docs/doc.htm?spm=a219a.7629140.0.0.ece6g3&treeId=257&articleId=105735&docType=1#）

这样我们爬取的消息就第一时间通知到群里的小伙伴啦，是不是很炫酷，哈哈哈。

后面做完了再上传到GitHub吧，下班下班。

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

详解.NET Core 3.0 里新的JSON API

为什么需要新的 json api ？json.net 大家都用过，老版本的 asp.net core 也依赖于 json.net 。然而这个依赖就会引起一些版... [阅读全文]
Net Core Web Api项目与在NginX下发布的方法

前言本文将介绍net core的一些基础知识和如何nginx下发布net core的webapi项目。测试环境操作系统：windows 10 开发工具：v... [阅读全文]
浅谈ASP.NET Core 中jwt授权认证的流程原理

1，快速实现授权验证什么是 jwt ？为什么要用 jwt ？jwt 的组成？这些百度可以直接找到，这里不再赘述。实际上，只需要知道 jwt 认证模式是使用一段 ... [阅读全文]
.Net Core 实现图片验证码的实现示例

记录自己的学习，参考了网上各位大佬的技术，往往在登录的时候需要使用到验证码来进行简单的一个校验，这边使用在.net core上进行生成图片二维码思路很简单=》 ... [阅读全文]
asp.net core3.1 引用的元包dll版本兼容性问题解决方案

自从.netcore 3.1出来后，大家都想立马升级到最新版本。我也是如此，微软也对.netcore 3.1 的官方组件不断升级，几乎每隔几天就会有部分元包可以... [阅读全文]
IdentityServer4实现.Net Core API接口权限认证(快速入门)

什么是identityserver4官方解释：identityserver4是基于asp.net core实现的认证和授权框架，是对openid connect... [阅读全文]
从ASP.NET Core3.1迁移到5.0的方法

3月中旬，微软官方已经发布了dotnet 5的第一个预览版：5.0.0-preview.1。dotnet core经过前几个版本的发展和沉淀，到3.1已经基本趋... [阅读全文]
.NET Core中创建和使用NuGet包的示例代码

在.net core的项目中，如果我们要在项目中引用其它dll文件，不建议直接在项目引用中添加dll文件（虽然在.net core项目中也可以这么做），建议是去... [阅读全文]
ASP.NET Core MVC通过IViewLocationExpander扩展视图搜索路径的实现

iviewlocationexpander api expandviewlocations razor视图路径，视图引擎会搜索该路径. populateva... [阅读全文]
ASP.NET Core中的Controller使用示例

asp.net core出现之前我们实现的controller，mvc都继承自controller基类，webapi的话继承自apicontroller。现在a... [阅读全文]

网友评论


验证码：

C#+HtmlAgilityPack+Dapper走一波爬虫

2018年04月24日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论