当前位置：移动技术网 > IT编程>开发语言>c# > C#制作多线程处理强化版网络爬虫

C#制作多线程处理强化版网络爬虫

2019年07月18日 | 移动技术网IT编程 | 我要评论

上次做了一个帮公司妹子做了爬虫，不是很精致，这次公司项目里要用到，于是有做了一番修改，功能添加了网址图片采集，下载，线程处理界面网址图片下载等。

说说思路：首相获取初始网址的所有内容在初始网址采集图片去初始网址采集链接把采集到的链接放入队列继续采集图片，然后继续采集链接，无限循环

还是上图片大家看一下，

处理网页内容抓取跟网页网址爬取都做了改进，下面还是大家来看看代码，有不足之处，还请之处!

网页内容抓取htmlcoderequest,

网页网址爬取gethttplinks，用正则去筛选html中的links

图片抓取gethtmlimageurllist，用正则去筛选html中的img

都写进了一个封装类里面 httphelper

  /// <summary>  
    /// 取得html中所有图片的 url。  
    /// </summary>  
    /// <param name="shtmltext">html代码</param>  
    /// <returns>图片的url列表</returns> 
public static string htmlcoderequest(string url)
    {
      if (string.isnullorempty(url))
      {
        return "";
      }
      try
      {
        //创建一个请求
        httpwebrequest httprequst = (httpwebrequest)webrequest.create(url);
        //不建立持久性链接
        httprequst.keepalive = true;
        //设置请求的方法
        httprequst.method = "get";
        //设置标头值
        httprequst.useragent = "user-agent:mozilla/4.0 (compatible; msie 6.0; windows nt 5.2; .net clr 1.0.3705";
        httprequst.accept = "*/*";
        httprequst.headers.add("accept-language", "zh-cn,en-us;q=0.5");
        httprequst.servicepoint.expect100continue = false;
        httprequst.timeout = 5000;
        httprequst.allowautoredirect = true;//是否允许302
        servicepointmanager.defaultconnectionlimit = 30;
        //获取响应
        httpwebresponse webres = (httpwebresponse)httprequst.getresponse();
        //获取响应的文本流
        string content = string.empty;
        using (system.io.stream stream = webres.getresponsestream())
        {
          using (system.io.streamreader reader = new streamreader(stream, system.text.encoding.getencoding("utf-8")))
          {
            content = reader.readtoend();
          }
        }
        //取消请求
        httprequst.abort();
        //返回数据内容
        return content;
      }
      catch (exception)
      {

        return "";
      }
    }
/// <summary>
    /// 提取页面链接
    /// </summary>
    /// <param name="html"></param>
    /// <returns></returns>
public static list<string> gethtmlimageurllist(string url)
    {
      string html = httphelper.htmlcoderequest(url);
      if (string.isnullorempty(html))
      {
        return new list<string>();
      }
      // 定义正则表达式用来匹配 img 标签  
      regex regimg = new regex(@"<img\b[^<>]*?\bsrc[\s\t\r\n]*=[\s\t\r\n]*[""']?[\s\t\r\n]*(?<imgurl>[^\s\t\r\n""'<>]*)[^<>]*?/?[\s\t\r\n]*>", regexoptions.ignorecase);

      // 搜索匹配的字符串  
      matchcollection matches = regimg.matches(html);
      list<string> surllist = new list<string>();

      // 取得匹配项列表  
      foreach (match match in matches)
        surllist.add(match.groups["imgurl"].value);
      return surllist;
    }


    /// <summary>
    /// 提取页面链接
    /// </summary>
    /// <param name="html"></param>
    /// <returns></returns>
    public static list<string> gethttplinks(string url)
    {
      //获取网址内容
      string html = httphelper.htmlcoderequest(url);
      if (string.isnullorempty(html))
      {
        return new list<string>();
      }
      //匹配http链接
      const string pattern2 = @"http(s)?://([\w-]+\.)+[\w-]+(/[\w- ./?%&=]*)?";
      regex r2 = new regex(pattern2, regexoptions.ignorecase);
      //获得匹配结果
      matchcollection m2 = r2.matches(html);
      list<string> links = new list<string>();
      foreach (match url2 in m2)
      {
        if (stringhelper.checkurlislegal(url2.tostring()) || !stringhelper.ispureurl(url2.tostring()) || links.contains(url2.tostring()))
          continue;
        links.add(url2.tostring());
      }
      //匹配href里面的链接
      const string pattern = @"(?i)<a\s[^>]*?href=(['""]?)(?!javascript|__dopostback)(?<url>[^'""\s*#<>]+)[^>]*>"; ;
      regex r = new regex(pattern, regexoptions.ignorecase);
      //获得匹配结果
      matchcollection m = r.matches(html);
      foreach (match url1 in m)
      {
        string href1 = url1.groups["url"].value;
        if (!href1.contains("http"))
        {
          href1 = global.weburl + href1;
        }
        if (!stringhelper.ispureurl(href1) || links.contains(href1)) continue;
        links.add(href1);
      }
      return links;
    }

这边下载图片有个任务条数限制，限制是200条。如果超过的话线程等待5秒，这里下载图片是异步调用的委托

public string downloadimg(string url)
    {
      if (!string.isnullorempty(url))
      {
        try
        {
          if (!url.contains("http"))
          {
            url = global.weburl + url;
          }
          httpwebrequest request = (httpwebrequest)webrequest.create(url);
          request.timeout = 2000;
          request.useragent = "user-agent:mozilla/4.0 (compatible; msie 6.0; windows nt 5.2; .net clr 1.0.3705";
          //是否允许302
          request.allowautoredirect = true;
          webresponse response = request.getresponse();
          stream reader = response.getresponsestream();
          //文件名
          string afirstname = guid.newguid().tostring();
          //扩展名
          string alastname = url.substring(url.lastindexof(".") + 1, (url.length - url.lastindexof(".") - 1));
          filestream writer = new filestream(global.floderurl + afirstname + "." + alastname, filemode.openorcreate, fileaccess.write);
          byte[] buff = new byte[512];
          //实际读取的字节数
          int c = 0;
          while ((c = reader.read(buff, 0, buff.length)) > 0)
          {
            writer.write(buff, 0, c);
          }
          writer.close();
          writer.dispose();
          reader.close();
          reader.dispose();
          response.close();
          return (afirstname + "." + alastname);
        }
        catch (exception)
        {
          return "错误：地址" + url;
        }
      }
      return "错误：地址为空";
    }

话不多说，更多的需要大家自己去改进咯！欢迎读者来与楼主进行交流。

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

C#连接Informix数据库的问题

引言informix 11 与之前版本的 informix 相比，新增了很多特性，如 sql 语句跟踪、非阻断的检查点、sds 辅节点、星型连接、自动存储扩展、... [阅读全文]
C#实现猜数字游戏

本文实例为大家分享了c#实现猜数字游戏具体代码，供大家参考，具体内容如下给定一个0-100的随机数字猜其大小题目样式：电脑产生一个0到100之间的随机数字，并且... [阅读全文]
使用Visual Studio2019创建C#项目(窗体应用程序、控制台应用程序、Web应用程序)

一、vs的开发环境首先你得安装了vs2019，然后确认下下面三个组件是否存在，如果没有要下载一下。vs2019的安装可参考。二、创建c#窗体应用程序打开vs可以... [阅读全文]
C# 可空类型的具体使用

在项目中我们经常会遇到可为空类型，那么到底什么是可为空类型呢？下面我们将从4个方面为大家剖析。1、可空类型基础知识顾名思义，可空类型指的就是某个对象类型可以为空... [阅读全文]
C#存储相同键多个值的Dictionary实例详解

涉及到两个问题：一、访问磁盘中文件夹、文件夹下面的文件夹先看一下磁盘文件夹结构c盘下面有个根文件夹savefile，savefile下面有两个子文件夹分别为，2... [阅读全文]
vs2019安装和使用详细图文教程

vs2019已经在4月2日正式发布，vs2019发布会请看这个链接：vs2019发布活动vs2019和vs2017一样强大，项目兼容，不用互相删除，而且c/c+... [阅读全文]
C#实现猜数字小游戏

本文实例为大家分享了c#实现猜数字小游戏的具体代码，供大家参考，具体内容如下效果如图：代码：using system;using system.collecti... [阅读全文]
Visual Studio 中自定义代码片段的方法

第一步、打开 visual studio code，按ctrl + shift + p，输入：configure user snippets，选择 prefer... [阅读全文]
C#实现简单俄罗斯方块

最近在看《.net游戏编程入门经典 c#篇》第一章介绍了如何制作俄罗斯方块，自己试了试按照书上的步骤，可算是完成了。于是写下这篇文章留作纪念。1.类的设计在充... [阅读全文]
C#实现获取本地内网(局域网)和外网(公网)IP地址的方法分析

本文实例讲述了c#实现获取本地内网(局域网)和外网(公网)ip地址的方法。分享给大家供大家参考，具体如下：1、获取本机的ip地址集合：/// <summa... [阅读全文]

网友评论


验证码：

C#制作多线程处理强化版网络爬虫

2019年07月18日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论