当前位置：移动技术网 > IT编程>开发语言>.net > asp.net采集页面上所有图像图片资源的具体方法

asp.net采集页面上所有图像图片资源的具体方法

2017年12月12日 | 移动技术网IT编程 | 我要评论

舒曼家具,大明驸马传,大唐龙皇txt

有时我们需要采集一些信息到自己的数据库，本地磁盘，我们经常使用的是webclient,webrequest等等，今天主要说一下，对于一个ｕｒｉ地址，采集这个页面上所有的图像资源，下面是源代码，供大家参考，学习。

/// <summary>
  /// 下载指定ｕｒｌ下的所有图片
  /// </summary>
  public class webpageimage
  {
    /// <summary>
    /// 获取网页中全部图片
    /// </summary>
    /// <param name="url">网页地址</param>
    /// <param name="charset">网页编码，为空自动判断</param>
    /// <returns>全部图片显示代码</returns>
    public string getimages(string url, string charset)
    {
      string s = gethtml(url, charset);
      return getpictures(s, url);
    }

    /// <summary>
    /// 获取网页中全部图片
    /// </summary>
    /// <param name="url">网址</param>
    /// <returns>全部图片代码</returns>
    public string getimages(string url)
    {
      return getimages(url, "");
    }

    string doman(string url)
    {
      uri u = new uri(url);
      return u.host;
    }

    /// <summary>
    /// 获取网页内容
    /// </summary>
    /// <param name="url">网站地址</param>
    /// <param name="charset">目标网页的编码,如果传入的是null或者"",那就自动分析网页的编码 </param>
    /// <returns></returns>
    string gethtml(string url, string charset)
    {
      webclient mywebclient = new webclient();
      //创建webclient实例mywebclient 
      // 需要注意的： 
      //有的网页可能下不下来，有种种原因比如需要cookie,编码问题等等 
      //这是就要具体问题具体分析比如在头部加入cookie 
      // webclient.headers.add("cookie", cookie); 
      //这样可能需要一些重载方法。根据需要写就可以了 

      //获取或设置用于对向 internet 资源的请求进行身份验证的网络凭据。 
      mywebclient.credentials = credentialcache.defaultcredentials;
      //如果服务器要验证用户名,密码 
      //networkcredential mycred = new networkcredential(struser, strpassword); 
      //mywebclient.credentials = mycred; 
      //从资源下载数据并返回字节数组。（加@是因为网址中间有"/"符号） 
      byte[] mydatabuffer = mywebclient.downloaddata(url);
      string strwebdata = encoding.default.getstring(mydatabuffer);

      //获取网页字符编码描述信息 
      match charsetmatch = regex.match(strwebdata, "<meta([^<]*)charset=([^<]*)\"", regexoptions.ignorecase | regexoptions.multiline);
      string webcharset = charsetmatch.groups[2].value.replace("\"", "");
      if (charset == null || charset == "")
        charset = webcharset;

      if (charset != null && charset != "" && encoding.getencoding(charset) != encoding.default)
        strwebdata = encoding.getencoding(charset).getstring(mydatabuffer);
      return strwebdata;
    }

    string getpictures(string data, string url)
    {
      matchcollection ps = regex.matches(data, @"<img\b[^<>]*?\bsrc[\s\t\r\n]*=[\s\t\r\n]*[""']?[\s\t\r\n]*(?<imgurl>[^\s\t\r\n""'<>]*)[^<>]*?/?[\s\t\r\n]*>");
      string s = string.empty;
      for (int i = 0; i < ps.count; i++)
      {
        pictures p = new pictures(ps[i].value, url);
        s += p.gethtml + "<br />" + environment.newline;
      }
      return s;
    }

    /// <summary>
    /// 图片实体
    /// 图片文件属性处理类
    /// </summary>
    public class pictures
    {
      public pictures(string strhtml, string baseurl)
      {
        _html = strhtml;
        uri u1 = new uri(baseurl);
        _doman = u1.host;
        _baseurl = u1.scheme + "://" + _doman;
        setsrc();
      }

      private string _html = string.empty;
      private string _baseurl = string.empty;
      private string _doman = string.empty;

      public string gethtml
      {
        get { return _html; }
      }

      public string alt
      {
        get
        {
          return getattribute("alt")[0];
        }
      }

      public string src
      {
        get
        {
          string s = getattribute("src")[0];
          return s;
        }
      }

      /// <summary>
      /// 根据基路径把相对路径转换成绝对径
      /// </summary>
      /// <param name="baseurl">基础路径</param>
      /// <param name="u">待转换的相对路径</param>
      /// <returns>绝对路径</returns>
      public string absurl(string baseurl, string u)
      {
        uri ub = new uri(baseurl);
        uri ua = new uri(ub, u);
        return ua.absoluteuri;
      }

      private void setsrc()
      {
        string strpattern = @"src[\s\t\r\n]*=[\s\t\r\n]*[""']?\s+[""']?";
        string src = getattribute("src")[0].tolower();
        if (!(src.indexof("http://") == 0 || src.indexof("https://") == 0) && _baseurl.length > 10)
        {
          src = absurl(_baseurl, src);
          string s = "src=\"" + src + "\"";
          _html = regex.replace(_html, strpattern, s);
        }
      }

      /// <summary>
      /// 获取html代码中标签属性
      /// </summary>
      /// <param name="strhtml">html代码</param>
      /// <param name="strattributename">属性名称</param>
      /// <returns>属性值集合</returns>
      private string[] getattribute(string strattributename)
      {
        list<string> lstattribute = new list<string>();
        string strpattern = string.format(
          @"{0}[\s\t\r\n]*=[\s\t\r\n]*[""']?\s+[""']?",
          strattributename
          );
        matchcollection matchs = regex.matches(_html, strpattern, regexoptions.ignorecase);
        foreach (match m in matchs)
        {
          lstattribute.add(m.value.split('=')[1].replace("\"", "").replace("'", ""));
        }
        if (lstattribute.count == 0) lstattribute.add("");
        return lstattribute.toarray();
      }
    }
  }

调用：

new webpageimage().getimages(http://www.sina.com)

结果：

以上就是本文的全部内容，希望对大家的学习有所帮助。

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

Blazor server side 自家的一些开源的, 实用型项目的进度之 CEF客户端

距离上次提出 [Asp.Net Core] Blazor Server Side 扩展用途 - 配合CEF来制作带浏览器核心的客户端软件的想法后,&#... [阅读全文]
武装你的WEBAPI-OData入门

本文属于OData系列目录（可能会有后续修改） "武装你的WEBAPI OData入门" 武装你的WEBAPI OData便捷查询武装你的WEBAP... [阅读全文]
.NET IoC模式依赖反转(DIP)、控制反转(Ioc)、依赖注入(DI)

依赖倒置原则(DIP) 依赖倒置(Dependency Inversion Principle,缩写DIP)是面向对象六大基本原则之一。他是指一种特定的... [阅读全文]
DevExpress+Winform（四）

视频：https://www.bilibili.com/video/BV15x411x7WN?p=5 新建Devexpress Winform Blan... [阅读全文]
Jenkins之Nunit的应用

一、在Jenkins中安装Nunit插件进入jenkins的插件管理模块，下载Nunit插件。此步骤不做截图说明二、引用nunit.console的nu... [阅读全文]
vue+.netcore可支持业务代码扩展的开发框架 VOL.Vue 2.0版本发布

框架介绍这是一个基于vue、element-ui、iview、.netcore3.1 可支持前端、后台动态扩展业务代码快速开发框架。框架内置定制开发... [阅读全文]
微信退款（在.net core 用http方式请求）

微信JSAPI支付申请退款接口地址接口链接：https://api.mch.weixin.qq.com/secapi/pay/refund 是否需... [阅读全文]
Owin Katana 的底层源码分析

最近看了一下开源项目asp.net katana，感觉公开的接口非常的简洁优雅，channel 9 说是受到node.js的启发设计的，Katana是一... [阅读全文]
jenkins发布application且并运行

一、发布配置差异配置：编译内容编译目标NetWorkClient/KJ90NetClient.csproj编译命令/t:build/p:Configur... [阅读全文]
WPF 简易日期控件魔改ListBox

先上截图修正：应该将SetTime方法修改为，行号为207行开始修改 var nk = Day_of_week(year, month, 1); i... [阅读全文]

网友评论


验证码：

asp.net采集页面上所有图像图片资源的具体方法

2017年12月12日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论