当前位置：移动技术网 > IT编程>开发语言>.net > 三种asp.net 抓取网页源码实现(asp.net采集，读取源码)

三种asp.net 抓取网页源码实现(asp.net采集，读取源码)

2018年11月03日 | 移动技术网IT编程 | 我要评论

店小二小白脸,快乐大本营李念,周杰伦的歌词

写法1 比较推荐

/// <summary>

/// 用httpwebrequest取得网页

/// 对于带bom的网页很有效，不管是什么编码都能正确识别

/// </summary>

/// <param name="url">网页地址" </param>

/// <returns>返回网页源文件</returns>

public static string gethtmlsource2(string url)

{

//处理内容

string html = "";

httpwebrequest request = (httpwebrequest)webrequest.create(url);

request.accept = "*/*"; //接受任意文件

request.useragent = "mozilla/4.0 (compatible; msie 6.0; windows nt 5.2; .net clr 1.1.4322)"; // 模拟使用ie在浏览 https://www.52m.com

request.allowautoredirect = true;//是否允许302

//request.cookiecontainer = new cookiecontainer();//cookie容器，

request.referer = url; //当前页面的引用

httpwebresponse response = (httpwebresponse)request.getresponse();

stream stream = response.getresponsestream();

streamreader reader = new streamreader(stream, encoding.default);

html = reader.readtoend();

stream.close();

return html;

}

写法2

using system;

using system.collections.generic;

using system.linq;

using system.web;

using system.io;

using system.text;

using system.net;

namespace mysql

{

public class gethttpdata

{

public static string gethttpdata2(string url)

{

string sexception = null;

string srslt = null;

webresponse owebrps = null;

webrequest owebrqst = webrequest.create(url);

owebrqst.timeout = 50000;

try

{

owebrps = owebrqst.getresponse();

}

catch (webexception e)

{

sexception = e.message.tostring();

}

catch (exception e)

{

sexception = e.tostring();

}

finally

{

if (owebrps != null)

{

streamreader ostreamrd = new streamreader(owebrps.getresponsestream(), encoding.getencoding("utf-8"));

srslt = ostreamrd.readtoend();

ostreamrd.close();

owebrps.close();

}

return srslt;

}

写法3

public static string gethtml(string url, params string [] charsets)//url是要访问的网站地址，charset是目标网页的编码，如果传入的是null或者""，那就自动分析网页的编码

{

try

{

string charset = null;

if (charsets.length == 1) {

charset = charsets[0];

}

webclient mywebclient = new webclient(); //创建webclient实例mywebclient

// 需要注意的：

//有的网页可能下不下来，有种种原因比如需要cookie,编码问题等等

//这是就要具体问题具体分析比如在头部加入cookie

// webclient.headers.add("cookie", cookie);

//这样可能需要一些重载方法。根据需要写就可以了

//获取或设置用于对向 internet 资源的请求进行身份验证的网络凭据。

mywebclient.credentials = credentialcache.defaultcredentials;

//如果服务器要验证用户名,密码

//networkcredential mycred = new networkcredential(struser, strpassword);

//mywebclient.credentials = mycred;

//从资源下载数据并返回字节数组。（加@是因为网址中间有"/"符号）

byte[] mydatabuffer = mywebclient.downloaddata(url);

string strwebdata = encoding.default.getstring(mydatabuffer);

//获取网页字符编码描述信息

match charsetmatch = regex.match(strwebdata, "<meta([^<]*)charset=([^<]*)\"", regexoptions.ignorecase | regexoptions.multiline);

string webcharset = charsetmatch.groups[2].value;

if (charset == null || charset == "")

charset = webcharset;

if (charset != null && charset != "" && encoding.getencoding(charset) != encoding.default)

{

strwebdata = encoding.getencoding(charset).getstring(mydatabuffer);

}

else {

strwebdata = encoding.getencoding("utf-8").getstring(mydatabuffer);

}

return strwebdata;

}

catch (exception e) { return ""; }

}

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

详解.NET Core 3.0 里新的JSON API

为什么需要新的 json api ？json.net 大家都用过，老版本的 asp.net core 也依赖于 json.net 。然而这个依赖就会引起一些版... [阅读全文]
Net Core Web Api项目与在NginX下发布的方法

前言本文将介绍net core的一些基础知识和如何nginx下发布net core的webapi项目。测试环境操作系统：windows 10 开发工具：v... [阅读全文]
浅谈ASP.NET Core 中jwt授权认证的流程原理

1，快速实现授权验证什么是 jwt ？为什么要用 jwt ？jwt 的组成？这些百度可以直接找到，这里不再赘述。实际上，只需要知道 jwt 认证模式是使用一段 ... [阅读全文]
.Net Core 实现图片验证码的实现示例

记录自己的学习，参考了网上各位大佬的技术，往往在登录的时候需要使用到验证码来进行简单的一个校验，这边使用在.net core上进行生成图片二维码思路很简单=》 ... [阅读全文]
asp.net core3.1 引用的元包dll版本兼容性问题解决方案

自从.netcore 3.1出来后，大家都想立马升级到最新版本。我也是如此，微软也对.netcore 3.1 的官方组件不断升级，几乎每隔几天就会有部分元包可以... [阅读全文]
IdentityServer4实现.Net Core API接口权限认证(快速入门)

什么是identityserver4官方解释：identityserver4是基于asp.net core实现的认证和授权框架，是对openid connect... [阅读全文]
从ASP.NET Core3.1迁移到5.0的方法

3月中旬，微软官方已经发布了dotnet 5的第一个预览版：5.0.0-preview.1。dotnet core经过前几个版本的发展和沉淀，到3.1已经基本趋... [阅读全文]
.NET Core中创建和使用NuGet包的示例代码

在.net core的项目中，如果我们要在项目中引用其它dll文件，不建议直接在项目引用中添加dll文件（虽然在.net core项目中也可以这么做），建议是去... [阅读全文]
ASP.NET Core MVC通过IViewLocationExpander扩展视图搜索路径的实现

iviewlocationexpander api expandviewlocations razor视图路径，视图引擎会搜索该路径. populateva... [阅读全文]
ASP.NET Core中的Controller使用示例

asp.net core出现之前我们实现的controller，mvc都继承自controller基类，webapi的话继承自apicontroller。现在a... [阅读全文]

网友评论


验证码：

三种asp.net 抓取网页源码实现(asp.net采集，读取源码)

2018年11月03日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论