当前位置：移动技术网 > IT编程>开发语言>.net > c#中过滤html的正则表达式

c#中过滤html的正则表达式

2018年04月28日 | 移动技术网IT编程 | 我要评论

实现代码

///  <summary>
///  去除html标记
///  </summary>
///  <param  name=”nohtml”>包括html的源码  </param>
///  <returns>已经去除后的文字</returns>
public static string nohtml(string htmlstring)
{
  //删除脚本
  htmlstring = regex.replace(htmlstring, @"<script[^>]*?>.*?</script>", "",
  regexoptions.ignorecase);
  //删除html 
  htmlstring = regex.replace(htmlstring, @"<(.[^>]*)>", "",
  regexoptions.ignorecase);
  htmlstring = regex.replace(htmlstring, @"([\r\n])[\s]+", "",
  regexoptions.ignorecase);
  htmlstring = regex.replace(htmlstring, @"–>", "", regexoptions.ignorecase);
  htmlstring = regex.replace(htmlstring, @"<!–.*", "", regexoptions.ignorecase);
  htmlstring = regex.replace(htmlstring, @"&(quot|#34);", "\"",
  regexoptions.ignorecase);
  htmlstring = regex.replace(htmlstring, @"&(amp|#38);", "&",
  regexoptions.ignorecase);
  htmlstring = regex.replace(htmlstring, @"&(lt|#60);", "<",
  regexoptions.ignorecase);
  htmlstring = regex.replace(htmlstring, @"&(gt|#62);", ">",
  regexoptions.ignorecase);
  htmlstring = regex.replace(htmlstring, @"&(nbsp|#160);", "  ",
  regexoptions.ignorecase);
  htmlstring = regex.replace(htmlstring, @"&(iexcl|#161);", "\xa1", regexoptions.ignorecase);
  htmlstring = regex.replace(htmlstring, @"&(cent|#162);", "\xa2", regexoptions.ignorecase);
  htmlstring = regex.replace(htmlstring, @"&(pound|#163);", "\xa3", regexoptions.ignorecase);
  htmlstring = regex.replace(htmlstring, @"&(copy|#169);", "\xa9", regexoptions.ignorecase);
  htmlstring = regex.replace(htmlstring, @"&#(\d+);", "", regexoptions.ignorecase);
  htmlstring.replace("<", "");
  htmlstring.replace(">", "");
  htmlstring.replace("\r\n", "");
  htmlstring = httpcontext.current.server.htmlencode(htmlstring).trim();
  return htmlstring;
}

c#过滤html标签及空格

public static string filterhtml(string htmlstr)
    {
      if (!string.isnullorempty(htmlstr))
        return system.text.regularexpressions.regex.replace(htmlstr, "<[^>]*>| ", "");
      else
        return "";
    }

写一个静态方法移除html标签

#region
///  <summary>
///  移除html标签
///  </summary>
///  <param  name="htmlstr">htmlstr</param>
public static string parsetags(string htmlstr)
{
 return system.text.regularexpressions.regex.replace(htmlstr, "<[^>]*>", "");
}
#endregion

取出文本中的图片地址

#region
///  <summary>
///  取出文本中的图片地址
///  </summary>
///  <param  name="htmlstr">htmlstr</param>
public static string getimgurl(string htmlstr)
{
 string str = string.empty;
 string spattern = @"^<img\s+[^>]*>";
 regex r = new regex(@"<img\s+[^>]*\s*src\s*=\s*([']?)(?<url>\s+)'?[^>]*>",
  regexoptions.compiled);
 match m = r.match(htmlstr.tolower());
 if (m.success)
  str = m.result("${url}");
 return str;
}
#endregion

提取html代码中文字的c#函数

///  <summary>
///  提取html代码中文字的c#函数
///  </summary>
///  <param  name="strhtml">包括html的源码  </param>
///  <returns>已经去除后的文字</returns>
using system;
using system.text.regularexpressions;
public class striphtmltest
{
 public static void main()
 {
  string s = striphtml(
   "<html><head><title>中国石龙信息平台</title></head><body>faddfs龙信息平台</body></html>");
  console.writeline(s);
 }

 public static string striphtml(string strhtml)
 {
  string[]aryreg =
  {
   @"<script[^>]*?>.*?</script>",

   @"<(\/\s*)?!?((\w+:)?\w+)(\w+(\s*=?\s*(([""'])(\\["
    "'tbnr]|[^\7])*?\7|\w+)|.{0})|\s)*?(\/\s*)?>", @"([\r\n])[\s]+", @
    "&(quot|#34);", @"&(amp|#38);", @"&(lt|#60);", @"&(gt|#62);", @
    "&(nbsp|#160);", @"&(iexcl|#161);", @"&(cent|#162);", @"&(pound|#163);",
    @"&(copy|#169);", @"&#(\d+);", @"-->", @"<!--.*\n"
  };

  string[]aryrep =
  {
   "", "", "", "\"", "&", "<", ">", "  ", "\xa1", //chr(161),
   "\xa2", //chr(162),
   "\xa3", //chr(163),
   "\xa9", //chr(169),
   "", "\r\n", ""
  };

  string newreg = aryreg[0];
  string stroutput = strhtml;
  for (int i = 0; i < aryreg.length; i++)
  {
   regex regex = new regex(aryreg[i], regexoptions.ignorecase);
   stroutput = regex.replace(stroutput, aryrep[i]);
  }
  stroutput.replace("<", "");
  stroutput.replace(">", "");
  stroutput.replace("\r\n", "");
  return stroutput;
 }
}

tempcontent 表示包含有html的字符串；
tempcontent = system.text.regularexpressions.regex.replace(tempcontent,"<[^>]+>","");至少一个
tempcontent = system.text.regularexpressions.regex.replace(tempcontent,"<[^>]*>","");任意个

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

《CTF特训营》web部分读书笔记（二）跨站脚本攻击（XSS）

继续阅读《CTF特训营》web部分，本节是XSS [阅读全文]
搬砖笔记-Django的DEBUG模式的配置错误

调试模式的功能代码出错时，会在网页和控制台显示输出错误信息。但是生产环境中，需要把debug关闭，即false。... [阅读全文]
【计网】第五章部分知识点

差错检测和纠错技术发送方接受的挑战：为避免比特差错，使用差错检测和纠错比特（error-detection an... [阅读全文]
自行实现 API 请求认证

在 HTTP 的 API 请求，作为后台服务需要知道请求者是谁，当然对 Django 项目有好多现成的解决方案 ... [阅读全文]
移动端双Token免登录（附代码）

参考自：https://blog.csdn.net/huweijian5/article/details/889... [阅读全文]
LoRa在景区的人员安全管理方案

近些年徒步穿越偏远山区、在景区举行夏令营的各类活动越来越多，对于景区管理者或主办方来说，如何更好的肩负起参与人员... [阅读全文]
$国密SM1\ SM2\ SM3\ SM4\ SSF33算法和国际RSA算法的对应关系$

国密SM1\ SM2\ SM3\ SM4\ SSF33算法和国际RSA算法的对应关系

转载自https://blog.csdn.net/hcnetbee/article/details/536925... [阅读全文]
根据AD账号直接单点登录到第三方系统

上周在做一个单点登录的任务，今天有时间就整理一下，当时遇到的问题很多，我会慢慢的回忆记录下来。首先这个单点登录我... [阅读全文]
服务器硬件防火墙与软件防火墙的作用和区别

随着近几年网络数据安全的要求越来越高，很多初次使用服务器的客户经常问我们：你们的机房有防火墙吗?我们还需要再部署... [阅读全文]
rsync的守护进程模式rsync服务的搭建：匿名登录

rsync的守护进程模式rsync服务的搭建：匿名登录守护进程模式是服务器和用户之间的数据的传输rsync的服务... [阅读全文]

网友评论


验证码：

c#中过滤html的正则表达式

2018年04月28日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论