当前位置：移动技术网 > IT编程>开发语言>c# > C#使用for循环移除HTML标记

C#使用for循环移除HTML标记

2019年07月18日 | 移动技术网IT编程 | 我要评论

移除一段文字中的html标记，以消除其中包含的样式和段落等，最常用的办法可能就是正则表达式了。但是请注意，正则表达式并不能处理所有的html文档，所以有时采用一个迭代的方式会更好，如for循环。

看下面的代码：

using system;
using system.text.regularexpressions;
/// <summary>
/// methods to remove html from strings.
/// </summary>
public static class htmlremoval
{
/// <summary>
/// remove html from string with regex.
/// </summary>
public static string striptagsregex(string source)
{
return regex.replace(source, "<.*?>", string.empty);
}
/// <summary>
/// compiled regular expression for performance.
/// </summary>
static regex _htmlregex = new regex("<.*?>", regexoptions.compiled);
/// <summary>
/// remove html from string with compiled regex.
/// </summary>
public static string striptagsregexcompiled(string source)
{
return _htmlregex.replace(source, string.empty);
}
/// <summary>
/// remove html tags from string using char array.
/// </summary>
public static string striptagschararray(string source)
{
char[] array = new char[source.length];
int arrayindex = 0;
bool inside = false;
for (int i = 0; i < source.length; i++)
{
char let = source[i];
if (let == '<')
{
inside = true;
continue;
}
if (let == '>')
{
inside = false;
continue;
}
if (!inside)
{
array[arrayindex] = let;
arrayindex++;
}
}
return new string(array, 0, arrayindex);
}
}

代码中提供了两种不同的方式来移除给定字符串中的html标记，一个是使用正则表达式，一个是使用字符数组在for循环中进行处理。来看一下测试的结果：

using system;
using system.text.regularexpressions;
class program
{
static void main()
{
const string html = "<p>there was a <b>.net</b> programmer " +
"and he stripped the <i>html</i> tags.</p>";
console.writeline(htmlremoval.striptagsregex(html));
console.writeline(htmlremoval.striptagsregexcompiled(html));
console.writeline(htmlremoval.striptagschararray(html));
}
}

　　输出结果如下：

there was a .net programmer and he stripped the html tags.
there was a .net programmer and he stripped the html tags.
there was a .net programmer and he stripped the html tags.

　　上述代码中分别调用了htmlremoval类中的三个不同的方法，均返回了相同的结果，即去除了给定字符串中的html标记。推荐使用第二种方法，即直接引用一个预先定义好的regexoptions.compiled的正则表达式对象，它比第一种方法速度更快。但是regexoptions.compiled有一些缺点，在某些情况下它的启动时间会增加数十倍。具体的内容可以查看下面这两篇文章：

regexoption.compiled
regex performance

　　通常，正则表达式的执行效率并不是最高的，所以htmlremoval类中给定了另一种方法，使用字符数组来处理字符串。测试程序提供了1000个html文件，每个html文件中有大约8000个字符，所有的文件均通过file.readalltext方式进行读取，测试结果显示字符数组的方式执行速度是最快的。

performance test for html removal

htmlremoval.striptagsregex: 2404 ms
htmlremoval.striptagsregexcompiled: 1366 ms
htmlremoval.striptagschararray: 287 ms [最快]

file length test for html removal

file length before: 8085 chars
htmlremoval.striptagsregex: 4382 chars
htmlremoval.striptagsregexcompiled: 4382 chars
htmlremoval.striptagschararray: 4382 chars

　　所以，使用字符数组来处理大批量的文件时可以节省时间。在字符数组方法中，仅仅只是将非html标记的字符添加到数组缓冲区，为了提高效率，它使用字符数组和一个新的字符串构造器来接收字符数组和范围，这个会比使用stringbuilder速度更快。

对于自关闭的html标记

　　在xhtml中，某些标记并不具有独立的关闭标签，如<br/>，<img/>等。上述代码应该能够正确处理自关闭的html标记。下面是一些支持的html标记，注意，正则表达式方法可能无法正确处理无效的html标记。

supported tags

<img src="" />
<img src=""/>
<br />
<br/>
< div >
<!-- -->

html文档中的注释

　　本文给出的代码对移除html文档注释中的html标记可能会失效。有些时候，注释中可能会包含一些无效的html标记，在处理时这些html标记不会被完全移除。但是，扫描这些不正确的html标记有时可能是必要的。

如何验证

　　有许多种方法可以用来验证xhtml，我们可以采用和上面代码相同的方式来进行迭代。一个简单的方法是对'<'和'>'进行计数，从而确定它们是否匹配，或者采用正则表达式进行匹配。这里有一些资源介绍了这些方法：

html brackets: validation

validate xhtml

　　有许多方法都可以用来去除给定字符串中的html标记，它们返回的结果也都是正确的。毫无疑问，采用字符数组进行迭代的效率最高。

以上所述是小编给大家介绍的c#使用for循环移除html标记，希望对大家有所帮助

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

使用Visual Studio2019创建C#项目(窗体应用程序、控制台应用程序、Web应用程序)

一、vs的开发环境首先你得安装了vs2019，然后确认下下面三个组件是否存在，如果没有要下载一下。vs2019的安装可参考。二、创建c#窗体应用程序打开vs可以... [阅读全文]
C# 可空类型的具体使用

在项目中我们经常会遇到可为空类型，那么到底什么是可为空类型呢？下面我们将从4个方面为大家剖析。1、可空类型基础知识顾名思义，可空类型指的就是某个对象类型可以为空... [阅读全文]
C#存储相同键多个值的Dictionary实例详解

涉及到两个问题：一、访问磁盘中文件夹、文件夹下面的文件夹先看一下磁盘文件夹结构c盘下面有个根文件夹savefile，savefile下面有两个子文件夹分别为，2... [阅读全文]
vs2019安装和使用详细图文教程

vs2019已经在4月2日正式发布，vs2019发布会请看这个链接：vs2019发布活动vs2019和vs2017一样强大，项目兼容，不用互相删除，而且c/c+... [阅读全文]
C#实现猜数字小游戏

本文实例为大家分享了c#实现猜数字小游戏的具体代码，供大家参考，具体内容如下效果如图：代码：using system;using system.collecti... [阅读全文]
Visual Studio 中自定义代码片段的方法

第一步、打开 visual studio code，按ctrl + shift + p，输入：configure user snippets，选择 prefer... [阅读全文]
C#实现简单俄罗斯方块

最近在看《.net游戏编程入门经典 c#篇》第一章介绍了如何制作俄罗斯方块，自己试了试按照书上的步骤，可算是完成了。于是写下这篇文章留作纪念。1.类的设计在充... [阅读全文]
C#实现获取本地内网(局域网)和外网(公网)IP地址的方法分析

本文实例讲述了c#实现获取本地内网(局域网)和外网(公网)ip地址的方法。分享给大家供大家参考，具体如下：1、获取本机的ip地址集合：/// <summa... [阅读全文]
asp.net实现遍历Request的信息操作示例

本文实例讲述了asp.net实现遍历request的信息操作。分享给大家供大家参考，具体如下：#需求：在服务端获取从客户端发送过来的所有数据信息；#方案：1、服... [阅读全文]
浅谈Visual Studio 2019 Vue项目的目录结构

visual studio 2019 vue项目创建成功后可看到如下结构 visual studio 2019配置vue项目具体文件结构如下图模版使用入口文件... [阅读全文]

网友评论


验证码：

C#使用for循环移除HTML标记

2019年07月18日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论