当前位置:天才代写 > tutorial > 网页教程 > 正则表达式删除指定的HTML 标签

正则表达式删除指定的HTML 标签

2018-05-18 08:00 星期五 所属: 网页教程 浏览:917

  抓取某网页的数据后,以描述为例,要是按原样显示,有可能会因为它里面包含没有闭合的html标签,格式就被打乱了,也可能内部用了HTML标签,把预订的格式打乱。要是把里面的HTML标签全部删除,会造成阅读上的困难,所以最好删除一部分,保留一部分.

  (一)正则表达式里,非常容易理解判断包含某些字符串,不过就很难判断不包含某些字符串。(注意:是字符串,不是字符,是某些,而不是某个)

正则表达式删除指定的HTML 标签_html基础_html教程_课课家

  这个正则是判断HTML标签中不包含li/ul/a/img/br/span/b的,按以上要求,就是要删除列出的HTML标签。

  (?!exp)匹配后面跟的并不是exp位置

  /?\\s?把它写到最前面的“<”后面,测试失败了。

  (二)下面是简单的函数,把要保留的TAG串起来,从而生成正则表达式,再将不需要的TAG删除。

简单的函数

  改正:

简单的函数

  以上正则,要是保留了li,实际运行就会发现link也保留下来,这样也会把addr保留下来,解决办法就是加\\b进行断言。

  以上就是关于正则表达式删除指定的HTML标签的全部内容了。通过解读这篇文章后,相信大家会对html基础知识有更多的了解,想要了解更多的话,可以关注我们的网站:课课家教育。

 

    关键字:

天才代写-代写联系方式