抓取某网页的数据后,以描述为例,要是按原样显示,有可能会因为它里面包含没有闭合的html标签,格式就被打乱了,也可能内部用了HTML标签,把预订的格式打乱。要是把里面的HTML标签全部删除,会造成阅读上的困难,所以最好删除一部分,保留一部分.
(一)正则表达式里,非常容易理解判断包含某些字符串,不过就很难判断不包含某些字符串。(注意:是字符串,不是字符,是某些,而不是某个)
这个正则是判断HTML标签中不包含li/ul/a/img/br/span/b的,按以上要求,就是要删除列出的HTML标签。
(?!exp)匹配后面跟的并不是exp位置
/?\\s?把它写到最前面的“<”后面,测试失败了。
(二)下面是简单的函数,把要保留的TAG串起来,从而生成正则表达式,再将不需要的TAG删除。
改正:
以上正则,要是保留了li,实际运行就会发现link也保留下来,这样也会把addr保留下来,解决办法就是加\\b进行断言。
以上就是关于正则表达式删除指定的HTML标签的全部内容了。通过解读这篇文章后,相信大家会对html基础知识有更多的了解,想要了解更多的话,可以关注我们的网站:课课家教育。