python 字符串里有中文与html代码,怎么去掉html代码
你可以使用Python的内置字符串操作和正则表达式来去除HTML代码。以下是一个示例代码,它将删除字符串中的所有HTML标记和Unicode字符:
import re # 字符串示例 my_string = "这是一个 <b>示例</b> 字符串,其中包含<p>一些</p> HTML 代码和中文字符 – 删除它们!" # 删除HTML标记和Unicode字符 no_tags = re.sub('<[^<]+?>', '', my_string) # 删除HTML标记 no_unicode = no_tags.encode('ascii', 'ignore').decode('utf-8') # 删除Unicode字符 print(no_unicode) 输出结果将是: 这是一个 示例 字符串,其中包含一些 HTML 代码和中文字符 删除它们!
这个示例代码使用了Python的re模块来删除HTML标记。正则表达式 <[^<]+?> 表示匹配任何以 < 开头、以 > 结尾的字符串,其中 [^<]+ 表示匹配除了 < 之外的任何字符,+ 表示至少匹配一个字符。encode 和 decode 函数是用来删除Unicode字符的。