当前位置:首页 > python > 正文内容

python 字符串里有中文与html代码,怎么去掉html代码

zhangsir3年前 (2023-03-29)python271

你可以使用Python的内置字符串操作和正则表达式来去除HTML代码。以下是一个示例代码,它将删除字符串中的所有HTML标记和Unicode字符:

import re
# 字符串示例
my_string = "这是一个 <b>示例</b> 字符串,其中包含<p>一些</p> HTML 代码和中文字符 &#8211; 删除它们!"
# 删除HTML标记和Unicode字符
no_tags = re.sub('<[^<]+?>', '', my_string)  # 删除HTML标记
no_unicode = no_tags.encode('ascii', 'ignore').decode('utf-8')  # 删除Unicode字符
print(no_unicode)
输出结果将是:
这是一个 示例 字符串,其中包含一些 HTML 代码和中文字符  删除它们!

这个示例代码使用了Python的re模块来删除HTML标记。正则表达式 <[^<]+?> 表示匹配任何以 < 开头、以 > 结尾的字符串,其中 [^<]+ 表示匹配除了 < 之外的任何字符,+ 表示至少匹配一个字符。encode 和 decode 函数是用来删除Unicode字符的。


zhangsir版权h8防采集https://mianka.xyz

扫描二维码推送至手机访问。

版权声明:本文由zhangsir or zhangmaam发布,如需转载请注明出处。

本文链接:https://www.mianka.xyz/post/161.html

分享给朋友:

“python 字符串里有中文与html代码,怎么去掉html代码” 的相关文章

如何向python 列表中添加元素

Python添加元素有三种方法:append、extend、insertappend:向列表添加元素,添加到尾部实例:list=[“my”,“name”,“is”,“mark”,“age”,18] print(“添加前:”,list) list.append(“test”) print(“添加...

django框架的安装和创建第一个项目

安装Djangopip install -i https://pypi.douban.com/simple django创建项目django-admin startproject 项目名称例如 django-admin startproje...

python selenium find_element_by_xpath 方法已经被弃用的解决办法

背景:在使用最新3.10.4Python版本时候,用selenium进行xpath定位元素,编译器提示:DeprecationWarning:find_element_by_xpath is deprecated. Please use find_element(by=By.XPATH, value...

计算机学习视频教程

人工智能机器学习:Python&R实践课程介绍:https://www.aihorizon.cn/1百度网盘地址: https://pan.baidu.com/s/1a743NTKFRjsgexMTagWooA?pwd=e39j动手使用Python进行自然语言处理(NLP)课程介绍:http...

python 实现快速扣背景图功能

一,实现快速扣背景图需要rembg这个三方库#引入rembg库 from rembg import remove #素材 input_path = 'input.jpg' #效果 output_path =&nbs...

python 使用PIL库进行验证码清晰处理

python 使用PIL库进行验证码清晰处理from PIL import Image import sys import os sys.setrecursionlimit(1000000) pixel_list = []...