当前位置：首页 > python > 正文内容

python 字符串里有中文与html代码，怎么去掉html代码

zhangsir3年前 (2023-03-29)python395

你可以使用Python的内置字符串操作和正则表达式来去除HTML代码。以下是一个示例代码，它将删除字符串中的所有HTML标记和Unicode字符：

import re
# 字符串示例
my_string = "这是一个 <b>示例</b> 字符串，其中包含<p>一些</p> HTML 代码和中文字符 &#8211; 删除它们！"
# 删除HTML标记和Unicode字符
no_tags = re.sub('<[^<]+?>', '', my_string)  # 删除HTML标记
no_unicode = no_tags.encode('ascii', 'ignore').decode('utf-8')  # 删除Unicode字符
print(no_unicode)
输出结果将是：
这是一个 示例 字符串，其中包含一些 HTML 代码和中文字符  删除它们！

这个示例代码使用了Python的re模块来删除HTML标记。正则表达式 <[^<]+?> 表示匹配任何以 < 开头、以 > 结尾的字符串，其中 [^<]+ 表示匹配除了 < 之外的任何字符，+ 表示至少匹配一个字符。encode 和 decode 函数是用来删除Unicode字符的。

zhangsir版权h8防采集https://mianka.xyz

扫描二维码推送至手机访问。

本文链接：https://www.mianka.xyz/post/161.html

分享给朋友：

返回列表

上一篇：python 数据写入文本中文乱码

下一篇：怎么给网站安装ja3指纹库呢

“python 字符串里有中文与html代码，怎么去掉html代码” 的相关文章

Python怎么获取命令行参数

输入:“ import sys”,导入 sys 模块。插入语句:“print(sys.argv)”,打印获取的命令行参数。...

python+selenium元素定位的8种方法

定位元素，selenium提供了8中元素定位方法：（1）find_element_by_id() ：html规定，id在html中必须是唯一的，有点类似于身份证号（2）find_element_by_name() ：html规定，name用来指定元素的名称，有点类似于人名（3）find_elemen...

python之seleniumwire获取network（网络）信息

python之seleniumwire获取请求头参数import time from seleniumwire import webdriver # 创建Chrome驱动程序的新实例 driver = webdriver...

Python三方库ddddocr实现验证码识别

Python三方库ddddocr实现验证码识别环境要求python >= 3.8安装三方库pip install ddddocr -i https://pypi.tuna.tsinghua.edu.cn/simple参数说明：参数名参数类型默认值说明us...

pip安装三方库国内的一些镜像站点推荐

pip 国内的一些镜像站点推荐镜像套路：使用cmd；输入命令pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple 包名即可开始安装。清华：https://pypi.tuna.tsinghua.edu.cn/simple 阿里云：http...

解决Django的request.POST获取不到请求参数的问题

这个是Django自身的问题：只要在请求头的添加"content-type":'application/x-www-form-urlencoded'就行。...

python 字符串里有中文与html代码，怎么去掉html代码

“python 字符串里有中文与html代码，怎么去掉html代码” 的相关文章

Python怎么获取命令行参数

python+selenium元素定位的8种方法

python之seleniumwire获取network（网络）信息

Python三方库ddddocr实现验证码识别

pip安装三方库 国内的一些镜像站点推荐

解决Django的request.POST获取不到请求参数的问题

Copyright My WebSite.Some Rights Reserved.

pip安装三方库国内的一些镜像站点推荐