当前位置:首页 > python > 正文内容

python 字符串里有中文与html代码,怎么去掉html代码

zhangsir3年前 (2023-03-29)python328

你可以使用Python的内置字符串操作和正则表达式来去除HTML代码。以下是一个示例代码,它将删除字符串中的所有HTML标记和Unicode字符:

import re
# 字符串示例
my_string = "这是一个 <b>示例</b> 字符串,其中包含<p>一些</p> HTML 代码和中文字符 &#8211; 删除它们!"
# 删除HTML标记和Unicode字符
no_tags = re.sub('<[^<]+?>', '', my_string)  # 删除HTML标记
no_unicode = no_tags.encode('ascii', 'ignore').decode('utf-8')  # 删除Unicode字符
print(no_unicode)
输出结果将是:
这是一个 示例 字符串,其中包含一些 HTML 代码和中文字符  删除它们!

这个示例代码使用了Python的re模块来删除HTML标记。正则表达式 <[^<]+?> 表示匹配任何以 < 开头、以 > 结尾的字符串,其中 [^<]+ 表示匹配除了 < 之外的任何字符,+ 表示至少匹配一个字符。encode 和 decode 函数是用来删除Unicode字符的。


zhangsir版权f2防采集https://mianka.xyz

扫描二维码推送至手机访问。

版权声明:本文由zhangsir or zhangmaam发布,如需转载请注明出处。

本文链接:https://www.mianka.xyz/post/161.html

分享给朋友:

“python 字符串里有中文与html代码,怎么去掉html代码” 的相关文章

Selenium添加Cookie来实现自动登录

Selenium添加Cookie来实现自动登录第一步获取你登录的cookie,以csdn为例from selenium import webdriver driver = webdriver.Chrome() driver.get('...

使用pyautogui进行屏幕捕捉实现自动化操作

import pyautogui import time # # 获取基本信息 # # 屏幕大小 # size = pyautogui.size() # print(size) #&nbs...

解决Django的request.POST获取不到请求参数的问题

这个是Django自身的问题:只要在请求头的添加"content-type":'application/x-www-form-urlencoded'就行。...

python 给电脑设置闹钟

python会自动触发windows桌面通知,提示重要事项,比如说:您已工作两小时,该休息了我们可以设定固定时间提示,比如隔10分钟、1小时等用到的第三方库:win10toast - 用于发送桌面通知的工具from win10toast import ToastNoti...

python—pymysql的增删改查操作实例展示

Python使用pymysql连接数据库1.导包import pymysql2.连接数据库connection = pymysql.connect(     host='',  # ...

Linux系统下使用Python+selenium+谷歌浏览器下载文件

from seleniumwire import webdriver import time ch_options = webdriver.ChromeOptions() ch_options.add_argument("-...