当前位置：首页 > python > 正文内容

如何用python获取一个网页的所有连接

zhangsir3年前 (2022-09-21)python459

如何用python获取一个网页的所有连接

很简单直接上代码：

# -*- coding: utf-8 -*-
'''
如何用python获取一个网页的所有连接
author:zhangsir
'''
import requests
import time
from lxml import etree
#网址
url = 'https://www.baidu.com'
#请求头
headers={
"Host": "www.baidu.com",
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36",
"Cookie": "BIDUPSID=C7465C07C18C65C97A99CA9252B157C5; PSTM=1663725617; BAIDUID=C7465C07C18C65C93CEFB95934D4AD90:FG=1; BD_HOME=1; H_PS_PSSID=36558_36462_36921_37300_36885_37345_36569_37405_37261_26350_37285_22157_37231; BD_UPN=1a314753; BAIDUID_BFESS=C7465C07C18C65C93CEFB95934D4AD90:FG=1; BA_HECTOR=84al0lal2184a4ah810lo25o1hiks0j19; ZFY=2znAwD2OEqUOkcGnGOgJBJQB89SW7H2KCibOnac:ALc4:C"
}
#爬虫
a = requests.get(url=url,headers=headers)
#获取源码
b = a.text
#转成lxml需要的格式
html = etree.HTML(b)
#获取a标签的所有连接
link = html.xpath('//a/@href')
#去重
list2 = list(set(link))
#打印
print(list2)

zhangsir版权g4防采集https://mianka.xyz

扫描二维码推送至手机访问。

本文链接：https://www.mianka.xyz/post/31.html

标签: python

分享给朋友：

返回列表

上一篇：python+selenium元素定位的8种方法

下一篇：Selenium添加Cookie来实现自动登录

“如何用python获取一个网页的所有连接” 的相关文章

权大师商标查询api

''' data:2022-10-15 autor:zhangsir 权大师商标查询api ''' import requests import json import time import h...

python 实现快速扣背景图功能

一，实现快速扣背景图需要rembg这个三方库#引入rembg库 from rembg import remove #素材 input_path = 'input.jpg' #效果 output_path =&nbs...

python 使用PIL库进行验证码清晰处理

python 使用PIL库进行验证码清晰处理from PIL import Image import sys import os sys.setrecursionlimit(1000000) pixel_list = []...

Linux之python版本升级

四、python3升级步骤1、下载安装包wget https://www.python.org/ftp/python/3.8.8/Python-3.8.8.tgz2、解压软件包tar -zxvf Python-3.8.8.tgz3、预编译注意在编译结束后会有提示&quo...

用python写个递归函数

递归是一种非常有用的编程技术，可以让程序更加简洁和易于理解。以下是一个使用Python编写的递归函数示例：def countdown(n): if n <= 0: &...

用python写个selenium上传文件的程序，非input标签的上传

非input标签的上传通常是通过模拟点击“上传”按钮打开系统的文件选择框，然后在文件选择框中选择文件并点击“确定”按钮实现的。在Selenium中，我们可以使用AutoIT或pywinauto等工具来模拟操作系统的窗口，实现非input标签的上传。下面是一个使用pywinauto模块实现非input...

如何用python获取一个网页的所有连接

如何用python获取一个网页的所有连接

“如何用python获取一个网页的所有连接” 的相关文章

权大师商标查询api

python 实现快速扣背景图功能

python 使用PIL库进行验证码清晰处理

Linux之python版本升级

用python写个递归函数

用python写个selenium上传文件的程序，非input标签的上传

Copyright My WebSite.Some Rights Reserved.