当前位置:首页 > python > 正文内容

scrapy创建项目与运行

zhangsir3年前 (2022-08-23)python339

打开命令行:

1. 创建爬虫的项目   scrapy startproject 项目的名字

                 注意:项目的名字不允许使用数字开头  也不能包含中文

2. 创建爬虫文件

                 要在spiders文件夹中去创建爬虫文件

                 cd 项目的名字\项目的名字\spiders

                 cd scrapy_baidu_091\scrapy_baidu_091\spiders


                 创建爬虫文件

                 scrapy genspider 爬虫文件的名字  要爬取网页

                 eg:scrapy genspider baidu  http://www.baidu.com

                 一般情况下不需要添加http协议  因为start_urls的值是根据allowed_domains

                 修改的  所以添加了http的话  那么start_urls就需要我们手动去修改了

3. 运行爬虫代码

                 scrapy crawl 爬虫的名字

                 eg:

                 scrapy crawl baidu


zhangsir版权c3防采集https://mianka.xyz

扫描二维码推送至手机访问。

版权声明:本文由zhangsir or zhangmaam发布,如需转载请注明出处。

本文链接:https://www.mianka.xyz/post/13.html

标签: pythonscrapy
分享给朋友:

“scrapy创建项目与运行” 的相关文章

python+selenium元素定位的8种方法

定位元素,selenium提供了8中元素定位方法:(1)find_element_by_id() :html规定,id在html中必须是唯一的,有点类似于身份证号(2)find_element_by_name() :html规定,name用来指定元素的名称,有点类似于人名(3)find_elemen...

如何用python获取一个网页的所有连接

如何用python获取一个网页的所有连接很简单直接上代码:# -*- coding: utf-8 -*- ''' 如何用python获取一个网页的所有连接 author:zhangsir ''' imp...

Selenium添加Cookie来实现自动登录

Selenium添加Cookie来实现自动登录第一步获取你登录的cookie,以csdn为例from selenium import webdriver driver = webdriver.Chrome() driver.get('...

python之seleniumwire获取network(网络)信息

python之seleniumwire获取请求头参数import time from seleniumwire import webdriver # 创建Chrome驱动程序的新实例 driver = webdriver...

使用pyautogui进行屏幕捕捉实现自动化操作

import pyautogui import time # # 获取基本信息 # # 屏幕大小 # size = pyautogui.size() # print(size) #&nbs...

python 爬虫 报错:UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0x8b in position”解决方案

发现报错“UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8b in position 1:invalid start byte”,方法一:根据报错提示,错误原因有一条是这样的:“'Accept-Encodi...