当前位置：首页 > python > 正文内容

scrapy创建项目与运行

zhangsir4年前 (2022-08-23)python430

打开命令行：

1. 创建爬虫的项目 scrapy startproject 项目的名字

注意：项目的名字不允许使用数字开头也不能包含中文

2. 创建爬虫文件

要在spiders文件夹中去创建爬虫文件

cd 项目的名字\项目的名字\spiders

cd scrapy_baidu_091\scrapy_baidu_091\spiders

创建爬虫文件

scrapy genspider 爬虫文件的名字要爬取网页

eg：scrapy genspider baidu http://www.baidu.com

一般情况下不需要添加http协议因为start_urls的值是根据allowed_domains

修改的所以添加了http的话那么start_urls就需要我们手动去修改了

3. 运行爬虫代码

scrapy crawl 爬虫的名字

eg：

scrapy crawl baidu

zhangsir版权f2防采集https://mianka.xyz

扫描二维码推送至手机访问。

本文链接：https://www.mianka.xyz/post/13.html

标签: python scrapy

分享给朋友：

返回列表

上一篇：python scrapy库安装

下一篇：Python post请求报错 Content type 'application/x-www-form-urlencoded;charset=UTF-8' not supported

“scrapy创建项目与运行” 的相关文章

如何用python获取一个网页的所有连接

如何用python获取一个网页的所有连接很简单直接上代码：# -*- coding: utf-8 -*- ''' 如何用python获取一个网页的所有连接 author:zhangsir ''' imp...

Python三方库ddddocr实现验证码识别

Python三方库ddddocr实现验证码识别环境要求python >= 3.8安装三方库pip install ddddocr -i https://pypi.tuna.tsinghua.edu.cn/simple参数说明：参数名参数类型默认值说明us...

使用pyautogui进行屏幕捕捉实现自动化操作

import pyautogui import time # # 获取基本信息 # # 屏幕大小 # size = pyautogui.size() # print(size) #&nbs...

解决Django的request.POST获取不到请求参数的问题

这个是Django自身的问题：只要在请求头的添加"content-type":'application/x-www-form-urlencoded'就行。...

python 爬虫报错:UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0x8b in position”解决方案

发现报错“UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8b in position 1：invalid start byte”，方法一：根据报错提示，错误原因有一条是这样的：“'Accept-Encodi...

python 实现彩色图转素描图

python可以把彩色图片转化为铅笔素描草图，对人像、景色都有很好的效果。而且只需几行代码就可以一键生成，适合批量操作，非常的快捷。需要的第三方库：Opencv - 计算机视觉工具，可以实现多元化的图像视频处理，有Python接口""" Photo ...

scrapy创建项目与运行

“scrapy创建项目与运行” 的相关文章

如何用python获取一个网页的所有连接

Python三方库ddddocr实现验证码识别

使用pyautogui进行屏幕捕捉实现自动化操作

解决Django的request.POST获取不到请求参数的问题

python 爬虫 报错:UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0x8b in position”解决方案

python 实现彩色图转素描图

Copyright My WebSite.Some Rights Reserved.

python 爬虫报错:UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0x8b in position”解决方案