当前位置:首页 > python > 正文内容

scrapy创建项目与运行

zhangsir4年前 (2022-08-23)python429

打开命令行:

1. 创建爬虫的项目   scrapy startproject 项目的名字

                 注意:项目的名字不允许使用数字开头  也不能包含中文

2. 创建爬虫文件

                 要在spiders文件夹中去创建爬虫文件

                 cd 项目的名字\项目的名字\spiders

                 cd scrapy_baidu_091\scrapy_baidu_091\spiders


                 创建爬虫文件

                 scrapy genspider 爬虫文件的名字  要爬取网页

                 eg:scrapy genspider baidu  http://www.baidu.com

                 一般情况下不需要添加http协议  因为start_urls的值是根据allowed_domains

                 修改的  所以添加了http的话  那么start_urls就需要我们手动去修改了

3. 运行爬虫代码

                 scrapy crawl 爬虫的名字

                 eg:

                 scrapy crawl baidu


zhangsir版权h8防采集https://mianka.xyz

扫描二维码推送至手机访问。

版权声明:本文由zhangsir or zhangmaam发布,如需转载请注明出处。

本文链接:https://www.mianka.xyz/post/13.html

标签: pythonscrapy
分享给朋友:

“scrapy创建项目与运行” 的相关文章

权大师商标查询api

''' data:2022-10-15 autor:zhangsir 权大师商标查询api ''' import requests import json import time import h...

python 将json数据转成csv文件

从JSON数据转化CSV文件下面的这个Python脚本能够将JSON数据转化到CSV文件的表格当中去,我们输入的是带有.json后缀的文件,输出的是.csv后缀的表格文件,代码如下import json def converter(input_file, output...

python 多线程与多进程的代码实例

一.两者区别多进程和多线程的主要区别是:线程是进程的子集(部分),一个进程可能由多个线程组成。多进程的数据是分开的、共享复杂,需要用IPC;但同步简单。多线程共享进程数据,共享简单;但同步复杂。(1)多进程进程是程序在计算机上的一次执行活动,即正在运行中的应用程序,通常称为进程。当你运行一个程序,你...

python—pymysql的增删改查操作实例展示

Python使用pymysql连接数据库1.导包import pymysql2.连接数据库connection = pymysql.connect(     host='',  # ...

python selenium 使用代理ip

代码如下:from selenium import webdriver chromeOptions = webdriver.ChromeOptions() chromeOptions.add_argument("--proxy-serv...

Linux系统下使用Python+selenium+谷歌浏览器下载文件

from seleniumwire import webdriver import time ch_options = webdriver.ChromeOptions() ch_options.add_argument("-...