当前位置：移动技术网 > IT编程>脚本编程>Python > python爬虫用scrapy获取影片的实例分析

python爬虫用scrapy获取影片的实例分析

2020年11月23日 | 移动技术网IT编程 | 我要评论

我们平时生活的娱乐中，看电影是大部分小伙伴都喜欢的事情。周围的人总会有意无意的在谈论，有什么影片上映，好不好看之类的话题，没事的时候谈论电影是非常不错的话题。那么，一些好看的影片如果不去电影院的话，在

我们平时生活的娱乐中，看电影是大部分小伙伴都喜欢的事情。周围的人总会有意无意的在谈论，有什么影片上映，好不好看之类的话题，没事的时候谈论电影是非常不错的话题。那么，一些好看的影片如果不去电影院的话，在其他地方看都会有大大小小的限制，今天小编就教大家用python中的scrapy获取影片的办法吧。

1. 创建项目

运行命令:

scrapy startproject myfrist（your_project_name）

文件说明：名称 | 作用 --|-- scrapy.cfg | 项目的配置信息，主要为scrapy命令行工具提供一个基础的配置信息。（真正爬虫相关的配置信息在settings.py文件中） items.py | 设置数据存储模板，用于结构化数据，如：django的model pipelines | 数据处理行为，如：一般结构化的数据持久化 settings.py | 配置文件，如：递归的层数、并发数，延迟下载等 spiders | 爬虫目录，如：创建文件，编写爬虫规则

注意：一般创建爬虫文件时，以网站域名命名

2 编写 spdier

在spiders目录中新建 daidu_spider.py 文件

2.1 注意

爬虫文件需要定义一个类，并继承scrapy.spiders.spider

必须定义name，即爬虫名，如果没有name，会报错。因为源码中是这样定义的

2.2 编写内容

在这里可以告诉 scrapy 。要如何查找确切数据，这里必须要定义一些属性

name: 它定义了蜘蛛的唯一名称

allowed_domains: 它包含了蜘蛛抓取的基本url；

start-urls: 蜘蛛开始爬行的url列表；

parse(): 这是提取并解析刮下数据的方法；

下面的代码演示了蜘蛛代码的样子：

import scrapy
class doubanspider(scrapy.spider):
  name = 'douban'
  allwed_url = 'douban.com'
  start_urls = [
    'https://movie.douban.com/top250/'
  ]
  def parse(self, response):
    movie_name = response.xpath("//div[@class='item']//a/span[1]/text()").extract()
    movie_core = response.xpath("//div[@class='star']/span[2]/text()").extract()
    yield {
      'movie_name':movie_name,
      'movie_core':movie_core
    }

到此这篇关于python爬虫用scrapy获取影片的实例分析的文章就介绍到这了,更多相关python爬虫如何用scrapy获取影片内容请搜索移动技术网以前的文章或继续浏览下面的相关文章希望大家以后多多支持移动技术网！

您可能感兴趣的文章:

如您对本文有疑问或者有任何想说的，请点击进行留言回复，万千网友为您解惑！

相关文章:

python使用正则表达式替换匹配成功的组

正则表达式简介正则表达式，又称正规表示式、正规表示法、正规表达式、规则表达式、常规表示法（英语：Regular Expres... [阅读全文]
python制作一个桌面便签软件

# 2014.10.15 更新了memo.zip, 网盘的exe：修复：1.隔日启动不能正常加载json，加入：1.隐藏任务栏图标，... [阅读全文]
bat批处理执行python 的几种方式

第一种方式:@echo off C: cd C:\Users\administrator\Desktopstart python apidemo.p... [阅读全文]
Python全栈学习_作业集锦(持续更新)

day1 python初识 day2 python初识 day3 初识数据类型 day4 数据类型 day5 数据类型 day6 数据类型和编码 d... [阅读全文]
python爬虫用scrapy获取影片的实例分析

我们平时生活的娱乐中，看电影是大部分小伙伴都喜欢的事情。周围的人总会有意无意的在谈论，有什么影片上映，好不好看之类的话题，没事的时候谈论电影是非常不错的话题。那... [阅读全文]
荐机器人路径规划之Dijkstra算法

Dijkstra算法(狄克斯特拉算法)是从一个顶点到其余各顶点的最短路径算法，解决的是有向图中最短路径问题。基本... [阅读全文]
Python 文件操作技巧(File operation) 实例代码分析

常用的module是 os ,os.path 和shutil,所以要先引入他们. python遍历文件... [阅读全文]
python 除法保留两位小数点的方法

如下所示： a = 1 b = 3 print(a/b) #方法一： print(round(a/b,2)) #... [阅读全文]
Python高阶函数与装饰器函数的深入讲解

本文主要介绍的是python高阶函数与装饰器函数的相关内容，分享给大家，下面话不多说了，来一起看看详细的介绍吧高阶函数1、可以使用函数对象作为参数的函数2、或可... [阅读全文]
Google开源的Python格式化工具YAPF的安装和使用教程

目前用于Python的格式化程序（如autopep8和pep8ify）都用于删除代码中的lint错误。这有很明显的局限性。 YAP... [阅读全文]

网友评论


验证码：

移动技术网