当前位置：移动技术网 > IT编程>开发语言>JavaScript > XPath 结合 requests 爬取网站存储格式可选有json、csv、txt

XPath 结合 requests 爬取网站存储格式可选有json、csv、txt

2020年07月20日 | 移动技术网IT编程 | 我要评论

因为项目需要，最近在爬取非遗相关的网站，但目标url 有做源码的保护，不同元素的辨识度特别低，点开审查网页，好几个关键字都是cye-Im-tag
就打算用XPath获取节点信息
嘻嘻，这边引用大佬wsmrzx的爬取猫眼电影TOP250电影信息
废话不多说，上链接猫眼爬取

大佬写得很详细，user-agent改一下即可哈

关于lxml库的安装

只需要执行：
pip install lxml

不知道为什么，使用这个命令安装，一次成功的很少，不知道为啥，就是各种报错

那就先执行命令，安装wheel库
pip install wheel

然后再执行上一个cmd就OK啦

wheel有官网，但直接用pip安装简单粗暴，哈哈哈

友情tip

爬取结果保存成txt格式，比较麻烦，特别是要导入数据库的

本文地址：https://blog.csdn.net/weixin_44412468/article/details/107426984

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

PHP+txt聊天室

PHP+txt聊天室最近朋友发了一篇ASP+txt聊天室，非常不爽，我可是支持PHP的啊所以就发了这篇文章由于是... [阅读全文]
教你如何做一个优雅的Ecmascripter /转

看看这些被同事喷的JS代码风格你写过多少殷荣桧JavaScript今天现在写代码比以前好多了，代码的格式都有es... [阅读全文]
Javascript知识点总结（一）

一、走进javascript什么是JS？JavaScript一种直译式脚本语言，是一种动态类型、弱类型、基于原型... [阅读全文]
利用JS来判断输入是否为空以及重复密码是否相同

登录页面HTML如下：<div class="form-group has-feedback"> ... [阅读全文]
Vue入门基础——第一次笔记

Vue.js是什么？是一套用于构建用户界面的渐进式框架。与其它大型框架不同的是，Vue 被设计为可以自底向上逐层... [阅读全文]
react+antd 给switch设置初始值变量

在react项目中表单内的switch功能，设置初始值为变量，所以需要在Form.Item 标签上添加一个val... [阅读全文]
@vue/cli 4.4.6解决跨域问题

在前端@vue/cli 4.4.6解决跨域问题，可以通过vue.config.js配置完成例如：需要访问http... [阅读全文]
offset、client、scroll (width,height、left,top、X,Y)

offsetWidth、clientWidth、scrollWidthdiv{ width: 20px; ... [阅读全文]
vue 性能优化：gzip编译压缩

安装：compression-webpack-pluginnpm install compression-web... [阅读全文]
react打包压缩jscssimg

前言本文基于 “react”: “^16.13.1”,“webpack”: “4.42.0”,“antd”: “... [阅读全文]

网友评论


验证码：

XPath 结合 requests 爬取网站 存储格式可选 有json、csv、txt