欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~
本文由发表于
腾讯云提供了教你搭建 pyspider 爬虫服务,教程内容如下,用户可以点击快速上机完成实验。
任务时间:5min ~ 10min
在开始部署前,我们需要做一些前置准备。
yum 更新
yum update -y
安装开发编译工具
yum install gcc gcc-c++ -y
安装依赖库
yum install python-pip python-devel python-distribute libxml2 libxml2-devel python-lxml libxslt libxslt-devel openssl openssl-devel -y
升级pip
pip install --upgrade pip
该步骤可选,但为了部署的稳定性,推荐执行
该步骤耗时可能较长(5~10min),请耐心等待
任务时间:10min ~ 20min
由于 centos 7 中 mysql 数据库已从默认的程序列表中移除,我们使用 mariadb 代替。
yum install mariadb-server mariadb -y
systemctl start mariadb
默认的root用户密码为空,你可以使用以下命令来创建 root 用户的密码:
(该步骤也可以跳过,password 后的 password 可以改为任何你希望设置的密码)
mysqladmin -u root password "password"
现在你可以尝试通过以下命令来连接到 mysql 服务器
mysql -u root -p
然后输入您刚才设置的密码 ( 默认:password
),如果一切正常,您应该可以在命令行看到以 mariadb [(none)]>
或 mysql>
开头的提示了,说明连接成功。
此时输入 show databases;
并回车,应该可以看到类似下面这样的输出,说明一切正常。
mysql> show databases; +----------+ | database | +----------+ | mysql | | test | +----------+ 2 rows in set (0.13 sec)
完成后,可以通过快捷键 ctrl+c
或命令行键入 exit
来退出,进入下一步。
如果您未设置密码,直接使用
mysql
即可
任务时间:10min ~ 20min
wget http://download.redis.io/redis-stable.tar.gz
tar -xzvf redis-stable.tar.gz
mv redis-stable /usr/local/redis
cd /usr/local/redis make make install
mkdir -p /etc/redis cp /usr/local/redis/redis.conf /etc/redis/redis.conf
修改 /etc/redis/redis.conf 文件的 daemonize
配置项为如下:
daemonize yes
/usr/local/bin/redis-server /etc/redis/redis.conf
任务时间:10min ~ 20min
pip install --upgrade chardet easy_install mysql-connector==2.1.3 easy_install redis
pip install pyspider
首先创建配置目录
mkdir /etc/pyspider
然后 /etc/pyspider
目录下创建 pyspider.conf.json,参考下面的内容。
具体配置的说明文档请参考
{ "taskdb": "mysql+taskdb://root:password@127.0.0.1:3306/taskdb", "projectdb": "mysql+projectdb://root:password@127.0.0.1:3306/projectdb", "resultdb": "mysql+resultdb://root:password@127.0.0.1:3306/resultdb", "message_queue": "redis://127.0.0.1:6379/db", "webui": { "username": "root", "password": "password", "need-auth": true } }
其中 mysql 配置中的 root
为您 mysql 的用户名, root:
后面的 password
为您刚设置的密码。
webui
配置中的 username 及 password 为您访问 webui 时候需要的用户名,你也可以不设置用户名密码,直接将 need-auth
设为 false
即可。
pyspider -c /etc/pyspider/pyspider.conf.json
如果一切正常,现在访问 http://<您的 cvm ip 地址>:5000,您应该可以看到 pyspider dashboard 的首页了。
服务能够正常启动后,我们需要让它能够在后台运行,您可以通过以下命令让服务在后台运行
nohup pyspider -c /etc/pyspider/pyspider.conf.json &
也可以使用官方推荐的 来启动,这里就不详细介绍了,具体用法可以参考 supervisor 的文档
任务时间:1min ~ 2min
此时您可以访问 http://<您的 cvm ip 地址>:5000 使用您的爬虫来搜集数据了,具体 pyspider 爬虫脚本的编写及使用教程可以参考 。
问答
beautifulsoup和scrapy爬虫之间的区别?
相关阅读
腾讯云数据库回档解决方案
大数据在教育行业的研究与应用
看看上下文映射的清晰视图
云学院 · 课程推荐 | 知乎kol,与你分享机器学习中如何做选择
此文已由作者授权腾讯云+社区发布,原文链接:https://cloud.tencent.com/developer/article/1151513?fromsource=waitui
欢迎大家前往腾讯云+社区或关注云加社区微信公众号(qcloudcommunity),第一时间获取更多海量技术实践干货哦~
如对本文有疑问, 点击进行留言回复!!
去 HBase,Kylin on Parquet 性能表现如何?
如何找到Hive提交的SQL相对应的Yarn程序的applicationId
如何在 HBase Shell 命令行正常查看十六进制编码的中文?哈哈~
HBase Filter 过滤器之 Comparator 原理及源码学习
安装 Hadoop 2.9.1 on Windows 10 64 bit (最全步骤整理)
网友评论