当前位置：移动技术网 > IT编程>脚本编程>Python > python爬虫（2），爬取中国大学信息。

python爬虫（2），爬取中国大学信息。

2020年07月18日 | 移动技术网IT编程 | 我要评论

中国大学哪家好，
python爬虫都知晓。（强行押韵）
今天写一篇爬虫，获取2016年中国大学排名和其他的信息，并保存到excel中。
观察网站本尊。

在这里插入图片描述
发现有用信息，这是我们想要得到的。右击审查元素。
排名在tr标签中，其他信息在他的子标签中。只要获取标签中的text即可，这样简单点的标签，beautifulsoup库可以很快获取信息。
上代码

import requests
from bs4 import BeautifulSoup
import bs4
import openpyxl   #写入excel的库
def get_html(url):   #获取网页html
    r=requests.get(url)
    r.encoding=r.apparent_encoding
    return r.text
def fillunivlist(ulist,html):   #找到有用信息并保存
    soup = BeautifulSoup(html,'html.parser')#不懂BeautifulSoup库可以百度一下，或者评论，我解释。
    for tr in soup.find('tbody').children: #找到所有的tbody的子标签，他的子标签就是tr标签。
        if isinstance(tr,bs4.element.Tag):   #判断是否是标签类型，因为逗得tr不是bs4.element.tag类型，也可能是str类型。
            tds=tr('td')
            ulist.append([tds[0].string,tds[1].string,tds[3].string])
    return ulist
def save_to_excel(f):  #保存到excel，如果不想保存到excel可以直接格式化输出，openpyxl参考我的“python办公excel学习”篇。
    wb=openpyxl.Workbook()
    ws=wb.active
    ws['A1']='排名'
    ws['B1']='学校名称'
    ws['C1']='评分'
    for each in f:
        ws.append(each)
    wb.save('daxue.xlsx')
def main():
    ulist = []
    url = 'http://www.zuihaodaxue.com/zuihaodaxuepaiming2016.html'
    html = get_html(url)
    f=fillunivlist(ulist,html)
    save_to_excel(f)
main()

在这里插入图片描述
这样就行了。喜欢的，或者对你学习有帮助的，点个小关注(●’◡’●)。

本文地址：https://blog.csdn.net/weixin_48823483/article/details/107401658

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

获取京东商品信息报错error pdos_captcha

获取京东商品信息报错error pdos_captcha2020.7.20python 请求商品信息出现 {“... [阅读全文]
利用python爬取京东商品评论

京东评论的爬取和淘宝的差不多，可以参考上两篇文章文章：利用python分析Ajax爬取淘宝评论最新Python爬... [阅读全文]
测试开发阿里巴巴笔试题2020

测试开发阿里巴巴笔试题2020幸运数7幸运数7输入范围[r,l]，输出该范围内幸运数的个数幸运数解释：数657，... [阅读全文]
贪心-LeetCode135. 分发糖果

1、题目描述https://leetcode-cn.com/problems/candy/老师想给孩子们分发糖果... [阅读全文]
NumPy 快速入门：数组对象的排序、插入、删除、添加及其他特殊方法介绍

本篇博客主要介绍 NumPy中，数组对象的类列表方法：排序、删除、插入及一些特殊方法如： linspace：等... [阅读全文]
一行代码玩童年小游戏

首先，我们要打开cmd，以此下载freegames这个包。有一些新手小白可能会问：cmd是什么……打开cmd首先... [阅读全文]
flask_sqlalchemy连接Mysql数据库

【注】1、由于是建立的flask项目，所以不能直接点绿色按钮运行，如图：2、应该在terminal终端中运行py... [阅读全文]
mnist数据集下载及相关配置

mnist数据集下载及相关配置MNIST数据集是由0到9的数字图像构成的（下图）。训练图像有6万张，测试图像有... [阅读全文]
k-means聚类

这里介绍一下简单的使用欧氏距离的kmeans思路： 1、确定n个中心点 2、计算每个点与中心点的距离 ... [阅读全文]
Python中range()函数

range是python中的一个内置函数，用于生成一系列连续的整数，创建一个整数列表，一般用在 for 循环中。... [阅读全文]

网友评论


验证码：

python爬虫（2），爬取中国大学信息。

2020年07月18日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论