当前位置：移动技术网 > IT编程>脚本编程>Python > 中国大学排名定向爬虫--解析

中国大学排名定向爬虫--解析

2020年07月05日 | 移动技术网IT编程 | 我要评论

需要爬取的网页：

右键单击 -> 查看网页源代码：

找到需要爬取的信息的位置：(可以Ctrl+F 搜索 "清华大学" 快速找到位置)

自诩观察网页源代码可以发现：

所有的大学信息都放在了 <tbody> 标签下
每个大学信息都放在了对应的 <tr> 标签下
每个大学的每一条信息都放在了对应的 <td> 标签中

打开网页：检查定向爬虫的可行性，404证明定性爬虫没有被限制

编写代码：

import requests
from bs4 import BeautifulSoup
import bs4

#爬取网页信息代码:
def getHTMLText(url):
    try:
        r=requests.get(url,timeout=30)#爬取信息
        r.raise_for_status()#异常识别
        r.encoding=r.apparent_encoding#修改编码
        return r.text#返回text
    except:
        return ""#异常返回 空

#提取出html代码中的大学信息存储到ulist列表中
def fillUnivList(ulist,html):
    soup=BeautifulSoup(html,"html.parser")#解析 html
    for tr in soup.find('tbody').children:#遍历tbody的孩子标签 每个tr代表一所大学
        if isinstance(tr,bs4.element.Tag): #过滤掉非标签类型的元素
            tds=tr('td')#等价于 tr.find_all('td')
            #存储所有的td标签的内容
            ulist.append([tds[0].string,tds[1].string,tds[3].string])#排名  名称  得分(tds[3])  加入到列表中

#输出ulist列表中前num个大学信息
def printUnivList(ulist,num):
    tplt="{0:^10}\t{1:^10}\t{2:^10}"#输出模板变量
    print(tplt.format("排名","学校名称","总分",chr(12288)))#print的format格式化输出,并填充中文空格,使得界面更加美观
    for i in range(num):
        u=ulist[i]
        print(tplt.format(u[0],u[1],u[2],chr(12288)))

#主函数
def main():
    uinfo=[]
    url="http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html"#将要爬取的url
    #调用编写好的功能函数
    html=getHTMLText(url)
    fillUnivList(uinfo,html)
    printUnivList(uinfo,20)

main()#调用主函数

程序运行结果：

参考课程：中国大学MOOC_北京理工大学_Python网络爬虫与信息提取

本文地址：https://blog.csdn.net/qq_44786250/article/details/107128362

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

物联网-GPRS简介和PDP激活

1 GPRS简介通用分组无线服务（英语：General Packet Radio Service，缩写：GPRS... [阅读全文]
LTE Cat 1 STM32 4G AIR724

2019年10月，工业和信息化部新闻发言人，信息通信发展司司长闻库表示，我国移动通信的网络在2G、3G退网条件已... [阅读全文]
智能家居语音控制系统的设计与实现

近年来，通过人工智能，大数据，云计算，5G等多项技术驱动，智能家居开始进入快速发展的阶段，逐渐代替了传统家居，在... [阅读全文]
老猿学5G专栏文章目录

☞ ░ 前往老猿Python博文目录 ░一、3GPP规范文档及其他推荐阅读博文老猿学5G扫盲贴：3GPP规范文... [阅读全文]
Devops知识技能树（改）

Devops知识技能树（改）选择一门编程语言操作系统知识管理服务网络、安全和协议需要了解/ 配置Web Serv... [阅读全文]
Python_第四篇可视化（1）_Matplotlib架构

1、matplotlib库是专门用于开发2D图表（包括3D图表）的。matlplotlib的设计初衷是在图形视图... [阅读全文]
lamp

lamp简介定义：lamp架构就是Linux+Apache+MySQL/mariadb+php/Perl/pyt... [阅读全文]
大更新！杭州米链科技UN链盟全新版本上线

UN链盟1.1.0版本刚刚更新没多久，最近又进行了一次大版本的更新迭代，更新到了1.2.0的版本。新版本的更新不... [阅读全文]
Selenium +Python入门（PageObject思想篇）

PageObject介绍1）2013 Martin Flower 提出2）2015 Selenium 官方加入P... [阅读全文]
听说，C++开发员是这样看待 Python开发员的

黑客技术点击右侧关注，了解黑客的世界！来源丨程序员最幽默网友评论@我爱番茄锅底：C++: 玛德他们下班真早@ru... [阅读全文]

网友评论


验证码：

中国大学排名定向爬虫--解析

2020年07月05日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论