当前位置：移动技术网 > IT编程>脚本编程>Python > Python网站搜索内容定向爬虫（新手向超详细）

Python网站搜索内容定向爬虫（新手向超详细）

2020年07月30日 | 移动技术网IT编程 | 我要评论

功能

目标网站：https://www.hellohuanxuan.top/
定向爬虫，只能爬取给定URL，不进行扩展爬取
爬虫向搜索框提交搜索信息，爬取搜索之后的结果
所需库：requests，bs4

前期准备

首先查看网页搜索框，随便搜索数据看看

我们注意到，此时url为：
可推断出执行搜索的参数为 “?s=”
之后打开F12查看源代码，看到整个数据部分是在一个main标签里，如发表时间、标题，链接等等
开始构造代码吧

各个模块功能

整个爬虫分为三大模块，每个模块一个函数
getHtml(url, header)函数：发起请求，获得返回源代码
parsePage(ulist, html)函数：负责解析源代码，获取到有用的信息，并存入列表中（整个代码的关键部分）
printlist(ulist)函数：将列表格式化打印出来

代码部分

import requests
from bs4 import BeautifulSoup
import bs4


def getHtml(url, header):
    try:
        r = requests.get(url, headers=header)
        r.raise_for_status()
        print(r.request.headers)
        # r.encoding = r.apparent_encoding # 根据情况是否填写
        return r.text
    except:
        print("爬取失败！")
        return " "


def parsePage(ulist, html):
    soup = BeautifulSoup(html, "html.parser")
    for i in soup.find('main', {'class': 'site-main'}).children:
        try:
            if isinstance(i, bs4.element.Tag):
                psrc = i('div', {'class': 'p-time'})
                title = i('h1', {'class': 'entry-title'})
                # print(psrc[0].text)
                # print(title[0].string)
                # print(title[0].a.attrs['href'])
                ulist.append([psrc[0].text, title[0].string, title[0].a.attrs['href']])
                # ulist.append([1, 1, 1])
        except:
            print("数据丢失！")


def printlist(ulist):
    print("{:10}\t{:10}\t{:8}".format("发布日期", "标题", "链接"))
    for i in ulist:
        print("{:10}\t{:10}\t{:8}".format(i[0], i[1], i[2]))

def main():
    header = {
        "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36",
    }
    worlds = '1'
    ulist = []
    url = "https://www.hellohuanxuan.top/?s=" + worlds
    html = getHtml(url, header)
    parsePage(ulist, html)
    printlist(ulist)


if __name__ == "__main__":
    main()

代码解析

getHtml

    try:
		# 通过requests的get方法获得源代码
        r = requests.get(url, headers=header)
		# 判断返回状态码是否为200，不为200直接进入异常
        r.raise_for_status()
		# 打印头部信息看看，可注释掉
        print(r.request.headers)
        # r.encoding = r.apparent_encoding # 根据情况是否填写，爬我的网站要注释，否则显示中文为乱码
        return r.text
    except:
        print("爬取失败！")
        return " "

parsePage

	# 利用BeautifulSoup解析html
    soup = BeautifulSoup(html, "html.parser")
	# for循环查找class为'site-main'的main标签的字标签
    for i in soup.find('main', {'class': 'site-main'}).children:
		# try except捕捉异常
        try:
		# isinstance函数在这里判断i是否是bs4库里规定的标签类型
            if isinstance(i, bs4.element.Tag):
				# 获取class为'p-time'的div标签
                psrc = i('div', {'class': 'p-time'})
				# 获取class为'entry-title'的h1标签
                title = i('h1', {'class': 'entry-title'})
                # print(psrc[0].text)
                # print(title[0].string)
                # print(title[0].a.attrs['href'])
				# 将值写进列表
                ulist.append([psrc[0].text, title[0].string, title[0].a.attrs['href']])
                # ulist.append([1, 1, 1])
        except:
            print("数据丢失！")

printlist

	# 格式化输出列表
    print("{:10}\t{:10}\t{:8}".format("发布日期", "标题", "链接"))
    for i in ulist:
        print("{:10}\t{:10}\t{:8}".format(i[0], i[1], i[2]))

运行效果

在这里插入图片描述

总结

大家千万别全拿我的网站爬啊，学生服务器经不起太多折腾。（无奈）
最后推荐一个慕课的视频，北京理工大学嵩天老师的python爬虫课程，讲的很清晰也很透彻。
Bilibili链接：python网络爬虫与信息提取
python爬虫学习中，如果大佬们看出有什么可以优化的地方欢迎指正
转自自己的小网站：我的博客

本文地址：https://blog.csdn.net/Aaaes/article/details/107647278

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

Python改变对象的字符串显示的方法

问题你想改变对象实例的打印或显示输出，让它们更具可读性。解决方案要改变一个实例的字符串表示，可重新定义它的 __str__() 和 __repr__() 方法。... [阅读全文]
Python接收手机短信的代码整理

python解决接口测试获取手机验证码问题的方法：android在收到短信后会发送一个action为android.provider.telephony.sms... [阅读全文]
python缩进长度是否统一

python 对代码的缩进要求非常严格，同一个级别代码块的缩进量必须一样，否则解释器会报 syntaxerror 异常错误。在 python 中，对于类定义、函... [阅读全文]
python线程里哪种模块比较适合

在python中可使用的多线程模块主要有两个，thread和threading模块。thread模块提供了基本的线程和锁的支持，建议新手不要使用。threadi... [阅读全文]
Python 如何在字符串中插入变量

问题你想创建一个内嵌变量的字符串，变量被它的值所表示的字符串替换掉。解决方案python并没有对在字符串中简单替换变量值提供直接的支持。但是通过使用字符串的 ... [阅读全文]
Python实现一个简单的递归下降分析器

问题你想根据一组语法规则解析文本并执行命令，或者构造一个代表输入的抽象语法树。如果语法非常简单，你可以不去使用一些框架，而是自己写这个解析器。解决方案在这个问... [阅读全文]
Python实现数字的格式化输出

问题你需要将数字格式化后输出，并控制数字的位数、对齐、千位分隔符和其他的细节。解决方案格式化输出单个数字的时候，可以使用内置的 format() 函数，比如：&... [阅读全文]
Python 执行矩阵与线性代数运算

问题你需要执行矩阵和线性代数运算，比如矩阵乘法、寻找行列式、求解线性方程组等等。解决方案numpy 库有一个矩阵对象可以用来解决这个问题。矩阵类似于3.9小节中... [阅读全文]
Python 日期与时间转换的方法

问题你需要执行简单的时间转换，比如天到秒，小时到分钟等的转换。解决方案为了执行不同时间单位的转换和计算，请使用 datetime 模块。比如，为了表示一个时间... [阅读全文]
Python 如何展开嵌套的序列

问题你想将一个多层嵌套的序列展开成一个单层列表解决方案可以写一个包含 yield from 语句的递归生成器来轻松解决这个问题。比如：from collecti... [阅读全文]

网友评论


验证码：