当前位置：移动技术网 > IT编程>脚本编程>Python > Python使用requests库爬取中国新闻网指定页面

Python使用requests库爬取中国新闻网指定页面

2020年07月24日 | 移动技术网IT编程 | 我要评论

前言

前面的文章（https://blog.csdn.net/qq_43382739/article/details/107513977）主要爬取首页的新闻列表而不是具体的新闻内容，本文会具体的分析如何爬取实际的新闻页面的具体内容
在这里插入图片描述
观察图中的新闻列表会发现有三种类型的新闻，点进去可以发现三种新闻的页面的类型不同，这里只选择性爬取类似于第一条新闻的类型，另外两种类型的爬取方法相似，可以自己去实践–_--

页面分析

一个新闻的内容不外乎三种类型：视频，图片，文字。这里选取三种内容都包含的页面来分析，链接如下：http://www.chinanews.com/gn/2020/07-22/9245520.shtml
在这里插入图片描述
打开控制台，视频一般会放在文章最前面，在id为tupian_div的div标签中（这里有坑，后面会讲。。。），正文会放在class为left_zw的div标签里的p标签中，图片会掺杂在p标签中

视频部分的爬取

按照上篇文章的采用xpath对html进行解析，视频主要在div下的source标签中，试着爬取一下地址
在这里插入图片描述
明显爬了个寂寞。。。
基本上可以判定视频是通过js动态加载出来的，具体如何应对这种情况的话会在后面的博客里说，因为内容还是比较多
这里的解决办法：在该div下面的第三个script标签中有视频地址，有那么点投机取巧的意思
在这里插入图片描述
提取视频地址的具体代码：

videos = news_demo.xpath('//div[@id="tupian_div"]//script')
videos_script = str(videos[2].xpath('text()'))
videos_address = videos_script[videos_script.find('source') + 11:videos_script.find('type=video/mp4') - 1]

这是针对有视频的新闻，因此后续还需对新闻有没有视频做出判断

具体内容和图片的爬取

ps = news_demo.xpath('//div[@class="left_zw"]/*')
for p in ps:
   	if len(p.xpath('img')) > 0:
     	print(p.xpath('img/@src')[0])
 	else:
        if not p.xpath('text()'):
           	continue
        for text in p.xpath('text()'):
           	print(text)

需要解释的代码应该不多吧，xpath的语法在上一篇博客中有

完整代码

def get_real_news(href):
    # 采用get方法获取响应
    resp = requests.get(href)
    # 为防止获取的网页乱码，对响应内容进行重新编码，编码格式可能是utf-8或gbk
    html_content = resp.content.decode('utf-8', 'replace')
    news_demo = html.etree.HTML(html_content)
    #  视频链接爬取
    videos = news_demo.xpath('//div[@id="tupian_div"]//script')
    if len(videos) == 3:  # 判断是否有视频
        videos_script = str(videos[2].xpath('text()'))
        videos_address = videos_script[videos_script.find('source') + 11:videos_script.find('type=video/mp4') - 1]
        print(videos_address)

    #  正文内容获取
    ps = news_demo.xpath('//div[@class="left_zw"]/*')
    for p in ps:
        if len(p.xpath('img')) > 0:  # 判断p标签中是否嵌入图片
            print(p.xpath('img/@src')[0])
        else:
            if not p.xpath('text()'):
                continue
            for text in p.xpath('text()'):
                print(text)

实现
在这里插入图片描述

总结

这只是爬取新闻网页的一个例子，它可能可以爬取同一类型新闻页面的一部分，但不可能保证说对每一个新闻的内容都能正确爬取，还是需要足够的素材去试水吧，慢慢的调试来提高复用性。
我这里只爬取了正文内容，像标题、作者什么的可以自己试着去解析也可以试着爬其他类型的新闻，也可以试着在获取内容的同时加入标签，比如某个文本在strong标签里，那么如果要把该内容渲染到网页上就可以用strong标签。

上一篇博客链接：
https://blog.csdn.net/qq_43382739/article/details/107513977

后面一篇可能会讲怎么处理js加载出的内容的情况–_--

本文地址：https://blog.csdn.net/qq_43382739/article/details/107546209

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

详解C语言和Python中的线程混用

问题你有一个程序需要混合使用c、python和线程，有些线程是在c中创建的，超出了python解释器的控制范围。并且一些线程还使用了python c api... [阅读全文]
Python如何输出警告信息

问题你希望自己的程序能生成警告信息（比如废弃特性或使用问题）。解决方案要输出一个警告消息，可使用 warning.warn() 函数。例如：import war... [阅读全文]
Python如何实现线程间通信

问题你的程序中有多个线程，你需要在这些线程之间安全地交换信息或数据解决方案从一个线程向另一个线程发送数据最安全的方式可能就是使用 queue 库中的队列了。创建... [阅读全文]
Python3以GitHub为例来实现模拟登录和爬取的实例讲解

我们先以一个最简单的实例来了解模拟登录后页面的抓取过程，其原理在于模拟登录后 cookies 的维护。1. 本节目标本节将讲解以 github 为例来实现模拟登... [阅读全文]
Python3爬虫中识别图形验证码的实例讲解

本节我们首先来尝试识别最简单的一种验证码，图形验证码，这种验证码出现的最早，现在也很常见，一般是四位字母或者数字组成的，例如中国知网的注册页面就有类似的验证码，... [阅读全文]
Python3爬虫关于识别检验滑动验证码的实例

上节我们了解了图形验证码的识别，简单的图形验证码我们可以直接利用 tesserocr 来识别，但是近几年又出现了一些新型验证码，如滑动验证码，比较有代表性的就是... [阅读全文]
Python3爬虫关于识别点触点选验证码的实例讲解

上一节我们实现了极验验证码的识别，但是除了极验其实还有另一种常见的且应用广泛的验证码，比较有代表性的就是点触验证码。可能你对这个名字比较陌生，但是肯定见过类似的... [阅读全文]
Python3爬虫里关于识别微博宫格验证码的知识点详解

本节我们来介绍一下新浪微博宫格验证码的识别，此验证码是一种新型交互式验证码，每个宫格之间会有一条指示连线，指示了我们应该的滑动轨迹，我们需要按照滑动轨迹依次从起... [阅读全文]
Python 如何创建一个简单的REST接口

问题你想使用一个简单的rest接口通过网络远程控制或访问你的应用程序，但是你又不想自己去安装一个完整的web框架。解决方案构建一个rest风格的接口最简单的方法... [阅读全文]
Python3爬虫里关于代理的设置总结

在前面我们介绍了多种请求库，如 requests、urllib、selenium 等。我们接下来首先贴近实战，了解一下代理怎么使用，为后面了解代理池、adsl ... [阅读全文]