当前位置：移动技术网 > IT编程>脚本编程>Python > 初试python爬虫（我爬我自己的博客）

初试python爬虫（我爬我自己的博客）

2020年07月14日 | 移动技术网IT编程 | 我要评论

初试python爬虫（我爬我自己的博客）

自学python有一段时间了，最近刚学了一点点正则表达式和一点点爬虫的基本知识（可能连皮毛都算不上）。我就有点迫不及待来试一试。也不知道可以爬啥东西，就决定爬我自己的博客吧，尝试着爬出我自己博客里博文的标题。

代码如下：

#导入模块
import re
from urllib.request import urlopen

def getPage(url):   #获取网页源码
    response = urlopen(url)
    return response.read().decode('utf-8')

def parsePage(html):   # 匹配正则表达式
    ret = com.finditer(html)  #获取迭代器对象
    for i in ret:
        dic = {
            "title": i.group("title"),
        }
        yield dic

def main():
    url = 'https://blog.csdn.net/weixin_46791942'   #我的博客网址
    response_html = getPage(url)   # response_html是这个网页的源码 
    ret2 = parsePage(response_html) # 生成器
    f = open("乌拉.txt", "w", encoding="utf8")
    for obj in ret2:
        print(obj)
        data = str(obj)
        f.write(data + "\n")
    f.close()

com = re.compile(    #预编译正则表达式
        '<div class=.*?>.*?<h4 class=.*?>.*?</span>(?P<title>.*?)</a>', re.S)

main()

爬出来的结果：
在这里插入图片描述
虽然这并不是什么很难的爬虫，爬出来东西也没有什么实际意义，但是这是我第一次尝试爬虫，对我来说也是一个不小的收获。在此我的python学习之路。

本文地址：https://blog.csdn.net/weixin_46791942/article/details/107318773

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

永久解决VSCode终端中文乱码问题

在windows下使用vscode编译运行，都出现中文乱码的问题，今天我就遇见了这种情况，上网搜了半天也没有找到正确的解决方法，现将我把我的方法晒一下.中文的w... [阅读全文]
VSCode 格式化缩进代码的实现

1）文件 —> 首选项因为 vscode 默认启用了根据文件类型自动设置tabsize的选项，在设置中添加："editor.detectindentati... [阅读全文]
Python无损压缩图片的示例代码

每个设计师、摄影师或有图片处理需求小编，都会面临批量高清大图的困扰。因为高清大图放到网站上会严重拖慢加载速度，或是有的地方明确限制了图片大小，因此，为了完成工作... [阅读全文]
Python爬虫防封ip的一些技巧

在编写爬虫爬取数据的时候，因为很多网站都有反爬虫措施，所以很容易被封ip，就不能继续爬了。在爬取大数据量的数据时更是瑟瑟发抖，时刻担心着下一秒ip可能就被封了。... [阅读全文]
用python实现前向分词最大匹配算法的示例代码

理论介绍分词是自然语言处理的一个基本工作，中文分词和英文不同，字词之间没有空格。中文分词是文本挖掘的基础，对于输入的一段中文，成功的进行中文分词，可以达到电脑自... [阅读全文]
Python学习笔记之装饰器

一. 什么是装饰器知乎某大佬如是说：内裤可以用来遮羞，但是到了冬天它没法为我们防风御寒，聪明的人们发明了长裤，有了长裤后宝宝再也不冷了，装饰器就像我们这里说的长... [阅读全文]
Python如何进行时间处理

我们会经常遇到对时间的处理，用python来进行时间处理简直不要太方便了，这一期就给大家介绍一下python的时间处理！用python进行时间处理主要会用到ti... [阅读全文]
Selenium alert 弹窗处理的示例代码

selenium提供switch_to_alert方法：捕获弹出对话框（可以定位alert、confirm、prompt对话框）switch_to_alert(... [阅读全文]
python学习笔记之多进程

我们现代的操作系统，都是支持“多任务”的操作系统，对于操作系统来说，一个任务就是一个进程(process)。比如打开一个浏览器就是启动一个浏览器进程。如果我们将... [阅读全文]
Python map及filter函数使用方法解析

知道python有这几个内置方法，但一直以来用的都不多，最近重新看了一下，重新记录一下。map()会根据提供的函数对指定序列进行映射，python3会返回一个迭... [阅读全文]

网友评论


验证码：

初试python爬虫（我爬我自己的博客）

2020年07月14日 | 移动技术网IT编程 | 我要评论

初试python爬虫（我爬我自己的博客）

您可能感兴趣的文章:

相关文章:

网友评论