当前位置：移动技术网 > IT编程>脚本编程>Python > 博客园搜索爬取

博客园搜索爬取

2019年12月04日 | 移动技术网IT编程 | 我要评论

pmma mf001,太古的盟约,六个孩子片尾曲

爬取用户提交关键字在博客园搜索出来的文章，一页十篇，共50页，获取标题，内容，发表时间，推荐量，评论量，浏览量

写入sql server数据库，代码如下;

import requests
from lxml import etree
import pymssql
import time

# 连接sql server数据库
conn = pymssql.connect(host='127.0.0.1',
                       user='sa',
                       password='root',
                       database='a',
                       charset='utf8')
cursor = conn.cursor()
headers = {
    'user-agent': 'mozilla/5.0 (windows nt 10.0; win64; x64) applewebkit/537.36 (khtml, like gecko) chrome/78.0.3904.108 safari/537.36',
    'cookie': '_ga=ga1.2.789692814.1575245968; _gid=ga1.2.90574348.1575245968; __gads=id=d0b3d037d343ea7f:t=1575246122:s=alni_myb3-nqsf59wlf_5kayyqyllv7efa; _gat=1; .cnblogs.aspnetcore.cookies=cfdj8dehxseuwr9ktnvagu7_dx-wfut1-dgx_yw1t_fpbsg6ejwby5on7dpqagwvw_wdjyzxksv4bwouwpbclu4vncysbhu5xw1f4vpuob4net3tigrh9t3mlgnwiwy7oqlfygxjqxnj2gkfzpdx7yq8t7hjomxg30lx50dn4ssngtwvctppmnhjt1nyfqs58horuczthrwejtxdmdcai_vogbd-emmout9h-flvnq_hn4b8lq9evymg4n9nmmarbnhf3wno-rkb7tgmcx6quwwibyxp2m2tjzg3uzbo3rneljktl1cveb6my97zqfjlre27rbarxp4wltsxi4wkbcntqaxyi2spifzyccbztxt_uc-z5phphjs-sl1_iu7sir-8m0qysad-bukds6qwvj5qljt1jcjbi_wfh6dzs_rgjvn0dfpqe50salhos6dhgqc7n-ydvqpsphjdrlrkim6jbh8pq6ez8s0irbzsdkiqij54cd-h5g5hx9oatleakaqdnwyz4llbvyu1wkne48r5usxkmityz1pdwwhc5pkrkxfelxdor05reo4gdoxhxxg5xezeya1rwdji7aknim5rm9y; .cnblogscookie=e4793f450c4325e3c9ef21b78b1de43f6258c9fd5951338859d96a5ec8795064ab518501755136f3a4cb1ce647ebd2cc352c1e9ebdc6e460b6320e9f62f083a52a635a4651a3d1082631d55fce58e283b97d016e61dc411e094f6ea9a9cf9a59a292c16f'
}

"""
标题，内容，发表时间，推荐量，评论量，浏览量
"""
# 写入数据库
def insert_sqlserver(key,data):
    try:
        cursor.executemany(
            "insert into {}(title,contents,create_time,view_count,comment_count,good_count) values(%s,%s,%s,%s,%s,%s)".format(key),data
        )
        conn.commit()
    except exception as e:
        print(e,'写入数据库时错误')


# 获取数据
def get_all(key,url):
    for i in range(1,51):
        next_url = url+'&pageindex=%s'%i
        res = requests.get(next_url,headers=headers)
        response = etree.html(res.text)
        details = response.xpath('//div[@class="searchitem"]')
        data = []
        print(next_url)
        for detail in details:
            try:
                detail_url = detail.xpath('./h3/a[1]/@href')
                good = detail.xpath('./div/span[3]/text()')
                comments = ['0' if not detail.xpath('./div/span[4]/text()') else detail.xpath('./div/span[4]/text()')[0]]
                views = ['0' if not detail.xpath('./div/span[5]/text()') else detail.xpath('./div/span[5]/text()')[0]]
                res = requests.get(detail_url[0],headers=headers)
                response = etree.html(res.text)
                title = response.xpath('//a[@id="cb_post_title_url"]/text()')[0]
                contents = response.xpath('//div[@id="post_detail"]') if not response.xpath('//div[@class="postbody"]') else response.xpath('//div[@class="postbody"]')
                content = etree.tounicode(contents[0],method='html')
                create_time = response.xpath('//span[@id="post-date"]/text()')[0]
                print(detail_url[0],good[0],comments[0],views[0],title,create_time)
                data.append((title,content,create_time,views[0],comments[0],good[0]))
                time.sleep(2)
            except exception as e:
                print(e,'获取数据错误')
        insert_sqlserver(key,data)

# //*[@id="searchresult"]/div[2]/div[2]/h3/a

# 主函数并创建数据表
def main(key,url):
    cursor.execute("""
    if object_id('%s','u') is not null
        drop table %s
    create table %s(
        id int not null primary key identity(1,1),
        title varchar(500),
        contents text,
        create_time datetime,
        view_count varchar(100),
        comment_count varchar(100),
        good_count varchar(100)
    )
    """%(key,key,key))
    conn.commit()
    get_all(key,url)




if __name__ == '__main__':
    key = 'python'
    url = 'https://zzk.cnblogs.com/s?t=b&w=%s'%key
    main(key,url)
    conn.close()

查看数据库内容：

done

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

python如何查看网页代码

用python查看网页代码的方法：1、使用“import”导入requests包import requests2、使用requests包的get()函数通过网页... [阅读全文]
Python如何用wx模块创建文本编辑器

用python的wx模块创建文本编辑器的方法：1、设置按钮的位置import wxapp = wx.app()win = wx.frame(none,title... [阅读全文]
python如何保存文本文件

python保存文本文件的方法：使用python内置的open()类可以打开文本文件，向文件里面写入数据可以用write()函数，写完之后，使用close()函... [阅读全文]
python如何编写win程序

python可以编写win程序。win程序的格式是exe，下面我们就来看一下使用python编写exe程序的方法。编写好python程序后py2exe模块即可将... [阅读全文]
Python替换NumPy数组中大于某个值的所有元素实例

我有一个2d(二维) numpy数组，并希望用255.0替换大于或等于阈值t的所有值。据我所知，最基础的方法是：shape = arr.shaperesult ... [阅读全文]
使用Numpy对特征中的异常值进行替换及条件替换方式

原始数据为excel文件，由传感器获得，通过pyhton xlrd模块读入，读入后为数组形式，由于其存在部分异常值和缺失值，所以便利用numpy对其中的异常值进... [阅读全文]
Python 实现将numpy中的nan和inf,nan替换成对应的均值

nan：not a numberinf：infinity;正无穷numpy中的nan和inf都是float类型t!=t 返回bool类型的数组(矩阵)np.co... [阅读全文]
给ubuntu18安装python3.7的详细教程

参考文章准备工作安装工具sudo apt updatesudo apt upgradesudo apt install gccsudo apt install ... [阅读全文]
python爬虫把url链接编码成gbk2312格式过程解析

1. 问题　　抓取某个网站，发现请求参数是乱码格式，这是点击 textview，发现请求参数如下图所示3. 那么=%b9%fa%ce%f1%d4%ba%b7%a... [阅读全文]
pyecharts在数据可视化中的应用详解

使用pyecharts进行数据可视化安装 pip install pyecharts也可以在pycharm软件里进行下载pyecharts库包。下载成功后进行查... [阅读全文]

网友评论


验证码：

博客园搜索爬取

2019年12月04日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论