当前位置：移动技术网 > IT编程>脚本编程>Python > 爬取动态网页时遇到的问题

爬取动态网页时遇到的问题

2018年07月16日 | 移动技术网IT编程 | 我要评论

叶秉恒,冷酷校草的调皮小妹,东张西望照样子写词语

准备爬取太平洋网上的小米手机的评论，因为发现评论已经自动打好标签了，并且对于手机的几种性能表现也打了分，以及详细的评论都有，对于后面自己的工作有帮助，所以就准备爬取这些评论.但发现这个网站的每次点下一页都是相同的URL地址，也就是说源代码只显示第一页的评论内容，对于用requests来爬取网页内容，用这个地址的话无法爬取更多内容。后来查了一下，这是用了Ajax动态加载技术，专门用来动态加载网页内容，实现网页的异步更新。

关于Ajax的比较详细的解释推荐两个链接，比较详细的阐述了这是怎么回事，，。自己说一下我遇到的问题，以及如何既解决的方法，我的问题比较简单就是翻页url地址不变，无法爬取下一页评论的内容。其实这是因为网站的网站隐藏住了url地址后面的参数部分，只显示了地址的主体部分，办法很简单就是找到这些网页url地址被隐藏的参数部分。下面讲一下我的解决步骤：

我爬去的网站是这个，当你点开网站点击下一页，再看看对应的url地址都是一样的没有变化，再看看对应的源代码发现都是一样的，只显示第一页的评论内容，第2，3,4....内容无法找到。开始找网站被隐藏的url参数部分。我用的浏览器时谷歌Chrome浏览器，按F12打开开发者选项，打开找到最上面导航栏network，下面选择All,筛选网页文件类型，这里也可选XHR表示动态网页类型，选择右边的preview来展示网页的内容用来确定我们要找的网页，

我们点击最左侧网页中的下一页就会在边上的对应文件中找到这个网页的代码文件信息，通过preview可以看见这个文件的预览。当我们找到要找的网页时，在点击headers找到我们所要的信息。

Query String Parameters显示了我们请求的网页地址的参数部分，也就是我们网页的主体部分是'http://product.pconline.com.cn/readIntf.jsp?'参数部分是'url:http://pdcmt.pconline.com.cn/front/2015/mtp-list.jsp?productId=1073867&filterBy=-1&itemCfgId=-1&order=2&pageNo=2&vId=432764'，我们打来的网页的完整url地址是 'http://product.pconline.com.cn/readIntf.jsp?url=http%3A%2F%2Fpdcmt.pconline.com.cn%2Ffront%2F2015%2Fmtp-list.jsp%3FproductId%3D1073867%26filterBy%3D-1%26itemCfgId%3D-1%26order%3D2%26pageNo%3D2%26vId%3D432764'。标黄部分就是参数部分。再打开几页评论发现，参数部分的pageNo=1,2,3,4,5...分别代表评论的1，2,3,4.。。页，也就是说我们找到下一页评论网站的页码，改变这个值，就可以进入到不同页面的评论页面了。在编码时为了方便用get(url,params)直接得到完整的url地址，params是参数的字典表示即params={'url':'http://pdcmt.pconline.com.cn/front/2015/mtp-list.jsp?productId=1073867&filterBy=-1&itemCfgId=-1&order=2&pageNo=2&vId=432764'},这时候发现改动pageNo比较困难，所以尝试用这个参数地址试试能不能打开评论页面，结果发现可以打开，只要改动页面值，就可跳到相应的评论页，同样，按F12，找到这个页面对应的Query String Parameters.

可以看见，Query String Parameters.对应是个字典，也可以通过键值对的形式改变字典pageNo的值，来达到访问不同评论网址的目的。下面就是爬取网站内容的工作了，这就是我找隐藏网址的过程。

总结一下，我们就是在找动态网页的时候通过打开开发者选项（F12）,找到要爬取网页文件的header，在Query String Parameters中找到对应的参数部分，最后将url主体部分和参数部分结合一起就能得到完整的url地址了。

下面附一下爬取的代码：

 1 from bs4 import BeautifulSoup
 2 import requests
 3 import re
 4 import pandas as pd
 5 
 6 #太平洋网爬取小米6X的评论
 7 #动态网页爬取（ajax)
 8 
 9 
10 def getHtml(url,data): #只输入URL的主体部分，后面的参数用下面的字典附加上
11     try:
12         r=requests.get(url,params=data)
13         r.raise_for_status()
14         r.encoding=r.apparent_encoding
15         return r.text
16     except:
17         print('爬取失败')
18 
19 def getComment(html):#获得一页的评论
20     commentList=[]
21     soup=BeautifulSoup(html,'html.parser')
22     lines=soup.find_all('dl',attrs={'class':'cmt-content'})#获得一整页所有的评论总的标签内容
23     for line in lines:#对每个评论进行解析，line就是每个评论的总标签内容<di class=cmt_content...>  ...</dl>
24         goal=line.find('strong',attrs={'class':'goal'}).string#得到总评分
25         comm_totall=line.find('div', attrs={'class':'eval-star'}).p.string.strip()#总评价
26         catagory=line.find('ul',attrs={'class':'goal-detail'}).find_all('li')#获得几个属性的评价
27        # print(catagory)
28         a1=catagory[0].string
29         a2 = catagory[1].string
30         a3 = catagory[2].string
31         a4 = catagory[3].string
32         a5 = catagory[4].string
33         comm_detail=line.find('p',attrs={'class':"text"})#具体评价,但这部分内容存在标签与字混合的成分，要把标签替换掉
34         detail_new=re.sub(r'<.*?>','',str(comm_detail))#因为部分内容存在空格\xa0,要去掉这部分空格的代码显示
35         detail=','.join(detail_new.split())#用逗号来将分割的字符串两节起来，join（）函数用来连接字符串数组元素
36         commentList.append([goal,comm_totall,a1,a2,a3,a4,a5,detail])
37     return commentList
38     # print(commentList)
39 
40 def comment(url,num):#获得多个页面的评论
41     data={'productId': 1073867,
42     'filterBy': -1,
43     'itemCfgId': -1,
44     'order': 2,
45     'pageNo': 1,
46     'vId': 432764}
47     comment_all=[]
48     for i in range(1,num+1):
49         data['pageNo']=i
50         html=getHtml(url,data)
51         comment=getComment(html)
52         comment_all+=comment
53         print('页数',i)
54     #print(comment_all)
55     return comment_all
56 
57 if __name__=='__main__':
58     url='http://pdcmt.pconline.com.cn/front/2015/mtp-list.jsp?'
59     a=comment(url,17)
60     print(len(a))
61     name = ['总评分', '总评价','性价比','屏幕','流畅度','电池','相机','细评']
62     test = pd.DataFrame(columns=name, data=a)
63     test.to_csv('D:/mi6x.csv', index=False)  # 去掉默认的行索引index

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

新手学习Python2和Python3中print不同的用法

在python2和python3中都提供print()方法来打印信息,但两个版本间的print稍微有差异主要体现在以下几个方面：1.python3中print是... [阅读全文]
Python基于os.environ从windows获取环境变量

安装python之后，我们往往面临这样一个问题，在命令行输入“python”，竟然出错，难道是没有安装成功吗？非也，其实是你的系统环境变量没有设置好。今天，小编... [阅读全文]
keras实现调用自己训练的模型,并去掉全连接层

其实很简单from keras.models import load_modelbase_model = load_model('model_resenet.h... [阅读全文]
python中def是做什么的

python使用def开始函数定义，紧接着是函数名，括号内部为函数的参数，内部为函数的具体功能实现代码，如果想要函数有返回值, 在expressions中的逻... [阅读全文]
Python xlwt模块使用代码实例

简介写入excle文档安装：pip3 install xlwt导入：import xlwtxlrd 模块方法写入案例import xlwt# 创建对象，设置编码... [阅读全文]
Keras之自定义损失(loss)函数用法说明

在keras中可以自定义损失函数，在自定义损失函数的过程中需要注意的一点是，损失函数的参数形式，这一点在keras中是固定的，须如下形式：def my_loss... [阅读全文]
Python xlrd模块导入过程及常用操作

简介读取excle文档，支持xls，xlsx格式安装：pip3 install xlrd导入：import xlrdxlrd 模块方法读取excelfile =... [阅读全文]
keras打印loss对权重的导数方式

notes怀疑模型梯度爆炸，想打印模型 loss 对各权重的导数看看。如果如果fit来训练的话，可以用keras.callbacks.tensorboard实现... [阅读全文]
keras 使用Lambda 快速新建层添加多个参数操作

keras许多简单操作，都需要新建一个层，使用lambda可以很好完成需求。# 额外参数def normal_reshape(x, shape): return... [阅读全文]
JAVA及PYTHON质数计算代码对比解析

java 实现class primenumber{public static void main(string[] args) {long start=syst... [阅读全文]

网友评论


验证码：

爬取动态网页时遇到的问题

2018年07月16日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论