用Python程序抓取网页的HTML信息的一个小实例_Python

用Python程序抓取网页的HTML信息的一个小实例

抓取网页数据的思路有好多种，一般有：直接代码请求http、模拟浏览器请求数据（通常需要登录验证）、控制浏览器实现数据抓取等。这篇不考虑复杂情况，放一个读取简单网页数据的小例子：
目标数据

将ittf网站上这个页面上所有这些选手的超链接保存下来。

201552150315618.png (600×587)

数据请求

真的很喜欢符合人类思维的库，比如requests，如果是要直接拿网页文本，一句话搞定：

doc = requests.get(url).text

解析html获得数据

以beautifulsoup为例，包含获取标签、链接，以及根据html层次结构遍历等方法。参考见这里。下面这个片段，从ittf网站上获取指定页面上指定位置的链接。

url = 'http://www.ittf.com/ittf_ranking/wr_table_3_a2.asp?age_category_1=&age_category_2=&age_category_3=&age_category_4=&age_category_5=&category=100w&cont=&country=&gender=w&month1=4&year1=2015&s_player_name=&formv_wr_table_3_page='+str(page)
doc = requests.get(url).text
soup = beautifulsoup(doc)
atags = soup.find_all('a')
rank_link_pre = 'http://www.ittf.com/ittf_ranking/'

mlfile = open(linkfile,'a')
for atag in atags:
  #print atag
  if atag!=none and atag.get('href') != none:
    if "wr_table_3_a2_details.asp" in atag['href']:
      link = rank_link_pre + atag['href']
      links.append(link)
      mlfile.write(link+'\n')
      print 'fetch link: '+link
mlfile.close()

您可能感兴趣的文章:

如您对本文有疑问或者有任何想说的，请点击进行留言回复，万千网友为您解惑！

使用py-spy解决scrapy卡死的问题方法

背景在使用scrapy爬取东西的时候，使用crontab定时的启动爬虫，但是发现机器上经常产生很多卡死的scrapy进程，一段时间不管的话，会导致有10几个进程... [阅读全文]

Python 串口通信的实现

串口通信是指外设和计算机间，通过数据信号线、地线、控制线等，按位进行传输数据的一种通讯方式。这种通信方式使用的数据线少，在远距离通信中可以节约通信成本，但其传... [阅读全文]

python如何调用百度识图api

一.先去百度识别官网注册开通服务且获得ak和sk链接:https://cloud.baidu.com/doc/reference/s/9jwvz2egb二.代码... [阅读全文]

如何使用python写截屏小工具

前言今天我看了一下自己的文件夹，发现了自己写了许多似乎很无聊的代码。于是乎，一个想法油然而生：“生活已经很无聊了，不如再无聊一点叭”。说干就干，那就开一个专题，... [阅读全文]

详解用python -m http.server搭一个简易的本地局域网

工作时同事间几mb小文件的传输，一般使用qq或者微信就足够了，但当传输文件几百mb或者几十g时，这种方法的效率就显得不足了。本篇就是简单说明一个python小功... [阅读全文]

Python爬取网页信息的示例

python爬取网页信息的步骤以爬取英文名字网站（）中每个名字的评论内容，包括英文名，用户名，评论的时间和评论的内容为例。1、确认网址在浏览器中输入初始网址，逐... [阅读全文]

python 绘制正态曲线的示例

import numpy as npimport matplotlib.pyplot as pltimport math# python实现正态分布# 绘制正态... [阅读全文]

python实现人性化显示金额数字实例详解

我们在开发过程中，有时候需要把float，int型等数字作为金额类型数字显示会出现很多问题，比如float会显示成 965868.4599999，int型没有小... [阅读全文]

matplotlib设置颜色、标记、线条,让你的图像更加丰富(推荐)

matplotlib 是 python 的绘图库。它可与 numpy 一起使用，提供了一种有效的 matlab 开源替代方案。它也可以和图形工具包一起使用，... [阅读全文]

如何基于pandas读取csv后合并两个股票

最近在研究螺纹钢与铁矿石的比价变化，所以用python写个代码分析一下。数据文件：数据下载自网络。代码：中间有些没用的，看官们请忽略，那是我从另一个文件直接复制... [阅读全文]


验证码：

验证码：

用Python程序抓取网页的HTML信息的一个小实例

2019年06月14日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论