当前位置：移动技术网 > IT编程>开发语言>PHP > PHP怎样用正则抓取页面中的网址

PHP怎样用正则抓取页面中的网址

2017年12月12日 | 移动技术网IT编程 | 我要评论

前言

链接也就是超级链接，是从一个元素（文字、图片、视频等）链接到另一个元素（文字、图片、视频等）。网页中的链接一般有三种，一种是绝对url超链接，也就是一个页面的完整路径；另一种是相对url超链接，一般都链接到同一网站的其他页面；还有一种是页面内的超链接，这种一般链接到同一页面内的其他位置。

搞清楚了链接的种类，就知道要抓链接，主要还是绝对url超链接和相对url超链接。要写出正确的正则表达式，就必须要了解我们查找的对象的模式。

先说绝对链接，也叫作url（uniform resource locator），标识了互联网上的唯一资源。url的结构包含三部分：协议、服务器名称、路径和文件名。

协议是告诉浏览器如何处理将要打开文件的标识，最常见的就是 http 协议。本文也只考虑http协议，至于其他的 https、ftp、mailto、telnet协议等，根据需要也可以添加。

服务器名称是告诉浏览器如何到达这个服务器的方式，通常是域名或者ip地址，有时还会包含端口号（默认为80）。ftp协议中，也可以包含用户名和密码，本文就不考虑了。

路径和文件名，一般以 / 分割，指出到达这个文件的路径和文件本身的名称。如果没有具体的文件名，则访问这个文件夹下的默认文件（可以在服务器端设置）。

那么现在清楚了，要抓取的绝对链接的典型形式可以概括为

http://www.xxx.com/xxx/yyy/zzz.html

每个部分可以使用的字符范围有明确的规范，具体可以参考rfc1738。那么正则表达式就可以写出来了。

/(http|https):\/\/([\w\d\-_]+[\.\w\d\-_]+)[:\d+]?([\/]?[\w\/\.]+)/i

解释如下：

(http|https)第一个括号内匹配的是协议部分。

([\w\d\-_]+[\.\w\d\-_]+)第二个括号内匹配的是域名部分。

([\/]?[\w\/\.]+)第三个括号内匹配的是相对路径。

写到这个时候，基本上大部分的网址都能匹配到了，但是对于url中带有参数的还不能抓取，这样有可能造成再次访问的时候页面报错。关于参数rfc1738规范中要求是用？来分割，后面带上参数，但是现代的ria应用有可能使用其他奇怪的形式进行分割。

稍微修改一下，这样就可以将查询参数部分搜索出来。这里仍然没有涵盖全部的情况，例如url中有中文、有空格及其他特殊字符的情况，但是基本上能够满足我的需求了，就没有继续深化。

/(http|ftp|https):\/\/([\w\d\-_]+[\.\w\d\-_]+)[:\d+]?([\/]?[\w\/\.\?=&;%@#\+,]+)/i

使用括号的好处是，在处理结果时，可以很容易的获取到协议、域名、相对路径这些内容，方便后续的处理。

例如使用 preg_match_all() 匹配时，结果数组索引0为全部结果、1为协议、2为域名、3为相对路径。

以上就是使用php的正则抓取页面中的网址的全部内容，希望对大家在php使用中有所帮助。

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

Laravel框架下的Contracts契约详解

contractslaravel 的契约是一组定义框架提供的核心服务的接口，例如我们在介绍用户认证的章节中到的用户看守器契约illumninatecontra... [阅读全文]
YII2框架中使用RBAC对模块，控制器，方法的权限控制及规则的使用示例

本文实例讲述了yii2框架中使用rbac对模块，控制器，方法的权限控制及规则的使用。分享给大家供大家参考，具体如下：在使用yii2中自带的rbac时，需要先配置... [阅读全文]
YII2框架中日志的配置与使用方法实例分析

本文实例讲述了yii2框架中日志的配置与使用方法。分享给大家供大家参考，具体如下：yii2中给我们提供了非常方便的日志组件，只需要简单配置一下就可以使用。我们在... [阅读全文]
YII2框架中添加自定义模块的方法实例分析

本文实例讲述了yii2框架中添加自定义模块的方法。分享给大家供大家参考，具体如下：有些时候系统功能过于复杂，这时我们需要通过模块把一些功能区分开来，便于管理与维... [阅读全文]
YII2框架使用控制台命令的方法分析

本文实例讲述了yii2框架使用控制台命令的方法。分享给大家供大家参考，具体如下：有些时候我们需要通过crontab在后台跑一些定时脚本，这时候就需要用到控制台命... [阅读全文]
YII2框架中ActiveDataProvider与GridView的配合使用操作示例

本文实例讲述了yii2框架中activedataprovider与gridview的配合使用操作。分享给大家供大家参考，具体如下：yii2中activedata... [阅读全文]
TP5框架使用QueryList采集框架爬小说操作示例

本文实例讲述了tp5框架使用querylist采集框架爬小说操作。分享给大家供大家参考，具体如下：最近想写一个小说网站，就去搜资料，搜出来tp5可以使用quer... [阅读全文]
PhpStorm的使用教程(本地运行PHP+远程开发+快捷键)

基本配置（萌新看，大佬请跳到下一节）1、创建项目点击create new project创建新的项目，点击open打开已有的项目。先选择左侧的项目类型，在右边选... [阅读全文]
thinkphp框架无限级栏目的排序功能实现方法示例

本文实例讲述了thinkphp框架无限级栏目的排序功能实现方法。分享给大家供大家参考，具体如下：题目中我们并没有说明是tp5的无限级排序还是tp3的无限级排序就... [阅读全文]
TP5框架实现上传多张图片的方法分析

本文实例讲述了tp5框架实现上传多张图片的方法。分享给大家供大家参考，具体如下：1、效果图（每点击一次‘添加选项'，就会有一个新的 file 框来添加新的图片）... [阅读全文]

网友评论


验证码：

PHP怎样用正则抓取页面中的网址

2017年12月12日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论