当前位置：移动技术网 > IT编程>数据库>Redis > 使用Redis实现UA池的方案

使用Redis实现UA池的方案

2020年03月09日 | 移动技术网IT编程 | 我要评论

最近忙于业务开发、交接和游戏，加上碰上了不定时出现的犹豫期和困惑期，荒废学业了一段时间。天冷了，要重新拾起开始下阶段的学习了。之前接触到的一些数据搜索项目，涉及到请求模拟，基于反爬需要使用随机的 user agent ，于是使用 redis 实现了一个十分简易的 ua 池。

背景

最近的一个需求，有模拟请求的逻辑，要求每次请求的请求头中的 user agent 要满足下面几点：

每次获取的 user agent 是随机的。
每次获取的 user agent （短时间内）不能重复。
每次获取的 user agent 必须带有主流的操作系统信息（可以是 uinux 、 windows 、 ios 和安卓等等）。

这里三点都可以从 ua 数据的来源解决，实际上我们应该关注具体的实现方案。简单分析一下，流程如下：

在设计 ua 池的时候，它的数据结构和环形队列十分类似：

上图中，假设不同颜色的 ua 是完全不同的 ua ，它们通过洗牌算法打散放进去环形队列中，实际上每次取出一个 ua 之后，只需要把游标 cursor 前进或者后退一格即可（甚至可以把游标设置到队列中的任意元素）。最终的实现就是：需要通过中间件实现分布式队列（只是队列，不是消息队列）。

具体实现方案

毫无疑问需要一个分布式数据库类型的中间件才能存放已经准备好的 ua ，第一印象就感觉 redis 会比较合适。接下来需要选用 redis 的数据类型，主要考虑几个方面：

ua

支持这几个方面的 redis 数据类型就是 list ，不过注意 list 本身不能去重，去重的工作可以用代码逻辑实现。然后可以想象客户端获取 ua 的流程大致如下：

结合前面的分析，编码过程有如下几步：

准备好需要导入的 ua 数据，可以从数据源读取，也可以直接文件读取。

因为需要导入的 ua 数据集合一般不会太大，考虑先把这个集合的数据随机打散，如果使用 java 开发可以直接使用 collections#shuffle() 洗牌算法，当然也可以自行实现这个数据随机分布的算法，这一步对于一些被模拟方会严格检验 ua 合法性的场景是必须的。
导入 ua 数据到 redis 列表中。
编写 rpop + lpush 的 lua 脚本，实现分布式循环队列。

编码和测试示例

引入 redis 的高级客户端 lettuce 依赖：

<dependency>
  <groupid>io.lettuce</groupid>
  <artifactid>lettuce-core</artifactid>
  <version>5.2.1.release</version>
</dependency>

编写 rpop + lpush 的 lua 脚本， lua 脚本名字暂称为 l_rpop_lpush.lua ，放在 resources/scripts/lua 目录下：

local key = keys[1]
local value = redis.call('rpop', key)
redis.call('lpush', key, value)
return value

这个脚本十分简单，但是已经实现了循环队列的功能。剩下来的测试代码如下：

public class uapooltest {

  private static rediscommands<string, string> commands;

  private static atomicreference<string> lua_sha = new atomicreference<>();
  private static final string key = "ua_pool";

  @beforeclass
  public static void beforeclass() throws exception {
    // 初始化redis客户端
    redisuri uri = redisuri.builder().withhost("localhost").withport(6379).build();
    redisclient redisclient = redisclient.create(uri);
    statefulredisconnection<string, string> connect = redisclient.connect();
    commands = connect.sync();
    // 模拟构建ua池的原始数据,假设有10个ua,分别是ua-0 ... ua-9
    list<string> ualist = lists.newarraylist();
    intstream.range(0, 10).foreach(e -> ualist.add(string.format("ua-%d", e)));
    // 洗牌
    collections.shuffle(ualist);
    // 加载lua脚本
    classpathresource resource = new classpathresource("/scripts/lua/l_rpop_lpush.lua");
    string content = streamutils.copytostring(resource.getinputstream(), standardcharsets.utf_8);
    string sha = commands.scriptload(content);
    lua_sha.compareandset(null, sha);
    // redis队列中写入ua数据,数据量多的时候可以考虑分批写入防止长时间阻塞redis服务
    commands.lpush(key, ualist.toarray(new string[0]));
  }

  @afterclass
  public static void afterclass() throws exception {
    commands.del(key);
  }

  @test
  public void testuapool() {
    intstream.range(1, 21).foreach(e -> {
      string result = commands.evalsha(lua_sha.get(), scriptoutputtype.value, key);
      system.out.println(string.format("第%d次获取到的ua是:%s", e, result));
    });
  }
}

某次运行结果如下：

第1次获取到的ua是:ua-0
第2次获取到的ua是:ua-8
第3次获取到的ua是:ua-2
第4次获取到的ua是:ua-4
第5次获取到的ua是:ua-7
第6次获取到的ua是:ua-5
第7次获取到的ua是:ua-1
第8次获取到的ua是:ua-3
第9次获取到的ua是:ua-6
第10次获取到的ua是:ua-9
第11次获取到的ua是:ua-0
第12次获取到的ua是:ua-8
第13次获取到的ua是:ua-2
第14次获取到的ua是:ua-4
第15次获取到的ua是:ua-7
第16次获取到的ua是:ua-5
第17次获取到的ua是:ua-1
第18次获取到的ua是:ua-3
第19次获取到的ua是:ua-6
第20次获取到的ua是:ua-9

可见洗牌算法的效果不差，数据相对分散。

小结

其实 ua 池的设计难度并不大，需要注意几个要点：

一般主流的移动设备或者桌面设备的系统版本不会太多，所以来源 ua 数据不会太多，最简单的实现可以使用文件存放，一次读取直接写入 redis 中。
注意需要随机打散 ua 数据，避免同一个设备系统类型的 ua 数据过于密集，这样可以避免触发模拟某些请求时候的风控规则。
需要熟悉 lua 的语法，毕竟 redis 的原子指令一定离不开 lua 脚本。

总结

以上所述是小编给大家介绍的使用redis实现ua池的方案，希望对大家有所帮助

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

07.21

1.mongodb内嵌查询。2.redis aof和rdb。3.记录一天下单量(锁和channel选用)。4.g... [阅读全文]
Redis主从模式

Redis有三种集群模式：主从模式、Sentinel模式、Cluster模式主从模式Sentinel模式Clus... [阅读全文]
Zabbix监控

#### 1.zabbix监控日志文件配置[root@localhost ~]# mkdir /scripts/... [阅读全文]
redis 5.0一键搭建redis集群

环境： CentOS7下载并安装redis$ wget http://download.redis.io/rel... [阅读全文]
巨杉数据库与联想信创服务器完成兼容认证

近日，巨杉数据库与联想完成技术兼容和认证工作。经双方共同严格测试，SequoiaDB 巨杉数据库V3.4与联想信... [阅读全文]
Redis再战之AKF、CAP、哨兵机制《七》

文章目录AKF数据一致性（主从复制原理）强一致性弱一致性最终一致性CAP主从集群搭建哨兵机制(过半机制)哨兵之间... [阅读全文]
RabbitMQ 笔记

RabbitMQ 笔记1.1 什么是MQMQ(Message Quene) : 翻译为消息队列,通过典型的 ... [阅读全文]
分库分表实战问题

1.分库分表中水平拆分和垂直拆分的区别？水平拆分：将表数据拆分到不同的数据数据库中。垂直拆分：把一个大表拆成多个... [阅读全文]
星际无限CTO张超：IPFS分布式存储领域仍是蓝海，中链云将开启行业新思路！

“地球人都值得拥有1T”据钛媒体消息，中链云算力APP将在2020年7月下旬正式上线公测。中链云团队来自百度、腾... [阅读全文]
聊聊数据同步

一、简述数据同步，这是一个很宽泛的概念，在互联网或者传统软件公司，一定会遇到数据同步的场景。数据同步一般... [阅读全文]

网友评论


验证码：

使用Redis实现UA池的方案

2020年03月09日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论