当前位置: 移动技术网 > IT编程>脚本编程>Python > python 爬虫之字体反反爬

python 爬虫之字体反反爬

2018年12月03日  | 移动技术网IT编程  | 我要评论

毒爱插曲,白落梅,中国财经

爬虫常用来从某些网站抓取数据, 包括文字,图片等都可能作为爬取目标。通常情况下, 文字数据有更高的价值, 更容易进行后续分析, 所以有些网站就将关键数据以图片, 或者自定义字体形式来展示, 这样一来, 爬虫拿到的数据就会难以分析, 分析成本增高, 收益减少, 就可以降低爬虫制作者的积极性。对于图片, 由于网站需要保证正常用户的体验, 所以不会有太低的识别度, 用普通的ocr即可拿到真实文字数据, 而对于自定义字体形式的反爬措施, 爬虫往往拿到的是一堆我们难以直观分辨出意义的"乱码", 只有与特定的字体文件对照, 才能明白其意义, 所以我们就需要做三件事:

  1. 下载字体文件
  2. 分析字体文件, 确定编码和文字的对应关系
  3. 根据对应关系,完成转换

对于1, 简单情况下, 只需要找到@font-face, 直接通过其src字段指向的链接就可以得到字体文件, 但是更多的网站是不会采用这种方式的, 因为这种方式只要弄到一份字体文件, 确定一次映射关系, 爬虫就畅通无阻了, 根本无法提高爬取成本, 所以大多数网站是用 src: url("data:application/octet-stream;base64, *******")这种64位编码形式来传输字体文件给浏览器的, 这样就可以对每一个页面使用不同的字体文件(主要是不同的映射关系)。对于这种情况, 我们只需要对其base64字符串解码, 得到二进制码即可

 1 import base64
 2 from io import bytesio
 3 from fonttools import ttlib
 4     
 5     
 6 class fontparser:
 7     def __init__(self, b64str):
 8         self._font = ttlib.ttfont(
 9             bytesio(base64.b64decode(b64str)
10         )

对于2, 简单情况下, 网站每次传输的字体文件中编码文件与字体形状(也就是文字)对应关系是不变的, 复杂情况下, 同一编码可能对应不同的字体形状, 为了应付这种情况, 我们只能寻找字体形状与文字的映射关系, 在通过编码确定特定的文字形状来完成映射。这里我用实习僧的字体举例:

首先打开实习僧上任意一个详情页, 检查源代码,检索@font-face, 将其src中的64位编码字符串拷贝下来, 

然后使用fonttools将其保存为xml文件

1 ttlib.ttfont(
2     bytesio(base64.b64decode(b64str)
3 ).savexml('./font.woff')

然后打开该xml文件, 可以看到其结构大致如下:

其中cmap是编码与字体形状的映射关系, glyf是字体形状信息。那么只需要把glyf中的字体形状与特定的文字对应起来就完成了第一阶段的任务, 这里需要借助

这里我只用到了数字, 所以只列举了一部分:

1 _glyph_map_ = {
2     'uni30': 0, 'uni31': 1, 'uni32': 2, 'uni33': 3,
3     'uni34': 4, 'uni35': 5, 'uni36': 6, 'uni37': 7,
4     'uni38': 8, 'uni39': 9, 
5 }

 对于3, 这里给出针对实习僧数字部分字体转换的简单例子

 1 import base64
 2 from io import bytesio
 3 from fonttools import ttlib
 4     
 5 
 6 ## 实习僧字体解析器
 7 class sxsfontparser:
 8     # 字体形状与文字映射关系
 9     _glyph_map_ = {
10         'uni30': '0', 'uni31': '1', 'uni32': '2', 'uni33': '3',
11         'uni34': '4', 'uni35': '5', 'uni36': '6', 'uni37': '7',
12         'uni38': '8', 'uni39': '9', 
13     }
14     # 样品字体
15     _sample_font_str_ = '''
16     
17     '''
18 
19     def __init__(self, b64str):
20         self._sample_font_ = ttlib.ttfont(
21             bytesio(base64.b64decode(self._sample_font_str_))
22         )
23         self._font_ = ttlib.ttfont(
24             bytesio(base64.b64decode(b64str))
25         )
26 
27     def parse_code(self, code):
28         code_uni = self._font_.getbestcmap().get(code, none)
29         if code_uni is none:
30             return chr(code) 
31         code_obj = self._font_['glyf'][code_uni]
32         for uni in self._sample_font_.getglyphnames()[1:-1]:
33             if code_obj == self._sample_font_['glyf'][uni]:
34                 return self._glyph_map_.get(uni, '')
35         return chr(code)
36 
37     def parse_str(self, s):
38         res = ''
39         for c in s:
40             res += self.parse_code(ord(c))
41         return res
42 
43     

 

如对本文有疑问,请在下面进行留言讨论,广大热心网友会与你互动!! 点击进行留言回复

相关文章:

验证码:
移动技术网