当前位置：移动技术网 > IT编程>脚本编程>Python > python爬取cnvd漏洞库信息的实例

python爬取cnvd漏洞库信息的实例

2019年05月29日 | 移动技术网IT编程 | 我要评论

今天一同事需要整理http://ics.cnvd.org.cn/工控漏洞库里面的信息，一看960多个要整理到什么时候才结束。

所以我决定写个爬虫帮他抓取数据。

看了一下各类信息还是很规则的，感觉应该很好写。

but这个网站设置了各种反爬虫手段。

经过各种百度，还是解决问题了。

设计思路：

1.先抓取每一个漏洞信息对应的网页url

2.获取每个页面的漏洞信息

# -*- coding: utf-8 -*-
import requests
import re
import xlwt
import time
from bs4 import beautifulsoup
headers = {
 'accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
 'accept-encoding': 'gzip, deflate, sdch',
 'accept-language': 'zh-cn,zh;q=0.8',
 'user-agent': 'mozilla/5.0 (windows nt 10.0; wow64) applewebkit/537.36 (khtml, like gecko) chrome/54.0.2840.71 safari/537.36'
}
cookies={'__jsluid':'8d3f4c75f437ca82cdfad85c0f4f7c25'}
myfile=xlwt.workbook()
wtable=myfile.add_sheet(u"信息",cell_overwrite_ok=true)
j = 0
a = 900
for i in range(4):
 url ="http://ics.cnvd.org.cn/?max=20&offset="+str(a)
 r = requests.get(urttp://ics.cnvd.org.cnl,headers=headers,cookies=cookies)
 print r.status_code
 while r.status_code != 200:
  r = requests.get(url,headers=headers,cookies=cookies)
  print r.status_code
 html = r.text
 soup = beautifulsoup(html)
 #print html
 
 for tag in soup.find('tbody',id='tr').find_all('a',href=re.compile('http://www.cnvd.org.cn/flaw/show')):
  print tag.attrs['href']
  wtable.write(j,0,tag.attrs['href'])
  j += 1
 a += 20
 print u"已完成%s"%(a)
filename=str(time.strftime('%y%m%d%h%m%s',time.localtime()))+"url.xls"
myfile.save(filename)
print u"完成%s的url备份"%time.strftime('%y%m%d%h%m%s',time.localtime())

# -*- coding: utf-8 -*-
from selenium import webdriver
import xlrd
import xlwt
from selenium.webdriver.common.by import by
from selenium.webdriver.common.keys import keys
from selenium.webdriver.support.ui import select
from selenium.common.exceptions import nosuchelementexception
from selenium.common.exceptions import noalertpresentexception
import unittest, time, re
 
class gk(unittest.testcase):
 def setup(self):
  self.driver = webdriver.firefox()
  self.driver.implicitly_wait(5)
  self.verificationerrors = []
  self.accept_next_alert = true
 
 def test_gk(self):
  myfile=xlwt.workbook()
  wtable=myfile.add_sheet(u"info",cell_overwrite_ok=true)
  data = xlrd.open_workbook('url.xlsx')
  table = data.sheets()[0]
  nrows = table.nrows
  driver = self.driver
  
  j = 0
  for i in range(nrows):
   try:
    s = []
    driver.get(table.cell(i,0).value)
    title = driver.find_element_by_xpath("//h1").text
    print title
    s.append(title)
    trs = driver.find_element_by_xpath("//tbody").find_elements_by_tag_name('tr')
    for td in trs:
     tds = td.find_elements_by_tag_name("td")
     for tt in tds:
      print tt.text
      s.append(tt.text)
    k = 0
    for info in s:
     wtable.write(j,k,info)
     k += 1
    j += 1
   except:
    filename=str(time.strftime('%y%m%d%h%m%s',time.localtime()))+"url.xls"
    myfile.save(filename)
    print u"异常自动保存%s的漏洞信息备份"%time.strftime('%y%m%d%h%m%s',time.localtime())
   
  filename=str(time.strftime('%y%m%d%h%m%s',time.localtime()))+"url.xls"
  myfile.save(filename)
  print u"完成%s的漏洞信息备份"%time.strftime('%y%m%d%h%m%s',time.localtime())
  
 def is_element_present(self, how, what):
  try: self.driver.find_element(by=how, value=what)
  except nosuchelementexception, e: return false
  return true
 
 def is_alert_present(self):
  try: self.driver.switch_to_alert()
  except noalertpresentexception, e: return false
  return true
 
 def close_alert_and_get_its_text(self):
  try:
   alert = self.driver.switch_to_alert()
   alert_text = alert.text
   if self.accept_next_alert:
    alert.accept()
   else:
    alert.dismiss()
   return alert_text
  finally: self.accept_next_alert = true
 
 def teardown(self):
  self.driver.quit()
  self.assertequal([], self.verificationerrors)
 
if __name__ == "__main__":
 unittest.main()

好了。看看结果怎样！

python爬取cnvd漏洞库信息

ok！剩下手动整理一下，收工！

以上这篇python爬取cnvd漏洞库信息的实例就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持移动技术网。

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

详解C语言和Python中的线程混用

问题你有一个程序需要混合使用c、python和线程，有些线程是在c中创建的，超出了python解释器的控制范围。并且一些线程还使用了python c api... [阅读全文]
Python如何输出警告信息

问题你希望自己的程序能生成警告信息（比如废弃特性或使用问题）。解决方案要输出一个警告消息，可使用 warning.warn() 函数。例如：import war... [阅读全文]
Python如何实现线程间通信

问题你的程序中有多个线程，你需要在这些线程之间安全地交换信息或数据解决方案从一个线程向另一个线程发送数据最安全的方式可能就是使用 queue 库中的队列了。创建... [阅读全文]
Python3以GitHub为例来实现模拟登录和爬取的实例讲解

我们先以一个最简单的实例来了解模拟登录后页面的抓取过程，其原理在于模拟登录后 cookies 的维护。1. 本节目标本节将讲解以 github 为例来实现模拟登... [阅读全文]
Python3爬虫中识别图形验证码的实例讲解

本节我们首先来尝试识别最简单的一种验证码，图形验证码，这种验证码出现的最早，现在也很常见，一般是四位字母或者数字组成的，例如中国知网的注册页面就有类似的验证码，... [阅读全文]
Python3爬虫关于识别检验滑动验证码的实例

上节我们了解了图形验证码的识别，简单的图形验证码我们可以直接利用 tesserocr 来识别，但是近几年又出现了一些新型验证码，如滑动验证码，比较有代表性的就是... [阅读全文]
Python3爬虫关于识别点触点选验证码的实例讲解

上一节我们实现了极验验证码的识别，但是除了极验其实还有另一种常见的且应用广泛的验证码，比较有代表性的就是点触验证码。可能你对这个名字比较陌生，但是肯定见过类似的... [阅读全文]
Python3爬虫里关于识别微博宫格验证码的知识点详解

本节我们来介绍一下新浪微博宫格验证码的识别，此验证码是一种新型交互式验证码，每个宫格之间会有一条指示连线，指示了我们应该的滑动轨迹，我们需要按照滑动轨迹依次从起... [阅读全文]
Python 如何创建一个简单的REST接口

问题你想使用一个简单的rest接口通过网络远程控制或访问你的应用程序，但是你又不想自己去安装一个完整的web框架。解决方案构建一个rest风格的接口最简单的方法... [阅读全文]
Python3爬虫里关于代理的设置总结

在前面我们介绍了多种请求库，如 requests、urllib、selenium 等。我们接下来首先贴近实战，了解一下代理怎么使用，为后面了解代理池、adsl ... [阅读全文]

网友评论


验证码：

python爬取cnvd漏洞库信息的实例

2019年05月29日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论