当前位置：移动技术网 > IT编程>脚本编程>VBScript > vbs结合wget 实现下载网站图片

vbs结合wget 实现下载网站图片

2017年12月01日 | 移动技术网IT编程 | 我要评论

vbs 函数过程：
1. 调用wget: 下载网站所有页面到本脚本目录 ……
2. 扫描本脚本目录中所有文件 ……
3. 读取本脚本目录中的所有网页，匹配图片 url 地址 ……
4. 保存所有图片 url 地址到 url-img.txt 文件 ……
5. 调用wget: 下载 url-img.txt 指定的图片到本脚本 img 目录 ……

' wget_img.vbs
call main()
sub main()

 ' cmd 模式
 if not (lcase(right(wscript.fullname,11)) = lcase("cscript.exe")) then
  createobject("wscript.shell").run "cscript.exe //nologo """ & wscript.scriptfullname & """", 1, false
  wscript.quit(1)
 end if
 
 dim wso, strmedir
 set wso = wscript.createobject("wscript.shell")
 strmedir = left(wscript.scriptfullname, instrrev(wscript.scriptfullname,"\")-1)
 ' 启动 wget下载网站所有页面到本脚本目录的 720.hao2046.net 文件夹
 wscript.echo "1. 启动 wget下载网站所有页面到本脚本目录的 720.hao2046.net 文件夹 ……"
 wso.run "wget -r -p -k -c -x -a=jpg,htm,html 720.hao2046.net -p """ & strmedir & """", 1, true

 ' 扫描 720.hao2046.net 文件夹中所有文件
 wscript.echo "2. 扫描 720.hao2046.net 文件夹中所有文件 ……"
 dim strfolderspec, strhtml, strurl
 dim arr() : redim preserve arr(0)
 strfolderspec = strmedir & "\720.hao2046.net"
 call scanfolder(arr, strfolderspec)
 
 ' 建立正则表达式。
 dim regex
 set regex = createobject("vbscript.regexp")   ' 建立正则表达式。
 regex.ignorecase = true   ' 设置是否区分大小写。
 regex.global = true     ' 设置全局替换。
 regex.multiline = true   ' 设置多行匹配模式
 
 ' 查找所有文件
 wscript.echo "3. 读取 720.hao2046.net 文件夹中的所有网页，匹配图片 url 地址 ……"
 for i = 0 to ubound(arr)
   if lcase(right(arr(i),5)) = ".html" or lcase(right(arr(i),4)) = ".htm" then
     ' 读取文件，匹配图片 url 地址
     strhtml = readpfile(arr(i), "gb2312")
     regex.pattern = "src=['""]http://\s+\.jpg['""]"
     set matches = regex.execute(strhtml)   ' 执行搜索。
     for each match in matches ' 遍历匹配集合。
       if not match.value = "" then
         regex.pattern = "(src=['""])*(['""])*"
         strurl = strurl & regex.replace(match.value, "") & vbcrlf
       end if
     next
   end if
 next
 
 ' 保存所有图片 url 地址
 wscript.echo "4. 保存所有图片 url 地址到 url-img.txt 文件 ……"
 call savepfile(strmedir & "\url-img.txt", "utf-8", strurl) 
 
 ' 启动 wget 下载图片到本脚本 img 目录
 wscript.echo "5. 启动 wget 下载 url-img.txt 指定的图片到本脚本 img 目录 ……"
 wso.run "wget -c -x -t 5 -i """ & strmedir & "\url-img.txt"" -p """ & strmedir & "\img""", 1, true
 
 msgbox "完成！"
end sub

'===========================================================================================
'按编码读取txt文件内容
function readpfile(byval filename, byval filecode)
  dim objstream
  set objstream = createobject("adodb.stream")
  '
  with objstream
    .type = 2
    .mode = 3
    .open
    .charset = filecode   '不同编码时自己换,chinese (simplified) (gb2312),中文 gbk ,繁体中文 big5 ,日文 euc-jp ,韩文 euc-kr,charset=utf-8(国际化编码),ansi,unicode,unicode big endian
    .loadfromfile filename
     readpfile = .readtext
    .close
  end with
  set objstream = nothing
end function

'===========================================================================================
'保存文件为unicode格式文本
function savepfile(byval filename, byval filecode, byval textstring)
  dim objstream
  set objstream = createobject("adodb.stream")
  with objstream
    .type = 2
    .mode = 3
    .charset = filecode   '不同编码时自己换,chinese (simplified) (gb2312),中文 gbk ,繁体中文 big5 ,日文 euc-jp ,韩文 euc-kr,charset=utf-8(国际化编码),ansi,unicode,unicode big endian
    .open
    .writetext textstring
    .savetofile filename, 2
    .close
  end with
  set objstream = nothing
end function

'  dim arr() : redim preserve arr(0)
'  call scanfolder(arr, "v:\")
sub scanfolder(byref arr, byval strfolderspec)
  on error resume next
  dim fso, objfolder
  set fso = createobject("scripting.filesystemobject")
  set objfolder = fso.getfolder(strfolderspec)
  redim preserve arr(ubound(arr)+1)
  arr(ubound(arr)) = strfolderspec & "\"
  for each subfile in objfolder.files
    redim preserve arr(ubound(arr)+1)
    arr(ubound(arr)) = subfile.path
  next
  for each subfolder in objfolder.subfolders
    scanfolder arr, subfolder.path
  next
  set fso = nothing
  set objfolder = nothing
end sub

附网页文件查找字符串代码(findstr_html.vbs)：

' findstr_html.vbs
call main()
sub main()

 ' cmd 模式
 if not (lcase(right(wscript.fullname,11)) = lcase("cscript.exe")) then
  createobject("wscript.shell").run "cscript.exe //nologo """ & wscript.scriptfullname & """", 1, false
  wscript.quit(1)
 end if

 dim strmedir
 strmedir = left(wscript.scriptfullname, instrrev(wscript.scriptfullname,"\")-1)
 dim regex, strhtml, strurl
 
 ' 扫描文件夹
 dim arr() : redim preserve arr(0)
 call scanfolder(arr, strmedir & "\720.hao2046.net")
 if ubound(arr) = 0 then
  wscript.echo strmedir & "\720.hao2046.net" & ", not found!"
  exit sub
 end if

 ' 建立正则表达式。
 set regex = createobject("vbscript.regexp")   ' 建立正则表达式。
 regex.ignorecase = true   ' 设置是否区分大小写。
 regex.global = true     ' 设置全局替换。
 regex.multiline = true   ' 设置多行匹配模式
 
 
 do
  strpattern = inputbox("请输入要匹配的正则表达式：","查找所有网页文件","123456")
  strinfo = strpattern & vbcrlf & "not found!"
  for i = 0 to ubound(arr)
   if lcase(right(arr(i),5)) = ".html" or lcase(right(arr(i),4)) = ".htm" then
    'wscript.echo arr(i)
    strhtml = readpfile(arr(i), "gb2312")
    if instr(strhtml, strpattern)>0 then
     strinfo = strpattern & vbcrlf & arr(i) & vbcrlf
     exit for
    else
     'regex.pattern = "src=['""]http://\s+\.jpg['""]"
     regex.pattern = strpattern
     set matches = regex.execute(strhtml)   ' 执行搜索。
     for each match in matches ' 遍历匹配集合。
      if not match.value = "" then
       'regex.pattern = "(src=['""])*(['""])*"
       'strurl = strurl & regex.replace(match.value, "") & vbcrlf
       strinfo = strpattern & vbcrlf & arr(i) & vbcrlf
       exit for
      end if
     next
    end if
   end if
  next
  wscript.echo strinfo
  loop
end sub


'===========================================================================================
'按编码读取txt文件内容
function readpfile(byval filename, byval filecode)
  dim objstream
  set objstream = createobject("adodb.stream")
  '
  with objstream
    .type = 2
    .mode = 3
    .open
    .charset = filecode   '不同编码时自己换,chinese (simplified) (gb2312),中文 gbk ,繁体中文 big5 ,日文 euc-jp ,韩文 euc-kr,charset=utf-8(国际化编码),ansi,unicode,unicode big endian
    .loadfromfile filename
     readpfile = .readtext
    .close
  end with
  set objstream = nothing
end function

'  dim arr() : redim preserve arr(0)
'  call scanfolder(arr, "v:\")
sub scanfolder(byref arr, byval strfolderspec)
  on error resume next
  dim fso, objfolder
  set fso = createobject("scripting.filesystemobject")
  set objfolder = fso.getfolder(strfolderspec)
  redim preserve arr(ubound(arr)+1)
  arr(ubound(arr)) = strfolderspec & "\"
  for each subfile in objfolder.files
    redim preserve arr(ubound(arr)+1)
    arr(ubound(arr)) = subfile.path
  next
  for each subfolder in objfolder.subfolders
    scanfolder arr, subfolder.path
  next
  set fso = nothing
  set objfolder = nothing
end sub

提示：
1. 警告：请不要直接运行代码，这里的示范网址可能无法访问、或缺乏安全性，请改为其他网址再使用。
2. 请将 wget.exe 放置于脚本同一目录下，然后执行。文件结构如下：
..\wget.exe
..\wget_img.vbs
..\findstr_html.vbs

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

vbs 复制指定文件到指定目录下

复制指定文件到指定目录下核心代码 set fso=createobject("scripting.filesystemobject... [阅读全文]
Vbs备份指定文件到指定目录并且以日期重命名的实现代码

说到备份，相信大家都会想到的第一个方法就是通过windows系统自带的window backup功能进行数据备份。后来微软又出了system c... [阅读全文]
VBS递归创建多级目录文件夹的方法

核心代码 createfolders "d:\jb51test\1\2\3\4\5" function createfolde... [阅读全文]
VBS日期(时间)格式化函数代码

核心代码 currenttimestr1 = cstr(year(now()))&"-"&right("0"&month(now())... [阅读全文]
用vbs实现文本循环读取

因为测试中需要读取一批url数据进行浏览，其实使用qtp本身的table能实现多种读取方式，但是因为需要tabel是使用excel保存的，在没有... [阅读全文]
磁盘IO利用率监控VBS脚本(windows)

核心代码 '程序名称: btlwchk_diskio.vbs '版权信息... [阅读全文]
监测windows主机网络接口利用率的vbs代码

btlwchk_netinterface.vbs '程序名称: btlwc... [阅读全文]
vbs定期监控值个班，定期瞄一下

系统：windows 7 引言有些时候需要定期去执行一段程序，怎么办？这里提供一个方法，虽然有点绕，但效果还不错时间控制部分使用vbs... [阅读全文]
VBS怎么获取指定目录下的文件列表

vbs肿么获取某目录下的文件列表 dim filename,fs,foldername foldername = inputbox(... [阅读全文]
运行vbs脚本报错无效字符、中文乱码的解决方法(编码问题)

代码没有问题，总是报这样的错误。测试代码 msgbox "移动技术网" 很简单的代码，但如果编码不对问题就很多中文乱码问题 ... [阅读全文]

网友评论


验证码：

vbs结合wget 实现下载网站图片

2017年12月01日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论