当前位置：移动技术网 > IT编程>脚本编程>Go语言 > go-爬段子

go-爬段子

2019年12月07日 | 移动技术网IT编程 | 我要评论

爬取搞笑的段子，横向爬取+纵向爬取

横向爬取爬页数，纵向爬取，爬每页的内容

package main

import (
    "fmt"
    "io"
    "net/http"
    "os"
    "regexp"
    "strconv"
    "strings"
)

func httpget(url string) (result string, err error) {
    resp, err1 := http.get(url)
    if err1 != nil {
        err = err1
        return
    }
    defer resp.body.close()
    buf := make([]byte, 4096)
    for {
        n, err2 := resp.body.read(buf)
        if n == 0 {
            break
        }
        if err2 != nil && err2 != io.eof {
            err = err2
            return
        }
        result += string(buf[:n])
    }
    return
}

func savejoke2file(idx int, filetitle, filecontent []string) {
    path := "第" + strconv.itoa(idx) + "页.txt"
    f, err := os.create(path)
    if err != nil {
        fmt.println("err:", err)
        return
    }
    defer f.close()
    n := len(filetitle)
    for i := 0; i < n; i++ {
        f.writestring(filetitle[i] + "\n" + filecontent[i] + "\n")
        f.writestring("-----------------------------\n")
    }
}

//抓取一个网页
func spiderpage(idx int, page chan int) {
    url := "https://m.pengfue.com/xiaohua_" + strconv.itoa(idx) + ".html"

    result, err := httpget(url)
    if err != nil {
        fmt.println("httpget err", err)
        return
    }

    ret := regexp.mustcompile(`<h1 class="f18"><a href="(?s:(.*?))"`)

    alls := ret.findallstringsubmatch(result, -1)

    filetitle := make([]string, 0)
    filecontent := make([]string, 0)

    for _, jokeurl := range alls {
        //      fmt.println("jokeurl", jokeurl[1])
        title, content, err := spiderjokepage(jokeurl[1])

        if err != nil {
            fmt.println("err:", err)
            continue
        }

        //      fmt.println("title:", title)
        //      fmt.println("content:", content)
        filetitle = append(filetitle, title)
        filecontent = append(filecontent, content)
    }
    savejoke2file(idx, filetitle, filecontent)

    page <- idx
}

func towork(start, end int) {
    fmt.printf("正在爬取%d到%d页。。。\n", start, end)

    page := make(chan int)

    for i := start; i <= end; i++ {
        //      title, content, err := spiderpage(i)
        go spiderpage(i, page)
        //      if err != nil {
        //          fmt.println("err:", err)
        //          continue
        //      }
        //      fmt.println("title:", title)
        //      fmt.println("content:", content)
    }
    for i := start; i <= end; i++ {
        fmt.printf("第%d个页面爬取完成\n", <-page)
    }
}

func spiderjokepage(url string) (title, content string, err error) {
    result, err1 := httpget(url)
    if err1 != nil {
        //      fmt.println("httpget err", err)
        err = err1
        return
    }
    ret1 := regexp.mustcompile(`<title>(?s:(.*?))</title>`)

    alls := ret1.findallstringsubmatch(result, 1) //两处，取一个
    for _, timtitle := range alls {
        title = timtitle[1]
        title = strings.replace(title, " ", "", -1)
        title = strings.replace(title, "\n", "", -1)
        break
    }

    ret2 := regexp.mustcompile(`<div class="con-txt">(?s:(.*?))</div>`)

    alls2 := ret2.findallstringsubmatch(result, 1) //两处，取一个
    for _, timtitle := range alls2 {
        content = timtitle[1]
        content = strings.replace(content, " ", "", -1)
        content = strings.replace(content, "\n", "", -1)
        content = strings.replace(content, "    ", "", -1)
        content = strings.replace(content, "&nbsp;", "", -1)
        break
    }
    return
}

func main() {
    var start, end int
    fmt.print("请输入起始页。。。")
    fmt.scan(&start)
    fmt.print("请输入终止页。。。")
    fmt.scan(&end)

    towork(start, end)
}

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

详解go 动态数组二维动态数组

go使用动态数组还有点麻烦，比python麻烦一点，需要先定义。动态数组申明var dynaarr []string动态数组添加成员dynaarr = appe... [阅读全文]
Go语言实现基于websocket浏览器通知功能

当我们使用了websocket技术实现了实时的推送访客来到消息,但是我们只能随时看着页面不离开才能知道有访客来到现在增加浏览器的通知消息,就可以只要打开着界面,... [阅读全文]
详解Go语言中关于包导入必学的 8 个知识点

1. 单行导入与多行导入在 go 语言中，一个包可包含多个 .go 文件（这些文件必须得在同一级文件夹中），只要这些 .go 文件的头部都使用 package ... [阅读全文]
go语言入门基础（变量声明和常量使用）

最近慢慢开始接触go语言，感觉这门21世纪的C语言非常的喜欢，开始尝试学习的一点笔记，和大家分享下，往各位大佬指... [阅读全文]
Apollo实操

基于Apollo开发套件Apollo硬件连接集成Apollo推荐硬件平台以及车辆认证平台Apollo硬件开发平台... [阅读全文]
小团队大开发：iogo微服务集群框架（golang/grpc/http/protobuf/etcd/freetoo/5G物联网/服务发现/负载均衡/一致性哈希/码客/广西南宁卢益贵）

小团队大开发：iogo微服务集群框架KeyWord: iogo,golang,grpc,protobuf,etc... [阅读全文]
Golang 变量申明的三种方式

golang 申明变量主要有三种方式：一是使用 var 关键字，申明包级或函数级变量；二是使用短变量申明方式，只能申明函数级变量，且需指明变量值；三是使用 co... [阅读全文]
[Golang] packetbeat 二次开发-移植（二）

因为我们这个代码目的是和HIDS结合。我们这里已经算是完成了协议解析的部分内容。然后我们就需要把读取数据的逻辑直... [阅读全文]
golang包的日常（2）——log包

普通使用log包定义了Logger类型，该类型提供了一些格式化输出的方法。log包中预定义了一个标准logger... [阅读全文]
golang 通过字符串动态调用对应结构体下的方法

golang 通过字符串动态调用对应结构体下的方法package mainimport ("fmt""refl... [阅读全文]

网友评论


验证码：

go-爬段子

2019年12月07日 | 移动技术网IT编程 | 我要评论

爬取搞笑的段子，横向爬取+纵向爬取

您可能感兴趣的文章:

相关文章:

网友评论