当前位置：移动技术网 > IT编程>脚本编程>Python > python读取html中指定元素生成excle文件示例

python读取html中指定元素生成excle文件示例

2019年03月31日 | 移动技术网IT编程 | 我要评论

python2.7编写的读取html中指定元素，并生成excle文件

#coding=gbk
import string
import codecs
import os,time
import xlwt
import xlrd
from bs4 import beautifulsoup
from xlrd import open_workbook

class logmsg:
        def __init__(self,logfile,level=0):
                try:
                        import logging
                        #self.logger = none
                        self.logger = logging.getlogger()
                        self.hdlr = logging.filehandler(logfile)
                        formatter = logging.formatter("[%(asctime)s]: %(message)s","%y%m%d %h:%m:%s")
                        self.hdlr.setformatter(formatter)
                        self.logger.addhandler(self.hdlr)
                        #logger.setlevel()
                        if level == 10:
                                self.logger.setlevel(logging.debug)
                        elif level == 20:
                                self.logger.setlevel(logging.info)
                        elif level == 30:
                                self.logger.setlevel(logging.warning)
                        elif level == 40:
                                self.logger.setlevel(logging.error)
                        elif level == 50:
                                self.logger.setlevel(logging.critical)
                        else:
                                self.logger.setlevel(logging.notset)
                except:
                        print "log init error!"
                        exit(1)

        def output(self,loginfo):
                level = self.logger.geteffectivelevel()
                try:
                        if level == 10:
                                self.logger.debug(loginfo)
                        elif level == 20:
                                self.logger.info(loginfo)
                        elif level == 30:
                                self.logger.warning(loginfo)
                        elif level == 40:
                                self.logger.error(loginfo)
                        elif level == 50:
                                self.logger.critical(loginfo)
                        else:
                                self.logger.info(loginfo)
                except:
                        print "log output error!"
                        exit(1)

        def close(self):
                try:
                #logging.shutdown([self.hdlr])
                        self.logger.removehandler(self.hdlr)
                except:
                        print "log closed error!"
                        exit(1)

logtime = time.strftime("%y%m%d%h%m%s",time.localtime())
logfiletime = time.strftime("%y%m%d",time.localtime())
logfile = '/data/pyexample/logs/htmlparser_%s.log' % logfiletime
log = logmsg(logfile,20)

datapath = '/data/pyexample/'
xlsname = 'dangjian_'+logtime+'.xls'

if __name__ == '__main__':

    wbk = xlwt.workbook(encoding = 'gbk')
    sheet = wbk.add_sheet('基本内容导入模板')
    sheet.write(0,0,'内容类型 ')
    sheet.write(0,1,'栏目名称')
    sheet.write(0,2,'栏目编号')
    sheet.write(0,3,'内容名称')
    sheet.write(0,4,'时长')
    sheet.write(0,5,'关键字')
    sheet.write(0,6,'看点')
    sheet.write(0,7,'作者')
    sheet.write(0,8,'来源')
    sheet.write(0,9,'子内容1')
    sheet.write(0,10,'子内容2')
    xlscontent = []
    files = os.listdir(datapath)
    k = 0
    for f in files:
        if os.path.splitext(f)[1] == '.html':
            content=[]
            log.output('当前文件：'+f)
            htmlfile =codecs.open(datapath+f,'r','gbk')
            lines = htmlfile.readlines()
            if not lines:
                log.output ('not line')
            for line in lines:
                if line.strip()=='\n':
                    log.output('该处是空行')
                else:
                    line = line.replace(' ','')
                    soup = beautifulsoup(line)
                    for tdd in soup.findall('td'):
                        #print tdd.text.encode("gbk")
                        content.append(tdd.text.encode("gbk"))
                #print line.encode('gbk')
            htmlfile.close()
            for i in content:
                print content.index(i),',',i
                log.output(i)
                log.output(content.index(i))
            print '----------------------------------------'

            foldername = content[6]
            contentname= content[4]
            duration =    filter(str.isdigit, content[16])
            int_duration = string.atoi(duration)*60
            str_duration = "%i"%int_duration
            keyword =     content[6]
            desciption = content[36]
            videoname_1 = content[10]
            print foldername
            print contentname
            print str_duration
            print keyword
            print desciption
            print videoname_1
            log.output('输出xls数据：'+','+foldername+',,'+contentname+','+str_duration+','+keyword+','+desciption+',管理员,华数编辑,'+videoname_1+',,')
            print k
            sheet.write(k+1,0,'')
            sheet.write(k+1,1,foldername)
            sheet.write(k+1,2,'')
            sheet.write(k+1,3,contentname)
            sheet.write(k+1,4,str_duration)
            sheet.write(k+1,5,keyword)
            sheet.write(k+1,6,desciption)
            sheet.write(k+1,7,'管理员')
            sheet.write(k+1,8,'华数编辑')
            sheet.write(k+1,9,videoname_1)
            sheet.write(k+1,10,'')
            k+=1

    wbk.save(datapath + xlsname)

    print '========================================='

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

序列化Python对象的方法

问题你需要将一个python对象序列化为一个字节流，以便将它保存到一个文件、存储到数据库或者通过网络传输它。解决方案对于序列化最普遍的做法就是使用 pickle... [阅读全文]
Python实现弹球小游戏

本文主要给大家分享一个实战项目，通过python代码写一款我们儿时大多数人玩过的游戏---小弹球游戏。只不过当时，我们是在游戏机上玩，现在我们通过运行代码来玩，... [阅读全文]
Python Flask异步发送邮件实现方法解析

第一步，修改工厂函数，配置邮件参数from flask import flaskfrom config import configfrom flask_sqla... [阅读全文]
Python sqlalchemy时间戳及密码管理实现代码详解

一、时间戳实际开发中，我们一般希望create_time和update_time这两个属性能自动设置，所以在建表的时候需要在model上特殊处理一下：from ... [阅读全文]
python中的django是做什么的

django是什么？django是一个基于python的web应用框架。它与python的另外一个web 框架 flask最大的区别是，它奉行 “包含一切” 的... [阅读全文]
Python过滤序列元素的方法

问题你有一个数据序列，想利用一些规则从中提取出需要的值或者是缩短序列解决方案最简单的过滤序列元素的方法就是使用列表推导。比如：>>> myli... [阅读全文]
python中selenium库的基本使用详解

什么是seleniumselenium 是一个用于web应用程序测试的工具。selenium测试直接运行在浏览器中，就像真正的用户在操作一样。支持的浏览器包括i... [阅读全文]
Python在字符串中处理html和xml的方法

问题你想将html或者xml实体如 &entity; 或 &#code; 替换为对应的文本。再者，你需要转换文本中特定的字符(比如<, ... [阅读全文]
Python如何将字符串转换为日期

问题你的应用程序接受字符串格式的输入，但是你想将它们转换为 datetime 对象以便在上面执行非字符串操作。解决方案使用python的标准模块 datetim... [阅读全文]
Python使用shutil模块实现文件拷贝

主要作用与拷贝文件用的。1.shutil.copyfileobj(文件1，文件2)：将文件1的数据覆盖copy给文件2。import shutilf1 = op... [阅读全文]

网友评论


验证码：

python读取html中指定元素生成excle文件示例

2019年03月31日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论