当前位置：移动技术网 > IT编程>脚本编程>Python > python用于url解码和中文解析的小脚本(python url decoder)

python用于url解码和中文解析的小脚本(python url decoder)

2019年04月02日 | 移动技术网IT编程 | 我要评论

分集水器,高唐草,一起来看流星雨温思

 
# -*- coding: utf8 -*- 
#! python 
print(repr("测试报警，xxxx是大猪头".decode("utf8").encode("gbk")).replace("\\x","%")) 

注意第一个 decode("utf8") 要与文件声明的编码一样。

最开始对这个问题的接触，来自于一个javascript解谜闯关的小游戏，某一关的提示如下：

刚开始的几关都是很简单很简单的哦～～这一关只是简单的字符串变形而已…..

后面是一大长串开头是%5cu4e0b%5cu4e00%5cu5173%5cu7684这样的字符串。
这种东西以前经常在浏览器的地址栏见到，就是一直不知道怎么转换成能看懂的东东，
网上google了一下，结合python的url解码和unicode解码，解决方式如下:

复制代码代码如下:

import urllib escaped_str="%5cu4e0b%5cu4e00%5cu5173%5cu7684%5cu9875%5cu9762%5cu540d%5cu5b57%5cu662f%5cx20%5cx69%5cx32%5cx6a%5cx62%5cx6a%5cx33%5cx69%5cx34%5cx62%5cx62%5cx35%5cx34%5cx62%5cx35%5cx32%5cx69%5cx62%5cx33%5cx2e%5cx68%5cx74%5cx6d"
print urllib.unquote(escaped_str).decode('unicode-escape') 

最近，我对firefox的autoproxy插件中的gfwlist中的中文词汇（用过代理的同学们，你们懂的）产生了兴趣，然而这些网址都是用url编码的，比如http://zh.wikipedia.org/wiki/%e9%97%a8，需要使用正则表达式将被url编码的中文字符提取出来，写了个小脚本如下：

复制代码代码如下:

import urllib 
import re 
with open("listfile","r") as f: 
    for url_str in f: 
        match=re.compile("((%\w{2}){3,})").findall(url_str) 
        #汉字url编码的样式是：百分号+2个十六进制数，重复3次 

        if match!=none: 
            #如果匹配成功，则将提取出的部分转换为中文 
            for trans in match: 
                print urllib.unquote(trans[0]), 

然而这个脚本仍有一些缺点，对于列表文件中的某些中文字符仍然不能正常解码，比如下面这几行测试代码

复制代码代码如下:

import urllib 
a="http://zh.wikipedia.org/wiki/%bd%f0%b6"
b="http://zh.wikipedia.org/wiki/%e9%97%a8"
de=urllib.unquote 
print de(a),de(b) 

输出结果就是前者可以正确解码，而后者不可以，个人觉得原因可能和big5编码有关，如果谁知道什么解决办法，还请告诉我一下~

以下是补充：

de(a).decode(“gbk”,”ignore”)
de(b).decode(“utf8″,”ignore”)

這樣你可以得到這些字串的unicode編碼。

你用的unquote不是decoder, 你需要作必要的decode和encode。我一直用utf8作我默認環境的，我覺得你大概用的gbk吧，所以後者的解碼你那邊失敗了。猜編碼是很累的事情，如果大家都用utf8倒也好，但是有些人習慣了gb。

參考我這個很古老code裡面的#102-147行給每個decode和encode調用加上(…,”ignore”)。

复制代码代码如下:

def strdecode( string,charset=none ):
     if isinstance(string,unicode):
         return string
     if charset:
         try:
             return string.decode(charset)
         except unicodedecodeerror:
             return _strdecode(string)
     else:
         return _strdecode(string)

def _strdecode(string):
try:

         return string.decode('utf8')
     except unicodedecodeerror:
         try:
             return string.decode('gb2312')
         except unicodedecodeerror:
             try:

                 return string.decode('gbk')
             except unicodedecodeerror:
                 return string.decode('gb18030')

def strencode( string,charset=none ):
     if isinstance(string,str):
         return string
     if charset:
         try:
             return string.encode(charset)
         except unicodeencodeerror:
             return _strencode(string)
     else:
         return _strencode(string)
def _strencode(string):

     try:
         return string.encode('utf8')
     except unicodeencodeerror:
         try:
             return string.encode('gb2312')
         except unicodeencodeerror:
             try:
                 return string.encode('gbk')
             except unicodeencodeerror:
                 return string.encode('gb18030')

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

新手学习Python2和Python3中print不同的用法

在python2和python3中都提供print()方法来打印信息,但两个版本间的print稍微有差异主要体现在以下几个方面：1.python3中print是... [阅读全文]
Python基于os.environ从windows获取环境变量

安装python之后，我们往往面临这样一个问题，在命令行输入“python”，竟然出错，难道是没有安装成功吗？非也，其实是你的系统环境变量没有设置好。今天，小编... [阅读全文]
keras实现调用自己训练的模型,并去掉全连接层

其实很简单from keras.models import load_modelbase_model = load_model('model_resenet.h... [阅读全文]
python中def是做什么的

python使用def开始函数定义，紧接着是函数名，括号内部为函数的参数，内部为函数的具体功能实现代码，如果想要函数有返回值, 在expressions中的逻... [阅读全文]
Python xlwt模块使用代码实例

简介写入excle文档安装：pip3 install xlwt导入：import xlwtxlrd 模块方法写入案例import xlwt# 创建对象，设置编码... [阅读全文]
Keras之自定义损失(loss)函数用法说明

在keras中可以自定义损失函数，在自定义损失函数的过程中需要注意的一点是，损失函数的参数形式，这一点在keras中是固定的，须如下形式：def my_loss... [阅读全文]
Python xlrd模块导入过程及常用操作

简介读取excle文档，支持xls，xlsx格式安装：pip3 install xlrd导入：import xlrdxlrd 模块方法读取excelfile =... [阅读全文]
keras打印loss对权重的导数方式

notes怀疑模型梯度爆炸，想打印模型 loss 对各权重的导数看看。如果如果fit来训练的话，可以用keras.callbacks.tensorboard实现... [阅读全文]
keras 使用Lambda 快速新建层添加多个参数操作

keras许多简单操作，都需要新建一个层，使用lambda可以很好完成需求。# 额外参数def normal_reshape(x, shape): return... [阅读全文]
JAVA及PYTHON质数计算代码对比解析

java 实现class primenumber{public static void main(string[] args) {long start=syst... [阅读全文]

网友评论


验证码：

python用于url解码和中文解析的小脚本(python url decoder)

2019年04月02日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论