当前位置：移动技术网 > IT编程>脚本编程>Python > Python实战项目：抓取琼斯指数股票信息

Python实战项目：抓取琼斯指数股票信息

2020年07月16日 | 移动技术网IT编程 | 我要评论

Python实战项目：抓取琼斯指数股票信息

实战要求：
源码：
运行截图：

实战要求：

在这里插入图片描述
需要抓取的股票信息：

需求：
1.获取股票代码 ------------数组的索引
2.获取前5行的股票数据 -----------数组的切片
3.返回第一只股票的股价 ----------数组的索引行索引列索引
4.计算平均的股价 ---------------np.mean()
5.找出股价大于180的公司的名称 ---- bool_索引 arr>180
6.找出股票前三名的公司-------------sort() 取出前三个

源码：

很简单，先打开开发者工具，获得信息的html信息，然后代码在前面也有演示，贴一个链接：
Python菜鸟爬虫技巧（定个小目标，先爬他一个亿）
Python爬取豆瓣电影评分Top250
不过多赘述，直接上源码：

import codecs
import csv
import numpy as np
import requests
from lxml import etree

file = codecs.open('./code.csv','w',encoding='utf-8')
wr = csv.writer(file)
wr.writerow(['name','code','price'])

num=1
while num <=2:
    url='https://money.cnn.com/data/markets/dow/?page='+str(num)
    header = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'
    }
    response=requests.get(url,headers = header)
    obj = etree.HTML(response.text)
    item = obj.xpath('.//div[@class="mod-quoteinfo"]/div[3]/div[3]/div[1]/table/tbody/tr')
    for i in item:
        try:
            name=i.xpath('./td[1]/text()')[0].strip()
            #print("公司名字:",name)
        except:
            pass
        try:
            code=i.xpath('./td[1]/a')[0].text
            #print("股票代码:",code)
        except:
            pass
        try:
            price=i.xpath('./td[2]/span')[0].text
            #print("价格:",price)
        except:
            pass
        wr.writerow([name,code,price])
        data = np.loadtxt('./code.csv',dtype=np.str,delimiter=',') 
    num = num+1
print(data)

数据处理部分代码：

#1.获取股票代码
data_list = data.tolist()[1:]
code = [i[1] for i in data_list]
print(code)
print('-------------------------------------')
#2.获取前五行的股票数据
print(data[1:6])
print('-------------------------------------')
#3.返回第一只股票的股价
print(data[1][2])
print('-------------------------------------')
#4.计算平均的股价
price=[i[2] for i in data_list]
price_arr=np.array(price,dtype=np.float64)
print(price_arr.mean())
print('-------------------------------------')
#5.找出股价大于180的公司的名称
bool_arr=price_arr>180
company=[i[0] for i in data_list]
company_arr=np.array(company)
print(company_arr[bool_arr])
print('-------------------------------------')
#6.找出股价前三名公司
sort_price_arr=np.sort(price_arr)
one=sort_price_arr[-1]
two=sort_price_arr[-2]
three=sort_price_arr[-3]

one_bool_arr=price_arr==one
two_bool_arr=price_arr==two
three_bool_arr=price_arr==three

print(company_arr[one_bool_arr])
print(company_arr[two_bool_arr])
print(company_arr[three_bool_arr])

琼斯指数网页通过?page=xx跳转，因此写一个while函数，循环1到2访问抓取即可。

运行截图：

这一次实战最重要的是数据的处理，列表的使用，熟练使用python的 numpy库函数，领会到python针对数据处理所体现出的强大功能。

很明显我们已经把30支股票的信息获取并转换成列表的方式，保存在本地的code.csv文件中。
注意，要先去代码的同级目录下新建文件名为code.csv。如果目录不同最好在代码中写上完整的文件路径。

code.csv文件内容展示
在这里插入图片描述

运行截图2：数据的处理、展示
在这里插入图片描述
我们分别获取到了：
1.获取股票代码
2.获取前5行的股票数据
3.返回第一只股票的股价
4.计算平均的股价
5.找出股价大于180的公司的名称
6.找出股票前三名的公司

本文地址：https://blog.csdn.net/qq_46157589/article/details/107365741

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

Python 运算符优先级

Python 运算符优先级运算符描述lambdaLambda表达式or布尔“或”and布尔“与”not x布尔“... [阅读全文]
从零开始的PYTHON3摸鱼（二）windows如何运行python，编辑器选择

接上期python安装教程：https://blog.csdn.net/kiss_the_night/artic... [阅读全文]
从0基础学习Python（02）

从0基础学习Python（02）掌握基础运算符,类型转换以及判断,循环语句。1.输入Python3.x(掌握)i... [阅读全文]
模块：openpyxl（Execl表操作）（未完成）

import openpyxlimport datetimeimport tempfile# ---------... [阅读全文]
pandas结合Pyecharts绘制交互性折线图

pandas结合Pyecharts绘制交互性折线图Pandas是Python用于数据分析领域的超级牛的库Echa... [阅读全文]
python scrapy框架爬取80s保存mysql

python scrapy框架爬取80s保存mysql写在前面scrapy项目创建流程第一步：创建一个项目(开发... [阅读全文]
机器学习——逻辑回归多分类

本期主要讲利用逻辑回归来做多分类，包括数据可视化，假设函数，损失函数，参数最优化，一对多分类训练器，模型准确率评... [阅读全文]
python3利用归并算法对超过内存限制的超大文件进行排序

上一篇文章《python3实现归并排序算法图文详解》中，我们了解了归并排序算法的基本使用逻辑。这一篇文章我们对这... [阅读全文]
TensorFlow进阶项目实战（二）

（一）csv文件读取运行代码之前，先手动创建文件，流程如下图：# csv文件读取示例import tensorf... [阅读全文]
Python 列表及其应用

列表Python 序列的基础操作1.序列的索引从左往右：0 1 2 3 4从右往左：-1 -2 -3 -42.序... [阅读全文]