当前位置：移动技术网 > IT编程>脚本编程>Python > 如何利用Python分析14亿条数据！资深程序员手把手教你！过亿级！

如何利用Python分析14亿条数据！资深程序员手把手教你！过亿级！

2018年05月09日 | 移动技术网IT编程 | 我要评论

蜜桃成熟33d种子,ca197,天降一百亿

如果利用Python分析14亿条数据！资深程序员手把手教你！过亿级！

挑战

如果利用Python分析14亿条数据！资深程序员手把手教你！过亿级！

1-gram 的数据集在硬盘上可以展开成为 27 Gb 的数据，这在读入 python 时是一个很大的数据量级。Python可以轻易地一次性地处理千兆的数据，但是当数据是损坏的和已加工的，速度就会变慢而且内存效率也会变低。

总的来说，这 14 亿条数据（1,430,727,243）分散在 38 个源文件中，一共有 2 千 4 百万个（24,359,460）单词（和词性标注，见下方），计算自 1505 年至 2008 年。

如果利用Python分析14亿条数据！资深程序员手把手教你！过亿级！

Loading the data

下面所有的代码/例子都是运行在 8 GB 内存的 2016 年的 Macbook Pro。如果硬件或云实例有更好的 ram 配置，表现会更好。

1-gram 的数据是以 tab 键分割的形式储存在文件中，看起来如下：

如果利用Python分析14亿条数据！资深程序员手把手教你！过亿级！

每一条数据包含下面几个字段：

如果利用Python分析14亿条数据！资深程序员手把手教你！过亿级！

为了按照要求生成图表，我们只需要知道这些信息，也就是：

1. 这个单词是我们感兴趣的？2. 发布的年份3. 单词使用的总次数

通过提取这些信息，处理不同长度的字符串数据的额外消耗被忽略掉了，但是我们仍然需要对比不同字符串的数值来区分哪些行数据是有我们感兴趣的字段的。这就是 pytubes 可以做的工作：

如果利用Python分析14亿条数据！资深程序员手把手教你！过亿级！

差不多 170 秒（3 分钟）之后， one_grams 是一个 numpy 数组，里面包含差不多 14 亿行数据，看起来像这样（添加表头部为了说明）：

╒═══════════╤════════╤═════════╕│ Is_Word │ Year │ Count │╞═══════════╪════════╪═════════╡│ 0 │ 1799 │ 2 │├───────────┼────────┼─────────┤│ 0 │ 1804 │ 1 │├───────────┼────────┼─────────┤│ 0 │ 1805 │ 1 │├───────────┼────────┼─────────┤│ 0 │ 1811 │ 1 │├───────────┼────────┼─────────┤│ 0 │ 1820 │ ... │╘═══════════╧════════╧═════════╛

从这开始，就只是一个用 numpy 方法来计算一些东西的问题了：

每一年的单词总使用量

谷歌展示了每一个单词出现的百分比（某个单词在这一年出现的次数/所有单词在这一年出现的总数），这比仅仅计算原单词更有用。为了计算这个百分比，我们需要知道单词总量的数目是多少。

幸运的是，numpy让这个变得十分简单：

如果利用Python分析14亿条数据！资深程序员手把手教你！过亿级！

绘制出这个图来展示谷歌每年收集了多少单词：

如果利用Python分析14亿条数据！资深程序员手把手教你！过亿级！

很清楚的是在 1800 年之前，数据总量下降很迅速，因此这回曲解最终结果，并且会隐藏掉我们感兴趣的模式。为了避免这个问题，我们只导入 1800 年以后的数据：

如果利用Python分析14亿条数据！资深程序员手把手教你！过亿级！

这返回了 13 亿行数据（1800 年以前只有 3.7% 的的占比）

如果利用Python分析14亿条数据！资深程序员手把手教你！过亿级！

Python 在每年的占比百分数

获得 python 在每年的占比百分数现在就特别的简单了。

如果利用Python分析14亿条数据！资深程序员手把手教你！过亿级！

绘制出 word_counts 的结果：

如果利用Python分析14亿条数据！资深程序员手把手教你！过亿级！

形状看起来和谷歌的版本差不多

如果利用Python分析14亿条数据！资深程序员手把手教你！过亿级！

性能

谷歌生成图片在 1 秒钟左右，相较于这个脚本的 8 分钟，这也是合理的。谷歌的单词计算的后台会从明显的准备好的数据集视图中产生作用。

举个例子，提前计算好前一年的单词使用总量并且把它存在一个单独的查找表会显著的节省时间。同样的，将单词使用量保存在单独的数据库/文件中，然后建立第一列的索引，会消减掉几乎所有的处理时间。

这次探索确实展示了，使用 numpy 和初出茅庐的 pytubes 以及标准的商用硬件和 Python，在合理的时间内从十亿行数据的数据集中加载，处理和提取任意的统计信息是可行的，

如果利用Python分析14亿条数据！资深程序员手把手教你！过亿级！

结果:

如果利用Python分析14亿条数据！资深程序员手把手教你！过亿级！

对比谷歌 ( 没有任何的基准线调整 ):

如果利用Python分析14亿条数据！资深程序员手把手教你！过亿级！

更多的过滤逻辑 - Tube.skip_unless() 是一个比较简单的过滤行的方法，但是缺少组合条件（AND/OR/NOT）的能力。这可以在一些用例下更快地减少加载数据的体积。

更好的字符串匹配 —— 简单的测试如下：startswith, endswith, contains, 和 is_one_of 可以轻易的添加，来明显地提升加载字符串数据是的有效性。

如果利用Python分析14亿条数据！资深程序员手把手教你！过亿级！

谢谢阅读！！是不是超级叼，14亿啊这可不是一个小数目！

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

新手学习Python2和Python3中print不同的用法

在python2和python3中都提供print()方法来打印信息,但两个版本间的print稍微有差异主要体现在以下几个方面：1.python3中print是... [阅读全文]
Python基于os.environ从windows获取环境变量

安装python之后，我们往往面临这样一个问题，在命令行输入“python”，竟然出错，难道是没有安装成功吗？非也，其实是你的系统环境变量没有设置好。今天，小编... [阅读全文]
keras实现调用自己训练的模型,并去掉全连接层

其实很简单from keras.models import load_modelbase_model = load_model('model_resenet.h... [阅读全文]
python中def是做什么的

python使用def开始函数定义，紧接着是函数名，括号内部为函数的参数，内部为函数的具体功能实现代码，如果想要函数有返回值, 在expressions中的逻... [阅读全文]
Python xlwt模块使用代码实例

简介写入excle文档安装：pip3 install xlwt导入：import xlwtxlrd 模块方法写入案例import xlwt# 创建对象，设置编码... [阅读全文]
Keras之自定义损失(loss)函数用法说明

在keras中可以自定义损失函数，在自定义损失函数的过程中需要注意的一点是，损失函数的参数形式，这一点在keras中是固定的，须如下形式：def my_loss... [阅读全文]
Python xlrd模块导入过程及常用操作

简介读取excle文档，支持xls，xlsx格式安装：pip3 install xlrd导入：import xlrdxlrd 模块方法读取excelfile =... [阅读全文]
keras打印loss对权重的导数方式

notes怀疑模型梯度爆炸，想打印模型 loss 对各权重的导数看看。如果如果fit来训练的话，可以用keras.callbacks.tensorboard实现... [阅读全文]
keras 使用Lambda 快速新建层添加多个参数操作

keras许多简单操作，都需要新建一个层，使用lambda可以很好完成需求。# 额外参数def normal_reshape(x, shape): return... [阅读全文]
JAVA及PYTHON质数计算代码对比解析

java 实现class primenumber{public static void main(string[] args) {long start=syst... [阅读全文]

网友评论


验证码：

如何利用Python分析14亿条数据！资深程序员手把手教你！过亿级！

2018年05月09日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论