当前位置：移动技术网 > 科技>人工智能>云计算 > 大数据技术GBDT算法解析

大数据技术GBDT算法解析

2018年03月28日 | 移动技术网科技 | 我要评论

大数据技术GBDT算法解析。

1. GBDT的基本思想

单模型情况下预测结果容易产生过拟合，例如普通决策树，要想达到比较好的预测效果，需要将树的深度调得比较深,叶节点的最大样本数目调得小一点等才能达到比较高的准确率。但是这样会带来严重的过拟合问题，针对这些问题，GBDT采用多颗决策树组合的方法来实现比较高的准确率，同时避免过拟合问题。
假设待分类样本为((X(1),y(1)),(X(2),y(2)),?,(X(m),y(m)))，其中m为样本数量，X(i)为第i个样本的特征，y(i)为第i个样本的类标签。GBDT的任务是构建K颗决策树f1,f2,?fk，对于每个样本i，其最终的预测值是每颗决策树的预测值的和:
predict(X(i))=∑k=1Kfk(X(i))

2, 单颗决策树的构建过程

对于一批训练样本((X(1),y(1)),(X(2),y(2)),?,(X(m),y(m)))，首先计算标签的均值作为第一步的预测值：
μ=1m∑i=1my(i)
然后计算每一个样本的残差：
dY(i)=y(i)?μ
这样得到的残差作为第一棵树的学习标准。即：
这里写图片描述
接下来会以((X(1),dY(1)),(X(2),dY(2)),?,(X(m),dY(m)))作为第一颗树的根节点，学习出一颗CART树，具体学习方法见CART树算法详解。当指定最大树的深度，最大叶节点的个数，叶节点包含的最大样本数目后，树会在某一时刻停止训练，此时得到学习器，也就是第一个决策树tree1。
对于得到的tree1和所有的样本，根据tree1得到每个样本的预测值predicti,然后跟新每个样本的残差：
dYi=dYi?αk×predict(treek,X(i))
其中αk为学习率，通常设置为定值， X(i)为第i个样本的特征值， predict(treek,X(i))为第k颗决策树对第i个样本的预测值。由此得到更新后的残差值(dY(1),dY(2),?,dY(m))，然后作为第2颗树的学习标准，以此类推，直到训练到第K颗树为止。

3. 损失函数与梯度下降

在GBDT决策树当中，采用的损失函数为：
L(θ)=12∑i=1m(hθ(X(i))?y(i))2m为样本数量
其中hθ(X(i))为前面j颗树对于样本i的预测值之和，即：
hθ(X(i))=μ+∑i=1jpredict(treej,X(i))
因此用L(θ)对X(i)求导，得：
?L(θ)?h(X(i))=hθ(X(i))?y(i)
即梯度的方向就是每次训练完成之后样本的残差，然后将此残差作为下一颗树的target值继续学习，整个算法的基本过程为：

对于m个训练样本((X(1),y(1)),(X(2),y(2)),?,(X(m),y(m)))，计算均值：
μ=1m∑i=1my(i) 计算样本的残差dYi=y(i)?μ 设树的总颗数为K,对于k∈{1,2,?,K}，对于所有的残差dY1,dY2,?,dYm通过CART树学习出一个学习器treek，即:
treek=Train_Learner(X,dY)
然后更新残差：
dYi=dYi?α×treek(X(i))
其中α为学习率，treek(X(i))为第i个样本在第k颗树上的预测值。不断重复3中的步骤，直到训练到第K颗树为止。最终的预测结果为，第j个样本的预测值为所有树的预测值的叠加和：
predict(X(j))=μ+α∑k=1Ktreek(X(j))

Loss=∑i=1m(hθ(X(i))?y(i))2

4. gbdt树的打印

4.1. 安装依赖的软件和库

安装GraphViz并配置环境变量安装pydotplus

4.2. 获取gbdt模型

gbdt_model = grid.best_estimator_

4.3. 打印决策树

from sklearn import tree
import pydotplus

estimators = gbdt_model.estimators.shape[0]
for i in range(estimators):
    dot_data = tree.export_graphviz(gbdt_model)
    graph = pydotplus.graph_from_dot_data(dot_data)
    graph.write_pdf("../data/tree_"+str(i)+".pdf")

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

云计算将带来商业模式革命概念股“千里挑一”

　　国金证券通信行业首席分析师陈运红：云计算将带来商业模式革命概念股“千里挑一” 　　江怡曼　　提到云计... [阅读全文]
虚拟化和云计算路向何方？

　　我们正处于一个有趣的历史节点。VMware公司的成功源于我们拥有的非常引人注目的价值主张——解决客户端-服务器时代的不... [阅读全文]
企业级虚拟化平台是云计算必由之路

　　6月20日，IBM新一代企业基础云平台研讨会在北京举行。IBM大中华区系统与科技部Power Systems高级产品经理谷建发表了主题演讲。谷... [阅读全文]
打造免费云平台十大与云有关开源项目

　　开源项目由于其开放、免费、自由灵活等特点深受广大开发者的喜爱。近年涌现了很多开源免费的东西深受欢迎。而云计算则是近段时间最热的科技名词，云计算... [阅读全文]
Oracle刘松：客户体验管理与社会化云服务平台

10月26日消息，由工信部信息化推进司指导，中国计算机用户协会与中国网上银行促进联盟主办的“2012年网银联盟大会暨电子银行创新颁奖典... [阅读全文]
胡斌：做大数据最终是要为公司带来变化的

10月24日“中国TMT国际商会月度英雄汇”在北京召开。胡斌在圆桌对话“大数据时代的机遇与挑战”中... [阅读全文]
确保云安全的五种服务器配置方法

　　越来越多的数据中心已经搬到了各种各样的云上，服务器配置是必须考虑的问题。　　云计算将是收缩数据中心的关键，显然这可能带来一些安全问题... [阅读全文]
跨入云计算时代传统服务器走将向何处？

　　云的出现，正在改变我们对于传统IT的观念认识。云并不像它的概念一样虚无缥缈，而是以各种形式出现在我们面前，而最让人耳熟能详的莫过于云存储和云计... [阅读全文]
解读透明计算：是云计算升级还是产业界革命

　　你知道云计算吗？不少读者可能会说，嗯，我听说过，但是具体是怎么定义还是不太了解。虽然概念上不是很明白，但起码云计算到现在已经是人尽皆知。不过就... [阅读全文]
十二大技巧保障云计算安全

　　1、确认现有的基础控制　　基础控制是企业安全理念的核心。它们包含了将近60个保护您企业最重要资产的安全控制。它们专注在确保云技术对您... [阅读全文]