冷扑大师背后的AI算法和博弈论：CFR算法是核心_ai动态

冷扑大师背后的AI算法和博弈论：CFR算法是核心

量子位报道 | 公众号QbitAI

昨天下午，量子位在中关村举办了一个技术沙龙，邀请创新工场AI工程院技术VP李天放、联想智慧医疗CEO林林等，从技术和实战的角度，对德州扑克人机大战进行解读。

以下是李天放对德州扑克AI的技术解读：

文字版本整理如下：

AI算法和博弈论，这两个交叉点还是有一点难度的。

先从博弈论开始。

大家需要对GTO/纳什平衡有一个初期的理解。在德州扑克，翻硬币，剪刀石头布这类游戏里面，纳什平衡点的定义是：如果双方都在用一个比较好的战略，任何一方做出调整结果都会更糟糕，也就是存在一个平衡点，使得两个人都不能再进步。

我们用一个简单的游戏解释。

如果我们玩一手剪刀石头布，可能靠运气；玩二十万手，就要看战略是什么。如果我们想解这个问题，也是很简单，下面这个就是所谓的完美战略：

· 33%剪刀33%石头33%布

· 无论对手用什么战略，都不可能战胜我们

· 但我们也赢不了…

然而想要接近一个真正的完美战略是非常难的，大部分人有些偏好，更接近的可能是这样一个情况，对手比较笨不知道能出剪刀：

· 假设对手#1：从来不出剪刀，50%布，50%石头

· 我们的老战略有问题么？（各33%）

老战略可能还是不输的，但也不是最佳战略(GTO)。纳什平衡的意思是双方都不能改进，如果知道对手从来不出剪刀，我们的战略是能改进的。针对上面的对手#1，我们的战略可以改成：50%剪刀，50%布。

为什么不用100%布的战略？因为对方可能也调整成100%布。使用50%剪刀，50%布的战略至少可以比打平做的更好。

从博弈论来说，我们找到了对手的弱点，但没有暴露自己的弱点。也就是说，我们找到了一个新的平衡点。

这就是Libratus在做的事情。

相比于石头剪刀布，一对一的德州扑克，是一个复杂度非常高的博弈。如何找到德州扑克的GTO和纳什平衡点？这是此类AI算法的核心。

CounterFactual Regret Minimization(CFR，反事实遗憾最小化)，这是一个类似强化学习的算法，但是更高效。让AI之间对战德扑，采用随机的策略，然后每局过后看看在什么地方后悔了，然后尝试不同的战略，再在决策点上复盘。

这个算法与人类学习德州类似：累积经验、评判自己的选择，但需要注意的是，这里正确的“后悔点”非常重要。德州扑克有很强的随机性，所以很容易陷入错误的学习方式。

算法很简单，问题是无限德州的空间太大了，复杂度是10的160次方。有几种解决方案：合并简化+CFR(Claudico)，CFR+“直觉”(DeepStack)，CFR+End Game Solver+RL(Libratus)。

总结一下：

· CFR类似于强化学习。权重调整基于概率。

· AI的战略和学习方式和职业牌手相似，但是更准确。

您可能感兴趣的文章:

如您对本文有疑问或者有任何想说的，请点击进行留言回复，万千网友为您解惑！

智慧农业模拟只能灌溉的流程设计

蓝桥杯省赛笔记之2013省赛试题模拟智能灌溉考点={IIC总线驱动(PCF8591,EEPROM)时钟(DS13... [阅读全文]

智能控制输液报警器

FS-100输液报警器FS-100输液监视仪FS-100医用输液监视仪，通过液滴传感器对输液液滴进行侦测，这是一... [阅读全文]

2020（第八届）先进制造业大会暨展览会

　　党的十九大报告指出，加快建设制造强国，加快发展先进制造业，推动互联网、大数据、人工智能和实体经济深度融合。在... [阅读全文]

手持式、支持多技术多应用的以太网测试仪

M-P-1W 明辰智航-万兆以太网性能测试仪是一款手持式、支持多技术多应用的10G多业务性能测试仪，它是集成 O... [阅读全文]

广和通通过参股公司收购Sierra Wireless全球车载前装模块业务资产

2020年7月24日，广和通（股票代码：300638），宣布将与三家专业投资机构共同对参股公司增资，并通过该参股... [阅读全文]

2020 高通 XR生态合作伙伴大会将在南昌举行

　　来了!XR行业的终极盛会终于来了!　　经多方精心筹划，备受瞩目的2020 Qualcomm XR生态合作伙伴... [阅读全文]

embedded Health

Goal: Find a suitable research directionStep One: Read r... [阅读全文]

NOLO X1 6DoF VR一体机：真正的消费级VR硬件

NOLOX1在2020年6月1日把头手6DoFVR设备的价格压到了2000元的级别;去掉了繁琐的线缆,无线的头部和手部双六自由度追踪方案,真香的价格,在市场上被... [阅读全文]

产业化横亘AI新基建大时代，王海峰为百度AI产业化落地举旗

这场全球20余位院士、700多个高校院所、世界500强企业的专家、高管代表参与的会议上，新基建自然而然成为重要话题，而诸如百度CTO王海峰“AI新基建加速产业智... [阅读全文]

工业AI化蓄势爆发

行业风口之下，必有互联网巨头之争，特别是在各行各业数据化转型的当下，互联网巨头趁机“弯道超车”的意图更加明显。其中，工业作为第二大产业重要的组成部分，市场之广阔... [阅读全文]


验证码：

验证码：

冷扑大师背后的AI算法和博弈论：CFR算法是核心

2018年04月26日 | 移动技术网科技 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论