模仿不是超越，KL正则化搜索让AI下围棋更像人类

发布时间：2021-12-18 13:39:23 所属栏目：动态来源：互联网

导读：如果非要问 AlphaGo 有什么缺点，那就是下棋不像人类。和 AlphaGo 对弈过的顶级棋手都有这种感受，他们觉得 AI 落子经常让人捉摸不透。纵轴为 AI 与原始模型对弈的胜率，横轴为 AI 预测人类落子位置的 Top-1 准确度。可以看出新的算法（绿色）在两方面都已

如果非要问 AlphaGo 有什么缺点，那就是下棋不像人类。和 AlphaGo 对弈过的顶级棋手都有这种感受，他们觉得 AI 落子经常让人捉摸不透。

纵轴为 AI 与原始模型对弈的胜率，横轴为 AI 预测人类落子位置的 Top-1 准确度。可以看出新的算法（绿色）在两方面都已经超过了 SOTA 结果（蓝色）。

像人类，还能打败人类
正所谓“鱼与熊掌难以兼得”。AlphaGo 使用的自我博弈与蒙特卡洛树搜索（MCTS），虽然练就了无比强大的 AI，但它的下棋更像凭直觉，而非策略。如果要让 AI 更像人类，更应当使用模仿学习（Imitative learning），但是这却很难让 AI 达到人类顶级棋手水准。

Meta AI 和 CMU 的研究者发现，加入了 KL 正则化搜索后，一切都不一样了。AI 的落子策略变得与人类棋手更加相似，这就是他们提出的新方法。

在国际象棋、围棋和无合作的博弈游戏中，这种方法在预测人类的准确性上达到了 SOTA 水平，同时也大大强于模仿学习策略。作者选择了遗憾最小化算法（regret minimization algorithms）作为模仿学习的算法，但是非正则化遗憾最小化算法在预测人类专家行为方面的准确性较低。

因此作者引入了新的方法，引入了与搜索策略和人类模仿学习的锚策略之间的 KL 散度成正比的成本项。此算法被称为策略正则化对冲，简称 piKL-hedge。

Athul Paul Jacob 同时也是 MIT CSAIL 的二年级博士生，从 2016 年到 2018 年，他还在 Mila 担任访问学生研究员，在 Yoshua Bengio 手下工作，与 Bengio 共同发表了多篇论文。

David Wu 是 Meta AI 的国际象棋和围棋首席研究员。

Gabriele Farina 是 CMU 一名六年级博士生，曾是 2019-2020 年 Facebook 经济学和计算奖学金的获得者，他的研究方向是人工智能、计算机科学、运筹学和经济学。

另外，Gabriele Farina 还参与过著名的 CMU 德州扑克 AI 程序 Libratus 的开发。

（编辑：站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

怎么还原回收站清空的	一台服务器可以挂多少
和finaldata相似的软件	crm软件的营销关键是什