模仿不是超越,KL正则化搜索让AI下围棋更像人类
发布时间:2021-12-18 13:39:23 所属栏目:动态 来源:互联网
导读:如果非要问 AlphaGo 有什么缺点,那就是下棋不像人类。和 AlphaGo 对弈过的顶级棋手都有这种感受,他们觉得 AI 落子经常让人捉摸不透。 纵轴为 AI 与原始模型对弈的胜率,横轴为 AI 预测人类落子位置的 Top-1 准确度。可以看出新的算法(绿色)在两方面都已
如果非要问 AlphaGo 有什么缺点,那就是下棋不像人类。和 AlphaGo 对弈过的顶级棋手都有这种感受,他们觉得 AI 落子经常让人捉摸不透。 纵轴为 AI 与原始模型对弈的胜率,横轴为 AI 预测人类落子位置的 Top-1 准确度。可以看出新的算法(绿色)在两方面都已经超过了 SOTA 结果(蓝色)。 像人类,还能打败人类 正所谓“鱼与熊掌难以兼得”。AlphaGo 使用的自我博弈与蒙特卡洛树搜索(MCTS),虽然练就了无比强大的 AI,但它的下棋更像凭直觉,而非策略。如果要让 AI 更像人类,更应当使用模仿学习(Imitative learning),但是这却很难让 AI 达到人类顶级棋手水准。 Meta AI 和 CMU 的研究者发现,加入了 KL 正则化搜索后,一切都不一样了。AI 的落子策略变得与人类棋手更加相似,这就是他们提出的新方法。 在国际象棋、围棋和无合作的博弈游戏中,这种方法在预测人类的准确性上达到了 SOTA 水平,同时也大大强于模仿学习策略。作者选择了遗憾最小化算法(regret minimization algorithms)作为模仿学习的算法,但是非正则化遗憾最小化算法在预测人类专家行为方面的准确性较低。 因此作者引入了新的方法,引入了与搜索策略和人类模仿学习的锚策略之间的 KL 散度成正比的成本项。此算法被称为策略正则化对冲,简称 piKL-hedge。 Athul Paul Jacob 同时也是 MIT CSAIL 的二年级博士生,从 2016 年到 2018 年,他还在 Mila 担任访问学生研究员,在 Yoshua Bengio 手下工作,与 Bengio 共同发表了多篇论文。 David Wu 是 Meta AI 的国际象棋和围棋首席研究员。 Gabriele Farina 是 CMU 一名六年级博士生,曾是 2019-2020 年 Facebook 经济学和计算奖学金的获得者,他的研究方向是人工智能、计算机科学、运筹学和经济学。 另外,Gabriele Farina 还参与过著名的 CMU 德州扑克 AI 程序 Libratus 的开发。 (编辑:站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
相关内容
- 微信新功能刚上线一个月就获奖 中国信通院颁发
- 小米电视音箱3.1发布 430W强劲功率 音质拉满
- 华硕推出新款 Zenbook 14X OLED 笔记本12 代酷睿 + MX 550
- 基于安卓12!曝小米10系列发布MIUI 12.5最新开发版升级
- 21万帕萨特换变速箱要花15万 车主拆了6次都没修好
- 坚果J10S投影仪测试 徕卡调色 画面捅破天花板
- Transformer又来搞事情 百万像素高清图轻松合成 效果很好
- 比亚迪驱逐舰05将在3月17日上市 超1000km续航
- 英特尔 i7-1280P 核显跑分发布,LPDDR5-5200 内存加持
- 微软 Build 2022 开发者大会将于 5 月 24 日至 26 日举办
站长推荐