近年来,越来越多的研究人员开发了基于人工神经网络的模型,这些模型可以使用强化学习(RL)技术进行训练。RL需要训练人工智能体来解决各种各样的任务,当它们表现良好,例如正确地对图像进行分类时,给予它们“奖励”。
到目前为止,大多数基于ANN的模型都是使用在线RL方法进行训练的。在这种方法中,一个从未接触过目标任务的Agent(能自主活动的软件或者硬件实体),通过与在线虚拟环境交互来学习。然而,这种方法相当昂贵、耗时且效率低下。
最近,一些研究探讨了离线训练模型的可能性。在这种情况下,Agent通过分析固定的数据集来学习完成给定的任务,因此不会主动与虚拟环境交互。而这种方法虽然在某些任务上取得了很好的效果,但它们不允许代理实时主动学习。
加州大学伯克利分校的研究人员最近引入了一种新的算法,融合了在线和离线RL方法对AI进行训练。该算法是在arXiv上预先发表的一篇论文中提出的,它最初是在大量离线数据的基础上进行训练的,但同时也完成了一系列的在线训练试验。
在回顾过去的RL文献时,研究人员意识到,以前开发的模型在离线训练和在线微调时表现不佳,通常是因为他们学习太慢或在培训期间没有充分利用离线数据集。
他们指出,过去的一个问题是,工程师总是让模型从零开始学习任务,而不是能够利用现有的数据集进行RL,他们花费了太长的时间和太多的精力来评估机器人上在真实世界中的运行。新方法则是通过已有数据对模型进行预训练,只进行少量额外的真实世界交互。
他们观察到,在诸如优势加权回归(AWR)和演示增强策略梯度(DAPG)等策略技术上,通常用于在线微调模型,与非策略方法相比,学习速度通常非常慢。
非策略方法,如软角色批评(SAC)方法,在离线数据集上训练时,通常没有太大改善。
离线训练模型的技术,如bootstrap错误累积减少(BEAR)、行为规则化演员批评(BRAC)和优势行为模型(ABM)通常在离线预训练阶段效果良好,但在线训练后,它们的表现并没有太大改善,这主要是因为它们依赖于行为模型。
面对这些挑战,研究人员开发了优势加权Actor评价(AWAC)算法,这是一种非策略性的Actor评价算法,它不依赖行为模型来接近数据分布。相反,它可以通过抽样得出一种隐式地接近数据的算法。
研究人员评估了他们的算法在不同的操作任务中的性能,这些任务有三个关键方面,即复杂的不连续接触、极稀疏的二进制奖励和30个关节的控制。
更具体地说,他们的算法被训练来控制机器人的运动,让它旋转手中的笔、打开门以及拿起一个球并将其移动到所需的位置。对于每一项任务,奈尔和他的同事们在一个离线数据集上训练该算法,该数据集包含25个人类演示和500个非策略数据的轨迹,这些数据是通过行为克隆技术获得的。
第1个任务笔旋转相对来说比较简单,很多方法最终都能解决这个问题,但AWAC是最快的,第2和第3个任务只有AWAC能解决了。老方法失败的原因有很多,但主要是无法获得合理的初始策略来收集良好的勘探数据,或者无法从交互数据中在线学习。
在9种方法中,AWAC是唯一一种能够持续解决他们测试过的复杂操作任务的方法。
在未来,该算法可以使用RL在更广泛的任务范围内训练模型。其他研究团队也可以从他们的工作中获得灵感,并设计出类似的RL方法,将离线和在线培训结合起来。
编译/前瞻经济学人APP资讯组
参考资料:
[1]https://techxplore.com/news/2020-07-algorithm-merges-online-offline.html
[2]https://arxiv.org/abs/2006.09359
品牌、内容合作请点这里:寻求合作 ››
想看更多前瞻的文章?扫描右侧二维码,还可以获得以下福利:
下载APP
关注微信号
扫一扫下载APP
与资深行业研究员/经济学家互动交流让您成为更懂趋势的人
违法和不良信息举报电话:400-068-7188 举报邮箱:service@qianzhan.com 在线反馈/投诉 中国互联网联合辟谣平台
Copyright © 1998-2024 深圳前瞻资讯股份有限公司 All rights reserved. 粤ICP备11021828号-2 增值电信业务经营许可证:粤B2-20130734