(相关资料图)
编程客栈()7月28日 消息EUchsH:伦敦帝国理工学院和 DeepMind 的研究人员设计了一个 AandroidI 框架,将语言作为强化编程客栈学习智能体的核心推理工具。
该框架利用了大型语言模型和视觉语言模型,能js够有效解决强化学习中的几个基本问题,包括在奖励稀疏环境中的高效探索、顺序学习中的数据重用、新任务的能力调度以及从专家智能体的观察中学习。
该框架通过使用语言模型和视觉语言模型作为基本推理工具,提高了强化学习智能体在理解复杂任务和环境中的能力。研究结果表明,语言模型和视觉语言模型可以有效地成为强化学习智能体推理的核心组件。
论文地址:https://pythonarxiv.org/abs/2307.09668