山东管件胶厂家 破解RL样本率难题!让AI次提炼环境常识,后续调用成本

在经典 RL 流程里,智能体只有在撞了南墙、遍历海量状态后,才能慢慢学到怎么完成任务,样本率低。过去也有人引入大模型提示山东管件胶厂家,但通常每换个任务就得重新写 prompt、再调次 API,既贵又难迁移。
来自南京大学章宗长俞扬团队和腾讯叶德珩团队的研究者们注意到,GPT 这类大模型已经内化了大量日常常识,如果能次让它总结出"在这个环境下普遍有用的行为准则",那么后续所有任务都可以共享同份知识,省去反复调用。
背景知识是怎么"炼"出来的?
什么是"环境背景知识"? 通俗来说,就是对整个环境有用的常识,而不局限于某个具体任务。
例如在迷宫类环境中"不要碰墙壁,绕开障碍物",在生存游戏中"优先捡取食物保持存活"等经验,都属于对该环境通用有益的知识。有了这些知识,智能体在执行任何特定任务时都能有率地探索。
研究者用 RND 法在环境里进行随机探索和学习,把看到的状态、动作都存下来当"原料"。这些轨迹不带任何任务标签,保证提炼出的知识足够通用。接下来把轨迹描述交给 GPT,让它帮忙点评:"哪些行为像是理、聪明的?" 具体有三种提炼套路,分别对应三条技术路线(论文称BK-CODE、BK-PREF、BK-GOAL)。
BK-CODE 让大模型直接写 Python 励函数山东管件胶厂家,研究者迭代运行、再把结果反馈给 GPT-4 改进,直到输出段能稳定评价"好状态"与"坏状态"的代码。
BK-PREF把两段轨迹丢给 GPT-4 做"二选",随后用基于 Bradley – Terry 模型的偏好学习法把这些偏好信息转化为励信号。
BK-GOAL 请 GPT-4 根据轨迹列出可能的子目标(如"成木镐"、"避开熔岩"),并在训练时计当前状态与这些目标的相似度。
三条路线的共同点是:后都会得到个势函数 [ 数学公式 ] ,训练时额外加上形如 [ 数学公式 ] 的潜在励。根据经典理论,这样做不会改变原任务优策略,而理的势函数选择却能起到加快收敛的果。后,泡沫板橡塑板专用胶作者基于经典的 PPO 法,在下游任务上加入励重塑(reward shaping)进行 RL 训练。
果到底有多快?
论文在Minigrid和Crafter两个不同类型环境中进行了大量实验,验证了引入背景知识的励塑形对样本率的提升果。
在 Minigrid 的四个任务中(包括有的新目标物体类型和颜是知识提取时未出现过的),三种变体均越了现有的探索增强基线法和基于语言的探索法(如 RND、NovelD 等)。即使对于 LLM 从未"见过"的新任务类型,利用背景知识的智能体依然展现出明显优势,证明提取的知识确实具有任务关山东管件胶厂家,可以泛化到新的目标。难能可贵的是,提炼背景知识只需次 LLM 调用,后续训练 LLM 调用成本。
令人惊喜的是,背景知识对新任务和大规模环境的泛化能力也得到了验证。作者让智能体在 Minigrid 中只从简单的" Goto "类任务提取知识(即航去找单目标物品),然后测试在加复杂的新任务上,例如需要按顺序找两个目标(Goto-seq)或找到目标后执行拾起动作(Pickup)。
结果显示,需重新调用 LLM,之前提炼的知识直接用于这些新任务,依然大幅提升了学习率:相比之下,原有基线在这些难任务上几乎学不到任何东西,而有背景知识加持的智能体很快学会了解决任务。
另外,当将 Minigrid 的地图规模从 20 × 20 扩大到 30 × 30 时,含背景知识的智能体依旧保持了采样率,而基线法的能随着地图变大急剧下降。这说明预先获取的环境知识具有良好的可扩展,能帮助智能体应对复杂、大的环境。
论文链接:https://arxiv.org/abs/2407.03964
项目代码:https://github.com/mansicer/background-knowledge-rl
键三连「点赞」「转发」「小心心」
奥力斯 万能胶生产厂家 联系人:王经理 手机:13903175735(微信同号) 地址:河北省任丘市北辛庄乡南代河工业区
欢迎在评论区留下你的想法!
— 完 —
� � 点亮星标 � �
科技前沿进展每日见
相关词条:管道保温施工 塑料挤出设备 预应力钢绞线 玻璃棉厂家 保温护角专用胶1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》山东管件胶厂家,以此来变相勒索商家索要赔偿的违法恶意行为。