山东管件胶厂家破解RL样本率难题！让AI次提炼环境常识，后续调用成本

在经典 RL 流程里，智能体只有在撞了南墙、遍历海量状态后，才能慢慢学到怎么完成任务，样本率低。过去也有人引入大模型提示山东管件胶厂家，但通常每换个任务就得重新写 prompt、再调次 API，既贵又难迁移。

来自南京大学章宗长俞扬团队和腾讯叶德珩团队的研究者们注意到，GPT 这类大模型已经内化了大量日常常识，如果能次让它总结出"在这个环境下普遍有用的行为准则"，那么后续所有任务都可以共享同份知识，省去反复调用。

背景知识是怎么"炼"出来的？

什么是"环境背景知识"？通俗来说，就是对整个环境有用的常识，而不局限于某个具体任务。

例如在迷宫类环境中"不要碰墙壁，绕开障碍物"，在生存游戏中"优先捡取食物保持存活"等经验，都属于对该环境通用有益的知识。有了这些知识，智能体在执行任何特定任务时都能有率地探索。

研究者用 RND 法在环境里进行随机探索和学习，把看到的状态、动作都存下来当"原料"。这些轨迹不带任何任务标签，保证提炼出的知识足够通用。接下来把轨迹描述交给 GPT，让它帮忙点评："哪些行为像是理、聪明的？" 具体有三种提炼套路，分别对应三条技术路线（论文称BK-CODE、BK-PREF、BK-GOAL）。

BK-CODE 让大模型直接写 Python 励函数山东管件胶厂家，研究者迭代运行、再把结果反馈给 GPT-4 改进，直到输出段能稳定评价"好状态"与"坏状态"的代码。

BK-PREF把两段轨迹丢给 GPT-4 做"二选"，随后用基于 Bradley – Terry 模型的偏好学习法把这些偏好信息转化为励信号。

BK-GOAL 请 GPT-4 根据轨迹列出可能的子目标（如"成木镐"、"避开熔岩"），并在训练时计当前状态与这些目标的相似度。

三条路线的共同点是：后都会得到个势函数 [ 数学公式 ] ，训练时额外加上形如 [ 数学公式 ] 的潜在励。根据经典理论，这样做不会改变原任务优策略，而理的势函数选择却能起到加快收敛的果。后，泡沫板橡塑板专用胶作者基于经典的 PPO 法，在下游任务上加入励重塑（reward shaping）进行 RL 训练。

果到底有多快？

论文在Minigrid和Crafter两个不同类型环境中进行了大量实验，验证了引入背景知识的励塑形对样本率的提升果。

在 Minigrid 的四个任务中（包括有的新目标物体类型和颜是知识提取时未出现过的），三种变体均越了现有的探索增强基线法和基于语言的探索法（如 RND、NovelD 等）。即使对于 LLM 从未"见过"的新任务类型，利用背景知识的智能体依然展现出明显优势，证明提取的知识确实具有任务关山东管件胶厂家，可以泛化到新的目标。难能可贵的是，提炼背景知识只需次 LLM 调用，后续训练 LLM 调用成本。

令人惊喜的是，背景知识对新任务和大规模环境的泛化能力也得到了验证。作者让智能体在 Minigrid 中只从简单的" Goto "类任务提取知识（即航去找单目标物品），然后测试在加复杂的新任务上，例如需要按顺序找两个目标（Goto-seq）或找到目标后执行拾起动作（Pickup）。

结果显示，需重新调用 LLM，之前提炼的知识直接用于这些新任务，依然大幅提升了学习率：相比之下，原有基线在这些难任务上几乎学不到任何东西，而有背景知识加持的智能体很快学会了解决任务。

另外，当将 Minigrid 的地图规模从 20 × 20 扩大到 30 × 30 时，含背景知识的智能体依旧保持了采样率，而基线法的能随着地图变大急剧下降。这说明预先获取的环境知识具有良好的可扩展，能帮助智能体应对复杂、大的环境。

论文链接：https://arxiv.org/abs/2407.03964

项目代码：https://github.com/mansicer/background-knowledge-rl

键三连「点赞」「转发」「小心心」

奥力斯万能胶生产厂家联系人：王经理手机：13903175735（微信同号）地址：河北省任丘市北辛庄乡南代河工业区

欢迎在评论区留下你的想法！

— 完 —

� � 点亮星标 � �

科技前沿进展每日见

相关词条:管道保温施工塑料挤出设备预应力钢绞线玻璃棉厂家保温护角专用胶

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定，并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方，并积极配合修改。
3.凡用户访问本网页，均表示默认详情页的描述，不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》山东管件胶厂家，以此来变相勒索商家索要赔偿的违法恶意行为。

山东管件胶厂家破解RL样本率难题！让AI次提炼环境常识，后续调用成本

热点资讯

推荐资讯

话题标签

友情链接：

山东管件胶厂家 破解RL样本率难题！让AI次提炼环境常识，后续调用成本

宁夏海绵专用胶价格 时装周大秀直击：京东JD FASHION

浙江护角胶厂 如何观察货币政策果？：要看累积应

商丘防火门胶 祖上不富！唐斯尼克斯生涯下2次三双 与贝拉米并

汕头万能胶厂 郴州市 厂房保温隔热玻璃棉卷毡 玻璃棉板 A火

热点资讯

推荐资讯

话题标签

友情链接：

山东管件胶厂家破解RL样本率难题！让AI次提炼环境常识，后续调用成本

宁夏海绵专用胶价格时装周大秀直击：京东JD FASHION

浙江护角胶厂如何观察货币政策果？：要看累积应

商丘防火门胶祖上不富！唐斯尼克斯生涯下2次三双与贝拉米并

汕头万能胶厂郴州市厂房保温隔热玻璃棉卷毡玻璃棉板 A火