电话:020-66888888
妻子饼里不妻子,RLHF里也不真正的RL
作者:[db:作者] 发布时间:2025-01-09 08:36
妻子饼里不妻子,伉俪肺片里不伉俪,RLHF 里也不真正的 RL。在近来的一篇博客中,德克萨斯年夜学奥斯汀分校助理教学 Atlas Wang 分享了如许一个观念。博客链接:https://www.linkedin.com/pulse/why-rlhf-other-rl-like-methods-dont-bring-true-rl-llmsand-atlas-wang-s1efc/他指出,RLHF(基于人类反应的强化进修)跟其余相似的方式并不为年夜型言语模子(LLM)带来真正的强化进修(RL),由于它们缺少 RL 的中心特点:连续的情况交互跟临时目的的寻求。RLHF 重要经由过程单步或多少步优化来调剂模子输出,使其合乎人类偏好,而不是在一个静态情况中停止多步调的战略调剂。别的,RLHF 平日是离线或半离线停止的,缺少及时的情况反应跟战略更新。因而,只管 RLHF 能够改良模子的对齐性跟输出品质,但它并不克不及付与 LLM 真正的目的或用意,让它们「想要」博得游戏。LLM 依然重要是一个基于高低文猜测下一个 token 的统计体系。整篇文章探讨了多少个风趣的成绩:1. RLHF (及相干方式)与经典 RL 有何差别?2. 为什么这些方式现实上无奈给出 LLM 实在目的或用意?3. 为什么不人年夜范围地为 LLM 做「真正的 RL」?4. 现有的最濒临给 LLM 一个「目的」的方式是什么?5. 不「目的驱动」的 LLM 的成果是什么?  经由过程懂得这些轻微差异,咱们能够明白地晓得 LLM 能做什么、不克不及做什么,以及为什么。谷歌 DeepMind 首席迷信家 Denny Zhou 转发该文章时评估说,「对任何有 RL 常识配景的人来说,(文章中的观念)是不言而喻的。但对新人来说,这是一份很好的先容。」辨别 RLHF 跟经典强化进修什么是经典强化进修?在经典强化进修设置中,你有:  在情况中采用举动的智能体。情况会依据智能体的举动转变状况。智能体的举动会遭到嘉奖或处分,目标是在多个步调中实现临时累积嘉奖的最年夜化。重要特点:连续或偶发交互。智能体摸索多种状况、做出决议、察看嘉奖,并在一个持续的轮回中调剂其战略。RLHF 是一种应用依据人类偏好数据练习的嘉奖模子来完美模子输出的任务流。罕见流程包含:  监视微调(SFT):起首在高品质数据上练习或微调基本言语模子。嘉奖模子练习:网络成对的输出成果,讯问人类更爱好哪一个,而后练习一个「嘉奖模子」,以濒临人类的断定。战略优化:应用相似强化进修的算法(平日为 PPO,即「近端战略优化」)来调剂 LLM 的参数,使其发生嘉奖模子所爱好的输出成果。与传统 RL 差别的是,RLHF 中的「情况」基础上是一个单步文本天生进程跟一个静态嘉奖模子 —— 这此中不扩大轮回或连续变更的状况。为什么 RLHF(及相干方式)不是真正的 RL?  单步或多少步优化。在 RLHF 中,LLM 会基于给定的提醒天生文本,而后嘉奖模子会供给一个单一的偏好分数。RLHF 中的「强化」步调更相似于一步式战略梯度优化,以实现人类偏好的输出,而不是在一直变更的情况中对状况跟举动停止基于智能体的片面轮回。这更像是一种「与日俱增」的评分,而不是让一个智能体随时光推移摸索多步举动,并接受情况反应。年夜多离线或半离线。嘉奖模子平日在人类标签数据长进行离线练习,而后用于更新 LLM 的战略。LLM 在线调剂战略时,并不及时摸索持续的情况轮回。缺少基于情况的临时(Long-Horizon)目的。经典的 RL 智能领会追踪多个状况下的临时报答。比拟之下,基于 RLHF 的 LLM 练习着重于依据人类偏好调剂即时文本输出。LLM 并不在一个静态情况中导航多个时光步调。名义束缚与真正的外部目的。RLHF 能够无效地影响某些输出的概率 —— 领导模子阔别不受欢送的文本。但模子外部并不构成发生这些输出的「欲望」或「愿望」;它依然是一个天生下一个 token 的统计体系。请记着,不论是 RLHF、SFT 仍是其余什么,LLM 都不是为了真正的目的或用意而练习的!LLM 的中心是依据给定高低文猜测下一个 token。它们的「念头」纯洁是最年夜限制地进步下一个 token 的准确率(由练习数据跟任何后续微调旌旗灯号断定)。这个进程并不存在客观上的欲望或用意。咱们常说 AlphaZero「想要」在国际象棋中得胜,但这只是一种便利的简略说法。从外部来说,AlphaZero 是在最年夜化数学嘉奖函数 —— 不任何感到上的愿望。同样,经由 RLHF 调剂的 LLM 也在最年夜化对齐嘉奖旌旗灯号,而不心坎的盼望状况。RLHF vs. IRL 怎样?亚利桑那州破年夜学盘算机迷信教学 Subbarao Kambhampati 指出,「RLHF」有点名不虚传,由于它将从人类断定中进修偏好或嘉奖模子(在观点上更濒临于逆强化进修,即 IRL)与一步或多少步战略优化相联合,而不是经典 RL 中典范的临时迭代交互。IRL:在经典表述中,智能体经由过程察看专家在静态情况中的演示来揣摸嘉奖函数。比拟之下,RLHF 平日网络静态的成对照较(比方,「你更爱好这两个模子输出中的哪一个?」),并练习一个嘉奖模子来模拟人类的偏好。在一直演变的情况中,不扩大的多步调专家轨迹。RL 中的偏勤学习:在以后的深度强化进修中,有一些方式能够从轨迹 rollout 的成对照较中进修嘉奖函数(比方,「你更爱好呆板人步行者的哪种步态?」)。但是,这些方式每每存在样本庞杂度高的成绩(比方,须要屡次讯问人类),因而很多研讨论文都采取了在受控义务中模仿人类反映的方式。为什么 RLHF 也不是「经典 IRL」:即便 RLHF 在从人类数据中进修偏好模子方面让人遐想到 IRL,它也不是剖析专家行动随时光变更的经典计划。相反,RLHF 着重于人类对终极或短序列输出的静态断定。因而,RLHF 依然重要是离线或濒临离线的,这进一步限度了它与传统 IRL 设置的类似性 —— 只管 Subbarao Kambhampati 也批评说,从成对偏好中进修嘉奖函数(已成为(I)RL 文献的主流)!CoT、PRM 或多智能体任务流有助于处理这个成绩吗?基于流程的嘉奖模子跟头脑链基于流程的嘉奖模子可能会对旁边推理步调(头脑链或 CoT)供给反应,而不是仅依据终极输出(如成绩的终极谜底)供给嘉奖。如许做的目标是激励模子以更易于说明、准确率更高或更合乎特定尺度的方法说明或展现其推理进程。这就是「真正的 RL」吗?并非如斯。即便你为旁边步调调配了局部嘉奖(比方 CoT 说明),你依然处于如许一种情况中:你平日会将全部输出(包含推理)输入嘉奖模子,取得嘉奖,而后停止一步战略优化。而不是在一个静态情况中,由 LLM「实验」局部推理步调、取得反应、停止调剂,并在统一 episode 中持续停止开放式轮回。因而,固然 CoT / PRM 会给人一种多步调 RL 的错觉,由于你会对旁边步调停止嘉奖或处分,但现实上,它依然相称于对单一步调(文本天生跟推理)停止离线或近似离线的战略调剂,而不是经典 RL 的连续智能体 - 情况轮回。多智能体任务流也不会神奇地创立用意你能够在任务流中和谐多个 LLM(比方,「体系 A 天生打算,体系 B 修改打算,体系 C 完美打算」),但从外部来看,每个 LLM 依然是依据下一个 token 的概率天生文本。只管如许的多智能体设置能够表示出看起来和谐或有目标的出现行动,但它并不付与任何单个模子内涵或秉持的目的。为什么咱们的多智能体 LLM 任务流经常看起来有用意?人类会天然而然地将心思状况投射到行动看似有目标的体系上,这就是所谓的「用意破场」。然而,每个 LLM 智能体只是对提醒做出呼应。每个智能体背地的头脑链并不同等于团体愿望或驱能源;它只是一个多步调反应回路中更庞杂的 prompt-completion。因而,多智能体和谐能够发生十分风趣的新兴义务处理才能,但 LLM 自身依然不会发生「我想要这个成果」的念头。为什么至今还不人用「真正的 RL」练习 LLM?由于太贵了!年夜范围模子的经典 RL 须要一个稳固、交互式的情况,外加大批盘算来运转反复的 episode。每个练习周期的前向通报次数对明天的十亿参数 LLM 来说过于昂贵。缺少情况界说。文本天生并非自然的「状况 - 举措转换」情况。咱们能够实验将其包装成相似游戏的模仿情况,但如许就必需为多步调文本交互界说嘉奖构造,而这并非易事。机能曾经充足好了。在很多应用案例中,RLHF 或 DPO(直接偏好优化)曾经能发生充足好的对齐后果。捕风捉影地说,团队会保持应用更简略的离线方式,而不是树立一个庞杂的 RL 管道,以宏大的本钱调换眇乎小哉的收益。最濒临给 LLM 一个「目的」的现无方法是什么?在我看来,与「给 LLM 一个目的」最濒临的方式是应用提醒工程或将多个 LLM 提醒串联成一个轮回来构建一个元体系或「智能体」。像 Auto-GPT 或 BabyAGI 如许的东西试图模仿一个智能体,它能:   接受天然言语目的(如「研讨 X,而后制订打算」)。重复打算、推理跟提醒本人。评价停顿并完美打算。但是,全部这些「目的坚持」都是在体系层面,在提醒或链接逻辑中和谐停止的,而不是从 LLM 的外部念头状况动身。LLM 自身依然是主动地对提醒做出反映,缺少内涵的愿望。多智能体是另一种「贫民的处理计划」。正如在上文所探讨的,你能够和谐多个 LLM 对相互的输出成果停止批评或验证,从而无效地分别子义务并组合出局部处理计划。这看起来是有目的的,但同样,「目的」是由任务流跟提醒从外部和谐的;LLM 不会自产生成或保持本人的目的。LLM 不「真正目的」的成果简化的对齐(在某些方面)。因为 LLM 不真正追赶集体目的,它们不太可能「绕过」限度或自立打算合法行动。对齐平日相称于设置准确的提醒束缚跟微调,将其推向可接收的产出。Anthropic 近来的博客与这一观念有关更难委派开放式义务。假如咱们盼望 AI 可能自发地发明新成绩,踊跃网络资本,并保持数月来处理这些成绩,咱们就须要一个存在连续内驱力的体系 —— 相似于真正的 RL 智能体或高等计划体系。现在的 LLM 无奈以这种方法实现真正的自我启动。潜伏的翻新缺掉。在丰盛的 RL 情况中停止自在摸索,可能会发生惊人的发明(如 AlphaZero 在国际象棋或围棋中的冲破)。假如依附于只有名义反应的单步文本天生,咱们可能会错过多步嘉奖优化所带来的全新战略。不外,这也有踊跃的一面。比方,我以为不连续目的的 LLM 在某些方面愈加通明。它实质上是一个由即时反应旌旗灯号领导的强盛的下一个 token 猜测器 —— 不多步调 RL 轮回中呈现的庞杂的暗藏目的。明白时光跨度、目的、嘉奖跟举动空间单步或多少步方式(如 RLHF 或 DPO)与「真正的」RL 的要害差别在于时光跨度:短期优化:RLHF 跟 DPO 无效地针对即时(一步)反应停止优化。即便反应函数是经由过程(从人类标志的数据中)进修取得的,也不存在临时计划的连续状况 - 举动轮回。临时优化:在经典 RL 中,智能领会对多个步调的累积嘉奖停止优化,构成相似于「目的」的货色。嘉奖模子与举动空间相联合,可驱动在静态情况中塑造多步调行动的战略。别的,RL 平日假设有一个界说明白的举动空间(比方,将游戏棋子向上 / 向下 / 向左 / 向右挪动)。而在 LLM 微调中,「举措」的观点是含混的,平日会被直接参数更新或天生 token 所代替。加强提醒,乃至只是从牢固词汇中天生 token,都能够被视为「举措」,而「情况」则是 LLM 的外部状况。但是,这是对 RL 轮回的非尺度或某种不平常的从新说明。另一个专家廓清的成绩是 RL 中嘉奖跟目的之间的差别。准则上,RL「嘉奖」是领导智能体进修进程的旌旗灯号,而不老是明白的终极目的。假如嘉奖稀疏(仅在胜利 episode 停止时供给),智能体的现实「目的」可能看起来是「到达胜利前提」。但是,在实际中,好的 RL 计划平日会应用麋集的嘉奖旌旗灯号来领导旁边状况,从而辅助智能体更无效地进修。对 LLM 而言,「目的」的观点象征着对某些目的的连续、多步调的寻求。因为 RLHF 平日是在单步或多少步进程中停止的,因而该模子从未真正构成临时目的的外部表征。它只是依据嘉奖模子或偏好函数来优化即时文本输出。跋文RLHF、DPO、宪法 AI(Constitutional AI)跟其余受 RL 启示的微调方式对使 LLM 愈加分歧跟有效年夜有裨益。它们让咱们可能应用人类的偏好来塑造输出,增加有毒内容,并领导 LLM 呼应的作风。但是,这些技巧并不克不及为 LLM 供给真正的临时目的、外部念头或经典 RL 意思上的「用意」。LLM 依然是一个庞杂的下一个 token 猜测器,而不是一个自立智能体。假如将来咱们盼望 LLM 领有真正的 RL 怎样办?假如有一天,研讨职员将 LLM 集成到现实的多步调 RL 框架中(想想看:一个智能体在模仿或事实天下中导航,一直浏览跟天生文本,接受反应,并及时调剂战略),那么咱们就可能濒临真正的智能体行动。这须要大批的资本、经心的情况计划跟强盛的保险办法。在此之前,咱们所领有的体系 —— 只管功效强盛 —— 从基本上说依然是主动的、由离线或半离线反应旌旗灯号构成的下一个 token 猜测器。为什么这所有都很主要?从业者应当认识到这些范围性,不要高估 LLM 的自立性。政策制订者跟伦理学家应当意识到,LLM 弗成能自发地谋划或扯谎来到达暗藏的目标,除非被提醒指引去模拟这种行动。反过去说,假如将来的体系真的联合了存在年夜范围盘算跟静态情况的「真正 RL」,咱们可能会看到更多相似智能体的突刊行为 —— 这就会激发新的调剂跟保险成绩。将来偏向?更高的样本庞杂度:一个常常呈现的限度要素是,基于偏好的进修可能须要大批的人类 token 比拟,尤其是当义务变得越来越庞杂时。研讨职员平日采取模仿人的断定来停止 RL 试验,但这也带来了新的成绩,即这些模仿器怎样忠诚地模仿实在的人类偏好。扩大到临时义务:很多专家猜忌,短期输出的成对照较是否直接扩大到更庞杂的多步调义务。应用 LLM 停止真正的多步调 RL 须要一个情况,在这个情况中,模子能够停止摸索、取得旁边嘉奖并停止迭代 —— 而这在现在长短常昂贵的,也无奈年夜范围普遍实行。连接标记与次标记方式:对真正的临时偏好(如须要观点或标记懂得的义务),纯洁的「原始」配对偏好数据可能并缺乏够。可能须要某种情势的构造化、标记化反应(或「通用言语」),才干无效地将人类的轻微目的转达给人工智能体系。最后,固然 RLHF、DPO 跟相干方式供给了一种适用的方式,能够在短期情况中使 LLM 与人类偏好坚持分歧,但它们无奈付与 LLM 真正、长久的目的或用意。这些方式也只是与经典的 RL 或 IRL 范式略有对应。将来的体系若能在真正的多步调 RL 轮回中应用 LLM,就能解锁更多自立的、相似智能体的行动,但同时也会激发新的保险跟分歧性成绩。原文链接:https://www.linkedin.com/pulse/why-rlhf-other-rl-like-methods-dont-bring-true-rl-llmsand-atlas-wang-s1efc/
电话
020-66888888