010-53687375
联系电话
在线咨询
需求表单
所有全知新闻

2026年了,SFT是不是可以被淘汰了?

2026-01-30发布

从令人惊艳的ChatGPT到一鸣惊人的DeepSeek,再到如今的Gemini、千问、文心等百花齐放的大模型产品,我们在这些模型的迭代进程中都能看到RLHF(基于人类反馈的强化学习)的身影。

1.jpg

<图片来源于网络,如有侵权请联系删除>

于是不禁产生一个疑问:既然RLHF这么牛,干嘛不跳过SFT(监督微调)直接让模型在RLHF中一步登天?既省成本又能走捷径,多美好。

然而你需要知道一个真相:没有SFT做前提,RLHF再厉害也没用。

一、为什么不能RLHF一步到位?

这不是什么高难度、难理解的问题,而是模型训练逻辑的基本常识。

如果把大模型看作一个学生。那SFT阶段的数据训练就是它的义务教育,储备从小学到高中的知识,建立起基本的认知框架;而RLHF阶段就是大学及以上的专业课,教会它如何写出高质量论文。

2.jpg

<图片来源于网络,如有侵权请联系删除>

RLHF的本质是“比较”,给人类提供两个或多个回答,让其判断哪个更好。但这个机制成立的前提是:模型要生成可比较的答案。如果连基本对话能力都没有,生成的全是牛头不对马嘴的句子,那再厉害的奖励模型也不起作用。

二、为什么SFT是RLHF不可绕开的

No.1 先教会模型听懂人话

原始的基座模型本质上就是个单纯的文字接龙机器,给它一个文本,然后它预测下一个词最可能出现的概率。它不懂指令是什么,不知道回答是什么,更分不清事实和虚假。

而SFT的作用,就是给它做教育启蒙。通过成千上万条精心标注的问答对,模型才慢慢学会:

用户问XXX,是在问XX意思”

这类问题应该用XX结构回答”

这种请求需要拒绝,比如涉及违法内容”

3.jpg

<图片来源于网络,如有侵权请联系删除>

这个过程,就像教一个刚学会说话的孩子,从“这是苹果”到“请帮我查一下明天的天气”。如果没有这一步,RLHF面对的是一个连题目都读不懂的考生。

No.2 缩小搜索空间

宇宙里的回答组合是无穷多的。模型如果没经过SFT训练,那它生成的答案可以覆盖从冥想到量子力学的任何内容。比如一首现代诗,一段代码。

而RLHF需要的是两个处于相同水平的回答,让人去比较哪个更好。所以如果两个答案一个是诗,一个是代码,不在一个维度上根本没有可比性。

4.jpg

<图片来源于网络,如有侵权请联系删除>

因此SFT的作用,就是把模型的输出答案圈定在同一区域上,然后跟RLHF说在这个区域里去找更好的答案。

No.3 RM(奖励模型)依赖SFT

其实很多人还忽略了RLHF中的关键一环——奖励模型(Reward Model)。RM不是凭空明白什么回答是好的,它的训练数据来源于模型已生成的回答再由人类进行排序打分。

所以如果SFT没做好,模型输出的全是低质量、不完整、甚至错误的内容,那RM学出来的“偏好”,可能就是:更喜欢长的、更喜欢用专业术语的……

它无法识别内容真实性、逻辑性、准确性,因为它从没见过“真实的高质量回答”是什么样。

三、SFT与RLHF,不是替代而是共生

SFT和RLHF从来不是谁取代谁的关系,而是互相共存共生,它们就像一对好搭档,一个专注打地基,一个专注做精修。

5.jpg

1、SFT决定下限:知识和逻辑的硬底线

SFT的质量,直接决定了模型的知识水平:

  • 医疗问答是否准确?

  • 法律条文引用是否合规?

  • 数学推导有没有漏洞?

这些知识训练仅靠RLHF是完成不了的,RLHF只能优化回答语气,但不能把错误答案变正确。

2、RLHF决定上限:价值观与表达的软实力

如果说SFT教会模型说什么,那RLHF教会它怎么说。它解决的是SFT覆盖不到的软实力问题:

  • 价值观对齐:拒绝生成违法、歧视性内容

  • 语气适配:对小孩温柔,对专家专业

  • 减少幻觉:学会说我不知道,而不是硬编

  • 偏好对齐:知道用户更喜欢简洁还是详尽

这就像一个知识渊博的教授,终于学会了怎么给普通人讲清楚复杂概念。但一定记住:如果这个教授本身知识有误,再好的表达,也只是自以为专业的误导。

3、成本博弈:钱要花在刀刃上

跳过SFT≠省钱,原因如下:

  • SFT贵在“精”:一条代码类SFT数据,可能需要开发专家编写+资深码农审核+多轮质检,成本高,但数量相对少。

  • RLHF贵在“量”:一条prompt通常要配3-5组对比数据,标注量是SFT的3-5倍。

跳过SFT看似省了大量成本,实际修修补补更花钱。

四、高质量标注,才是AI智能的起点

在AI这场大戏中,算法是聚光灯下的主角,算力是支撑表演的舞台,而数据标注则是幕后默默耕耘的团队。它虽不引人注目,却是决定整场演出成败的关键。

作为专注AI数据服务9年的专业服务商,我们服务过100+客户、近万个项目,从通用大模型到垂直行业应用,我们越来越清楚地认识到:模型之间的差距,往往不在于算法创新,而在于训练数据的质量。

6.jpg

<图片来源于网络,如有侵权请联系删除>

技术浪潮更迭不息,RLHF的光环再耀眼,也无法替代扎实的基础工作。SFT或许不够炫目,但它就像模型的地基,牢牢承载着整座模型大厦的重量。

真正的AI智能,不在于华丽的表达,而在于准确、可靠、深入的理解与回应。这背后,是严谨的数据、精细的标注,以及对每一个细节的坚持与打磨。

在追逐技术前沿的时代,我们更需要铭记:所有令人惊艳的智能表现,都源于对产品最朴实的认真态度。

请填写以下表格,我们会尽快与您联系
* 公司名称
* 地区
* 姓名
* 邮箱
* 微信/电话
* 需求内容