2026年了,SFT是不是可以被淘汰了?
2026-01-30发布
从令人惊艳的ChatGPT到一鸣惊人的DeepSeek,再到如今的Gemini、千问、文心等百花齐放的大模型产品,我们在这些模型的迭代进程中都能看到RLHF(基于人类反馈的强化学习)的身影。

<图片来源于网络,如有侵权请联系删除>
于是不禁产生一个疑问:既然RLHF这么牛,干嘛不跳过SFT(监督微调)直接让模型在RLHF中一步登天?既省成本又能走捷径,多美好。
然而你需要知道一个真相:没有SFT做前提,RLHF再厉害也没用。
一、为什么不能RLHF一步到位?
这不是什么高难度、难理解的问题,而是模型训练逻辑的基本常识。
如果把大模型看作一个学生。那SFT阶段的数据训练就是它的义务教育,储备从小学到高中的知识,建立起基本的认知框架;而RLHF阶段就是大学及以上的专业课,教会它如何写出高质量论文。

<图片来源于网络,如有侵权请联系删除>
RLHF的本质是“比较”,给人类提供两个或多个回答,让其判断哪个更好。但这个机制成立的前提是:模型要生成可比较的答案。如果连基本对话能力都没有,生成的全是牛头不对马嘴的句子,那再厉害的奖励模型也不起作用。
二、为什么SFT是RLHF不可绕开的
No.1 先教会模型听懂人话
原始的基座模型本质上就是个单纯的文字接龙机器,给它一个文本,然后它预测下一个词最可能出现的概率。它不懂指令是什么,不知道回答是什么,更分不清事实和虚假。
而SFT的作用,就是给它做教育启蒙。通过成千上万条精心标注的问答对,模型才慢慢学会:
“用户问XXX,是在问XX意思”
“这类问题应该用XX结构回答”
“这种请求需要拒绝,比如涉及违法内容”

<图片来源于网络,如有侵权请联系删除>
这个过程,就像教一个刚学会说话的孩子,从“这是苹果”到“请帮我查一下明天的天气”。如果没有这一步,RLHF面对的是一个连题目都读不懂的考生。
No.2 缩小搜索空间
宇宙里的回答组合是无穷多的。模型如果没经过SFT训练,那它生成的答案可以覆盖从冥想到量子力学的任何内容。比如一首现代诗,一段代码。
而RLHF需要的是两个处于相同水平的回答,让人去比较哪个更好。所以如果两个答案一个是诗,一个是代码,不在一个维度上根本没有可比性。

<图片来源于网络,如有侵权请联系删除>
因此SFT的作用,就是把模型的输出答案圈定在同一区域上,然后跟RLHF说在这个区域里去找更好的答案。
No.3 RM(奖励模型)依赖SFT
其实很多人还忽略了RLHF中的关键一环——奖励模型(Reward Model)。RM不是凭空明白什么回答是好的,它的训练数据来源于模型已生成的回答再由人类进行排序打分。
所以如果SFT没做好,模型输出的全是低质量、不完整、甚至错误的内容,那RM学出来的“偏好”,可能就是:更喜欢长的、更喜欢用专业术语的……
它无法识别内容真实性、逻辑性、准确性,因为它从没见过“真实的高质量回答”是什么样。
三、SFT与RLHF,不是替代而是共生
SFT和RLHF从来不是谁取代谁的关系,而是互相共存共生,它们就像一对好搭档,一个专注打地基,一个专注做精修。

1、SFT决定下限:知识和逻辑的硬底线
SFT的质量,直接决定了模型的知识水平:
医疗问答是否准确?
法律条文引用是否合规?
数学推导有没有漏洞?
这些知识训练仅靠RLHF是完成不了的,RLHF只能优化回答语气,但不能把错误答案变正确。
2、RLHF决定上限:价值观与表达的软实力
如果说SFT教会模型说什么,那RLHF教会它怎么说。它解决的是SFT覆盖不到的软实力问题:
价值观对齐:拒绝生成违法、歧视性内容
语气适配:对小孩温柔,对专家专业
减少幻觉:学会说我不知道,而不是硬编
偏好对齐:知道用户更喜欢简洁还是详尽
这就像一个知识渊博的教授,终于学会了怎么给普通人讲清楚复杂概念。但一定记住:如果这个教授本身知识有误,再好的表达,也只是自以为专业的误导。
3、成本博弈:钱要花在刀刃上
跳过SFT≠省钱,原因如下:
SFT贵在“精”:一条代码类SFT数据,可能需要开发专家编写+资深码农审核+多轮质检,成本高,但数量相对少。
RLHF贵在“量”:一条prompt通常要配3-5组对比数据,标注量是SFT的3-5倍。
跳过SFT看似省了大量成本,实际修修补补更花钱。
四、高质量标注,才是AI智能的起点
在AI这场大戏中,算法是聚光灯下的主角,算力是支撑表演的舞台,而数据标注则是幕后默默耕耘的团队。它虽不引人注目,却是决定整场演出成败的关键。
作为专注AI数据服务9年的专业服务商,我们服务过100+客户、近万个项目,从通用大模型到垂直行业应用,我们越来越清楚地认识到:模型之间的差距,往往不在于算法创新,而在于训练数据的质量。

<图片来源于网络,如有侵权请联系删除>
技术浪潮更迭不息,RLHF的光环再耀眼,也无法替代扎实的基础工作。SFT或许不够炫目,但它就像模型的地基,牢牢承载着整座模型大厦的重量。
真正的AI智能,不在于华丽的表达,而在于准确、可靠、深入的理解与回应。这背后,是严谨的数据、精细的标注,以及对每一个细节的坚持与打磨。
在追逐技术前沿的时代,我们更需要铭记:所有令人惊艳的智能表现,都源于对产品最朴实的认真态度。