全知启航-人工智能全数据服务商

所有全知新闻

2026年了，SFT是不是可以被淘汰了？

2026-01-30发布

从令人惊艳的ChatGPT到一鸣惊人的DeepSeek，再到如今的Gemini、千问、文心等百花齐放的大模型产品，我们在这些模型的迭代进程中都能看到RLHF（基于人类反馈的强化学习）的身影。

<图片来源于网络，如有侵权请联系删除>

于是不禁产生一个疑问：既然RLHF这么牛，干嘛不跳过SFT（监督微调）直接让模型在RLHF中一步登天？既省成本又能走捷径，多美好。

然而你需要知道一个真相：没有SFT做前提，RLHF再厉害也没用。

一、为什么不能RLHF一步到位？

这不是什么高难度、难理解的问题，而是模型训练逻辑的基本常识。

如果把大模型看作一个学生。那SFT阶段的数据训练就是它的义务教育，储备从小学到高中的知识，建立起基本的认知框架；而RLHF阶段就是大学及以上的专业课，教会它如何写出高质量论文。

<图片来源于网络，如有侵权请联系删除>

RLHF的本质是“比较”，给人类提供两个或多个回答，让其判断哪个更好。但这个机制成立的前提是：模型要生成可比较的答案。如果连基本对话能力都没有，生成的全是牛头不对马嘴的句子，那再厉害的奖励模型也不起作用。

二、为什么SFT是RLHF不可绕开的

No.1 先教会模型听懂人话

原始的基座模型本质上就是个单纯的文字接龙机器，给它一个文本，然后它预测下一个词最可能出现的概率。它不懂指令是什么，不知道回答是什么，更分不清事实和虚假。

而SFT的作用，就是给它做教育启蒙。通过成千上万条精心标注的问答对，模型才慢慢学会：

“用户问XXX，是在问XX意思”

“这类问题应该用XX结构回答”

“这种请求需要拒绝，比如涉及违法内容”

<图片来源于网络，如有侵权请联系删除>

这个过程，就像教一个刚学会说话的孩子，从“这是苹果”到“请帮我查一下明天的天气”。如果没有这一步，RLHF面对的是一个连题目都读不懂的考生。

No.2 缩小搜索空间

宇宙里的回答组合是无穷多的。模型如果没经过SFT训练，那它生成的答案可以覆盖从冥想到量子力学的任何内容。比如一首现代诗，一段代码。

而RLHF需要的是两个处于相同水平的回答，让人去比较哪个更好。所以如果两个答案一个是诗，一个是代码，不在一个维度上根本没有可比性。

<图片来源于网络，如有侵权请联系删除>

因此SFT的作用，就是把模型的输出答案圈定在同一区域上，然后跟RLHF说在这个区域里去找更好的答案。

No.3 RM（奖励模型）依赖SFT

其实很多人还忽略了RLHF中的关键一环——奖励模型（Reward Model）。RM不是凭空明白什么回答是好的，它的训练数据来源于模型已生成的回答再由人类进行排序打分。

所以如果SFT没做好，模型输出的全是低质量、不完整、甚至错误的内容，那RM学出来的“偏好”，可能就是：更喜欢长的、更喜欢用专业术语的……

它无法识别内容真实性、逻辑性、准确性，因为它从没见过“真实的高质量回答”是什么样。

三、SFT与RLHF，不是替代而是共生

SFT和RLHF从来不是谁取代谁的关系，而是互相共存共生，它们就像一对好搭档，一个专注打地基，一个专注做精修。

1、SFT决定下限：知识和逻辑的硬底线

SFT的质量，直接决定了模型的知识水平：

医疗问答是否准确？
法律条文引用是否合规？
数学推导有没有漏洞？

这些知识训练仅靠RLHF是完成不了的，RLHF只能优化回答语气，但不能把错误答案变正确。

2、RLHF决定上限：价值观与表达的软实力

如果说SFT教会模型说什么，那RLHF教会它怎么说。它解决的是SFT覆盖不到的软实力问题：

价值观对齐：拒绝生成违法、歧视性内容
语气适配：对小孩温柔，对专家专业
减少幻觉：学会说我不知道，而不是硬编
偏好对齐：知道用户更喜欢简洁还是详尽

这就像一个知识渊博的教授，终于学会了怎么给普通人讲清楚复杂概念。但一定记住：如果这个教授本身知识有误，再好的表达，也只是自以为专业的误导。

3、成本博弈：钱要花在刀刃上

跳过SFT≠省钱，原因如下：

SFT贵在“精”：一条代码类SFT数据，可能需要开发专家编写+资深码农审核+多轮质检，成本高，但数量相对少。
RLHF贵在“量”：一条prompt通常要配3-5组对比数据，标注量是SFT的3-5倍。

跳过SFT看似省了大量成本，实际修修补补更花钱。

四、高质量标注，才是AI智能的起点

在AI这场大戏中，算法是聚光灯下的主角，算力是支撑表演的舞台，而数据标注则是幕后默默耕耘的团队。它虽不引人注目，却是决定整场演出成败的关键。

作为专注AI数据服务9年的专业服务商，我们服务过100+客户、近万个项目，从通用大模型到垂直行业应用，我们越来越清楚地认识到：模型之间的差距，往往不在于算法创新，而在于训练数据的质量。

<图片来源于网络，如有侵权请联系删除>

技术浪潮更迭不息，RLHF的光环再耀眼，也无法替代扎实的基础工作。SFT或许不够炫目，但它就像模型的地基，牢牢承载着整座模型大厦的重量。

真正的AI智能，不在于华丽的表达，而在于准确、可靠、深入的理解与回应。这背后，是严谨的数据、精细的标注，以及对每一个细节的坚持与打磨。

在追逐技术前沿的时代，我们更需要铭记：所有令人惊艳的智能表现，都源于对产品最朴实的认真态度。