010-53687375
联系电话
在线咨询
需求表单
所有全知新闻

全知视角|大模型后训练时代下的数据标注

2025-08-11发布

2024 年 NeurIPS 会议现场,OpenAI 联合创始人Ilya Sutskever 曾断言 “预训练从此将彻底终结”。这并非危言耸听,斯坦福AI指数报告显示,2023 年大模型预训练成本飙升 350%,但模型性能提升却从 2021 年的 47% 急剧滑落至 8%,算力投入与产出效益间的巨大落差,无情地宣告单纯依靠海量数据的无监督预训练模式已触及天花板。

                                             

wechat_2025-08-05_174810_219.png

在此时代背景下,数据标注完成了从幕后默默奉献到台前核心担当的华丽蜕变。尽管AI已具备批量生成数据的能力,但在复杂的现实场景中,如法律文书的严谨语义辨析、医疗影像的精准病灶标注,人类标注者凭借专业知识与经验做出的最终判断,依旧是无可替代的关键环节。

一、预训练与后训练是什么

1. 预训练:大模型的“通识教育”

预训练阶段宛如为模型搭建起一条知识的高速公路。模型通过吸收PB级的无标注数据,从维基百科的专业词条到社交媒体的日常闲聊,在自监督学习过程中,逐步掌握语言结构、世界运行常识以及基础的推理逻辑。以 GPT-3 为例,其训练数据规模高达 45TB,信息量相当于 3000 万本图书,堪称知识 “巨无霸”。

ilgmyzin-agFmImWyPso-unsplash.jpg

2. 后训练:大模型的“专业深造”

后训练则如同为模型配备了高精度的导航系统。借助有监督微调SFT(Supervised Fine-Tun-ing)、奖励模型训练RM(Reward Model)等一系列技术手段,将模型的通用能力巧妙转化为在垂直领域的精湛专业技能。这就好比医学生在完成基础医学知识学习后,投身临床实习,通过接触大量真实病例,掌握各类疾病的精准诊断方法。

二者关系用建筑工程来类比再恰当不过:预训练构建出的是仅有基础框架、功能尚不完善的“毛坯房”;后训练则是依据用户个性化需求,进行水电线路规划、墙面装饰等“精装修”;而数据标注则是贯穿整个建筑流程的“施工蓝图”,其质量直接决定了最终成品的品质与精度。

建筑工程类比图.png

二、后训练的三大核心环节与数据标注

1. 监督微调(SFT, Supervised Fine-Tuning)

这一环节相当于为模型提供专门的“一对一辅导”,借助高质量的标注数据,对模型的基础能力进行精准校准。

数据标注在此呈现出 “双高” 特性:

专业壁垒高:在医学影像分析中,标注员需要能够精确区分CT影像中的疾病特征。这种精细的标注可以帮助AI模型更好地学习并进行准确的诊断。

场景覆盖广:在法律标注领域,除了具备专业的法律知识,还需要能标注海量合同数据,涵盖买卖合同、劳动合同等常见文书类型。例如,针对一份买卖合同,标注员需从条款合规性、权益分配合理性等多个维度进行细致标注,为模型学习提供丰富多样的训练样本。

wechat_2025-08-06_104243_612.png

2. 奖励模型训练(RM, Reward Modeling)

如果说SFT是教会模型“怎么做”,那么RM则是帮助模型明确“怎样做才更好”。标注员需针对同一指令产生的多个模型输出,依据特定标准进行排序标注,为模型塑造一套科学合理的“审美体系”。

wechat_2025-08-06_120314_949.png

在教育领域,针对“如何讲解二次函数”这一问题,标注团队会从“逻辑严谨性”“语言通俗易懂程度”“例题与知识点的适配性”三个关键维度,对模型生成的5个不同回答进行打分排序,且要求最高分与最低分的分差控制在0.5分以内(满分 10 分制),确保评价标准的精准与严格。

这一过程蕴含着巧妙的“反作弊”设计:标注指南中明确禁止模型因追求效率而偏好简短答案,规避模型只给出一句话回复的敷衍情况;同时,特别设置“反偏见校验”机制,针对涉及性别、种族等敏感内容进行重点标注与校准,引导模型输出客观、公正且符合社会价值观的内容。

3. 强化学习(RLHF, Reinforcement Learning from Human Feedback)

RLHF促使模型能力实现“螺旋式上升”,标注工作也从传统的静态模式升级为动态的人机协作模式。当模型生成可能存在偏见或错误的内容时,标注员能够迅速标注“触发敏感词”,并提供正确的修正范例,模型则依据强化学习算法,不断调整自身输出策略,持续优化表现。

这种交互式标注催生了新兴职业——AI 训练师。他们不仅要对标注规则烂熟于心,还需深入洞察模型行为特征。以自动驾驶大模型训练为例,训练师需要凭借丰富经验,预判模型可能出现误判的“鬼探头”等高风险场景,提前标注多达300种行人横穿马路的危险模式,为模型安全可靠运行保驾护航。

AI训练师.png

三、数据标注 ——AI 进化的人类灯塔

后训练时代的竞争,归根结底是标注数据的比拼。随着AI技术的迅速发展,模型的参数规模日益相近,如何进一步提升AI性能成为亟待解决的挑战。在这一过程中,标注数据所凝聚的人类智慧越发显得重要。

高质量的标注数据,可以有效推动模型性能的提升。长远来看,数据标注不仅提供了训练样本,也帮助AI构建了能够反映人类价值观的知识体系。从自动驾驶场景下,面对不可避免碰撞时,对保护对象优先级的“伦理标注”;到司法AI领域,对量刑尺度的精准“校准标注”,人类通过数据标注,将社会文明共识、伦理道德准则逐步融入机器智能之中。

mohamed-nohassi--0xMiYQmk8g-unsplash.jpg

当AI已能自主生成部分数据,数据标注的使命也从追求数量的积累,转向对质量的极致追求。在这场人与机器携手共进的智能进化旅程中,数据标注既是推动技术突破的重要支点,更是人类牢牢把握智能发展主导权的关键保障。

数据标注产业正迎来前所未有的发展机遇,也肩负着引领AI技术迈向更高台阶、深度服务社会的重大使命,其在AI进化历程中的核心地位将愈发凸显。


请填写以下表格,我们会尽快与您联系
* 公司名称
* 地区
* 姓名
* 邮箱
* 微信/电话
* 需求内容