大模型之家讯 7月4日,昆仑万维推出新一代奖励模型Skywork-Reward-V2,基于Qwen3、LLaMA 3等架构训练出8个参数规模差异显著的模型(0.6B-8B),在RewardBench v2、JudgeBench等7项主流基准测试中均取得SOTA成绩。其中,Skywork-Reward-V2-Llama-3.1-8B超越闭源模型Claude-3.7-Sonnet,在数学推理、代码生成等任务中表现尤为突出。
核心创新在于其Skywork-SynPref-40M数据集,通过“人机协同两阶段迭代”流程,构建出4000万对高质量偏好样本,最终精筛至2600万条,实现人工标注效率提升与数据规模的平衡。实验表明,仅需1.8%的高质量数据(约29万条)即可训练出性能超越70B级SOTA模型的8B参数模型,验证了“少而精”范式的有效性。
此外,昆仑万维同步开源多项技术成果,包括代码智能体基座Skywork-SWE、空间智能模型Matrix-Game、视频生成模型SkyReels-V2等,持续推动大模型在多模态与复杂任务中的能力突破。此次发布标志着奖励模型从“弱监督评分器”向“强泛化价值建模器”的演进,为RLHF(强化学习人类反馈)中的数据驱动对齐技术提供新范式。
