昆仑万维天工团队近期推出了全新升级的Skywork-OR1(Open Reasoner 1)系列模型,这是继2025年2月发布首款中文逻辑推理大模型Skywork-o1之后的又一力作。该系列模型在同等参数规模下实现了业界领先的推理性能,进一步突破了大模型在逻辑理解与复杂任务求解方面的能力瓶颈。本文将深入解析昆仑万维天工模型内测背后的科技奥秘。
模型概述
Skywork-OR1系列模型包括三款高性能模型:
- Skywork-OR1-Math-7B:聚焦数学领域的专项模型,同时也具备较强的代码能力。
- Skywork-OR1-7B-Preview:融合数学与代码能力,兼具通用性与专业性。
- Skywork-OR1-32B-Preview:面向更高复杂度任务,具备更强推理能力的旗舰版本。
性能突破
在竞赛编程任务中,通用模型Skywork-OR1-7B-Preview与Skywork-OR1-32B-Preview在LiveCodeBench数据集上均取得了同等参数规模下的最优性能。特别是Skywork-OR1-32B-Preview,其代码生成与问题求解能力已接近DeepSeek-R1(参数规模高达671B),在大幅压缩模型体量的同时实现了卓越的性价比。
技术解析
数据选择与预处理
Skywork-OR1构建了一个高质量数学和代码数据集,用于强化学习以提升模型在数学和代码领域的推理能力。团队根据可验证性、正确性与挑战性三个标准进行初步数据筛选,剔除无法自动验证的证明类题目、有误题目和缺少unit test的代码问题。
在数据过滤方面,为避免“全对”或“全错”现象对策略学习无效,每道题进行了多轮采样并验证答案,并基于模型表现过滤难度极端的题目。
模型训练
Skywork-OR1采用了Group Relative Policy Optimization (GRPO)进行模型训练,并引入了训练时数据优化、训练Pipeline优化、训练时模型探索和训练Loss优化等多项优化措施。
开源策略
昆仑万维天工团队采用业界最高透明度的开源策略,全面开源了模型权重、训练数据集和完整训练代码,所有资源均已上传至GitHub和Huggingface平台。配套的技术博客已发布于Notion平台,详细阐述了数据处理流程、训练方法和关键技术发现,为社区提供了完全可复现的实践参考。
评测指标
在评测方面,Skywork-OR1系列模型引入了avg@k作为核心评估指标,用于衡量模型在进行k次尝试时成功解决问题的平均表现。相较于传统的pass@k指标仅关注是否至少一次成功”,avg@k能更细致地捕捉模型在多轮生成过程中的稳定性与整体推理能力,从而更全面反映其真实性能水平与实用价值。
总结
昆仑万维天工团队通过在数据选择、模型训练和评测等方面的创新,成功打造了Skywork-OR1系列模型,实现了大模型在逻辑理解与复杂任务求解方面的性能突破。全面开源的策略也进一步推动了AI社区的共同进步。未来,随着技术的不断发展和完善,Skywork-OR1系列模型有望在更多领域发挥重要作用。
