Loading...

昆仑万维「天工大模型4.0」o1版(Skywork o1)正式启动邀请测试

AI资讯3周前发布 aizhushou
13 0

国内首家o1

今天,昆仑万维正式推出具有复杂思考推理能力的系列模型——「天工大模型4.0」 o1版(Skywork o1)。

昆仑万维「天工大模型4.0」o1版(Skywork o1)正式启动邀请测试

Skywork o1是由昆仑万维集团发布的具有慢思考推理能力的系列模型。这是国内第一款中文逻辑推理能力的o1模型。不同于现有的复现OpenAI o1模型的工作,Skywork o1不仅在模型输出上内生了思考、计划、反思等能力,同时,该开源模型在标准评测集上,对比普通模型推理能力大幅上升,真正让模型拥有了思考和反思带来的推理能力的提升。团队复现o1的技术路线,使得初始推理能力较差的基座模型在基准测试集上成为生态位SOTA。

此次发布的Skywork o1包括三款模型,既有回馈开源社区的开放版本,也有能力更强的专用版本:

其中,我们开源的Skywork o1 Open,在各项数学和代码指标上均有大幅提高,将Llama-3.1-8B的性能拉到同生态位SOTA(超越Qwen-2.5-7B instruct)。同时,8B的Skywork o1 Open也解锁了很多较大量级模型,如GPT 4o,无法完成的数学推理任务(如24点计算)。这也为推理模型在轻量级设备上部署提供了可能性。

昆仑万维「天工大模型4.0」o1版(Skywork o1)正式启动邀请测试 昆仑万维「天工大模型4.0」o1版(Skywork o1)正式启动邀请测试

同时,我们也将开源两个推理任务的Process Reward Model(PRM):Skywork o1 Open-PRM-1.5B 和Skywork o1 Open-PRM-7B,相比此前开源的Skywork-Reward-Model仅对整个模型回答进行打分,Skywork o1 Open-PRM能给模型回答中的每个步骤进行打分。

对比开源社区现有的PRM,Skywork o1 Open-PRM-1.5B能达到开源社区8B的模型效果,例如RLHFlow的Llama3.1-8B-PRM-Deepseek-Data,OpenR的Math-psa-7B,Skywork o1 Open-PRM-7B能同时在大部分benchamrk上接近/超过10倍量级的Qwen2.5-Math-RM-72B。Skywork o1 Open-PRM也是第一款适配代码类任务的开源PRM。下面表格为以Skywork-o1-Open-8B作为基础模型,使用不同PRM在数学和代码评测集上的评估结果。

昆仑万维「天工大模型4.0」o1版(Skywork o1)正式启动邀请测试

除Skywork-o1-Open-PRM外,其他开源PRM均未针对代码类任务进行专门优化,故不进行代码任务的相关对比。

详细技术报告也将在不久后发布。目前模型和相关介绍在Huggingface开源。

开源地址:

01.强推理以及自我反思的能力是如何练成的?

Skywork o1在逻辑推理任务上性能的大幅提升得益于天工三阶段自研的训练方案:

关于天工 Q*算法,更多详情可见:

02.亮点功能与实测

Skywork o1模型具有以下能力和亮点功能:

相较于此前(长文本任务)大模型,无论是常识推理问题、逻辑推理问题、数学推理问题、伦理决策问题、还是“弱智”(类似脑筋急转弯)逻辑陷阱问题等,Skywork o1都处理的游刃有余。整体来说,Skywork o1 Lite和Skywork o1 Preview线上版本在复杂问题分析、思考反思过程、输出答案质量上均有大幅提升。

首先,我们拿一道「2024年全国硕士研究生入学统一考试数学(一)试题」考考它(如下图所示),测试一下它的“智力水平”。

昆仑万维「天工大模型4.0」o1版(Skywork o1)正式启动邀请测试

面对难度不小的最新考研数学题,Skywork o1 Preview尽管花费了一些时间,但还是一步步推理出了正确结果。

那么,之前大模型经常翻车的比大小问题,Skywork o1现在的回答水平如何了?

昆仑万维「天工大模型4.0」o1版(Skywork o1)正式启动邀请测试

从它的思考过程可以看出,Skywork o1的模型思考和规划能力大幅提升。这个解题逻辑非常像人类的思考方法了,“如果整数部分相同,那么就要开始比较小数部分了”。通过严谨的推理过程,准确得出8.8大于8.11,且多给出了一步差值计算。

此外,模型自我反思能力和自我验证能力也都有长足进步。Skywork o1可以准确识别出“nǐ hǎo hěn gāo xìng rèn shí nǐ”,还可以给出后续对话建议。

昆仑万维「天工大模型4.0」o1版(Skywork o1)正式启动邀请测试 昆仑万维「天工大模型4.0」o1版(Skywork o1)正式启动邀请测试

尽管我们让它回答存在中文读音“陷阱”的问题——“请将qíng rén yǎn lǐ chū xī shī转换为中文”,它也没有被我们绕进去。充分展示了中文逻辑问题思考中的反思能力,它主动发现了“西诗”是不对的说法,而是“西施”。

同样的,对于之前的大模型来说,“算24点”的游戏很容易把模型搞崩溃了,但是对于Skywork o1来说,可谓是小菜一碟。它不仅给出了正确答案,重点是它在过程中进行了「自我验证」。它在计算过后,又检查了一遍,确认过程和答案全部符合命题要求,才给出最终答案。

昆仑万维「天工大模型4.0」o1版(Skywork o1)正式启动邀请测试

除了上述给出的数学推理、比大小、中文逻辑以及24点计算的任务外,Skywork o1在其他复杂的场景也有较好表现:

竞赛数学:Skywork o1拿到2024 AIME第一题(如下图所示),也从容应对。计算逻辑清晰、公式展示流畅,计算时长也明显具有优势。

昆仑万维「天工大模型4.0」o1版(Skywork o1)正式启动邀请测试 昆仑万维「天工大模型4.0」o1版(Skywork o1)正式启动邀请测试

(上下滑动查看)

密码解密:在复杂密码解密任务中,Skywork o1拥有强大的自我探索和推理能力。

昆仑万维「天工大模型4.0」o1版(Skywork o1)正式启动邀请测试

在已知「原文→密文」的前提下,经过一系列复杂推理后成功给出答案(如下图所示)。

昆仑万维「天工大模型4.0」o1版(Skywork o1)正式启动邀请测试

如果反过来呢?已知一段「密文→原文」,能否找出新密文所对应的原文。Skywork o1表示小菜一碟。

昆仑万维「天工大模型4.0」o1版(Skywork o1)正式启动邀请测试

(上下滑动查看)

智力问答:在复杂的中文推理问题上,Skywork o1表现优异,并给出了完整的思考链路。

昆仑万维「天工大模型4.0」o1版(Skywork o1)正式启动邀请测试 昆仑万维「天工大模型4.0」o1版(Skywork o1)正式启动邀请测试

最后,再让我们再给他出一些有趣的“弱智”问题,来看看它的回答是不是合理。

昆仑万维「天工大模型4.0」o1版(Skywork o1)正式启动邀请测试 昆仑万维「天工大模型4.0」o1版(Skywork o1)正式启动邀请测试 昆仑万维「天工大模型4.0」o1版(Skywork o1)正式启动邀请测试

令人惊喜的是,Skywork o1不但没有被问题绕进去,还分析的头头是道,甚至透露出“大智慧”,引申出了一些更底层的思考。

进阶版的复杂人类思考能力的解锁也将进一步在垂类领域增强大模型的应用,例如:

2024年以来,昆仑万维天工AI持续进化,陆续发布了「天工2.0」、「天工3.0」、「天工大模型4.0」4o版——Skywork 4o,以及今天正式发布的「天工大模型4.0」 o1版(Skywork o1),不仅是我们贯彻“All in AGI 与 AIGC” 战略的重要举措,更是我们构建AI技术栈的重要一步。我们将秉持“实现通用人工智能,让每个人更好地塑造和表达自我”的使命,从模型层、应用层等全方位、多维度来构建公司技术竞争力和生态矩阵。

测试地址

「天工大模型4.0」 o1版(Skywork o1)开启测试

尝鲜地址:

© 版权声明

相关文章

暂无评论

暂无评论...